JP2005182696A - 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム - Google Patents

機械学習システム及び機械学習方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2005182696A
JP2005182696A JP2003426330A JP2003426330A JP2005182696A JP 2005182696 A JP2005182696 A JP 2005182696A JP 2003426330 A JP2003426330 A JP 2003426330A JP 2003426330 A JP2003426330 A JP 2003426330A JP 2005182696 A JP2005182696 A JP 2005182696A
Authority
JP
Japan
Prior art keywords
learning
data
machine learning
evaluation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003426330A
Other languages
English (en)
Inventor
Hiroki Yoshimura
宏樹 吉村
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Daigo Sugihara
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2003426330A priority Critical patent/JP2005182696A/ja
Publication of JP2005182696A publication Critical patent/JP2005182696A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 評価データに適切な学習データを用いて精度の高い機械学習を行なう。
【解決手段】 評価対象となるデータが与えられる度に、学習データと評価データから学習データを選択するための第2の素性を抽出し、第2の素性を基に機械学習に用いるのに適した学習データを選択することができる。すなわち、評価データに適した学習データを用いて機械学習を行なうことが可能となる。また、評価データ毎に学習データを取捨選択するので、素性数の計算上の限界を超える素性を用意しておくことができる。
【選択図】 図1

Description

本発明は、学習データを入力とし、統計処理手法を用いることによって、データの特徴を説明するための規則を出力する機械学習システム及び機械学習方法、並びにコンピュータ・プログラムに係り、特に、学習データ中の各データに、データの評価があらかじめ(人手によって)付与されている教師ありの機械学習を行なう機械学習システム及び機械学習方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、教師あり機械学習により、学習データ中の素性とその評価の間の対応規則を学習することによって、非学習データが与えられたときにその評価を予測する機械学習システム及び機械学習方法、並びにコンピュータ・プログラムに係り、特に、非学習データに適切な学習データを用いて精度の高い機械学習を行なう機械学習システム及び機械学習方法、並びにコンピュータ・プログラムに関する。
昨今の情報処理技術の発展と普及とも相俟って、産業活動や日常生活におけるさまざまな処理や作業の自動化が進められている。ここで、機械を自動化するには、さまざまなパラメータを決定する必要がある。このようなパラメータを機械自身で決定するために、いわゆる「機械学習」が導入されている。
機械学習では、学習データを入力とし、統計処理手法を用いることによって、データの特徴を説明するための規則を出力する。例えば、機械自身がある動作を行なったときに得られた結果を学習データとして入力してこれを統計的に評価し、その評価を自分自身の行動決定パラメータに反映させる。
機械自身が自分で評価できない場合には、「教師あり学習」と呼ばれる方法により、人間が期待する解を機械に与え、その解に至るように学習のパラメータを調整する。これに対し、自分で評価することを「教師なし学習」と呼ぶ。教師あり学習として、ニューラル・ネットワークなどを利用した処理方法が挙げられる。また、教師なし学習として、EM(expectation maximization)アルゴリズムなどを利用した処理方法が挙げられる。
前者の教師あり機械学習では、学習データ中の各データに、データの評価があらかじめ(人手によって)付与されている。学習データ中の各データの特徴(以下、「素性」とも呼ぶ)とその評価の間の対応関係(対応規則)を学習することによって、非学習データ(テスト・データ)が与えられたときにその評価を予測することが可能となる。
現在、Support Vector Machine(SVM)や、Maximum Entorpy(ME)などさまざまな教師あり機械学習手法が提案され、自然言語処理や生物情報学などのさまざまな分野で実用的に使用されている。機械学習手法の詳細については、例えば、Fabrizio Sebastiani著“Machine Learning in Automated Text Categorization”(ACM Compurting Surveys Vol.34, No.1,pp.1−47,2002)に記載されている。
例えば、異常(不正)であるか否かがわかっていないデータ(教師なしデータ)を基に、異常データを特徴付けるルールを生成し、さらに得られたルールを用いて効率よく異常なデータを検出することができる(例えば、特許文献1を参照のこと)。すなわち、データ集合内にある異常なデータを特徴付けるルールを生成する外れ値検出するために、異常であることの度合いを示す外れ値度を算出し、かつ外れ値度に基づいてサンプリングすることにより、異常なデータであるか否かを示すラベルを付与した各データの集合に基づく教師あり学習により、異常なデータを特徴付けるルールを生成する教師あり学習部を備え、効率よく異常なデータを検出することができる。
特開2003−5970号公報
従来の教師あり機械学習では、なるべく多くの種類の素性をあらかじめ設定しておき、それら大量の素性を用いて機械学習を行なう(すなわち、対応規則を生成する)。しかしながら、実際に扱うことが可能な素性の(種類の)数には限界があり、限界を超えた場合には計算量が増大し、学習を実行することが不可能となる。また、素性と評価の間の対応規則と無関係な素性を大量に学習に含めると、得られる対応規則の信頼性を損ねることになる。
このように、適切な素性の選択は、精度の高い機械学習を実現するために不可欠の要素である。しかしながら、適切な素性であるか否かは、どのようなテスト・データが入力されるかに依存するため、あらゆるテスト・データに平均的に有効な素性を、素性数の計算上の上限までの範囲で用意しておくしかなかった。
例えば前述した特許文献1においては、大多数のデータが従う確率分布から外れたデータ(発生しにくいデータ)を、「統計的外れ値」としてそのデータを異常(不正)と同定することができるが、評価データに対し相対的に適した学習データを用いるものではなく、上述したような技術的課題を解決していない。
本発明の目的は、学習データ中の各データに、データの評価があらかじめ(人手によって)付与されている教師ありの機械学習を高い精度で行なうことができる、優れた機械学習システム及び機械学習方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、非学習データに適切な学習データを用いて精度の高い機械学習を行なうことができる、優れた機械学習システム及び機械学習方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、データの評価があらかじめ付与されている教師ありの機械学習を行なう機械学習システムであって、
機械学習を行なうための学習データの候補を評価とともに保持する学習データ保持部と、
評価対象となるデータを受け取る評価データ入力部と、
前記学習データ保持部に保持されるデータ及び前記評価データ入力部で受け取ったデータから、機械学習及び評価を行なう際に用いる第1の素性情報を抽出する第1の素性取得部と、
前記学習データ保持部に保持されるデータ及び前記評価データ入力部で受け取ったデータから、機械学習を行なう際に用いる学習データを選択するための第2の素性情報を抽出する第2の素性取得部と、
前記第2の素性取得部から得られる第2の素性情報に基づいて、前記学習データ保持部に保持されている学習データの候補の中から機械学習を行なう際に用いる学習データを選択する学習データ選択部と、
前記学習データ選択部によって選択された各学習データの評価と、前記第1の素性取得部から得られた各データの第1の素性情報を基に、素性とその評価の間の対応関係を学習する機械学習部と、
を具備することを特徴とする機械学習システムである。
図1には、本発明に係る機械学習システムの機能構成を模式的に示している。同図に示すように、機械学習システムは、学習データ保持部1と、評価データ入力部2と、第1の素性取得部3と、第2の素性取得部と、学習データ選択部5と、機械学習部6で構成される。
第1の素性取得部3は、学習データ保持部1に保持されるデータ及び評価データ入力部2で受け取ったデータから、機械学習並びに評価を行なう際に用いる第1の素性情報を抽出する。
これに対し、第2の素性取得部4は、学習データ保持部1に保持されるデータ及び評価データ入力部2で受け取ったデータから、機械学習を行なう際に用いる学習データを選択するための第2の素性情報を抽出する。さらに、学習データ選択部5は、第2の素性取得部4から得られる素性に基づいて、機械学習を行なう際に用いる学習データを選択する。
そして、機械学習部6は、学習データ選択部5によって選択された各学習データの評価と、第1の素性取得部3から得られた各データの素性を基に、素性とその評価の間の対応関係を計算する。
本発明に係る機械学習システムでは、学習時には、すべての学習データについて第1及び第2の素性情報を取得し、第1及び第2の素性情報を基にそれぞれ学習する。そして、評価時には、まず評価データについての第2の素性情報を取得し、第2の素性情報を基に評価データの評価を行ない、次いで、評価のよい第2の素性情報を基に学習データを選択し、選択された学習データを用いて第1の素性情報を基に評価データの評価を行なう。
本発明に係る機械学習システムは、素性情報を分離することにより、機械学習の高精度化を図るものである。すなわち、評価対象となるデータが与えられる度に、学習データと評価データから学習データを選択するための第2の素性を抽出し、第2の素性を基に機械学習に用いるのに適した学習データを選択することができる。すなわち、評価データに適した学習データを用いて機械学習を行なうことが可能となる。また、評価データ毎に学習データを取捨選択するので、素性数の計算上の限界を超える素性を用意しておくことができる。
ここで、前記学習データ保持部は、例えば、自然言語文からなるテキスト・データを保持する。そして、前記第1の素性取得部及び前記第2の素性取得部は、形態素解析処理又は構文解析処理により、学習データから形態素や構文解析儀などを素性情報として取得することができる。
本発明に係る機械学習システムは、例えば文書分類システムに適用される。そして、前記機械学習部は、例えば、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算することができる。
ここで言うベクトル空間法とは、全テキスト・データに含まれる全単語のうち出現頻度の多い所定数のものを「特徴表現語」として抽出し、各単語と特徴表現語が共起(同じテキスト・データで出現)する回数を共起行列として表した単語ベクトルを生成し、次いで、対象とするテキスト・データに含まれる全単語の単語ベクトルの総和を正規化した文書ベクトルを生成し、評価対象となるテキスト・データについても同様の評価文書ベクトルを生成し、文書ベクトルに基づいて評価を行なう方法である。各分類の文書ベクトルと評価文書ベクトルとの内積により、評価対象のテキスト・データを分類することができる。
あるいは、前記機械学習部は、Support Vector Machineに基づいてテキスト・データの素性と評価の間の対応規則を計算するようにしてもよい。Support Vector Machineは、ノンパラメトリックなパターン分類器の1つであり、学習の最適解として求められた分離超平面による線形識別を行ない、学習資料を線形分離することが不適切な場合には学習資料を元のパターン空間からより高次のパターン空間に非線形写像し高次元空間で分離超平面を構築し線形識別を行なうことができる。
また、前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる素性の数に基づいて学習データを選択するようにしてもよい。
あるいは、前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる学習データの数に基づいて学習データを選択するようにしてもよい。
あるいは、前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる素性の種類に基づいて学習データを選択するようにしてもよい。
あるいは、前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる学習データの種類に基づいて学習データを選択するようにしてもよい。
また、前記機械学習部は、前記第2の素性取得部から得られる各データの素性に基づいて機械学習を行ない、前記学習データ選択部は、機械学習結果を学習データの選択に用いるようにしてもよい。
また、前記学習データ選択部は、N回以上の素性の取得に基づいて学習データを選択するようにしてもよい。
また、本発明の第2の側面は、機械学習を行なうためにあらかじめ評価とともに保持されている学習データの候補を用いて教師ありの機械学習を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
すべての学習データについて第1の素性情報及び第2の素性情報を取得するステップと、
学習データについての評価と第1の素性情報及び第2の素性情報との関係を学習するステップと、
評価データについての第2の素性情報を取得するステップと、
第2の素性情報を基に評価データの評価を行なうステップと、
評価のよい第2の素性情報を基に学習データを選択するステップと、
選択された学習データを用いて第1の素性情報を基に評価データの評価を行なうステップと、
を具備することを特徴とするコンピュータ・プログラムである。
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る機械学習システムと同様の作用効果を得ることができる。
本発明によれば、学習データ中の各データに、データの評価があらかじめ(人手によって)付与されている教師ありの機械学習を高い精度で行なうことができる、優れた機械学習システム及び機械学習方法、並びにコンピュータ・プログラムを提供することができる。
また、本発明によれば、評価データに適切な学習データを用いて精度の高い機械学習を行なうことができる、優れた機械学習システム及び機械学習方法、並びにコンピュータ・プログラムを提供することができる。
本発明に係る機械学習システムによれば、テスト・データが与えられる度に適切な学習データを選択することによって、テスト・データに適した機械学習を行なうことが可能となり、また、素性数の計算上の上限を超える素性を用意しておくことができる。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
図2には、本発明の一実施形態に係る機械学習システムの機能構成を模式的に示している。図示の機械学習システムは、学習コーパス保持部11と、評価データ入力部12と、形態素解析部13と、文書長さ取得部14と、学習コーパス選択部15と、単語ベクトル生成部16と、文書ベクトル生成部17と、評価データ分類部18で構成され、機械学習手段としてベクトル空間法を採用する。この機械学習システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。
なお、以下に説明する本発明の実施形態は、機械学習手法を新聞記事の分類(「政治経済」分野の記事であるか「スポーツ」分野の記事であるか)などの文書分類システムに応用する場合を例に挙げているが、統計処理に基づく教師あり機械学習手法を用いるものであれば、アンケート分類及び質問応答など分類を要するあらゆる分野への応用であっても同様の効果を得ることが可能である。その他、テキスト分類のみならず数値データを含む分類や画像の分類など、いかなる機械学習手法を用いるものであっても、同様の効果を得ることが可能である。
学習コーパス保持部11は、学習コーパスとしての複数の新聞記事を、記事毎に「政治経済」分野に属するか「スポーツ」分野に属するかを人手で判断した評価結果とともに、コンピュータ内部に保持する。
評価データ入力部12は、単一の入力された新聞記事テキストが、「政治経済」の分野に属する記事であるか「スポーツ」の分野に属する記事であるかを判断するために、単一の新聞記事テキストを評価データとして受け取る。
形態素解析部13は、学習コーパス保持部11に保持されているすべての新聞記事テキスト、及び評価データ入力部12に入力された単一の新聞記事テキストに対してそれぞれ形態素解析処理を施し、これらの新聞記事テキストを単語へと分割し、第1の素性情報としての形態素解析結果を取得する。
文書長さ取得部14は、学習コーパス保持部11に保持されているすべての新聞記事テキスト及び評価データ入力部12に入力された新聞記事テキストに対して、各テキストの長さ(テキスト中に含まれる文字数)を計測し、これを第2の素性情報として取得する。
学習コーパス選択部15は、文書長さ取得部14から得られるテキストの長さを基に、学習コーパスから、実際に機械学習で用いる学習データを選択する。すなわち、学習コーパス選択部15は、まず評価データについての第2の素性情報としての文書長さを取得し、第2の素性情報を基に評価データの評価を行ない、次いで、評価のよい第2の素性情報を基に学習データを選択する。ここで、Lは評価データ入力部12に入力された新聞記事テキストの長さとし、Tはあらかじめ設定された正の定数とした場合、L−Tよりも長く、L+Tよりも短いテキストを、学習コーパス保持部11に保持されている新聞記事テキストから選択する。
学習コーパス選択部15によって選択された新聞記事テキストを用いて、機械学習、並びに評価データ入力部12から入力された新聞記事テキストの評価を行なう。本実施形態では、機械学習を文書分類システムに応用するが、ベクトル空間法に基づいて、テキスト・データの素性と評価の間の対応規則を計算する。図示の例では、機械学習手段は、単語ベクトル生成部16と、文書ベクトル生成部17と、評価データ分類部18で構成される。
単語ベクトル生成部16は、テキスト中の各単語に対して、対応する多次元ベクトル(単語ベクトル)を計算する。以下、単語ベクトルを計算するアルゴリズムについて説明する。
ステップ1:
学習コーパス選択部15によって選択された新聞記事テキストを対象として、形態素解析部12で得られた全単語のうち、出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことを、以下では「特徴表現語」と呼ぶことにする。nの値は、学習コーパス選択部15によって選択された全新聞記事テキストに含まれる総異なり単語数の20%とする。
但し、通常、新聞記事のキーワードとなりにくく且つ文に含まれる単語数の多い「は」又は「が」などの助詞については、ストップ・ワードとして、特徴表現語としてカウントしない場合もある。
ステップ2:
学習コーパス選択部15によって選択された新聞記事テキストを対象とし、形態素解析部12から得られた全単語を行とし、ステップ1で得られた特徴表現語を列として構成される行列を作成する。例えば、学習コーパス選択部15によって選択された新聞記事テキストを対象として形態素解析部12から得られた全単語の総異なり語数が10万であれば、nの値は2万となり、10万行×2万列の行列ができることになる。
この行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、新聞記事中で何度共起しているか(すなわち、同じ新聞記事中に同時に何度出現しているか)を記録する。こうして得られた行列のことを「共起行列」と呼ぶことにする。このようにして、学習コーパス選択部15によって選択された新聞記事中の全単語をそれぞれn次元(2万次元)のベクトルで表現する共起行列を作成することができる。このベクトルは、各単語が学習コーパス選択部15によって選択された新聞記事中で、どのようなコンテキストで出現し易い傾向にあるかを示すベクトルであると言える。
ステップ3:
ステップ2で得られたn次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のn次元のベクトルを行列の次元圧縮手法によって、n'次元(数百次元)のベクトルへと圧縮する(n'<n)。次元圧縮手法にはさまざまなものが存在するが、例えばBerry,M.、Do,T.、O’Brien,G.、Krishna,V.及びVaradhan,S.共著“SVDPACKC USER’S GUIDE”(Tech.Rep.CS−93−194.University of Tennessee,Knoxville,TN(1993))で詳細な説明がなされている、Singular Value Decomposition(特異値分解)を利用する手法がその代表例である。このようにして新聞記事中のすべての単語に対して得られたn'次元のベクトルのことを「単語ベクトル」と呼ぶことにする。
文書ベクトル生成部17は、単語ベクトル生成部16で得られた単語ベクトルを用いて、学習コーパス選択部15によって選択された各新聞記事についての文書ベクトルを計算する。ここで言う文書ベクトルとは、対象とする新聞記事に含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルのことである。このようにして得られた文書ベクトルは、学習コーパス選択部15によって選択された新聞記事集合を学習データとし、新聞記事に含まれる特徴表現語を各記事の素性とした場合に得られる機械学習の結果であると言える。
また、同様に、評価データ入力部12に入力された新聞記事テキストに含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルを生成する(但し、対応する単語ベクトルが存在しない単語は無視する)。この文書ベクトルのことを「評価文書ベクトル」と呼ぶことにする。
評価データ分類部18は、文書ベクトル生成部17から得られる各文書ベクトルを参照し、評価データ入力部12に入力された新聞記事テキストが例えば「政治経済」分野に属する記事であるか「スポーツ」分野に属する記事であるかを判断する。
まず、文書ベクトル生成部17から得られる文書ベクトルのうち「政治経済」分野に属する記事に対応する文書ベクトルの総和を計算し正規化する。同様に、「スポーツ」分野に属する記事に対応する文書ベクトルの総和を計算し正規化する。それぞれを「政治経済文書ベクトル」と「スポーツ文書ベクトル」と呼ぶことにする。
次に、「評価文書ベクトル」と「政治経済文書ベクトル」との間の類似度をたとえばベクトルの内積の値として計算し、同様に「評価文書ベクトル」と「スポーツ文書ベクトル」との間の内積を計算する。評価データ入力部12に入力された新聞記事は、内積の値が大きい方の分野と内容的に近いと判断することが可能であり、与えられた新聞記事を「政治経済」か「スポーツ」のいずれかに分類することが可能である。
このように、学習コーパスから実際に機械学習を行なう新聞記事テキストを選択するための第2の素性(上述した実施形態では「テキストの長さ」)と、機械学習を行なう際に利用する第1の素性(上述した実施形態では「テキスト中の単語の出現頻度」)の両素性を用いることによって、評価データ入力部12に入力された新聞記事毎に、適切な学習データを利用した機械学習を行なうことが可能である。すなわち、評価データ入力部12に入力された新聞記事と同程度の長さの新聞記事のみを学習データとすることによって、入力に適した分類が行なうことができる。
新聞記事の長さ毎に単語の出現頻度分布の傾向が異なる場合、評価データ入力部12に入力された新聞記事の長さを勘案せず学習データ全体を使用すると、評価データ入力部12に入力された新聞記事の分類を判断する目的に対して不適切な学習データを用いてしまうことになる。
さらに、学習コーパスの一部を用いて機械学習を行なうため、使用する素性の種類(単語の種類)も、学習コーパス全体を用いて機械学習を行なう場合と比較して、軽減することができる。上述した実施形態では、学習コーパス選択部15が、あらかじめ設定された閾値Tを用いて機械学習に利用する新聞記事を選択している。
これに対し、特徴表現語の数n(学習コーパス選択部15によって選択された全新聞記事テキストに含まれる総異なり単語数の20%)を、あらかじめ定数として設定しておき、Tを変数として、nがあらかじめ設定された値となるようにTを調節することも可能である。また、学習コーパス選択部15によって選択される記事を、あらかじめ設定された記事数となるように、Tを調節することも可能である。
また、上述した実施形態では、機械学習に用いる素性として形態素解析結果から得られる単語の出現頻度を用いたが、本発明の要旨はこれに限定されるものではない。すなわち、機械学習においては、形態素解析結果以外であっても、テキストの特徴を表現し得るものであれば、いかなるものであっても素性となり得る。例えば、形態素解析の代わりに構文解析を施し、新聞記事中において係り受け関係を有する単語のペアの出現頻度を、機械学習及び評価を行なう際に用いる第1の素性とすることも可能である。
また、上述した実施形態では、ベクトル空間法に基づく機械学習手法を用いたが、これをSupport Vector Machineのような他の手法で置き換えることも可能である。ここで、Support Vector Machineは、ノンパラメトリックなパターン分類器の1つであり、学習の最適解として求められた分離超平面による線形識別を行ない、学習資料を線形分離することが不適切な場合には学習資料を元のパターン空間からより高次のパターン空間に非線形写像し高次元空間で分離超平面を構築し線形識別を行なう。SVMは、テキスト分類などの分類予測精度が高いとされている機械学習手法であるため、本実施形態の機械学習手段に用いることが可能である。Support Vector Machineの学習結果に基づく分類処理の詳細については、例えば、Fabrizio Sebastiani著“ Machine Learning in Automated Text Categorization”(ACM Compurting Surveys Vol.34,No.1,pp.1−47,2002)などに記載されている。
Support Vector Machineを用いた機械学習では、素性情報は、図3で示すようなデータ集合となる。同図に示す例では、単語W1という素性が入力されており、文S1内の単語W1の個数(1個)がカウントされていることを示している。
図4には、Support Vector Machineを機械学習に適用した場合の機械学習システムの機能構成を模式的に示している。図示の機械学習システムは、学習コーパス保持部11と、評価データ入力部12と、形態素解析部13と、文書長さ取得部14と、学習コーパス選択部15と、単語素性生成部26と、文書素性生成部27と、評価データ分類部28で構成される。この機械学習システムは、実際には、パーソナル・コンピュータのような一般的な計算機システムに所定の機械学習アプリケーションを実行するという形態で実現される。以下では、機械学習手法を新聞記事の分類(「政治経済」分野の記事であるか「スポーツ」分野の記事であるか)などの文書分類システムに応用する場合を例に説明する。
学習コーパス保持部11は、学習コーパスとしての複数の新聞記事を、記事毎に分野を人手で判断した評価結果とともに、コンピュータ内部に保持する。
評価データ入力部12は、単一の入力された新聞記事テキストを評価データとして受け取る。
形態素解析部13は、学習コーパス保持部11に保持されているすべての新聞記事テキスト、及び評価データ入力部12に入力された単一の新聞記事テキストに対してそれぞれ形態素解析処理を施し、これらの新聞記事テキストを単語へと分割し、第1の素性情報としての形態素解析結果を取得する。
文書長さ取得部14は、学習コーパス保持部11に保持されているすべての新聞記事テキスト及び評価データ入力部12に入力された新聞記事テキストに対して、各テキストの長さ(テキスト中に含まれる文字数)を計測し、これを第2の素性情報として取得する。
学習コーパス選択部15は、文書長さ取得部14から得られるテキストの長さを基に、学習コーパスから、実際に機械学習で用いる学習データを選択する。ここで、Lは評価データ入力部12に入力された新聞記事テキストの長さとし、Tはあらかじめ設定された正の定数とした場合、L−Tよりも長く、L+Tよりも短いテキストを、学習コーパス保持部11に保持されている新聞記事テキストから選択する。
学習コーパス選択部15によって選択された新聞記事テキストを用いて、機械学習、並びに評価データ入力部12から入力された新聞記事テキストの評価を行なう。本実施形態では、機械学習を文書分類システムに応用するが、Support Vector Machineに基づいて、テキスト・データの素性と評価の間の対応規則を計算する。機械学習手段は、単語素性生成部26と、文書素性生成部27と、評価データ分類部28で構成される。
単語素性生成部26は、形態素解析部13から得られるすべての単語に対して、対応する素性情報(集合)を生成する。以下、素性情報を生成するアルゴリズムについて説明する。
ステップ1:
形態素解析部13から得られた全単語に対する表を作成する。但し、通常、新聞記事のキーワードとなりにくく且つ文に含まれる単語数の多い「は」又は「が」などの助詞については、ストップワードとして、表に入力しないことにする。
ステップ2:
形態素解析部13から得られた単語をカウントし、ステップ1で得られた表に対して単語の個数を入力する。
文書素性生成部27は、単語素性生成部16で得られた素性情報を用いて、学習コーパス保持部11中に保持されているすべての新聞記事に対応する素性情報を生成する。学習コーパス保持部11は、複数の新聞記事を、記事毎に「政治経済」分野に属するか「スポーツ」分野に属するかを人手で判断した評価結果が入力されているが、データ形式は、上述した素性情報を生成するアルゴリズムと同等の方法で作成されている。ステップ2で得られた表を基に、学習コーパス保持部11が保持する評価結果と比較して、文書素性情報を生成する。
例えば、学習コーパス保持部11が保持する「政治経済」分野と「スポーツ」分野からすべての単語を抽出し、「政治経済」分野と「スポーツ」分野毎に得られた単語の表をそれぞれ作成する。「政治経済」分野と「スポーツ」分野から抽出された単語と一致するステップ2で得られた表に入力された単語のみ、これに対応する単語数を各分野の表に入力していく。これによって、「政治経済」分野と「スポーツ」分野の文書素性情報が生成される。カウントされなかった単語は、削除せず単語数0とする。
このようにして得られた文書素性は、学習コーパス保持部11中の新聞記事集合を学習データとし、新聞記事に含まれる特徴表現語(ここでは「政治経済」分野と「スポーツ」分野の単語)を各記事の素性とした場合に得られる素性情報であると言える。
評価データ分類部28は、「政治経済」分野と「スポーツ」分野の文書素性情報をSupport Vector Machineを用いた機械学習法を用いて計算させ、「政治経済」分野と「スポーツ」分野のいずれかに分類することが可能である。
図5には、本発明の第3の実施形態に係る機械学習システムの機能構成を模式的に示している。図示の機械学習システムは、学習データ保持部1と、評価データ入力部2と、第1の素性取得部3と、第2の素性取得部と、学習データ選択部5と、機械学習部6−1及び機械学習部602で構成される。この実施形態では、機械学習を行なう際に用いる学習データを選択するための第2の素性情報に対しSupport Vector Machineのような機械学習手法を適用し、得られた機械学習結果の中から精度の高い機械学習結果を用いて、学習データ選択のための素性取得に対応するルールを作成する。
第1の素性取得部3は、学習データ保持部1に保持されるデータ及び評価データ入力部2で受け取ったデータから、機械学習並びに評価を行なう際に用いる第1の素性情報を抽出する。
また、第2の素性取得部4は、学習データ保持部1に保持されるデータ及び評価データ入力部2で受け取ったデータから、機械学習を行なう際に用いる学習データを選択するための第2の素性情報を抽出する。
機械学習部6−1は、第2の素性取得部4に対して、Support Vector Machineのような機械学習手法を適用し、得られた機械学習結果の中から精度の高い機械学習結果を用いて、学習データ選択のための素性取得に対応するルールを作成する。そして、学習データ選択部5は、学習データ選択のための素性取得に対応するルールに従って、機械学習を行なう際に用いる学習データを選択する。
そして、機械学習部6−2は、学習データ選択部5によって選択された各学習データの評価と、第1の素性取得部3から得られた各データの素性を基に、素性とその評価の間の対応関係を計算する。
この実施形態では、学習コーパスから実際に機械学習を行なう新聞記事テキストを選択するための素性(上述した各実施形態では「テキストの長さ」)を用いたが、さらに品詞の並びなど文の特徴を追加して、複数の素性から適切な学習データを選択することも可能である。
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書では、本発明に係る機械学習手法を新聞記事の分類(「政治経済」分野の記事であるか「スポーツ」分野の記事であるかの)などの文書分類システムに応用する場合を例にとって本発明について説明しているが、本発明の要旨はこれに限定されるものではない。すなわち、統計処理に基づく教師あり機械学習手法を用いるものであれば、アンケート分類及び質問応答など分類を要するあらゆる分野への応用であっても、同様に本発明を適用することが可能である。その他、テキスト分類のみならず数値データを含む分類や画像の分類など、いかなる機械学習手法を用いるものであっても、同様に本発明の効果を得ることが可能である。
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
図1は、本発明に係る機械学習システムの機能構成を模式的に示した図である。 図2は、本発明の一実施形態に係る機械学習システムの機能構成を模式的に示した図である。 図3は、Support Vector Machineを用いた機械学習における素性情報を示した図である。 図4は、Support Vector Machineを機械学習に適用した場合の機械学習システムの機能構成を模式的に示した図である。 図5は、本発明の第3の実施形態に係る機械学習システムの機能構成を模式的に示した図である。
符号の説明
1…学習データ保持部
2…評価データ入力部
3…第1の素性取得部
4…第2の素性取得部
5…学習データ選択部
6…機械学習部
11…学習コーパス保持部
12…評価データ入力部
13…形態素解析部
14…文書長さ取得部
15…学習コーパス選択部
16…単語ベクトル生成部
17…文書ベクトル生成部
18…評価データ分類部
26…単語素性生成部
27…文書素性生成部
28…評価データ分類部

Claims (21)

  1. データの評価があらかじめ付与されている教師ありの機械学習を行なう機械学習システムであって、
    機械学習を行なうための学習データの候補を評価とともに保持する学習データ保持部と、
    評価対象となるデータを受け取る評価データ入力部と、
    前記学習データ保持部に保持されるデータ及び前記評価データ入力部で受け取ったデータから、機械学習及び評価を行なう際に用いる第1の素性情報を抽出する第1の素性取得部と、
    前記学習データ保持部に保持されるデータ及び前記評価データ入力部で受け取ったデータから、機械学習を行なう際に用いる学習データを選択するための第2の素性情報を抽出する第2の素性取得部と、
    前記第2の素性取得部から得られる第2の素性情報に基づいて、前記学習データ保持部に保持されている学習データの候補の中から機械学習を行なう際に用いる学習データを選択する学習データ選択部と、
    前記学習データ選択部によって選択された各学習データの評価と、前記第1の素性取得部から得られた各データの第1の素性情報を基に、素性とその評価の間の対応関係を学習する機械学習部と、
    を具備することを特徴とする機械学習システム。
  2. 前記学習データ保持部は、自然言語文からなるテキスト・データを保持し、
    前記第1の素性取得部及び前記第2の素性取得部は、形態素解析処理又は構文解析処理により学習データから素性情報を取得する、
    ことを特徴とする請求項1に記載の機械学習システム。
  3. 前記機械学習部は、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算する、
    ことを特徴とする請求項2に記載の機械学習システム。
  4. 前記機械学習部は、Support Vector Machineに基づいてテキスト・データの素性と評価の間の対応規則を計算する、
    ことを特徴とする請求項2に記載の機械学習システム。
  5. 前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる素性の数に基づいて学習データを選択する、
    ことを特徴とする請求項1に記載の機械学習システム。
  6. 前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる学習データの数に基づいて学習データを選択する、
    ことを特徴とする請求項1に記載の機械学習システム。
  7. 前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる素性の種類に基づいて学習データを選択する、
    ことを特徴とする請求項1に記載の機械学習システム。
  8. 前記学習データ選択部は、前記機械学習部が機械学習を行なう際に用いる学習データの種類に基づいて学習データを選択する、
    ことを特徴とする請求項1に記載の機械学習システム。
  9. 前記機械学習部は、前記第2の素性取得部から得られる各データの素性に基づいて機械学習を行ない、
    前記学習データ選択部は、機械学習結果を学習データの選択に用いる、
    ことを特徴とする請求項1に記載の機械学習システム。
  10. 前記学習データ選択部は、N回以上の素性の取得に基づいて学習データを選択する、
    ことを特徴とする請求項1に記載の機械学習システム。
  11. 機械学習を行なうためにあらかじめ評価とともに保持されている学習データの候補を用いて教師ありの機械学習を行なう機械学習方法であって、
    すべての学習データについて第1の素性情報及び第2の素性情報を取得するステップと、
    学習データについての評価と第1の素性情報及び第2の素性情報との関係を学習するステップと、
    評価データについての第2の素性情報を取得するステップと、
    第2の素性情報を基に評価データの評価を行なうステップと、
    評価のよい第2の素性情報を基に学習データを選択するステップと、
    選択された学習データを用いて第1の素性情報を基に評価データの評価を行なうステップと、
    を具備することを特徴とする機械学習方法。
  12. 前記学習データとして自然言語文からなるテキスト・データを用い、
    前記第1の素性取得ステップ及び前記第2の素性取得ステップでは、形態素解析処理又は構文解析処理により学習データから素性情報を取得する、
    ことを特徴とする請求項11に記載の機械学習方法。
  13. 前記機械学習ステップでは、ベクトル空間法に基づいてテキスト・データの素性と評価の間の対応規則を計算する、
    ことを特徴とする請求項12に記載の機械学習方法。
  14. 前記機械学習ステップでは、Support Vector Machineに基づいてテキスト・データの素性と評価の間の対応規則を計算する、
    ことを特徴とする請求項12に記載の機械学習方法。
  15. 前記学習データ選択ステップでは、前記機械学習ステップにおいて機械学習を行なう際に用いる素性の数に基づいて学習データを選択する、
    ことを特徴とする請求項11に記載の機械学習方法。
  16. 前記学習データ選択ステップでは、前記機械学習ステップにおいて機械学習を行なう際に用いる学習データの数に基づいて学習データを選択する、
    ことを特徴とする請求項11に記載の機械学習方法。
  17. 前記学習データ選択ステップでは、前記機械学習ステップにおいて機械学習を行なう際に用いる素性の種類に基づいて学習データを選択する、
    ことを特徴とする請求項11に記載の機械学習方法。
  18. 前記学習データ選択ステップでは、前記機械学習ステップにおいて機械学習を行なう際に用いる学習データの種類に基づいて学習データを選択する、
    ことを特徴とする請求項11に記載の機械学習方法。
  19. 前記機械学習ステップでは、前記第2の素性取得ステップにおいて得られる各データの素性に基づいて機械学習を行ない、
    前記学習データ選択ステップでは、機械学習結果を学習データの選択に用いる、
    ことを特徴とする請求項11に記載の機械学習方法。
  20. 前記学習データ選択ステップでは、N回以上の素性の取得に基づいて学習データを選択する、
    ことを特徴とする請求項11に記載の機械学習方法。
  21. 機械学習を行なうためにあらかじめ評価とともに保持されている学習データの候補を用いて教師ありの機械学習を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
    すべての学習データについて第1の素性情報及び第2の素性情報を取得するステップと、
    学習データについての評価と第1の素性情報及び第2の素性情報との関係を学習するステップと、
    評価データについての第2の素性情報を取得するステップと、
    第2の素性情報を基に評価データの評価を行なうステップと、
    評価のよい第2の素性情報を基に学習データを選択するステップと、
    選択された学習データを用いて第1の素性情報を基に評価データの評価を行なうステップと、
    を具備することを特徴とするコンピュータ・プログラム。
JP2003426330A 2003-12-24 2003-12-24 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム Pending JP2005182696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003426330A JP2005182696A (ja) 2003-12-24 2003-12-24 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003426330A JP2005182696A (ja) 2003-12-24 2003-12-24 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2005182696A true JP2005182696A (ja) 2005-07-07

Family

ID=34785897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003426330A Pending JP2005182696A (ja) 2003-12-24 2003-12-24 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2005182696A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048672A1 (ja) * 2009-10-21 2011-04-28 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
WO2011052025A1 (ja) * 2009-10-26 2011-05-05 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
US8352951B2 (en) 2004-01-30 2013-01-08 International Business Machines Corporation Method and apparatus for utility-based dynamic resource allocation in a distributed computing system
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
JP2018147100A (ja) * 2017-03-02 2018-09-20 日本電信電話株式会社 単語学習装置、単語学習方法、及び単語学習プログラム
JP2019143387A (ja) * 2018-02-21 2019-08-29 清水建設株式会社 操作推定装置、及び操作推定方法
KR20200072717A (ko) * 2018-12-13 2020-06-23 재단법인대구경북과학기술원 데이터 빈도수 분석을 통한 인공지능 학습 방법 및 장치
WO2020208729A1 (ja) * 2019-04-09 2020-10-15 Genomedia株式会社 探索方法及び情報処理システム
JPWO2021124535A1 (ja) * 2019-12-19 2021-06-24

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352951B2 (en) 2004-01-30 2013-01-08 International Business Machines Corporation Method and apparatus for utility-based dynamic resource allocation in a distributed computing system
JP5220200B2 (ja) * 2009-10-21 2013-06-26 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
WO2011048672A1 (ja) * 2009-10-21 2011-04-28 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
WO2011052025A1 (ja) * 2009-10-26 2011-05-05 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
JP5220202B2 (ja) * 2009-10-26 2013-06-26 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
US10977571B2 (en) 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
JP2018514840A (ja) * 2015-03-02 2018-06-07 ブルヴェクター, インコーポレーテッドBluvector, Inc. 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
JP2018147100A (ja) * 2017-03-02 2018-09-20 日本電信電話株式会社 単語学習装置、単語学習方法、及び単語学習プログラム
JP2019143387A (ja) * 2018-02-21 2019-08-29 清水建設株式会社 操作推定装置、及び操作推定方法
JP7061892B2 (ja) 2018-02-21 2022-05-02 清水建設株式会社 操作推定装置、及び操作推定方法
KR20200072717A (ko) * 2018-12-13 2020-06-23 재단법인대구경북과학기술원 데이터 빈도수 분석을 통한 인공지능 학습 방법 및 장치
KR102209505B1 (ko) 2018-12-13 2021-02-01 재단법인대구경북과학기술원 데이터 빈도수 분석을 통한 인공지능 학습 방법 및 장치
JPWO2020208729A1 (ja) * 2019-04-09 2020-10-15
CN113678147A (zh) * 2019-04-09 2021-11-19 基诺媒体株式会社 搜索方法以及信息处理系统
WO2020208729A1 (ja) * 2019-04-09 2020-10-15 Genomedia株式会社 探索方法及び情報処理システム
JP7315181B2 (ja) 2019-04-09 2023-07-26 Genomedia株式会社 探索方法及び情報処理システム
US11817216B2 (en) 2019-04-09 2023-11-14 Genomedia Inc. Search method and information processing system
JPWO2021124535A1 (ja) * 2019-12-19 2021-06-24
WO2021124535A1 (ja) * 2019-12-19 2021-06-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JP7342972B2 (ja) 2019-12-19 2023-09-12 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Similar Documents

Publication Publication Date Title
US10296579B2 (en) Generation apparatus, generation method, and program
CN109271521B (zh) 一种文本分类方法及装置
Stein et al. Intrinsic plagiarism analysis
CN109800307B (zh) 产品评价的分析方法、装置、计算机设备及存储介质
US9249287B2 (en) Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
Nikhath et al. Building a k-nearest neighbor classifier for text categorization
Baron Influence of data discretization on efficiency of Bayesian classifier for authorship attribution
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP7005045B2 (ja) ナイーブベイズ分類器に対する限界攻撃方法
JP2005182696A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
Storopoli Topic modeling: how and why to use in management research
Dewi et al. Complement naive bayes classifier for sentiment analysis of internet movie database
Escalante et al. Particle swarm model selection for authorship verification
Coban IRText: An item response theory-based approach for text categorization
CN112035664A (zh) 药品的归类方法、装置以及计算机设备
Belani Vandalism detection in wikipedia: a bag-of-words classifier approach
CN113408296B (zh) 一种文本信息提取方法、装置及设备
Alshalif et al. Alternative relative discrimination criterion feature ranking technique for text classification
Guo et al. The rise of nonnegative matrix factorization: algorithms and applications
Cardenas et al. Improving Topic Coherence Using Entity Extraction Denoising.
Chrystal et al. Text mining and classification of product reviews using structured support vector machine
Lucaci et al. Towards unifying the explainability evaluation methods for NLP
Alloghani et al. Sentiment analysis for decision-making using machine learning algorithms
Ferrero-Jaurrieta et al. Non-symmetric over-time pooling using pseudo-grouping functions for convolutional neural networks