JP2005092253A - 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム - Google Patents
機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2005092253A JP2005092253A JP2003320326A JP2003320326A JP2005092253A JP 2005092253 A JP2005092253 A JP 2005092253A JP 2003320326 A JP2003320326 A JP 2003320326A JP 2003320326 A JP2003320326 A JP 2003320326A JP 2005092253 A JP2005092253 A JP 2005092253A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- machine learning
- learning data
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】 ブートストラッピング手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避する。
【解決手段】 各サブ学習データを用いて複数回、機械学習を実施し、得られた複数の学習結果に基づいてそれぞれ評価予測を行ない、評価予測の多数決をとるなどして総合的な評価予測を最終的に行なう。学習データ中には、各データの特徴(素性)とその評価の間の対応規則の一般化を阻害する不適格なデータが含まれる。バギングでは、学習データを複数のサブ学習データに分割し、不適格なデータを含まない学習データに基づく機械学習を行なう機会を得る。
【選択図】 図1
【解決手段】 各サブ学習データを用いて複数回、機械学習を実施し、得られた複数の学習結果に基づいてそれぞれ評価予測を行ない、評価予測の多数決をとるなどして総合的な評価予測を最終的に行なう。学習データ中には、各データの特徴(素性)とその評価の間の対応規則の一般化を阻害する不適格なデータが含まれる。バギングでは、学習データを複数のサブ学習データに分割し、不適格なデータを含まない学習データに基づく機械学習を行なう機会を得る。
【選択図】 図1
Description
本発明は、学習データを入力とし統計処理手法を用いることによってデータの特徴を説明するための一般規則を出力する機械学習を行なうためのデータを生成する機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムに係り、特に、学習データ中の各データに、データの評価があらかじめ付与されている教師あり機械学習のための学習データを生成する機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、小量の学習データから始め、大量の非学習データ集合の中から予測された評価が統計的に最も確からしいデータを自動抽出し、そのデータを予測された評価とともに学習データに組み込むという手順を繰り返すことによって学習データを成長させていく「ブートストラッピング」手法により学習用データを生成する機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムに係り、特に、ブートストラッピング手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避する機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムに関する。
機械学習とは、学習データを入力とし、統計処理手法を用いることによって、データの特徴を説明するための一般規則を出力する方法である。教師あり機械学習と呼ばれる機械学習では、学習データ中の各データに、データの評価があらかじめ(人手によって)付与されている。学習データ中の各データの特徴(素性)とその評価の間の対応関係を学習することによって、非学習データが与えられたときにその評価を予測することが可能となる。これまでに、Support Vectore Machine(SVM)、Maximum Entorpy(ME)などさまざまな教師あり機械学習手法が提案され、自然言語処理、生物情報学といった分野で実用的に使用されている。
教師あり機械学習の最大の問題は、より精度の高い評価予測を実現するためには大量の学習データが必要となるという点にある。学習データの評価は人手で付与する必要があるため、大量の学習データを用意するには膨大な工数を要することになってしまう。
かかる問題を解決するために、「ブートストラッピング」と呼ばれる手法が提案されている。ここで言うブートストラッピングとは、「小量の学習データから始め、大量の非学習データ集合の中から、予測された評価が統計的に最も確からしい(最も高い確信度を持つ)データを自動抽出し、そのデータを予測された評価と共に学習データに組み込む」という手順を繰り返すことにより、徐々に学習データを成長させていく手法である。
例えば、自然言語処理分野において、2ヶ国語翻訳文書対集合を生成するための、ブートストラッピング手法が提案されている(例えば、非特許文献1、非特許文献2を参照のこと)。この場合、あるパラレル・コーパスを初期の学習データとして機械学習を行なう。得られた学習結果を基に多言語文書検索を行ない、2ヶ国語の文書が混在する文書集合中から最も類似する2ヶ国語文書対を決定し、得られた文書対を翻訳文書対とみなして初期の学習データに追加し、得られた学習データに基づいて再度機械学習及び多言語文書検索を行なう。この多言語文書検索処理と、得られた文書対の学習データへの追加処理を交互に繰り返すことによって、学習データを成長させ、最終的に大規模な2ヶ国語文書対の集合(パラレル・コーパス)を得る。
なお、パラレル・コーパスは2ヶ国語翻訳文書対集合のことであり、大規模なパラレル・コーパスは、機械翻訳や多言語検索のアプリケーションを実現するための重要な機械学習用データである。
このようなブートストラッピング手法によれば、小量の初期学習データを用意するだけで、学習データを成長させることによって、より精度の高い機械学習と信頼性の高い大規模機械学習用データの生成を実現することが可能となる。
しかしながら、ブートストラッピング手法では、非学習データ集合のうちで予測された評価が統計的に最も確からしい(最も高い確信度を持つ)データを自動抽出する処理に問題がある。すなわち、評価の確信度が十分高くないデータであっても、他のデータと比べて相対的に確信度が高ければ、そのデータを学習データに追加せざるを得ない。
例えば、統語意味解析処理を行なうことによってブートストラッピングの精度向上を実現するシステムについて提案がなされている(例えば、特許文献1を参照のこと)。この場合、対訳関係にある第1の言語で書かれた文書と第2の言語で書かれた文書からなる文書ペアの集合を初期コーパスとして保持するとともに、第1及び第2の言語で書かれた文書の集合を全体コーパスとして保持し、初期コーパスとして保持されている文書ペア中の単語の出現頻度情報と統語意味解析結果に基づいて、第1及び第2の言語で書かれた文書間の類似度を統計的に定量化し、この統計処理結果に基づいて文書ペアを初期コーパスに追加していく。ブートストラップ処理で十分なサイズの類似文書ペアの集合を生成する際に精度を向上させることができる。
ところが、ブートストラッピング手法では、(特に処理の初期段階において)不適切な(評価が誤っている)データが学習データに一旦組み込まれると、最終的に得られる学習データの信頼性が低いものになってしまう(例えば、非特許文献1を参照のこと)。
本発明の目的は、学習データ中の各データに、データの評価があらかじめ付与されている教師あり機械学習のための学習データを好適に生成することができる、優れた機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、小量の学習データから始め、大量の非学習データ集合の中から予測された評価が統計的に最も確からしいデータを自動抽出し、そのデータを予測された評価とともに学習データに組み込むという手順を繰り返すことによって学習データを成長させていく「ブートストラッピング」手法により学習用データを好適に生成することができる、優れた機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、ブートストラッピング手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避し、精度の高い機械学習用データを生成することができる、優れた機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、
評価の付与された機械学習用データを保持する初期データ保持手段と、
初期データ保持手段中のデータから学習データを生成する学習データ生成手段と、
評価の付与されていない非学習データを保持する非学習データ保持手段と、
学習データを用いて機械学習を行なう機械学習手段と、
機械学習手段の学習結果に基づいて非学習データの評価予測を行ない、該予測された評価の確信度を出力する評価手段と、
該評価の確信度が所定の条件を満たす非学習データを初期データ保持手段に追加する初期データ更新手段と、
を備えることを特徴とする機械学習用データ生成システムである。図1には、本発明に係る機械学習用データ生成システムの機能構成を模式的に示している。
評価の付与された機械学習用データを保持する初期データ保持手段と、
初期データ保持手段中のデータから学習データを生成する学習データ生成手段と、
評価の付与されていない非学習データを保持する非学習データ保持手段と、
学習データを用いて機械学習を行なう機械学習手段と、
機械学習手段の学習結果に基づいて非学習データの評価予測を行ない、該予測された評価の確信度を出力する評価手段と、
該評価の確信度が所定の条件を満たす非学習データを初期データ保持手段に追加する初期データ更新手段と、
を備えることを特徴とする機械学習用データ生成システムである。図1には、本発明に係る機械学習用データ生成システムの機能構成を模式的に示している。
本発明では、ブートストラッピング手法において、評価予測が誤っているデータが学習データに組み込まれてしまうことを回避するために、バギング(bagging)と呼ばれる機械学習手順の概念を利用する。
バギングでは、まず、学習データを複数のサブ学習データに分割する。各サブ学習データを用いて複数回、機械学習を実施し、得られた複数の学習結果に基づいてそれぞれ評価予測を行なう。そして、これらの評価予測を用い、評価予測の多数決をとるなどして総合的な評価予測を最終的に行なう。
一般に、学習データの中には、学習データとして不適格なデータが存在する。不適格なデータを学習データに加えると、各データの特徴(素性)とその評価の間における対応規則の一般化を阻害してしまう。これに対し、バギングでは、学習データを複数のサブ学習データに分割することにより、このような不適格なデータを含まない学習データに基づく機械学習を行なう機会を得ることができる。したがって、バギングを用いない機械学習と比較して、学習データの質に左右されにくい頑健な機械学習を行なうことが可能となる。
なお、バギングの詳細については、例えば、Naoki Abe、Hiroshi Mamitsuka共著の論文“Query Learning Strategies Using Boosting and Bagging”(Proceedings of The Fifteenth International Conference on Machine Learning,PP.1−9(1998))を参照されたい。
また、本発明の第2の側面は、非学習データ集合から機械学習用データを生成するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
評価の付与された機械学習用データを初期データとして保持する初期データ保持ステップと、
前記初期データから学習データを生成する学習データ生成ステップと、
評価の付与されていない非学習データを保持する非学習データ保持ステップと、
学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価ステップと、
評価の確信度が所定の条件を満たす非学習データを初期データに追加する初期データ更新ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
評価の付与された機械学習用データを初期データとして保持する初期データ保持ステップと、
前記初期データから学習データを生成する学習データ生成ステップと、
評価の付与されていない非学習データを保持する非学習データ保持ステップと、
学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価ステップと、
評価の確信度が所定の条件を満たす非学習データを初期データに追加する初期データ更新ステップと、
を具備することを特徴とするコンピュータ・プログラムである。
本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る機械学習用データ生成システムと同様の作用効果を得ることができる。
本発明によれば、ブートストラッピング手法の学習データ成長の過程において、評価予測が誤っているデータが学習データに組み込まれることを回避し、精度の高い機械学習用データを生成することができる、優れた機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラムを提供することができる。
本発明によれば、ブートストラッピング手法を利用した機械学習用データの生成処理にバギングの概念を取り入れることにより、常に評価予測の確信度が十分に高いデータのみを学習データに追加することが可能となり、信頼性の高い大規模な機械学習用データを生成することができる。得られたデータを用いることによって、精度の高い機械学習を実現することが可能である。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
図2は、本発明の一実施形態に係る機械学習用データ生成システムの機能構成を模式的に示している。なお、本実施形態では、日英の2ヶ国語翻訳対集合(パラレルコーパス)を生成するための機械学習を対象として説明を行なう。但し、本発明の要旨はこれに限定されるものではなく、ブートストラッピング手法を用いる機械学習であればいかなるものであっても、同様に本発明の効果を得ることができる。
同図に示すように、機械学習用データ生成システムは、初期コーパス保持部11と、学習コーパス抽出部12と、学習コーパス保持部13と、全体コーパス保持部14と、単語ベクトル生成部15と、文書ベクトル生成部16と、文書対候補検索部17と、文書対決定部18とからなる。
初期コーパス保持部11は、日本語文書とその英訳である英語文書の対を複数、計算機内部に保持している。保持されている日英文書対の個数をY個とする。
学習コーパス抽出部12は、初期コーパス保持部11に保持されているY個の日英文書対からy個の日英文書対をランダムに抽出する。但し、yの値は、T1<y<T2(T1,T2は、0<T1<T2<Yを満たす整数定数)を満たす範囲でランダムに決定する。
学習コーパス保持部13は、学習コーパス抽出部12からy個の日英文書対を受け取り、計算機内部に保持する。
全体コーパス保持部14は、複数の日本語文書と複数の英語文書を計算機内部に保持する。全体コーパスとして、初期コーパス保持部11に保持されている日英文書対集合(パラレル・コーパス)と同じ分野の文書集合(共通の専門用語を含んでいる文書集合)を保持することが望ましいが、日本語文書と英語文書が対訳関係にある必要はない。
単語ベクトル生成部15は、学習コーパス保持部13に保持されるy個の日英文書対を学習データとして、そこに含まれるすべての日本語単語及び英語単語に対して、対応する多次元ベクトル(単語ベクトル)を計算する。単語ベクトルを計算するアルゴリズムについて、以下に説明する。
[ステップ1]
学習データ中に含まれるすべての日本語文書及び英語文書に対して形態素解析処理を施し、単語に分割する。
学習データ中に含まれるすべての日本語文書及び英語文書に対して形態素解析処理を施し、単語に分割する。
[ステップ2]
ステップ1で得られた全単語のうち、学習データ中で出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことを特徴表現語と呼ぶことにする。nの値は数千のオーダーとすることが望ましい。
ステップ1で得られた全単語のうち、学習データ中で出現頻度の多いものから順にn個の単語を選択する。ここで得られたn個の単語のことを特徴表現語と呼ぶことにする。nの値は数千のオーダーとすることが望ましい。
[ステップ3]
行と列がそれぞれ、ステップ1で得られたすべての日本語並びに英語単語、及びステップ2で得られた特徴表現語に対応する行列を作成する。ステップ1で得られたすべての日本語並びに英語単語の総異なり語数が10万であり、nの値を3,000とした場合、10万行×3,000列の行列ができることになる。
こ の行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、学習データ中に含まれるすべての日英文書対中で何度共起しているか(同時に出現しているか)を記録する。すなわち、日英の文書対を1つの文書であるとみなして、文書内の共起回数をカウントする。こうして得られた行列のことを共起行列と呼ぶことにする。このようにして、全日本語単語と全英語単語をn次元のベクトルで表現する共起行列を作成することができる。このベクトルは、各単語がどのようなコンテキストで出現し易い傾向にあるかを示すベクトルであると言える。
[ステップ4]
ステップ3で得られたn次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のn次元のベクトルを行列の次元圧縮手法によって、n'次元(数百次元)のベクトルへと圧縮する(但し、n'< n)。
次元圧縮手法にはさまざまなものが存在するが、例えば、Singular Value Decompositionを利用することができる。Singular Value Decomposition手法の詳細については、例えばBerry,M.、Do,T.、O‘Brien,G.、Krishna,V.、Varadhan,S.共著の論文“SVDPACKC USER’S GUIDE”(Tech. Rep.CS−93−194.University of Tennessee,Knoxville,TN(1993))を参照されたい。
行と列がそれぞれ、ステップ1で得られたすべての日本語並びに英語単語、及びステップ2で得られた特徴表現語に対応する行列を作成する。ステップ1で得られたすべての日本語並びに英語単語の総異なり語数が10万であり、nの値を3,000とした場合、10万行×3,000列の行列ができることになる。
こ の行列の各要素には、その要素の行に対応する単語と列に対応する特徴表現語が、学習データ中に含まれるすべての日英文書対中で何度共起しているか(同時に出現しているか)を記録する。すなわち、日英の文書対を1つの文書であるとみなして、文書内の共起回数をカウントする。こうして得られた行列のことを共起行列と呼ぶことにする。このようにして、全日本語単語と全英語単語をn次元のベクトルで表現する共起行列を作成することができる。このベクトルは、各単語がどのようなコンテキストで出現し易い傾向にあるかを示すベクトルであると言える。
[ステップ4]
ステップ3で得られたn次元のベクトルは次元数が大きいため、後に必要となる処理で計算時間が膨大なものになってしまう。そこで、計算処理を実時間の範囲に抑えるために、元のn次元のベクトルを行列の次元圧縮手法によって、n'次元(数百次元)のベクトルへと圧縮する(但し、n'< n)。
次元圧縮手法にはさまざまなものが存在するが、例えば、Singular Value Decompositionを利用することができる。Singular Value Decomposition手法の詳細については、例えばBerry,M.、Do,T.、O‘Brien,G.、Krishna,V.、Varadhan,S.共著の論文“SVDPACKC USER’S GUIDE”(Tech. Rep.CS−93−194.University of Tennessee,Knoxville,TN(1993))を参照されたい。
このようにしてすべての日本語単語及び英語単語に対して得られたn'次元のベクトルを単語ベクトルと呼ぶことにする。
文書ベクトル生成部16は、単語ベクトル生成部15で得られた単語ベクトルを用いて、全体コーパス保持部14中に保持されているすべての日本語文書及び英語文書に対応する文書ベクトルを計算する。まず、全体コーパス保持部14中に保持されているすべての日本語文書及び英語文書に形態素解析処理を施し、単語へと分割する。次に、各文書中に含まれるすべての単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)ベクトルを計算し、得られたベクトルを文書ベクトルとする。但し、対応する単語ベクトルが単語ベクトル生成部15によって生成されていない単語は無視するものとする。
文書対候補検索部17は、文書ベクトル生成部16で得られる文書ベクトルを基に、類似する日英の文書対候補を検索する。すべての日本語文書ベクトルと英語文書ベクトルの組み合わせを対象として、両ベクトルの内積を計算し、その値が最も大きい日英文書対を内積値とともに文書対決定部18に渡す。
文書対決定部18は、文書対候補検索部17から日英文書対及び対応するベクトルの内積値を受け取る。そして、内積値がk(kは、0<k<1を満たす実数定数)よりも大きい場合は、この日英文書対を翻訳対とみなして、初期コーパス保持部11に追加する。初期コーパスへ追加された日本語文書及び英語文書は、全体コーパス保持手段14から削除する。一方、内積値がkよりも小さい場合には、得られた文書ベクトル対を破棄する。初期コーパスに追加しない日本語文書並びに英語文書は、全体コーパス保持部14に残したままとする。
本実施形態に係る機械学習用データ生成システムは、上述したような構成により、以下の処理を繰り返し実行する。
(1)初期コーパス保持部11中のデータからランダムに学習コーパスを生成する。
(2)学習コーパスに基づいて、単語ベクトル集合及び文書ベクトル集合を生成する。
(3)文書ベクトルの内積値に基づいて、意味内容が最も近い(類似度が最も高い)日英文書対を抽出する。
(4)得られた文書対を初期コーパス保持部11中のデータに追加する。
(2)学習コーパスに基づいて、単語ベクトル集合及び文書ベクトル集合を生成する。
(3)文書ベクトルの内積値に基づいて、意味内容が最も近い(類似度が最も高い)日英文書対を抽出する。
(4)得られた文書対を初期コーパス保持部11中のデータに追加する。
この処理の繰り返し回数があらかじめ設定された回数Rに達したときの初期コーパス保持部11に保持されている文書対を、最終的に得られる日英文書対(機械学習用データ)とする。但し、上記の処理ステップ(3)において、意味内容が十分近い(内積値がkよりも大きい)日英文書対が見つからない場合は、初期コーパス保持部11へのデータの追加を行なうことなく、ステップ(1)に戻る。但し、この際、意味内容が十分近い日英文書対が連続してS回見つからない場合は、初期コーパス保持部11へのデータの追加を行ない、ステップ(1)に戻る。より信頼性の高い日英文書対データを得るためには、Sの値をなるべく大きくすることが望ましい。
図3には、本実施形態に係る機械学習用データの生成処理手順をフローチャートの形式で示している。
まず、初期コーパスから学習コーパスを生成する(ステップS1)。具体的には、学習コーパス抽出部12が、初期コーパス保持部11に保持されているY個の日英文書対からy個の日英文書対をランダムに抽出する。
次いで、学習コーパスから単語ベクトル及び文書ベクトルを生成する(ステップS2)。具体的には、単語ベクトル生成部15が、学習コーパス保持部13に保持されるy個の日英文書対を学習データとして、そこに含まれるすべての日本語単語及び英語単語に対して、対応する多次元ベクトル(単語ベクトル)を計算する。そして、文書ベクトル生成部16が、単語ベクトル生成部15で得られた単語ベクトルを用いて、全体コーパス保持部14中に保持されているすべての日本語文書及び英語文書に対応する文書ベクトルを計算する。
次いで、文書ベクトルの内積値を基に、全体コーパスから最も意味内容が近い英日文書対候補を抽出する(ステップS3)。具体的には、文書対候補検索部17が、ステップS2で得られた文書ベクトルを基に、類似する日英の文書対候補を検索する。そして、すべての日本語文書ベクトルと英語文書ベクトルの組み合わせを対象として、両ベクトルの内積を計算し、その値が最も大きい日英文書対を求める。
次いで、文書対決定部18は、抽出された日英文書の文書ベクトルの内積値がk(kは、0<k<1を満たす実数定数)よりも大きいかどうかを判別する(ステップS4)。
ここで、内積値がkよりも大きい場合は、文書対決定部18は、この日英文書対を翻訳対とみなして、初期コーパス保持部11に追加する。そして、初期コーパスへ追加された日本語文書及び英語文書は、全体コーパス保持手段14から削除する(ステップS6)。
一方、内積値がkよりも小さい場合には、文書対決定部18は、意味内容が十分近い日英文書対が連続して見つからなかった回数がS回に到達したかどうかを判別する(ステップS5)。そして、S回に到達した場合も、同様に、当該日英文書対を翻訳対とみなして、初期コーパス保持部11に追加するとともに、これら日本語文書及び英語文書を全体コーパス保持手段14から削除する(ステップS6)。
そして、このような機械学習用データを追加する処理が所定の回数Rに到達したかどうかを判別する(ステップS7)。
繰り返し回数がR回に未だ到達していない場合には、ステップS1に戻り、上述と同様の追加処理を繰り返し実行する。また、所定回数Rに到達した場合には、初期コーパス保持部11に保持されている文書対を、最終的に得られる日英文書対(機械学習用データ)として出力し、本処理ルーチン全体を終了する。
図3に示した処理手順により、意味内容が十分に近いと評価された日英文書対候補のみが初期コーパスに追加されることになり、信頼性の高い大規模な日英文書対データへと成長させることが可能となる。
[背景技術]の欄でも述べた通り、機械学習は「学習データ中の各データの特徴(素性)とその評価の間の対応関係を学習することによって、非学習データが与えられたときにその評価を予測する」ものである。
本実施形態では、学習データの「素性」として単語ベクトル(あるいは文書ベクトル)の各要素値を取り扱い、また、「評価」は日本語文書と英語文書が翻訳対の関係を有しているか否かという情報に相当する。「非学習データ」は、全体コーパス中の文書データであり、「評価の予測」とは、全体コーパス中で翻訳対とみなすことができる文書対を予測することである。
また、[背景技術]の欄において、ブートストラッピングとは、「小量の学習データから始め、大量の非学習データ集合の中から、予測された評価が統計的に最も確からしい(すなわち最も高い確信度を持つ)データを自動抽出し、そのデータを予測された評価とともに学習データに組み込む」という手順を繰り返すことにより、徐々に学習データを成長させていく手法であるということを述べた。
本実施形態では、「確信度」として文書ベクトル対の内積値を用いて、非学習データ集合の中から書く震度の高いデータを抽出して学習データに組み込んでいく。
上述した本発明の実施形態では、初期データ(初期コーパス)からランダムにデータ・サンプリングを行なうことによって学習データ(学習コーパス)を生成し、バギングの概念を利用したが、本発明の要旨はこれに限定されるものではない。機械学習を行なう際に用いる素性を変化させることによっても同様の効果を得ることができる。例えば、本実施形態では素性として特徴表現語の共起回数を用いているが、その特徴表現語を変化させる手法が考えられる。
また、本実施形態では、出現頻度の多いn個の単語を特徴表現語としているが、名詞や動詞のみを特徴表現語とする、あるいは、nの値を変化させる、といった方法でバギングの概念を利用することが可能である。
また、本実施形態では、文書対候補検索部17が、ベクトルの内積値が最も大きい日英文書対を内積値とともに文書対決定部18に渡すものとしたが、内積値が大きいものからN個の日英文書対を渡すものとしても、同様に本発明の効果を得ることができる。
[追補]
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書中では、日英の2ヶ国語翻訳対集合(パラレル・コーパス)を生成するための機械学習を対象として説明を行なったが、ブートストラッピング手法を用いる機械学習であればいかなるものであっても同様に本発明の効果を得ることができる。
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
11…初期コーパス保持部
12…学習コーパス抽出部
13…学習コーパス保持部
14…全体コーパス保持部
15…単語ベクトル生成部
16…文書ベクトル生成部
17…文書対候補検索部
18…文書対決定部
12…学習コーパス抽出部
13…学習コーパス保持部
14…全体コーパス保持部
15…単語ベクトル生成部
16…文書ベクトル生成部
17…文書対候補検索部
18…文書対決定部
Claims (11)
- 非学習データ集合から機械学習用データを生成する機械学習用データ生成システムであって、
評価の付与された機械学習用データを初期データとして保持する初期データ保持手段と、
前記初期データから学習データを生成する学習データ生成手段と、
評価の付与されていない非学習データを保持する非学習データ保持手段と、
学習データを用いて機械学習を行なう機械学習手段と、
前記機械学習手段による学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価手段と、
評価の確信度が所定の条件を満たす非学習データを初期データ保持手段に追加する初期データ更新手段と、
を具備することを特徴とする機械学習用データ生成システム。 - 前記学習データ生成手段は、前記初期データの一部を抽出して学習データを生成する、
ことを特徴とする請求項1に記載の機械学習用データ生成システム。 - 前記機械学習手段は、学習データを用いて機械学習を行なう際に、学習に用いる素性情報を変化させることが可能である、
ことを特徴とする請求項1に記載の機械学習用データ生成システム。 - 非学習データ集合から機械学習用データを生成する機械学習用データ生成方法であって、
評価の付与された機械学習用データを初期データとして保持する初期データ保持ステップと、
前記初期データから学習データを生成する学習データ生成ステップと、
評価の付与されていない非学習データを保持する非学習データ保持ステップと、
学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価ステップと、
評価の確信度が所定の条件を満たす非学習データを初期データに追加する初期データ更新ステップと、
を具備することを特徴とする機械学習用データ生成方法。 - 前記学習データ生成ステップでは、前記初期データの一部を抽出して学習データを生成する、
ことを特徴とする請求項4に記載の機械学習用データ生成方法。 - 前記機械学習ステップでは、学習データを用いて機械学習を行なう際に、学習に用いる素性情報を変化させることが可能である、
ことを特徴とする請求項4に記載の機械学習用データ生成方法。 - 対訳関係にある第1の言語で書かれた文書と第2の言語で書かれた文書の対の集合を初期コーパスとして保持する初期コーパス保持手段と、
前記初期コーパス中の文書対から学習コーパスを生成する学習コーパス生成手段と、
前記第1の言語で書かれた文書の集合と前記第2の言語で書かれた文書の集合を全体コーパスとして保持する全体コーパス保持手段と、
前記学習コーパスを用いて機械学習を行なう機械学習手段と、
前記機械学習手段による学習結果を基に、前記全体コーパス中の前記第1の言語で書かれた文書と前記第2の言語で書かれた文書の間の類似度を評価する評価手段と、
前記全体コーパス中で、類似度が所定の条件を満たす文書の対を前記初期コーパスに追加する初期コーパス更新手段と、
を具備することを特徴とする類似文書対生成システム。 - 前記機械学習手段は、学習コーパスを用いることによって、単語及び文書を多次元ベクトルとして表現し、
前記評価手段は、文書のベクトル表現に基づいて文書間の類似度を評価する、
ことを特徴とする請求項7に記載の類似文書対生成システム。 - 対訳関係にある第1の言語で書かれた文書と第2の言語で書かれた文書の対の集合を初期コーパスとして保持する初期コーパス保持ステップと、
前記初期コーパス中の文書対から学習コーパスを生成する学習コーパス生成ステップと、
前記第1の言語で書かれた文書の集合と前記第2の言語で書かれた文書の集合を全体コーパスとして保持する全体コーパス保持ステップと、
前記学習コーパスを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける学習結果を基に、前記全体コーパス中の前記第1の言語で書かれた文書と前記第2の言語で書かれた文書の間の類似度を評価する評価ステップと、
前記全体コーパス中で、類似度が所定の条件を満たす文書の対を前記初期コーパスに追加する初期コーパス更新ステップと、
を具備することを特徴とする類似文書対生成方法。 - 前記機械学習ステップでは、学習コーパスを用いることによって、単語及び文書を多次元ベクトルとして表現し、
前記評価ステップでは、文書のベクトル表現に基づいて文書間の類似度を評価する、
ことを特徴とする請求項9に記載の類似文書対生成方法。 - 非学習データ集合から機械学習用データを生成するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
評価の付与された機械学習用データを初期データとして保持する初期データ保持ステップと、
前記初期データから学習データを生成する学習データ生成ステップと、
評価の付与されていない非学習データを保持する非学習データ保持ステップと、
学習データを用いて機械学習を行なう機械学習ステップと、
前記機械学習ステップにおける学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価ステップと、
評価の確信度が所定の条件を満たす非学習データを初期データに追加する初期データ更新ステップと、
を具備することを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320326A JP2005092253A (ja) | 2003-09-11 | 2003-09-11 | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003320326A JP2005092253A (ja) | 2003-09-11 | 2003-09-11 | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005092253A true JP2005092253A (ja) | 2005-04-07 |
Family
ID=34452354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003320326A Pending JP2005092253A (ja) | 2003-09-11 | 2003-09-11 | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005092253A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009059300A (ja) * | 2007-09-03 | 2009-03-19 | Toshiba Corp | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
JP2009116427A (ja) * | 2007-11-02 | 2009-05-28 | Yamaguchi Univ | 健全性劣化評価システム |
JP2010198269A (ja) * | 2009-02-25 | 2010-09-09 | Yahoo Japan Corp | 意味ドリフトの発生評価方法及び装置 |
JP2014229047A (ja) * | 2013-05-22 | 2014-12-08 | 日本電信電話株式会社 | イベント情報抽出装置、その動作方法およびコンピュータプログラム |
KR101842267B1 (ko) | 2016-08-16 | 2018-03-27 | 단국대학교 산학협력단 | Mld를 이용한 소프트웨어 분류 장치 및 그 방법 |
JP2019003552A (ja) * | 2017-06-19 | 2019-01-10 | パナソニックIpマネジメント株式会社 | 処理方法、処理装置、及び処理プログラム |
JP2019016025A (ja) * | 2017-07-04 | 2019-01-31 | 株式会社日立製作所 | 情報処理システム |
WO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
US11397853B2 (en) | 2018-12-12 | 2022-07-26 | Hitachi, Ltd. | Word extraction assistance system and word extraction assistance method |
US11645475B2 (en) | 2019-02-05 | 2023-05-09 | Fujitsu Limited | Translation processing method and storage medium |
-
2003
- 2003-09-11 JP JP2003320326A patent/JP2005092253A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009059300A (ja) * | 2007-09-03 | 2009-03-19 | Toshiba Corp | 訳語学習のためのデータを作成する装置、方法、およびプログラム |
JP2009116427A (ja) * | 2007-11-02 | 2009-05-28 | Yamaguchi Univ | 健全性劣化評価システム |
JP2010198269A (ja) * | 2009-02-25 | 2010-09-09 | Yahoo Japan Corp | 意味ドリフトの発生評価方法及び装置 |
JP2014229047A (ja) * | 2013-05-22 | 2014-12-08 | 日本電信電話株式会社 | イベント情報抽出装置、その動作方法およびコンピュータプログラム |
KR101842267B1 (ko) | 2016-08-16 | 2018-03-27 | 단국대학교 산학협력단 | Mld를 이용한 소프트웨어 분류 장치 및 그 방법 |
JP2019003552A (ja) * | 2017-06-19 | 2019-01-10 | パナソニックIpマネジメント株式会社 | 処理方法、処理装置、及び処理プログラム |
JP2019016025A (ja) * | 2017-07-04 | 2019-01-31 | 株式会社日立製作所 | 情報処理システム |
US11397853B2 (en) | 2018-12-12 | 2022-07-26 | Hitachi, Ltd. | Word extraction assistance system and word extraction assistance method |
US11645475B2 (en) | 2019-02-05 | 2023-05-09 | Fujitsu Limited | Translation processing method and storage medium |
WO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
JPWO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | ||
JP7251625B2 (ja) | 2019-06-27 | 2023-04-04 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494987B2 (en) | Semantic relationship extraction, text categorization and hypothesis generation | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
Eger et al. | Lemmatization and Morphological Tagging in German and Latin: A Comparison and a Survey of the State-of-the-art | |
Kou et al. | High-recall protein entity recognition using a dictionary | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
Amalia et al. | An efficient text classification using fasttext for bahasa indonesia documents classification | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2005092253A (ja) | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム | |
JP2005181928A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
Tapsai et al. | Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application | |
Korobkin et al. | Methods for extracting the descriptions of sci-tech effects and morphological features of technical systems from patents | |
JP2005208782A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
Angeli et al. | Stanford’s distantly supervised slot filling systems for KBP 2014 | |
Palliyali et al. | Comparative study of extractive text summarization techniques | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
CN109284392B (zh) | 一种文本分类方法、装置、终端及存储介质 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Zheng et al. | Character-based parsing with convolutional neural network | |
JP2016197289A (ja) | パラメタ学習装置、類似度算出装置、方法、及びプログラム | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 |