JP2012043225A - 相互機械学習装置、相互機械学習方法、及びプログラム - Google Patents

相互機械学習装置、相互機械学習方法、及びプログラム Download PDF

Info

Publication number
JP2012043225A
JP2012043225A JP2010184356A JP2010184356A JP2012043225A JP 2012043225 A JP2012043225 A JP 2012043225A JP 2010184356 A JP2010184356 A JP 2010184356A JP 2010184356 A JP2010184356 A JP 2010184356A JP 2012043225 A JP2012043225 A JP 2012043225A
Authority
JP
Japan
Prior art keywords
pair
classification
common
relationship
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010184356A
Other languages
English (en)
Other versions
JP5622310B2 (ja
Inventor
Jong Hoon Oh
鍾勲 呉
Ichiro Yamada
一郎 山田
Kentaro Torisawa
健太郎 鳥澤
Saeger Stijn De
デ サーガ ステイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010184356A priority Critical patent/JP5622310B2/ja
Publication of JP2012043225A publication Critical patent/JP2012043225A/ja
Application granted granted Critical
Publication of JP5622310B2 publication Critical patent/JP5622310B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】高精度の機械学習を行う相互機械学習装置を提供する。
【解決手段】第1方法で第1のコーパスから抽出された、意味関係のある語のペア候補の第1関係ペア候補と、第2方法で第2のコーパスから抽出された、意味関係のある語のペア候補の第2関係ペア候補とに共通する共通ペア、第1のコーパスから抽出された、意味関係のない語のペア候補と第2関係ペア候補に共通する共通ペア、第2のコーパスから抽出された、意味関係のない語のペア候補と第1関係ペア候補に共通する共通ペアが記憶される共通ペア記憶部20、共通ペアの関係の有無を、第1及び第2の学習データの学習結果で分類する第1及び第2の分類部23、24、第1及び第2の分類部23、24による確信度が高い共通ペアを第2及び第1の学習データに追加する追加部25を備え、機械学習、分類、学習データの追加を繰り返す。
【選択図】図1

Description

本発明は、2個の機械学習を用いて相互機械学習を行う相互機械学習装置等に関する。
従来、教師データを用いた機械学習において、複数の機械学習を組み合わせた相互機械学習という手法が提案されている(例えば、非特許文献1,2参照)。非特許文献1の手法では、同じ語のペアを対象として、学習時に利用する素性を人手によって分けて複数の機械学習器を生成し、一つの機械学習器から得られた信頼できる結果を、別の機械学習器の学習データとして使用している。非特許文献2では、異なる言語を対象として、言語ごとに機械学習器を生成し、一つの機械学習器から得られた信頼できる結果を、別の機械学習器の学習データとして使用している。
Avrim Blum、Tom Mitchell、「Combining Labeled and Unlabeled Data with Co−Training」、In COLT'98:Proceedings of the eleventh annual conference on Computational learning theory、p.92−100、1998年 Jong−Hoon Oh、Kiyotaka Uchimoto、Kentaro Torisawa、「Bilingual Co−Training for Monolingual Hyponymy−Relation Acquisition」、In Proc of ACL−09:IJCNLP、p.432−440、2009年
しかしながら、非特許文献1の手法では、複数の機械学習器が扱う処理対象が同じでなければならず、異なる処理対象を扱うことができないという問題があった。また、従来の相互機械学習よりも、より精度の高い相互機械学習の実現が望まれていた。
本発明は、上記課題を解決するためになされたものであり、複数の機械学習器が異なる処理対象を扱うことができ、精度の高い機械学習を実現可能な相互機械学習装置等を提供することを目的とする。
上記目的を達成するため、本発明による相互機械学習装置は、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、第1のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、第2のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第1の分類部と、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第2の分類部と、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部と、を備え、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、ものである。
このような構成により、第1及び第2の分類部は、異なる処理対象、すなわち、第1の方法によって抽出された言語表現のペア、及び、第1の方法とは異なる第2の方法によって抽出された言語表現のペアを扱うことができると共に、バーチャル共通ペアをも用いて相互機械学習を行うため、より精度の高い機械学習を実現することができる。その結果、その機械学習の結果を用いて意味的関係を有する言語表現のペアの分類を行うことによって、意味的関係を有する言語表現のペアを精度高く獲得することができるようになる。
また、本発明による相互機械学習装置は、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部と、を備え、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、ものである。
このような構成により、前述の相互機械学習装置と同様に、異なる処理対象を扱うことができると共に、精度の高い機械学習を実現できる。また、前述の相互機械学習装置よりも多くのバーチャル共通ペアを用いた処理が可能となる。
また、本発明による相互機械学習装置では、前記追加部は、前記第1の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加してもよい。
このような構成により、一方の分類部によって確信度が高く分類された共通ペアは信頼できるものであると考えられるため、このような構成によって、適切に学習データを増やすことができると考えられる。
また、本発明による相互機械学習装置では、追加部は、第1の分類部の分類による確信度が高く、第1及び第2の分類部の分類結果が同じである共通ペアと共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による確信度が高く、第1及び第2の分類部の分類結果が同じである共通ペアと共通ペアに関する分類結果とを第1の学習データに追加してもよい。
第1及び第2の分類部による分類結果が同じであり、一方の分類部によって確信度が高く分類された共通ペアは、他方の分類部の分類による確信度にかかわらず、信頼できるものであると考えられる。したがって、このような構成により、その共通ペアを、他方の分類部の学習データに追加することによって、適切に学習データを増やすことができると考えられる。
また、本発明による相互機械学習装置では、追加部は、第1の分類部の分類による確信度が高く、第2の分類部の分類による確信度が低い共通ペアと共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による確信度が高く、第1の分類部の分類による確信度が低い共通ペアと共通ペアに関する分類結果とを第1の学習データに追加してもよい。
一方の分類部によって確信度が高く分類され、他方の分類部によって確信度が低く分類された共通ペアは、前者の分類部による分類が信頼できるものと考えられる。したがって、このような構成により、その共通ペアを、後者の分類部の学習データに追加することによって、適切に学習データを増やすことができると考えられる。
また、本発明による相互機械学習装置では、複数の第1関係ペア候補が記憶される第1関係ペア候補記憶部と、複数の第1無関係ペア候補が記憶される第1無関係ペア候補記憶部と、複数の第2関係ペア候補が記憶される第2関係ペア候補記憶部と、複数の第2無関係ペア候補が記憶される第2無関係ペア候補記憶部と、複数の第1関係ペア候補と複数の第2関係ペア候補とを用いて、ジェニュイン共通ペアを取得して共通ペア記憶部に蓄積し、複数の第1関係ペア候補と複数の第2関係ペア候補と複数の第1無関係ペア候補と複数の第2無関係ペア候補とを用いて、バーチャル共通ペアを取得して共通ペア記憶部に蓄積する取得部と、をさらに備えてもよい。
このような構成により、相互機械学習装置において、ジェニュイン共通ペアとバーチャル共通ペアとを取得する処理をも行うことができるようになる。
また、本発明による相互機械学習装置では、第1のコーパスが記憶される第1のコーパス記憶部と、第2のコーパスが記憶される第2のコーパス記憶部と、第1のコーパスから複数の第1関係ペア候補を抽出して第1関係ペア候補記憶部に蓄積し、第1のコーパスから複数の第1無関係ペア候補を抽出して第1無関係ペア候補記憶部に蓄積する第1の抽出部と、第2のコーパスから複数の第2関係ペア候補を抽出して第2関係ペア候補記憶部に蓄積し、第2のコーパスから複数の第2無関係ペア候補を抽出して第2無関係ペア候補記憶部に蓄積する第2の抽出部と、をさらに備えてもよい。
このような構成により、相互機械学習装置において、第1及び第2のコーパスから、第1関係ペア候補等を抽出する処理をも行うことができるようになる。
また、本発明による相互機械学習装置では、第1の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第1関係ペア候補に対して分類を行い、第2の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第2関係ペア候補に対して分類を行ってもよい。
このような構成により、前述のようにして共通ペアの追加された学習データを機械学習した結果を用いて第1関係ペア候補及び第2関係ペア候補の分類を行うため、より精度の高い分類を行うことができるようになる。
また、本発明による相互機械学習装置では、第1のコーパスは、構造化されたコーパスであり、第2のコーパスは、構造化されていない自然言語文のコーパスであってもよい。
このような構成により、異なる処理対象として、構造化されたコーパスから取得された言語表現のペア、及び、構造化されていないコーパスから取得された言語表現のペアを扱うことができる。
また、本発明による相互機械学習装置では、意味的関係は、上位下位の関係であってもよい。
本発明による相互機械学習装置等によれば、異なる処理対象を扱うことができると共に、より精度の高い機械学習を実現することができる。
本発明の実施の形態1による相互機械学習装置の構成を示すブロック図 同実施の形態による相互機械学習装置の動作を示すフローチャート 同実施の形態による相互機械学習装置の動作を示すフローチャート 同実施の形態における共通ペアについて説明するための図 同実施の形態における構造化されたコーパスについて説明するための図 同実施の形態における実験結果を示す図 同実施の形態における実験結果を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、本発明による相互機械学習装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による相互機械学習装置について、図面を参照しながら説明する。
図1は、本実施の形態による相互機械学習装置1の構成を示すブロック図である。本実施の形態による相互機械学習装置1は、第1のコーパス記憶部11と、第2のコーパス記憶部12と、第1の抽出部13と、第2の抽出部14と、第1関係ペア候補記憶部15と、第1無関係ペア候補記憶部16と、第2関係ペア候補記憶部17と、第2無関係ペア候補記憶部18と、取得部19と、共通ペア記憶部20と、第1の学習データ記憶部21と、第2の学習データ記憶部22と、第1の分類部23と、第2の分類部24と、追加部25と、第1関係ペア記憶部26と、第2関係ペア記憶部27とを備える。
第1のコーパス記憶部11では、第1のコーパスが記憶され、第2のコーパス記憶部12では、第2のコーパスが記憶される。第1及び第2のコーパスは、異なる種類のコーパスであってもよく、あるいは、同じ種類のコーパスであってもよい。前者の場合には、例えば、第1のコーパスは構造化されたコーパスであり、第2のコーパスは構造化されていない自然言語文のコーパスであってもよい。本実施の形態では、主にその場合について説明する。ここで、構造化されたコーパスとは、そのコーパスに含まれる文書が階層構造や、ツリー構造等の何らかの構造を有しているコーパスのことである。構造化されたコーパスは、例えば、百科事典の情報であってもよく、その他の情報であってもよい。それらの情報では、例えば、タイトル、セクション、サブセクション、リスト等の階層構造やツリー構造があるものとする。百科事典のコーパスとしては、例えば、ウェブで公開されているWIKIPEDIA(登録商標)等がある。構造化されていない自然言語文のコーパスとは、階層構造やツリー構造等の構造を有さないコーパスのことであり、例えば、新聞の情報や、小説の情報、構造化されていないウェブの情報等であってもよい。自然言語文の文書を含む情報であれば、通常、構造化されていない自然言語文のコーパスとなる。したがって、構造を有するコーパスであっても、その構造を用いないことによって、構造化されていないコーパスとして用いることも可能である。構造化されていないウェブの情報として、例えば、「検索エンジン研究基盤TSUBAKI」等で対象としている日本語のウェブ文書の大規模コーパスが存在する。
第1のコーパス記憶部11、及び第2のコーパス記憶部12にコーパスが記憶される過程は問わない。例えば、記録媒体を介してコーパスが第1のコーパス記憶部11等で記憶されるようになってもよく、あるいは、通信回線等を介して送信されたコーパスが第1のコーパス記憶部11等で記憶されるようになってもよい。
第1の抽出部13は、第1のコーパス記憶部11で記憶されている第1のコーパスから複数の第1関係ペア候補を抽出して第1関係ペア候補記憶部15に蓄積する。また、第1の抽出部13は、第1のコーパス記憶部11で記憶されている第1のコーパスから複数の第1無関係ペア候補を抽出して第1無関係ペア候補記憶部16に蓄積する。第1関係ペア候補は、ある意味的関係を有する言語表現のペアの候補である。なお、第1関係ペア候補は、その意味的関係を有する言語表現のペアに関する候補であるため、必ずしもその意味的関係を有しているとは限らない。第1無関係ペア候補は、その意味的関係を有さない言語表現のペアの候補である。また、第1無関係ペア候補は、その意味的関係を有さない言語表現のペアに関する候補であるため、必ずしもその意味的関係を有さないとは限らない。意味的関係とは、例えば、上位下位の関係(例えば、飲み物とコーヒー)であってもよく、原因結果の関係(例えば、豪雨と洪水)であってもよく、全体部分の関係(例えば、人と手、自動車とタイヤ)であってもよく、ライバルや対義語の関係(例えば、上と下)であってもよく、製品とメーカーの関係(例えば、掃除機とA社)であってもよく、事象と方法の関係(例えば、爆発と爆弾)であってもよく、事象とツールの関係(例えば、授業と教科書)であってもよく、事象と防ぐものの関係(例えば、病気と薬)であってもよく、物と材料の関係(例えば、缶とアルミニウム)であってもよく、名所・建物と場所の関係(例えば、二条城と京都)であってもよく、その他の種類の関連であってもよい。言語表現は、例えば、単語(形態素)であってもよく、単語の並びであるフレーズであってもよい。また、言語表現は、複数の単語の連続(例えば、複合名詞など)であってもよい。第1の抽出部13は、通常、いずれか一つの意味的関係を有する言語表現のペアの候補である第1関係ペア候補を抽出する。本実施の形態では、第1の抽出部13が、上位下位の関係を有する言語表現のペアの候補である第1関係ペア候補を抽出する場合について主に説明する。また、第1の抽出部13は、第1関係ペア候補が有しているとされる意味的関係を有していないと考えられる言語表現のペアを、第1無関係ペア候補として抽出してもよく、あるいは、第1関係ペア候補が有しているとされる意味的関係ではない意味的関係を有していると考えられる言語表現のペアを、第1無関係ペア候補として抽出してもよい(第1関係ペア候補が有しているとされる意味的関係ではない意味的関係を有している言語表現のペアは、その第1関係ペア候補が有しているとされる意味的関係を有していないであろうと考えられるからである)。本実施の形態では、第1の抽出部13が、上位下位の関係を有さない言語表現のペアの候補である第1無関係ペア候補を抽出する場合について主に説明する。
第2の抽出部14は、第2のコーパス記憶部12で記憶されている第2のコーパスから複数の第2関係ペア候補を抽出して第2関係ペア候補記憶部17に蓄積する。また、第2の抽出部14は、第2のコーパス記憶部12で記憶されている第2のコーパスから複数の第2無関係ペア候補を抽出して第2無関係ペア候補記憶部18に蓄積する。第2関係ペア候補は、第1関係ペア候補が有していると考えられる意味的関係と同じ意味的関係を有する言語表現のペアの候補である。なお、第2関係ペア候補は、その意味的関係を有する言語表現のペアに関する候補であるため、必ずしもその意味的関係を有しているとは限らない。第2無関係ペア候補は、その意味的関係を有さない言語表現のペアの候補である。また、第2無関係ペア候補は、その意味的関係を有さない言語表現のペアに関する候補であるため、必ずしもその意味的関係を有さないとは限らない。第2の抽出部14は、通常、いずれか一つの意味的関係を有する言語表現のペアの候補である第2関係ペア候補を抽出する。その意味的関係は、前述のように、第1関係ペア候補が有していると考えられる意味的関係と同じ意味的関係である。本実施の形態では、第2の抽出部14が、上位下位の関係を有する言語表現のペアの候補である第2関係ペア候補を抽出する場合について主に説明する。また、第2の抽出部14は、第2関係ペア候補が有しているとされる意味的関係を有していないと考えられる言語表現のペアを、第2無関係ペア候補として抽出してもよく、あるいは、第2関係ペア候補が有しているとされる意味的関係ではない意味的関係を有していると考えられる言語表現のペアを、第2無関係ペア候補として抽出してもよい。本実施の形態では、第2の抽出部14が、上位下位の関係ではない意味的関係を有する言語表現のペアの候補である第2無関係ペア候補を抽出する場合について主に説明する。
第1及び第2の抽出部13,14は、言語表現のペアを抽出する元となるコーパスが異なる以外に、その抽出方法が異なるものとする。すなわち、第1の抽出部13は、第1の方法によって第1コーパスから複数の第1関係ペア候補を抽出し、第2の抽出部14は、第2の方法によって第2のコーパスから複数の第2関係ペア候補を抽出する。なお、第1の方法と第2の方法とは異なるものとする。したがって、第1及び第2のコーパスの種類が一緒であったとしても、各コーパスから第1及び第2関係ペア候補を抽出する方法が異なるため、第1関係ペア候補と第2関係ペア候補とは異なる種類のものとなる。本実施の形態では、第1の方法は、第1のコーパスが有する構造を用いて第1関係ペア候補を抽出する方法であり、第2の方法は、レキシコシンタクティックパターン(Lexico−syntactic patterns)を用いて第2関係ペア候補を抽出する方法である場合について説明する。それらの抽出方法の詳細については後述する。
取得部19は、複数の第1関係ペア候補と複数の第2関係ペア候補とを用いて、ジェニュイン(jenuine)共通ペアを取得して共通ペア記憶部20に蓄積する。また、取得部19は、複数の第1関係ペア候補と複数の第2関係ペア候補と複数の第1無関係ペア候補と複数の第2無関係ペア候補とを用いて、バーチャル(virtual)共通ペアを取得して共通ペア記憶部20に蓄積する。ジェニュイン共通ペアとは、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補と、第2関係ペア候補記憶部17で記憶されている複数の第2関係ペア候補とに共通するペアである。したがって、ある第1関係ペア候補と、ある第2関係ペア候補とが同じ言語表現のペアである場合に、その第1関係ペア候補(その第2関係ペア候補)は、ジェニュイン共通ペアとなる。また、バーチャル共通ペアとは、第1無関係ペア候補記憶部16で記憶されている複数の第1無関係ペア候補と、第2関係ペア候補記憶部17で記憶されている複数の第2関係ペア候補とに共通するペア、及び、第2無関係ペア候補記憶部18で記憶されている複数の第2無関係ペア候補と、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補とに共通するペアである。したがって、ある第1無関係ペア候補と、ある第2関係ペア候補とが同じ言語表現のペアである場合に、その第1無関係ペア候補(その第2関係ペア候補)は、バーチャル共通ペアとなる。また、ある第2無関係ペア候補と、ある第1関係ペア候補とが同じ言語表現のペアである場合に、その第2無関係ペア候補(その第1関係ペア候補)は、バーチャル共通ペアとなる。なお、ジェニュイン共通ペアとバーチャル共通ペアとをあわせて共通ペアと呼ぶ。
第1の学習データ記憶部21では、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される。
第2の学習データ記憶部22では、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される。
なお、第1の学習データ記憶部21、第2の学習データ記憶部22に第1の学習データや第2の学習データが記憶される過程は問わない。例えば、記録媒体を介して第1の学習データ等が第1の学習データ記憶部21等で記憶されるようになってもよく、あるいは、通信回線等を介して送信された第1の学習データ等が第1の学習データ記憶部21等で記憶されるようになってもよい。
第1の分類部23は、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する。その分類によって、第1の分類部23は、分類結果(意味的関係を有するかどうか)と、その分類結果の確信度とを得ることができる。なお、後述するように、追加部25によって第1の学習データが追加された場合には、第1の分類部23は、その追加された第1の学習データをも用いて学習を行うものとする。また、第1の分類部23は、機械学習及び分類と学習データの追加との繰り返しの後に、第1関係ペア候補記憶部15で記憶されている複数の第1関係ペア候補に対して分類を行う。そして、第1の分類部23は、意味的関係を有すると判断した第1関係ペア候補である第1関係ペアを、第1関係ペア記憶部26に蓄積する。
第2の分類部24は、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する。その分類によって、第2の分類部24は、分類結果(意味的関係を有するかどうか)と、その分類結果の確信度とを得ることができる。なお、後述するように、追加部25によって第2の学習データが追加された場合には、第2の分類部24は、その追加された第2の学習データをも用いて学習を行うものとする。また、第2の分類部24は、機械学習及び分類と学習データの追加との繰り返しの後に、複数の第2関係ペア候補に対して分類を行う。そして、第2の分類部24は、意味的関係を有すると判断した第2関係ペア候補である第2関係ペアを、第2関係ペア記憶部27に蓄積する。
ここで、第1及び第2の分類部23,24による機械学習を用いた分類について簡単に説明する。第1及び第2の分類部23,24は、機械学習を用いて、第1及び第2関係ペア候補を、意味的関係を有するものと、そうでないものとに分類する。この機械学習の入力は、第1及び第2関係ペア候補である。また、その機械学習の出力は、その第1及び第2関係ペア候補が意味的関係を有するかどうかである。また、その機械学習で用いられる教師データとしての学習データ(訓練データ)は、2個の言語表現のペアと、そのペアの意味的関係の有無を示す情報(すなわち、意味的関係を有しているか、有していないかの情報)とである。学習データを用いた学習の後に、分類の対象となる第1関係ペア候補や第2関係ペア候補を入力すると、その第1関係ペア候補等に関する素性の各値が取得され、その第1関係ペア候補等が意味的関係を有するかどうかと、その確信度とが出力される。その機械学習で用いられる素性については後述する。
なお、第1及び第2の分類部23,24は、例えば、機械学習として、SVM(Support Vector Machine)を用いてもよく、その他のものを用いてもよい。本実施の形態では、機械学習としてSVMを用いる場合について説明する。
追加部25は、第1の分類部23の分類による確信度が高い共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加する。また、追加部25は、第2の分類部24の分類による確信度が高い共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加する。具体的には、追加部25は、第1の分類部23の分類による確信度が高く、第1及び第2の分類部23,24の分類結果が同じである共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加してもよく、第2の分類部24の分類による確信度が高く、第1及び第2の分類部23,24の分類結果が同じである共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加してもよい。また、追加部25は、第1の分類部23の分類による確信度が高く、第2の分類部24の分類による確信度が低い共通ペアと、その共通ペアに関する分類結果とを第2の学習データに追加してもよく、第2の分類部24の分類による確信度が高く、第1の分類部23の分類による確信度が低い共通ペアと、その共通ペアに関する分類結果とを第1の学習データに追加してもよい。ここで、バーチャル共通ペアは、一方のコーパスにおいては意味的関係の候補とされているが、実際に意味的関係を有している可能性は低いと考えられる。したがって、バーチャル共通ペアは、負例として追加される可能性が高い。一方、ジェニュイン共通ペアは、バーチャル共通ペアよりも意味的関係を有している可能性が高いと考えられ、正例として追加される可能性もある。
ある共通ペアと分類結果とを第1の学習データに追加するとは、その共通ペア等を第1の学習データ記憶部21に蓄積することであってもよく、あるいは、その共通ペア等をも第1の分類部23が第1の学習データとして使用するように設定することであってもよい。後者の場合には、第1の学習データに追加された、共通ペア記憶部20で記憶されている共通ペアと、その分類結果とを、第1の分類部23が第1の学習データとして読み出すように設定することであってもよい。ここで、その分類結果は、第2の分類部24によって共通ペア記憶部20に蓄積されてもよい。また、ある共通ペアと分類結果とを第2の学習データに追加するとは、その共通ペア等を第2の学習データ記憶部22に蓄積することであってもよく、あるいは、その共通ペア等をも第2の分類部24が第2の学習データとして使用するように設定することであってもよい。後者の場合には、第2の学習データに追加された、共通ペア記憶部20で記憶されている共通ペアと、その分類結果とを、第2の分類部24が第2の学習データとして読み出すように設定することであってもよい。ここで、その分類結果は、第1の分類部23によって共通ペア記憶部20に蓄積されてもよい。本実施の形態では、追加部25が、第1の学習データへの追加対象である共通ペア等を第1の学習データ記憶部21に蓄積し、第2の学習データへの追加対象である共通ペア等を第2の学習データ記憶部22に蓄積する場合について説明する。なお、第1の学習データ記憶部21及び第2の学習データ記憶部22であらかじめ記憶されている学習データをそれぞれ、初期の第1の学習データ、初期の第2の学習データと呼ぶこともある。その初期の第1の学習データ及び初期の第2の学習データは、それぞれ異なったものであってもよく、あるいは、同じものであってもよい。
なお、第1及び第2の分類部23,24による機械学習及び分類と、追加部25による学習データの追加とは繰り返して実行される。その繰り返しの際に、第1及び第2の分類部23,24は、追加部25による追加が行われた後の学習データを用いて、機械学習を行うことになる。
なお、第1のコーパス記憶部11、第2のコーパス記憶部12、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、共通ペア記憶部20、第1の学習データ記憶部21、第2の学習データ記憶部22、第1関係ペア記憶部26、第2関係ペア記憶部27での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。また、これらの記憶部は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
また、第1のコーパス記憶部11、第2のコーパス記憶部12、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、共通ペア記憶部20、第1の学習データ記憶部21、第2の学習データ記憶部22、第1関係ペア記憶部26、第2関係ペア記憶部27のうち、任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、第1のコーパスを記憶している領域が第1のコーパス記憶部11となり、第2のコーパスを記憶している領域が第2のコーパス記憶部12となる。
次に、本実施の形態による相互機械学習装置1の動作について、図2のフローチャートを用いて説明する。ここで、第1のコーパスを「S」とし、第2のコーパスを「U」とし、第1関係ペア候補の集合を「X」とし、第1無関係ペア候補の集合を「R」とし、第2関係ペア候補の集合を「X」とし、第2無関係ペア候補の集合を「R」とし、共通ペアの集合を「Y」とし、ジェニュイン共通ペアの集合を「G」とし、バーチャル共通ペアの集合を「V」とする。XやX、G、V等の関係は、図4で示されるようになる。なお、Y=G∪Vである。また、あらかじめ第1の学習データ記憶部21で記憶されている第1の学習データを「L 」とし、あらかじめ第2の学習データ記憶部22で記憶されている第2の学習データを「L 」とする。
(ステップS101)第1の抽出部13は、第1のコーパスSから複数の第1関係ペア候補の集合Xを抽出して第1関係ペア候補記憶部15に蓄積する。
(ステップS102)第2の抽出部14は、第2のコーパスUから複数の第2関係ペア候補の集合Xを抽出して第2関係ペア候補記憶部17に蓄積する。
(ステップS103)第1の抽出部13は、第1のコーパスSから複数の第1無関係ペア候補の集合Rを抽出して第1無関係ペア候補記憶部16に蓄積する。なお、X∩Rは空集合である。
(ステップS104)第2の抽出部14は、第2のコーパスUから複数の第2無関係ペア候補の集合Rを抽出して第2無関係ペア候補記憶部18に蓄積する。なお、X∩Rは空集合である。
(ステップS105)取得部19は、複数の第1関係ペア候補の集合X、複数の第1無関係ペア候補の集合R、複数の第2関係ペア候補の集合X、複数の第2無関係ペア候補の集合Rを用いて、ジェニュイン共通ペアの集合Gと、バーチャル共通ペアの集合Vとを取得し、それらを共通ペア記憶部20に蓄積する。図4で示されるように、ジェニュイン共通ペアの集合Gは、第1関係ペア候補の集合Xと、第2関係ペア候補の集合Xとの共通部分である。すなわち、G=X∩Xとなる。また、バーチャル共通ペアの集合Vは、第1関係ペア候補の集合Xと、第2無関係ペア候補の集合Rとの共通部分、及び、第2関係ペア候補の集合Xと、第1無関係ペア候補の集合Rとの共通部分である。すなわち、V=(X∩R)∪(R∩X)となる。
(ステップS106)追加部25は、カウンタiを0に設定する。このカウンタiは、ステップS107〜S113のサイクルをカウントするためのカウンタである。
(ステップS107)第1の分類部23は、第1の学習データ記憶部21で記憶されている第1の学習データL を用いて機械学習を行う。その機械学習によって得られた分類器をc とする。なお、機械学習を行う際に用いる素性は、例えば、あらかじめ第1の学習データ記憶部21で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(ステップS108)第2の分類部24は、第2の学習データ記憶部22で記憶されている第2の学習データL を用いて機械学習を行う。その機械学習によって得られた分類器をc とする。なお、機械学習を行う際に用いる素性は、例えば、あらかじめ第2の学習データ記憶部22で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
(ステップS109)第1の分類部23は、機械学習の結果である分類器c を用いて、共通ペアの集合Yに含まれる各共通ペアに対して分類を行う。この分類の結果、意味的関係を有するかどうかを示すクラスラベルcl∈{yes、no}と、確信度r∈Rとを得ることができる。なお、クラスラベルcl「yes」は、意味的関係を有すると分類されたことを示し、クラスラベルcl「no」は、意味的関係を有さないと分類されたことを示す。また、「R」は、負でない実数である。分類器cによるy∈Yの分類結果を、c(y)=(y、cl、r)と記述することがある。なお、この分類の際に、Yに含まれる共通ペアのうち、第1の学習データL 、または、第2の学習データL に含まれる共通ペアについては、分類を行わなくてもよい。また、この分類の際に用いる各共通ペアの素性は、例えば、あらかじめ共通ペア記憶部26で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(ステップS110)第2の分類部24は、機械学習の結果である分類器c を用いて、共通ペアの集合Yに含まれる各共通ペアに対して分類を行う。この分類の結果、意味的関係を有するかどうかを示すクラスラベルclと、確信度rとを得ることができることは、第1の分類部23の場合と同様である。なお、この分類の際に、Yに含まれる共通ペアのうち、第1の学習データL 、または、第2の学習データL に含まれる共通ペアについては、分類を行わなくてもよい。また、この分類の際に用いる各共通ペアの素性は、例えば、あらかじめ共通ペア記憶部26で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
(ステップS111)追加部25は、分類結果を用いて、所定の条件を満たす共通ペアを、第1の学習データL(i+1) や第2の学習データL(i+1) に追加する。また、第1の学習データL(i+1) は、L のすべての要素を含むものであり、第2の学習データL(i+1) は、L のすべての要素を含むものである。なお、この学習データの追加の処理の詳細については、図3のフローチャートを用いて後述する。
(ステップS112)追加部25は、ステップS107〜S113のサイクルの繰り返しの終了条件が満たされるかどうか判断する。そして、その終了条件が満たされる場合には、ステップS114に進み、そうでない場合には、ステップS113に進む。
その終了条件は、例えば、d=|σ−σ(i−1)|/|σ(i−1)|の値が、連続した所定回数(例えば、3回であってもよい)のサイクルだけ、あらかじめ決められたしきい値「ε」未満であることであってもよい。なお、σは、カウンタiのサイクルにおけるステップS109,S110において分類された各y∈Yの第1の分類部23による分類の確信度をr1とし、第2の分類部24による分類の確信度をr2とした場合に、
σ=Σ|r1−r2|
で示される値である。なお、その和は、すべてのy∈Yに対してとられるものである。d<εであるということは、前回のサイクルと比較して、学習結果である超平面がほとんど変化していないこと、すなわち、新たな学習データの追加を行っても、学習結果がほとんど変化していないことを意味する。なお、そのようになるようにしきい値εが選択されることが好適である。そのしきい値εは、例えば、0.001等であってもよい。
なお、異なる終了条件を用いてもよいことは言うまでもない。例えば、経験則によって、ステップS107〜S113のサイクルの繰り返し回数が所定の回数になった場合(例えば、カウンタi=Aとなった場合。ただし、Aは1以上の整数である)に、新たな学習データの追加を行っても学習結果がほとんど変化していないことが分かっている場合には、終了条件は、カウンタi=Aとなったことであってもよい。
その終了条件を示す情報は、図示しない記録媒体で記憶されており、追加部25は、その記録媒体から終了条件を示す情報を読み出し、その終了条件が満たされるかどうかの判断を行ってもよい。また、ここでは、追加部25が終了条件に関する判断を行う場合について説明したが、その判断を行うのは追加部25以外の構成要素であってもよいことは言うまでもない。
(ステップS113)追加部25は、カウンタiを1だけインクリメントする。そして、ステップS107に戻る。
(ステップS114)第1の分類部23は、その時点の学習結果である分類器を用いて、第1関係ペア候補記憶部15で記憶されている各第1関係ペア候補の分類を行い、その分類によって意味的関係を有するとされた第1関係ペア候補である第1関係ペアを、第1関係ペア記憶部26に蓄積する。なお、この分類の際に用いる各第1関係ペア候補の素性は、例えば、あらかじめ第1関係ペア候補記憶部15で記憶されていてもよく、あるいは、第1のコーパスを参照して取得してもよい。
(ステップS115)第2の分類部24は、その時点の学習結果である分類器を用いて、第2関係ペア候補記憶部17で記憶されている各第2関係ペア候補の分類を行い、その分類によって意味的関係を有するとされた第2関係ペア候補である第2関係ペアを、第2関係ペア記憶部27に蓄積する。なお、この分類の際に用いる各第2関係ペア候補の素性は、例えば、あらかじめ第2関係ペア候補記憶部17で記憶されていてもよく、あるいは、第2のコーパスを参照して取得してもよい。
このようにして、相互学習と、その学習結果を用いた分類との一連の処理が終了することになる。なお、図2のフローチャートにおいて、ステップS101〜S104までの処理の順序を問わないことは言うまでもない。ステップS107,S108の処理の順序、ステップS109,S110の処理の順序、ステップS114,S115の処理の順序を問わないことも言うまでもない。また、並列して実行できる処理については、並列処理を行ってもよいことは言うまでもない。このように、図2のフローチャートにおいて、一連の処理の目的が達成される範囲内における種々の変更が可能である。
図3は、図2のフローチャートにおける学習データの追加の処理(ステップS111)の詳細を示すフローチャートである。
(ステップS201)追加部25は、ステップS109における第1の分類部23による分類結果から、L ∪L に含まれない共通ペアに対する分類結果の集合CR を特定する。CR は、次式で示されるものである。なお、ステップS109において、L ∪L に含まれない共通ペアに対する分類のみを行っている場合には、第1の分類部23による分類結果そのものが、CR となる。なお、集合CR を特定する処理は、特定したものと特定していないものとを区別できるようにする処理であれば、その内容を問わない。集合CR を特定する処理は、例えば、その特定した集合CR を図示しない記録媒体に蓄積することであってもよく、特定した集合CR の各要素に特定したことを示すフラグ等を設定することであってもよい。なお、このことは、他の特定の処理についても同様である。
Figure 2012043225
(ステップS202)追加部25は、ステップS110における第2の分類部24による分類結果から、L ∪L に含まれない共通ペアに対する分類結果の集合CR を特定する。CR は、次式で示されるものである。なお、ステップS110において、L ∪L に含まれない共通ペアに対する分類のみを行っている場合には、第2の分類部24による分類結果そのものが、CR となる。
Figure 2012043225
(ステップS203)追加部25は、分類結果の集合CR から、確信度rの大きい順に選択したN個の分類結果の集合TopN(CR )を特定する。このNは、あらかじめ決められた1以上の整数であり、例えば、900などであってもよい。追加部25は、分類結果の集合CR を確信度rの降順にソートして、上位からN個の分類結果の集合TopN(CR )を選択してもよい。
(ステップS204)追加部25は、カウンタjを1に設定する。
(ステップS205)追加部25は、ステップS203で特定した分類結果の集合TopN(CR )に含まれるj番目の共通ペアyの分類結果(y、cl 、r )∈TopN(CR )と、同じ共通ペアyに対する第2の分類部24による分類結果(y、cl 、r )∈CR とを用いて、その共通ペアyが第2の学習データL(i+1) への追加対象となるかどうか判断する。そして、共通ペアyが第2の学習データL(i+1) への追加対象となる場合には、ステップS206に進み、そうでない場合には、ステップS207に進む。なお、ステップS203で特定した分類結果の集合TopN(CR )に含まれるj番目の共通ペアyの分類結果(y、cl 、r )は、分類結果の集合CR を確信度rの降順にソートした結果におけるj番目の共通ペアyの分類結果(y、cl 、r )であってもよい。
具体的には、次の(条件1)または(条件2)を満たす場合に、追加部25は、その共通ペアyを第2の学習データL(i+1) に追加すると判断する。
(条件1):r >α、かつ、r <β
(条件2):r >α、かつ、cl =cl
なお、条件1は、第1の分類部23の分類による確信度が高く、第2の分類部24の分類による確信度が低いことに対応している。また、条件2は、第1の分類部23による確信度が高く、第1及び第2の分類部23,24の分類結果が同じであることに対応している。なお、α、βの値は、あらかじめ適切に設定されているものとする。また、本実施の形態では、条件1,2の両方を用いて判断を行う場合について説明するが、いずれか一方の条件のみを用いて判断を行ってもよい。
(ステップS206)追加部25は、共通ペアyとその分類結果cl とを、次のサイクルの機械学習で用いる第2の学習データL(i+1) に追加する。すなわち、
(i+1) ←L(i+1) ∪(y、cl
とする。なお、ステップS205〜S208のサイクルによる共通ペアの追加の処理が開始される以前に、L(i+1) ←L とされているものとする。
(ステップS207)追加部25は、カウンタjを1だけインクリメントする。
(ステップS208)追加部25は、ステップS203で特定した分類結果の集合TopN(CR )にj番目の共通ペアyの分類結果(y、cl 、r )が含まれるかどうか判断する。そして、j番目の分類結果が含まれる場合には、ステップS205に戻り、そうでない場合には、ステップS209に進む。なお、ステップS203で特定した分類結果の集合TopN(CR )にはN個の要素が含まれるため、追加部25は、j≦Nであるかどうか判断し、j≦Nである場合にはステップS205に戻り、そうでない場合にはステップS209に進んでもよい。
(ステップS209)追加部25は、分類結果の集合CR から、確信度rの大きい順に選択したN個の分類結果の集合TopN(CR )を特定する。
(ステップS210)追加部25は、カウンタjを1に設定する。
(ステップS211)追加部25は、ステップS209で特定した分類結果の集合TopN(CR )に含まれるj番目の共通ペアyの分類結果(y、cl 、r )∈TopN(CR )と、同じ共通ペアyに対する第1の分類部23による分類結果(y、cl 、r )∈CR とを用いて、その共通ペアyが第1の学習データL(i+1) への追加対象となるかどうか判断する。そして、共通ペアyが第2の学習データL(i+1) への追加対象となる場合には、ステップS212に進み、そうでない場合には、ステップS213に進む。なお、ステップS209で特定した分類結果の集合TopN(CR )に含まれるj番目の共通ペアyの分類結果(y、cl 、r )は、分類結果の集合CR を確信度rの降順にソートした結果におけるj番目の共通ペアyの分類結果(y、cl 、r )であってもよい。
具体的には、次の(条件3)または(条件4)を満たす場合に、追加部25は、その共通ペアyを第1の学習データL(i+1) に追加すると判断する。
(条件3):r >α、かつ、r <β
(条件4):r >α、かつ、cl =cl
なお、条件3は、第2の分類部24の分類による確信度が高く、第1の分類部23の分類による確信度が低いことに対応している。また、条件4は、第2の分類部24による確信度が高く、第1及び第2の分類部23,24の分類結果が同じであることに対応している。また、本実施の形態では、条件3,4の両方を用いて判断を行う場合について説明するが、いずれか一方の条件のみを用いて判断を行ってもよい。
(ステップS212)追加部25は、共通ペアyとその分類結果cl とを、次のサイクルの機械学習で用いる第1の学習データL(i+1) に追加する。すなわち、
(i+1) ←L(i+1) ∪(y、cl
とする。なお、ステップS211〜S214のサイクルによる共通ペアの追加の処理が開始される以前に、L(i+1) ←L とされているものとする。
(ステップS213)追加部25は、カウンタjを1だけインクリメントする。
(ステップS214)追加部25は、ステップS209で特定した分類結果の集合TopN(CR )にj番目の共通ペアyの分類結果(y、cl 、r )が含まれるかどうか判断する。そして、j番目の分類結果が含まれる場合には、ステップS211に戻り、そうでない場合には、図2のフローチャートに戻る。なお、ステップS209で特定した分類結果の集合TopN(CR )にはN個の要素が含まれるため、追加部25は、j≦Nであるかどうか判断し、j≦Nである場合にはステップS211に戻り、そうでない場合には図2のフローチャートに戻ってもよい。
ここで、第1のコーパスが構造化されたものであり、第2のコーパスが構造化されていないものである場合に、第1及び第2関係ペア候補、及び、第1及び第2無関係ペア候補を抽出する方法について説明する。なお、意味的関係は、上位下位の関係であるとする。また、ここでは、構造化された第1コーパスとして、百科事典コーパスを用いる場合について説明する。百科事典のコーパスでは、例えば、図5(a)で示されるように、タイトル「Tiger」に対して、セクション「Range」「Taxonomy」が存在し、そのセクション「Taxonomy」に対して、サブセクション「Subspecies」が存在し、そのサブセクション「Subspecies」に対して、リスト「Bengal tiger」「Malayan tiger」「Siberian tiger」が存在する。その百科事典のコーパスがHTMLやXML等のマークアップ言語によって記述されている場合には、タイトルを特定するタイトルタグや、セクションを特定するセクションタグ、サブセクションを特定するサブセクションタグ、リストを特定するリストタグ等を用いることによって、タイトルやセクション、サブセクション、リスト等を特定することができ、図5(b)で示されるように、それらのツリー構造を取得することができる。ツリー構造は、例えば、次のようにして取得することができる。例えば、セクションのタグAよりも後に存在するセクションよりも下位の階層のタグ(例えば、サブセクションのタグや、リストのタグ)であって、サブセクションのタグまたはサブセクションよりも上位の階層のタグ(例えば、タイトルダグ)が出現するまでに出現するタグのうち、セクションのタグAに最も近いタグ(これを「タグB」とする)は、そのセクションのタグAのノードとつながる一階層だけ下位のノードとなる。また、そのタグBよりも後に存在するタグであって、そのタグBと異なる階層のタグが出現するまでに出現するタグ(このタグはタグBと同じ階層である)も、そのセクションのタグAのノードとつながる一階層だけ下位のノードとなる。なお、上位階層から順にタイトル、セクション、サブセクション、リストとなることがあらかじめ決められているものとする。このようにして、図5(b)で示されるツリー構造が得られると、上位のノードと、その上位のノードに対する直接または間接の下位のノードとのペアが、第1関係ペア候補となる。図5(b)の場合には、例えば、(Tiger、Range)、(Tiger、Taxonomy)、(Tiger、Subspecies)、(Tiger、Bengal tiger)、(Taxonomy、Subspecies)、(Taxonomy、Bengal tiger)等が第1関係ペア候補となる。なお、その第1関係ペア候補において、(上位の言語表現、下位の言語表現)となっている。また、百科事典のコーパスにおけるツリー構造において、上位のノードと、その上位のノードに対する直接または間接の下位のノードとのペアでないペア、例えば、同じ親ノードを有するノードのペアが、第1無関係ペア候補となる。図5(b)の場合には、例えば、(Range、Taxonomy)、(Bengal tiger、Malayan tiger)等が第1無関係ペア候補となる。なお、第1の抽出部13は、第1関係ペア候補を抽出するために用いる第1のコーパスの部分と、第1無関係ペア候補を抽出するために用いる第1のコーパスの部分とを別にしてもよい。例えば、日本語のWIKIPEDIA(登録商標)から上位下位の関係を抽出する方法については、前述の非特許文献2を参照されたい。また、その文献に記載の方法を用いることによって、WIKIPEDIA(登録商標)のツリー構造を知ることができるため、前述のようにして、上位下位の関係でない関係を抽出することができる。
次に、第2のコーパスから第2関係ペア候補、第2無関係ペア候補を抽出する方法について説明する。ここでは、構造化されていない第2のコーパスとして、ウェブの情報を用いる場合について説明する。第2の抽出部14は、レキシコシンタクティックパターンを用いることによって、第2関係ペア候補、及び第2無関係ペア候補を抽出することができる。第2の抽出部14は、その第2のコーパスにおいて、例えば、上位下位の関係に対応するレキシコシンタクティックパターン「AというB」、「AなどのB」等に一致する箇所を特定し、言語表現A,Bを抽出することによって、第2関係ペア候補(A,B)を抽出することができる。また、第2の抽出部14は、その第2のコーパスにおいて、例えば、上位下位以外の関係(例えば、因果関係等)に対応するレキシコシンタクティックパターン「Cが原因となるD」、「Cに使用されるD」等に一致する箇所を特定し、言語表現C,Dを抽出することによって、第2無関係ペア候補(C,D)を抽出することができる。なお、このようにレキシコシンタクティックパターンを用いて意味的関係を有する言語表現のペアの候補を抽出する方法については、例えば、次の文献を参照されたい。
文献:Maya Ando、Satoshi Sekine、Shun Ishizaki、「Automatic extraction of hyponyms from Japanese newspaper using lexico−syntactic patterns」、In Proc.of LREC'04、2004年
また、第1のコーパスが構造化されたものであり、第2のコーパスが構造化されていないものであり、意味的関係が上位下位の関係である場合に、第1及び第2の分類部23,24の機械学習で用いられる素性について説明する。ここでは、第1のコーパスがWIKIPEDIA(登録商標)であり、第2のコーパスがウェブテキストである場合について説明する。
第1の分類部23による機械学習の素性には、第1関係ペア候補や学習データに含まれる2個の言語表現(この言語表現を言語表現A,Bとする)そのものや、各言語表現A,Bの形態素、品詞が含まれる。また、各言語表現A,Bの主辞の形態素が含まれてもよい。主辞とは、他の部分とつながっている主要な形態素のことである。日本語では通常、最後に位置する形態素が主辞となる。例えば、言語表現「XYZ大学」の場合には、最後の形態素「大学」が主辞となる。また、ツリー構造における言語表現A,Bの距離(階層の深さ)が素性に含まれてもよい。例えば、図5の場合には、「Tiger」と「Rnage」とは距離が「1」であり、「Tiger」と「Bengal tiger」とは距離が「3」である。また、言語表現A,Bが、項目の一覧やリストが現れるセクション等の複数のパターン(例えば、「〜の一覧」や、「〜のリスト」等)のいずれかに一致するかどうかの情報、言語表現A,Bが、WIKIPEDIA(登録商標)の見出し語(タイトル、セクションタイトル、サブセクションタイトルを含む。リストは含まない。)に頻出するもの(例えば、WIKIPEDIA(登録商標)にあらかじめ決められた頻度より多く出現するもの。例えば、「参考文献」や「外部リンク」等が該当する)に一致するかどうかの情報、言語表現A,Bのレイアウトタイプ(例えば、タイトル、セクション、リスト等)、言語表現A,Bのツリー構造のノードタイプ(例えば、ルートノード、リーフノード、中間ノードなどがある。図5の場合、「Tiger」がルートノードであり、「Bengal tiger」がリーフノードであり、「Range」が中間ノードである)、言語表現A,Bの親ノード、子ノードのうち、任意の1以上のものが素性に含まれてもよい。また、WIKIPEDIA(登録商標)のInfoboxから得られる属性や属性値が素性に含まれてもよい。なお、これらの素性については、前述の非特許文献2を参照されたい。
第2の分類部24による機械学習の素性には、第2関係ペア候補や学習データに含まれる2個の言語表現(この言語表現を言語表現A,Bとする)そのものや、各言語表現A,Bの形態素、品詞が含まれる。また、その2個の言語表現を取得するのに用いたレキシコシンタクティックパターンの識別子、その2個の言語表現とパターンとの間のPMI(point−wise mutual information)スコア、言語表現A,B間のPMIスコア、言語表現A,Bの名詞クラスのうち、任意の1以上のものが素性に含まれてもよい。なお、名詞クラスとは、次の文献によって示されるEMベースのクラスタリングによって5×10個の名詞を500個のクラスに分けたものである。例えば、名詞クラスC311は、「多糖」、「有機化合物」などの生物学や化学に関する名詞を有するクラスである。
文献:Jun'ichi Kazama、Kentaro Torisawa、「Inducing gazetteers for named entity recognition by large−scale clustering of dependency relations」、 In Proceedings of ACL−08:HLT、p.407−415、2008年
また、第1及び第2の分類部23,24による機械学習や分類で用いられる素性は、上記説明のものに限定されないことは言うまでもない。他の素性が用いられてもよく、上記説明の一部の素性が用いられなくてもよい。また、意味的関係が上位下位ではない関係になった場合には、その意味的関係に応じた適切な素性が用いられることが好適である。
[実験例]
次に、本実施の形態による相互機械学習装置1の実験例について説明する。ここで、第1のコーパスとして、2009年7月バージョンの日本語のWIKIPEDIA(登録商標)を用いた。そして、1.9×10個の第1関係ペア候補を取得した。この第1関係ペア候補の抽出は、WIKIPEDIA(登録商標)のメインの記事のところから行った。なお、そこから24000個の第1関係ペア候補をランダムに抽出し、それらが意味的関係(上位下位の関係)を有するかどうかを手作業で判断した。そして、そのうちの20000個のペアを学習データとし、残りの4000個のペアをディベロップメントデータと、テストデータとに均等に分けた。ディベロップメントデータは、最適なパラメータの選択のために用いられるものである。また、テストデータは、評価のために用いられるものである。なお、学習データ、ディベロップメントデータ、テストデータのそれぞれには、人手で判断した正例と負例とが含まれている。
また、第2のコーパスとして、前述のTSUBAKIからの5×10ページ分のウェブテキストを用いた。そして、それらのウェブテキストから上位下位の関係のレキシコシンタクティックパターンを用いて6×10個の第2関係ペア候補を取得した。また、ウェブテキストから9500個の第2関係ペア候補をランダムに抽出し、それらが意味的関係(上位下位の関係)を有するかどうかを手作業で判断した。そして、そのうちの7500個のペアを学習データとし、残りの2000個のペアをディベロップメントデータと、テストデータとに均等に分けた。なお、学習データ、ディベロップメントデータ、テストデータのそれぞれには、人手で判断した正例と負例とが含まれている。
なお、本実験例において、第1関係ペア候補の集合や第2関係ペア候補の集合における意味的関係(上位下位の関係)を有する候補の割合はあまり高くなく、25〜30%程度であった。
また、WIKIPEDIA(登録商標)のカテゴリーシステムを用いて、第1無関係ペア候補を抽出した。すなわち、第1関係ペア候補はメインの記事から抽出し、第1無関係ペア候補はカテゴリーシステムを用いて抽出したため、第1関係ペア候補を抽出するために用いる第1のコーパスの部分と、第1無関係ペア候補を抽出するために用いる第1のコーパスの部分とは別である。なお、その第1無関係ペア候補は、前述のように、そのペアに含まれる一方の言語表現が、他方の言語表現の祖先となっていないものである。また、TSUBAKIのページから因果関係等のレキシコシンタクティックパターンを用いて第2無関係ペア候補を抽出した。
また、この実験例では、polynomial kernel d=2のTinySVM(http://chasen.org/〜taku/software/TinySVM/)を第1及び第2の分類部23,24として用いた。また、ディベロップメントデータを用いた実験によって、パラメータα、β、Nを決定した。この実験例では、α=1.0、β=0.3、N=900とした。また、適合率(P)、再現率(R)、F値(F)を用いて評価を行った。
この実験例では、6個のシステムを比較した。そのうちの3個はB1、B2、B3であり、異なる素性のセットと異なる学習データとの効果を示すためのものである。B1,B2では、2個の分類部を分けて機械学習したのに対して、B3では、単一の分類部の機械学習に、統合した素性のセットと学習データとを用いた。
B1は、完全に独立した分類部から構成される。SとUの分類部は、それぞれ自分自身の素性と学習データとを用いて学習され、評価された。すなわち、Sの分類部に対してはWIKIPEDIA(登録商標)の素性と学習データが用いられ、Uの分類部に対してはウェブの素性と学習データが用いられた。
B2は、2個の分類部が、統合された学習データを用いて学習された以外は、B1と同じである。すなわち、2個の分類部は、それぞれ、27500個の学習データで機械学習を行った。なお、その機械学習で用いる素性はそれぞれ別個である。ここで、Uの分類部の機械学習において、ウェブテキストから取得された学習データを学習する場合には、ディスタンス等の素性が存在しないが、それは存在しないものとして学習を行った。
B3は、B1に対してマスター分類部を付加したものである。B2と同様に、統合された学習データを用いて学習された。また、すべての利用可能な素性を用いて機械学習を行った。すなわち、2個の分類部の両方において、同じ素性を用いた。さらに、B1の2個の分類部によって得られた各ペアに対するSVMスコアも素性に含めた。
その他の3個のシステム、BICO,Co−B,Co−STAR(本実施の形態による相互機械学習装置1)は、二言語相互機械学習(BICO)と、相互機械学習(Co−BとCo−STAR)とを比較するためのものである。特に、Co−BとCo−STARとは、バーチャル共通ペアの使用の有無を評価するための比較を行う。また、Co−BとCo−STARとについて、B1、B2と同様の初期の学習データを用いた。なお、B1と同様の初期の学習データを用いたものは、Co−B、Co−STARと表記し、B2と同様の初期の学習データを用いたものは、Co−B*、Co−STAR*と表記している。すなわち、Co−B、Co−STARについては、第1の学習データが20000個(WIKIPEDIA(登録商標)から抽出されたもの)であり、第2の学習データが7500個(ウェブから抽出されたもの)であるが、Co−B*、Co−STAR*については、第1及び第2の学習データが27500個(WIKIPEDIA(登録商標)から抽出されたものとウェブから抽出されたものとをあわせたもの)ずつとなる。
BICOは、前述の非特許文献2に記載されている二言語相互機械学習アルゴリズムを用いたものである。そのアルゴリズムでは、二言語の上位下位の意味的関係が協同的に2個の処理によって取得されていく。そのBICOのために、20000個の英語の学習データと、20000個の日本語の学習データとを用意した。なお、その20000個の日本語の学習データは、前述のWIKIPEDIA(登録商標)から取得した学習データと同じものである。
Co−Bは、本実施の形態による相互機械学習装置1(Co−STAR)の変形であり、前述のように、ジェニュイン共通ペアのみを用いるものである。この実験例では、67000個のジェニュイン共通ペアが用いられた。
Co−STARは、本実施の形態による相互機械学習装置1であり、ジェニュイン共通ペアとバーチャル共通ペアとの両方を用いた。それらの共通ペアの総数は643000個であった。
その実験結果は、図6で示されるとおりである。その実験結果は、前述のような初期の学習データと素性(前述の説明のすべての素性)とを用いて、終了条件が満たされるまで、順次、機械学習と共通ペアの分類と学習データの追加とを繰り返した後に、テストデータに対して分類を行った結果である。そのテストデータの分類部による結果が、人手による判断結果と同じかどうかによって、正解、不正解を判定した。なお、終了条件としては、dの値が3回連続して0.001未満であることを採用した。また、BICOでは、二言語でWIKIPEDIA(登録商標)のデータを用いた処理を行ったため、ウェブデータのほうについては結果が存在しない。図6の実験結果において、WebSetは、ウェブテキストを用いた実験結果(すなわち、第2の分類部24の分類による結果)であり、WikiSetは、WIKIPEDIA(登録商標)を用いた実験結果(すなわち、第1の分類部23の分類による結果)である。
B1〜B3の比較により、B2,B3がB1よりF値についてすぐれていることが分かる。B2,B3は、より多くの学習データ(27500個)を用いたため、それに比べて少数の学習データ(7500個と20000個)を用いたB1よりもよい結果になった。B2,B3は、分類部の個数が異なり、その分類部では異なる素性と学習データを用いて学習が行われたにもかかわらず、両者のF値は同様の結果となっている。
Co−STARは、B1〜B3よりもより性能が優れていることが分かる。また、Co−STARは、BICOに対しても、より少ない学習データで、よりよい性能であることが分かる。なお、Co−STARの学習データは全部で27500個であり、BICOの学習データは全部で40000個である。Co−BとCo−STARとの性能の違いは、バーチャル共通ペアの使用の有無の効果を示している。Co−BよりもCo−STARのほうがF値が高いことによって、ジェニュイン共通ペアと共にバーチャル共通ペアを用いた方が、2個の分類部のより効果的な協同を実現できることが分かる。
このように、本実施の形態による相互機械学習装置1(Co−STAR)は、他の方法に対して、F値が1.4〜8.5%高く、他の方法よりも性能の高い学習を実現できていることが分かる。なお、そのようにして機械学習を行った相互機械学習装置1によって、ウェブテキストから4.3×10個の第1関係ペア(上位下位の関係のペア)を取得することができ、WIKIPEDIA(登録商標)から4.6×10個の第2関係ペア(上位下位の関係のペア)を取得することができた。また、SVMのしきい値をウェブデータに対しては0.23に設定し、WIKIPEDIA(登録商標)に対しては0.1に設定することによって、90%の適合率を得ることもできた。
次に、本実施の形態による相互機械学習装置1のロバスト性を評価する実験例について説明する。この実験例では、構造化されたコーパス(WIKIPEDIA(登録商標))については、前述の実験例と同様の人手による学習データを用い、構造化されていないコーパス(ウェブテキスト)については、自動的に取得したノイズの多い(すなわち、必ずしも高精度でない)学習データを用いた。その学習データについて簡単に説明する。その学習データの正例については、次のように取得した。まず、WIKIPEDIA(登録商標)の定義文(WIKIPEDIA(登録商標)の記事の頭の文)から「(下位の言語表現)は(上位の言語表現)である」や「(下位の言語表現)は(上位の言語表現)の一種である」等のパターンを用いて取得した上位下位の関係のペアと、WIKIPEDIA(登録商標)のカテゴリーを用いて取得した上位下位の関係のペアとを取得した。WIKIPEDIA(登録商標)のカテゴリーを用いて上位下位の関係のペアを取得する際には、まず、タイトルを下位の言語表現、そのタイトルのカテゴリーを上位の言語表現とするペアを取得した。そして、そのタイトルが下位の言語表現である上位下位の関係のペアが、WIKIPEDIA(登録商標)の定義文からパターンを用いて取得できており、かつ、その上位下位の関係のペアの上位の言語表現と、カテゴリーである上位の言語表現との主辞が一致している場合に、そのタイトルを下位の言語表現、そのタイトルのカテゴリーを上位の言語表現とするペアを上位下位の関係のペアとした。例えば、タイトル「新型インフルエンザ」、定義文「新型インフルエンザは、インフルエンザウイルスのうち ヒト−ヒト間の伝染能力を新たに有するようになったウイルスを病原体とするインフルエンザ感染症である」から、定義文のパターンを用いて、上位下位の関係(インフルエンザ感染症、新型インフルエンザ)を正例のペアとして取得する。また、「新型インフルエンザ」のカテゴリーに「ウイルス感染症」がある場合には、そのカテゴリーの主辞の「感染症」が、定義文のパターンを用いて取得された上位下位の関係の上位の言語表現の主辞と一致するため、このカテゴリーから取得された「ウイルス感染症」も、「新型インフルエンザ」の上位の言語表現の正例として取得する。すなわち、カテゴリーから、上位下位の関係(ウイルス感染症、新型インフルエンザ)を正例のペアとして取得することになる。
そのようにして取得した上位下位の関係のうち、第2関係ペア候補との共通するものを正例の学習データとした。学習データの負例については、バーチャル共通ペア、特にR∩Xから取得した。このようにして取得した学習データのサイズは非常に大きくなるため、前述の実験例と同じになるように、7500個の学習データをランダムに選択した。その際に、正例と負例の比が1:4となるように選択を行った。
そのような学習データを用いて、前述の実験例と同様の実験を行ったところ、結果は、図7で示されるようになった。その図7の結果から、本実施の形態による相互機械学習装置1(Co−STAR)は、精度の低い学習データに対してロバスト性を有していることが分かる。また、本実施の形態による相互機械学習装置1(Co−STAR)は、図6の結果に比べると、少しは性能が落ちているが、B1〜B3に対して、よりよい性能を有していることが分かる。したがって、性能が少し落ちてもよい場合には、人手によって学習データを用意する労力を軽減することができることが分かる。
以上のように、本実施の形態による相互機械学習装置1によれば、共通ペア、すなわち、ジェニュイン共通ペアと、バーチャル共通ペアとを用いて相互機械学習を行うことによって、より性能の高い相互機械学習を実現することができる。前述の非特許文献1,2は、ジェニュイン共通ペアしか用いていないため、本実施の形態による相互機械学習装置1は、バーチャル共通ペアを用いた2個の機械学習の共同によって、それら非特許文献1,2の手法よりも、より高い性能を実現できたことになる。また、本実施の形態による相互機械学習装置1は、精度の低い学習データに対してもロバスト性を有していることが分かる。したがって、学習データを用意する際の人手による作業を軽減することも可能となる。また、本実施の形態による相互機械学習装置1によれば、構造化されたデータと、構造化されていないデータのように、第1及び第2の分類部23,24ごとに、異なる処理対象を扱うことも可能となる。
このようにして、本実施の形態による相互機械学習装置1を用いて取得された意味的関係は、例えば、ウェブ検索などの情報検索システムや、機械翻訳システムなどで用いることができる。具体的には、ウェブ検索において、意味的関係を用いたクエリの拡張が可能となる。例えば、辞書に登録されていない未知語が入力された場合に、その未知語を下位語とする上位下位の関係が本実施の形態による相互機械学習装置1によって取得されているのであれば、その未知語の上位語による検索を行うことができる。また、機械翻訳システムにおいても、意味的関係を有することによって、より適切な訳語を選択することができると共に、訳語の登録がなくても、その上位語を用いて翻訳するなどの柔軟な翻訳を行うことができる。なお、本実施の形態による相互機械学習装置1を用いて取得された意味的関係の使用方法はこれらに限定されるものではなく、他の種々の活用方法があることは言うまでもない。
なお、本実施の形態において、バーチャル共通ペアを拡張してもよい。すなわち、バーチャル共通ペアの集合Vは、図4で示されるVの領域以外の共通ペアをも含むものであってもよい。例えば、バーチャル共通ペアは、複数の第1関係ペア候補と、複数の第2関係ペア候補と、複数の第1無関係ペア候補と、複数の第2無関係ペア候補とのうち、ジェニュイン共通ペアではないペアである共通ペアであってもよい。その場合には、バーチャル共通ペアの集合Vは、図4において、X、R、X、Rの網掛けのない部分をも含むようになる。ここで、厳密に言えば、X、R、X、Rの網掛けのない部分のペアは共通ペアではないが、ここではバーチャル共通ペアを拡張しているため、便宜上、そのペアについても共通ペアと呼ぶことにする。すなわち、この場合には、バーチャル共通ペアの集合Vは、本来の共通ペア(2個の集合に共通するペア)を含むペアの集合となる。
また、本実施の形態において、追加部25が、第1及び第2の分類部23,24の分類による確信度の高い共通ペアとその分類結果とを学習データに追加する場合について説明したが、追加部25は、それ以外の処理を行ってもよい。すなわち、追加部25は、第1の分類部23の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部24の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを第1の学習データに追加してもよい。ここで、「共通ペアの分類結果と確信度との少なくとも一方に応じて、その共通ペアとその共通ペアに関する分類結果とを学習データに追加する」とは、共通ペアの分類結果と確信度との少なくとも一方が所定の条件を満たしている場合には、その共通ペアと分類結果が学習データに追加され、共通ペアの分類結果と確信度との少なくとも一方がその所定の条件を満たしていない場合には、その共通ペア等が学習データに追加されないことを意味している。その所定の条件は、例えば、分類結果のみに関するものであってもよく、確信度のみに関するものであってもよく、あるいは、分類結果と確信度の両方に関するものであってもよい。例えば、追加部25は、ある共通ペアについて、第1及び第2の分類部23,24の分類結果が同じである場合に、その共通ペアとその共通ペアの分類結果とを第1及び第2の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による確信度が高い共通ペアのうち、ランダムに選択された共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による確信度が高い共通ペアのうち、ランダムに選択された共通ペアとその分類結果とを第1の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による確信度が高い共通ペアのうち、正例となる共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による確信度が高い共通ペアのうち、正例となる共通ペアとその分類結果とを第1の学習データに追加してもよい。また、例えば、追加部25は、第1の分類部23の分類による正例の共通ペアとその分類結果とを第2の学習データに追加し、第2の分類部24の分類による正例の共通ペアとその分類結果とを第1の学習データに追加してもよい。
また、本実施の形態では、第1のコーパスが構造を有するものであり、第2のコーパスが構造を有しないものである場合について主に説明したが、そうでなくてもよい。例えば、両者共に、構造を有するものであってもよい。その場合であっても、例えば、第1のコーパスから、本実施の形態と同様に、構造を用いて第1関係ペア候補等を抽出し、第2のコーパスから、本実施の形態と同様に、レキシコシンタクティックパターンを用いて第2関係ペア候補等を抽出してもよい。なお、意味的関係が上位下位の関係でない場合には、その意味的関係に応じた構造等を用いた第1関係ペア候補等や、第2関係ペア候補等の抽出が行われることが好適である。例えば、文書構造や文書間構造、テーブル(表)構造等を用いて第1関係ペア候補等を抽出してもよい。
また、本実施の形態では、第1の抽出部13が第1関係ペア候補、第1無関係ペア候補を抽出し、第2の抽出部14が第2関係ペア候補、第2無関係ペア候補を抽出する場合について説明したが、そうでなくてもよい。その場合には、相互機械学習装置1は、第1のコーパス記憶部11、第2のコーパス記憶部12、第1の抽出部13、第2の抽出部14を備えていなくてもよい。また、その場合には、第1関係ペア候補、第1無関係ペア候補、第2関係ペア候補、第2無関係ペア候補は、第1及び第2の抽出部13,14の抽出と同様にして抽出されたものであってもよく、あるいは、他の方法(例えば、人手による方法等)によって抽出されたものであってもよい。また、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18に第1関係ペア候補等が記憶される過程は問わない。例えば、記録媒体を介して第1関係ペア候補等が第1関係ペア候補記憶部15等で記憶されるようになってもよく、あるいは、通信回線等を介して送信された第1関係ペア候補等が第1関係ペア候補記憶部15等で記憶されるようになってもよい。なお、機械学習や分類を行う際には、素性が必要であるため、相互機械学習装置1が第1及び第2のコーパス記憶部11,12を備えていない場合には、第1関係ペア候補等の言語表現のペアに、あらかじめ素性の情報が対応付けられていることが好適である。第1及び第2の分類部23,24は、その素性の情報を用いることによって、機械学習や分類を行うことができる。
また、本実施の形態では、第1及び第2の分類部23,24が第1及び第2関係ペア候補を分類した結果である第1及び第2関係ペアが蓄積される第1及び第2関係ペア記憶部26,27を備える場合について説明したが、第1及び第2の分類部23,24が第1及び第2関係ペア候補の分類を行わない場合や、第1及び第2の分類部23,24が第1及び第2関係ペアの蓄積を行わない場合(例えば、第1及び第2関係ペア候補記憶部15,17で記憶されている第1及び第2関係ペアに対してフラグを設定するような場合)には、相互機械学習装置1は、第1及び第2関係ペア記憶部26,27を備えていなくてもよい。
また、本実施の形態では、取得部19が共通ペアの取得を行う場合について説明したが、そうでなくてもよい。その場合には、相互機械学習装置1は、第1関係ペア候補記憶部15、第1無関係ペア候補記憶部16、第2関係ペア候補記憶部17、第2無関係ペア候補記憶部18、取得部19を備えていなくてもよい。また、その場合に、共通ペア記憶部20に共通ペア(ジェニュイン共通ペアやバーチャル共通ペア)が記憶される過程は問わない。例えば、記録媒体を介して共通ペアが共通ペア記憶部20で記憶されるようになってもよく、あるいは、通信回線等を介して送信された共通ペアが共通ペア記憶部20で記憶されるようになってもよい。
また、本実施の形態による相互機械学習装置1は、当該装置内で生成された情報を出力する図示しない出力部をさらに備えてもよい。その出力対象の情報は、例えば、第1関係ペア記憶部26で記憶される第1関係ペアであってもよく、第2関係ペア記憶部27で記憶される第2関係ペアであってもよく、第1の分類部23による学習結果の情報であってもよく、第2の分類部24による学習結果の情報であってもよく、その他の情報であってもよい。その図示しない出力部による出力は、例えば、所定の機器への通信回線を介した送信でもよく、記録媒体への蓄積でもよい。なお、その図示しない出力部は、出力を行うデバイス(例えば、通信デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、その図示しない出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
また、本実施の形態では、機械学習の後に、第1及び第2の分類部23,24が第1関係ペア候補、第2関係ペア候補の分類を行う場合について説明したが、第1及び第2の分類部23,24は、第1無関係ペア候補、第2無関係ペア候補についても、分類を行ってもよい。
また、本実施の形態では、第1のコーパスと、第2のコーパスとを用いて相互機械学習を行う場合について説明したが、3個以上のコーパスを用いて本実施の形態による相互機械学習装置1と同様の相互機械学習を行ってもよいことは言うまでもない。なお、その場合であっても、その3個以上のコーパスのうち、2個のコーパスに注目すると、本実施の形態による相互機械学習装置1と同様の処理が行われることになる。
また、上記実施の形態では、相互機械学習装置1がスタンドアロンである場合について説明したが、相互機械学習装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部等は、例えば、通信回線を介して情報を出力してもよい。
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。
また、上記実施の形態において、相互機械学習装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における相互機械学習装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、第1のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、第2のコーパスから抽出された、意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、第1関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第2関係ペア候補が意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、第1の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第1の分類部、第2の学習データを用いて機械学習を行い、機械学習の結果を用いて、ジェニュイン共通ペア及びバーチャル共通ペアが意味的関係を有しているかどうか分類する第2の分類部、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部として機能させ、第1及び第2の分類部による機械学習及び分類と、追加部による学習データの追加とが繰り返して実行される、プログラムである。
また、上記実施の形態における相互機械学習装置1を実現するソフトウェアは、以下のようなプログラムであってもよい。つまり、このプログラムは、第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第2の学習データに追加し、第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを第1の学習データに追加する追加部として機能させ、前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラムである。
なお、プログラムにおいて、そのプログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、そのプログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図8は、上記プログラムを実行して、上記実施の形態による相互機械学習装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図8において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図9は、コンピュータシステム900の内部構成を示す図である。図9において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による相互機械学習装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による相互機械学習装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による相互機械学習装置等によれば、より精度の高い機械学習を実現できるという効果が得られ、機械学習を行う装置等として有用である。
1 相互機械学習装置
11 第1のコーパス記憶部
12 第2のコーパス記憶部
13 第1の抽出部
14 第2の抽出部
15 第1関係ペア候補記憶部
16 第1無関係ペア候補記憶部
17 第2関係ペア候補記憶部
18 第2無関係ペア候補記憶部
19 取得部
20 共通ペア記憶部
21 第1の学習データ記憶部
22 第2の学習データ記憶部
23 第1の分類部
24 第2の分類部
25 追加部
26 第1関係ペア記憶部
27 第2関係ペア記憶部

Claims (14)

  1. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、前記複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、
    前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、
    前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、
    前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、
    前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、
    前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部と、を備え、
    前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、相互機械学習装置。
  2. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、
    前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、
    前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部と、
    前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、
    前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部と、
    前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部と、を備え、
    前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、相互機械学習装置。
  3. 前記追加部は、
    前記第1の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項1または請求項2記載の相互学習装置。
  4. 前記追加部は、
    前記第1の分類部の分類による確信度が高く、前記第1及び第2の分類部の分類結果が同じである共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高く、前記第1及び第2の分類部の分類結果が同じである共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項3記載の相互機械学習装置。
  5. 前記追加部は、
    前記第1の分類部の分類による確信度が高く、前記第2の分類部の分類による確信度が低い共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による確信度が高く、前記第1の分類部の分類による確信度が低い共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する、請求項3または請求項4記載の相互機械学習装置。
  6. 前記複数の第1関係ペア候補が記憶される第1関係ペア候補記憶部と、
    前記複数の第1無関係ペア候補が記憶される第1無関係ペア候補記憶部と、
    前記複数の第2関係ペア候補が記憶される第2関係ペア候補記憶部と、
    前記複数の第2無関係ペア候補が記憶される第2無関係ペア候補記憶部と、
    前記複数の第1関係ペア候補と前記複数の第2関係ペア候補とを用いて、前記ジェニュイン共通ペアを取得して前記共通ペア記憶部に蓄積し、前記複数の第1関係ペア候補と前記複数の第2関係ペア候補と前記複数の第1無関係ペア候補と前記複数の第2無関係ペア候補とを用いて、前記バーチャル共通ペアを取得して前記共通ペア記憶部に蓄積する取得部と、をさらに備えた、請求項1から請求項5のいずれか記載の相互機械学習装置。
  7. 前記第1のコーパスが記憶される第1のコーパス記憶部と、
    前記第2のコーパスが記憶される第2のコーパス記憶部と、
    前記第1のコーパスから前記複数の第1関係ペア候補を抽出して前記第1関係ペア候補記憶部に蓄積し、前記第1のコーパスから前記複数の第1無関係ペア候補を抽出して前記第1無関係ペア候補記憶部に蓄積する第1の抽出部と、
    前記第2のコーパスから前記複数の第2関係ペア候補を抽出して前記第2関係ペア候補記憶部に蓄積し、前記第2のコーパスから前記複数の第2無関係ペア候補を抽出して前記第2無関係ペア候補記憶部に蓄積する第2の抽出部と、をさらに備えた、請求項6記載の相互機械学習装置。
  8. 前記第1の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、前記複数の第1関係ペア候補に対して分類を行い、
    前記第2の分類部は、機械学習及び分類と学習データの追加との繰り返しの後に、前記複数の第2関係ペア候補に対して分類を行う、請求項6または請求項7記載の相互機械学習装置。
  9. 前記第1のコーパスは、構造化されたコーパスであり、
    前記第2のコーパスは、構造化されていない自然言語文のコーパスである、請求項1から請求項8のいずれか記載の相互機械学習装置。
  10. 前記意味的関係は、上位下位の関係である、請求項1から請求項9のいずれか記載の相互機械学習装置。
  11. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、前記複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第1の分類部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、第2の分類部と、追加部とを用いて処理される相互機械学習方法であって、
    前記第1の分類部が、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類ステップと、
    前記第2の分類部が、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類ステップと、
    前記追加部が、前記第1の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加ステップと、を備え、
    前記第1及び第2の分類ステップにおける機械学習及び分類と、前記追加ステップにおける学習データの追加とが繰り返して実行される、相互機械学習方法。
  12. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、第1の分類部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部と、第2の分類部と、追加部とを用いて処理される相互機械学習方法であって、
    前記第1の分類部が、前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類ステップと、
    前記第2の分類部が、前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類ステップと、
    前記追加部が、前記第1の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類ステップでの分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加ステップと、を備え、
    前記第1及び第2の分類ステップにおける機械学習及び分類と、前記追加ステップにおける学習データの追加とが繰り返して実行される、相互機械学習方法。
  13. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペアと、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記複数の第2関係ペア候補とに共通する共通ペアであるバーチャル共通ペア、及び、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補と、前記複数の第1関係ペア候補とに共通する共通ペアであるバーチャル共通ペアとが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、
    前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、
    前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、
    前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部として機能させ、
    前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラム。
  14. 第1の方法によって第1のコーパスから抽出された、意味的関係を有する言語表現のペアの候補である複数の第1関係ペア候補と、前記第1の方法とは異なる第2の方法によって第2のコーパスから抽出された、前記意味的関係を有する言語表現のペアの候補である複数の第2関係ペア候補とに共通する共通ペアであるジェニュイン共通ペア、及び、前記複数の第1関係ペア候補と、前記複数の第2関係ペア候補と、前記第1のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第1無関係ペア候補と、前記第2のコーパスから抽出された、前記意味的関係を有さない言語表現のペアの候補である複数の第2無関係ペア候補とのうち、前記ジェニュイン共通ペアではないペアである共通ペアであるバーチャル共通ペアが記憶される共通ペア記憶部と、前記第1関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第1の学習データが記憶される第1の学習データ記憶部と、前記第2関係ペア候補が前記意味的関係を有しているかどうかの分類に関する機械学習で用いられる教師データである第2の学習データが記憶される第2の学習データ記憶部とにアクセス可能なコンピュータを、
    前記第1の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第1の分類部、
    前記第2の学習データを用いて機械学習を行い、当該機械学習の結果を用いて、前記ジェニュイン共通ペア及び前記バーチャル共通ペアが前記意味的関係を有しているかどうか分類する第2の分類部、
    前記第1の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第2の学習データに追加し、前記第2の分類部の分類による共通ペアの分類結果と確信度との少なくとも一方に応じて、当該共通ペアと当該共通ペアに関する分類結果とを前記第1の学習データに追加する追加部として機能させ、
    前記第1及び第2の分類部による機械学習及び分類と、前記追加部による学習データの追加とが繰り返して実行される、プログラム。
JP2010184356A 2010-08-19 2010-08-19 相互機械学習装置、相互機械学習方法、及びプログラム Active JP5622310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010184356A JP5622310B2 (ja) 2010-08-19 2010-08-19 相互機械学習装置、相互機械学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010184356A JP5622310B2 (ja) 2010-08-19 2010-08-19 相互機械学習装置、相互機械学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012043225A true JP2012043225A (ja) 2012-03-01
JP5622310B2 JP5622310B2 (ja) 2014-11-12

Family

ID=45899441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010184356A Active JP5622310B2 (ja) 2010-08-19 2010-08-19 相互機械学習装置、相互機械学習方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5622310B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019215780A1 (ja) * 2018-05-07 2019-11-14 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
JP2020057161A (ja) * 2018-10-01 2020-04-09 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265889A (ja) * 2008-04-24 2009-11-12 Nippon Hoso Kyokai <Nhk> 言語処理装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265889A (ja) * 2008-04-24 2009-11-12 Nippon Hoso Kyokai <Nhk> 言語処理装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7014002666; Avrim BLUM: 'Combining Labeled and Unlabeled Data with Co-Training' Proceeding of COLT' 98 Proceedings of the eleventh annual conference on Computational learning theor , 19980726, pp.92-100 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019215780A1 (ja) * 2018-05-07 2019-11-14 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
JPWO2019215780A1 (ja) * 2018-05-07 2021-05-20 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
JP7001150B2 (ja) 2018-05-07 2022-01-19 日本電気株式会社 識別システム、モデル再学習方法およびプログラム
US11423647B2 (en) 2018-05-07 2022-08-23 Nec Corporation Identification system, model re-learning method and program
JP2020057161A (ja) * 2018-10-01 2020-04-09 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム
WO2020071174A1 (ja) * 2018-10-01 2020-04-09 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム
JP7110884B2 (ja) 2018-10-01 2022-08-02 オムロン株式会社 学習装置、制御装置、学習方法、及び学習プログラム
US11971709B2 (en) 2018-10-01 2024-04-30 Omron Corporation Learning device, control device, learning method, and recording medium

Also Published As

Publication number Publication date
JP5622310B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
Schubotz et al. Semantification of identifiers in mathematics for better math information retrieval
Eisa et al. Existing plagiarism detection techniques: A systematic mapping of the scholarly literature
US8239349B2 (en) Extracting data
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US20130036076A1 (en) Method for keyword extraction
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
Dehkharghani et al. Adaptation and use of subjectivity lexicons for domain dependent sentiment classification
Do et al. Korean twitter emotion classification using automatically built emotion lexicons and fine-grained features
JP6729095B2 (ja) 情報処理装置及びプログラム
JP2011118689A (ja) 検索方法及びシステム
Rafeeque et al. A survey on short text analysis in web
JP2012073804A (ja) キーワード提示装置、方法及びプログラム
Alotaibi et al. A cognitive inspired unsupervised language-independent text stemmer for Information retrieval
JP2021136027A (ja) 文書のテーマ・カバレッジの分析
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
Panchenko et al. Unsupervised, knowledge-free, and interpretable word sense disambiguation
CN106503153B (zh) 一种计算机文本分类体系
Kanya et al. Modelings and techniques in named entity recognition: an information extraction task
Bayraktar et al. A rule-based holistic approach for Turkish aspect-based sentiment analysis
Dehkharghani et al. Automatically identifying a software product's quality attributes through sentiment analysis of tweets
Petrovski et al. Learning Regular Expressions for the Extraction of Product Attributes from E-commerce Microdata.
Zubi Using some web content mining techniques for Arabic text classification
JP5622310B2 (ja) 相互機械学習装置、相互機械学習方法、及びプログラム
Gorla et al. Named Entity Recognition for Telugu News Articles using Naïve Bayes Classifier.
Siklósi et al. Resolving abbreviations in clinical texts without pre-existing structured resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140919

R150 Certificate of patent or registration of utility model

Ref document number: 5622310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250