JP4565106B2 - 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム - Google Patents

二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム Download PDF

Info

Publication number
JP4565106B2
JP4565106B2 JP2005183495A JP2005183495A JP4565106B2 JP 4565106 B2 JP4565106 B2 JP 4565106B2 JP 2005183495 A JP2005183495 A JP 2005183495A JP 2005183495 A JP2005183495 A JP 2005183495A JP 4565106 B2 JP4565106 B2 JP 4565106B2
Authority
JP
Japan
Prior art keywords
solution
binary
feature
extracted
binary relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005183495A
Other languages
English (en)
Other versions
JP2007004458A (ja
Inventor
真樹 村田
智裕 三森
晃一 土井
安志 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2005183495A priority Critical patent/JP4565106B2/ja
Priority to PCT/JP2006/312592 priority patent/WO2006137516A1/ja
Priority to CNA2006800223569A priority patent/CN101253497A/zh
Publication of JP2007004458A publication Critical patent/JP2007004458A/ja
Application granted granted Critical
Publication of JP4565106B2 publication Critical patent/JP4565106B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は,教師あり機械学習処理を用いて,テキストデータから二項関係を持つ表現(語,文字列など)の対を抽出する二項関係抽出技術および二項関係抽出処理を用いた情報検索技術に関する。
テキストデータベースなどから情報を抽出する手法として,関連する語句の二項関係に着目して希望する情報を抽出する方法が知られている。例えば,非特許文献1の手法では,構文解析結果である述語項構造を用いて求める情報を抽出するためのパターンフレームを与えて,正解付きのコーパスから抽出し,抽出したパターンのうち不適切なパターンを排除することによって選別したパターンを用いて適合する情報を抽出している。
薬師寺あかね他著,「述語項構造パターンを用いた医学・生物学分野情報抽出」,言語処理学会第11回年次大会,2005年3月
従来では,人手によって作成したパターンを用いて二項関係を抽出処理する手法が主に用いられていた。また,非特許文献1の手法では,パターンの精度を良くするために学習コーパスと照らし合わせてパターンの選別を行って,二項関係の抽出処理の精度向上を図っている。
しかし,二項関係の抽出ルールとしてパターンを用いる場合に,対象となる問題が複雑になると,パターンが煩雑になるという問題がある。そのため,パターンを利用する手法には限界があった。また,抽出手法の性能も高くならないという問題もあった。
本発明の目的は,テキストデータから二項関係を抽出するすべての問題に利用でき,複雑な問題についても性能よく二項関係を抽出できる二項関係抽出装置を提供することである。また,本発明の別の目的は,前記二項関係抽出処理を使用した情報検索装置,およびこれらの装置で実行される各処理方法,およびこれらの装置としてコンピュータを機能させるためのプログラムを提供することである。
本発明は,コンピュータが読み取り可能な記憶装置に格納された文データ中に出現する2つの要素間の関係を示す二項関係を,機械学習処理を用いて抽出する処理装置であって,1)教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と,2)前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と,3)所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と,4)前記記憶装置に格納されたデータから,前記二項関係となりうる要素を抽出し,前記抽出した要素で構成される対を二項関係の候補とする候補抽出手段と,5)前記解−素性対抽出手段と同様の抽出処理によって,前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と,6)前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する解推定手段と,7)前記解推定手段の処理結果をもとに,記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択する二項関係抽出手段とを備えることを特徴とする。
本発明は,文データ中に出現する二項関係に,抽出するべき二項関係であることを示す解の情報が付与された事例を含む教師データを教師データ記憶手段に記憶しておく。そして,解−素性対抽出手段によって,教師データ記憶手段から事例を取り出し,事例ごとに,所定の情報を素性として抽出し,抽出した素性の集合と解との組を生成する。さらに,機械学習手段によって,所定の機械学習アルゴリズムにもとづいて,解と素性の集合との組について,どのような素性の集合の場合にどのような解となるかということを機械学習処理し,「どのような素性の集合の場合にどのような解となるかということ」を示す情報を学習結果情報として学習結果記憶手段に保存する。
その後,候補抽出手段によって,記憶装置に格納されたテキストデータから,二項関係の要素を抽出し,前記要素で構成される対を抽出し,前記抽出した対を二項関係の候補とすると,素性抽出手段によって,解−素性対抽出手段が行う抽出処理と同様の抽出処理によって,二項関係の候補について所定の情報を素性として抽出する。そして,解推定手段によって,学習結果記憶手段に格納された学習結果情報にもとづいて,二項関係の候補の素性の集合の場合の解となりやすい度合いを推定し,二項関係抽出手段によって,推定結果から,二項関係の候補について解となりやすい度合いが所定の程度より良い場合に,その二項関係の候補を抽出する。
また,本発明は,複数の検索キーワードによる情報検索処理において,教師あり機械学習処理を用いた二項関係抽出処理結果を利用して検索結果を抽出する処理装置であって,1)教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と,2)前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と,3)所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と,4)入力された複数の検索キーワードを用い入力検索キーワード対を生成し,検索対象となる文書データから前記入力検索キーワード対を含む文書データを抽出して取得する情報検索手段と,5)前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し,前記生成した対を二項関係の候補とする候補抽出手段と,6)前記解−素性対抽出手段と同様の抽出処理によって,前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と,7)前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する解推定手段と,8)前記解推定手段の処理結果として,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択し,前記選択した二項関係を含むテキストデータを検索結果として抽出する検索結果抽出手段とを備えることを特徴とする。
本発明は,検索キーワードを要素とする二項関係に,抽出するべき二項関係であることを示す解の情報を付与された事例を含む教師データを教師データ記憶手段に記憶しておく。そして,解−素性対抽出手段によって,教師データ記憶手段から事例を取り出し,事例ごとに,所定の情報を素性として抽出し,抽出した素性の集合と解との組を生成する。さらに,機械学習手段によって,所定の機械学習アルゴリズムにもとづいて,解と素性の集合との組について,どのような素性の集合の場合にどのような解となるかということを機械学習処理し,「どのような素性の集合の場合にどのような解となるかということ」を示す情報を学習結果情報として学習結果記憶手段に保存する。
その後,情報検索手段によって,入力された複数の検索キーワードを用いた入力検索キーワード対を生成し,検索対象となるテキストデータから入力検索キーワード対を含むテキストデータを抽出して取得すると,候補抽出手段によって,検索して取得された各テキストデータから,入力検索キーワードで構成される対を生成し,前記生成した対を二項関係の候補とする。そして,素性抽出手段によって,解−素性対抽出手段が行う抽出処理と同様の抽出処理によって,二項関係の候補について所定の情報を素性として抽出する。さらに,解推定手段によって,学習結果記憶手段に格納された学習結果情報にもとづいて,二項関係の候補の素性の集合の場合の解となりやすい度合いを推定すると,検索結果抽出手段によって,推定結果として,二項関係の候補について解となりやすい度合いが所定の程度より良い場合に,その二項関係の候補を抽出するべき二項関係として選択し,選択した二項関係を含むテキストデータを検索結果として抽出する。
また,本発明は,前記二項関係抽出装置または前記情報検索装置でそれぞれ実現される二項関係抽出処理方法,二項関係抽出処理方法を用いた情報検索処理方法である。
また,本発明は,前記二項関係抽出処理方法または前記情報検索処理方法として実行されるそれぞれの処理過程を,コンピュータに実行させるための二項関係抽出処理プログラム,および,二項関係抽出処理方法を用いた情報検索処理プログラムである。
本発明によれば,抽出するべき二項関係か否かを示すタグを人手によって付与したテキストデータを学習データとして利用して機械学習を行うことによって,新しい二項関係の候補が与えられた場合に,その候補が抽出するべき二項関係か否かを判断することができる。例えば,抽出する二項関係であるか否かのタグを付与した「相互作用をする蛋白質の名称の対」を学習データとして用いることによって,テキストデータベースなどから,希望する「相互作用をする蛋白質の名称の対」の情報を取得することができる。
また,情報検索処理におけるAND検索の二つの検索キーワードについて,その検索結果の文書において意味のある関係であるか否かのタグを付与した「検索キーワードの対」を学習データとして用いることによって,検索対象のテキストデータから意味のある検索結果を抽出することができる。
本発明は,テキストデータから二項関係を抽出するすべての問題に利用することができるため,きわめて汎用性が高い。
以下,本発明の二項関係抽出装置1の実施例を説明する。
二項関係抽出装置1は,抽出するべき二項関係か否かのタグを付与したテキストデータである教師データを用いて,どのような語句の対が抽出するべき二項関係であるかを機械学習し,与えられたテキストデータ2から,二項関係の候補を取得して,抽出するべき二項関係3を抽出する処理装置である。
図1に,本発明にかかる二項関係抽出装置1の構成例を示す。二項関係抽出装置1は,教師データ記憶部11,解−素性対抽出部12,機械学習部13,学習結果記憶部14,候補抽出部15,素性抽出部16,解推定部17,および二項関係抽出部18を備える。
教師データ記憶部11は,機械学習処理において使用される教師データとなるテキストデータを記憶する手段である。
教師データとして,テキストデータの文中に出現している二項関係の要素(一方の要素を第1要素,他方の要素を第2要素という)を問題,抽出するべき二項関係であるか否かの情報を解とする事例を用いる。具体的には,テキストデータの一つの文中に二個以上の二項関係の要素を含む文のみについて,その文中の二項関係にある要素の対について,抽出するべき対(正例)であるか,抽出するべきではない対(負例)かのいずれかの解を示すタグを人手によって付与する。一文中に三個以上の二項関係の要素を含む場合には,要素のすべての組み合わせである対それぞれについてタグを付与する。なお,教師データの事例として,抽出するべき対(正例)を示す解のみが付与された二項関係を使用してもよい。
解−素性対抽出部12は,教師データ記憶部11に記憶されているテキストデータ内の事例から,解と素性の集合との組を抽出する処理手段である。
素性は,機械学習処理で使用する情報である。解−素性対抽出部12は,素性として,例えば,二項関係の要素,要素の周囲に出現する単語/文字とその出現位置や順序,要素や周囲の単語の品詞情報,形態素解析情報,構文解析情報,要素間の出現距離,要素間での他の二項関係の要素の有無などの情報を抽出する。
機械学習部13は,解−素性対抽出部12によって抽出された解と素性の集合との組から,どのような素性のときにどのような解になりやすいかを,教師あり機械学習法により学習する処理手段である。その学習結果は,学習結果記憶部14に保存される。
素性抽出部16は,テキストデータ2から抽出された二項関係の候補について,所定の素性を抽出する処理手段である。
解推定部17は,学習結果記憶部14の学習結果を参照して,二項関係の各候補について,その素性の集合の場合に,どのような解(分類先)になりやすいかの度合いを推定する処理手段である。
二項関係抽出部18は,解推定部17の推定結果にもとづいて,二項関係の候補から,抽出するべき二項関係であることを示す解となる度合いが高いと推定されたものを,二項関係3として出力する処理手段である。
図2に,二項関係抽出装置1の処理の流れを示す。
二項関係抽出装置1の教師データ記憶部11には,教師データとして,ある意味を持つ要素の対である二項関係に,抽出するべき二項関係であるか(正)または抽出するべきでない二項関係であるか(負)のいずれかの「解」の情報が付与された事例を含むテキストデータ2を記憶しておく。
なお,抽出するべき対にのみ,所定の解を付与した事例を含むテキストデータ2を記憶しておくようにしてもよい。この場合には,テキストデータ2の解が付与された対は,抽出するべき二項関係である(正)の解が与えられているとみなされ,解が付与されていない残りの対は抽出するべきではない二項関係(負)の解が与えられているとみなして扱われる。
まず,解−素性対抽出部12は,教師データ記憶部11の教師データから各事例について,所定の素性を抽出し,解(タグによって付与された情報)と抽出した素性の集合との組を生成する(ステップS1)。解−素性対抽出部12は,教師データであるテキストデータから所定のタグによって二項関係を抽出し,抽出した二項関係の要素について,形態素解析処理,構文解析処理,要素の出現位置や要素間の距離の算出処理などを行って,所定の素性を抽出する。
そして,機械学習部13は,解−素性対抽出部12により生成された解と素性の集合との組から,どのような素性の集合のときにどのような解(正または負)になりやすいかを機械学習法により学習し,学習結果を学習結果記憶部14に格納する(ステップS2)。機械学習部13は,教師あり機械学習法として,例えば,k近傍法,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などの手法のいずれかを用いて機械学習処理を行う。
その後,候補抽出部15は,二項関係を抽出したいテキストデータ2を入力し,入力したテキストデータ2から二項関係の候補を抽出する(ステップS3)。候補抽出部15は,テキストデータを文単位に分割し,一文中に二以上の二項関係の要素が出現する文についてのみ処理対象として扱い,その文から二項関係の候補を抽出する。
素性抽出部16は,解−素性対抽出部12での処理とほぼ同様の処理によって,テキストデータ2から抽出した二項関係の各候補について素性を抽出する(ステップS4)。
解推定部17は,各候補について,その素性の集合の場合にどのような解になりやすいか,すなわち「正となりやすい」か「負となりやすいか」の度合いを学習結果記憶部14の学習結果をもとに推定する(ステップS5)。そして,二項関係抽出部18は,より良い度合いで「正となりやすい」と推定された候補のなかから,所定の程度の候補を抽出するべき二項関係3として出力する(ステップS6)。
次に,本発明の二項関係抽出処理の具体例を説明する。本例では,二項関係抽出装置1を,生物医学関係の論文のテキストデータベースから,相互作用のある蛋白質表現(蛋白質名)の二項関係を抽出するものとし,テキストデータベースでの蛋白質表現を100%の精度で特定しているものと仮定する。
また,二項関係を構成する要素は同一文中に出現するものとする。なお,二項関係を構成する要素は,同一段落内,同一文書内に出現する要素同士であってもよい。
教師データを作成する処理において,二項関係の要素となる表現,例えば,蛋白質表現,病名と治療方法などの特定の表現を二項関係の要素として取り出す場合には,以下のようにして行う。
1)ルールを用いて要素を取り出す。
人手によって,「NF−Kappa [A−Z],ただし,[A−Z]はAからZまでのいずれかの文字」などのパターンを定義して,該当する表現を抽出する。このパターンによって,NF−Kappa A,NF−Kappa Bなどの蛋白質名の表現である要素を抽出する。
2)辞書を用いて要素を取り出す。
病名や治療方法などの表現が記載された辞書を使用して,それらの辞書にあった表現(文字列,単語列など)とまったく同じ文字列等を,病名や治療方法の表現である要素として抽出する。
3)機械学習処理によって要素を取り出す。
蛋白質表現,病名と治療方法などの表現の前後に開始位置タグと終了位置タグとを付与したテキストデータを,学習データとして用意する。そして,このタグ付きの学習データを用いた機械学習処理を行って,その学習結果を利用して,タグが付いていない新しいテキストデータの該当する表現の開始位置と終了位置にタグを挿入することで要素を特定する。
4)所定の二項関係を示す情報を用いて取り出す。
あらかじめ二項関係の要素になりうる表現にタグが付与されたデータを利用して,そのタグをもとに二項関係の要素である表現を抽出する。
図3に,教師データの例を示す。図3(A)に示すような,相互作用のある蛋白質表現を要素とする二項関係を含む英文テキストデータを,教師データとして使用する。本例では,教師データには,抽出するべき二項関係についてのみ,解(正/positive)を示すタグが付与される。すなわち,機械学習処理において,正の事例のみを含む教師データが使用される。
図3(B)に,教師データに付与されているタグの例を示す。教師データには,二つの二項関係の対P1,対P2が含まれる。二項関係(対)P1は,第1要素p1「delta−catenin」,第2要素p2「presenilin 1」で構成されている。また,二項関係(対)P2は,第1要素p1「presenilin (PS) 1」,第2要素p2「delta−catenin」で構成されている。
解−素性対抽出部12は,教師データ記憶部11に記憶されているテキストデータ内の事例から,解と素性の集合との組を抽出する。例えば,素性として,以下のような情報を抽出する。
1)二項関係の要素の周囲に出現する単語または文字。例えば,二項関係の第1要素(最初の要素)の前方の所定数の単語/文字,第2要素(二番目の要素)の後方の所定数の単語/文字,第1要素と第2要素の間の所定数の単語/文字;
2)二項関係の要素の周囲に出現する単語/文字の出現位置,出現順序など;
3)二項関係の二つの要素;
4)二項関係の要素または周囲の単語の品詞情報,形態素解析情報など;
5)二項関係の要素または周囲の単語の構文解析情報;
6)二項関係の第1要素と第2要素との出現距離;
7)二項関係の第1要素と第2要素の間での要素の出現の有無;
素性のうち,例えば,品詞情報は,形態素解析システム「ChaSen」などの既存の形態素解析処理手法を使用して取得する(参照:http://chasen.aist-nara.ac.jp/index.html.ja)。英語のテキストデータの場合の品詞情報は,例えば,「Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging」(Eric Brill, Computational Linguistics, Vol.21, No.4, p.543-565, 1995)を使用して取得する。
ここでは,二項関係の要素が,同一段落中に出現する場合には,素性として,二項関係の要素が文をまたぐか否かという情報を用いてもよい。また,二項関係の要素が,同一文書内に出現する場合には,素性として,二項関係の要素が文をまたぐか否かという情報,段落をまたぐか否かという情報を用いてもよい。
解−素性対抽出部12は,図3(B)に示すようなタグが付与された教師データの事例から,素性を抽出し,素性の集合と解との組を生成する。例えば,二項関係P2の事例について,図5に示すように,解(positive:正)と,以下の素性の集合との組が生成されるとする。
「第1要素の前方3単語内に「for」,「interaction」,「with」が出現;
要素間に「and」,「cloned」,「the」,「full」,「-」,「length」,「cDNA」,「of」,「human」が出現;
第2要素の後方3単語内に「which」,「encoded」,「1225」が出現」。
機械学習部13は,この解と素性の集合とをもとに,どのような素性の集合の場合に解(positive)となりやすいかを機械学習処理し,学習結果を学習結果記憶部14に記憶する。
機械学習部13は,教師あり機械学習法として,例えば,k近傍法,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などの手法を用いる。
k近傍法は,最も類似する一つの事例のかわりに,最も類似するk個の事例を用いて,このk個の事例での多数決によって分類先(解)を求める手法である。kは,あらかじめ定める整数の数字であって,一般的に,1から9の間の奇数を用いる。シンプルベイズ法は,ベイズの定理にもとづいて各分類になる確率を推定し,その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において,文脈bで分類aを出力する確率は,以下の式(1)で与えられる。
Figure 0004565106
ただし,ここで文脈bは,あらかじめ設定しておいた素性f(∈F,1≦j≦k)の集合である。p(b)は,文脈bの出現確率である。ここで,分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(f|a)は,それぞれ教師データから推定された確率であって,分類aの出現確率,分類aのときに素性fを持つ確率を意味する。P(f|a)として最尤推定を行って求めた値を用いると,しばしば値がゼロとなり,式(2)の値がゼロで分類先を決定することが困難な場合が生じる。そのため,スームージングを行う。ここでは,以下の式(3)を用いてスームージングを行ったものを用いる。
Figure 0004565106
ただし,freq(f,a)は,素性fを持ち,かつ分類がaである事例の個数,freq(a)は,分類がaである事例の個数を意味する。
決定リスト法は,素性と分類先の組とを規則とし,それらをあらかじめ定めた優先順序でリストに蓄えおき,検出する対象となる入力が与えられたときに,リストで優先順位の高いところから入力のデータと規則の素性とを比較し,素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では,あらかじめ設定しておいた素性f(∈F,1≦j≦k)のうち,いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
p(a|b)=p(a|fmax ) (4)
ただし,fmax は以下の式によって与えられる。
Figure 0004565106
また,P(a|f)(ここでPはpの上部にチルダ)は,素性fを文脈に持つ場合の分類aの出現の割合である。
最大エントロピー法は,あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき,以下の式(6)を満足しながらエントロピーを意味する式(7)を最大にするときの確率分布p(a,b)を求め,その確率分布にしたがって求まる各分類の確率のうち,最も大きい確率値を持つ分類を求める分類先とする方法である。
Figure 0004565106
ただし,A,Bは分類と文脈の集合を意味し,g(a,b)は文脈bに素性fがあって,なおかつ分類がaの場合1となり,それ以外で0となる関数を意味する。また,P(a|f)(ここでPはpの上部にチルダ)は,既知データでの(a,b)の出現の割合を意味する。
式(6)は,確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており,右辺の既知データにおける期待値と,左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として,エントロピー最大化( 確率分布の平滑化) を行なって,出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については,以下の参考文献1および参考文献2を参照されたい。
(参考文献1:Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997);
参考文献2:Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998))
サポートベクトルマシン法は,空間を超平面で分割することにより,二つの分類からなるデータを分類する手法である。
図4にサポートベクトルマシン法のマージン最大化の概念を示す。図4において,白丸は正例,黒丸は負例を意味し,実線は空間を分割する超平面を意味し,破線はマージン領域の境界を表す面を意味する。図4(A)は,正例と負例の間隔が狭い場合(スモールマージン)の概念図,図4(B)は,正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき,二つの分類が正例と負例からなるものとすると,学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ,図4(B)に示すように,このマージンを最大にする超平面を求め,それを用いて分類を行なう。
基本的には上記のとおりであるが,通常,学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や,超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。
この拡張された方法は,以下の識別関数を用いて分類することと等価であり,その識別関数の出力値が正か負かによって二つの分類を判別することができる。
Figure 0004565106
ただし,xは識別したい事例の文脈(素性の集合) を,xとy(i=1,…,l,y∈{1,−1})は学習データの文脈と分類先を意味し,関数sgnは,
sgn(x)=1(x≧0)
−1(otherwise )
であり,また,各αは式(10)と式(11)の制約のもと式(9)を最大にする場合のものである。
Figure 0004565106
また,関数Kはカーネル関数と呼ばれ,様々なものが用いられるが,本形態では以下の多項式のものを用いる。
K(x,y)=(x・y+1)d (12)
C,dは実験的に設定される定数である。後述する具体例ではCはすべての処理を通して1に固定した。また,dは,1と2の二種類を試している。ここで,α>0となるxは,サポートベクトルと呼ばれ,通常,式(8)の和をとっている部分は,この事例のみを用いて計算される。つまり,実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお,拡張されたサポートベクトルマシン法の詳細については,以下の参考文献3および参考文献4を参照されたい。
(参考文献3:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000);
参考文献4:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000))
サポートベクトルマシン法は,分類の数が2個のデータを扱うものである。したがって,分類の数が3個以上の事例を扱う場合には,通常,これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は,n個の分類を持つデータの場合に,異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し,各ペアごとにどちらがよいかを二値分類器,すなわちサポートベクトルマシン法処理モジュールで求めて,最終的に,n(n−1)/2個の二値分類による分類先の多数決によって,分類先を求める方法である。
ワンVSレスト法は,例えば,a,b,cという三つの分類先があるときは,分類先aとその他,分類先bとその他,分類先cとその他,という三つの組を生成し,それぞれの組についてサポートベクトルマシン法で学習処理する。そして,学習結果による推定処理において,その三つの組のサポートベクトルマシンの学習結果を利用する。推定すべき二項関係の候補が,その三つのサポートベクトルマシンではどのように推定されるかを見て,その三つのサポートベクトルマシンのうち,その他でないほうの分類先であって,かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば,ある候補が,「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には,その候補の分類先はaと推定する。
その後,候補抽出部15は,入力された新しいテキストデータ2から,二項関係の候補を抽出する。具体的には,テキストデータ2を文単位に分割し,各文中の二項関係の要素となる表現(文字列)を抽出する。そして,一文中に二項関係の要素となる表現が二個以上存在するか否かを調べ,一文中にある二項関係の要素のすべての二つの組み合わせ(対)を二項関係の候補として生成する。
また,新しいテキストデータ2を各段落に分割し,各段落中の二項関係の要素となる表現を抽出し,同じ段落内から二以上の要素がある段落について,すべての二つの組み合わせ(対)を二項関係の候補として生成してもよい。または,テキストデータ2の一文書内からの二項関係の要素となる表現を抽出し,すべての二つの組み合わせ(対)を二項関係の候補として生成してもよい。
テキストデータ2から二項関係の要素となる表現を抽出する手法としては,前述の教師データの生成方法で説明した手法を使用する。例えば,パターンや辞書の記述と合致する表現を抽出する,教師あり機械学習の学習結果にもとづいて推定した表現を抽出する。
テキストデータ2の一文中に二個以上の要素が出現する場合に,その要素の対を二項関係の候補とする。なお,一文中に三個以上の要素が出現する場合には,要素のあらゆる組み合わせの対を二項関係の候補とする。
そして,素性抽出部16は,二項関係の候補から,解−素性対抽出部12と同様の処理によって同様の素性を抽出する。
解推定部17は,学習結果記憶部14に記憶されている学習結果をもとに,各二項関係の候補について,その候補の素性の集合の場合に正の解(positive)のなりやすさを推定する。二項関係抽出部18は,解推定部17の推定結果をもとに二項関係の候補から,正の解となりやすい推定の度合いが高いものを二項関係2として出力する。
本例では,上記の素性を抽出し,機械学習処理としてサポートベクトルマシン法を用いた。10分割のクロスバリデーションを利用して精度を調べたところ,F値=47.5%の精度が得られた。F値は,再現率と適合率の調和平均をいう。再現率は,テキストデータ2から抽出するべき二項関係のうち,どの程度のものが出力できたかを示す割合である。適合率は,二項関係抽出装置1が抽出した二項関係のうち,どの程度のものが取り出すべき二項関係であったかを示す割合である。
二項関係抽出装置1では,機械学習部13によって,所定の機械学習アルゴリズムにもとづいて,与えられた教師データを用いて,各二項関係の解と素性の集合との組について,どのような素性の集合の場合にどのような解となるかということを機械学習処理し,どのような素性の集合の場合にどのような解となるかということを示す情報を学習結果情報として学習結果記憶部14に保存し,解推定部17によって,この学習結果情報にもとづいて,二項関係の候補の素性の集合の場合についての前記解となりやすい度合いを推定する。
二項関係抽出装置1において,機械学習手法としてk近傍法を用いる場合には,機械学習部13は,教師データの事例同士で,その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度と定義して,前記定義した類似度と事例とを学習結果情報として学習結果記憶部14に記憶しておく。
そして,解推定部17は,新しいテキストデータ2が入力されたときに,学習結果記憶部14の定義した類似度と事例を参照して,テキストデータ2から抽出された二項関係の候補について,その候補の類似度が高い順にk個の事例を学習結果記憶部14の事例から選択し,選択したk個の事例での多数決によって決まった分類先を,二項関係の候補の分類先(解)として推定する。すなわち,解推定部17では,二項関係の候補の素性の集合の場合にある解となりやすさの度合いを,選択したk個の事例での多数決の票数,ここでは「抽出するべき」という分類が獲得した票数とする。また,機械学習手法として,シンプルベイズ法を用いる場合には,機械学習部13は,教師データの事例について,前記事例の解と素性の集合との組を学習結果情報として学習結果記憶部14に記憶する。そして,解推定部17は,新しいテキストデータ2が入力されたときに,学習結果記憶部14の学習結果情報の解と素性の集合との組をもとに,ベイズの定理にもとづいて素性抽出部16で取得した二項関係の候補の素性の集合の場合の各分類になる確率を算出して,その確率の値が最も大きい分類を,その二項関係の候補の素性の分類(解)と推定する。すなわち,解推定部17では,二項関係の候補の素性の集合の場合にある解となりやすさの度合いを,各分類になる確率,ここでは「抽出するべき」という分類になる確率とする。
また,機械学習手法として決定リスト法を用いる場合には,機械学習部13は,教師データの事例について,素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶部14に記憶する。そして,新しいテキストデータ2が入力されたときに,解推定部17は,学習結果記憶部14のリストの優先順位の高い順にテキストデータ2から抽出された二項関係の候補の素性と規則の素性とを比較し,素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち,解推定部17では,二項関係の候補の素性の集合の場合にある解となりやすさの度合いを,所定の優先順位またはそれに相当する数値,尺度,ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
また,機械学習手法として最大エントロピー法を使用する場合には,機械学習部13は,教師データの事例から解となりうる分類を特定し,所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶部14に記憶する。そして,新しいテキストデータ2が入力されたときに,解推定部17は,学習結果記憶部14の確率分布を利用して,テキストデータ2から抽出された二項関係の候補の素性の集合についてその解となりうる分類の確率を求めて,最も大きい確率値を持つ解となりうる分類を特定し,その特定した分類をその候補の解と推定する。すなわち,解推定部17では,二項関係の候補の素性の集合の場合にある解となりやすさの度合いを,各分類になる確率,ここでは「抽出するべき」という分類になる確率とする。
また,機械学習手法としてサポートベクトルマシン法を使用する場合には,機械学習部13は,教師データの事例から解となりうる分類を特定し,分類を正例と負例に分割して,カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で,その事例の正例と負例の間隔を最大にし,かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶部14に記憶する。そして,新しいテキストデータ2が入力されたときに,解推定部17は,学習結果記憶部14の超平面を利用して,テキストデータ2から抽出された二項関係の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し,その特定された結果にもとづいて定まる分類を,その候補の解と推定する。すなわち,解推定部17では,二項関係の候補の素性の集合の場合にある解となりやすさの度合いを,分離平面からの正例(抽出するべき二項関係)の空間への距離の大きさとする。より詳しくは,抽出するべき二項関係を正例,抽出するべきではない二項関係を負例とする場合に,分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され,その事例の分離平面からの距離をその事例の度合いとする。
また,解−素性対抽出部12では,素性として,例えば,「二つの要素自体の単語」を使用してもよい。また,「要素の前方から一つ目の単語/文字列,二つ目の単語/文字列,後方から一つ目の単語/文字列,二つ目の単語/文字列」を素性として使用してもよい。図3(A)の場合には,素性は,
「第1要素が「presenilin (PS) 1」;
第2要素が「delta - catenin」;
第1要素の一つ目の単語が「presenilin」;
同二つ目の単語が「(PS)」;
第1要素の最後から二つ目の単語が「(PS)」;
同最後から一つ目の単語が「1」;
第2要素の一つ目の単語が「delta」;
同二つ目の単語が「-」;
第2要素の最後から二つ目の単語が「-」;
同最後から一つ目の単語が「cateninである」となる。
または,
「第1要素の最初の1文字が「p」;
同最初の2文字が「pr」;
同最初の3文字が「pre」;
同最後の1文字が「1」;
同最後の2文字が「スペース,1」;
同最後の3文字が 「),スペース,1」;
第2要素の最初の1文字が「d」;
同最初の2文字が「de」;
同最初の3文字が「del」;
同最後の1文字が「n」;
同最後の2文字が「in」;
同最後の3文字が「nin」である」となる。
また,要素の前後2単語の単語自体とその品詞情報を素性とする場合には,素性は,
「第1要素の二つ前の単語は「interaction」;
同二つ前の単語の品詞は「名詞」;
同一つ前の単語は「with」;
同一つ前の単語の品詞は「前置詞」;
同一つ後の単語は「and」;
同一つ後の単語の品詞は「接続詞」;
同二つ後の単語は「cloned」;
同二つ後の単語の品詞は「動詞」;
第2要素の二つ前の単語は「of」;
同二つ前の単語の品詞は「前置詞」;
同一つ前の単語は「human」;
同一つ前の単語の品詞は「名詞」;
同一つ後の単語は「which」;
同一つ後の単語の品詞は「代名詞」;
同二つ後の単語は「encoded」;
同二つ後の単語の品詞は「動詞」である」となる。
また,二つの要素の間の距離として,その要素間にある単語の数を素性として用いる場合には,「二つの要素間の距離は,「9」である」という情報が素性となる。
また,二つの要素の間の単語数が0から1の状態を「距離小」とし,2から4の状態を「距離中」とし,5から9の状態を「距離大」とし,10以上の状態を「距離特大」とするそれぞれの状態を素性とする場合に,「二つの要素間の距離は,「距離大」である」という情報が素性となる。
また,二つの要素の間に他の要素がないかどうかという状態を素性とする場合に,「二つの要素の間に他の要素はない」という情報が素性となる。
さらに,二項関係の要素として異種の用語が設定されるような場合には,要素の出現順位を素性として用いてもよい。例えば,病名と治療方法の二項関係の場合には,「第1要素が「病名」で第2要素が「治療方法」である」または「第1要素が「治療方法」で第2要素が「病名」である」との情報が素性となる。
二項関係抽出装置1は,教師データとして,相互作用のある蛋白質表現の二項関係以外に,病名と治療方法との二項関係,病名と蛋白質表現との二項関係,病名と器官(臓器)との二項関係,病名と動物種との二項関係,病名と関連のある化学物質との二項関係,蛋白質表現とその蛋白質についてこれまでになされた実験方法との二項関係などのさまざまな二項関係の事例を与えることによって,生物医学論文のテキストデータ2から,これらの対応する二項関係を抽出することができる。
例えば,教師データとして,以下のような二項関係を含むテキストデータを用いることができる。
「Oral corticosteroids(要素:治療方法)are the preference of many for the treatment of CIDP(要素:病名), being much less expensive than IVIG(要素:治療方法)infusion or TA(要素:治療方法).」
「In the CIDP (要素:病名)patient, the IgG antibody(要素:蛋白質表現) titer to GD3 (要素:化学物質表現)was remarkably elevated (titer, 1:10,000), indicating maximal avidity to the tetrasaccharide epitope(-NeuAcalpha2-8NeuAcalpha2-3Galbeta1-4Glc-).」
「Ciliated metaplasia (CM) in the stomach(要素:器官名)is mainly found in gastric mucosa (要素:器官名)that harboursgastric cancer(要素:病名)」
「Variant Creutzfeldt-Jakob disease (CJD)(要素:病名) is a transmissible spongiform encephalopathy believed to be caused by the bovine(要素:動物種) spongiform encephalopathy agent, an abnormal isoformof the prion protein (PrP(sc))(要素:蛋白質表現).」
「AIDP (要素:病名)and CIDP(要素:病名)having specific antibodies to the carbohydrate epitope(-NeuAcalpha2-8NeuAcalpha2-3Galbeta1-4Glc-) of gangliosides.
(要素:化学物質表現)」
「Gene expression in archived frozen suralnerve biopsies of patients with chronic inflammatory demyelinatingpolyneuropathy (CIDP) (要素:病名)was compared to that in vasculitic nerve biopsies (VAS) and to normal nerve (NN) by DNA microarraytechnology(要素:実験方法).」
「This novel interaction was identified in a yeast two-hybrid screen(要素:実験方法) using PrP(C)(要素:蛋白質表現) as bait and confirmed by an in vitro binding assay and co-immunoprecipitations」
「Comparative study of the PrP(BSE)(要素:蛋白質表現) distribution in brains (要素:器官名)from BSE(要素:病名) field cases using rapid tests(要素:検査法).」
また,例えば,会社の製品名とその製品に対する評判(例えば,評判がいい,悪いなどの情報)との対を,二項関係として抽出することもできる。
以上のように,本発明の二項関係抽出装置1によれば,機械学習処理用の教師データとして,抽出するべき二項関係であるか否かの評価(解)を付与したテキストデータを用意するだけで,新しいテキストデータから抽出するべきものに値すると推定した二項関係を自動的に抽出することが可能となる。これによって,二項関係抽出処理に使用するパターン生成の煩雑さを回避することができる。また,教師あり機械学習の精度向上によって,二項関係抽出処理の性能の向上が期待できる。
次に,本発明の情報検索装置4の実施例を説明する。
情報検索装置4は,AND検索処理の二つの検索キーワードの関係を意味のある二項関係とみなして,この検索キーワードを要素とする二項関係について,抽出するべき関係であること(正)または,抽出するべき関係でないこと(負)のいずれかの解を示すタグを付与した教師データを用いて機械学習し,検索対象である検索用テキストデータ5から,二つの検索キーワードを含む記事であって,その検索キーワードの対が抽出するべき二項関係であると推定されたものを検索結果6として出力する処理装置である。
図6に,本発明にかかる情報検索装置4の構成例を示す。情報検索装置4は,情報検索部40,教師データ記憶部41,解−素性対抽出部42,機械学習部43,学習結果記憶部44,候補抽出部45,素性抽出部46,解推定部47,および検索結果抽出部48を備える。
情報検索装置4の教師データ記憶部41,解−素性対抽出部42,機械学習部43,学習結果記憶部44,候補抽出部45,素性抽出部46,および解推定部47は,図1に示す二項関係抽出装置1の教師データ記憶部11,解−素性対抽出部12,機械学習部13,学習結果記憶部14,候補抽出部15,素性抽出部16,および解推定部17とそれぞれ同様の処理を行う処理手段である。
情報検索部40は,AND検索処理で与えられた検索キーワードを用いて検索用テキストデータ5を検索し,該当する記事(テキストデータ)を取得する。
候補抽出部45は,情報検索部40が取得した記事に含まれている二つの検索キーワードと同じ文字列(語)の対を要素とする二項関係の候補を抽出する。
検索結果抽出部48は,解推定部47の推定結果をもとに,検索用テキストデータ5から検索された記事の二項関係の候補から,推定された正の解(抽出するべき二項関係であること)のなりやすさの度合いが所定の程度より良いものを抽出し,抽出した二項関係の候補を含む記事または記事を特定する情報を検索結果6として出力する。
図7に,情報検索装置4の処理の流れを示す。情報検索装置4の教師データ記憶部41には,教師データとして,AND検索処理で与えられる二つの検索キーワードを要素とする二項関係に,抽出するべき二項関係であるか(正)または抽出するべきでない二項関係であるか(負)のいずれかの「解」の情報が付与された事例を含むテキストデータを記憶しておく。
まず,解−素性対抽出部42は,教師データ記憶部41の教師データから各事例について,所定の素性を抽出し,解(タグによって付与された情報)と抽出した素性の集合との組を生成する(ステップS11)。解−素性対抽出部42は,教師データであるテキストデータから所定のタグによって二項関係を抽出し,抽出した二項関係の要素(検索キーワード)について,形態素解析処理,構文解析処理,要素の出現位置や要素間の距離の算出処理などを行って,所定の素性を抽出する。
そして,機械学習部43は,解−素性対抽出部42により生成された解と素性の集合との組から,どのような素性の集合のときにどのような解(正または負)になりやすいかを機械学習法により学習し,学習結果を学習結果記憶部44に格納する(ステップS12)。機械学習部43は,教師あり機械学習法として,例えば,k近傍法,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などの手法のいずれかを用いて機械学習処理を行う。
その後,候補抽出部45は,AND検索処理で与えられた二つの入力検索キーワードを用いてすべての二つの組み合わせ(対)を生成する(ステップS13)。情報検索部40は,二つの入力検索キーワードの対を用いて検索用テキストデータ5をAND検索処理し,入力検索キーワード対を含む記事(テキストデータ)を抽出し,候補抽出部45は,検索処理によって抽出された記事に出現する入力検索キーワードを用いて,すべての二つの組み合わせ(対)を二項関係の候補として抽出する(ステップS14)。
そして,素性抽出部46は,解−素性対抽出部42での処理とほぼ同様の処理によって,検索した記事に出現している二項関係の各候補について,所定の素性の集合を抽出する(ステップS15)。
解推定部47は,各候補について,その素性の集合の場合にどのような解になりやすいか,すなわち,「正となりやすい」または「負となりやすいか」の度合いを学習結果記憶部14の学習結果をもとに推定する(ステップS16)。そして,検索結果抽出部48は,二項関係の候補から,所定の程度より良い程度で「正となりやすい」と推定されたものを抽出するべき二項関係として選択し,この二項関係を含む記事または記事を特定する情報を検索結果6として出力する(ステップS17)。
次に,本発明の情報検索処理の具体例を説明する。本例では,情報検索装置4を,検索用テキストデータ5から,AND検索処理で使用される二つの検索キーワードとなりうる文字列を要素とする二項関係を含むテキストデータを教師データとする。そして,AND検索処理で与えられた入力検索キーワードを要素とする二項関係の候補を作成し,検索用テキストデータ5からこの二項関係の候補を用いて検索を行い記事を抽出する。検索された記事に含まれる入力検索キーワードの二項関係の候補が抽出するべきであるか否かを推定して,抽出するべきものと推定された度合いがよい二項関係の候補を含む記事を検索結果6として出力するものとする。
AND検索の検索キーワードとして,「京大」と「総長」を設定すると仮定する。また,検索キーワードの二項関係が正または負であるかの判断は人が行い,正または負の解を示すタグを人手で付与する。したがって,機械学習処理において正の事例および負の事例を含む教師データが使用される。
図8〜図10に,教師データ記憶部41に記憶される教師データの例および,その教師データから解−素性対抽出部42によって抽出される素性の例を示す。本例では,図8および図9の教師データD1,D2には,抽出するべき二項関係について解が正(positive)であることを示すタグが付与される。また,図10の教師データD3には,抽出するべきでない二項関係について解が負(negative)であることを示すタグが付与される。
図8の教師データD1には,二つの検索キーワードの対である二項関係の対P3が含まれ,二項関係(対)P3は,第1要素p1(検索キーK1)「京大」,第2要素p2(検索キーK2)「総長」で構成され,二項関係の対P3には正の解(positive)が付与されている。
同様に,図9の教師データD2には,二つの検索キーワードの対である二項関係の対P4が含まれ,二項関係(対)P4は,第1要素p1(検索キーK1)「京大」,第2要素p2(検索キーK2)「総長」で構成され,二項関係の対P4には正の解(positive)が付与されている。図8および図9の教師データが「京大の総長」の内容であると判断できるからである。
また,図10の教師データD3には,二つの検索キーワードの対である二項関係の対P5が含まれ,二項関係(対)P5は,第1要素p1(検索キーK1)「京大」,第2要素p2(検索キーK2)「総長」で構成され,二項関係の対P5には負の解(negative)が付与されている。同じデータ内に「京大」と「総長」とが出現しているが,相互に関係を持つものではなく,「京大の総長」の内容でないと判断できるからである。
解−素性対抽出部42は,教師データ記憶部41に記憶されている教師データの事例から,解と素性の集合との組を抽出する。例えば,素性として,要素(検索キーワード)の前後の二単語の単語自体,単語の品詞を素性とする。例えば教師データD1を例にとると,素性は,
「第1要素の二つ前の単語は「今日」;
同二つ前の単語の品詞は「名詞」;
同一つ前の単語は「,」;
同一つ前の単語の品詞は「読点」;
同一つ後の単語は「で」;
同一つ後の単語の品詞は「助詞」;
同一つ後の単語は「の」;
同一つ後の単語の品詞は「助詞」;
第2要素の二つ前の単語は「で」;
同二つ前の単語の品詞は「助詞」;
同一つ前の単語は「,」;
同一つ前の単語の品詞は「読点」;
同一つ後の単語は「が」;
同一つ後の単語の品詞は「助詞」;
同二つ後の単語は「出席」;
同二つ後の単語の品詞は「名詞」である」となる。
なお,解−素性対抽出部42は,二項関係抽出処理で説明したような情報を素性として抽出することができる。
機械学習部43は,この解と素性の集合とをもとに,どのような素性の集合の場合にどのような解(正(positive)/負(negative))となりやすいかを機械学習処理し,学習結果を学習結果記憶部44に記憶する。機械学習部43は,教師あり機械学習法として,例えば,k近傍法,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などの前述の処理手法を用いる。
その後,情報検索部40は,与えられた入力検索キーワード「京大」と「総長」とをもとに検索用テキストデータ5をAND検索し,入力検索キーワードを含む記事を取得する。そして,候補抽出部45は,抽出された記事から二項関係の候補を抽出する。具体的には,AND検索の検索結果である記事中に含まれる入力検索キーワードから二項関係の候補を抽出する。 そして,素性抽出部46は,二項関係の候補から,解−素性対抽出部42と同じ素性を抽出し,解推定部47は,学習結果記憶部44に記憶されている学習結果をもとに,各二項関係の候補について,その候補の素性の集合の場合に正(positive)または負(negative)のなりやすさの度合いを推定する。検索結果抽出部48は,解推定部47の推定結果をもとに二項関係の候補から,推定された正の解となりやすさの度合いがよい二項関係を抽出し,この二項関係を含む記事,記事を特定する情報を検索結果6として出力する。
例えば,候補抽出部45は,与えられた入力検索キーワードから,二つの入力検索キーワードのすべての組み合わせ(対)を生成し,生成した対を二項関係の候補とする。そして,情報検索部40は,それぞれの二項関係の候補の要素(二つの入力検索キーワード)を用いてAND検索処理を行う。そして,素性抽出部46は,抽出された記事に出現している二項関係の候補について所定の素性の集合を抽出する。
解推定部47は,学習結果記憶部44の学習結果をもとに,各二項関係の候補について,その候補の素性の集合の場合に解のなりやすさの度合いを推定する。入力検索キーワードの対である二項関係の候補それぞれが,検索されたその記事内で一つずつしか出現していないときは,それらすべての二項関係の候補が正(抽出するべき)との度合いがよいと推定した場合に,その記事,記事を特定する情報を検索結果6とする。
また,入力検索キーワードの対である二項関係が,検索されたその記事内で複数出現しているときは,出現する複数の二項関係の候補のうちの一つの候補について正(抽出するべき)との度合いがよいと推定していることを条件とし,さらに二項関係の候補それぞれが,前述の条件をすべて満足して正の度合いがよいと推定した場合に,その記事,記事を特定する情報を検索結果6とする。
さらに,候補抽出部45は,与えられた入力検索キーワードから,すべての二つの入力検索キーワードの対を生成し,生成した対を二項関係の候補とする。そして,情報検索部40は,それぞれの二項関係の候補の要素(二つの入力検索キーワード)を用いてAND検索処理を行う。そして,素性抽出部46は,抽出された記事に出現している二項関係の候補について所定の素性の集合を抽出する。
解推定部47は,学習結果記憶部44の学習結果をもとに,各二項関係の候補について,その候補の素性の集合の場合に解のなりやすさの度合いを推定する。入力検索キーワードの対である二項関係の候補それぞれが,検索されたその記事内で一つずつしか出現していないときは,それらすべての二項関係の候補について正(抽出するべき)の度合いを推定し,それらすべての二項関係の候補について推定された正の度合いを掛け合わせたものを,その記事の正の度合いとする。そして正の度合いがよいと推定した記事,記事を特定する情報を検索結果6とする。
また,入力検索キーワードの対である二項関係が,検索された記事内で複数出現しているときは,出現する複数の二項関係の候補について正の度合いを推定し,それらの複数の二項関係の候補の推定した度合いのうち,最も値がよい度合いをその二項関係の候補の度合いとする。そして,それぞれの二項関係の度合いを求め,求めた度合いを掛け合わせたものを,その記事の正の度合いとする。そして正の度合いがよいと推定した記事,記事を特定する情報を検索結果6とする。
以上のように,本発明の情報検索装置4によれば,機械学習処理用の教師データとして,AND検索処理の二つの検索キーワードの二項関係に,抽出するべき二項関係であるか否かの評価を付与したテキストデータを用意するだけで,新しい検索用テキストデータ5から,抽出するべきものに値するとされた二項関係を含む記事を自動的に抽出することが可能となる。
本発明の情報検索装置4は,AND検索処理の検索結果の記事に出現する検索キーワードの関係を,二項関係抽出処理を用いて評価することにより,検索キーワードを含んでいることによってヒットされたが,検索キーワード同士の関係がうすく,その結果として内容的に無関係な,いわば検索意図からはずれるような内容の記事を排除することができる。また,教師あり機械学習の精度向上によって,情報検索処理の性能の向上が期待できる。
以上の実施例においては,二項関係抽出処理および情報検索処理において,二つの要素からなる二項関係の例を説明した。本発明は,三つの要素で構成される三項関係についても適用することができる。
例えば,二項関係抽出装置1において,教師データとして,三つの要素の三項関係を含むデータを用意する。そして,解−素性対抽出部12は,この三項関係についての素性を,例えば,三つの要素のうちの,第1要素(最初に出現する要素)の前方二単語,第3要素(最後に出現する要素)の後方二単語,第1要素と第2要素(中間に出現する要素)間の単語すべて,第2要素と第3要素間の単語すべての単語情報とすることによって,機械学習部13は,三項関係の素性の集合をもとに解のなりやすさを学習することができ,二項関係抽出部18において,三項関係の抽出を扱うことができる。なお,三項関係に与えられる解は,二項関係の場合と同様に,「抽出するべき三項関係」または「抽出するべきでない三項関係」とする。
例えば,二項関係抽出装置1において,教師データとして,三つの要素の三項関係を含むデータを用意する。そして,二項関係抽出装置1の各処理手段は,教師データの三項関係を分解して得られたそれぞれの二項関係,第1要素と第2要素の二項関係,第2要素と第3要素の二項関係,第1要素と第3要素の二項関係をそれぞれ別個の二項関係として扱う。そして,それぞれの二項関係すべてについて,抽出するべき三項関係であるかの解の度合いを算出し,算出した度合いを掛け合わせて求めた値をその三項関係の度合いとする。そして,その度合いの大きいものを抽出するべき三項関係として取り出すようにする。
このとき,機械学習部13が,サポートベクトルマシン法を使用する場合には,分類先が二つ(正または負)となるので,ペアワイズ法またはワンVSレスト法を用いて三項関係を機械学習する。
また,二項関係抽出部18では,二項関係3の抽出の際に,抽出の確信度を求められるようにする。そして,二項関係を複数組み合わせて作成した三項関係の確信度として,それぞれの組み合わせた二項関係の確信度の積を用いて,三項関係の確信度の大きなものを取り出すようにする。二項関係の確信度は,通常の機械学習処理において算出される確信度を利用する。
このような三項関係の抽出処理は,情報検索装置4においても同様に行うことができる。例えば,「平成12年の京大の総長」に関する記事を検索する場合に,教師データとして,「平成12年」,「京大」,および「総長」の三つの検索キーワードによる三項関係を含むデータを与えて,検索用テキストデータ5から,これら三つの検索キーワードによるAND検索の検索結果6を出力する。
また,本例では,事例の二項関係または三項関係に付与する解の情報として,「正(抽出するべき二項関係である)」または「負(抽出するべきでない二項関係である)」を用いて説明したが,付与する解の情報として,例えば,「相互作用のある」,「反作用のある」,「作用がない」などの多分類のものであってもよい。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
また,本発明は,コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
本発明にかかる二項関係抽出装置の構成例を示す図である。 二項関係抽出装置の処理の流れを示す図である。 教師データの例を示す図である。 サポートベクトルマシン法のマージン最大化の概念を示す図である。 図3に示す二項関係の素性の集合との組の例を示す図である。 本発明にかかる情報検索装置の構成例を示す図である。 情報検索装置の処理の流れを示す図である。 教師データおよび,その二項関係の素性の集合との組の例を示す図である。 教師データおよび,その二項関係の素性の集合との組の例を示す図である。 教師データおよび,その二項関係の素性の集合との組の例を示す図である。
符号の説明
1 二項関係抽出装置
11 教師データ記憶部
12 解−素性対抽出部
13 機械学習部
14 学習結果記憶部
15 候補抽出部
16 素性抽出部
17 解推定部
18 二項関係抽出部
2 テキストデータ
3 二項関係
4 情報検索装置
40 情報検索部
41 教師データ記憶部
42 解−素性対抽出部
43 機械学習部
44 学習結果記憶部
45 候補抽出部
46 素性抽出部
47 解推定部
48 検索結果抽出部
5 検索用テキストデータ
6 検索結果

Claims (18)

  1. コンピュータが読み取り可能な記憶装置に格納された文データ中に出現する2つの要素間の関係を示す二項関係を,機械学習処理を用いて抽出する処理装置であって,
    教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と,
    前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と,
    所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と,
    前記記憶装置に格納されたデータから,前記二項関係となりうる要素を抽出し,前記抽出した要素で構成される対を二項関係の候補とする候補抽出手段と,
    前記解−素性対抽出手段と同様の抽出処理によって,前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と,
    前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する解推定手段と,
    前記解推定手段の処理結果をもとに,記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択する二項関係抽出手段とを備える
    ことを特徴とする二項関係抽出装置。
  2. 前記教師データ記憶手段は,前記事例として,前記問題の文データに出現する要素の対が抽出するべき二項関係であることを示す正の解が与えられた正の事例と,前記問題の文データに出現する要素の対が抽出するべき二項関係ではないことを示す負の解が与えられた負の事例とが格納される
    ことを特徴とする請求項1記載の二項関係抽出装置。
  3. 前記機械学習手段は,前記機械学習アルゴリズムである決定リスト法にもとづいて,前記事例の問題から抽出された前記所定の情報である素性の集合と前記事例の解を示す情報との対で構成した規則を設定し,前記規則を所定の優先順序で並べたリストを前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記規則のリストを先頭からチェックして,前記二項関係の候補から抽出された素性の集合と一致する素性の集合を持つ規則を検出し,検出した規則の解前記二項関係の候補の解と推定する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の二項関係抽出装置。
  4. 前記機械学習手段は,前記機械学習アルゴリズムである最大エントロピー法にもとづいて,前記事例の問題から抽出された素性の集合と前記事例の解に対応する分類先各々との組み合わせである2項からなる確率分布であって,所定の条件式を満足しかつエントロピーを示す式を最大にするときのものを求め,前記求めた確率分布を前記学習結果情報として前記学習結果記憶部に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記確率分布を利用して,前記二項関係の候補の素性の集合の場合の前記分類先に対する確率を求めて,最大の確率値を持つ分類を特定し,前記特定した分類前記二項関係の候補の解と推定する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の二項関係抽出装置。
  5. 前記機械学習手段は,前記機械学習アルゴリズムであるサポートベクトルマシン法にもとづいて,前記解に対応する分類を特定し,前記分類を正例と負例とに分割し,所定のカーネル関数を用いたサポートベクトルマシン法を実行して前記事例の問題から抽出された素性の集合を次元とする空間上で前記正例と前記負例との間隔を最大にしかつ超平面で分割する空間を求め,前記超平面と前記超平面で分割された空間とを前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記超平面と前記超平面で分割された空間とを利用して,前記二項関係の候補から抽出された素性の集合が前記超平面で分割された空間において前記正例の側か前記負例の側のどちら側に属するかを特定し,前記特定された結果にもとづく分類先を前記二項関係の候補の解と推定する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の二項関係抽出装置。
  6. 前記機械学習手段は,前記機械学習アルゴリズムであるk近傍法にもとづいて,事例から抽出された素性の集合の他の素性の集合と重複する素性の割合にもとづいて前記事例同士の類似度を定義しておき,前記定義した各事例の類似度を前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記定義した各事例の類似度を参照して,前記二項関係の候補についてその候補との類似度が高い順にk個の事例を選択し,前記選択したk個の事例での多数決によって定めた分類先を,前記二項関係の候補の解と推定する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の二項関係抽出装置。
  7. 前記機械学習手段は,前記解と素性の集合との組を前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段の前記解と素性の集合との組をもとに,ベイズの定理にもとづいて前記素性抽出手段から得た前記二項関係の候補から抽出された素性の集合の場合各分類になる確率を算出し,前記確率値が最大の分類を,前記二項関係の候補の解と推定する
    ことを特徴とする請求項1または請求項2のいずれか一項に記載の二項関係抽出装置。
  8. 複数の検索キーワードによる情報検索処理において,教師あり機械学習処理を用いた二項関係抽出処理結果を利用して検索結果を抽出する処理装置であって,
    教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された教師データ記憶手段と,
    前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した素性の集合との組を生成する解−素性対抽出手段と,
    所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する機械学習手段と,
    入力された複数の検索キーワードを用い入力検索キーワード対を生成し,検索対象となる文書データから前記入力検索キーワード対を含む文書データを抽出して取得する情報検索手段と,
    前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し,前記生成した対を二項関係の候補とする候補抽出手段と,
    前記解−素性対抽出手段と同様の抽出処理によって,前記二項関係の候補各々について前記所定の情報を素性として抽出する素性抽出手段と,
    前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する解推定手段と,
    前記解推定手段の処理結果として,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択し,前記選択した二項関係を含むテキストデータを検索結果として抽出する検索結果抽出手段とを備える
    ことを特徴とする二項関係抽出処理を用いた情報検索装置。
  9. 前記教師データ記憶手段は,前記事例として,前記問題の文データに出現する要素の対が抽出するべき二項関係であることを示す正の解が与えられた正の事例と,前記問題の文データに出現する要素の対が抽出するべき二項関係ではないことを示す負の解が与えられた負の事例とが格納される
    ことを特徴とする請求項8記載の二項関係抽出処理を用いた情報検索装置。
  10. 前記機械学習手段は,前記機械学習アルゴリズムである決定リスト法にもとづいて,前記事例の問題から抽出された前記所定の情報である素性の集合と前記事例の解を示す情報との対で構成した規則を設定し,前記規則を所定の優先順序で並べたリストを前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記規則のリストを先頭からチェックして,前記二項関係の候補から抽出された素性の集合と一致する素性の集合を持つ規則を検出し,検出した規則の解前記二項関係の候補の解と推定する
    ことを特徴とする請求項8または請求項9のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
  11. 前記機械学習手段は,前記機械学習アルゴリズムである最大エントロピー法にもとづいて,前記事例の問題から抽出された素性の集合と前記事例の解に対応する分類先各々との組み合わせである2項からなる確率分布であって,所定の条件式を満足しかつエントロピーを示す式を最大にするときのものを求め,前記求めた確率分布を前記学習結果情報として前記学習結果記憶部に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記確率分布を利用して,前記二項関係の候補の素性の集合の場合の前記分類先に対する確率を求めて,最大の確率値を持つ分類を特定し,前記特定した分類前記二項関係の候補の解と推定する
    ことを特徴とする請求項8または請求項9のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
  12. 前記機械学習手段は,前記機械学習アルゴリズムであるサポートベクトルマシン法にもとづいて,前記解に対応する分類を特定し,前記分類を正例と負例とに分割し,所定のカーネル関数を用いたサポートベクトルマシン法を実行して前記事例の問題から抽出された素性の集合を次元とする空間上で前記正例と前記負例との間隔を最大にしかつ超平面で分割する空間を求め,前記超平面と前記超平面で分割された空間とを前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記超平面と前記超平面で分割された空間とを利用して,前記二項関係の候補から抽出された素性の集合が前記超平面で分割された空間において前記正例の側か前記負例の側のどちら側に属するかを特定し,前記特定された結果にもとづく分類先を前記二項関係の候補の解と推定する
    ことを特徴とする請求項8または請求項9のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
  13. 前記機械学習手段は,前記機械学習アルゴリズムであるk近傍法にもとづいて,事例から抽出された素性の集合の他の素性の集合と重複する素性の割合にもとづいて前記事例同士の類似度を定義しておき,前記定義した各事例の類似度を前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段に格納された前記学習結果情報である前記定義した各事例の類似度を参照して,前記二項関係の候補についてその候補との類似度が高い順にk個の事例を選択し,前記選択したk個の事例での多数決によって定めた分類先を,前記二項関係の候補の解と推定する
    ことを特徴とする請求項8または請求項9のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
  14. 前記機械学習手段は,前記解と素性の集合との組を前記学習結果情報として前記学習結果記憶手段に格納し,
    前記解推定手段は,前記学習結果記憶手段の前記解と素性の集合との組をもとに,ベイズの定理にもとづいて前記素性抽出手段から得た前記二項関係の候補から抽出された素性の集合の場合各分類になる確率を算出し,前記確率値が最大の分類を,前記二項関係の候補の解と推定する
    ことを特徴とする請求項8または請求項9のいずれか一項に記載の二項関係抽出処理を用いた情報検索装置。
  15. 教師データ記憶手段と学習結果記憶手段と解−素性対抽出手段と機械学習手段と候補抽出手段と素性抽出手段と解推定手段と二項関係抽出手段とを備えるコンピュータが,実行する処理方法であって,
    前記解−素性対抽出手段が,教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した性の集合との組を生成する処理過程と,
    前記機械学習手段が,所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として前記学習結果記憶手段に保存する処理過程と,
    前記候補抽出手段が,前記記憶装置に格納されたデータから,前記二項関係となりうる要素を抽出し,前記抽出した要素で構成される対を二項関係の候補とする処理過程と,
    前記素性抽出手段が,前記解−素性対抽出手段が実行する処理過程と同様の処理によって,前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と,
    前記解推定手段が,前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する処理過程と,
    前記二項関係抽出手段が,前記解推定手段が実行する処理過程の処理結果をもとに,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択する処理過程とを備える
    ことを特徴とする二項関係抽出処理方法。
  16. 教師データ記憶手段と学習結果記憶手段と解−素性対抽出手段と機械学習手段と情報検索手段と候補抽出手段と素性抽出手段と解推定手段と検索結果抽出手段とを備えるコンピュータが,実行する処理方法であって,
    前記解−素性対抽出手段が,教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した素性の集合との組を生成する処理過程と,
    前記機械学習手段が,所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する処理過程と,
    前記情報検索手段が,入力された複数の検索キーワードを用い入力検索キーワード対を生成し,検索対象となる文書データから前記入力検索キーワード対を含む文書データを抽出して取得する処理過程と,
    前記候補抽出手段が,前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し,前記生成した対を二項関係の候補とする処理過程と,
    前記素性抽出手段が,前記解−素性対抽出手段が実行する処理と同様に,前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と,
    前記解推定手段が,前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する処理過程と,
    前記検索結果抽出手段が,前記解推定手段の処理結果をもとに,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択し,前記選択した二項関係を含むテキストデータを検索結果として抽出する処理過程とを備える
    ことを特徴とする二項関係抽出処理を用いた情報検索処理方法。
  17. 教師データ記憶手段と学習結果記憶手段とを備えるコンピュータに,機械学習処理を用いた二項関係抽出処理方法として,
    教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した性の集合との組を生成する処理過程と,
    所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として前記学習結果記憶手段に保存する処理過程と,
    前記記憶装置に格納されたデータから,前記二項関係となりうる要素を抽出し,前記抽出した要素で構成される対を二項関係の候補とする処理過程と,
    前記解−素性対抽出手段が実行する処理と同様に,前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と,
    前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する処理過程と,
    前記解推定手段が実行する処理過程の処理結果をもとに,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択する処理過程とを,
    実行させるための二項関係抽出処理プログラム。
  18. 教師データ記憶手段と学習結果記憶手段とを備えるコンピュータに,二項関係抽出処理を用いた情報検索処理方法として,
    教師データとして,問題と解との組で構成される事例であって,前記問題として,抽出するべき二項関係にある要素を含む文データが設定され,前記解として,抽出するべき二項関係であるかを示す情報が設定された事例が格納された前記教師データ記憶手段から前記事例を取り出し,前記事例ごとに,前記問題の文データから,所定の情報であって,少なくとも前記文データ中に出現する二項関係にある第1要素と第2要素間における他の要素の前記文データ中の出現の有無を示す情報を含む情報を素性として抽出し,前記解と抽出した性の集合との組を生成する処理過程と,
    所定の機械学習アルゴリズムにもとづいて,前記解と素性の集合との組について,どのような素性の集合の場合に前記解となるかということを機械学習処理し,前記どのような素性の集合の場合に前記解となるかということを示す情報を学習結果情報として学習結果記憶手段に保存する処理過程と,
    入力された複数の検索キーワードを用い入力検索キーワード対を生成し,検索対象となる文書データから前記入力検索キーワード対を含む文書データを抽出して取得する処理過程と,
    前記検索して取得された各文書データから前記入力検索キーワードで構成される対を生成し,前記生成した対を二項関係の候補とする処理過程と,
    前記解−素性対を抽出する処理過程と同様の抽出処理により,前記二項関係の候補各々について前記所定の情報を素性として抽出する処理過程と,
    前記学習結果記憶手段に格納された前記学習結果情報にもとづいて,前記二項関係の候補から抽出された素性の集合の場合前記解となりやすい度合いを推定する処理過程と,
    前記解を推定する処理過程での処理結果をもとに,前記解となりやすい度合いが所定の程度より良い二項関係の候補の要素の対を,抽出するべき二項関係として選択し,前記選択した二項関係を含むテキストデータを検索結果として抽出する処理過程とを,
    実行させるための二項関係抽出処理を用いた情報検索処理プログラム。
JP2005183495A 2005-06-23 2005-06-23 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム Expired - Fee Related JP4565106B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005183495A JP4565106B2 (ja) 2005-06-23 2005-06-23 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
PCT/JP2006/312592 WO2006137516A1 (ja) 2005-06-23 2006-06-23 二項関係抽出装置
CNA2006800223569A CN101253497A (zh) 2005-06-23 2006-06-23 二元关系提取装置、使用二元关系提取处理的信息检索装置、二元关系提取处理方法、使用二元关系提取处理的信息检索处理方法、二元关系提取处理程序、以及使用二元关系提取处理的信息检索处理程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005183495A JP4565106B2 (ja) 2005-06-23 2005-06-23 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Publications (2)

Publication Number Publication Date
JP2007004458A JP2007004458A (ja) 2007-01-11
JP4565106B2 true JP4565106B2 (ja) 2010-10-20

Family

ID=37570533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005183495A Expired - Fee Related JP4565106B2 (ja) 2005-06-23 2005-06-23 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Country Status (3)

Country Link
JP (1) JP4565106B2 (ja)
CN (1) CN101253497A (ja)
WO (1) WO2006137516A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4646078B2 (ja) * 2007-03-08 2011-03-09 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法
JP4793932B2 (ja) * 2007-03-08 2011-10-12 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法
JP2008225565A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 相互に関係する固有表現の組抽出装置及びその方法
JP4793931B2 (ja) * 2007-03-08 2011-10-12 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法
JP5116775B2 (ja) * 2007-11-19 2013-01-09 日本電信電話株式会社 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4671440B2 (ja) * 2007-12-04 2011-04-20 日本電信電話株式会社 評判関係抽出装置、その方法およびプログラム
US8504356B2 (en) 2008-04-03 2013-08-06 Nec Corporation Word classification system, method, and program
JP5858456B2 (ja) * 2011-01-21 2016-02-10 国立研究開発法人情報通信研究機構 情報検索サービス提供装置及びコンピュータプログラム
WO2014118980A1 (ja) 2013-02-01 2014-08-07 富士通株式会社 情報変換方法、情報変換装置および情報変換プログラム
WO2014118976A1 (ja) 2013-02-01 2014-08-07 富士通株式会社 学習方法、情報変換装置および学習プログラム
JP6004015B2 (ja) 2013-02-01 2016-10-05 富士通株式会社 学習方法、情報処理装置および学習プログラム
CN103678681B (zh) * 2013-12-25 2017-03-01 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN104361224B (zh) * 2014-10-31 2018-08-03 深圳信息职业技术学院 置信分类方法及置信机器
JP6767042B2 (ja) * 2016-09-26 2020-10-14 国立研究開発法人情報通信研究機構 シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
WO2019208087A1 (ja) * 2018-04-27 2019-10-31 国立大学法人大阪大学 Pu分類装置、pu分類方法、及びpu分類プログラム
JP7286291B2 (ja) * 2018-09-28 2023-06-05 株式会社東芝 固有表現抽出装置、方法およびプログラム
JP2020077054A (ja) * 2018-11-05 2020-05-21 日本電信電話株式会社 選定装置および選定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2003186894A (ja) * 2001-12-21 2003-07-04 Hitachi Ltd サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム
JP2003223456A (ja) * 2002-01-31 2003-08-08 Communication Research Laboratory 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP2005157524A (ja) * 2003-11-21 2005-06-16 National Institute Of Information & Communication Technology 質問応答システムおよび質問応答処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2003186894A (ja) * 2001-12-21 2003-07-04 Hitachi Ltd サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム
JP2003223456A (ja) * 2002-01-31 2003-08-08 Communication Research Laboratory 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP2005157524A (ja) * 2003-11-21 2005-06-16 National Institute Of Information & Communication Technology 質問応答システムおよび質問応答処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product

Also Published As

Publication number Publication date
WO2006137516A1 (ja) 2006-12-28
CN101253497A (zh) 2008-08-27
JP2007004458A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
JP4565106B2 (ja) 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
Oussous et al. ASA: A framework for Arabic sentiment analysis
Kobayashi et al. Text classification for organizational researchers: A tutorial
Kılınç et al. TTC-3600: A new benchmark dataset for Turkish text categorization
Hermann et al. Semantic frame identification with distributed word representations
Rokach et al. Negation recognition in medical narrative reports
US20200234801A1 (en) Methods and systems for healthcare clinical trials
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
Al Khatib et al. Employing argumentation knowledge graphs for neural argument generation
Brahmi et al. Arabic texts analysis for topic modeling evaluation
Gentile et al. Explore and exploit. Dictionary expansion with human-in-the-loop
Hernandez et al. An automated approach to identify scientific publications reporting pharmacokinetic parameters
Hu et al. Bootstrapping object coreferencing on the semantic web
Xing et al. Um-checker: A hybrid system for english grammatical error correction
Wei et al. Recognizing software names in biomedical literature using machine learning
Şenel et al. Measuring cross-lingual semantic similarity across European languages
Kanessa et al. Automatic Hate and Offensive speech detection framework from social media: the case of Afaan Oromoo language
JP5366179B2 (ja) 情報の重要度推定システム及び方法及びプログラム
JP4895645B2 (ja) 情報検索装置、及び情報検索プログラム
Varga et al. Unsupervised document zone identification using probabilistic graphical models.
Rousseau Graph-of-words: mining and retrieving text with networks of features
Bannach-Brown et al. The use of text-mining and machine learning algorithms in systematic reviews: reducing workload in preclinical biomedical sciences and reducing human screening error
Jain et al. Information extraction from CORD-19 using hierarchical clustering and word bank
Suzdaltseva et al. De-identification of Medical Information for Forming Multimodal Datasets to Train Neural Networks.
Çavusoğlu et al. Key Extraction in Table Form Documents: Insurance Policy as an Example

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100629

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees