JP2006004399A

JP2006004399A - 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法

Info

Publication number: JP2006004399A
Application number: JP2005009322A
Authority: JP
Inventors: Tomoya Iwakura; 友哉岩倉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-05-20
Filing date: 2005-01-17
Publication date: 2006-01-05
Anticipated expiration: 2025-01-17
Also published as: JP4347226B2

Abstract

【課題】正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置で、正解データの作成負担を軽減し、情報抽出精度を向上すること。
【解決手段】拡張対象選択部１２０が正解データ記憶部１１０から拡張する正解データを選択し、正解拡張部１３０が正解データを拡張して拡張データを生成し、妥当性判定部１４０が規則学習部１５０に拡張データと正解データを学習させ、抽出部１７０にテストデータを使って情報抽出を実行させて結果を評価し、評価結果が拡張データの追加前に比べて良くなった場合には、拡張データを正解データとするよう構成する。
【選択図】図１

Description

この発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法に関し、特に、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法に関するものである。

情報抽出規則を用いてテキストから特定情報を抽出する情報抽出装置（情報抽出プログラム）では、情報抽出規則を作成する手法の一つとして、機械学習がある（例えば、非特許文献１参照。）。

機械学習では、正解データのバリエーションが多いほど良い結果が得られることから、情報抽出精度を向上するためには、正解データのバリエーションを多く作成することが重要になる。ここで、機械学習としては、決定木、Support Vector Machines(ＳＶＭ)、Boostingなどの手法がある。

決定木とは、与えられた特徴（条件）に基づき、その特徴から答え（その特徴を持つものはどのクラスに属するか、または、ある特定クラスに属する確率）を導く規則を木で表現したものである。ここでいう木とは、二分木とか探索木といわれる木であり、木の根から節点ごとにどの条件ならどちらにたどるべきかが分かるようにしてあって、葉にたどり着くと答えが得られることを利用したものである（例えば、非特許文献２参照。）。

ＳＶＭとは、訓練データを正例と負例とに分け、かつ、正負例間のマージンが最大となるような超平面を求める学習機である。この超平面は、構造的リスク最小化という概念のもとで最適解が得られることを利用したものである（例えば、非特許文献３参照。）。

Boostingとは、逐次弱学習器を構築し、それらの重み付き多数決によって、最終的な分類器を構成する手法である。弱学習器には、上記の決定木などが用いられる（例えば、非特許文献４参照。）。

「日本語固有表現抽出における冗長的な形態素解析の利用」、［平成１６年５月１２日検索］、インターネット＜URL:http://chasen.aist-nara.ac.jp/~masayu-a/article/asahara-signl-153.pdf＞ J. Ross Quinlan著、「C4.5: Programs for Machine Learning」、Morgan Kaufmann Pub.、１９９３年１２月１日 Nello Cristianini and John Shawe-Taylor著、「An Introduction to Support Vector Machines: And other Kernel-Based Learning Method」、２０００年３月２３日 R.E. Scapire and Y. Singer著、「BoosTexter: A boosting-based system for text categorization」、Machine Learning、39(2/3):135-168、May/June 2000(URL:http://www.boosting.org/papers/SchSin00c.pdf)

しかしながら、情報抽出精度を向上するために、正解データのバリエーションを多く作成しようとすると、作成コストが大きくなるという問題がある。また、単に正解データのバリエーションを増やすだけでは、不適当な正解データがある場合に、情報抽出精度を向上することができないという問題もある。

この発明は、上述した従来技術による問題点を解消するためになされたものであり、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、をコンピュータに実行させることを特徴とする。

また、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とする。

また、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、を備えたことを特徴とする。

また、本発明は、テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、を含んだことを特徴とする。

かかる発明によれば、正解データを拡張して新たな正解データである拡張データを生成し、生成した拡張データを用いて情報抽出規則を作成するよう構成したので、正解データを自動的に増やして学習を行うことができる。

また、本発明は、上記発明において、前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする。

この発明によれば、生成した拡張データの正当性を評価し、正当であると評価した拡張データを用いて情報抽出規則を学習するよう構成したので、拡張した正解データのうち、正当なものだけを使って学習することができる。

また、本発明は、上記発明において、利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする。

この発明によれば、利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、受け取った検索結果に含まれる文書から特定の情報を情報抽出規則に基づいて抽出するよう構成したので、全文検索エンジンと組み合わせることで様々な情報検索を行うことができる。

本発明によれば、正解データを自動的に増やして学習を行うので、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができるという効果を奏する。

また、本発明によれば、拡張した正解データのうち、正当なものだけを使って学習するので、確実に情報抽出の精度を向上することができるという効果を奏する。

また、本発明によれば、全文検索エンジンと組み合わせることで様々な情報検索を行うので、検索エンジンの機能を強化した情報検索装置を実現することができるという効果を奏する。

以下に添付図面を参照して、この発明に係る情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法の好適な実施例を詳細に説明する。

まず、本実施例１に係る情報抽出装置の構成について説明する。図１は、本実施例１に係る情報抽出装置の構成を示す機能ブロック図である。同図に示すように、この情報抽出装置１００は、正解データ記憶部１１０と、拡張対象選択部１２０と、正解拡張部１３０と、妥当性判別部１４０と、規則学習部１５０と、規則記憶部１６０と、抽出部１７０と、強調表示部１８０と、評価データ記憶部１９０とを有する。

正解データ記憶部１１０は、機械学習に用いる正解データを記憶する記憶部である。図２は、正解データ記憶部１１０が記憶する正解データ例を示す図である。同図は、「金額」などの数値表現や、「場所」、「人」、製品名といった「人工物」などの固有表現に関する情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。

例えば、「価格が＜金額＞２００円＜／金額＞に落ちた。」は、「金額」に関する情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。ここで、＜金額＞２００円＜／金額＞は、「２００円」が「金額」であることを表わす。このような正解データを用いることによって、「金額」に関する情報をテキストから抽出する情報抽出規則を作成することができる。

図３は、正解データ記憶部１１０が記憶する正解データの他の例を示す図である。同図は、「人」と「組織」の「関係」についての情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。

この正解データは、「太郎」と「バスケット部」に対して「所属」が、「人」と「組織」の「関係」であることを表わす。このような正解データを用いることによって、「人」と「組織」の「関係」についての情報をテキストから抽出する情報抽出規則を作成することができる。

拡張対象選択部１２０は、拡張の対象となる正解データを正解データ記憶部１１０から選択する処理部であり、正解データをランダムに選択する場合と全てを選択する場合とがある。

正解拡張部１３０は、拡張対象選択部１２０によって選択された正解データを拡張して新たな正解データである拡張データを作成する処理部である。この正解拡張部１３０が、正解データを拡張して拡張データを作成することによって、正解データを作成する負担を軽減することができる。なお、この正解拡張部１３０による正解データ拡張処理の詳細については後述する。

妥当性判別部１４０は、正解拡張部１３０により作成された拡張データが正当であるか否かを判定し、正当であると判定した場合に、その拡張データを正解データ記憶部１１０に追加する処理部である。

具体的には、この妥当性判別部１４０は、拡張データを正解データに追加して学習を行い、学習した規則をテストデータで評価し、評価結果が拡張データを追加する前の評価結果より高い場合には、拡張データを正当であると判定する。

なお、拡張データが正当であるか否かの判定は、拡張データを用いてＷｅｂページや社内文書など大量の文書を検索し、検索した結果の数に基づいて行うこともできる。すなわち、検索結果の数が多い場合には、拡張データが頻繁に使われていることから、拡張データが正当であると判定することができる。

この妥当性判別部１４０が、拡張データが正当であるか否かを判定し、正当であると判定した拡張データだけを正解データとすることによって、誤ったデータが学習に用いられることを防ぎ、学習の精度を向上することができる。

規則学習部１５０は、正解データ記憶部１１０に記憶された正解データを用いて学習を行い、情報抽出規則を作成する処理部である。この規則学習部１５０による学習は、正解データのバリエーションが多いほど良い結果が得られる。したがって、正解データを拡張してバリエーションを増やすことで、より良い情報抽出規則を得ることができる。

規則記憶部１６０は、規則学習部１５０により作成された情報抽出規則を記憶する記憶部である。図４は、規則記憶部１６０が記憶する情報抽出規則の例を示す図である。同図において、「金額表現の２つ前には"価格"が出現する」という情報抽出規則は、図２に示した「価格が＜金額＞２００円＜／金額＞に落ちた。」という正解データから機械学習によって得られる情報抽出規則である。

すなわち、「価格が２００円に落ちた。」という文を形態素解析すると、「価格（普通名詞）／が（格助詞）／２００（数値）／円（数詞接尾語）／に（格助詞）／落ち（一段動詞）／た（た終止連体形）／。（句点）」となり、＜金額＞２００円＜／金額＞の２つ前は"価格"であるため、「金額表現の２つ前には"価格"が出現する」という規則が得られる。

また、「"＜人＞だけ＜組織＞に"というパタンの後は＜関係語＞である」という情報抽出規則は、図３に示した「＜人 rel='1'＞太郎＜／人＞だけ＜組織 rel='1'＞バスケット部＜／組織＞に＜関係 rel='1'＞所属＜／関係＞している。」という正解データから機械学習によって得られる情報抽出規則の例である。関係を抽出する規則は、正解から、「<人>だけ<組織>に<関係>」のような関係を抽出するパタンを列挙し、統計情報を使って有効なものを規則とするといった方法で学習できる。また、３組みの関係を抽出するだけでなく、「<属性 at='1'>メロンパン</属性>といえば<人工物>マーおじさんのメロンパン</人工物>」のような正解からは、「<属性>とえいば<人工物>」といったある２組の情報を抽出する規則も獲得できる。

抽出部１７０は、特定の情報や関係をテキストから規則記憶部１６０に記憶された情報抽出規則を用いて抽出する処理部である。ここで、特定の情報としては、図２に示したような正解データが与えられる「金額」、「人」、「場所」などがあり、特定の関係としては、図３に示したような正解データが与えられる「人」と「組織」との「関係」などがある。

強調表示部１８０は、拡張された正解データのうちの拡張部分、情報抽出結果のうちの特定の情報の部分などを強調して表示する処理部である。強調手法としては、色、フォントおよびサイズの変更、アンダーラインや影付きによる装飾などがある。

評価データ記憶部１９０は、拡張データの正当性を評価する場合に使用されるテストデータおよび正解データ拡張処理の終了条件を記憶する記憶部である。ここで、正解データ拡張処理の終了条件としては、情報抽出の目標精度、正解データ拡張処理の繰り返し回数などがある。

次に、正解拡張部１３０による正解データ拡張処理の詳細について説明する。正解拡張部１３０は、語順操作、構文表現変換、特定表現変換などの操作によって正解データの拡張を行う。

図５は、語順操作による拡張例を示す図である。同図において、「価格が２００円に落ちた。」という正解データを構文解析した場合（構文解析器については、例えば、http://cl.aist-nara.ac.jp/taku-ku/software/cabcha/を参照。）、「価格が」と「２００円に」が係り元であり、「落ちた。」が係り先であるという解析結果が得られる。したがって、係り元である「価格が」と「２００円に」の順番を変更することによって、「２００円に価格が落ちた。」という拡張データを得ることができる。

ここで、正解データ「価格が２００円に落ちた。」からは「金額表現の２つ前には"価格"が出現する」という情報抽出規則が得られ、正解データ「２００円に価格が落ちた。」からは「金額表現の２つ後ろには"価格"が出現する」という情報抽出規則が得られる。したがって、このような語順操作により正解データを拡張することによって、新たな情報抽出規則を得ることができ、情報抽出の精度を向上することができる。

同様に、「文部省は３万円の値上げを決定。」という正解データの語順を変更することによって、「３万円の値上げを文部省は決定。」という拡張データが得られる。また、修飾語の一部を削除することによって、「３万円の値上げを決定。」あるいは「文部省は値上げを決定。」という拡張データが得られる。

図６は、構文表現変換による拡張例を示す図である。同図は、言い換え技術（言い換え技術については、例えば、言い換えシステム：http://cl.aist-nara-ac.jp/lab/kura/docを参照。）などを用いて、構文が異なる同義の文を作り出す例を示している。同図に示すように、「太郎は阿国歌舞伎しか演じない」という正解データに言い換え技術を適用することによって、「太郎は阿国歌舞伎であるならば演じる。」という拡張データを得ることができる。

他の例として、「<人 rel='1'>太郎</人>だけ<組織 rel='1'>バスケット部</組織>に<関係 rel='1'>所属</関係> している。」から，「<人 rel='1'>太郎</人>しか<組織 rel='2'>バスケット部</組織>に<関係 rel='2'>所属</関係>していない。」を拡張データとして得ることができる。

また、「太郎は警官に呼び止められた。」を「警官は太郎を呼び止めた。」に変換するように、能動文を受動文に変換したり、逆に、受動文を能動文に変換することによって正解データを拡張することもできる。

また、「彼は１０００円しか持っていない。」を「彼は１０００円であれば持っている。」に変換するように、限定的な意味を示す否定表現を肯定表現に変換したり、逆に、肯定表現を限定的な意味を示す否定表現に変換することによって、正解データを拡張することもできる。

また、「理由いかんでは許されない。」を「理由によっては許されない。」に変換するように、機能語相表現の変換によって、正解データを拡張することもできる。

また、英語の場合には、"He was called by police."を"Police called him"に変換するように、能動文を受動文に変換したり、逆に、受動文を能動文に変換することによって、日本語と同じように正解データを拡張することができる。また、"4th of July"を"July 4th."に変換するように名詞句を変換したり、"He is nothing but lazy."を"He is no more than lazy."に変換するように同義フレーズを変換したりすることもできる。

図７は、特定表現変換による拡張例を示す図である。同図に示すように、正解データ間で「人」や「場所」など同じ実体を持つものを入れ換えることによって、拡張データを得ることができる。この例では、「人」である「太郎」と「花子」を入れ換え、「場所」である「ハノイ」と「川崎」入れ換えることによって、拡張データとしている。

また、正解データに対して、同義語辞書や慣用句辞書などを用いて特定の表現を入れ換えることによって、拡張データを得ることができる。例えば、「釣堀へ足を運ぶ。」は慣用句辞書を用いて「釣堀へ行く。」と置き換えることができる。

また、「彼のバイト代は一万円だった。」を「彼のバイト代は10,000円だった。」に変換するように、漢数字からアラビア数字に変換したり、逆に、アラビア数字から漢数字に変換することよって、正解データを拡張することもできる。

また、「三月十八日の十三時より開始。」を「３／１８の１３：００より開始。」に変換するように、日付や時間の表現を他の表記法に変換することよって、正解データを拡張することもできる。

また、「部長に聞く。」を「部長に伺う。」に変換するように、謙譲語や尊敬語へ変換したり、逆に、謙譲語や尊敬語から通常の表現に変換することよって、正解データを拡張することもできる。

また、英語の場合には、"His salary is two thousands dollar per month."を"His salary is 2,000 dollar per month."に変換するように、数字表現からアラビア数字に変換したり、逆に、アラビア数字から数字表現に変換することによって、正解データを拡張することもできる。また、"Meeting will start at eleven p.m. on July fourth."を"Meeting will start at 11 o'clock on July 4th."に変換するように、日付や時間の表現を他の表記法に変換することよって、正解データを拡張することもできる。また、"Where did you get that hat?"を"Where did you come by that hat?"に変換するように、シソーラス（類語辞典）を用いて正解データを拡張することもできる。また、"Please send email A.S.A.P"を"Please send email as soon as possible"に変換するように、省略表記の復元や、逆に、省略表記への変換によって、正解データを拡張することもできる。

その他、機械翻訳技術を利用して、"<person>Taro</person> has a red pen."と「<person>太郎</person>は赤いペンを持っている。」との間の英日・日英変換のように、異なる言語への変換によって正解データを拡張することもできる。

次に、強調表示部１８０が情報抽出結果や正解データの変更点などを色付きで強調した表示例について説明する。図８は、強調表示部１８０が情報抽出結果を色付きで強調した表示例を示す図であり、図９は、強調表示部１８０が正解データの変更点を色付きで強調した表示例を示す図である。

図８において、抽出された情報「３月３０日に太郎は打ち合わせに参加する予定である。場所は、川崎市中原区。」のうち、「３月３０日」、「太郎」、「川崎市中原区」が、それぞれ抽出対象として指定された「日付」、「人」、「場所」に対応する情報であるため、色付きで表示される。なお、図８では、これらは、異なるハッチングで示されているが、実際の表示では色付きとなる。

図９では、変更前の正解データ「３月３０日に太郎は打ち合わせに参加する予定である。」に対して、変更後の拡張データは「太郎は３月３０日に打ち合わせに参加する予定である。」であり、「３月３０日」と「太郎」の順番が変更されているため、これらの語を色付きで表示している。なお、図８でも、これらは、異なるハッチングで示されているが、実際の表示では色付きとなる。

次に、本実施例１に係る情報抽出装置１００による正解データ拡張処理の処理手順について説明する。図１０は、本実施例１に係る情報抽出装置１００による正解データ拡張処理の処理手順を示すフローチャートである。なお、正解データ拡張処理を開始する前に、正解データ記憶部１１０には拡張前の正解データが格納され、評価データ記憶部１９０にはテストデータおよび正解データ拡張処理の終了条件が格納されているものとする。

同図に示すように、この情報抽出装置１００は、妥当性判定部１４０が規則学習部１５０に正解データ記憶部１１０に記憶された正解データを学習させ（ステップＳ１０１）、抽出部１７０にテストデータを使った情報抽出を実行させて結果を評価し、評価のベースラインとする（ステップＳ１０２）。

そして、拡張対象選択部１２０が正解データ記憶部１１０から拡張する正解データを選択し、正解拡張部１３０が正解データを拡張して拡張データを生成する（ステップＳ１０３）。ここで、正解拡張部１３０は、どのように正解データを拡張するかを、拡張手法の優先度、拡張データ数などに基づいて決定する。

そして、妥当性判定部１４０が規則学習部１５０に拡張データと正解データを学習させ、抽出部１７０にテストデータを使って情報抽出を実行させて結果を評価する（ステップＳ１０４）。

そして、妥当性判定部１４０は、評価結果がベースラインより良いか否かを比較し（ステップＳ１０５）、ベースラインより良い場合には、ベースラインを評価結果で更新し、拡張データを正解データに追加する（ステップＳ１０６）。

そして、終了条件を満たすか否かを判定し（ステップＳ１０７）、終了条件を満たさない場合には、ステップＳ１０３に戻って正解データの拡張を繰り返し、終了条件を満たす場合には、処理を終了する。

一方、評価結果がベースラインより良くない場合には、拡張データがあるか否かを判定し（ステップＳ１０８）、拡張データがある場合には、拡張データの一部を削除し（ステップＳ１０９）、ステップＳ１０４に戻る。ここで、削除する拡張データは、ランダムに選択してもよいし、拡張データの重複度合などに基づいて選択してもよい。

このように、正解拡張部１３０が正解データを拡張し、妥当性判定部１４０が拡張データの正当性をベースラインを用いて判定し、ベースラインが改善される場合に拡張データを正解データとすることによって、情報抽出装置１００の情報抽出精度を向上することができる。

次に、本実施例１に係る情報抽出装置１００を用いた実験結果について説明する。この実験では、IREXというコンテストの固有表現抽出タスクのデータを利用した(http://www.csl.sony.co.jp/person/sekine/IREX/)。正解データとしては、予備試験(dryrun)のデータ、評価データとしては、本試験の総合課題(general)のデータを用いた。正解データの拡張は、構文解析の結果を使い語順操作する方法で行った。学習アルゴリズムは、BoostingおよびＳＶＭを用いた。

ここで、Boostingは、DecisionStumps（深さ１の決定木）を弱学習器とするものを利用した。その結果、Boostingでは、抽出精度が６０．７％から６４．１％に上昇するという結果が得られた。また、ＳＶＭでは、２次のpolynomial kernelで実験したところ、抽出精度が７０．３％から７０．６％へ上昇するという結果が得られた。このように、本実施例１に係る情報抽出装置１００では、学習アルゴリズムに依存せずに情報の抽出精度を向上することができた。

上述してきたように、本実施例１では、拡張対象選択部１２０が拡張する正解データを正解データ記憶部１１０から選択し、正解拡張部１３０が正解データを拡張して拡張データを生成し、妥当性判定部１４０が規則学習部１５０に拡張データと正解データを学習させ、抽出部１７０にテストデータを使って情報抽出を実行させて結果を評価し、評価結果が拡張データの追加前に比べて良くなった場合には、拡張データを正解データとすることとしたので、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる。

なお、本実施例１では、正解データを拡張し、拡張した正解データに基づいて情報抽出を行う情報抽出装置について説明したが、本発明はこれに限定されるものではなく、正解データの拡張を行い、拡張した正解データに基づいて情報抽出規則の生成までを行って情報抽出装置の作成を支援する場合にも同様に適用することができる。

また、本実施例１では、正解データを学習して情報抽出用規則を作成し、作成した情報抽出規則に基づいて情報抽出を行う情報抽出装置について説明したが、本発明はこれに限定されるものではなく、機械学習を利用する他の言語処理技術応用装置にも同様に適用することができる。

また、本実施例１では、情報抽出装置について説明したが、この情報抽出装置が有する構成をソフトウェアによって実現することで、同様の機能を有する情報抽出プログラムを得ることができる。そこで、この情報抽出プログラムを実行するコンピュータシステムについて説明する。

図１１は、本実施例１に係る情報抽出プログラムを実行するコンピュータシステムを示す図である。同図に示すように、このコンピュータシステム２００は、本体部２０１と、本体部２０１からの指示により表示画面２０２ａに情報を表示するディスプレイ２０２と、このコンピュータシステム２００に種々の情報を入力するためのキーボード２０３と、ディスプレイ２０２の表示画面２０２ａ上の任意の位置を指定するマウス２０４と、ＬＡＮ２０６または広域エリアネットワーク（ＷＡＮ）に接続するＬＡＮインタフェースと、公衆回線２０７に接続するモデムとを有する。ここで、ＬＡＮ２０６は、他のコンピュータシステム（ＰＣ）２１１、サーバ２１２、プリンタ２１３などとコンピュータシステム２００とを接続している。

また、図１２は、図１１に示した本体部２０１の構成を示す機能ブロック図である。同図に示すように、この本体部２０１は、ＣＰＵ２２１と、ＲＡＭ２２２と、ＲＯＭ２２３と、ハードディスクドライブ（ＨＤＤ）２２４と、ＣＤ−ＲＯＭドライブ２２５と、ＦＤドライブ２２６と、Ｉ／Ｏインタフェース２２７と、ＬＡＮインタフェース２２８と、モデム２２９とを有する。

そして、このコンピュータシステム２００において実行される情報抽出プログラムは、フロッピィディスク（ＦＤ）２０８、ＣＤ−ＲＯＭ２０９、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの可搬型記憶媒体に記憶され、これらの記憶媒体から読み出されてコンピュータシステム２００にインストールされる。

あるいは、この情報抽出プログラムは、ＬＡＮインタフェース２２８を介して接続されたサーバ２１２のデータベース、他のコンピュータシステム（ＰＣ）２１１のデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータシステム２００にインストールされる。

そして、インストールされた情報抽出プログラムは、ＨＤＤ２２４に記憶され、ＲＡＭ２２２、ＲＯＭ２２３などを利用してＣＰＵ２２１により実行される。

ところで、上記実施例１では、情報抽出装置について説明したが、実施例１に示した情報抽出装置を検索装置と組み合わせることによって、様々な情報検索が可能な情報検索装置を構成することができる。そこで、本実施例２では、検索装置による検索結果に対して情報抽出を行うことによって情報検索を行う情報検索装置について説明する。

まず、本実施例２に係る情報検索装置による情報検索について説明する。本実施例２に係る情報検索装置は以下のような情報検索を行うことができる。
（１）検索語が検索結果文書中で使用されている意味に基づく情報検索
複数の意味を持つ語による検索では、目的の情報を見つけるのが困難な場合がある。例えば、「宮崎」という単語は、宮崎さんのような場合は「人」、宮崎県であれば「場所」、宮崎県庁であれば「組織」と、文脈によって複数の意味を持つ。したがって、複数の意味を持つ語による検索では、「場所」の「宮崎」に関する情報を調べたい場合でも、「人」の「宮崎」の文書が検索結果として戻ってくるという場合がある。

このような場合に、本実施例２に係る情報検索装置は、検索結果の文書から「人」や「場所」などの情報抽出を行うことによって、検索語についての意味・用法を判別することができ、例えば、「場所」の「宮崎」に関する情報だけを検索結果として表示することができる。また、「宮崎が場所として使われている文書１０件、人として使われている文書２０件、組織として使われている文書３０件」といった検索結果を出力することもできる。

（２）ある検索語による検索結果を情報抽出結果により分類する情報検索
検索語だけによる検索では検索結果が大量になり、目的の文書を見つけることが困難な場合がある。例えば、「各社のノートパソコンの新製品情報」について検索したい場合、「ノートパソコン」という検索語だけでは、電器店での販売価格のようなノートパソコンに関する様々な情報が含まれているために、各社の新製品情報といったある観点での文書を効率良く見つけることはできない。

このような場合に、本実施例２に係る情報検索装置は、たとえば、検索語「ノートパソコン」による検索結果の文書中の「会社Ａはノートパソコンの新製品の販売を開始」のような文から、「会社Ａ」の「ノートパソコンの新製品」について述べているといった情報を抽出し、その結果を分類として与えることで、「”会社Ａの新製品”に関する文書は１０件、”会社Ｂの新製品”については２０件、・・・」といった分類結果別に文書を表示・閲覧することができる。

（３）検索語に関連する情報抽出結果を分類とする情報検索
「メロンパン」のように複数の種類があるものについて調べたいときに、本実施例２に係る情報検索装置は、検索語「メロンパン」による検索結果中の、「宮崎のメロンパンといえば“マーおじさんのデカメロンパン”・・・」といったような文から、「マーおじさんのデカメロンパン」のような、検索語「メロンパン」を属性とする「マーおじさんのデカメロンパン、富良野メロンパン、・・・」といった結果を分類として与えることで、「“マーおじさんのデカメロンパン”については１０件、“富良野メロンパン”については２０件、・・・」といった分類結果別に文書を表示・閲覧することができる。

（４）検索語による検索結果から抽出した情報に基づいて順序付けを行う情報検索
商品の多くは、同一のものであっても、販売しているお店によって価格が異なる。このような場合、本実施例２に係る情報検索装置を使うことで、検索語による検索結果を価格によって順序付けすることができる。

例えば、「メロンパン」についてＷｅｂ検索した場合、「メロンパンの金額」に関する情報を抽出することによって、「メロンパンの金額で順序付け」する検索を行うことができる。また、「１００円以下のメロンパン」などの指定を加えることで、検索結果の絞込みを行うこともできる。また、メロンパンの種類である「富良野メロンパン」、「マーおじさんのデカメロンパン」のように、数値表現以外の情報についても、評判情報のような何かしらの順位情報を利用することによって、順序付けを行うことができる。

（５）検索語による検索結果から外部情報に関連する情報を抽出する情報検索
本実施例２に係る情報検索装置は、個人が頻繁に検索する語や訪問するページなどの外部情報を用いて、検索語による検索結果から情報を抽出し検索結果とすることができる。具体的には、外部情報として、「この人がよく検索する語は”メロンパン”」などの検索ログ情報や、「この人が訪れるページには”メロンパン”が頻繁に出現する」などの訪問ページからの情報抽出結果などの個人プロファイルを用いる。

例えば、宮崎に旅行する人が「宮崎」という検索語で検索した場合に、外部情報として「この人がよく検索する語は”メロンパン”」という個人プロファイルがあると、検索結果から「マーおじさんのデカメロンパン」といったメロンパンに関係する情報を抽出し、検索結果として返すことができる。また、外部情報として、「新番組」、「新製品」「新規オープン情報」などのトレンド情報があれば、たとえば、「渋谷」について検索した文書から、「渋谷に新規オープンしたお店」のようなトレンドに関する情報を抽出するといったこともできる。

個人プロファイルは、個人の検索ログのカウントや、訪問したページからの情報抽出結果などを用いて作成することができる。また、音声認識装置を使って個人の発話を記録し、記録内容から情報抽出を行って頻繁に使用されるキーワードを抽出して作成することもできる。

その他、携帯電話のＧＰＳ機能などによって得られる位置情報などを個人プロファイルとして利用することもできる。また、トレンド情報は、検索サイトのログや各サイトのリリースページからの情報抽出によって作成することができる。

また、個人プロファイルにあらかじめ「最寄り駅」、「趣味」などを登録して利用することもできる。このような個人プロファイルを利用すると、例えば、「お寿司屋」という検索語で検索して得られた文書を「最寄り駅」に近いお店が出現する順に検索結果として出力することができる。ここで、「最寄り駅（場所）」と、検索して得られた文書に含まれる「場所」との間の近さでの順序付けは、辞書やシソーラスとして定義することができる。

また、個人プロファイルに「趣味はサッカー」という情報を登録してあれば、検索結果中の「川崎フロンターレのサッカーの試合は等々力競技場であります。」のような文からの情報抽出結果をもとに、「川崎フロンターレ」「等々力競技場」などの「サッカー」に関する情報だけを抽出するといったこともできる。また、個人プロファイルに年齢に関する情報を登録してあれば、Ｗｅｂページの検索結果から年齢制限についての情報を抽出し、排除するなど、情報フィルタリングの使い方もできる。

（６）検索語による検索結果を検索対象の属性や関係によって比較する情報検索
本実施例２に係る情報検索装置は、検索したいものの属性や関係に関する情報を抽出し、抽出した情報を用いて比較を行った結果を検索結果として出力する。例えば、「ノートＰＣ」を検索語とする検索において、「製品名」や「重さ」、「画面サイズ」などの属性を抽出し、「画面サイズ」と「重さ」のような情報で比較することで「画面サイズが一番大きいもので一番軽いノートＰＣ」を検索結果として表示することができる。

（７）情報抽出結果を要約して表示する情報検索
本実施例２に係る情報検索装置は、検索結果から特定の表現（固有表現）や関係についての情報を抽出し、抽出した情報についての集計結果を表にまとめて要約として提示することができる。例えば、「日本ダービ」を検索語として検索した場合、検索されたページから「開催日：２００４年５月３０日」、「出走時間：１５時４０分」、「会場：東京競馬場」などの情報を抽出し、表にまとめた結果を要約として表示する。ここで、要約の作成は、たとえば、検索語と抽出情報についての共起情報を使って行うことができる。また、表の代わりに、文書生成技術を組み合わせれば、要約文書を作成することもできる。

（８）検索語による検索結果から検索語に関係する特定の情報だけを抽出する情報検索
本実施例２に係る情報検索装置は、検索語に関係ある特定の種別のキーワードだけを検索して表示することができる。例えば、「等々力競技場」に関係する”場所”を「等々力競技場」の検索結果から抽出し、「神奈川県川崎市中原区」や「武蔵小杉駅」のような場所だけを検索結果として表示することができる。

次に、本実施例２に係る情報検索装置の構成について説明する。図１３は、本実施例２に係る情報検索装置の構成を示す機能ブロック図である。同図に示すように、この情報検索装置１０は、検索エンジン３００と情報抽出装置４００とから構成される。なお、ここでは説明の便宜上、図１に示した情報抽出装置１００の各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。

検索エンジン３００は、利用者から検索語を受け付け、受け付けた検索語を含むインターネット上のページの一覧を生成する処理部であり、生成した一覧情報を検索結果として情報抽出装置４００に渡す。

情報抽出装置４００は、図１に示した情報抽出装置１００が有する機能部に加えて外部情報記憶部４８０を有し、また、抽出部１７０の代わりに抽出部４７０を有する。外部情報記憶部４８０は個人プロファイルやトレンド情報などの外部情報を記憶する記憶部である。

抽出部４７０は、検索エンジン３００から検索結果を受け取り、利用者や外部情報によって指定された情報を検索結果から抽出して出力する処理部である。すなわち、この抽出部４７０は、検索語が検索結果の文書中で使用されている意味に基づく検索などの情報検索を行う。

この抽出部４７０が、検索エンジン３００の検索結果から利用者や外部情報によって指定された情報を検索結果から抽出することによって、情報検索装置１０は様々な情報検索を行うことができる。

上述してきたように、本実施例２では、情報抽出装置４００を検索エンジン３００と組み合わせ、検索エンジン３００による検索によって得られた文書から外部情報記憶部４８０に記憶された外部情報などを用いて情報を抽出することとしたので、様々な情報検索を行うことができる。

なお、本実施例２では、一つの検索エンジンを情報抽出装置と組み合わせる場合について説明したが、複数の検索エンジン、ポータルサイトを情報抽出装置と組み合わせることもできる。すなわち、複数の検索エンジン、ポータルサイトでの検索結果から抽出した情報を統合して表示する情報検索装置を実現することもできる。

例えば、「メロンパン」という検索語による複数の検索エンジン、ポータルサイトでの検索結果から「富良野メロンパン」や「マーおじさんのデカメロンパン」といった情報を抽出した場合に、「検索エンジンＡでは富良野メロンパンについて二件」、「検索エンジンＢでは富良野メロンパンについて三件」といった情報が得られる。そこで、「メロンパンというキーワードを含む文書で、”富良野メロンパン”というキーワードを含む文書は５件」というように、抽出した情報に基づいて複数の検索結果を統合する情報検索装置を実現することもできる。

また、検索エンジンの検索結果から情報を抽出する代わりに、利用者が閲覧中のページから情報を抽出し、抽出した情報に基づいて動的検索を行う情報検索装置を実現することもできる。例えば、ある一定時間内に閲覧したページ中に「メロンパン」という単語が頻出したなどの情報抽出結果を使って、次に閲覧するページを自動的に検索して提示するような動的検索を実現することができる。

また、検索エンジンの中に情報抽出装置を組み込み、インデックス作成時などに情報抽出を実施し、情報抽出された結果に対して検索を行う情報検索装置を実現することもできる。

また、本実施例２に係る情報検索装置が提供する様々な情報検索機能を組み合わせた情報検索を行う情報検索装置を実現することもできる。

また、本実施例２では、検索エンジンと情報抽出装置を組み合わせた情報検索装置について説明したが、情報抽出装置や検索エンジンをソフトウェアによって実現することもできる。この場合、情報抽出プログラムと検索エンジンプログラムを同一のコンピュータで実行することもできるが、例えば、情報抽出プログラムはプロキシサーバで実行するなど、情報抽出プログラムと検索エンジンプログラムを異なるコンピュータで実行することもできる。また、情報抽出プログラムをブラウザに組み込み、検索結果をネットワーク経由で受信したクライアントで情報抽出を行って表示することもできる。

（付記１）正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。

（付記２）前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする付記１に記載の情報抽出プログラム。

（付記３）正解データを表示する場合に、前記拡張データと拡張に使われた正解データとの相違を強調して表示する強調表示手順をさらにコンピュータに実行させることを特徴とする付記１または２に記載の情報抽出プログラム。

（付記４）前記正解データは文であり、
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする付記１、２または３に記載の情報抽出プログラム。

（付記５）前記正解データは文であり、
前記正解拡張手順は、文の修飾語を削除することによって正解データを拡張することを特徴とする付記１、２または３に記載の情報抽出プログラム。

（付記６）前記正解データは文であり、
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする付記１、２または３に記載の情報抽出プログラム。

（付記７）前記正解拡張手順は、受動態の文と能動態の文を相互に言い換えることによって正解データを拡張することを特徴とする付記６に記載の情報抽出プログラム。

（付記８）前記正解データは文であり、
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする付記１、２または３に記載の情報抽出プログラム。

（付記９）前記正解拡張手順は、同義語辞書を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記８に記載の情報抽出プログラム。

（付記１０）前記正解拡張手順は、慣用句辞書を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記８に記載の情報抽出プログラム。

（付記１１）前記正解拡張手順は、尊敬語および謙譲語を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記８に記載の情報抽出プログラム。

（付記１２）前記正当性評価手順は、前記正解拡張手順により生成された拡張データを追加して学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価することを特徴とする付記２に記載の情報抽出プログラム。

（付記１３）前記正当性評価手順は、前記正解拡張手順により生成された拡張データを用いてＷｅｂページを検索し、検索結果の数に基づいて前記正当性を評価することを特徴とする付記２に記載の情報抽出プログラム。

（付記１４）前記規則学習手順は、人名をテキストから抽出する情報抽出規則を学習することを特徴とする付記１または２に記載の情報抽出プログラム。

（付記１５）前記規則学習手順は、テキストから所定の関係を抽出する情報抽出規則を学習することを特徴とする付記１または２に記載の情報抽出プログラム。

（付記１６）正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１７）正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。

（付記１８）正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を学習する規則学習工程と、
を含んだことを特徴とする情報抽出方法。

（付記１９）テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。

（付記２０）前記正解拡張工程により生成された拡張データの正当性を評価する正当性評価工程をさらに含み、
前記規則作成工程は、前記正当性評価工程により正当であると評価された拡張データを用いて情報抽出規則を作成することを特徴とする付記１９に記載の情報抽出規則作成方法。

（付記２１）利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする付記１に記載の情報抽出プログラム。

（付記２２）前記情報抽出手順は、外部情報として指定された情報および前記情報抽出規則に基づいて前記検索結果に含まれる文書から特定の情報を抽出することを特徴とする付記２１に記載の情報抽出プログラム。

以上のように、本発明に係る情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法は、テキストから特定の情報を自動抽出する場合に有用であり、特に、機械学習を用いて情報抽出規則を作成し、作成した情報抽出規則を用いて情報を抽出する場合に適している。

本実施例１に係る情報抽出装置の構成を示す機能ブロック図である。正解データ記憶部が記憶する正解データ例を示す図である。正解データ記憶部が記憶する正解データの他の例を示す図である。規則記憶部が記憶する情報抽出規則の例を示す図である。語順操作による拡張例を示す図である。構文表現変換による拡張例を示す図である。特定表現変換による拡張例を示す図である。強調表示部が情報抽出結果を色付きで強調した表示例を示す図である。強調表示部が正解データの変更点を色付きで強調した表示例を示す図である。本実施例１に係る情報抽出装置による正解データ拡張処理の処理手順を示すフローチャートである。本実施例１に係る情報抽出プログラムを実行するコンピュータシステムを示す図である。図１１に示した本体部の構成を示す機能ブロック図である。本実施例２に係る情報検索装置の構成を示す機能ブロック図である。

符号の説明

１０情報検索装置
１００，４００情報抽出装置
１１０正解データ記憶部
１２０拡張対象選択部
１３０正解拡張部
１４０妥当性判別部
１５０規則学習部
１６０規則記憶部
１７０，４７０抽出部
１８０強調表示部
１９０評価データ記憶部
２００，２１１コンピュータシステム
２０１本体部
２０２ディスプレイ
２０２ａ表示画面
２０３キーボード
２０４マウス
２０６ＬＡＮ
２０７公衆回線
２０８フロッピィディスク
２０９ＣＤ−ＲＯＭ
２１２サーバ
２１３プリンタ
２２１ＣＰＵ
２２２ＲＡＭ
２２３ＲＯＭ
２２４ハードディスクドライブ
２２５ＣＤ−ＲＯＭドライブ
２２６フロッピィディスクドライブ
２２７Ｉ／Ｏインタフェース
２２８ＬＡＮインタフェース
２２９モデム
３００検索エンジン
４８０外部情報記憶部

Claims

正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。
前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする請求項１に記載の情報抽出プログラム。
前記正解データは文であり、
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする請求項１または２に記載の情報抽出プログラム。
前記正解データは文であり、
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする請求項１または２に記載の情報抽出プログラム。
前記正解データは文であり、
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする請求項１または２に記載の情報抽出プログラム。
前記正当性評価手順は、前記正解拡張手順により生成された拡張データを追加して学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価することを特徴とする請求項２に記載の情報抽出プログラム。
正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。
テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。
利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項１に記載の情報抽出プログラム。