JP2006004399A - 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 - Google Patents

情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 Download PDF

Info

Publication number
JP2006004399A
JP2006004399A JP2005009322A JP2005009322A JP2006004399A JP 2006004399 A JP2006004399 A JP 2006004399A JP 2005009322 A JP2005009322 A JP 2005009322A JP 2005009322 A JP2005009322 A JP 2005009322A JP 2006004399 A JP2006004399 A JP 2006004399A
Authority
JP
Japan
Prior art keywords
information extraction
data
correct answer
information
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005009322A
Other languages
English (en)
Other versions
JP4347226B2 (ja
Inventor
Tomoya Iwakura
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005009322A priority Critical patent/JP4347226B2/ja
Publication of JP2006004399A publication Critical patent/JP2006004399A/ja
Application granted granted Critical
Publication of JP4347226B2 publication Critical patent/JP4347226B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置で、正解データの作成負担を軽減し、情報抽出精度を向上すること。
【解決手段】拡張対象選択部120が正解データ記憶部110から拡張する正解データを選択し、正解拡張部130が正解データを拡張して拡張データを生成し、妥当性判定部140が規則学習部150に拡張データと正解データを学習させ、抽出部170にテストデータを使って情報抽出を実行させて結果を評価し、評価結果が拡張データの追加前に比べて良くなった場合には、拡張データを正解データとするよう構成する。
【選択図】 図1

Description

この発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法に関し、特に、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法に関するものである。
情報抽出規則を用いてテキストから特定情報を抽出する情報抽出装置(情報抽出プログラム)では、情報抽出規則を作成する手法の一つとして、機械学習がある(例えば、非特許文献1参照。)。
機械学習では、正解データのバリエーションが多いほど良い結果が得られることから、情報抽出精度を向上するためには、正解データのバリエーションを多く作成することが重要になる。ここで、機械学習としては、決定木、Support Vector Machines(SVM)、Boostingなどの手法がある。
決定木とは、与えられた特徴(条件)に基づき、その特徴から答え(その特徴を持つものはどのクラスに属するか、または、ある特定クラスに属する確率)を導く規則を木で表現したものである。ここでいう木とは、二分木とか探索木といわれる木であり、木の根から節点ごとにどの条件ならどちらにたどるべきかが分かるようにしてあって、葉にたどり着くと答えが得られることを利用したものである(例えば、非特許文献2参照。)。
SVMとは、訓練データを正例と負例とに分け、かつ、正負例間のマージンが最大となるような超平面を求める学習機である。この超平面は、構造的リスク最小化という概念のもとで最適解が得られることを利用したものである(例えば、非特許文献3参照。)。
Boostingとは、逐次弱学習器を構築し、それらの重み付き多数決によって、最終的な分類器を構成する手法である。弱学習器には、上記の決定木などが用いられる(例えば、非特許文献4参照。)。
「日本語固有表現抽出における冗長的な形態素解析の利用」、[平成16年5月12日検索]、インターネット<URL:http://chasen.aist-nara.ac.jp/~masayu-a/article/asahara-signl-153.pdf> J. Ross Quinlan著、「C4.5: Programs for Machine Learning」、Morgan Kaufmann Pub.、1993年12月1日 Nello Cristianini and John Shawe-Taylor著、「An Introduction to Support Vector Machines: And other Kernel-Based Learning Method」、2000年3月23日 R.E. Scapire and Y. Singer著、「BoosTexter: A boosting-based system for text categorization」、Machine Learning、39(2/3):135-168、May/June 2000(URL:http://www.boosting.org/papers/SchSin00c.pdf)
しかしながら、情報抽出精度を向上するために、正解データのバリエーションを多く作成しようとすると、作成コストが大きくなるという問題がある。また、単に正解データのバリエーションを増やすだけでは、不適当な正解データがある場合に、情報抽出精度を向上することができないという問題もある。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とする。
また、本発明は、正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、を備えたことを特徴とする。
また、本発明は、テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、を含んだことを特徴とする。
かかる発明によれば、正解データを拡張して新たな正解データである拡張データを生成し、生成した拡張データを用いて情報抽出規則を作成するよう構成したので、正解データを自動的に増やして学習を行うことができる。
また、本発明は、上記発明において、前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする。
この発明によれば、生成した拡張データの正当性を評価し、正当であると評価した拡張データを用いて情報抽出規則を学習するよう構成したので、拡張した正解データのうち、正当なものだけを使って学習することができる。
また、本発明は、上記発明において、利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする。
この発明によれば、利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、受け取った検索結果に含まれる文書から特定の情報を情報抽出規則に基づいて抽出するよう構成したので、全文検索エンジンと組み合わせることで様々な情報検索を行うことができる。
本発明によれば、正解データを自動的に増やして学習を行うので、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができるという効果を奏する。
また、本発明によれば、拡張した正解データのうち、正当なものだけを使って学習するので、確実に情報抽出の精度を向上することができるという効果を奏する。
また、本発明によれば、全文検索エンジンと組み合わせることで様々な情報検索を行うので、検索エンジンの機能を強化した情報検索装置を実現することができるという効果を奏する。
以下に添付図面を参照して、この発明に係る情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法の好適な実施例を詳細に説明する。
まず、本実施例1に係る情報抽出装置の構成について説明する。図1は、本実施例1に係る情報抽出装置の構成を示す機能ブロック図である。同図に示すように、この情報抽出装置100は、正解データ記憶部110と、拡張対象選択部120と、正解拡張部130と、妥当性判別部140と、規則学習部150と、規則記憶部160と、抽出部170と、強調表示部180と、評価データ記憶部190とを有する。
正解データ記憶部110は、機械学習に用いる正解データを記憶する記憶部である。図2は、正解データ記憶部110が記憶する正解データ例を示す図である。同図は、「金額」などの数値表現や、「場所」、「人」、製品名といった「人工物」などの固有表現に関する情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。
例えば、「価格が<金額>200円</金額>に落ちた。」は、「金額」に関する情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。ここで、<金額>200円</金額>は、「200円」が「金額」であることを表わす。このような正解データを用いることによって、「金額」に関する情報をテキストから抽出する情報抽出規則を作成することができる。
図3は、正解データ記憶部110が記憶する正解データの他の例を示す図である。同図は、「人」と「組織」の「関係」についての情報をテキストから抽出する情報抽出規則を作成する場合に用いる正解データである。
この正解データは、「太郎」と「バスケット部」に対して「所属」が、「人」と「組織」の「関係」であることを表わす。このような正解データを用いることによって、「人」と「組織」の「関係」についての情報をテキストから抽出する情報抽出規則を作成することができる。
拡張対象選択部120は、拡張の対象となる正解データを正解データ記憶部110から選択する処理部であり、正解データをランダムに選択する場合と全てを選択する場合とがある。
正解拡張部130は、拡張対象選択部120によって選択された正解データを拡張して新たな正解データである拡張データを作成する処理部である。この正解拡張部130が、正解データを拡張して拡張データを作成することによって、正解データを作成する負担を軽減することができる。なお、この正解拡張部130による正解データ拡張処理の詳細については後述する。
妥当性判別部140は、正解拡張部130により作成された拡張データが正当であるか否かを判定し、正当であると判定した場合に、その拡張データを正解データ記憶部110に追加する処理部である。
具体的には、この妥当性判別部140は、拡張データを正解データに追加して学習を行い、学習した規則をテストデータで評価し、評価結果が拡張データを追加する前の評価結果より高い場合には、拡張データを正当であると判定する。
なお、拡張データが正当であるか否かの判定は、拡張データを用いてWebページや社内文書など大量の文書を検索し、検索した結果の数に基づいて行うこともできる。すなわち、検索結果の数が多い場合には、拡張データが頻繁に使われていることから、拡張データが正当であると判定することができる。
この妥当性判別部140が、拡張データが正当であるか否かを判定し、正当であると判定した拡張データだけを正解データとすることによって、誤ったデータが学習に用いられることを防ぎ、学習の精度を向上することができる。
規則学習部150は、正解データ記憶部110に記憶された正解データを用いて学習を行い、情報抽出規則を作成する処理部である。この規則学習部150による学習は、正解データのバリエーションが多いほど良い結果が得られる。したがって、正解データを拡張してバリエーションを増やすことで、より良い情報抽出規則を得ることができる。
規則記憶部160は、規則学習部150により作成された情報抽出規則を記憶する記憶部である。図4は、規則記憶部160が記憶する情報抽出規則の例を示す図である。同図において、「金額表現の2つ前には"価格"が出現する」という情報抽出規則は、図2に示した「価格が<金額>200円</金額>に落ちた。」という正解データから機械学習によって得られる情報抽出規則である。
すなわち、「価格が200円に落ちた。」という文を形態素解析すると、「価格(普通名詞)/が(格助詞)/200(数値)/円(数詞接尾語)/に(格助詞)/落ち(一段動詞)/た(た終止連体形)/。(句点)」となり、<金額>200円</金額>の2つ前は"価格"であるため、「金額表現の2つ前には"価格"が出現する」という規則が得られる。
また、「"<人>だけ<組織>に"というパタンの後は<関係語>である」という情報抽出規則は、図3に示した「<人 rel='1'>太郎</人>だけ<組織 rel='1'>バスケット部</組織>に<関係 rel='1'>所属</関係>している。」という正解データから機械学習によって得られる情報抽出規則の例である。関係を抽出する規則は、正解から、「<人>だけ<組織>に<関係>」のような関係を抽出するパタンを列挙し、統計情報を使って有効なものを規則とするといった方法で学習できる。また、3組みの関係を抽出するだけでなく、「<属性 at='1'>メロンパン</属性>といえば<人工物>マーおじさんのメロンパン</人工物>」のような正解からは、「<属性>とえいば<人工物>」といったある2組の情報を抽出する規則も獲得できる。
抽出部170は、特定の情報や関係をテキストから規則記憶部160に記憶された情報抽出規則を用いて抽出する処理部である。ここで、特定の情報としては、図2に示したような正解データが与えられる「金額」、「人」、「場所」などがあり、特定の関係としては、図3に示したような正解データが与えられる「人」と「組織」との「関係」などがある。
強調表示部180は、拡張された正解データのうちの拡張部分、情報抽出結果のうちの特定の情報の部分などを強調して表示する処理部である。強調手法としては、色、フォントおよびサイズの変更、アンダーラインや影付きによる装飾などがある。
評価データ記憶部190は、拡張データの正当性を評価する場合に使用されるテストデータおよび正解データ拡張処理の終了条件を記憶する記憶部である。ここで、正解データ拡張処理の終了条件としては、情報抽出の目標精度、正解データ拡張処理の繰り返し回数などがある。
次に、正解拡張部130による正解データ拡張処理の詳細について説明する。正解拡張部130は、語順操作、構文表現変換、特定表現変換などの操作によって正解データの拡張を行う。
図5は、語順操作による拡張例を示す図である。同図において、「価格が200円に落ちた。」という正解データを構文解析した場合(構文解析器については、例えば、http://cl.aist-nara.ac.jp/taku-ku/software/cabcha/を参照。)、「価格が」と「200円に」が係り元であり、「落ちた。」が係り先であるという解析結果が得られる。したがって、係り元である「価格が」と「200円に」の順番を変更することによって、「200円に価格が落ちた。」という拡張データを得ることができる。
ここで、正解データ「価格が200円に落ちた。」からは「金額表現の2つ前には"価格"が出現する」という情報抽出規則が得られ、正解データ「200円に価格が落ちた。」からは「金額表現の2つ後ろには"価格"が出現する」という情報抽出規則が得られる。したがって、このような語順操作により正解データを拡張することによって、新たな情報抽出規則を得ることができ、情報抽出の精度を向上することができる。
同様に、「文部省は3万円の値上げを決定。」という正解データの語順を変更することによって、「3万円の値上げを文部省は決定。」という拡張データが得られる。また、修飾語の一部を削除することによって、「3万円の値上げを決定。」あるいは「文部省は値上げを決定。」という拡張データが得られる。
図6は、構文表現変換による拡張例を示す図である。同図は、言い換え技術(言い換え技術については、例えば、言い換えシステム:http://cl.aist-nara-ac.jp/lab/kura/docを参照。)などを用いて、構文が異なる同義の文を作り出す例を示している。同図に示すように、「太郎は阿国歌舞伎しか演じない」という正解データに言い換え技術を適用することによって、「太郎は阿国歌舞伎であるならば演じる。」という拡張データを得ることができる。
他の例として、「<人 rel='1'>太郎</人>だけ<組織 rel='1'>バスケット部</組織>に<関係 rel='1'>所属</関係> している。」から,「<人 rel='1'>太郎</人>しか<組織 rel='2'>バスケット部</組織>に<関係 rel='2'>所属</関係>していない。」を拡張データとして得ることができる。
また、「太郎は警官に呼び止められた。」を「警官は太郎を呼び止めた。」に変換するように、能動文を受動文に変換したり、逆に、受動文を能動文に変換することによって正解データを拡張することもできる。
また、「彼は1000円しか持っていない。」を「彼は1000円であれば持っている。」に変換するように、限定的な意味を示す否定表現を肯定表現に変換したり、逆に、肯定表現を限定的な意味を示す否定表現に変換することによって、正解データを拡張することもできる。
また、「理由いかんでは許されない。」を「理由によっては許されない。」に変換するように、機能語相表現の変換によって、正解データを拡張することもできる。
また、英語の場合には、"He was called by police."を"Police called him"に変換するように、能動文を受動文に変換したり、逆に、受動文を能動文に変換することによって、日本語と同じように正解データを拡張することができる。また、"4th of July"を"July 4th."に変換するように名詞句を変換したり、"He is nothing but lazy."を"He is no more than lazy."に変換するように同義フレーズを変換したりすることもできる。
図7は、特定表現変換による拡張例を示す図である。同図に示すように、正解データ間で「人」や「場所」など同じ実体を持つものを入れ換えることによって、拡張データを得ることができる。この例では、「人」である「太郎」と「花子」を入れ換え、「場所」である「ハノイ」と「川崎」入れ換えることによって、拡張データとしている。
また、正解データに対して、同義語辞書や慣用句辞書などを用いて特定の表現を入れ換えることによって、拡張データを得ることができる。例えば、「釣堀へ足を運ぶ。」は慣用句辞書を用いて「釣堀へ行く。」と置き換えることができる。
また、「彼のバイト代は一万円だった。」を「彼のバイト代は10,000円だった。」に変換するように、漢数字からアラビア数字に変換したり、逆に、アラビア数字から漢数字に変換することよって、正解データを拡張することもできる。
また、「三月十八日の十三時より開始。」を「3/18の13:00より開始。」に変換するように、日付や時間の表現を他の表記法に変換することよって、正解データを拡張することもできる。
また、「部長に聞く。」を「部長に伺う。」に変換するように、謙譲語や尊敬語へ変換したり、逆に、謙譲語や尊敬語から通常の表現に変換することよって、正解データを拡張することもできる。
また、英語の場合には、"His salary is two thousands dollar per month."を"His salary is 2,000 dollar per month."に変換するように、数字表現からアラビア数字に変換したり、逆に、アラビア数字から数字表現に変換することによって、正解データを拡張することもできる。また、"Meeting will start at eleven p.m. on July fourth."を"Meeting will start at 11 o'clock on July 4th."に変換するように、日付や時間の表現を他の表記法に変換することよって、正解データを拡張することもできる。また、"Where did you get that hat?"を"Where did you come by that hat?"に変換するように、シソーラス(類語辞典)を用いて正解データを拡張することもできる。また、"Please send email A.S.A.P"を"Please send email as soon as possible"に変換するように、省略表記の復元や、逆に、省略表記への変換によって、正解データを拡張することもできる。
その他、機械翻訳技術を利用して、"<person>Taro</person> has a red pen."と「<person>太郎</person>は赤いペンを持っている。」との間の英日・日英変換のように、異なる言語への変換によって正解データを拡張することもできる。
次に、強調表示部180が情報抽出結果や正解データの変更点などを色付きで強調した表示例について説明する。図8は、強調表示部180が情報抽出結果を色付きで強調した表示例を示す図であり、図9は、強調表示部180が正解データの変更点を色付きで強調した表示例を示す図である。
図8において、抽出された情報「3月30日に太郎は打ち合わせに参加する予定である。場所は、川崎市中原区。」のうち、「3月30日」、「太郎」、「川崎市中原区」が、それぞれ抽出対象として指定された「日付」、「人」、「場所」に対応する情報であるため、色付きで表示される。なお、図8では、これらは、異なるハッチングで示されているが、実際の表示では色付きとなる。
図9では、変更前の正解データ「3月30日に太郎は打ち合わせに参加する予定である。」に対して、変更後の拡張データは「太郎は3月30日に打ち合わせに参加する予定である。」であり、「3月30日」と「太郎」の順番が変更されているため、これらの語を色付きで表示している。なお、図8でも、これらは、異なるハッチングで示されているが、実際の表示では色付きとなる。
次に、本実施例1に係る情報抽出装置100による正解データ拡張処理の処理手順について説明する。図10は、本実施例1に係る情報抽出装置100による正解データ拡張処理の処理手順を示すフローチャートである。なお、正解データ拡張処理を開始する前に、正解データ記憶部110には拡張前の正解データが格納され、評価データ記憶部190にはテストデータおよび正解データ拡張処理の終了条件が格納されているものとする。
同図に示すように、この情報抽出装置100は、妥当性判定部140が規則学習部150に正解データ記憶部110に記憶された正解データを学習させ(ステップS101)、抽出部170にテストデータを使った情報抽出を実行させて結果を評価し、評価のベースラインとする(ステップS102)。
そして、拡張対象選択部120が正解データ記憶部110から拡張する正解データを選択し、正解拡張部130が正解データを拡張して拡張データを生成する(ステップS103)。ここで、正解拡張部130は、どのように正解データを拡張するかを、拡張手法の優先度、拡張データ数などに基づいて決定する。
そして、妥当性判定部140が規則学習部150に拡張データと正解データを学習させ、抽出部170にテストデータを使って情報抽出を実行させて結果を評価する(ステップS104)。
そして、妥当性判定部140は、評価結果がベースラインより良いか否かを比較し(ステップS105)、ベースラインより良い場合には、ベースラインを評価結果で更新し、拡張データを正解データに追加する(ステップS106)。
そして、終了条件を満たすか否かを判定し(ステップS107)、終了条件を満たさない場合には、ステップS103に戻って正解データの拡張を繰り返し、終了条件を満たす場合には、処理を終了する。
一方、評価結果がベースラインより良くない場合には、拡張データがあるか否かを判定し(ステップS108)、拡張データがある場合には、拡張データの一部を削除し(ステップS109)、ステップS104に戻る。ここで、削除する拡張データは、ランダムに選択してもよいし、拡張データの重複度合などに基づいて選択してもよい。
このように、正解拡張部130が正解データを拡張し、妥当性判定部140が拡張データの正当性をベースラインを用いて判定し、ベースラインが改善される場合に拡張データを正解データとすることによって、情報抽出装置100の情報抽出精度を向上することができる。
次に、本実施例1に係る情報抽出装置100を用いた実験結果について説明する。この実験では、IREXというコンテストの固有表現抽出タスクのデータを利用した(http://www.csl.sony.co.jp/person/sekine/IREX/)。正解データとしては、予備試験(dryrun)のデータ、評価データとしては、本試験の総合課題(general)のデータを用いた。正解データの拡張は、構文解析の結果を使い語順操作する方法で行った。学習アルゴリズムは、BoostingおよびSVMを用いた。
ここで、Boostingは、DecisionStumps(深さ1の決定木)を弱学習器とするものを利用した。その結果、Boostingでは、抽出精度が60.7%から64.1%に上昇するという結果が得られた。また、SVMでは、2次のpolynomial kernelで実験したところ、抽出精度が70.3%から70.6%へ上昇するという結果が得られた。このように、本実施例1に係る情報抽出装置100では、学習アルゴリズムに依存せずに情報の抽出精度を向上することができた。
上述してきたように、本実施例1では、拡張対象選択部120が拡張する正解データを正解データ記憶部110から選択し、正解拡張部130が正解データを拡張して拡張データを生成し、妥当性判定部140が規則学習部150に拡張データと正解データを学習させ、抽出部170にテストデータを使って情報抽出を実行させて結果を評価し、評価結果が拡張データの追加前に比べて良くなった場合には、拡張データを正解データとすることとしたので、正解データの作成負担を軽減するとともに、情報抽出の精度を向上することができる。
なお、本実施例1では、正解データを拡張し、拡張した正解データに基づいて情報抽出を行う情報抽出装置について説明したが、本発明はこれに限定されるものではなく、正解データの拡張を行い、拡張した正解データに基づいて情報抽出規則の生成までを行って情報抽出装置の作成を支援する場合にも同様に適用することができる。
また、本実施例1では、正解データを学習して情報抽出用規則を作成し、作成した情報抽出規則に基づいて情報抽出を行う情報抽出装置について説明したが、本発明はこれに限定されるものではなく、機械学習を利用する他の言語処理技術応用装置にも同様に適用することができる。
また、本実施例1では、情報抽出装置について説明したが、この情報抽出装置が有する構成をソフトウェアによって実現することで、同様の機能を有する情報抽出プログラムを得ることができる。そこで、この情報抽出プログラムを実行するコンピュータシステムについて説明する。
図11は、本実施例1に係る情報抽出プログラムを実行するコンピュータシステムを示す図である。同図に示すように、このコンピュータシステム200は、本体部201と、本体部201からの指示により表示画面202aに情報を表示するディスプレイ202と、このコンピュータシステム200に種々の情報を入力するためのキーボード203と、ディスプレイ202の表示画面202a上の任意の位置を指定するマウス204と、LAN206または広域エリアネットワーク(WAN)に接続するLANインタフェースと、公衆回線207に接続するモデムとを有する。ここで、LAN206は、他のコンピュータシステム(PC)211、サーバ212、プリンタ213などとコンピュータシステム200とを接続している。
また、図12は、図11に示した本体部201の構成を示す機能ブロック図である。同図に示すように、この本体部201は、CPU221と、RAM222と、ROM223と、ハードディスクドライブ(HDD)224と、CD−ROMドライブ225と、FDドライブ226と、I/Oインタフェース227と、LANインタフェース228と、モデム229とを有する。
そして、このコンピュータシステム200において実行される情報抽出プログラムは、フロッピィディスク(FD)208、CD−ROM209、DVDディスク、光磁気ディスク、ICカードなどの可搬型記憶媒体に記憶され、これらの記憶媒体から読み出されてコンピュータシステム200にインストールされる。
あるいは、この情報抽出プログラムは、LANインタフェース228を介して接続されたサーバ212のデータベース、他のコンピュータシステム(PC)211のデータベースなどに記憶され、これらのデータベースから読み出されてコンピュータシステム200にインストールされる。
そして、インストールされた情報抽出プログラムは、HDD224に記憶され、RAM222、ROM223などを利用してCPU221により実行される。
ところで、上記実施例1では、情報抽出装置について説明したが、実施例1に示した情報抽出装置を検索装置と組み合わせることによって、様々な情報検索が可能な情報検索装置を構成することができる。そこで、本実施例2では、検索装置による検索結果に対して情報抽出を行うことによって情報検索を行う情報検索装置について説明する。
まず、本実施例2に係る情報検索装置による情報検索について説明する。本実施例2に係る情報検索装置は以下のような情報検索を行うことができる。
(1)検索語が検索結果文書中で使用されている意味に基づく情報検索
複数の意味を持つ語による検索では、目的の情報を見つけるのが困難な場合がある。例えば、「宮崎」という単語は、宮崎さんのような場合は「人」、宮崎県であれば「場所」、宮崎県庁であれば「組織」と、文脈によって複数の意味を持つ。したがって、複数の意味を持つ語による検索では、「場所」の「宮崎」に関する情報を調べたい場合でも、「人」の「宮崎」の文書が検索結果として戻ってくるという場合がある。
このような場合に、本実施例2に係る情報検索装置は、検索結果の文書から「人」や「場所」などの情報抽出を行うことによって、検索語についての意味・用法を判別することができ、例えば、「場所」の「宮崎」に関する情報だけを検索結果として表示することができる。また、「宮崎が場所として使われている文書10件、人として使われている文書20件、組織として使われている文書30件」といった検索結果を出力することもできる。
(2)ある検索語による検索結果を情報抽出結果により分類する情報検索
検索語だけによる検索では検索結果が大量になり、目的の文書を見つけることが困難な場合がある。例えば、「各社のノートパソコンの新製品情報」について検索したい場合、「ノートパソコン」という検索語だけでは、電器店での販売価格のようなノートパソコンに関する様々な情報が含まれているために、各社の新製品情報といったある観点での文書を効率良く見つけることはできない。
このような場合に、本実施例2に係る情報検索装置は、たとえば、検索語「ノートパソコン」による検索結果の文書中の「会社Aはノートパソコンの新製品の販売を開始」のような文から、「会社A」の「ノートパソコンの新製品」について述べているといった情報を抽出し、その結果を分類として与えることで、「”会社Aの新製品”に関する文書は10件、”会社Bの新製品”については20件、・・・」といった分類結果別に文書を表示・閲覧することができる。
(3)検索語に関連する情報抽出結果を分類とする情報検索
「メロンパン」のように複数の種類があるものについて調べたいときに、本実施例2に係る情報検索装置は、検索語「メロンパン」による検索結果中の、「宮崎のメロンパンといえば“マーおじさんのデカメロンパン”・・・」といったような文から、「マーおじさんのデカメロンパン」のような、検索語「メロンパン」を属性とする「マーおじさんのデカメロンパン、富良野メロンパン、・・・」といった結果を分類として与えることで、「“マーおじさんのデカメロンパン”については10件、“富良野メロンパン”については20件、・・・」といった分類結果別に文書を表示・閲覧することができる。
(4)検索語による検索結果から抽出した情報に基づいて順序付けを行う情報検索
商品の多くは、同一のものであっても、販売しているお店によって価格が異なる。このような場合、本実施例2に係る情報検索装置を使うことで、検索語による検索結果を価格によって順序付けすることができる。
例えば、「メロンパン」についてWeb検索した場合、「メロンパンの金額」に関する情報を抽出することによって、「メロンパンの金額で順序付け」する検索を行うことができる。また、「100円以下のメロンパン」などの指定を加えることで、検索結果の絞込みを行うこともできる。また、メロンパンの種類である「富良野メロンパン」、「マーおじさんのデカメロンパン」のように、数値表現以外の情報についても、評判情報のような何かしらの順位情報を利用することによって、順序付けを行うことができる。
(5)検索語による検索結果から外部情報に関連する情報を抽出する情報検索
本実施例2に係る情報検索装置は、個人が頻繁に検索する語や訪問するページなどの外部情報を用いて、検索語による検索結果から情報を抽出し検索結果とすることができる。具体的には、外部情報として、「この人がよく検索する語は”メロンパン”」などの検索ログ情報や、「この人が訪れるページには”メロンパン”が頻繁に出現する」などの訪問ページからの情報抽出結果などの個人プロファイルを用いる。
例えば、宮崎に旅行する人が「宮崎」という検索語で検索した場合に、外部情報として「この人がよく検索する語は”メロンパン”」という個人プロファイルがあると、検索結果から「マーおじさんのデカメロンパン」といったメロンパンに関係する情報を抽出し、検索結果として返すことができる。また、外部情報として、「新番組」、「新製品」「新規オープン情報」などのトレンド情報があれば、たとえば、「渋谷」について検索した文書から、「渋谷に新規オープンしたお店」のようなトレンドに関する情報を抽出するといったこともできる。
個人プロファイルは、個人の検索ログのカウントや、訪問したページからの情報抽出結果などを用いて作成することができる。また、音声認識装置を使って個人の発話を記録し、記録内容から情報抽出を行って頻繁に使用されるキーワードを抽出して作成することもできる。
その他、携帯電話のGPS機能などによって得られる位置情報などを個人プロファイルとして利用することもできる。また、トレンド情報は、検索サイトのログや各サイトのリリースページからの情報抽出によって作成することができる。
また、個人プロファイルにあらかじめ「最寄り駅」、「趣味」などを登録して利用することもできる。このような個人プロファイルを利用すると、例えば、「お寿司屋」という検索語で検索して得られた文書を「最寄り駅」に近いお店が出現する順に検索結果として出力することができる。ここで、「最寄り駅(場所)」と、検索して得られた文書に含まれる「場所」との間の近さでの順序付けは、辞書やシソーラスとして定義することができる。
また、個人プロファイルに「趣味はサッカー」という情報を登録してあれば、検索結果中の「川崎フロンターレのサッカーの試合は等々力競技場であります。」のような文からの情報抽出結果をもとに、「川崎フロンターレ」「等々力競技場」などの「サッカー」に関する情報だけを抽出するといったこともできる。また、個人プロファイルに年齢に関する情報を登録してあれば、Webページの検索結果から年齢制限についての情報を抽出し、排除するなど、情報フィルタリングの使い方もできる。
(6)検索語による検索結果を検索対象の属性や関係によって比較する情報検索
本実施例2に係る情報検索装置は、検索したいものの属性や関係に関する情報を抽出し、抽出した情報を用いて比較を行った結果を検索結果として出力する。例えば、「ノートPC」を検索語とする検索において、「製品名」や「重さ」、「画面サイズ」などの属性を抽出し、「画面サイズ」と「重さ」のような情報で比較することで「画面サイズが一番大きいもので一番軽いノートPC」を検索結果として表示することができる。
(7)情報抽出結果を要約して表示する情報検索
本実施例2に係る情報検索装置は、検索結果から特定の表現(固有表現)や関係についての情報を抽出し、抽出した情報についての集計結果を表にまとめて要約として提示することができる。例えば、「日本ダービ」を検索語として検索した場合、検索されたページから「開催日:2004年5月30日」、「出走時間:15時40分」、「会場:東京競馬場」などの情報を抽出し、表にまとめた結果を要約として表示する。ここで、要約の作成は、たとえば、検索語と抽出情報についての共起情報を使って行うことができる。また、表の代わりに、文書生成技術を組み合わせれば、要約文書を作成することもできる。
(8)検索語による検索結果から検索語に関係する特定の情報だけを抽出する情報検索
本実施例2に係る情報検索装置は、検索語に関係ある特定の種別のキーワードだけを検索して表示することができる。例えば、「等々力競技場」に関係する”場所”を「等々力競技場」の検索結果から抽出し、「神奈川県川崎市中原区」や「武蔵小杉駅」のような場所だけを検索結果として表示することができる。
次に、本実施例2に係る情報検索装置の構成について説明する。図13は、本実施例2に係る情報検索装置の構成を示す機能ブロック図である。同図に示すように、この情報検索装置10は、検索エンジン300と情報抽出装置400とから構成される。なお、ここでは説明の便宜上、図1に示した情報抽出装置100の各部と同様の役割を果たす機能部については同一符号を付すこととしてその詳細な説明を省略する。
検索エンジン300は、利用者から検索語を受け付け、受け付けた検索語を含むインターネット上のページの一覧を生成する処理部であり、生成した一覧情報を検索結果として情報抽出装置400に渡す。
情報抽出装置400は、図1に示した情報抽出装置100が有する機能部に加えて外部情報記憶部480を有し、また、抽出部170の代わりに抽出部470を有する。外部情報記憶部480は個人プロファイルやトレンド情報などの外部情報を記憶する記憶部である。
抽出部470は、検索エンジン300から検索結果を受け取り、利用者や外部情報によって指定された情報を検索結果から抽出して出力する処理部である。すなわち、この抽出部470は、検索語が検索結果の文書中で使用されている意味に基づく検索などの情報検索を行う。
この抽出部470が、検索エンジン300の検索結果から利用者や外部情報によって指定された情報を検索結果から抽出することによって、情報検索装置10は様々な情報検索を行うことができる。
上述してきたように、本実施例2では、情報抽出装置400を検索エンジン300と組み合わせ、検索エンジン300による検索によって得られた文書から外部情報記憶部480に記憶された外部情報などを用いて情報を抽出することとしたので、様々な情報検索を行うことができる。
なお、本実施例2では、一つの検索エンジンを情報抽出装置と組み合わせる場合について説明したが、複数の検索エンジン、ポータルサイトを情報抽出装置と組み合わせることもできる。すなわち、複数の検索エンジン、ポータルサイトでの検索結果から抽出した情報を統合して表示する情報検索装置を実現することもできる。
例えば、「メロンパン」という検索語による複数の検索エンジン、ポータルサイトでの検索結果から「富良野メロンパン」や「マーおじさんのデカメロンパン」といった情報を抽出した場合に、「検索エンジンAでは富良野メロンパンについて二件」、「検索エンジンBでは富良野メロンパンについて三件」といった情報が得られる。そこで、「メロンパンというキーワードを含む文書で、”富良野メロンパン”というキーワードを含む文書は5件」というように、抽出した情報に基づいて複数の検索結果を統合する情報検索装置を実現することもできる。
また、検索エンジンの検索結果から情報を抽出する代わりに、利用者が閲覧中のページから情報を抽出し、抽出した情報に基づいて動的検索を行う情報検索装置を実現することもできる。例えば、ある一定時間内に閲覧したページ中に「メロンパン」という単語が頻出したなどの情報抽出結果を使って、次に閲覧するページを自動的に検索して提示するような動的検索を実現することができる。
また、検索エンジンの中に情報抽出装置を組み込み、インデックス作成時などに情報抽出を実施し、情報抽出された結果に対して検索を行う情報検索装置を実現することもできる。
また、本実施例2に係る情報検索装置が提供する様々な情報検索機能を組み合わせた情報検索を行う情報検索装置を実現することもできる。
また、本実施例2では、検索エンジンと情報抽出装置を組み合わせた情報検索装置について説明したが、情報抽出装置や検索エンジンをソフトウェアによって実現することもできる。この場合、情報抽出プログラムと検索エンジンプログラムを同一のコンピュータで実行することもできるが、例えば、情報抽出プログラムはプロキシサーバで実行するなど、情報抽出プログラムと検索エンジンプログラムを異なるコンピュータで実行することもできる。また、情報抽出プログラムをブラウザに組み込み、検索結果をネットワーク経由で受信したクライアントで情報抽出を行って表示することもできる。
(付記1)正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させることを特徴とする情報抽出プログラム。
(付記2)前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、
前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする付記1に記載の情報抽出プログラム。
(付記3)正解データを表示する場合に、前記拡張データと拡張に使われた正解データとの相違を強調して表示する強調表示手順をさらにコンピュータに実行させることを特徴とする付記1または2に記載の情報抽出プログラム。
(付記4)前記正解データは文であり、
前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
(付記5)前記正解データは文であり、
前記正解拡張手順は、文の修飾語を削除することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
(付記6)前記正解データは文であり、
前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
(付記7)前記正解拡張手順は、受動態の文と能動態の文を相互に言い換えることによって正解データを拡張することを特徴とする付記6に記載の情報抽出プログラム。
(付記8)前記正解データは文であり、
前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする付記1、2または3に記載の情報抽出プログラム。
(付記9)前記正解拡張手順は、同義語辞書を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記8に記載の情報抽出プログラム。
(付記10)前記正解拡張手順は、慣用句辞書を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記8に記載の情報抽出プログラム。
(付記11)前記正解拡張手順は、尊敬語および謙譲語を用いて特定の語句を同義の語句に変換することによって正解データを拡張することを特徴とする付記8に記載の情報抽出プログラム。
(付記12)前記正当性評価手順は、前記正解拡張手順により生成された拡張データを追加して学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価することを特徴とする付記2に記載の情報抽出プログラム。
(付記13)前記正当性評価手順は、前記正解拡張手順により生成された拡張データを用いてWebページを検索し、検索結果の数に基づいて前記正当性を評価することを特徴とする付記2に記載の情報抽出プログラム。
(付記14)前記規則学習手順は、人名をテキストから抽出する情報抽出規則を学習することを特徴とする付記1または2に記載の情報抽出プログラム。
(付記15)前記規則学習手順は、テキストから所定の関係を抽出する情報抽出規則を学習することを特徴とする付記1または2に記載の情報抽出プログラム。
(付記16)正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記17)正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
を備えたことを特徴とする情報抽出装置。
(付記18)正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を学習する規則学習工程と、
を含んだことを特徴とする情報抽出方法。
(付記19)テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、
正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
を含んだことを特徴とする情報抽出規則作成方法。
(付記20)前記正解拡張工程により生成された拡張データの正当性を評価する正当性評価工程をさらに含み、
前記規則作成工程は、前記正当性評価工程により正当であると評価された拡張データを用いて情報抽出規則を作成することを特徴とする付記19に記載の情報抽出規則作成方法。
(付記21)利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする付記1に記載の情報抽出プログラム。
(付記22)前記情報抽出手順は、外部情報として指定された情報および前記情報抽出規則に基づいて前記検索結果に含まれる文書から特定の情報を抽出することを特徴とする付記21に記載の情報抽出プログラム。
以上のように、本発明に係る情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法は、テキストから特定の情報を自動抽出する場合に有用であり、特に、機械学習を用いて情報抽出規則を作成し、作成した情報抽出規則を用いて情報を抽出する場合に適している。
本実施例1に係る情報抽出装置の構成を示す機能ブロック図である。 正解データ記憶部が記憶する正解データ例を示す図である。 正解データ記憶部が記憶する正解データの他の例を示す図である。 規則記憶部が記憶する情報抽出規則の例を示す図である。 語順操作による拡張例を示す図である。 構文表現変換による拡張例を示す図である。 特定表現変換による拡張例を示す図である。 強調表示部が情報抽出結果を色付きで強調した表示例を示す図である。 強調表示部が正解データの変更点を色付きで強調した表示例を示す図である。 本実施例1に係る情報抽出装置による正解データ拡張処理の処理手順を示すフローチャートである。 本実施例1に係る情報抽出プログラムを実行するコンピュータシステムを示す図である。 図11に示した本体部の構成を示す機能ブロック図である。 本実施例2に係る情報検索装置の構成を示す機能ブロック図である。
符号の説明
10 情報検索装置
100,400 情報抽出装置
110 正解データ記憶部
120 拡張対象選択部
130 正解拡張部
140 妥当性判別部
150 規則学習部
160 規則記憶部
170,470 抽出部
180 強調表示部
190 評価データ記憶部
200,211 コンピュータシステム
201 本体部
202 ディスプレイ
202a 表示画面
203 キーボード
204 マウス
206 LAN
207 公衆回線
208 フロッピィディスク
209 CD−ROM
212 サーバ
213 プリンタ
221 CPU
222 RAM
223 ROM
224 ハードディスクドライブ
225 CD−ROMドライブ
226 フロッピィディスクドライブ
227 I/Oインタフェース
228 LANインタフェース
229 モデム
300 検索エンジン
480 外部情報記憶部

Claims (10)

  1. 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムであって、
    正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
    前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
    をコンピュータに実行させることを特徴とする情報抽出プログラム。
  2. 前記正解拡張手順により生成された拡張データの正当性を評価する正当性評価手順をさらにコンピュータに実行させ、
    前記規則学習手順は、前記正当性評価手順により正当であると評価された拡張データを用いて情報抽出規則を学習することを特徴とする請求項1に記載の情報抽出プログラム。
  3. 前記正解データは文であり、
    前記正解拡張手順は、文の語順を入れ換えることによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。
  4. 前記正解データは文であり、
    前記正解拡張手順は、文を言い換えて同義の文を作成することによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。
  5. 前記正解データは文であり、
    前記正解拡張手順は、文の特定表現を他の表現に変換して同義の文を作成することによって正解データを拡張することを特徴とする請求項1または2に記載の情報抽出プログラム。
  6. 前記正当性評価手順は、前記正解拡張手順により生成された拡張データを追加して学習を行い、テストデータを用いて学習結果を評価し、拡張データを追加する前と比較して評価結果が向上するか否かによって、拡張データの正当性を評価することを特徴とする請求項2に記載の情報抽出プログラム。
  7. 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    正解データを拡張して新たな正解データである拡張データを生成する正解拡張手順と、
    前記正解拡張手順により生成された拡張データを用いて情報抽出規則を学習する規則学習手順と、
    をコンピュータに実行させる情報抽出プログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  8. 正解データを用いた機械学習によって得られる情報抽出規則に基づいてテキストから情報を抽出する情報抽出装置であって、
    正解データを拡張して新たな正解データである拡張データを生成する正解拡張手段と、
    前記正解拡張手段により生成された拡張データを用いて情報抽出規則を学習する規則学習手段と、
    を備えたことを特徴とする情報抽出装置。
  9. テキストからの情報抽出に用いられる情報抽出規則を正解データを用いた機械学習によって作成する情報抽出規則作成方法であって、
    正解データを拡張して新たな正解データである拡張データを生成する正解拡張工程と、
    前記正解拡張工程により生成された拡張データを用いて情報抽出規則を作成する規則作成工程と、
    を含んだことを特徴とする情報抽出規則作成方法。
  10. 利用者が指定する検索語を含む文書を検索する検索エンジンから検索結果を受け取り、該受け取った検索結果に含まれる文書から特定の情報を前記規則学習手順により学習された情報抽出規則に基づいて抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の情報抽出プログラム。
JP2005009322A 2004-05-20 2005-01-17 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 Expired - Fee Related JP4347226B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005009322A JP4347226B2 (ja) 2004-05-20 2005-01-17 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004150879 2004-05-20
JP2005009322A JP4347226B2 (ja) 2004-05-20 2005-01-17 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法

Publications (2)

Publication Number Publication Date
JP2006004399A true JP2006004399A (ja) 2006-01-05
JP4347226B2 JP4347226B2 (ja) 2009-10-21

Family

ID=35772717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005009322A Expired - Fee Related JP4347226B2 (ja) 2004-05-20 2005-01-17 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法

Country Status (1)

Country Link
JP (1) JP4347226B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
JP2010092413A (ja) * 2008-10-10 2010-04-22 Ricoh Co Ltd 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
WO2012070228A1 (ja) * 2010-11-22 2012-05-31 日本電気株式会社 対話テキスト解析装置、方法およびプログラム
JP2015170043A (ja) * 2014-03-05 2015-09-28 日本電信電話株式会社 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム
US9195646B2 (en) 2009-04-15 2015-11-24 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
JP2018081569A (ja) * 2016-11-17 2018-05-24 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
WO2018220700A1 (ja) * 2017-05-30 2018-12-06 株式会社日立国際電気 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
JP2020052936A (ja) * 2018-09-28 2020-04-02 三菱電機インフォメーションシステムズ株式会社 訓練データを生成する方法、コンピュータおよびプログラム
JPWO2020178936A1 (ja) * 2019-03-04 2020-09-10
US20210365810A1 (en) * 2020-05-12 2021-11-25 Bayestree Intelligence Pvt Ltd. Method of automatically assigning a classification

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009087996A1 (ja) * 2008-01-07 2011-05-26 日本電気株式会社 情報抽出装置及び情報抽出システム
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
JP5370159B2 (ja) * 2008-01-07 2013-12-18 日本電気株式会社 情報抽出装置及び情報抽出システム
JP2010092413A (ja) * 2008-10-10 2010-04-22 Ricoh Co Ltd 画像分類学習装置、画像分類学習方法、および画像分類学習システム
US9195646B2 (en) 2009-04-15 2015-11-24 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
JP5867410B2 (ja) * 2010-11-22 2016-02-24 日本電気株式会社 対話テキスト解析装置、方法およびプログラム
WO2012070228A1 (ja) * 2010-11-22 2012-05-31 日本電気株式会社 対話テキスト解析装置、方法およびプログラム
JP2015170043A (ja) * 2014-03-05 2015-09-28 日本電信電話株式会社 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム
JP2018081569A (ja) * 2016-11-17 2018-05-24 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
WO2018220700A1 (ja) * 2017-05-30 2018-12-06 株式会社日立国際電気 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法
JPWO2018220700A1 (ja) * 2017-05-30 2020-01-23 株式会社日立国際電気 新規学習データセット生成方法、新規学習データセット生成装置および生成された学習データセットを用いた学習方法
US11551080B2 (en) 2017-05-30 2023-01-10 Hitachi Kokusai Electric Inc. Learning dataset generation method, new learning dataset generation device and learning method using generated learning dataset
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
JP2020052936A (ja) * 2018-09-28 2020-04-02 三菱電機インフォメーションシステムズ株式会社 訓練データを生成する方法、コンピュータおよびプログラム
JPWO2020178936A1 (ja) * 2019-03-04 2020-09-10
WO2020178936A1 (ja) * 2019-03-04 2020-09-10 株式会社トランストロン ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置
JP7264408B2 (ja) 2019-03-04 2023-04-25 株式会社トランストロン ニューラルネットワークモデルの生成方法、及びニューラルネットワークモデルを用いた制御装置
US20210365810A1 (en) * 2020-05-12 2021-11-25 Bayestree Intelligence Pvt Ltd. Method of automatically assigning a classification

Also Published As

Publication number Publication date
JP4347226B2 (ja) 2009-10-21

Similar Documents

Publication Publication Date Title
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Schroeder et al. childLex: A lexical database of German read by children
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
Ray et al. A review and future perspectives of arabic question answering systems
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Sarwadnya et al. Marathi extractive text summarizer using graph based model
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
Li et al. A novel methodology for retrieving infographics utilizing structure and message content
Sajous et al. Semi-automatic enrichment of crowdsourced synonymy networks: the WISIGOTH system applied to Wiktionary
Ray et al. A review of the state of the art in Hindi question answering systems
Neves et al. Automatic content recommendation and aggregation according to scorm
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JPH11120206A (ja) タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置
Sariki et al. A book recommendation system based on named entities
Yadav et al. Graph-based extractive text summarization based on single document
US20050261889A1 (en) Method and apparatus for extracting information, and computer product
JP2002278982A (ja) 情報抽出方法および情報検索方法
Moulay Lakhdar et al. Building an extractive Arabic text summarization using a hybrid approach
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
Hao et al. A semantic-context ranking approach for community-oriented english lexical simplification
Tolmachev et al. Automatic Japanese example extraction for flashcard-based foreign language learning
Ojokoh et al. Online question answering system
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey
Abedissa et al. Amharic Question Answering for Biography, Definition, and Description Questions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090715

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees