JP2005250682A - 情報抽出システム - Google Patents

情報抽出システム Download PDF

Info

Publication number
JP2005250682A
JP2005250682A JP2004057918A JP2004057918A JP2005250682A JP 2005250682 A JP2005250682 A JP 2005250682A JP 2004057918 A JP2004057918 A JP 2004057918A JP 2004057918 A JP2004057918 A JP 2004057918A JP 2005250682 A JP2005250682 A JP 2005250682A
Authority
JP
Japan
Prior art keywords
information
unit
attribute
processing unit
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004057918A
Other languages
English (en)
Inventor
Hitoshi Sakamoto
仁 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004057918A priority Critical patent/JP2005250682A/ja
Publication of JP2005250682A publication Critical patent/JP2005250682A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 電子文書化された大量のテキスト・データベースからユーザが最も求めている情報は何かを分析し、判断して的確かつ迅速に提示して支援することで、文書検索装置への利用が有効な情報抽出システムを提供する。
【解決手段】 一次抽出部2、同義語処理部3、情報蓄積部4、統計処理部5および提示情報処理部6に加えて、さらに曖昧性解消部7が設けられ、日本語の1つの単語が表示の仕方で距離とも、重量とも読める曖昧さをもっている場合でも、曖昧語辞書8を参照して曖昧性解消部7がそれを処理して情報蓄積部4に格納されている当該単語を曖昧性のない表現のものに更新する。提示情報処理部6は、ユーザが求める情報についてその全体を一見して把握できるようにグラフなど統計情報を提示してLCDやCRTの表示装置で表示したり、プリンタで印刷できるようにする。
【選択図】 図4

Description

本発明は、電子文書化された大量のデータベースのテキストの中からユーザが要求するデータのみを的確、迅速かつ簡便に抽出する文書検索システム等に利用される情報抽出システムに関する。
従来、大量の情報を格納した文書データベースからユーザが必要な情報を検索して取り出す場合、ユーザが必要とする文書や情報を入手するまでには多大な時間や労力を費やしているのが現状である。そうした背景から膨大な文書や情報のデータ中から抄録とか要約を作成する技術を利用し、検索した文書中から必要文のみを抽出して表示する手法が研究されてきた。
例えば、下記特許文献1の「文書検索システム」では、意見や提言などのように、文章の内容を識別するための複数種類の文型を設定しておいて、予め設定されている複数の文型からユーザが所望する文書や情報を選択すると、抜粋文データベースから文型に対応する抜粋文データを抽出する技術内容が開示されている。
特開平8−255172号公報
しかしながら、上記公報などにおいて開示された技術は、それぞれ独立した文書から個々に必要部分のみを抽出して提示するものであるから、いくつもの文書から同じ情報が抽出される場合が多々ある。そのため、ユーザとしては抽出されてきた複数の文書を見比べる手間や労力を要するといった不都合がある。現在のように、情報通信ネットワークが普及すると、例えば数千ページにも及ぶ文書情報を検索する場合がある。そのような膨大な文書量の中からたとえ1頁につき一行の必要部分を抽出できたとしても、ユーザはなおも数千行の文書を通読して選別したり、比較などして本当に要求する情報のみを選別する必要がある。ところが、上記公報を初めとする従来技術においては、抽出部分がすべて同じ文型となっているために、それらからさらに本当に要求する部分を選別したり、抽出できないといった問題がある。
例えば、「製品Zの性能Yは値Xである」といったテンプレートまたは文型パターンを用いて第一次の抽出を行ったとする。その抽出結果はすべて「製品Zの性能Yは値Xである」と同じ形式になる。すなわち、テンプレートや文型パターンを利用する技術においては、抽出結果をさらに絞り込んだ第二次的な抽出は望めない。ところが、何らかの製品やサービスを選択しようとする場合は、多くは「対象Zの属性Yは値Xである」と同様の形式の情報によって、比較して判断すると考えられる。例えば、「交通経路」の場合でも、「A経由の所要時間はXX時間である」「A経由の運賃はXX円である」「A経由の乗換回数はX回である」「B経由の・・・」・・・という情報を比較して判断していると考えられ、ユーザが満足する情報を抽出・提示するには、こうした比較・判断に利用しやすいように情報を提示することが求められる。
そうした問題点に鑑み、本発明の目的は、電子文書化された大量のテキスト・データベースからユーザが最も求めている情報は何かを分析し、判断して的確かつ迅速に提示して支援することで、文書検索装置への利用が有効な情報抽出システムを提供することにある。
上記の点を解決して目的を達成するために、本発明による請求項1記載の情報抽出システム次の構成を採用する。
<構成>
電子文書化された複数のテキストを順次読み込んで解析し、テキストごとに対象、属性および値の3つの情報からなる第一次情報を「要点」として抽出する一次抽出部と、「要点」に含まれる単語の異表記および同義語を基準表記に補正する同義語処理部と、その基準表記補正後の前記「要点」レコードを記憶して格納し、そのレコードの一部または全部を要求に応じて出力する情報蓄積部と、「要点」の属性ごとに値の範囲、平均値および分散からなる分布の指標を算出する統計処理部と、分布指標を予め規定した形式の統計情報を指定された表示装置または印刷装置に対して出力する提示情報処理部と、入力モード時に読み込むテキストを指示して前記一次抽出部によって抽出させた「要点」を前記情報蓄積部に格納させるとともに、格納された要点を前記同義語処理部で読み出して補正処理を実行させ、その同義語処理部から処理終了の通知を待って受け取り後に次のテキストに対しても一連の制御を行い、また、出力モード時は前記統計処理部に指示して前記情報蓄積部に格納されている前記要点の一部または全部を読み出させて算出した統計情報を取り出し、前記提示情報処理部に送って順次解析を行わせ、解析して得られた提示情報を提示情報処理部から出力させて指定する書き出し先の表示装置または印刷装置に送る一連の制御を行う制御部と、を備えたことを特徴とする。
以上から、請求項1記載の情報抽出システムでは、一次抽出部はテキストの内容について、ユーザが求める情報に添って第一段階として「要点」を抽出する。同義語処理部は「要点」中の文字列の単語について同義語や異表記を順次検査して基準表記に補正する。そのように処理された「要点」は情報蓄積部に格納される。統計処理部はその格納された「要点」のすべてを読み出し、閾値に基づいて選別し、「要点」中の「属性」ごとに「値」の範囲、平均値、分散など分布の指標を算出し、統計情報を作成する。提示情報処理部は、そうした統計情報を読み出し、順次解析してCRTなど表示装置、またはプリンタにむけて出力することで、ユーザに一見して理解しやすいグラフなどの表示でもって提示する。
また、請求項2に記載の情報抽出システムは次の構成を採用する。
<構成>
情報蓄積部に格納されている「要点」のすべてを読み出し、それら「要点」の各単語について曖昧語辞書を検索して曖昧性の有無をチェックし、曖昧性を解消した「要点」として更新して情報蓄積部に再格納させる曖昧性解消部を備えてなっていることを特徴とする。
以上から、請求項2記載の情報抽出システムでは、日本語の1つの単語が表示の仕方で距離とも、重量とも読める曖昧さをもっている場合でも、曖昧性解消部がそれを処理して情報蓄積部に格納されている当該単語を曖昧性のない表現のものに更新する。
また、請求項3に記載の情報抽出システムは次の構成を採用する。
<構成>
曖昧語辞書は、曖昧さを有する単語を見出し語にして、この見出し語の1つに対して、曖昧さの無い単語からなる確定表記群と曖昧さを打ち消す根拠となる単語からなる解消用表記群とを1対にした場合に2対以上をリストとして構成されていることを特徴とする。
以上から、請求項3記載の情報抽出システムでは、曖昧さの有する単語はそれを見出し語にして曖昧語辞書に格納されているので、曖昧さのある単語は即座にその曖昧語辞書を参照して曖昧さのない確定表記に補正されて更新される。
曖昧語辞書は、例えば「キロ」が文脈によっては「キロメートル」に意味にも、「キログラム」の意味にも理解されるような場合、その「キロ」を見出し語にして、「キロメートル」、「Km」または「キログラム」、「Kg」のような曖昧さの無い確定表記リストと、一方では「マイル」、「メートル」または「トン」、「グラム」のように確定表記と同系統の語句であって曖昧さを打ち消す根拠にできる表記リストと、を対にする。この確定表記リストと打ち消し表記リストとによる対の2対以上を「組」にして記録したものである。
また、請求項4に記載の情報抽出システムは次の構成を採用する。
<構成>
「要点」についてさらに絞り込んだ特定情報を要求する場合、テキスト中の最適の文書を選択するための必要最小限のリンク情報を予め規定したサンプリング用数列に基づいて採取するサンプリング処理部を備えたことを特徴とする。
以上から、請求項4記載の情報抽出システムでは、抽出された「要点」について元のテキスト文書を参照したい場合がある。その際、参照するために仲立ちするリンク情報が存在すれば面倒な検索を行わずに済む。しかし、元のテキストは膨大な量に及ぶ場合があるので、その量に対応するだけのリンク情報を情報蓄積部に格納しておくのでは、メモリ量が極大化することで応答性が大変低下する不都合がある。すなわち、記憶手段に大きな記憶資源が必要となる。そこで、サンプリング処理部では、必要最小限のリンク情報となるように予め規定したサンプリング用数列に基づいて選別する。それによって、記憶資源を軽減できるようにする。
また、請求項5に記載の情報抽出システムは次の構成を採用する。
<構成>
「要点」に含まれる文書の文字列を単語の並び順に解析して同一単語の反復および数字の並びを消去して検索キーワードのリストに変換し、ユーザが注目する情報に類似するものを前記検索キーワードで検索して提示する類似検索部を備えたことを特徴とする。
以上から、請求項5記載の情報抽出システムでは、ユーザが注目する情報を類似の情報中において相対的な位置としてユーザに類似検索部から提示することで、ユーザの評価・判断を支援する。
また、請求項6に記載の情報抽出システムは次の構成を採用する。
<構成>
統計情報および「要点」の注目する情報のそれぞれに含まれる属性の重要性を算出する属性選択部を備えてなっていることを特徴とする。
以上から、請求項6記載の情報抽出システムは、前述のように、類似検索部によって提示された類似の情報中から「属性」をさらに属性選択部によって優先的に決定することで、ユーザが求める注目する情報により一層合致できるようになる。
また、請求項7に記載の情報抽出システムは次の構成を採用する。
<構成>
前記類似検索部は前記注目する情報をこれに類似する情報の中での相対的な位置として提示するようにしたことを特徴とする。
以上から、請求項7記載の情報抽出システムでは、類似検索部はユーザが注目する情報を類似の情報の中での相対的な位置として提示することで、ユーザはその提示を認識して当該情報の世間相場のような全体的傾向によって評価・判断を惑わされない。
本発明による情報抽出システムは、以下の効果を奏する。
(a)大量の電子化テキストデータベースから、ユーザが求めるデータをコンピュータシステムを利用して入手して提示する情報検索システムなどの情報提示装置に組み込まれて有効であり、ユーザによる大量情報との比較を容易化し、そこからの評価・判断などが一層的確なものとなるように支援する用途に利用できる。
(b)また、改善された同義語処理部や曖昧性解消部によって、日本語以外の英語など外国言語で記述されて電子化テキストデータベースにも対応でき、日本語と英語といった多言語が混在する電子化テキストデータベースにも好適に対応させることも可能である。
一次抽出部、同義語処理部、情報蓄積部、統計処理部および提示情報処理部に加えて、さらに曖昧性解消部と、類似検索部と、属性選択部を設けることにより、テキストデータベースなどの元資料の内容について全体的な傾向をユーザにいち早く提示する統計情報を自動的に作成する。
<実施例1の構成>
図1は、本発明による情報抽出システムの実施例1の構成を示すブロック図である。本例システムは、以下の各部を要部とするシステム全体の制御を行う制御部および演算部からなる中央制御装置(CPU)を備え、電子文書化された元の資料(テキスト)の内容について、ユーザが求める情報を検索する初期の段階で、第一次的かつ全体的な傾向を把握できるような統計情報を自動作成するようになっている。中央制御装置の制御部1では、入力モードと出力モードの二種のモードに切り換えられて起動するようになっている。入力モードでは、ユーザが操作して求める情報を探索するための文字列を入力したときの文字列信号の読み込み先を受け取り、一次抽出部2、同義語処理部3および情報蓄積部4の各部において一連の制御を行う。出力モードでは、出力データである統計情報の書き出し先を受け取り、統計処理部5および提示情報処理部6の各部において一連の制御を行う。
入力モードにおいて作動する一次抽出部2は、既存の情報抽出システムや情報検索システムなどに備わったものを流用するなどして構成され、入力した複数のテキストを順次解析し、それらテキストごとに「対象」、「属性」、「値」の3つの情報からなる「要点」を抽出するよう構成されている。「対象」、「属性」および「値」の具体例については動作説明で後述する。
同じく入力モードにおいて作動する同義語処理部3は、既存の機械翻訳システムなどに備わる字句解釈などを流用して構成され、ユーザ操作で入力された文字列の単語の並びの解析を行い、その単語表記を順次検査して表記のゆれを予め定めた規則に従って補正する。さらに、「同義語辞書」を検索して辞書内登録済み語句であるならば、それを基準表記に補正するよう構成されている。
同じく入力モードにおいて作動する情報蓄積部4は、抽出した前記「要点」のレコードを記憶装置9に格納し、そのレコードの一部または全部を要求に応じて出力するように構成されている。
一方、出力モードにおいて作動する統計処理部5は、情報蓄積部4に指示して記憶装置に格納されているレコードの全件を出力させ、予め定めた閾値に基づいて選別を行い、出現頻度の高いと判定された「属性」のレコードについて、予め定めた数式により「属性」ごとに「値」の範囲、平均値、分散などからなる分布指標を算出して出力するように構成されている。
同じくその出力モードにおいて作動する提示情報処理部6では、入力した統計情報のリストを順次解析して、当該装置の目的とする表示装置や印刷装置などの提示の形式に変更して指定された統計情報の書き出し先へ出力するよう構成されている。
<実施例1の動作>
次に、以上各部からなる実施例1の作用および動作について、図2のフローチャートを参照して説明する。
ユーザが求める情報の「要点」の1つである「対象」として、例えば「ハードディスク装置」についてその性能や価格などの最適情報や問い合わせ事項(クエリー)の情報提供を求めているような場合、ユーザによる入力操作で検索が開始される(ステップ:S1,S2)。すると、以下に例示する情報が含まれた3つのテキストA,B,Cを既存情報から流用するなどして得て、これら3つのテキストが入力データとして順次本例システムに入力される(ステップ:S3)。
<テキストA>に含まれる情報
・「ハードディスク装置Aの記憶容量は2.1GBである」
・「ハードディスク装置Aの価格は3万円である」
・「ハードディスク装置Aの平均シーク時間は12msecである」
・「ハードディスク装置AのインターフェイスはSCSI2である」
・「ハードディスク装置Aの型式はA2116である」
<テキストB>に含まれる情報
・「ハードディスク装置Bの記憶容量は3.2GBである」
・「ハードディスク装置Bの価格は4万円である」
・「ハードディスク装置Bの平均シーク時間は13msecである」
・「ハードディスク装置Bのバッファ容量は256KBである」
・「ハードディスク装置BのインターフェイスはSCSI2である」
・「ハードディスク装置Bの型式はB32880である」
<テキストC>に含まれる情報
・「ハードディスク装置Cの記憶容量は4.3GBである」
・「ハードディスク装置Cの価格は5万円である」
・「ハードディスク装置Cの平均シーク・タイムは12ミリ秒である」
・「ハードディスク装置Cのバッファ容量は256KBである」
・「ハードディスク装置CのインターフェイスはSCSI2である」
・「ハードディスク装置Cの型式はC4380である」
これら各テキスト中のハードディスク装置A,B,Cが上記「要点」の1つである「対象」を意味する。その「対象」に関する「属性」とは記憶容量、価格、平均シーク時間、そしてインターフェイスなどを指す。また、それら「属性」に関するそれぞれの「値」とは、記憶容量では2.1GB、価格は3万円、平均シーク時間は平均12msec、そしてインターフェイスはSCSI2などといった具体的数字や数量を言っている。すなわち、ユーザが例えばパソコン購入などに際し、購入機のハードディスク装置を対象物として、それに関する情報提供を求めているとする。そうした場合、ハードディスク装置は記憶容量や価格といった様々な属性を持っており、記憶容量については3.2GB、価格については3万円といった特定の数量値を持っている筈であるから、それらを知りたい情報の「要点」として求めるような状況を想定することができる。
制御部1が入力モードで起動すると、入力データであるテキストの読み込み先を受け取り、その入力テキストの読み込み先を一次抽出部2に通知する。当該テキストについて一次抽出部2から情報蓄積部4までの一連の作動を制御し、同義語処理部3から処理終了したことの報告を待って、次の入力テキストが処理可能な状態に戻す。
一次抽出部2では、既知手段によって入力されたテキストを順次解析して、それらテキスト内の「要点」を抽出し、少なくとも「属性」と「値」の2つのフィールドからなるレコードを出力して同義語処理部3へ通知する。例えば、「ZのYはXである」、「ZはXのY」、「ZはYX」・・・といったテンプレート群と「Y」になり得る「記憶容量」、「容量」、「提供価格」、「価格」、「平均シーク時間」、「回転速度」・・・のリストとを予め高速に読み出せる記憶装置9上に配置し、それらを組み合わせて入力したテキストに照合させるなどして、入力したテキストから「対象」、「属性」、「値」からなる「要点」に対応する部分を抽出する。例えば、「容量」については、「製品Zの容量はXXMBであり、」、「製品ZはXXMBの容量を備え」、「製品Zは容量XXMBのハイエンド製品」・・・というテキスト部分に照合して、いずれの部分からも「製品Z」という「対象」と「容量」という「属性」と「XXMB」という「値」とを抽出する。
また、この一次抽出部2では、「対象」の選別を行い、本例の場合は「ハードディスク装置」に関連しない「対象」については抽出せず、あるいは同義語処理部3に出力しない構成が可能であればそのように構成する。本例が情報検索装置などに組み込まれて使用される場合、一次抽出部2が対象とするテキストは、例えば「ハードディスク装置」に関連しているものばかりであるので、そのような選別をしない構成も可能である。
したがって、本例では、以下のようなレコード例が出力される。
・「記憶容量」「2.1GB」
・「価格」「3万円」
・「平均シーク時間」「12msec」
・「インタフェイス」「SCSI2」
・「型式」「A2116」
・「記憶容量」「3.2GB」
・「価格」「4万円」
・「平均シーク時間」「13msec」
・「バッファ容量」「256KB」
・「インターフェイス」「SCSI2」
・「型式」「B32880」
・「記憶容量」「4.3GB」
・「価格」「5万円」
・「平均シーク・タイム」「12ミリ秒」
・「インタフェイス」「SCSI2」
・「バッファ容量」「256KB」
・「型式」「C4380」
一方、同義語処理部3においては、入力レコードの各フィールドの文字列を単語の並びに解析し、その並びの単語表記を順次検査し、表記のゆれを予め定めた規則に従って補正し、さらに上記同義語辞書を検索して登録された語であれば、基準表記に補正して情報蓄積部4に出力する。ここでは、例えば2文字以上のカタカナに続く「−」や「ー」を消去する。カタカナに挟まれた「・」を消去するなどの規則が定められ、また同義語辞書には「タイム」が基準表記「時間」、「ミリ秒」が基準表記「msec」、「フェース」が基準表記「フェイス」として、それぞれ登録されている。また、この同義語処理部3は、単語の並びを解析する際、「値」のフィールドが数字の並びと非数字の並びとに分離した区切り情報を当該レコードに追加する(以下、区切り情報を/で表記する)。
情報蓄積部4においては、入力したレコードを記憶装置9から検索して読み出し、すでに格納されておれば検索したレコードの出現頻度を1つ増加させて更新する。格納記憶されていなければ、入力したレコードの出現頻度1として新たなレコードとして記憶装置に格納する(ステップ:S4)。
したがって、同義語処理部3において、入力したレコードのすべてを検索して解析し終えるまで動作フローを繰り返し(ステップ:S5)、解析終了すると制御部1に処理完了したことを通知する。本例では、以下のようなレコードが記憶装置9に格納される。
・「記憶容量」「2.1/GB」×1
・「価格」「3/万円」×1
・「型式」「A/2116」×1
・「記憶容量」「3.2/GB」×1
・「価格」「4/万円」×1
・「平均シーク時間」「13/msec」×1
・「型式」「B/32880」×1
・「記憶容量」「4.3/GB」×1
・「価格」「5/万円」×1
・「平均シーク時間」「12/msec」×2
・「バッファ容量」「256KB」×2
・「インタフェイス」「SCSI/2」×3
・「型式」「C/4380」×1
次に、制御部1が出力モードに切り換えられて起動する。出力データである統計情報の書き出し先を受け取ると、統計処理部5から提示情報処理部6までの一連の処理を起動し、その統計情報の書き出し先を提示情報処理部6に送って出力させる(ステップ:S6)。
統計処理部5においては、情報蓄積部4に記憶装置に格納されているレコードの全件を出力させ、予め定めた閾値に基づいて選別し、出現頻度の高い「属性」のレコードについてのみ、まず当該「属性」が数量尺度か名義尺度かを判定する。本例では、説明を理解しやすくするために、最高出現頻度の70%以上の出現頻度の「属性」のみ処理対象とする(実際、数個のデータしかない「属性」について統計的な計算をすることは意味がない)。
判定については、例えば当該「属性」の「値」を数字部分と非数字部分に分離し、数字部分と非数字部分との種類数をそれぞれ係数して、数字の種類数が予め定めた閾値を超え、かつ非数字部分の種類数が予め定めた閾値を下回っておれば、当該「属性」を数量尺度とする。前記条件を満たさないもので、「値」の種類数が予め定めた閾値を下回っておれば、当該「属性」の名義尺度とする。本例では、説明を理解しやすくするために、これらの閾値をどちらも「値」の総個数をNとした場合のlog(N)とすると、「平均シーク時間」の数字部分の種類数は「12」と「13」の2つであり、非数字部分の種類数は「msec」の1であるが、2>log(3)>1であるため、「平均シーク時間」も数量尺度となる。「インタフェイス」は数字部分の種類数が1つしかなく、「型式」は非数字部分の種類数が3つもあるため、どちらも数量尺度の条件を満たさないが、「インタフェイス」 は「値」の種類数が1つしかなく名義尺度となり、「型式」は「値」の種類数が3つもあって名義尺度でもないとなる。
次に、数量尺度とした「属性」については、非数字部分を「単位」として、数字部分を数値化して「数値」として、予め定めた数式によって「属性」と「単位」の組ごとに「数値」の範囲(レンジ)、平均値、分散などの分布の指標を算出し、それらの指標と計算のデータとをリストにして、提示情報処理部6に出力する。名義尺度とした「属性」については、「値」の種類数、度数の範囲などと計算のデータとをリストにして、提示情報処理部6に出力する。数量尺度にも名義尺度にもしなかった「属性」については、単に「値」の種類数をリストにして提示情報処理部6に出力する。
制御部1が、提示情報処理部6が提示する「属性」の個数を出力条件として受け取る構成とされている場合、統計処理部5は出現頻度の高い「属性」を前記の個数についてだけ分布の指標を算出し、それらの指標と計算のデータとをリストにして提示情報処理部6に出力する。それに対して、制御部1が提示情報処理部6の提示する「属性」を出力条件として受け取る構成となっている場合は、統計処理部5は前記の「属性」についてだけ分布の指標を算出し、それらの指標と計算のデータとをリストにして提示情報処理部6に出力する。また、数量尺度とした「属性」については、「数値」が非常に多様となる場合が考えられるが、ある「属性」と「単位」の組み「数値」が予め定めた閾値を超える場合には、算出した分散などの分布の指標を基にして数値の区間を定め、個々の「数値」とそのデータを当該区間に併合する構成としてもよい。また、その際に最大値、最小値、平均値、最頻値および計算が可能であれば、頻度上の極大、極小などの分布上の特徴的な数値近辺は区間を狭くとり、他は広くするか、あるいは前記分布上の特徴的な数値近辺以外の「数値」とそのデータを出力しないなどの構成にすることも可能である。
したがって、本例では、以下のようなリスト例が出力される。
・抽出テキスト「3」、抽出属性「3」、抽出総数「9」
・属性「記憶容量」、単位「GB」、総数「3」、最小「2.1」、最大「4.3」、平均「3. 2」、中央「3.2」、分散「0.81」、・・・、「2.1」×1、「3.2」×1、「4. 3」×1
・属性「価格」、単位「万円」、総数「3」、最小「3」、最大「5」、平均「4」、中央「4」、 分散「0.67」、・・・、「3」×1、「4」×1、「5」×1
・属性「平均シーク時間」、単位「msec」、総数「3」、最小「12」、最大「13」、 平均「12.3」、中央「12」、分散「0.22」、・・・、最頻「12」、「12」 ×2、「13」×1
・属性「インタフェイス」、総数「3」、種類「1」、最小「3」、最大「3」、「SCSI 2」×3
・属性「型式」、総数「3」、種類「3」
以上は、例えばテキストCから第一次的に抽出した情報の中でも「平均シーク・タイム」や「ミリ秒」などの表記のゆれを補正して、「バッファ容量」や「型式」の情報価値の低いものとみなしたことに相当し、第一次的に抽出した情報がかなりの量のデータであっても、その情報価値を保ったままで出力されるリストは比較的に小さなデータ量に抑えている。
提示情報処理部6においては、入力したリストを順次解析して、目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、CPU1から受け取った統計情報の書き出し先に前述のような操作による統計情報のリストを出力し、制御部1に処理終了したことを通知する。
本例のシステムを組み込んだ情報検索システムなどの情報抽出装置は、本例システムが出力した統計情報のリストに基づいて目盛の大きさなどを調整し、図3に示すように、ユーザが一見して理解できるようなグラフの形式でもって表示・印刷などして、ユーザが所望する情報を提示する(ステップ:S7)。この図3のグラフでは、所望する情報の属性として、記憶容量、価格およびインタフェイスについて、それらの各数値を横軸とした場合に、数値ごとに出現頻度を◇図形の個数を縦軸に表しており、ユーザはその個数の多少で求める情報の世間相場や性能の人気筋を視覚でもって推測することができる。
<実施例1の効果>
(a)情報検索の結果から第一次的に抽出した情報がなお且つかなりの分量である場合でも、統計的な処理に基づいて分布などに関する情報をユーザに対して一見して理解できる形式で表示して提供する。
(b)最高性能のものはどの程度か、価格帯のような分布上の特徴の情報を見て識別することで、ユーザは効率よく全体の情報について概要を把握できる。
(c)数値でもって表せないような情報についても、最も出現頻度の多いものはどれかを見て識別するだけで、ユーザは効率よく全体の情報について概要を一目瞭然に把握でき、ユーザの所望する真の情報を的確、迅速かつ簡便に提供する。
<実施例2の構成>
次に、本発明による情報抽出システムの実施例2について、図4および図5を参照して説明する。
先の実施例1では、例えば様々なメーカやディーラの広告・カタログ類から寄せ集めた情報の場合のように、項目や単位の表記がまちまちで不統一であれば、的確かつ十分な統計処理が行えない。すなわち、実施例1では、例えば「重さ」と「重量」、「キログラム」と「Kg」のように、曖昧さが解消できる異表記・同義語などを補正していた。これをさらに改善したシステムとして、実施例2においては「キロ」が「Kg」か「Km」のいずれであるかを判定する場合のように、曖昧さを解消できない場合でも補正する機構が備わっている。
本例システムでは、制御部1は入力モードと出力モードに加えて新たに「補正モード」の3種のモードで起動するように設定されている。入力モードと出力モードについては実施例1と同様であるので、ここでは補正モードについて重点的に説明する。
補正モードにおいて、図4に示すように、曖昧性解消部7を作動させる機能を有する。曖昧性解消部7は、情報蓄積部4に記憶装置に格納されているレコードの全件を出力させ、レコードのフィールドの各単語について曖昧さがあるか否か、曖昧語辞書8を検索して順次検査を行う。曖昧後辞書8の記述と他のレコードのフィールドのデータとを比較し、曖昧さを解消して情報蓄積部4の記憶装置9のレコードを更新するように構成されている。
図5は、本例システムを組み込んだ文書検索システムなどの情報抽出装置について、その動作フローを示す。まず、「ハードディスク装置」に関して情報検索を行って、以下3つのテキストA,B,Cを得る。
<テキストA>に含まれる情報
・「ハードディスク装置Aの記憶容量は2.1GBである」
・「ハードディスク装置Aの価格は3万円である」
・「ハードディスク装置Aの平均シーク時間は12msecである」
<テキストB>に含まれる情報
・「ハードディスク装置Bの記憶容量は3.2GBである」
・「ハードディスク装置Bの価格は4万円である」
・「ハードディスク装置Bの平均シーク時間は13msecである」
<テキストC>に含まれる情報
・「ハードディスク装置Cの記憶容量は4.3ギガである」
・「ハードディスク装置Cの価格は5万円である」
・「ハードディスク装置Cの平均シーク・タイムは12ミリ秒である」
<実施例2の動作>
以上、3つのテキストA,B,Cを得て、これら3つのテキストを本例システムの装置に順次入力データとして与える。
まず、制御部1が入力モードで起動すると、データとして入力されたテキストの読み込み先を受け取る。入力されたテキストの読み込み先を一次抽出部2に通知すると、制御部1はその入力されたテキストについて、実施例1で示された一次抽出部2における処理を指示して制御する。その結果、以下のようなレコード例が出力される。
・「記憶容量」「2.1GB」
・「価格」「3万円」
・「平均シーク時間」「12msec」
・「平均シーク時間」「13msec」
・「記憶容量」「3.2GB」
・「価格」「4万円」
・「記憶容量」「4.3ギガ」
・「価格」「5万円」
・「平均シーク・タイム」「12ミリ秒」
また、同義語処理部3において実施例1で示された処理が行われ、この同義語処理部3で入力したレコードをすべて解析し終えると、制御部1に処理完了したことを通知し、以下のようなレコード例が記憶装置9に格納される。
・「記憶/容量」「2.1/GB」×1
・「価格」「3/万円」×1
・「記憶/容量」「3.2/GB」×1
・「価格」「4/万円」×1
・「平均/シーク/時間」「13/msec」×1
・「容量」「4.3/ギガ」×1
・「価格」「5/万円」×1
・「平均/シーク/時間」「12/msec」×2
次に、制御部1が補正モードに切り換えられて起動すると、曖昧性解消部7を作動させて処理完了するまで待機する。曖昧性解消部7では、情報蓄積部4に記憶装置9に格納されているレコードの全件を出力させ、レコードのフィールドの各単語について曖昧さがあるか、曖昧語辞書8を検索して順次検査し、曖昧さを解消する(ステップ:S8)。
ここでいう曖昧語辞書8とは、例えば「ギガ」のように曖昧さがある語を見出し語として、「ギガバイト」「GB」のように曖昧さのない確定表記群と、「メガバイト」「MB」「バイト」のように曖昧さを解消する根拠にできる表記群との対を2対以上リストにしたものである。その曖昧語辞書8には以下のようなレコード例が登録されている。
見出し :「ギガ」
確定表記:「ギガトン」、根拠:「メガバイト」「キロトン」「トン」
確定表記:「ギガバイト」「GB」、根拠:「メガバイト」「MB」「キロバイト」「KB」「バイト」
確定表記:「ギガビット」「Gbit」、根拠:「メガビット」「Mbit」「キロビット」「Kbit」「ビット」
当該単語が曖昧語辞書8に見出し語として登録された語であれば、当該単語について曖昧さがあるものとし、当該レコードと同じ「属性」フィールドを持つほかのレコードの当該単語と同じフィールドのデータが、当該単語を見出し語とする曖昧語辞書8のレコードの曖昧さのない確定表記群か根拠の表記群かに合致する表記を含んでいるか各対を順次検査する。合致した場合、当該表記群の対の確定表記の先頭のもので当該単語の表記を補正する。但し、確定表記が合致した場合はその表記で当該単語の表記を補正する。例えば、曖昧な単語「ギガ」は、同じ「属性」フィールドをもつ他のレコードの同じフィールドが根拠の表記「バイト」を含んでいる場合、「GB」に補正される。補正するための根拠が選られない場合、当該単語に曖昧語である以下のような標識を残す。
「容量」「4.3/ギガ」 1
この標識に曖昧語「ギガ」があるとしているが、属性「容量」をもつレコードが他に存在しないために、「ギガ」に曖昧語である標識を残す。
さらに、曖昧性解消部7においては、例えば「記憶/容量」と「容量」のように、「要点」レコードのフィールドの各単語について、他の「要点」レコードの同じフィールドで当該単語の表記を部分包含する語句を探索し、存在すれば、短い語(包含される語)を長い語(包含する語)に置換して補正する。但し、曖昧語である標識が残る語は上記の探索から除外する。本例では、「容量」を「記憶/容量」といったように補正する。
続いて、上記の部分包含を利用した補正を行った場合、曖昧語である標識が残る語について、再度当該レコードと同じ「属性」フィールドをもつ他のレコードの当該単語と同じフィールドのデータが、曖昧さのない確定表記群か根拠の表記群かに合致する表記を含んでいるかを順次検査する。合致した場合、当該表記群の対の確定表記の先頭のもので当該単語の表記を補正する。本例では、曖昧語である標識が残る「ギガ」の補正された属性「記憶/容量」をもつ他のレコードが確定表記「GB」を含んでいるので、「ギガ」を「GB」に補正し、曖昧語である標識を消去する。
結果、曖昧性解消部7では、以上の処理によって補正したレコードを補正するごとに、あるいは処理後、一括して情報蓄積部4に出力して記憶装置9のレコードを更新する。更新を終了すると、CPU1に処理完了したことを通知する。したがって、本例では以下のようなレコードが記憶装置9に格納される。
・「記憶容量」「2.1/GB」×1
・「価格」「3/万円」×1
・「記憶容量」「3.2/GB」×1
・「価格」「4/万円」×1
・「平均シーク時間」「13/msec」×1
・「記憶容量」「4.3/GB」×1
・「価格」「5/万円」×1
・「平均シーク時間」「12/msec」×2
次に、制御部1が出力モードに切り換えられて起動するが、実施例1の場合と同様な処理が行われ、以下のリスト例が出力される(ステップ:S6)。
・抽出テキスト「3」、抽出属性「3」、抽出総数「9」
・属性「記憶容量」、単位「GB」、総数「3」、最小「2.1」、最大「4.3」、平均「3. 2」、中央「3.2」、分散「0.81」、・・・、「2.1」×1、「3.2」×1、「4. 3」×1
・属性「価格」、単位「万円」、総数「3」、最小「3」、最大「5」、平均「4」、中央「4」、 分散「0.67」、・・・、「3」×1、「4」×1、「5」×1
・属性「平均シーク時間」、単位「msec」、総数「3」、最小「12」、最大「13」、 平均「12.3」、中央「12」、分散「0.22」、・・・、最頻「12」、「12」 ×2、「13」×1
なお、提示情報処理部においては、入力した統計情報のリストを順次解析して、当該装置が目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、制御部1から受け取った統計情報の書き出し先に前記操作による統計情報のリストを出力し、制御部1に処理終了したことを通知する。
図3に示すように、本例システムを組み込んだ情報検索システムなどの情報提示装置は、本例システムが出力した統計情報のリストに基づいて目盛の大きさなどを調整して、その出力をユーザが一見して理解できるようなグラフの形式で表示・印刷などして提示を行う。
<実施例2の効果>
かかる実施例2の効果についてまとめると、例えば様々なメーカやディーラの広告・カタログ類から寄せ集めた情報の場合のように、項目や単位の表記がまちまちで不統一であっても、それらを補正して統計的な処理が可能になる。
<実施例3の構成>
次に、本発明による情報抽出システムの実施例3について、図6を参照して説明する。
上記実施例1,2においては、情報提示を受けたユーザは、例えば最高性能のものや最低価格のものについて情報抽出をした元の文書と見比べようと試みた場合、抽出した情報と元文書との両者間に何らかのリンク情報が必要である。しかし、元文書が数千または数万といった膨大な件数に及ぶことが多々あるために、本例のような情報の抽出システムから提示システムにすべてのリンク情報をむやみに受け渡したのでは、応答時間など性能を大きく損ねる懸念がある。また、本例の情報抽出システムの側にリンク情報を格納して保存しようとすると、記憶装置9に大きなメモリ量が必要となる。
以上を考慮して、この実施例3の情報抽出システムにおいては、抽出情報と元文書の間を取り持つリンク情報を採取(サンプリング)して、比較的少数のリンク情報を情報抽出側から情報提示側へ受け渡す。それにより、本例のような情報抽出システム側の記憶資源を早期に解放して記憶容量の軽減を図る構成としたことが要点となっている。
図6に示すように、構成は実施例1をベースにして新たにサンプリング処理部10が備わっている。制御部1としては同様に入力モードと出力モードに切り換えられて制御を行うようになっている。実施例1と同じく、3つのテキストA,B,C(それぞれハードディスク装置Aの型式という情報を除く)を入手し、これら3つのテキストが入力データとして順次本例システムの装置に入力されるように構成されている。
サンプリング処理部10は、予め定めたサンプリング用数列に従い、抽出した「要点」の一部だけが情報蓄積部4の記憶装置9に格納されるように選別を行う機能を有している。この場合の情報蓄積部4としては、抽出した「要点」のレコードを記憶装置9に格納し、あるいは上記レコードをサンプリング処理部10によって変更して記憶装置9のレコードを更新し、要求に応じて一部または全部のレコードを出力するようになっている。
<実施例3の動作>
本例システムを組み込んだ文書検索システムなどの情報抽出装置については、実施例1の場合と同じく図2に示す動作フローとなる。まず、「ハードディスク装置」に関して情報検索を行って、以下3つのテキストA,B,Cを得る。
まず、制御部1の入力モードにおいて、情報蓄積部4では、入力したレコードの「属性」、「値」の2つのフィールドを記憶装置9から検索して読み出し、2つのフィールド共に同じデータをもつレコードが格納されていない場合、入力したレコードの出現頻度を1として新たなレコードとして記憶装置9に格納する。すでに格納されておれば、検索したレコードと入力したレコードを「対」にしてサンプリング処理部10に出力して通知し、サンプリング処理部10から返還されたレコードで検索レコードを更新する。
サンプリング処理部10は、検索したレコードと入力したレコードの対を情報蓄積部4から受け取ると、検索したレコードの出現頻度を1つ増加させて更新し、更新した出現頻度が予め規定してサンプリング用数列の要素である場合は、入力したレコードのリンク情報を検索レコードのリンク情報に追加して、更新した検索レコードを出力して情報蓄積部4に保存させる。
サンプリング処理部10は、例えば1,2,3,4,8,16,32・・・、あるいは1,2,3・・・8,9,10,20,30・・・80,90,100,200,300・・・といったように規定する。上記リンク情報のリストは、予め規定した上限個数以内の要素数となるように、上限個数を超える場合は最も小さい出現頻度の時点で追加されたリンク情報を消去するなどする。例えばサンプリング用数列を1,2,4,8,16,32・・・として、リストの上限個数が5であれば、出現頻度31までは出現頻度がそれぞれ1,2,4,8,16の時点のリンク情報が記憶装置に格納される。また、出現頻度63までは2,4,8,16,32のリンク情報が、出現頻度127までは4,8,16,32,63のリンク情報が記憶装置に格納されるといったように設定する。
本例では、サンプリング用数列を1,2,4,8・・・とすると、上限個数を2として、「インタフェイス」、「SCSI/2」、「−>テキストC」を入力した時点で出現頻度を3に更新するが、リンク情報は格納しないことになる。
同義語処理部3においては、入力したレコードのすべてに対して解析を終了すると、その旨を制御部1に通知する。
次いで、制御部1は出力モードに切り換えられて起動するが、統計処理部5および提示情報処理部6における一連の処理を制御し、その統計情報の書き出し先を提示情報処理部6に通知するまで実施例1と同様な制御が行われる。記憶装置9に格納されるレコード、ならびに出力されるリストの掲載は省略する。
<実施例3の効果>
そこで、本例システムを組み込んだ情報検索システムなどの情報提示装置では、図7に模式的に例示するように、CRTなどのモニタ表示装置とマウスなどのポインティング装置を備えておれば、リンク情報を保持したデータは色を変えるなどして他のデータと識別しやすいようにし、ユーザがグラフのデータ個所をポイントすると、その個所のデータのリンク情報を参照して元のテキストを即座に提示する機能とすることができる。さらに、グラフをプリンタで印刷して提示する場合、グラフ中に最大値、最小値、平均値のデータのリンク情報を参照してそれらの元のテキストから再度、第一次的に抽出した情報を併記してプリントアウトする機能を実現させることも可能である。
<実施例4の構成>
次に、本発明による実施例4の情報抽出システムについて、図8および図9を参照して説明する。
先の実施例1,2,3の各実施例においては、ユーザは多くの情報から全体的な傾向やいわゆる「世間相場」や人気筋を把握することが可能となる。しかし、ユーザがある一つの製品やサービスを評価する場合は、そのような全体的な傾向や「相場」と比較して相対的な位置を判断していると考えられる。例えば、価格が高位にある製品でも性能が最高位にあれば購入するなり、採用を検討することが考えられる。それに対して、価格が中位の場合でも性能が低位であれば、購入や採用を見送ることも有り得る。これを考慮して、この実施例4においては、ユーザが注目する情報つまり的を絞った情報について、類似する情報の中で相対的な位置づけとして提示することで、そうした評価・判断を支援するように構成されている。
本例システムにおいては、制御部1は入力モードと出力モードに加えて新たに「検索モード」による制御が設定されている。以下、その検索モードを主体に説明する。検索モードを実現するために類似検索部11が備わっている。この類似検索部11は、入力レコードの各フィールドの文字列を単語の並びに解析し、同じ単語の反復や数字の並びなどを消去して、本装置を組み込んだ文書検索システムなどの情報管理装置が利用できる検索用のキーワードのリストに変換する機能を有している。
<実施例4の動作>
図9は、本例システムを組み込んだ文書検索システムなどの情報管理装置について、その動作フローを示す。この場合、上記各実施例で示された各情報を含む3つのテキストA,B,Cが検索可能な状態において、さらに的を絞り注目する別の情報が含まれたテキストTをユーザがデータ入力することで、ユーザからそのテキストTという新たな情報検索が要求される(ステップ:S2)。
〈テキストT〉に含まれる情報
・「ハードディスク装置Tの記憶容量は4GBである」
・「ハードディスク装置Tの価格は3万円である」
・「ハードディスク装置Tの平均シーク・タイムは12ミリ秒である」
制御部1が検索モードに切り換えられて起動すると、入力データであるテキストの読み込み先と出力データである検索用のキーワードのリストなどの書き出し先とを受け取る。その後、制御部1は入力されたテキストの読み込み先を一次抽出部2に送って、その入力テキストについて一次抽出部2から類似検索部9までの各部における一連の処理を制御し、検索用のキーワードのリストなどの書き出し先を類似検索部9に送って出力させる。
一次抽出部2での処理後、以下のようなレコード例が出力される。
・「ハードディスク装置T」「記憶容量」「4GB」
・「ハードディスク装置T」「価格」「3万円」
・「ハードディスク装置T」「平均シーク・タイム」「12ミリ秒」
また、同義語処理部3において処理後、以下のようなレコード例が出力される。
・「ハードディスク装置T」「記憶容量」「4GB」
・「ハードディスク装置T」「価格」「3万円」
・「ハードディスク装置T」「平均シーク時間」「12msec」
類似検索部11は、入力レコードの各フィールドの文字列を単語の並びに解析し、同じ単語の反復や数字の並びなどを消去し、本例システムを組み込んだ文書検索システムなどの情報提示装置が利用できる検索用のキーワードのリストに変換して、上記の入力レコードと検索用のキーワードのリストを制御部1から受け取った書き出し先に出力する。それにより、以下のような要点レコード例とリスト例とが出力される。
・「ハードディスク装置T」「記憶容量」「4GB」
・「ハードディスク装置T」「価格」「3万円」
・「ハードディスク装置T」「平均シーク時間」「12msec」
・検索用キーワード&リスト:「ハードディスク装置T」「記憶容量」「GB」「 価格」「万円」「平均シーク時間」「msec」
すなわち、本例システムを組み込んだ文書検索システムなどの情報提示装置は、本例システムから出力されたキーワードのリストによって情報検索を行い、検索結果として幾つかのテキストを得て、テキストを順次入力データとして付与されて起動する。そのような情報検索を行って3つのテキストA,B,Cを得て、それら各テキストから本例システムに順次テキストを入力データとして付与されるものとする。
次に、制御部1は入力モードに切り換えられて実施例1をはじめとする上記各実施例で示された同様な制御を行い、一次抽出部2から情報蓄積部4までの各部における一連の処理を制御し、同義語処理部3からの処理終了の通知を待って本例システムを次の入力テキストが処理可能な状態に戻す。したがって、以下のようなレコード例が記憶装置に記憶される。
・「記憶容量」「2.1/GB」×1
・「価格」「3/万円」×1
・「記憶容量」「3.2/GB」×1
・「価格」「4/万円」×1
・「平均シーク時間」「13/msec」×1
・「記憶容量」「4.3/GB」×1
・「価格」「5/万円」×1
・「平均シーク時間」「12/msec」×2
次に、制御部1が出力モードに切り換えられて起動すると、注目する情報の要点レコードと出力データである統計情報の書き出し先を受け取ると、注目する情報の要点レコードを統計処理部5に送って、この統計処理部5から提示情報処理部6までの一連の処理を制御し、統計情報の書き出し先を提示情報処理部6に送って出力させる。統計処理部5は、制御部1から受け取った注目する情報の要点レコードの「属性」と同じ「属性」のレコードについてのみ、情報蓄積部4に記憶装置9に格納されているレコードの全件を出力させ、まず当該「属性」が数量尺度か名義尺度かを判定する。CPU1から出力された注目する情報の要点レコードを受け取ると、統計情報のリストと同様の形式のリストに変換して提示情報処理部6に送る。本例では、以下のようなリスト例が出力される。
・抽出テキスト「3」、抽出属性「3」、抽出総数「9」
・属性「記憶容量」、単位「GB」、総数「3」、最小「2.1」、最大「4.3」、平均「3. 2」、中央「3.2」、分散「0.811」、・・・、「2.1」×1、「3.2」×1、 「4.3」×1
・属性「価格」、単位「万円」、総数「3」、最小「3」、最大「5」、平均「4」、中央「4」、 分散「0.67」、・・・、「3」×1、「4」×1、「5」×1
・属性「平均シーク時間」、単位「msec」、総数「3」、最小「12」、最大「13」、 平均「12.3」、中央「12」、分散「0.22」、・・・、最頻「12」、「12」 ×2、「13」×1
・「ハードディスク装置T」、抽出属性「3」
・属性「記憶容量」、単位「GB」、「4」
・属性「価格」、単位「万円」、「3」
・属性「平均シーク時間」、単位「msec」、「12」
提示情報処理部6は、統計処理部5から受け取った統計情報のリストと注目する情報の要点レコードとを順次解析して、当該装置が目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、制御部1から受け取った統計情報の書き出し先に前記操作による統計情報のリストを出力し、制御部1に処理終了したことを通知する。
図10に示すように、本例システムを組み込んだ情報検索システムなどの情報提示装置は、本例装置が出力した統計情報のリストに基づいて目盛りの大きさを調整して、本例装置の出力をユーザが一見して理解できるようなグラフの形式で表示・印刷などの提示を行う。そうした表示・印刷では、類似する情報中においてユーザが注目する情報の相対的な位置を図中★印のごとき符号でもって提示する。
さらに、注目する情報が複数あった場合、再び検索モードで本例装置を作動させ、本例装置が出力した検索用のキーワードのリストを前回のリストと比較して、差が小さい場合には情報検索の実行と本例装置を入力モードで作動させることをスキップし、出力モードで本例装置を作動させて情報の提示を行うことになる。または、本例装置が出力した注目する情報の要点レコードの「属性」が前回の要点レコードの「属性」と同じであれば、前回の統計情報をそのまま利用して、出力モードで本例装置を作動させることもスキップし、ただちに情報の提示を行うこともできる。
また、本例システムのインタフェイスを簡単に構成するために、情報検索の実行を本例装置の機能として構成し、注目する情報を入力データとして作動させれば、出力データとして注目する情報を含んだ統計情報のリストを出力するようにも構成できる。
<実施例4の効果>
かかる実施例4の効果についてまとめると、ユーザが注目する情報を類似の情報の中での相対的な位置として提示することができるため、ユーザはその情報を評価して判断するのに、いわゆる「世間相場」といわれるような全体的傾向を把握しておく必要がなく、またそうした全体的傾向に惑わされない。また、いくつかの情報を見比べたりメモをとったりするなどを行わなくて済み、ユーザの本来の要求に合った情報を検索して提示する機能が向上する。
<実施例5の構成>
次に、本発明による実施例5の情報抽出システムについて、図11を参照して説明する。
上記実施例1〜4においては、情報検索装置などに組み込まれて使用される場合、第一次的に抽出する対象テキストは例えば「ハードディスク装置」に関連するものばかりであった。そのため、「対象」「属性」「値」の3つの情報を含むテキスト内の「要点」の中でも、出現頻度の高い「属性」を含む「要点」が「ハードディスク装置」に関連の高い「要点」であるという経験的知識に基づいて、提示する「属性」を決定していた。しかし、例えば「ハードディスク装置」の「属性」の中で、仮に物理的な大きさ(2.5インチ、3.5インチ、5インチ)の出現頻度が低かったとすると、ユーザには価格に比べて大容量のハードディスク装置であるが、実は、大部分の製品が3.5インチか2.5インチなのに対して、少数派の5インチ・ディスクであるという情報が提示されずに、後でユーザを落胆させたり、トラブルの原因となったりする懸念がある。
以上を考慮して、本例システムではユーザが注目する情報を類似の中での相対的な位置として提示する「属性」の決定について、出現頻度に頼るだけでなく、当該情報の非凡さを推定して非凡な「属性」を優先させて決定するように設定することで、上記のようなユーザの落胆などを解消することを目標としている。
本例の場合も実施例4と同様に、制御部1は検索モード、入力モードおよび出力モードの3つのモードによる制御が設定されている。本例システムの構造的要部として新たに属性選択部12が備わっている。
属性選択部12は、統計処理部5から受け取った統計情報の「属性」と注目する情報の要点レコードの「属性」について、情報の重要性を算出し、前記の情報の重要性の高い順番に、統計情報のリストと注目する情報の要点レコードとをそれぞれ配列して提示情報処理部6に出力する機能を有する。
ここで、上記統計処理部5としては、制御部1から通知された注目する情報の要点レコードの「属性」と同じ「属性」のレコードについて出力し、また記憶装置9に格納されているレコードの全件を情報蓄積部4から出力させる。そして、予め規定した閾値に基づいて選別を行い、出現頻度が高いと判定した「属性」のレコードについて、予め規定した数式により「属性」ごとに「値」の範囲、平均値、分散などの分布の指標を算出して統計情報のリストとする。この統計情報リストと同様の形式に制御部1から受け取った注目する情報の要点レコードを変換したものと併せて、属性選択部12に送るようになっている。
<実施例5の動作>
次に、以上の実施例5の装置を組み込んだ文書検索システムなどの情報管理装置の動作フローについて、実施例4で示された図9を参照して説明する。
この場合、それぞれ以下のような各情報を含む3つのテキストA,B,Cが検索可能な状態になっている。
〈テキストA〉
・「ハードディスク装置Aの記憶容量は2.1GBである」
・「ハードディスク装置Aの価格は3万円である」
・「ハードディスク装置Aの平均シーク時間は12msecである」
・「ハードディスク装置AのインタフェイスはSCSI2である」
〈テキストB〉
・「ハードディスク装置Bの記憶容量は3.2GBである」
・「ハードディスク装置Bの価格は4万円である」
・「ハードディスク装置Bの平均シーク時間は13msecである」
・「ハードディスク装置BのインタフェイスはSCSI2である」
〈テキストC〉
・「ハードディスク装置Cの記憶容量は4.3ギガである」
・「ハードディスク装置Cの価格は5万円である」
・「ハードディスク装置Cの平均シーク・タイムは12ミリ秒である」
・「ハードディスク装置CのインタフェイスはSCSI2である」
これら3つのテキストA,B,Cが検索可能な状態で、注目すべき別の情報を含む次の〈テキストT〉が入力データとして付与される。
〈テキストT〉
・「ハードディスク装置Tの記憶容量は4GBである」
・「ハードディスク装置Tの価格は3万円である」
・「ハードディスク装置Tの平均シーク・タイムは12ミリ秒である」
制御部1が実施例4と同様な検索モードで起動すると、以下のような要点レコードとリストが出力される。
・「ハードディスク装置T」「記憶容量」「4GB」
・「ハードディスク装置T」「価格」「3万円」
・「ハードディスク装置T」「平均シーク時間」「12msec」
・検索用キーワード&リスト:「ハードディスク装置T」「記憶容量」「GB」「 価格」「万円」「平均シーク時間」「msec」
また、制御部1が実施例1と同様な入力モードで起動すると、以下のようなレコード例が記憶装置に格納される。
「記憶容量」「2.1/GB」×1
「価格」「3/万円」×1
「記憶容量」「3.2/GB」×1
「価格」「4/万円」×1
「平均シーク時間」「13/msec」×1
「記憶容量」「4.3/GB」×1
「価格」「5/万円」×1
「平均シーク時間」「12/msec」×2
「インタフェイス」「SCSI/2」×3
さらに、制御部1が実施例1と同様な出力モードで起動すると、実施例1の場合と同じく統計処理部5および提示情報処理部6における一連の処理を制御し、統計情報の書き出し先を提示情報処理部6に送って出力させる。結果、以下のようなリスト例が出力される。
・抽出テキスト「3」、抽出属性「3」、抽出総数「12」
・属性「記憶容量」、単位「GB」、総数「3」、最小「2.1」、最大「4.3」、平均「3. 2」、中央「3.2」、分散「0.81」、・・・、「2.1」×1、「3.2」×1、「4. 3」×1
・属性「価格」、単位「万円」、総数「3」、最小「3」、最大「5」、平均「4」、中央「4」、 分散「0.67」、・・・、「3」×1、「4」×1、「5」×1
・属性「平均シーク時間」、単位「msec」、総数「3」、最小「12」、最大「13」、 平均「12.3」、中央「12」、分散「0.22」、・・・、最頻「12」、「12」 ×2、「13」×1
・属性「インタフェイス」、総数「3」、種類「1」、最小「3」、最大「3」、「SCS I2」×3
・「ハードディスク装置T」、抽出属性「3」
・属性「記憶容量」、単位「GB」、「4」
・属性「価格」、単位「万円」、「3」
・属性「平均シーク時間」、単位「msec」、「12」
そこで、統計処理部5における制御で、数量尺度とした「属性」については、非数字部分を「単位」として、数字部分を数値化して「数値」として、予め定めた数式によって「属性」と「単位」の組みごとに「数値」の範囲(レンジ)、平均値、分散などの分布の指標を算出し、それらの指標と計算のデータとをリストにして、属性選択部10に出力する。名義尺度とした「属性」については、「値」の種類数、度数の範囲などと計算のデータとをリストにして属性選択部10に出力する。数量尺度にも名義尺度にもしなかった「属性」については、単に「値」の種類数をリストにして属性選択部10に出力する。
さらに、制御部1から受け取った注目する情報の要点レコードを、前記の統計情報のリストと同様の形式のリストに変換して属性選択部10に出力する。また、数量尺度とした「属性」については、「数値」が非常に多様となる場合が考えられるが、ある「属性」と「単位」の組みの「数値」が予め定めた閾値を超える場合には、算出した分散などの分布の指標を基にして数値の区間を定め、個々の「数値」とそのデータを当該区間に併合する構成としてもよい。また、その際に最大値、最小値、平均値、最頻値および計算が可能であれば、頻度上の極大、極小などの分布上の特徴的な数値近辺は区間を狭くとり、他は広くするか、あるいは前記分布上の特徴的な数値近辺以外の「数値」とそのデータを出力しないなどの構成にすることも可能である。
属性選択部12は、統計処理部5から受け取った統計情報の「属性」と、注目する情報の要点レコードの「属性」とについて、それら双方の「属性」情報の重要性を算出する。この重要性の算出は、当該「属性」の出現頻度と、注目する情報の要点レコードの当該「属性」の「値」に期待確率から求め、例えば以下の算式から算出する。
情報の重要性=m×当該属性の出現頻度/最頻出属性の出現頻度+n×(1−注目する情報の要点レコードの当該属性の期待確率)
*但し、mとnは予め規定した定数
上記の期待確率は、当該属性が数量尺度の場合は、母集団が正規分布とする家庭してある標本の値が平均値から標準偏差(分数の平方根)以上隔たる確率は約0.16であり、標準偏差の2倍以上隔たる確率は約0.023であるなどのことが知られている。また、当該属性が名義尺度の場合でも同様、ある標本の値が観測される確率を求める方法が幾通りかあり、統計的な検定に利用されている。
本例システムにあっては、期待確率が小さいほど、当該情報は非凡であり、当該情報の重要性が高いと推定できる。また、注目する情報の「記憶容量」の数値「4」は、平均の「3.2」から標準偏差の0.89倍隔たっており、期待確率は0.19、「価格」の数値「3」は平均の「4」から標準偏差の1.2倍隔たっていて、期待確率は0.12であり、また「平均シーク時間」の数値「12」は平均の「12.3」から標準偏差の0.64倍隔たっており、期待確率は0.26であるというように算出される。また、名義尺度である「インタフェイス」は標本3のうちの3が「SCSI2」であるのに対して、注目する情報で「値」がそれ以外(この例では「値」なし)である期待確率が0.23と算出されたものとする。
また、属性選択部12は、情報の重要性の高い順に、統計情報のリストと注目する情報の要点レコードとをそれぞれ配列し、提示情報処理部6に出力する。注目する情報の要点レコードには、上記統計情報のリストに存在するが、統計処理部5から受け取った情報の要点レコードには存在しない属性を補足する。制御部1が当該装置が提示する「属性」の個数を出力条件として受け取る構成とした場合、上記情報の重要性の高い順に上記個数についてだけ提示情報処理部6に出力する。
本例システムでは、「当該属性の出現頻度/最頻出属性の出現頻度」の値がいずれの「属性」も「3/3」なので、定数m,nの値にかかわらず、上記期待確率が小さいほど情報の重要性は高くなる。したがって、本例システムでは以下のようなリスト例が出力される。
・抽出テキスト「3」、抽出属性「4」、抽出総数「12」
・属性「価格」、単位「万円」、総数「3」、最小「3」、最大「5」、平均「4」、中央「4」、 分散「0.67」、・・・、「3」×1、「4」×1、「5」×1
・属性「記憶容量」、単位「GB」、総数「3」、最小「2.1」、最大「4.3」、平均「3. 2」、中央「3.2」、 分散「0.81」、・・・、「2.1」×1、「3.2」×1、 「4.3」×1
・属性「インタフェイス」、総数「3」、種類「1」、最小「3」、最大「3」、「SCS I2」×3
・属性「平均シーク時間」、単位「msec」、総数「3」、最小「12」、最大「13」、 平均「12.3」、中央「12」、分散「0.22」、・・・、最頻「12」、「12」 ×2、「13」×1
・「ハードディスク装置T」、抽出属性「4」
・属性「価格」、単位「万円」、「3」
・属性「記憶容量」、単位「GB」、「4」
・属性「インタフェイス」、名義尺度、なし
・属性「平均シーク時間」、単位「msec」、「12」
以上は、統計的な処理に基づいて注目する情報を提示するには、第一次的に抽出した情報の中でも「平均シーク時間」の情報価値の低いものとみなしたことに相当し、例えば「非常に低価格で比較的大容量のハードディスク装置であるが、インタフェイスはSCSI2ではないかも知れない」というような評価・判断を機械処理で実現したことに相当する。なお、提示情報処理部6の動作は上記各実施例と同様である。
<実施例5の効果>
この実施例5によれば、ユーザが的を絞り注目する情報を表示して提示する際、類似する情報中においてその注目する情報の相対的な位置を表示する。その相対的位置を決めるのに出現頻度に頼るだけでなく、当該情報の重要性を期待確率から算出して求めて、期待確率が小さければ小さいほど当該情報の重要性が高く非凡であることをユーザに知らしめ、ユーザの期待に応えることができる。
本発明による情報抽出システムの実施例1の構成を示すブロック図。 実施例1の動作フロー図。 実施例1の統計情報の表示形態図。 実施例2の構成を示すブロック図。 実施例2の動作フロー図。 実施例3の構成を示すブロック図。 実施例3の統計情報の表示形態図。 実施例4の構成を示すブロック図。 実施例4の動作フロー図。 実施例4の統計情報の表示形態図。 実施例5の構成を示すブロック図。
符号の説明
1 制御部
2 一次抽出部
3 同義語処理部
4 情報蓄積部
5 統計処理部
6 提示情報処理部
7 曖昧性解消部
8 曖昧語辞書
9 記憶装置
10 サンプリング処理部
11 類似検索部
12 属性選択部

Claims (7)

  1. 電子文書化された複数のテキストを順次読み込んで解析し、テキストごとに対象、属性および値の3つの情報からなる第一次情報を「要点」として抽出する一次抽出部と、
    前記「要点」に含まれる単語の異表記および同義語を基準表記に補正する同義語処理部と、
    その基準表記補正後の前記「要点」レコードを記憶して格納し、そのレコードの一部または全部を要求に応じて出力する情報蓄積部と、
    前記「要点」の属性ごとに分布の指標を算出する統計処理部と、
    前記分布の指標を予め規定した形式の統計情報に変換して順次解析し、その統計情報を出力する提示情報処理部と、
    入力モード時に読み込むテキストを指示して前記一次抽出部によって抽出させた「要点」を前記情報蓄積部に格納させるとともに、格納された要点を前記同義語処理部で読み出して補正処理を実行させ、その同義語処理部から処理終了の通知を待って受け取り後に次のテキストに対しても一連の制御を行い、また、出力モード時は前記統計処理部に指示して前記情報蓄積部に格納されている前記要点の一部または全部を読み出させて算出した統計情報を取り出し、前記提示情報処理部に送って順次解析を行わせ、解析して得られた提示情報を提示情報処理部から出力させる一連の制御を行う制御部と、
    を備えたことを特徴とする情報抽出システム。
  2. 前記情報蓄積部に格納されている「要点」のすべてを読み出し、それら「要点」の各単語について曖昧語辞書を検索して曖昧性の有無をチェックし、曖昧性を解消した「要点」として更新して前記情報蓄積部に再格納させる曖昧性解消部を備えてなっていることを特徴とする請求項1に記載の情報抽出システム。
  3. 前記曖昧語辞書は、曖昧さを有する単語を見出し語にして、この見出し語の1つに対して、曖昧さの無い単語からなる確定表記群と曖昧さを打ち消す根拠となる単語からなる解消用表記群とを1対にした場合に2対以上をリストとして構成されていることを特徴とする請求項2に記載の情報抽出システム。
  4. 前記「要点」についてさらに絞り込んだ特定情報を要求する場合、前記テキスト中の最適の文書を選択するための必要最小限のリンク情報を予め規定したサンプリング用数列に基づいて採取するサンプリング処理部を備えたことを特徴とする請求項1,2または3のいずれかに記載の情報抽出システム。
  5. 前記「要点」に含まれる文書の文字列を単語の並び順に解析して同一単語の反復および数字の並びを消去して検索キーワードのリストに変換し、ユーザが注目する情報に類似するものを前記検索キーワードで検索して提示する類似検索部を備えたことを特徴とする請求項1,2,3または4のいずれかに記載の情報抽出システム。
  6. 前記統計情報および前記「要点」の注目する情報のそれぞれに含まれる属性の重要性を算出する属性選択部を備えてなっていることを特徴とする請求項1,2,3,4または5のいずれかに記載の情報抽出システム。
  7. 前記類似検索部は前記注目する情報をこれに類似する情報の中での相対的な位置として提示するようにしたことを特徴とする請求項5に記載の情報抽出システム。
JP2004057918A 2004-03-02 2004-03-02 情報抽出システム Pending JP2005250682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004057918A JP2005250682A (ja) 2004-03-02 2004-03-02 情報抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004057918A JP2005250682A (ja) 2004-03-02 2004-03-02 情報抽出システム

Publications (1)

Publication Number Publication Date
JP2005250682A true JP2005250682A (ja) 2005-09-15

Family

ID=35031120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004057918A Pending JP2005250682A (ja) 2004-03-02 2004-03-02 情報抽出システム

Country Status (1)

Country Link
JP (1) JP2005250682A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
WO2018025317A1 (ja) * 2016-08-02 2018-02-08 株式会社日立製作所 自然言語処理装置及び自然言語処理方法
JP2020201855A (ja) * 2019-06-13 2020-12-17 株式会社ビデオリサーチ 疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765013A (ja) * 1993-08-26 1995-03-10 Toshiba Corp 文書検索装置
JPH08329165A (ja) * 1995-05-31 1996-12-13 Toshiba Corp テキスト抽出処理装置及びテキスト抽出処理方法
JPH09101947A (ja) * 1995-10-06 1997-04-15 Hitachi Ltd 時系列予測方法
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2000099516A (ja) * 1998-09-25 2000-04-07 Fuji Xerox Co Ltd 情報管理装置、共同作業支援システム、情報管理方法及び情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
JP2003050807A (ja) * 2001-05-30 2003-02-21 Hewlett Packard Co <Hp> 重要用語・句・文抽出方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765013A (ja) * 1993-08-26 1995-03-10 Toshiba Corp 文書検索装置
JPH08329165A (ja) * 1995-05-31 1996-12-13 Toshiba Corp テキスト抽出処理装置及びテキスト抽出処理方法
JPH09101947A (ja) * 1995-10-06 1997-04-15 Hitachi Ltd 時系列予測方法
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2000099516A (ja) * 1998-09-25 2000-04-07 Fuji Xerox Co Ltd 情報管理装置、共同作業支援システム、情報管理方法及び情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003050807A (ja) * 2001-05-30 2003-02-21 Hewlett Packard Co <Hp> 重要用語・句・文抽出方法
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徳永健伸: "情報検索と言語処理", 情報検索と言語処理, JPN6009041546, 25 November 1999 (1999-11-25), pages 130, ISSN: 0001395750 *
那須川 哲哉、河野 浩之、有村 博紀: "テキストマイニング基盤技術", 人工知能学会誌, vol. 16巻,2号, JPN6009041543, March 2001 (2001-03-01), pages 201 - 211, ISSN: 0001395749 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
JP2010117797A (ja) * 2008-11-11 2010-05-27 Hitachi Ltd 数値表現処理装置
WO2018025317A1 (ja) * 2016-08-02 2018-02-08 株式会社日立製作所 自然言語処理装置及び自然言語処理方法
JPWO2018025317A1 (ja) * 2016-08-02 2018-11-15 株式会社日立製作所 自然言語処理装置及び自然言語処理方法
JP2020201855A (ja) * 2019-06-13 2020-12-17 株式会社ビデオリサーチ 疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム

Similar Documents

Publication Publication Date Title
US6564210B1 (en) System and method for searching databases employing user profiles
JP3270783B2 (ja) 複数の文書検索方法
US8630972B2 (en) Providing context for web articles
US7769771B2 (en) Searching a document using relevance feedback
JP5255766B2 (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
JP3717808B2 (ja) 情報検索システム
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
JP2005182817A (ja) クエリレコグナイザ
JP2009169541A (ja) Webページ検索サーバ及びクエリ推薦方法
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
US20050065920A1 (en) System and method for similarity searching based on synonym groups
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
JP2003271609A (ja) 情報監視装置及び情報監視方法
JP2001084256A (ja) データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2005250682A (ja) 情報抽出システム
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP2020064482A (ja) 属性抽出装置および属性抽出方法
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
JP5257189B2 (ja) 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
KR100931693B1 (ko) 키워드 검색 방법
JP4146067B2 (ja) 文書検索システムおよび文書検索方法
JP7261262B2 (ja) 単語間スコア算出装置、質問応答抽出システム、及び単語間スコア算出方法
JP5068304B2 (ja) 抽出装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100112