JP2005250682A

JP2005250682A - 情報抽出システム

Info

Publication number: JP2005250682A
Application number: JP2004057918A
Authority: JP
Inventors: Hitoshi Sakamoto; 仁坂本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-03-02
Filing date: 2004-03-02
Publication date: 2005-09-15

Abstract

【課題】電子文書化された大量のテキスト・データベースからユーザが最も求めている情報は何かを分析し、判断して的確かつ迅速に提示して支援することで、文書検索装置への利用が有効な情報抽出システムを提供する。
【解決手段】一次抽出部２、同義語処理部３、情報蓄積部４、統計処理部５および提示情報処理部６に加えて、さらに曖昧性解消部７が設けられ、日本語の１つの単語が表示の仕方で距離とも、重量とも読める曖昧さをもっている場合でも、曖昧語辞書８を参照して曖昧性解消部７がそれを処理して情報蓄積部４に格納されている当該単語を曖昧性のない表現のものに更新する。提示情報処理部６は、ユーザが求める情報についてその全体を一見して把握できるようにグラフなど統計情報を提示してＬＣＤやＣＲＴの表示装置で表示したり、プリンタで印刷できるようにする。
【選択図】図４

Description

本発明は、電子文書化された大量のデータベースのテキストの中からユーザが要求するデータのみを的確、迅速かつ簡便に抽出する文書検索システム等に利用される情報抽出システムに関する。

従来、大量の情報を格納した文書データベースからユーザが必要な情報を検索して取り出す場合、ユーザが必要とする文書や情報を入手するまでには多大な時間や労力を費やしているのが現状である。そうした背景から膨大な文書や情報のデータ中から抄録とか要約を作成する技術を利用し、検索した文書中から必要文のみを抽出して表示する手法が研究されてきた。

例えば、下記特許文献１の「文書検索システム」では、意見や提言などのように、文章の内容を識別するための複数種類の文型を設定しておいて、予め設定されている複数の文型からユーザが所望する文書や情報を選択すると、抜粋文データベースから文型に対応する抜粋文データを抽出する技術内容が開示されている。
特開平８−２５５１７２号公報

しかしながら、上記公報などにおいて開示された技術は、それぞれ独立した文書から個々に必要部分のみを抽出して提示するものであるから、いくつもの文書から同じ情報が抽出される場合が多々ある。そのため、ユーザとしては抽出されてきた複数の文書を見比べる手間や労力を要するといった不都合がある。現在のように、情報通信ネットワークが普及すると、例えば数千ページにも及ぶ文書情報を検索する場合がある。そのような膨大な文書量の中からたとえ１頁につき一行の必要部分を抽出できたとしても、ユーザはなおも数千行の文書を通読して選別したり、比較などして本当に要求する情報のみを選別する必要がある。ところが、上記公報を初めとする従来技術においては、抽出部分がすべて同じ文型となっているために、それらからさらに本当に要求する部分を選別したり、抽出できないといった問題がある。

例えば、「製品Ｚの性能Ｙは値Ｘである」といったテンプレートまたは文型パターンを用いて第一次の抽出を行ったとする。その抽出結果はすべて「製品Ｚの性能Ｙは値Ｘである」と同じ形式になる。すなわち、テンプレートや文型パターンを利用する技術においては、抽出結果をさらに絞り込んだ第二次的な抽出は望めない。ところが、何らかの製品やサービスを選択しようとする場合は、多くは「対象Ｚの属性Ｙは値Ｘである」と同様の形式の情報によって、比較して判断すると考えられる。例えば、「交通経路」の場合でも、「Ａ経由の所要時間はＸＸ時間である」「Ａ経由の運賃はＸＸ円である」「Ａ経由の乗換回数はＸ回である」「Ｂ経由の・・・」・・・という情報を比較して判断していると考えられ、ユーザが満足する情報を抽出・提示するには、こうした比較・判断に利用しやすいように情報を提示することが求められる。

そうした問題点に鑑み、本発明の目的は、電子文書化された大量のテキスト・データベースからユーザが最も求めている情報は何かを分析し、判断して的確かつ迅速に提示して支援することで、文書検索装置への利用が有効な情報抽出システムを提供することにある。

上記の点を解決して目的を達成するために、本発明による請求項１記載の情報抽出システム次の構成を採用する。
<構成>
電子文書化された複数のテキストを順次読み込んで解析し、テキストごとに対象、属性および値の３つの情報からなる第一次情報を「要点」として抽出する一次抽出部と、「要点」に含まれる単語の異表記および同義語を基準表記に補正する同義語処理部と、その基準表記補正後の前記「要点」レコードを記憶して格納し、そのレコードの一部または全部を要求に応じて出力する情報蓄積部と、「要点」の属性ごとに値の範囲、平均値および分散からなる分布の指標を算出する統計処理部と、分布指標を予め規定した形式の統計情報を指定された表示装置または印刷装置に対して出力する提示情報処理部と、入力モード時に読み込むテキストを指示して前記一次抽出部によって抽出させた「要点」を前記情報蓄積部に格納させるとともに、格納された要点を前記同義語処理部で読み出して補正処理を実行させ、その同義語処理部から処理終了の通知を待って受け取り後に次のテキストに対しても一連の制御を行い、また、出力モード時は前記統計処理部に指示して前記情報蓄積部に格納されている前記要点の一部または全部を読み出させて算出した統計情報を取り出し、前記提示情報処理部に送って順次解析を行わせ、解析して得られた提示情報を提示情報処理部から出力させて指定する書き出し先の表示装置または印刷装置に送る一連の制御を行う制御部と、を備えたことを特徴とする。

以上から、請求項１記載の情報抽出システムでは、一次抽出部はテキストの内容について、ユーザが求める情報に添って第一段階として「要点」を抽出する。同義語処理部は「要点」中の文字列の単語について同義語や異表記を順次検査して基準表記に補正する。そのように処理された「要点」は情報蓄積部に格納される。統計処理部はその格納された「要点」のすべてを読み出し、閾値に基づいて選別し、「要点」中の「属性」ごとに「値」の範囲、平均値、分散など分布の指標を算出し、統計情報を作成する。提示情報処理部は、そうした統計情報を読み出し、順次解析してＣＲＴなど表示装置、またはプリンタにむけて出力することで、ユーザに一見して理解しやすいグラフなどの表示でもって提示する。

また、請求項２に記載の情報抽出システムは次の構成を採用する。
<構成>
情報蓄積部に格納されている「要点」のすべてを読み出し、それら「要点」の各単語について曖昧語辞書を検索して曖昧性の有無をチェックし、曖昧性を解消した「要点」として更新して情報蓄積部に再格納させる曖昧性解消部を備えてなっていることを特徴とする。

以上から、請求項２記載の情報抽出システムでは、日本語の１つの単語が表示の仕方で距離とも、重量とも読める曖昧さをもっている場合でも、曖昧性解消部がそれを処理して情報蓄積部に格納されている当該単語を曖昧性のない表現のものに更新する。

また、請求項３に記載の情報抽出システムは次の構成を採用する。
<構成>
曖昧語辞書は、曖昧さを有する単語を見出し語にして、この見出し語の１つに対して、曖昧さの無い単語からなる確定表記群と曖昧さを打ち消す根拠となる単語からなる解消用表記群とを１対にした場合に２対以上をリストとして構成されていることを特徴とする。

以上から、請求項３記載の情報抽出システムでは、曖昧さの有する単語はそれを見出し語にして曖昧語辞書に格納されているので、曖昧さのある単語は即座にその曖昧語辞書を参照して曖昧さのない確定表記に補正されて更新される。
曖昧語辞書は、例えば「キロ」が文脈によっては「キロメートル」に意味にも、「キログラム」の意味にも理解されるような場合、その「キロ」を見出し語にして、「キロメートル」、「Ｋｍ」または「キログラム」、「Ｋｇ」のような曖昧さの無い確定表記リストと、一方では「マイル」、「メートル」または「トン」、「グラム」のように確定表記と同系統の語句であって曖昧さを打ち消す根拠にできる表記リストと、を対にする。この確定表記リストと打ち消し表記リストとによる対の２対以上を「組」にして記録したものである。

また、請求項４に記載の情報抽出システムは次の構成を採用する。
<構成>
「要点」についてさらに絞り込んだ特定情報を要求する場合、テキスト中の最適の文書を選択するための必要最小限のリンク情報を予め規定したサンプリング用数列に基づいて採取するサンプリング処理部を備えたことを特徴とする。

以上から、請求項４記載の情報抽出システムでは、抽出された「要点」について元のテキスト文書を参照したい場合がある。その際、参照するために仲立ちするリンク情報が存在すれば面倒な検索を行わずに済む。しかし、元のテキストは膨大な量に及ぶ場合があるので、その量に対応するだけのリンク情報を情報蓄積部に格納しておくのでは、メモリ量が極大化することで応答性が大変低下する不都合がある。すなわち、記憶手段に大きな記憶資源が必要となる。そこで、サンプリング処理部では、必要最小限のリンク情報となるように予め規定したサンプリング用数列に基づいて選別する。それによって、記憶資源を軽減できるようにする。

また、請求項５に記載の情報抽出システムは次の構成を採用する。
<構成>
「要点」に含まれる文書の文字列を単語の並び順に解析して同一単語の反復および数字の並びを消去して検索キーワードのリストに変換し、ユーザが注目する情報に類似するものを前記検索キーワードで検索して提示する類似検索部を備えたことを特徴とする。

以上から、請求項５記載の情報抽出システムでは、ユーザが注目する情報を類似の情報中において相対的な位置としてユーザに類似検索部から提示することで、ユーザの評価・判断を支援する。

また、請求項６に記載の情報抽出システムは次の構成を採用する。
<構成>
統計情報および「要点」の注目する情報のそれぞれに含まれる属性の重要性を算出する属性選択部を備えてなっていることを特徴とする。

以上から、請求項６記載の情報抽出システムは、前述のように、類似検索部によって提示された類似の情報中から「属性」をさらに属性選択部によって優先的に決定することで、ユーザが求める注目する情報により一層合致できるようになる。

また、請求項７に記載の情報抽出システムは次の構成を採用する。
<構成>
前記類似検索部は前記注目する情報をこれに類似する情報の中での相対的な位置として提示するようにしたことを特徴とする。

以上から、請求項７記載の情報抽出システムでは、類似検索部はユーザが注目する情報を類似の情報の中での相対的な位置として提示することで、ユーザはその提示を認識して当該情報の世間相場のような全体的傾向によって評価・判断を惑わされない。

本発明による情報抽出システムは、以下の効果を奏する。
（ａ）大量の電子化テキストデータベースから、ユーザが求めるデータをコンピュータシステムを利用して入手して提示する情報検索システムなどの情報提示装置に組み込まれて有効であり、ユーザによる大量情報との比較を容易化し、そこからの評価・判断などが一層的確なものとなるように支援する用途に利用できる。
（ｂ）また、改善された同義語処理部や曖昧性解消部によって、日本語以外の英語など外国言語で記述されて電子化テキストデータベースにも対応でき、日本語と英語といった多言語が混在する電子化テキストデータベースにも好適に対応させることも可能である。

一次抽出部、同義語処理部、情報蓄積部、統計処理部および提示情報処理部に加えて、さらに曖昧性解消部と、類似検索部と、属性選択部を設けることにより、テキストデータベースなどの元資料の内容について全体的な傾向をユーザにいち早く提示する統計情報を自動的に作成する。

<実施例１の構成>
図１は、本発明による情報抽出システムの実施例１の構成を示すブロック図である。本例システムは、以下の各部を要部とするシステム全体の制御を行う制御部および演算部からなる中央制御装置（ＣＰＵ）を備え、電子文書化された元の資料（テキスト）の内容について、ユーザが求める情報を検索する初期の段階で、第一次的かつ全体的な傾向を把握できるような統計情報を自動作成するようになっている。中央制御装置の制御部１では、入力モードと出力モードの二種のモードに切り換えられて起動するようになっている。入力モードでは、ユーザが操作して求める情報を探索するための文字列を入力したときの文字列信号の読み込み先を受け取り、一次抽出部２、同義語処理部３および情報蓄積部４の各部において一連の制御を行う。出力モードでは、出力データである統計情報の書き出し先を受け取り、統計処理部５および提示情報処理部６の各部において一連の制御を行う。

入力モードにおいて作動する一次抽出部２は、既存の情報抽出システムや情報検索システムなどに備わったものを流用するなどして構成され、入力した複数のテキストを順次解析し、それらテキストごとに「対象」、「属性」、「値」の３つの情報からなる「要点」を抽出するよう構成されている。「対象」、「属性」および「値」の具体例については動作説明で後述する。

同じく入力モードにおいて作動する同義語処理部３は、既存の機械翻訳システムなどに備わる字句解釈などを流用して構成され、ユーザ操作で入力された文字列の単語の並びの解析を行い、その単語表記を順次検査して表記のゆれを予め定めた規則に従って補正する。さらに、「同義語辞書」を検索して辞書内登録済み語句であるならば、それを基準表記に補正するよう構成されている。

同じく入力モードにおいて作動する情報蓄積部４は、抽出した前記「要点」のレコードを記憶装置９に格納し、そのレコードの一部または全部を要求に応じて出力するように構成されている。

一方、出力モードにおいて作動する統計処理部５は、情報蓄積部４に指示して記憶装置に格納されているレコードの全件を出力させ、予め定めた閾値に基づいて選別を行い、出現頻度の高いと判定された「属性」のレコードについて、予め定めた数式により「属性」ごとに「値」の範囲、平均値、分散などからなる分布指標を算出して出力するように構成されている。

同じくその出力モードにおいて作動する提示情報処理部６では、入力した統計情報のリストを順次解析して、当該装置の目的とする表示装置や印刷装置などの提示の形式に変更して指定された統計情報の書き出し先へ出力するよう構成されている。

<実施例１の動作>
次に、以上各部からなる実施例１の作用および動作について、図２のフローチャートを参照して説明する。

ユーザが求める情報の「要点」の１つである「対象」として、例えば「ハードディスク装置」についてその性能や価格などの最適情報や問い合わせ事項（クエリー）の情報提供を求めているような場合、ユーザによる入力操作で検索が開始される(ステップ：Ｓ１，Ｓ２）。すると、以下に例示する情報が含まれた３つのテキストＡ，Ｂ，Ｃを既存情報から流用するなどして得て、これら３つのテキストが入力データとして順次本例システムに入力される(ステップ：Ｓ３）。
<テキストＡ>に含まれる情報
・「ハードディスク装置Ａの記憶容量は２．１ＧＢである」
・「ハードディスク装置Ａの価格は３万円である」
・「ハードディスク装置Ａの平均シーク時間は１２ｍｓｅｃである」
・「ハードディスク装置ＡのインターフェイスはＳＣＳＩ２である」
・「ハードディスク装置Ａの型式はＡ２１１６である」
<テキストＢ>に含まれる情報
・「ハードディスク装置Ｂの記憶容量は３．２ＧＢである」
・「ハードディスク装置Ｂの価格は４万円である」
・「ハードディスク装置Ｂの平均シーク時間は１３ｍｓｅｃである」
・「ハードディスク装置Ｂのバッファ容量は２５６ＫＢである」
・「ハードディスク装置ＢのインターフェイスはＳＣＳＩ２である」
・「ハードディスク装置Ｂの型式はＢ３２８８０である」
<テキストＣ>に含まれる情報
・「ハードディスク装置Ｃの記憶容量は４．３ＧＢである」
・「ハードディスク装置Ｃの価格は５万円である」
・「ハードディスク装置Ｃの平均シーク・タイムは１２ミリ秒である」
・「ハードディスク装置Ｃのバッファ容量は２５６ＫＢである」
・「ハードディスク装置ＣのインターフェイスはＳＣＳＩ２である」
・「ハードディスク装置Ｃの型式はＣ４３８０である」
これら各テキスト中のハードディスク装置Ａ，Ｂ，Ｃが上記「要点」の１つである「対象」を意味する。その「対象」に関する「属性」とは記憶容量、価格、平均シーク時間、そしてインターフェイスなどを指す。また、それら「属性」に関するそれぞれの「値」とは、記憶容量では２．１ＧＢ、価格は３万円、平均シーク時間は平均１２ｍｓｅｃ、そしてインターフェイスはＳＣＳＩ２などといった具体的数字や数量を言っている。すなわち、ユーザが例えばパソコン購入などに際し、購入機のハードディスク装置を対象物として、それに関する情報提供を求めているとする。そうした場合、ハードディスク装置は記憶容量や価格といった様々な属性を持っており、記憶容量については３．２ＧＢ、価格については３万円といった特定の数量値を持っている筈であるから、それらを知りたい情報の「要点」として求めるような状況を想定することができる。

制御部１が入力モードで起動すると、入力データであるテキストの読み込み先を受け取り、その入力テキストの読み込み先を一次抽出部２に通知する。当該テキストについて一次抽出部２から情報蓄積部４までの一連の作動を制御し、同義語処理部３から処理終了したことの報告を待って、次の入力テキストが処理可能な状態に戻す。

一次抽出部２では、既知手段によって入力されたテキストを順次解析して、それらテキスト内の「要点」を抽出し、少なくとも「属性」と「値」の２つのフィールドからなるレコードを出力して同義語処理部３へ通知する。例えば、「ＺのＹはＸである」、「ＺはＸのＹ」、「ＺはＹＸ」・・・といったテンプレート群と「Ｙ」になり得る「記憶容量」、「容量」、「提供価格」、「価格」、「平均シーク時間」、「回転速度」・・・のリストとを予め高速に読み出せる記憶装置９上に配置し、それらを組み合わせて入力したテキストに照合させるなどして、入力したテキストから「対象」、「属性」、「値」からなる「要点」に対応する部分を抽出する。例えば、「容量」については、「製品Ｚの容量はＸＸＭＢであり、」、「製品ＺはＸＸＭＢの容量を備え」、「製品Ｚは容量ＸＸＭＢのハイエンド製品」・・・というテキスト部分に照合して、いずれの部分からも「製品Ｚ」という「対象」と「容量」という「属性」と「ＸＸＭＢ」という「値」とを抽出する。

また、この一次抽出部２では、「対象」の選別を行い、本例の場合は「ハードディスク装置」に関連しない「対象」については抽出せず、あるいは同義語処理部３に出力しない構成が可能であればそのように構成する。本例が情報検索装置などに組み込まれて使用される場合、一次抽出部２が対象とするテキストは、例えば「ハードディスク装置」に関連しているものばかりであるので、そのような選別をしない構成も可能である。

したがって、本例では、以下のようなレコード例が出力される。
・「記憶容量」「２．１ＧＢ」
・「価格」「３万円」
・「平均シーク時間」「１２ｍｓｅｃ」
・「インタフェイス」「ＳＣＳＩ２」
・「型式」「Ａ２１１６」
・「記憶容量」「３．２ＧＢ」
・「価格」「４万円」
・「平均シーク時間」「１３ｍｓｅｃ」
・「バッファ容量」「２５６ＫＢ」
・「インターフェイス」「ＳＣＳＩ２」
・「型式」「Ｂ３２８８０」
・「記憶容量」「４．３ＧＢ」
・「価格」「５万円」
・「平均シーク・タイム」「１２ミリ秒」
・「インタフェイス」「ＳＣＳＩ２」
・「バッファ容量」「２５６ＫＢ」
・「型式」「Ｃ４３８０」

一方、同義語処理部３においては、入力レコードの各フィールドの文字列を単語の並びに解析し、その並びの単語表記を順次検査し、表記のゆれを予め定めた規則に従って補正し、さらに上記同義語辞書を検索して登録された語であれば、基準表記に補正して情報蓄積部４に出力する。ここでは、例えば２文字以上のカタカナに続く「−」や「ー」を消去する。カタカナに挟まれた「・」を消去するなどの規則が定められ、また同義語辞書には「タイム」が基準表記「時間」、「ミリ秒」が基準表記「ｍｓｅｃ」、「フェース」が基準表記「フェイス」として、それぞれ登録されている。また、この同義語処理部３は、単語の並びを解析する際、「値」のフィールドが数字の並びと非数字の並びとに分離した区切り情報を当該レコードに追加する（以下、区切り情報を／で表記する）。

情報蓄積部４においては、入力したレコードを記憶装置９から検索して読み出し、すでに格納されておれば検索したレコードの出現頻度を１つ増加させて更新する。格納記憶されていなければ、入力したレコードの出現頻度１として新たなレコードとして記憶装置に格納する(ステップ：Ｓ４）。

したがって、同義語処理部３において、入力したレコードのすべてを検索して解析し終えるまで動作フローを繰り返し(ステップ：Ｓ５）、解析終了すると制御部１に処理完了したことを通知する。本例では、以下のようなレコードが記憶装置９に格納される。
・「記憶容量」「２．１／ＧＢ」×１
・「価格」「３／万円」×１
・「型式」「Ａ／２１１６」×１
・「記憶容量」「３．２／ＧＢ」×１
・「価格」「４／万円」×１
・「平均シーク時間」「１３／ｍｓｅｃ」×１
・「型式」「Ｂ／３２８８０」×１
・「記憶容量」「４．３／ＧＢ」×１
・「価格」「５／万円」×１
・「平均シーク時間」「１２／ｍｓｅｃ」×２
・「バッファ容量」「２５６ＫＢ」×２
・「インタフェイス」「ＳＣＳＩ／２」×３
・「型式」「Ｃ／４３８０」×１

次に、制御部１が出力モードに切り換えられて起動する。出力データである統計情報の書き出し先を受け取ると、統計処理部５から提示情報処理部６までの一連の処理を起動し、その統計情報の書き出し先を提示情報処理部６に送って出力させる(ステップ：Ｓ６）。

統計処理部５においては、情報蓄積部４に記憶装置に格納されているレコードの全件を出力させ、予め定めた閾値に基づいて選別し、出現頻度の高い「属性」のレコードについてのみ、まず当該「属性」が数量尺度か名義尺度かを判定する。本例では、説明を理解しやすくするために、最高出現頻度の７０％以上の出現頻度の「属性」のみ処理対象とする（実際、数個のデータしかない「属性」について統計的な計算をすることは意味がない）。

判定については、例えば当該「属性」の「値」を数字部分と非数字部分に分離し、数字部分と非数字部分との種類数をそれぞれ係数して、数字の種類数が予め定めた閾値を超え、かつ非数字部分の種類数が予め定めた閾値を下回っておれば、当該「属性」を数量尺度とする。前記条件を満たさないもので、「値」の種類数が予め定めた閾値を下回っておれば、当該「属性」の名義尺度とする。本例では、説明を理解しやすくするために、これらの閾値をどちらも「値」の総個数をＮとした場合のｌｏｇ（Ｎ）とすると、「平均シーク時間」の数字部分の種類数は「１２」と「１３」の２つであり、非数字部分の種類数は「ｍｓｅｃ」の１であるが、２＞ｌｏｇ（３）＞１であるため、「平均シーク時間」も数量尺度となる。「インタフェイス」は数字部分の種類数が１つしかなく、「型式」は非数字部分の種類数が３つもあるため、どちらも数量尺度の条件を満たさないが、「インタフェイス」は「値」の種類数が１つしかなく名義尺度となり、「型式」は「値」の種類数が３つもあって名義尺度でもないとなる。

次に、数量尺度とした「属性」については、非数字部分を「単位」として、数字部分を数値化して「数値」として、予め定めた数式によって「属性」と「単位」の組ごとに「数値」の範囲（レンジ）、平均値、分散などの分布の指標を算出し、それらの指標と計算のデータとをリストにして、提示情報処理部６に出力する。名義尺度とした「属性」については、「値」の種類数、度数の範囲などと計算のデータとをリストにして、提示情報処理部６に出力する。数量尺度にも名義尺度にもしなかった「属性」については、単に「値」の種類数をリストにして提示情報処理部６に出力する。

制御部１が、提示情報処理部６が提示する「属性」の個数を出力条件として受け取る構成とされている場合、統計処理部５は出現頻度の高い「属性」を前記の個数についてだけ分布の指標を算出し、それらの指標と計算のデータとをリストにして提示情報処理部６に出力する。それに対して、制御部１が提示情報処理部６の提示する「属性」を出力条件として受け取る構成となっている場合は、統計処理部５は前記の「属性」についてだけ分布の指標を算出し、それらの指標と計算のデータとをリストにして提示情報処理部６に出力する。また、数量尺度とした「属性」については、「数値」が非常に多様となる場合が考えられるが、ある「属性」と「単位」の組み「数値」が予め定めた閾値を超える場合には、算出した分散などの分布の指標を基にして数値の区間を定め、個々の「数値」とそのデータを当該区間に併合する構成としてもよい。また、その際に最大値、最小値、平均値、最頻値および計算が可能であれば、頻度上の極大、極小などの分布上の特徴的な数値近辺は区間を狭くとり、他は広くするか、あるいは前記分布上の特徴的な数値近辺以外の「数値」とそのデータを出力しないなどの構成にすることも可能である。

したがって、本例では、以下のようなリスト例が出力される。
・抽出テキスト「３」、抽出属性「３」、抽出総数「９」
・属性「記憶容量」、単位「ＧＢ」、総数「３」、最小「２．１」、最大「４．３」、平均「３．２」、中央「３．２」、分散「０．８１」、・・・、「２．１」×１、「３．２」×１、「４．３」×１
・属性「価格」、単位「万円」、総数「３」、最小「３」、最大「５」、平均「４」、中央「４」、分散「０．６７」、・・・、「３」×１、「４」×１、「５」×１
・属性「平均シーク時間」、単位「ｍｓｅｃ」、総数「３」、最小「１２」、最大「１３」、平均「１２．３」、中央「１２」、分散「０．２２」、・・・、最頻「１２」、「１２」 ×２、「１３」×１
・属性「インタフェイス」、総数「３」、種類「１」、最小「３」、最大「３」、「ＳＣＳＩ２」×３
・属性「型式」、総数「３」、種類「３」

以上は、例えばテキストＣから第一次的に抽出した情報の中でも「平均シーク・タイム」や「ミリ秒」などの表記のゆれを補正して、「バッファ容量」や「型式」の情報価値の低いものとみなしたことに相当し、第一次的に抽出した情報がかなりの量のデータであっても、その情報価値を保ったままで出力されるリストは比較的に小さなデータ量に抑えている。

提示情報処理部６においては、入力したリストを順次解析して、目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、ＣＰＵ１から受け取った統計情報の書き出し先に前述のような操作による統計情報のリストを出力し、制御部１に処理終了したことを通知する。

本例のシステムを組み込んだ情報検索システムなどの情報抽出装置は、本例システムが出力した統計情報のリストに基づいて目盛の大きさなどを調整し、図３に示すように、ユーザが一見して理解できるようなグラフの形式でもって表示・印刷などして、ユーザが所望する情報を提示する(ステップ：Ｓ７）。この図３のグラフでは、所望する情報の属性として、記憶容量、価格およびインタフェイスについて、それらの各数値を横軸とした場合に、数値ごとに出現頻度を◇図形の個数を縦軸に表しており、ユーザはその個数の多少で求める情報の世間相場や性能の人気筋を視覚でもって推測することができる。

<実施例１の効果>
（ａ）情報検索の結果から第一次的に抽出した情報がなお且つかなりの分量である場合でも、統計的な処理に基づいて分布などに関する情報をユーザに対して一見して理解できる形式で表示して提供する。
（ｂ）最高性能のものはどの程度か、価格帯のような分布上の特徴の情報を見て識別することで、ユーザは効率よく全体の情報について概要を把握できる。
（ｃ）数値でもって表せないような情報についても、最も出現頻度の多いものはどれかを見て識別するだけで、ユーザは効率よく全体の情報について概要を一目瞭然に把握でき、ユーザの所望する真の情報を的確、迅速かつ簡便に提供する。

<実施例２の構成>
次に、本発明による情報抽出システムの実施例２について、図４および図５を参照して説明する。

先の実施例１では、例えば様々なメーカやディーラの広告・カタログ類から寄せ集めた情報の場合のように、項目や単位の表記がまちまちで不統一であれば、的確かつ十分な統計処理が行えない。すなわち、実施例１では、例えば「重さ」と「重量」、「キログラム」と「Ｋｇ」のように、曖昧さが解消できる異表記・同義語などを補正していた。これをさらに改善したシステムとして、実施例２においては「キロ」が「Ｋｇ」か「Ｋｍ」のいずれであるかを判定する場合のように、曖昧さを解消できない場合でも補正する機構が備わっている。

本例システムでは、制御部１は入力モードと出力モードに加えて新たに「補正モード」の３種のモードで起動するように設定されている。入力モードと出力モードについては実施例１と同様であるので、ここでは補正モードについて重点的に説明する。

補正モードにおいて、図４に示すように、曖昧性解消部７を作動させる機能を有する。曖昧性解消部７は、情報蓄積部４に記憶装置に格納されているレコードの全件を出力させ、レコードのフィールドの各単語について曖昧さがあるか否か、曖昧語辞書８を検索して順次検査を行う。曖昧後辞書８の記述と他のレコードのフィールドのデータとを比較し、曖昧さを解消して情報蓄積部４の記憶装置９のレコードを更新するように構成されている。

図５は、本例システムを組み込んだ文書検索システムなどの情報抽出装置について、その動作フローを示す。まず、「ハードディスク装置」に関して情報検索を行って、以下３つのテキストＡ，Ｂ，Ｃを得る。
<テキストＡ>に含まれる情報
・「ハードディスク装置Ａの記憶容量は２．１ＧＢである」
・「ハードディスク装置Ａの価格は３万円である」
・「ハードディスク装置Ａの平均シーク時間は１２ｍｓｅｃである」
<テキストＢ>に含まれる情報
・「ハードディスク装置Ｂの記憶容量は３．２ＧＢである」
・「ハードディスク装置Ｂの価格は４万円である」
・「ハードディスク装置Ｂの平均シーク時間は１３ｍｓｅｃである」
<テキストＣ>に含まれる情報
・「ハードディスク装置Ｃの記憶容量は４．３ギガである」
・「ハードディスク装置Ｃの価格は５万円である」
・「ハードディスク装置Ｃの平均シーク・タイムは１２ミリ秒である」

<実施例２の動作>
以上、３つのテキストＡ，Ｂ，Ｃを得て、これら３つのテキストを本例システムの装置に順次入力データとして与える。

まず、制御部１が入力モードで起動すると、データとして入力されたテキストの読み込み先を受け取る。入力されたテキストの読み込み先を一次抽出部２に通知すると、制御部１はその入力されたテキストについて、実施例１で示された一次抽出部２における処理を指示して制御する。その結果、以下のようなレコード例が出力される。
・「記憶容量」「２．１ＧＢ」
・「価格」「３万円」
・「平均シーク時間」「１２ｍｓｅｃ」
・「平均シーク時間」「１３ｍｓｅｃ」
・「記憶容量」「３．２ＧＢ」
・「価格」「４万円」
・「記憶容量」「４．３ギガ」
・「価格」「５万円」
・「平均シーク・タイム」「１２ミリ秒」

また、同義語処理部３において実施例１で示された処理が行われ、この同義語処理部３で入力したレコードをすべて解析し終えると、制御部１に処理完了したことを通知し、以下のようなレコード例が記憶装置９に格納される。
・「記憶／容量」「２．１／ＧＢ」×１
・「価格」「３／万円」×１
・「記憶／容量」「３．２／ＧＢ」×１
・「価格」「４／万円」×１
・「平均／シーク／時間」「１３／ｍｓｅｃ」×１
・「容量」「４．３／ギガ」×１
・「価格」「５／万円」×１
・「平均／シーク／時間」「１２／ｍｓｅｃ」×２

次に、制御部１が補正モードに切り換えられて起動すると、曖昧性解消部７を作動させて処理完了するまで待機する。曖昧性解消部７では、情報蓄積部４に記憶装置９に格納されているレコードの全件を出力させ、レコードのフィールドの各単語について曖昧さがあるか、曖昧語辞書８を検索して順次検査し、曖昧さを解消する(ステップ：Ｓ８）。
ここでいう曖昧語辞書８とは、例えば「ギガ」のように曖昧さがある語を見出し語として、「ギガバイト」「ＧＢ」のように曖昧さのない確定表記群と、「メガバイト」「ＭＢ」「バイト」のように曖昧さを解消する根拠にできる表記群との対を２対以上リストにしたものである。その曖昧語辞書８には以下のようなレコード例が登録されている。
見出し：「ギガ」
確定表記：「ギガトン」、根拠：「メガバイト」「キロトン」「トン」
確定表記：「ギガバイト」「ＧＢ」、根拠：「メガバイト」「ＭＢ」「キロバイト」「ＫＢ」「バイト」
確定表記：「ギガビット」「Ｇｂｉｔ」、根拠：「メガビット」「Ｍｂｉｔ」「キロビット」「Ｋｂｉｔ」「ビット」

当該単語が曖昧語辞書８に見出し語として登録された語であれば、当該単語について曖昧さがあるものとし、当該レコードと同じ「属性」フィールドを持つほかのレコードの当該単語と同じフィールドのデータが、当該単語を見出し語とする曖昧語辞書８のレコードの曖昧さのない確定表記群か根拠の表記群かに合致する表記を含んでいるか各対を順次検査する。合致した場合、当該表記群の対の確定表記の先頭のもので当該単語の表記を補正する。但し、確定表記が合致した場合はその表記で当該単語の表記を補正する。例えば、曖昧な単語「ギガ」は、同じ「属性」フィールドをもつ他のレコードの同じフィールドが根拠の表記「バイト」を含んでいる場合、「ＧＢ」に補正される。補正するための根拠が選られない場合、当該単語に曖昧語である以下のような標識を残す。
「容量」「４．３／ギガ」１
この標識に曖昧語「ギガ」があるとしているが、属性「容量」をもつレコードが他に存在しないために、「ギガ」に曖昧語である標識を残す。

さらに、曖昧性解消部７においては、例えば「記憶／容量」と「容量」のように、「要点」レコードのフィールドの各単語について、他の「要点」レコードの同じフィールドで当該単語の表記を部分包含する語句を探索し、存在すれば、短い語（包含される語）を長い語（包含する語）に置換して補正する。但し、曖昧語である標識が残る語は上記の探索から除外する。本例では、「容量」を「記憶／容量」といったように補正する。

続いて、上記の部分包含を利用した補正を行った場合、曖昧語である標識が残る語について、再度当該レコードと同じ「属性」フィールドをもつ他のレコードの当該単語と同じフィールドのデータが、曖昧さのない確定表記群か根拠の表記群かに合致する表記を含んでいるかを順次検査する。合致した場合、当該表記群の対の確定表記の先頭のもので当該単語の表記を補正する。本例では、曖昧語である標識が残る「ギガ」の補正された属性「記憶／容量」をもつ他のレコードが確定表記「ＧＢ」を含んでいるので、「ギガ」を「ＧＢ」に補正し、曖昧語である標識を消去する。

結果、曖昧性解消部７では、以上の処理によって補正したレコードを補正するごとに、あるいは処理後、一括して情報蓄積部４に出力して記憶装置９のレコードを更新する。更新を終了すると、ＣＰＵ１に処理完了したことを通知する。したがって、本例では以下のようなレコードが記憶装置９に格納される。
・「記憶容量」「２．１／ＧＢ」×１
・「価格」「３／万円」×１
・「記憶容量」「３．２／ＧＢ」×１
・「価格」「４／万円」×１
・「平均シーク時間」「１３／ｍｓｅｃ」×１
・「記憶容量」「４．３／ＧＢ」×１
・「価格」「５／万円」×１
・「平均シーク時間」「１２／ｍｓｅｃ」×２

次に、制御部１が出力モードに切り換えられて起動するが、実施例１の場合と同様な処理が行われ、以下のリスト例が出力される(ステップ：Ｓ６）。
・抽出テキスト「３」、抽出属性「３」、抽出総数「９」
・属性「記憶容量」、単位「ＧＢ」、総数「３」、最小「２．１」、最大「４．３」、平均「３．２」、中央「３．２」、分散「０．８１」、・・・、「２．１」×１、「３．２」×１、「４．３」×１
・属性「価格」、単位「万円」、総数「３」、最小「３」、最大「５」、平均「４」、中央「４」、分散「０．６７」、・・・、「３」×１、「４」×１、「５」×１
・属性「平均シーク時間」、単位「ｍｓｅｃ」、総数「３」、最小「１２」、最大「１３」、平均「１２．３」、中央「１２」、分散「０．２２」、・・・、最頻「１２」、「１２」 ×２、「１３」×１

なお、提示情報処理部においては、入力した統計情報のリストを順次解析して、当該装置が目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、制御部１から受け取った統計情報の書き出し先に前記操作による統計情報のリストを出力し、制御部１に処理終了したことを通知する。

図３に示すように、本例システムを組み込んだ情報検索システムなどの情報提示装置は、本例システムが出力した統計情報のリストに基づいて目盛の大きさなどを調整して、その出力をユーザが一見して理解できるようなグラフの形式で表示・印刷などして提示を行う。

<実施例２の効果>
かかる実施例２の効果についてまとめると、例えば様々なメーカやディーラの広告・カタログ類から寄せ集めた情報の場合のように、項目や単位の表記がまちまちで不統一であっても、それらを補正して統計的な処理が可能になる。

<実施例３の構成>
次に、本発明による情報抽出システムの実施例３について、図６を参照して説明する。

上記実施例１，２においては、情報提示を受けたユーザは、例えば最高性能のものや最低価格のものについて情報抽出をした元の文書と見比べようと試みた場合、抽出した情報と元文書との両者間に何らかのリンク情報が必要である。しかし、元文書が数千または数万といった膨大な件数に及ぶことが多々あるために、本例のような情報の抽出システムから提示システムにすべてのリンク情報をむやみに受け渡したのでは、応答時間など性能を大きく損ねる懸念がある。また、本例の情報抽出システムの側にリンク情報を格納して保存しようとすると、記憶装置９に大きなメモリ量が必要となる。

以上を考慮して、この実施例３の情報抽出システムにおいては、抽出情報と元文書の間を取り持つリンク情報を採取（サンプリング）して、比較的少数のリンク情報を情報抽出側から情報提示側へ受け渡す。それにより、本例のような情報抽出システム側の記憶資源を早期に解放して記憶容量の軽減を図る構成としたことが要点となっている。

図６に示すように、構成は実施例１をベースにして新たにサンプリング処理部１０が備わっている。制御部１としては同様に入力モードと出力モードに切り換えられて制御を行うようになっている。実施例１と同じく、３つのテキストＡ，Ｂ，Ｃ（それぞれハードディスク装置Ａの型式という情報を除く）を入手し、これら３つのテキストが入力データとして順次本例システムの装置に入力されるように構成されている。

サンプリング処理部１０は、予め定めたサンプリング用数列に従い、抽出した「要点」の一部だけが情報蓄積部４の記憶装置９に格納されるように選別を行う機能を有している。この場合の情報蓄積部４としては、抽出した「要点」のレコードを記憶装置９に格納し、あるいは上記レコードをサンプリング処理部１０によって変更して記憶装置９のレコードを更新し、要求に応じて一部または全部のレコードを出力するようになっている。

<実施例３の動作>
本例システムを組み込んだ文書検索システムなどの情報抽出装置については、実施例１の場合と同じく図２に示す動作フローとなる。まず、「ハードディスク装置」に関して情報検索を行って、以下３つのテキストＡ，Ｂ，Ｃを得る。

まず、制御部１の入力モードにおいて、情報蓄積部４では、入力したレコードの「属性」、「値」の２つのフィールドを記憶装置９から検索して読み出し、２つのフィールド共に同じデータをもつレコードが格納されていない場合、入力したレコードの出現頻度を１として新たなレコードとして記憶装置９に格納する。すでに格納されておれば、検索したレコードと入力したレコードを「対」にしてサンプリング処理部１０に出力して通知し、サンプリング処理部１０から返還されたレコードで検索レコードを更新する。

サンプリング処理部１０は、検索したレコードと入力したレコードの対を情報蓄積部４から受け取ると、検索したレコードの出現頻度を１つ増加させて更新し、更新した出現頻度が予め規定してサンプリング用数列の要素である場合は、入力したレコードのリンク情報を検索レコードのリンク情報に追加して、更新した検索レコードを出力して情報蓄積部４に保存させる。

サンプリング処理部１０は、例えば１，２，３，４，８，１６，３２・・・、あるいは１，２，３・・・８，９，１０，２０，３０・・・８０，９０，１００，２００，３００・・・といったように規定する。上記リンク情報のリストは、予め規定した上限個数以内の要素数となるように、上限個数を超える場合は最も小さい出現頻度の時点で追加されたリンク情報を消去するなどする。例えばサンプリング用数列を１，２，４，８，１６，３２・・・として、リストの上限個数が５であれば、出現頻度３１までは出現頻度がそれぞれ１，２，４，８，１６の時点のリンク情報が記憶装置に格納される。また、出現頻度６３までは２，４，８，１６，３２のリンク情報が、出現頻度１２７までは４，８，１６，３２，６３のリンク情報が記憶装置に格納されるといったように設定する。

本例では、サンプリング用数列を１，２，４，８・・・とすると、上限個数を２として、「インタフェイス」、「ＳＣＳＩ／２」、「−＞テキストＣ」を入力した時点で出現頻度を３に更新するが、リンク情報は格納しないことになる。

同義語処理部３においては、入力したレコードのすべてに対して解析を終了すると、その旨を制御部１に通知する。

次いで、制御部１は出力モードに切り換えられて起動するが、統計処理部５および提示情報処理部６における一連の処理を制御し、その統計情報の書き出し先を提示情報処理部６に通知するまで実施例１と同様な制御が行われる。記憶装置９に格納されるレコード、ならびに出力されるリストの掲載は省略する。

<実施例３の効果>
そこで、本例システムを組み込んだ情報検索システムなどの情報提示装置では、図７に模式的に例示するように、ＣＲＴなどのモニタ表示装置とマウスなどのポインティング装置を備えておれば、リンク情報を保持したデータは色を変えるなどして他のデータと識別しやすいようにし、ユーザがグラフのデータ個所をポイントすると、その個所のデータのリンク情報を参照して元のテキストを即座に提示する機能とすることができる。さらに、グラフをプリンタで印刷して提示する場合、グラフ中に最大値、最小値、平均値のデータのリンク情報を参照してそれらの元のテキストから再度、第一次的に抽出した情報を併記してプリントアウトする機能を実現させることも可能である。

<実施例４の構成>
次に、本発明による実施例４の情報抽出システムについて、図８および図９を参照して説明する。

先の実施例１，２，３の各実施例においては、ユーザは多くの情報から全体的な傾向やいわゆる「世間相場」や人気筋を把握することが可能となる。しかし、ユーザがある一つの製品やサービスを評価する場合は、そのような全体的な傾向や「相場」と比較して相対的な位置を判断していると考えられる。例えば、価格が高位にある製品でも性能が最高位にあれば購入するなり、採用を検討することが考えられる。それに対して、価格が中位の場合でも性能が低位であれば、購入や採用を見送ることも有り得る。これを考慮して、この実施例４においては、ユーザが注目する情報つまり的を絞った情報について、類似する情報の中で相対的な位置づけとして提示することで、そうした評価・判断を支援するように構成されている。

本例システムにおいては、制御部１は入力モードと出力モードに加えて新たに「検索モード」による制御が設定されている。以下、その検索モードを主体に説明する。検索モードを実現するために類似検索部１１が備わっている。この類似検索部１１は、入力レコードの各フィールドの文字列を単語の並びに解析し、同じ単語の反復や数字の並びなどを消去して、本装置を組み込んだ文書検索システムなどの情報管理装置が利用できる検索用のキーワードのリストに変換する機能を有している。

<実施例４の動作>
図９は、本例システムを組み込んだ文書検索システムなどの情報管理装置について、その動作フローを示す。この場合、上記各実施例で示された各情報を含む３つのテキストＡ，Ｂ，Ｃが検索可能な状態において、さらに的を絞り注目する別の情報が含まれたテキストＴをユーザがデータ入力することで、ユーザからそのテキストＴという新たな情報検索が要求される(ステップ：Ｓ２）。
〈テキストＴ〉に含まれる情報
・「ハードディスク装置Ｔの記憶容量は４ＧＢである」
・「ハードディスク装置Ｔの価格は３万円である」
・「ハードディスク装置Ｔの平均シーク・タイムは１２ミリ秒である」

制御部１が検索モードに切り換えられて起動すると、入力データであるテキストの読み込み先と出力データである検索用のキーワードのリストなどの書き出し先とを受け取る。その後、制御部１は入力されたテキストの読み込み先を一次抽出部２に送って、その入力テキストについて一次抽出部２から類似検索部９までの各部における一連の処理を制御し、検索用のキーワードのリストなどの書き出し先を類似検索部９に送って出力させる。

一次抽出部２での処理後、以下のようなレコード例が出力される。
・「ハードディスク装置Ｔ」「記憶容量」「４ＧＢ」
・「ハードディスク装置Ｔ」「価格」「３万円」
・「ハードディスク装置Ｔ」「平均シーク・タイム」「１２ミリ秒」

また、同義語処理部３において処理後、以下のようなレコード例が出力される。
・「ハードディスク装置Ｔ」「記憶容量」「４ＧＢ」
・「ハードディスク装置Ｔ」「価格」「３万円」
・「ハードディスク装置Ｔ」「平均シーク時間」「１２ｍｓｅｃ」

類似検索部１１は、入力レコードの各フィールドの文字列を単語の並びに解析し、同じ単語の反復や数字の並びなどを消去し、本例システムを組み込んだ文書検索システムなどの情報提示装置が利用できる検索用のキーワードのリストに変換して、上記の入力レコードと検索用のキーワードのリストを制御部１から受け取った書き出し先に出力する。それにより、以下のような要点レコード例とリスト例とが出力される。
・「ハードディスク装置Ｔ」「記憶容量」「４ＧＢ」
・「ハードディスク装置Ｔ」「価格」「３万円」
・「ハードディスク装置Ｔ」「平均シーク時間」「１２ｍｓｅｃ」
・検索用キーワード＆リスト：「ハードディスク装置Ｔ」「記憶容量」「ＧＢ」「価格」「万円」「平均シーク時間」「ｍｓｅｃ」

すなわち、本例システムを組み込んだ文書検索システムなどの情報提示装置は、本例システムから出力されたキーワードのリストによって情報検索を行い、検索結果として幾つかのテキストを得て、テキストを順次入力データとして付与されて起動する。そのような情報検索を行って３つのテキストＡ，Ｂ，Ｃを得て、それら各テキストから本例システムに順次テキストを入力データとして付与されるものとする。

次に、制御部１は入力モードに切り換えられて実施例１をはじめとする上記各実施例で示された同様な制御を行い、一次抽出部２から情報蓄積部４までの各部における一連の処理を制御し、同義語処理部３からの処理終了の通知を待って本例システムを次の入力テキストが処理可能な状態に戻す。したがって、以下のようなレコード例が記憶装置に記憶される。
・「記憶容量」「２．１／ＧＢ」×１
・「価格」「３／万円」×１
・「記憶容量」「３．２／ＧＢ」×１
・「価格」「４／万円」×１
・「平均シーク時間」「１３／ｍｓｅｃ」×１
・「記憶容量」「４．３／ＧＢ」×１
・「価格」「５／万円」×１
・「平均シーク時間」「１２／ｍｓｅｃ」×２

次に、制御部１が出力モードに切り換えられて起動すると、注目する情報の要点レコードと出力データである統計情報の書き出し先を受け取ると、注目する情報の要点レコードを統計処理部５に送って、この統計処理部５から提示情報処理部６までの一連の処理を制御し、統計情報の書き出し先を提示情報処理部６に送って出力させる。統計処理部５は、制御部１から受け取った注目する情報の要点レコードの「属性」と同じ「属性」のレコードについてのみ、情報蓄積部４に記憶装置９に格納されているレコードの全件を出力させ、まず当該「属性」が数量尺度か名義尺度かを判定する。ＣＰＵ１から出力された注目する情報の要点レコードを受け取ると、統計情報のリストと同様の形式のリストに変換して提示情報処理部６に送る。本例では、以下のようなリスト例が出力される。
・抽出テキスト「３」、抽出属性「３」、抽出総数「９」
・属性「記憶容量」、単位「ＧＢ」、総数「３」、最小「２．１」、最大「４．３」、平均「３．２」、中央「３．２」、分散「０．８１１」、・・・、「２．１」×１、「３．２」×１、「４．３」×１
・属性「価格」、単位「万円」、総数「３」、最小「３」、最大「５」、平均「４」、中央「４」、分散「０．６７」、・・・、「３」×１、「４」×１、「５」×１
・属性「平均シーク時間」、単位「ｍｓｅｃ」、総数「３」、最小「１２」、最大「１３」、平均「１２．３」、中央「１２」、分散「０．２２」、・・・、最頻「１２」、「１２」 ×２、「１３」×１
・「ハードディスク装置Ｔ」、抽出属性「３」
・属性「記憶容量」、単位「ＧＢ」、「４」
・属性「価格」、単位「万円」、「３」
・属性「平均シーク時間」、単位「ｍｓｅｃ」、「１２」

提示情報処理部６は、統計処理部５から受け取った統計情報のリストと注目する情報の要点レコードとを順次解析して、当該装置が目的とする表示装置や印刷装置などの提示の方法に適した予め定めた形式に変更する操作を行う。操作完了後、制御部１から受け取った統計情報の書き出し先に前記操作による統計情報のリストを出力し、制御部１に処理終了したことを通知する。

図１０に示すように、本例システムを組み込んだ情報検索システムなどの情報提示装置は、本例装置が出力した統計情報のリストに基づいて目盛りの大きさを調整して、本例装置の出力をユーザが一見して理解できるようなグラフの形式で表示・印刷などの提示を行う。そうした表示・印刷では、類似する情報中においてユーザが注目する情報の相対的な位置を図中★印のごとき符号でもって提示する。

さらに、注目する情報が複数あった場合、再び検索モードで本例装置を作動させ、本例装置が出力した検索用のキーワードのリストを前回のリストと比較して、差が小さい場合には情報検索の実行と本例装置を入力モードで作動させることをスキップし、出力モードで本例装置を作動させて情報の提示を行うことになる。または、本例装置が出力した注目する情報の要点レコードの「属性」が前回の要点レコードの「属性」と同じであれば、前回の統計情報をそのまま利用して、出力モードで本例装置を作動させることもスキップし、ただちに情報の提示を行うこともできる。

また、本例システムのインタフェイスを簡単に構成するために、情報検索の実行を本例装置の機能として構成し、注目する情報を入力データとして作動させれば、出力データとして注目する情報を含んだ統計情報のリストを出力するようにも構成できる。

<実施例４の効果>
かかる実施例４の効果についてまとめると、ユーザが注目する情報を類似の情報の中での相対的な位置として提示することができるため、ユーザはその情報を評価して判断するのに、いわゆる「世間相場」といわれるような全体的傾向を把握しておく必要がなく、またそうした全体的傾向に惑わされない。また、いくつかの情報を見比べたりメモをとったりするなどを行わなくて済み、ユーザの本来の要求に合った情報を検索して提示する機能が向上する。

<実施例５の構成>
次に、本発明による実施例５の情報抽出システムについて、図１１を参照して説明する。

上記実施例１〜４においては、情報検索装置などに組み込まれて使用される場合、第一次的に抽出する対象テキストは例えば「ハードディスク装置」に関連するものばかりであった。そのため、「対象」「属性」「値」の３つの情報を含むテキスト内の「要点」の中でも、出現頻度の高い「属性」を含む「要点」が「ハードディスク装置」に関連の高い「要点」であるという経験的知識に基づいて、提示する「属性」を決定していた。しかし、例えば「ハードディスク装置」の「属性」の中で、仮に物理的な大きさ（２．５インチ、３．５インチ、５インチ）の出現頻度が低かったとすると、ユーザには価格に比べて大容量のハードディスク装置であるが、実は、大部分の製品が３．５インチか２．５インチなのに対して、少数派の５インチ・ディスクであるという情報が提示されずに、後でユーザを落胆させたり、トラブルの原因となったりする懸念がある。

以上を考慮して、本例システムではユーザが注目する情報を類似の中での相対的な位置として提示する「属性」の決定について、出現頻度に頼るだけでなく、当該情報の非凡さを推定して非凡な「属性」を優先させて決定するように設定することで、上記のようなユーザの落胆などを解消することを目標としている。

本例の場合も実施例４と同様に、制御部１は検索モード、入力モードおよび出力モードの３つのモードによる制御が設定されている。本例システムの構造的要部として新たに属性選択部１２が備わっている。

属性選択部１２は、統計処理部５から受け取った統計情報の「属性」と注目する情報の要点レコードの「属性」について、情報の重要性を算出し、前記の情報の重要性の高い順番に、統計情報のリストと注目する情報の要点レコードとをそれぞれ配列して提示情報処理部６に出力する機能を有する。

ここで、上記統計処理部５としては、制御部１から通知された注目する情報の要点レコードの「属性」と同じ「属性」のレコードについて出力し、また記憶装置９に格納されているレコードの全件を情報蓄積部４から出力させる。そして、予め規定した閾値に基づいて選別を行い、出現頻度が高いと判定した「属性」のレコードについて、予め規定した数式により「属性」ごとに「値」の範囲、平均値、分散などの分布の指標を算出して統計情報のリストとする。この統計情報リストと同様の形式に制御部１から受け取った注目する情報の要点レコードを変換したものと併せて、属性選択部１２に送るようになっている。

<実施例５の動作>
次に、以上の実施例５の装置を組み込んだ文書検索システムなどの情報管理装置の動作フローについて、実施例４で示された図９を参照して説明する。

この場合、それぞれ以下のような各情報を含む３つのテキストＡ，Ｂ，Ｃが検索可能な状態になっている。
〈テキストＡ〉
・「ハードディスク装置Ａの記憶容量は２．１ＧＢである」
・「ハードディスク装置Ａの価格は３万円である」
・「ハードディスク装置Ａの平均シーク時間は１２ｍｓｅｃである」
・「ハードディスク装置ＡのインタフェイスはＳＣＳＩ２である」
〈テキストＢ〉
・「ハードディスク装置Ｂの記憶容量は３．２ＧＢである」
・「ハードディスク装置Ｂの価格は４万円である」
・「ハードディスク装置Ｂの平均シーク時間は１３ｍｓｅｃである」
・「ハードディスク装置ＢのインタフェイスはＳＣＳＩ２である」
〈テキストＣ〉
・「ハードディスク装置Ｃの記憶容量は４．３ギガである」
・「ハードディスク装置Ｃの価格は５万円である」
・「ハードディスク装置Ｃの平均シーク・タイムは１２ミリ秒である」
・「ハードディスク装置ＣのインタフェイスはＳＣＳＩ２である」

これら３つのテキストＡ，Ｂ，Ｃが検索可能な状態で、注目すべき別の情報を含む次の〈テキストＴ〉が入力データとして付与される。
〈テキストＴ〉
・「ハードディスク装置Ｔの記憶容量は４ＧＢである」
・「ハードディスク装置Ｔの価格は３万円である」
・「ハードディスク装置Ｔの平均シーク・タイムは１２ミリ秒である」

制御部１が実施例４と同様な検索モードで起動すると、以下のような要点レコードとリストが出力される。
・「ハードディスク装置Ｔ」「記憶容量」「４ＧＢ」
・「ハードディスク装置Ｔ」「価格」「３万円」
・「ハードディスク装置Ｔ」「平均シーク時間」「１２ｍｓｅｃ」
・検索用キーワード＆リスト：「ハードディスク装置Ｔ」「記憶容量」「ＧＢ」「価格」「万円」「平均シーク時間」「ｍｓｅｃ」

また、制御部１が実施例１と同様な入力モードで起動すると、以下のようなレコード例が記憶装置に格納される。
「記憶容量」「２．１／ＧＢ」×１
「価格」「３／万円」×１
「記憶容量」「３．２／ＧＢ」×１
「価格」「４／万円」×１
「平均シーク時間」「１３／ｍｓｅｃ」×１
「記憶容量」「４．３／ＧＢ」×１
「価格」「５／万円」×１
「平均シーク時間」「１２／ｍｓｅｃ」×２
「インタフェイス」「ＳＣＳＩ／２」×３

さらに、制御部１が実施例１と同様な出力モードで起動すると、実施例１の場合と同じく統計処理部５および提示情報処理部６における一連の処理を制御し、統計情報の書き出し先を提示情報処理部６に送って出力させる。結果、以下のようなリスト例が出力される。
・抽出テキスト「３」、抽出属性「３」、抽出総数「１２」
・属性「記憶容量」、単位「ＧＢ」、総数「３」、最小「２．１」、最大「４．３」、平均「３．２」、中央「３．２」、分散「０．８１」、・・・、「２．１」×１、「３．２」×１、「４．３」×１
・属性「価格」、単位「万円」、総数「３」、最小「３」、最大「５」、平均「４」、中央「４」、分散「０．６７」、・・・、「３」×１、「４」×１、「５」×１
・属性「平均シーク時間」、単位「ｍｓｅｃ」、総数「３」、最小「１２」、最大「１３」、平均「１２．３」、中央「１２」、分散「０．２２」、・・・、最頻「１２」、「１２」 ×２、「１３」×１
・属性「インタフェイス」、総数「３」、種類「１」、最小「３」、最大「３」、「ＳＣＳＩ２」×３
・「ハードディスク装置Ｔ」、抽出属性「３」
・属性「記憶容量」、単位「ＧＢ」、「４」
・属性「価格」、単位「万円」、「３」
・属性「平均シーク時間」、単位「ｍｓｅｃ」、「１２」

そこで、統計処理部５における制御で、数量尺度とした「属性」については、非数字部分を「単位」として、数字部分を数値化して「数値」として、予め定めた数式によって「属性」と「単位」の組みごとに「数値」の範囲（レンジ）、平均値、分散などの分布の指標を算出し、それらの指標と計算のデータとをリストにして、属性選択部１０に出力する。名義尺度とした「属性」については、「値」の種類数、度数の範囲などと計算のデータとをリストにして属性選択部１０に出力する。数量尺度にも名義尺度にもしなかった「属性」については、単に「値」の種類数をリストにして属性選択部１０に出力する。

さらに、制御部１から受け取った注目する情報の要点レコードを、前記の統計情報のリストと同様の形式のリストに変換して属性選択部１０に出力する。また、数量尺度とした「属性」については、「数値」が非常に多様となる場合が考えられるが、ある「属性」と「単位」の組みの「数値」が予め定めた閾値を超える場合には、算出した分散などの分布の指標を基にして数値の区間を定め、個々の「数値」とそのデータを当該区間に併合する構成としてもよい。また、その際に最大値、最小値、平均値、最頻値および計算が可能であれば、頻度上の極大、極小などの分布上の特徴的な数値近辺は区間を狭くとり、他は広くするか、あるいは前記分布上の特徴的な数値近辺以外の「数値」とそのデータを出力しないなどの構成にすることも可能である。

属性選択部１２は、統計処理部５から受け取った統計情報の「属性」と、注目する情報の要点レコードの「属性」とについて、それら双方の「属性」情報の重要性を算出する。この重要性の算出は、当該「属性」の出現頻度と、注目する情報の要点レコードの当該「属性」の「値」に期待確率から求め、例えば以下の算式から算出する。
情報の重要性＝ｍ×当該属性の出現頻度／最頻出属性の出現頻度＋ｎ×（１−注目する情報の要点レコードの当該属性の期待確率）
＊但し、ｍとｎは予め規定した定数

上記の期待確率は、当該属性が数量尺度の場合は、母集団が正規分布とする家庭してある標本の値が平均値から標準偏差（分数の平方根）以上隔たる確率は約０．１６であり、標準偏差の２倍以上隔たる確率は約０．０２３であるなどのことが知られている。また、当該属性が名義尺度の場合でも同様、ある標本の値が観測される確率を求める方法が幾通りかあり、統計的な検定に利用されている。

本例システムにあっては、期待確率が小さいほど、当該情報は非凡であり、当該情報の重要性が高いと推定できる。また、注目する情報の「記憶容量」の数値「４」は、平均の「３．２」から標準偏差の０．８９倍隔たっており、期待確率は０．１９、「価格」の数値「３」は平均の「４」から標準偏差の１．２倍隔たっていて、期待確率は０．１２であり、また「平均シーク時間」の数値「１２」は平均の「１２．３」から標準偏差の０．６４倍隔たっており、期待確率は０．２６であるというように算出される。また、名義尺度である「インタフェイス」は標本３のうちの３が「ＳＣＳＩ２」であるのに対して、注目する情報で「値」がそれ以外（この例では「値」なし）である期待確率が０．２３と算出されたものとする。

また、属性選択部１２は、情報の重要性の高い順に、統計情報のリストと注目する情報の要点レコードとをそれぞれ配列し、提示情報処理部６に出力する。注目する情報の要点レコードには、上記統計情報のリストに存在するが、統計処理部５から受け取った情報の要点レコードには存在しない属性を補足する。制御部１が当該装置が提示する「属性」の個数を出力条件として受け取る構成とした場合、上記情報の重要性の高い順に上記個数についてだけ提示情報処理部６に出力する。

本例システムでは、「当該属性の出現頻度／最頻出属性の出現頻度」の値がいずれの「属性」も「３／３」なので、定数ｍ，ｎの値にかかわらず、上記期待確率が小さいほど情報の重要性は高くなる。したがって、本例システムでは以下のようなリスト例が出力される。
・抽出テキスト「３」、抽出属性「４」、抽出総数「１２」
・属性「価格」、単位「万円」、総数「３」、最小「３」、最大「５」、平均「４」、中央「４」、分散「０．６７」、・・・、「３」×１、「４」×１、「５」×１
・属性「記憶容量」、単位「ＧＢ」、総数「３」、最小「２．１」、最大「４．３」、平均「３．２」、中央「３．２」、分散「０．８１」、・・・、「２．１」×１、「３．２」×１、「４．３」×１
・属性「インタフェイス」、総数「３」、種類「１」、最小「３」、最大「３」、「ＳＣＳＩ２」×３
・属性「平均シーク時間」、単位「ｍｓｅｃ」、総数「３」、最小「１２」、最大「１３」、平均「１２．３」、中央「１２」、分散「０．２２」、・・・、最頻「１２」、「１２」 ×２、「１３」×１
・「ハードディスク装置Ｔ」、抽出属性「４」
・属性「価格」、単位「万円」、「３」
・属性「記憶容量」、単位「ＧＢ」、「４」
・属性「インタフェイス」、名義尺度、なし
・属性「平均シーク時間」、単位「ｍｓｅｃ」、「１２」

以上は、統計的な処理に基づいて注目する情報を提示するには、第一次的に抽出した情報の中でも「平均シーク時間」の情報価値の低いものとみなしたことに相当し、例えば「非常に低価格で比較的大容量のハードディスク装置であるが、インタフェイスはＳＣＳＩ２ではないかも知れない」というような評価・判断を機械処理で実現したことに相当する。なお、提示情報処理部６の動作は上記各実施例と同様である。

<実施例５の効果>
この実施例５によれば、ユーザが的を絞り注目する情報を表示して提示する際、類似する情報中においてその注目する情報の相対的な位置を表示する。その相対的位置を決めるのに出現頻度に頼るだけでなく、当該情報の重要性を期待確率から算出して求めて、期待確率が小さければ小さいほど当該情報の重要性が高く非凡であることをユーザに知らしめ、ユーザの期待に応えることができる。

本発明による情報抽出システムの実施例１の構成を示すブロック図。実施例１の動作フロー図。実施例１の統計情報の表示形態図。実施例２の構成を示すブロック図。実施例２の動作フロー図。実施例３の構成を示すブロック図。実施例３の統計情報の表示形態図。実施例４の構成を示すブロック図。実施例４の動作フロー図。実施例４の統計情報の表示形態図。実施例５の構成を示すブロック図。

符号の説明

１制御部
２一次抽出部
３同義語処理部
４情報蓄積部
５統計処理部
６提示情報処理部
７曖昧性解消部
８曖昧語辞書
９記憶装置
１０サンプリング処理部
１１類似検索部
１２属性選択部

Claims

電子文書化された複数のテキストを順次読み込んで解析し、テキストごとに対象、属性および値の３つの情報からなる第一次情報を「要点」として抽出する一次抽出部と、
前記「要点」に含まれる単語の異表記および同義語を基準表記に補正する同義語処理部と、
その基準表記補正後の前記「要点」レコードを記憶して格納し、そのレコードの一部または全部を要求に応じて出力する情報蓄積部と、
前記「要点」の属性ごとに分布の指標を算出する統計処理部と、
前記分布の指標を予め規定した形式の統計情報に変換して順次解析し、その統計情報を出力する提示情報処理部と、
入力モード時に読み込むテキストを指示して前記一次抽出部によって抽出させた「要点」を前記情報蓄積部に格納させるとともに、格納された要点を前記同義語処理部で読み出して補正処理を実行させ、その同義語処理部から処理終了の通知を待って受け取り後に次のテキストに対しても一連の制御を行い、また、出力モード時は前記統計処理部に指示して前記情報蓄積部に格納されている前記要点の一部または全部を読み出させて算出した統計情報を取り出し、前記提示情報処理部に送って順次解析を行わせ、解析して得られた提示情報を提示情報処理部から出力させる一連の制御を行う制御部と、
を備えたことを特徴とする情報抽出システム。
前記情報蓄積部に格納されている「要点」のすべてを読み出し、それら「要点」の各単語について曖昧語辞書を検索して曖昧性の有無をチェックし、曖昧性を解消した「要点」として更新して前記情報蓄積部に再格納させる曖昧性解消部を備えてなっていることを特徴とする請求項１に記載の情報抽出システム。
前記曖昧語辞書は、曖昧さを有する単語を見出し語にして、この見出し語の１つに対して、曖昧さの無い単語からなる確定表記群と曖昧さを打ち消す根拠となる単語からなる解消用表記群とを１対にした場合に２対以上をリストとして構成されていることを特徴とする請求項２に記載の情報抽出システム。
前記「要点」についてさらに絞り込んだ特定情報を要求する場合、前記テキスト中の最適の文書を選択するための必要最小限のリンク情報を予め規定したサンプリング用数列に基づいて採取するサンプリング処理部を備えたことを特徴とする請求項１，２または３のいずれかに記載の情報抽出システム。
前記「要点」に含まれる文書の文字列を単語の並び順に解析して同一単語の反復および数字の並びを消去して検索キーワードのリストに変換し、ユーザが注目する情報に類似するものを前記検索キーワードで検索して提示する類似検索部を備えたことを特徴とする請求項１，２，３または４のいずれかに記載の情報抽出システム。
前記統計情報および前記「要点」の注目する情報のそれぞれに含まれる属性の重要性を算出する属性選択部を備えてなっていることを特徴とする請求項１，２，３，４または５のいずれかに記載の情報抽出システム。
前記類似検索部は前記注目する情報をこれに類似する情報の中での相対的な位置として提示するようにしたことを特徴とする請求項５に記載の情報抽出システム。