JP2003150624A - 情報抽出装置および情報抽出方法 - Google Patents

情報抽出装置および情報抽出方法

Info

Publication number
JP2003150624A
JP2003150624A JP2001346422A JP2001346422A JP2003150624A JP 2003150624 A JP2003150624 A JP 2003150624A JP 2001346422 A JP2001346422 A JP 2001346422A JP 2001346422 A JP2001346422 A JP 2001346422A JP 2003150624 A JP2003150624 A JP 2003150624A
Authority
JP
Japan
Prior art keywords
document
character string
extracted
search
attribute name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001346422A
Other languages
English (en)
Inventor
Tomohiro Masushio
智宏 増塩
Takeyuki Aikawa
勇之 相川
Yasuhiro Takayama
泰博 高山
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001346422A priority Critical patent/JP2003150624A/ja
Publication of JP2003150624A publication Critical patent/JP2003150624A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来は、処理単位が文に限定されており、見
出しや箇条書き、表などの構造の文書を考慮していない
ため、構造化された文書において、文書全体に渡った情
報を抽出できなかった。 【解決手段】 質問から抽出文字列タイプ、属性名、検
索語を抽出する質問文解析手段、文書へのリンクのリス
トを得る文書検索手段、リンク用いて文書を収集する文
書収集手段、収集文書とリンクをカテゴリに分類する文
書分類手段、収集文書から文書ブロックを抽出する文書
ブロック抽出手段、複数の解析処理係数を用いて文書ブ
ロックから解答候補の文字列と信頼度を抽出する情報抽
出手段、カテゴリに応じて解析処理係数を設定する情報
抽出制御手段、同じ文字列の信頼度を集計する抽出結果
統合手段、文書ブロックから表示用データを生成する抽
出結果出力手段を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明はユーザの入力した
質問文に対する回答をインターネット等のネットワーク
上から収集した文書より抽出する情報抽出装置および情
報抽出方法に関するものである。
【0002】
【従来の技術】近年、インターネット等のネットワーク
に接続された情報端末の利用者は急速に増加している。
それに伴い、ネットワークで公開される文書の量も急速
に増加している。これら大量の文書の中から必要な情報
を取得するための従来技術として、全文検索システム
(通称、ロボット検索)がある。全文検索システムで
は、ネットワークで公開されている文書の中から、検索
条件として指定された単語(キーワード)が記載されて
いる文書をすべて抽出し検索結果として返してくるもの
である。しかし、従来の検索システムでは、検索結果の
文書は指定したキーワードを1語でも含めば抽出してし
まうので、利用者が本来ターゲットとした以外の文書ま
で入手してしまい、入手した文書の中から利用者自身が
必要な情報を取り出さなければならず、情報を抽出する
際の作業負担を利用者に強いるという問題があった。
【0003】上記の問題に応えるものとして、例えば特
開平7−56954号公報「文書検索方法」で開示され
る技術がある。図30はその技術の動作を説明するフロ
ーチャートである。ステップST31において、ネット
ワークから検索した結果を一次文書として入力する。ス
テップST32では、一次文書の入力列を解析し、また
一次文書の予備仮説を生成する。予備仮説は、文書中に
整合文を見出し、これらの整合文を採点し、整合文と一
次文書内の近隣文から名詞句を抽出する。さらに抽出し
た名詞句を採点し、予備仮説のランク付けしたリストを
生成する。ステップST32の結果は選択された仮説の
群となる。得られたこの仮説の群はステップST34で
検証される。そのために、辞書式構文解析、テンプレー
ト照合、随意的な等価仮説の関連付け等が用いられる。
検証の結果は、検証証拠の集合、および随意的な各仮説
についての関連付け情報として得られる。ステップST
35では、採点スキームに従い仮説のランク付けを実行
する。このステップの目的は、入力列に尤も応答的であ
りそうな回答仮説を最高位にランク付けすることであ
り、結果として解答仮説の順序化されたリストを得てス
テップST36で出力表示する。このように従来の情報
抽出方法は、文書集合から質問文の答えを抽出する際
に、質問文中の単語を抽出し、対象文書内で同単語との
構文的関係から回答候補を推測し、かつ質問の答えを特
定するための情報が複数の文書に分散して記述されてい
る場合に、これらの記述を統合して答えを特定するもの
である。
【0004】
【発明が解決しようとする課題】従来の情報抽出方法は
以上のように構成されているので、検索の対象がプレイ
ンテキストで、処理単位が文に限定されており、インタ
ーネットにおけるHTML文書等のように文書中に見出
しや箇条書き、表などの構造を有した文書を対象とした
処理については考慮していない。そのため、構造化され
た文書において、文書全体に渡って記述された情報を抽
出できないという課題があった。
【0005】この発明は上記のような課題を解決するた
めになされたもので、処理対象の文の形式を分類し、各
形式に応じた情報抽出処理を行うことで、構造を持った
文書に対しても的確に質問文の答えを抽出できる情報抽
出装置および情報抽出方法を得ることを目的とする。
【0006】
【課題を解決しようとする手段】この発明に係る情報抽
出装置は、ユーザが入力した質問文中の疑問詞の種類か
ら質問文の答えとして求める文字列の種類を表す抽出文
字列タイプを特定すると共に、質問文から抽出文字列に
関連する属性名と、疑問詞や属性名以外の自立語からな
る検索語とを抽出する質問文解析手段と、抽出された検
索語と属性名を検索条件としてネットワーク上の文書を
検索し、検索結果として文書へのリンクのリストを得る
文書検索手段と、文書へのリンクにアクセスして該当す
る各文書をネットワークから収集して格納する文書収集
手段と、収集された文書と文書へのリンクを文書収集手
段から取得し予め用意された分類ルールに従ってカテゴ
リに分類する文書分類手段と、収集された文書を文書収
集手段から取得し検索語、属性名および抽出文字列タイ
プをすべて含む文書ブロックを抽出する文書ブロック抽
出手段と、一つの文書ブロックに対して適用するそれぞ
れ異なる解析処理方法を持つ複数の文字列抽出手段を用
い、抽出された文書ブロックから検索語、属性名および
抽出文字列タイプを用い質問文の解答候補となる文字列
および質問文に対する答えとしての当該文字列の信頼度
を抽出する情報抽出手段と、文書収集手段から収集され
た文書を順次に取得して文書分類手段と文書ブロック抽
出手段の動作を制御し、かつ文書分類手段で分類された
カテゴリに応じて文字列抽出手段のそれぞれが受け持つ
解析処理係数の組み合わせを設定し情報抽出手段の動作
を制御する情報抽出制御手段と、抽出された文字列のう
ちの同じ文字列について信頼度を集計し、抽出された文
字列、信頼度、集計された信頼度、抽出された文書ブロ
ックおよび信頼度からなる組を出力する抽出結果統合手
段と、集計された信頼度の順位に基づいて抽出された文
書ブロックから表示用データを生成する抽出結果出力手
段とを備えたものである。
【0007】この発明に係る情報抽出装置は、質問文解
析手段が、疑問詞と係り受け関係にある自立語を属性名
と判定し抽出する属性名判定手段を有したものである。
【0008】この発明に係る情報抽出装置は、質問文解
析手段が、疑問詞の省略された質問文の文末にある自立
語を属性名と推定し抽出する属性名推定手段を有したも
のである。
【0009】この発明に係る情報抽出装置は、質問文解
析手段が、疑問詞とこの疑問詞に対応する抽出文字列タ
イプを定義した疑問詞辞書と、抽出された疑問詞に基づ
いて疑問詞辞書を参照し該当する抽出文字列タイプを出
力する抽出文字列タイプ判定手段を有したものである。
【0010】この発明に係る情報抽出装置は、質問文解
析手段が、属性名とこの属性名に対応する抽出文字列タ
イプを定義した属性名辞書と、推定された属性名に基づ
いて属性名辞書を参照し該当する抽出文字列タイプを推
定し出力する抽出文字列タイプ推定手段を有したもので
ある。
【0011】この発明に係る情報抽出装置は、文書検索
手段が、複数の検索エンジンに対して検索語および属性
名を検索条件として与え、複数の検索エンジンが収集し
た各検索結果である文書へのリンクのリストを一つのリ
ストに統合する検索エンジン制御手段を有したものであ
る。
【0012】この発明に係る情報抽出装置は、文書検索
手段が、検索語の分野の検索に適した検索エンジンを判
定する分野判定手段と、この分野判定手段により判定さ
れた検索エンジンを複数の検索エンジンの中から選択す
る検索エンジン選択手段とを有したものである。
【0013】この発明に係る情報抽出装置は、抽出結果
出力手段が、抽出された文字列、検索語および属性名を
含む要約文書を抽出された文書ブロックから作成する文
書要約手段と、抽出された文字列と要約文書とからなる
組で表示用データを生成する抽出結果整形手段とを有し
たものである。
【0014】この発明に係る情報抽出装置は、抽出結果
出力手段が、抽出された文字列と抽出された文書ブロッ
クとからなる組で表示用データを生成する抽出結果整形
手段を有したものである。
【0015】この発明に係る情報抽出方法は、ユーザが
入力した質問文中の疑問詞の種類から質問文の答えとし
て求める文字列の種類を表す抽出文字列タイプを特定
し、質問文から抽出文字列に関連する属性名と、疑問詞
や属性名以外の自立語からなる検索語とを抽出し、抽出
された検索語と属性名を検索条件としてネットワーク上
の文書を検索して検索結果として文書へのリンクのリス
トを取得し、文書へのリンクにアクセスして該当する各
文書をネットワークから収集し、収集された文書と文書
へのリンクを予め用意された分類ルールに従ってカテゴ
リに分類し、収集された文書から検索語、属性名および
抽出文字列タイプをすべて含む文書ブロックを抽出し、
一つの文書ブロックにそれぞれ適用する異なる複数の解
析処理方法において各解析処理係数をカテゴリに応じて
設定し、抽出された文書ブロックに解析処理方法を適用
することにより検索語、属性名および抽出文字列タイプ
に基づいて質問文の解答候補となる文字列および質問文
に対する答えとしての当該文字列の信頼度を抽出し、抽
出された文字列のうちの同じ文字列について信頼度を集
計し、集計された信頼度の順位に基づいて抽出された文
書ブロックから表示用データを生成するようにしたもの
である。
【0016】この発明に係る情報抽出方法は、抽出され
た疑問詞と係り受け関係にある自立語を属性名と判定し
抽出するようにしたものである。
【0017】この発明に係る情報抽出方法は、疑問詞の
省略された質問文の文末にある自立語を属性名と推定し
抽出するようにしたものである。
【0018】この発明に係る情報抽出方法は、疑問詞と
この疑問詞に対応する抽出文字列タイプの関係予め設け
た定義を参照し、抽出された疑問詞について該当する抽
出文字列タイプを推定するようにしたものである。
【0019】この発明に係る情報抽出方法は、属性名と
この属性名に対応する抽出文字列タイプの関係を予め設
けた定義を参照し、推定された属性名について該当する
抽出文字列タイプを推定するようにしたものである。
【0020】この発明に係る情報抽出方法は、ネットワ
ーク上の文書を検索して文書へのリンクのリストを取得
する際に、複数の検索エンジンに対して検索語および属
性名を検索条件として与え、複数の検索エンジンが収集
した各検索結果である文書へのリンクのリストを一つの
リストに統合するようにしたものである。
【0021】この発明に係る情報抽出方法は、ネットワ
ーク上の文書を検索して文書へのリンクのリストを取得
する際に、検索語の分野の検索に適した検索エンジンを
判定し、判定された検索エンジンを複数の検索エンジン
の中から選択するようにしたものである。
【0022】この発明に係る情報抽出方法は、抽出され
た文字列、検索語および属性名を含む要約文書を抽出さ
れた文書ブロックから作成し、抽出された文字列と要約
文書とからなる組で表示用データを生成するようにした
ものである。
【0023】この発明に係る情報抽出方法は、抽出され
た文字列と抽出された文書ブロックとからなる組で表示
用データを生成するようにしたものである。
【0024】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1における
情報抽出装置の構成を示すブロック図である。図におい
て、1は質問文解析手段で、ユーザが入力した質問文を
入力として受け取り、質問文中の疑問詞の種類から質問
文の答えとして求めるための文字列の種類を表す抽出文
字列タイプを判別して特定し、かつ質問文から属性名お
よび検索語を抽出する手段である。ここで、抽出文字列
とは、この情報抽出装置がユーザの入力した質問文の答
えとしてインターネット等のネットワーク上に開示され
ている文書から抽出する、あるいは抽出された文字列の
ことである。また、抽出文字列タイプとは、「人名」、
「場所名」、「時間」、「日付」、「金額」、「長さ」
などのように抽出文字列の種類を表す。さらに、属性名
とは、抽出文字列との関連が強い自立語である。検索語
は、質問文中の疑問詞と属性名以外の全ての自立語であ
る。
【0025】2は文書検索手段で、質問文解析手段1に
より抽出された検索語と属性名を入力とし、これらの語
を検索条件としてネットワーク上の文書を検索し、検索
結果として文書へのリンクのリストを出力する手段であ
る。ここで、文書へのリンクとは、ネットワーク中にお
ける文書の所在を一意に決定する文字列であり、通常、
複数のリンクが検索されるのでリストにする。3は文書
収集手段で、検索結果である文書へのリンクを受け取
り、リスト上の文書へのリンクに順次アクセスして該当
する各文書をネットワークから取得し、内部の記録装置
に格納する手段である。
【0026】5は文書分類手段で、文書収集手段3から
順次入力される処理対象の文書と文書へのリンクのリス
トに対し予め用意された分類ルールに従ってカテゴリに
分類する手段である。6は文書ブロック抽出手段で、文
書収集手段3から順次入力される処理対象の文書から検
索語、属性名および抽出文字列タイプをすべて含む文書
ブロックを情報抽出対象となる部分として抽出する手段
である。
【0027】7は情報抽出手段で、文書ブロックに対す
る解析処理方法がそれぞれ異なる複数の文字列抽出手段
71(1)〜71(n)により構成され、質問文解析手
段1からの検索語、属性名および抽出文字列タイプを用
い文書ブロック抽出手段6からの処理対象の文書ブロッ
クから回答候補となる文字列と、質問文に対する答えと
しての信頼度の組を出力する手段である。文字列抽出手
段71(1)〜71(n)は、質問文解析結果である検
索語、属性名および抽出文字列タイプと、処理対象の文
書ブロックを入力とし、文書ブロックから抽出文字列タ
イプに合致する文字列を抽出し、質問文に対する答えと
しての抽出文字列の信頼度を求める手段である。ここ
で、信頼度とは、抽出文字列がユーザの入力した質問文
の答えである確率を示したパラメータであり、文字列抽
出手段71(1)〜71(n)に与えられたそれぞれの
抽出処理係数と、文字列抽出手段71(1)〜71
(n)内での処理内容によって決まる抽出処理信頼度を
掛け合わせたものである。抽出処理係数の値は、処理対
象としている文書のカテゴリに応じて変化させるものと
する。
【0028】4は情報抽出制御手段で、文書収集手段3
から収集された文書を順次に取得して文書分類手段5と
文書ブロック抽出手段6の動作を制御し、かつ文書分類
手段5で分類されたカテゴリに応じて文字列抽出手段7
1(1)〜71(n)のそれぞれが受け持つ解析処理係
数の組み合わせを設定し情報抽出手段7の動作を制御す
る手段である。
【0029】8は抽出結果統合手段で、抽出された文字
列のうちの同じ文字列について信頼度を集計し、抽出さ
れた文字列、信頼度、集計された信頼度および抽出され
た文書ブロックからなる組を出力する手段である。9は
抽出結果出力手段で、集計された信頼度の順位に基づい
て抽出された文書ブロックから表示用データを得る手段
である。詳しくは、抽出された文字列を基準として信頼
度の高い順位に並べられた抽出された文書ブロックから
検索語、属性名、抽出された文字列のいずれかを含む所
定の長さの文字列をそれぞれ取り出して連結することに
より要約文書を生成し、質問文、抽出された文字列、取
集計された信頼度および要約文書からなる表示用データ
を得る。
【0030】次に情報抽出装置の動作について説明す
る。図2は実施の形態1による情報抽出装置の一連動作
を示すフローチャートである。まず、ステップST1に
おいて、質問文解析手段1は、ユーザが入力した質問文
を解析し、抽出文字列タイプを判別し、属性名および検
索語を抽出する。質問文解析手段1は、図3に示される
構成例を備えている。図3において、11は形態素解析
手段、12は構文解析手段、131は属性名判定手段、
132は属性名推定手段、141は疑問詞辞書、142
は抽出文字列タイプ判別手段、143は抽出文字列タイ
プ推定手段である。
【0031】形態素解析手段11は、図4に例示すよう
にユーザの入力した質問文を単語(下線部)に分解す
る。形態素解析処理については言語解析の分野では周知
の処理であるので、その詳細説明については省略する。
次に、構文解析手段12により、文書中の単語の品詞や
係り受け関係等の文法情報を用いて疑問詞、属性名およ
び検索語を抽出する。属性名判定手段131は、質問文
から抽出された疑問詞と係り受け関係にある自立語を属
性名として抽出する。また、質問文中の疑問詞と属性名
以外の全ての自立語を検索語とする。図4の質問文で
は、疑問詞は「いつ」に該当し、属性名は「発売日」に
該当する。検索語としては「ディジタル」、「保護リレ
ー」が該当する。構文解析処理中の係り受け関係につい
ても言語解析の分野では周知の処理であるので、その詳
細説明については省略する。
【0032】抽出文字列タイプ判別手段142は、疑問
詞辞書141を参照して、疑問詞から質問文の答えを求
めるための抽出文字列タイプを判定する。疑問詞辞書1
41には、図5に示すように疑問詞とそれに対応する抽
出文字列タイプが定義されている。図4に示す質問文で
は、疑問詞は「いつ」となるから、その抽出文字列タイ
プは「日付」となる。
【0033】なお、質問文において「ディジタル保護リ
レーの発売日は?」の様に疑問詞が省略される場合があ
る。このようなケースには、属性名推定手段132が対
応する。属性名推定手段132は、文末にある自立語を
属性名として推定し出力する。この場合、質問文に疑問
詞を伴わないので、抽出文字列タイプは、抽出文字列タ
イプ推定手段143により属性名を用いて推定される。
抽出文字列タイプ推定手段143は、図6に示す属性名
辞書144を参照して、属性名推定手段132で推定さ
れた属性名から抽出文字列タイプを推定する。属性名辞
書144には、図7に示すように属性名とそれに対応す
る抽出文字列タイプが定義されている。ここの例では、
文末にある自立語が「発売日」であるから、推定された
属性名は「発売日」となり、属性名に対応する抽出文字
列タイプは「日付」となる。以上の処理により、ステッ
プST1において、質問文解析手段1はユーザの入力し
た質問文から抽出文字列タイプ、属性名、検索語を出力
する。
【0034】次に、ステップST2において文書検索を
行う。文書検索手段2は、質問文解析手段1から得られ
た検索語および属性名を検索条件としてインターネット
等のネットワーク上で開示されている文書を検索し、検
索結果を文書へのリンクのリストとして出力する。検索
処理は、一般にインターネット等の検索エンジンとして
用いられている様々な既存技術を用いることで行える。
この場合、文書検索結果には、検索要求を満たす文書の
一覧が文書へのリンクのリストとして表現される。ここ
で、文書へのリンクとは、ネットワーク中における文書
の所在を一意に決定する文字列であり、例えばインター
ネットにおいては周知のURL(Uniform Resource Loc
ator)を文書へのリンクとして利用できる。また、検索
語および属性名から検索要求を作成する際に、検索語お
よび属性名に含まれる単語の類義語を求め、これらの類
義語を検索要求に追加することにより、より広範に文書
を検索することも可能となる。ここで用いる類義語展開
方法としては、類義語辞書を用いる方法などがあるが、
言語解析の分野では周知の処理であるので、その説明に
ついては省略する。
【0035】図8は文書検索手段2の構成例を示し、図
において、21は分野判定手段、22は分野判定辞書、
23は検索エンジン選択手段、24は検索エンジン制御
手段、25(1)〜25(n)は検索エンジンである。
まず分野判定手段21は、検索要求の語(検索語)と分
野判定辞書22の内容とを照合し、その検索要求の語の
分野の検索に適した検索エンジンを判定する。分野判定
辞書22には、図9に示すように、検索要求の語、その
選択に適した検索エンジンの名前および重みの組が定義
されている。分野判定手段21は、検索要求の中の各語
を分野判定辞書22と照合し、検索要求の語の欄に一致
する項目があれば、選択する検索エンジンの名前と重み
を出力する。
【0036】検索要求中のすべての語について照合した
後、検索エンジン選択手段23により、分野判定手段2
1の処理結果を検索エンジンの名前ごとに重みを足し合
わせ、最も重みの大きい検索エンジンの名前に該当する
ものを検索エンジン25(1)〜25(n)の中から選
択する。また、利用する検索エンジンの数を予め定義し
ておき、重みの値の上位から予め定義した件数分の検索
エンジンを選択するようにしてもよい。次に、検索エン
ジン制御手段24は、検索エンジン選択手段23により
選択された検索エンジンに対して検索要求を送る。選択
されたすべての検索エンジンからの検索結果を取得し終
わると、その各検索エンジンの検索結果である文書への
リンクのリストをすべてつなぎ合わせ、一つのリストに
統合する。このとき、リスト内で同一の文書へのリンク
が重複しないようにするため、すでにリストに登録した
文書へのリンクをリストには追加しないようにする。以
上の処理により、ステップST2では、文書検索手段2
は検索語および属性名を検索条件として検索した結果を
文書へのリンクのリストとして出力する。
【0037】次に、ステップST3において、文書収集
を行う。文書収集手段3は検索結果である文書へのリン
クのリストに示された各文書をネットワーク経由で取得
し、文書収集手段3内の記録装置(パソコンの場合、ハ
ードディスク上の指定されたファイル)に文書へのリン
クのリストと共に格納する。ここでの文書格納方法は、
文書検索結果のリンクのリストと収集した文書がそれぞ
れ1対1に対応していることが保証されるものであれ
ば、様々な既存技術を用いることができる。以上の処理
により、文書収集ステップST3では、文書収集手段3
は文書検索結果として文書へのリンクのリストで示され
た文書を記録装置に格納する。
【0038】次に、ステップST4において、情報抽出
制御を行う。情報抽出制御手段4は、文書収集手段3が
収集した文書を一つずつ処理し、各文書から質問文の解
答候補となる文字列および当該文字列の前記質問文に対
する答えとしての信頼度の組を抽出するための制御を行
う。図10に情報抽出制御(ステップST4)の詳細手
順を示す。ステップST4は、ステップST5〜ST7
を含める手順として考えられる。情報抽出制御手段4
は、文書収集手段3内の記録装置に格納する収集された
文書を一つずつ取得し(ステップST42)、文書分類
(ステップST5)、文書ブロック抽出(ステップST
6)、抽出処理係数判定(ステップST43)および情
報抽出(ステップST7)の各処理を行わせる。文書収
集手段3内の記録装置に格納された文書についてすべて
処理し終わると情報抽出制御(ステップST4)は終了
する。以下、これらの各ステップに従って動作を説明す
る。
【0039】ステップST5において、文書分類手段5
は、文書収集手段3から順次取得した文書と文書へのリ
ンクを形式と所在に基づいたカテゴリに分類する。図1
1は文書分類手段5の構成例を示し、図において、51
は文書と文書へのリンクから文書を文書形式に基づいて
分類する文書形式分類手段で、パタン比較手段511と
文書形式分類ルール512から構成されている。52は
文書を文書所在に基づいて分類する文書所在分類手段
で、パタン比較手段521と文書所在分類ルール522
から構成されている。
【0040】文書形式分類手段51は、パタン比較手段
511により文書と文書形式分類ルール512に定義さ
れているルールとの比較を行う。文書形式分類ルール5
12は、図12に示すようにルールNo、条件、分類先
の組で構成される。ルールの条件は、パタン表記の一般
的な手法である正規表現を用いているが、パタン表記方
法を限定するものではない。また、正規表現は言語解析
の分野では周知の処理であるので、ここではその詳細説
明については省略する。図12の例では、パタン表記に
おける特殊記号として任意の1文字を表す「.」、直前
の文字の繰り返しを表す「*」を用いている。また、パ
タンマッチで一致した文字列を格納するための変数とし
て「¥1」〜「¥3」、2つの変数に格納された文字列
が一致することを示す演算子として「==」、変数に格
納された文字列の長さを表すオペレータとして「.le
ngth」、整数の加算演算子として「+」、整数の比
較演算子として「<=」を用いている。ルール比較で
は、文書ブロックと文書形式分類ルール512に定義さ
れているルールとを、ルールNo.の順に比較し、ルー
ルの条件が文書ブロックの記述と一致した段階で、ルー
ルに記されている分類先カテゴリのラベルを文書形式分
類結果として出力し終了する。
【0041】次に、文書所在分類手段52は、パタン比
較手段521により文書へのリンクと文書所在分類ルー
ル522に定義されているルールとの比較を行う。文書
所在分類ルール522は、図13に示すようにルールN
o、条件、分類先の組で構成される。ルールの条件は、
パタン表記の一般的な手法である正規表現を用いている
が、パタン表記方法を限定するものではない。また、正
規表現は言語解析の分野では周知の処理であるので、こ
こではその詳細説明は省略する。図13の例では、パタ
ン表記における特殊記号として任意の1文字を表
す「.」、直前の文字の繰り返しを表す「*」を用いて
いる。ルール比較では、パタン比較手段521は、文書
へのリンクと文書所在分類ルール522に定義されてい
るルールとを、ルールNoの順に比較し、ルールの条件
が文書へのリンクと一致した段階で、ルールに記されて
いる分類先カテゴリのラベルを文書所在分類結果として
出力する。以上の処理により、ステップST5では、文
書分類手段5は文書をカテゴリに分類し、文書の形式と
所在に関する分類先カテゴリのラベルを文書分類結果と
して出力する。
【0042】ステップST6では、文書ブロック抽出手
段6は質問文解析結果である検索語、属性名および抽出
文字列タイプを入力し、また文書収集手段3に格納され
た処理対象の文書を順次入力し、処理対象の文書から検
索語、属性名および抽出文字列タイプをすべて含む文書
ブロックを情報抽出対象となる部分として抽出する。こ
こで、文書ブロックとは文書中に埋め込まれた文書構造
を表すタグにより区切られた文書の構造上の単位であ
る。図16に示す構造化文書の文書ブロック例では、文
書中に構造の開始を表すタグとして<TITLE>の様
に「<」と「>」で囲まれた文字列と、構造の終わりを
示すタグとして</TITLE>の様に「</」と
「>」で囲まれた文字列が挿入してある。この中で、<
TABLE>タグと</TABLE>タグで囲まれた文
書ブロックは、図中の点線で示した範囲になる。
【0043】図14は文書ブロック抽出手段6の構成例
を示し、図において、61は検索語位置判定手段、62
は属性名位置判定手段、63は抽出文字列位置判定手
段、64は文字列タイプ判定手段、65は文字列タイプ
判定辞書、66は部分文書抽出手段である。文書ブロッ
ク抽出手段6は、検索語位置判定手段61、属性名位置
判定手段62および抽出文字列位置判定手段63によ
り、与えられた処理対象の文書中の検索語、属性名およ
び抽出文字列の位置を判定し、情報抽出対象となる文書
ブロックを抽出する。このとき、抽出文字列位置判定手
段63は、処理対象の文書を先頭から読み込み各文から
単語を抽出し、文字列タイプ判定手段64に渡す。
【0044】文字列タイプ判定手段64は、図15に示
す形式の文字列タイプの判定パタンが登録されている文
字列タイプ判定辞書65を参照し、渡された名詞句と一
致するパタンが辞書内にある場合には、そのパタンに対
応する抽出文字列タイプを抽出文字列位置判定手段63
に返す。また、一致するパタンが辞書内にない場合に
は、不明なパタンであることを示す情報を返す。なお、
図15では、パタン表記の一般的な手法である正規表現
を用いているが、文書検索方法を限定するものではな
い。また、正規表現は言語解析の分野では周知の処理で
あるので、ここではその詳細説明については省略する。
図15の例では、パタン表記の特殊記号として、任意の
1文字を表す「.」、直前の文字の繰り返しを表す
「*」、括弧内の範囲の1文字を表す「[0−9]」、
エスケープ文字である価格記号「¥」を正規表現として
表すための「¥¥」を用いている。
【0045】次に、部分文書抽出手段66により、文書
中の構造を表すタグを文書の先頭から順に検査し、検索
語、属性名および抽出文字列の全てを含む最も範囲の狭
いタグを求める。このとき、文書中に検索語、属性名お
よび抽出文字列が複数存在する場合は、属性名と抽出文
字列すべての組合せについて文書ブロックを抽出する。
以上の処理により、ステップST6では、文書ブロック
抽出手段6は処理対象の文書から情報抽出対象となる文
書ブロックを抽出する。
【0046】ステップST43の抽出処理係数判定にお
いて、情報抽出制御手段4は、文書分類手段5で得られ
た文書分類結果(カテゴリ分類)に応じて文字列抽出手
段71(1)〜71(n)のそれぞれが受け持つ解析処
理係数の組み合わせを設定して情報抽出手段7の動作を
制御する。図17に抽出処理係数定義の例を示す。抽出
処理係数定義は、文書形式分類結果および文書所在分類
結果からなり、かつ両者に対応して適用すべく定義した
解析方法とそれに与えられた抽出処理係数を示したもの
である。各解析方法による処理は、それぞれの解析方法
を受け持つ情報抽出手段7の文字列抽出手段71(1)
〜71(n)によって行われる。例として説明すると、
文書所在分類結果が「ニュースサイト」、文書形式分類
結果が「トップページ」である文書の場合、この文書か
ら情報抽出を「係り受け解析」を受け持つ文字列抽出手
段71(1)で行うと、抽出された情報の抽出処理係数
が0.8となるということである。同様に、「表解析」
を用いた文字列抽出手段71(2)で抽出した場合、抽
出処理係数は0.2となり、「タイトル重視解析」を用
いた抽出の場合には抽出処理係数は0.2となり、また
「段落内重視解析」を用いた抽出の場合には抽出処理係
数は0.5となる。
【0047】ステップST7において、情報抽出手段7
は文書ブロック抽出手段6で抽出された文書ブロック
(以下、抽出文書ブロックとする)から、複数の文字列
抽出手段71(1)〜71(n)により回答候補となる
文字列と質問文に対する答えとしての信頼度を抽出す
る。文字列抽出手段71(1)〜71(n)は、それぞ
れが処理対象となる文章ブロックに対して異なる解析処
理方法を受け持っている。以下、係り受け解析処理およ
び表解析処理を用いた解析処理方法の例について説明す
る。まず、係り受け解析処理を受け持つ文字列抽出手段
71(1)による文字列抽出について説明する。図18
は係り受け解析処理を行う文字列抽出手段17(1)の
構成例を示す。図において、711は形態素解析手段、
712は係り受け解析手段、713は回答候補生成手
段、714は抽出処理信頼度判定手段である。
【0048】文字列抽出手段71(1)は、文書ブロッ
ク、検索語、属性名、抽出文字列タイプを入力とする。
まず、形態素解析手段711により文書ブロック中のす
べての文を単語に分解し、係り受け解析手段712によ
り文書ブロック中の各名詞句間の係り受け関係を解析す
る。係り受け解析処理は、言語解析の分野では周知の処
理であるので、ここではその説明については省略する。
図19は係り受け解析を行う文例を示し、図20は図1
9の文例に対する係り受け解析結果の木構造を示す。こ
の場合、「三菱電機」は「発表」にかかるので、図20
では「三菱電機」から「発表」へ矢印を記している。同
様に、係り受け関係の係る句から受ける句への矢印を文
中のすべての語について記す。この処理の結果、一つの
文書ブロックから複数の係り受け解析結果の木が生成さ
れる。
【0049】次に、回答候補生成手段713により、検
索語、属性名、抽出文字列タイプに一致する文字列を全
て含む係り受け解析結果の木を選択し、各木から検索
語、属性名および抽出文字列タイプに一致する文字列
と、ノードの文字列とが部分一致するもの以外を除去し
た部分木を生成する。図20の解析結果の木において、
質問文を「保護リレーの発売日はいつですか?」と想定
した場合、検索語は「保護リレー」、属性名は「発売
日」、抽出文字列タイプは「日付」となる。このことか
ら、回答候補として図21に示す二つの候補が生成され
る。
【0050】回答候補が生成されると、抽出処理信頼度
判定手段714によりそれぞれの回答候補の抽出処理信
頼度を求める。抽出処理信頼度とは、回答候補の部分木
の中で、検索語、属性名および抽出文字列タイプに一致
する文字列と、ノードの文字列とが部分一致しているノ
ードの割合である。図21の例では、回答候補(1)の
ノードはすべて部分一致しているので、信頼度は1.0
となる。回答候補(2)のノードは、「発表」が部分一
致していないので、信頼度は0.75となる。以上のよ
うにして、求めた回答候補の中から抽出文字列タイプに
一致するノードの文字列と信頼度の組を出力する。図2
1の例では、「10月1日」−「1.0」と、「26
日」−「0.75」が出力される。
【0051】次に、表解析処理を受け持つ文字列抽出手
段71(2)による文字列抽出について説明する。図2
2は表解析処理を行う文字列抽出手段71(2)の構成
例を示す。図において、721は属性名位置判定手段、
722は検索語位置判定手段、723は回答候補抽出手
段、724は抽出文字列タイプ判定手段である。表解析
処理において、処理対象とする文書ブロックは、例えば
図23に示すような表である。文字列抽出手段71
(2)は、文書ブロック、検索語、属性名、抽出文字列
タイプを入力とする。まず、属性名位置判定手段721
において処理対象の表から属性名と一致するセルの位置
を判定し、検索語位置判定手段722において検索語と
一致するセルの位置を判定する。
【0052】例えば、検索語が「過電圧継電器」、属性
名が「発売日」、抽出文字列タイプが「日付」であると
き、図23に示す表を処理した場合は、属性名は6行目
−1列目のセルに該当し、検索語は1行目−4列目のセ
ルに該当する。次に、回答候補抽出手段723は、検索
語のある列と属性名のある行との交点にあるセル、およ
び検索語のある行と属性名のある列との交点にあるセル
の両方の文字列を抽出する。この結果に対して、抽出文
字列タイプ判定手段724は抽出文字列のタイプに一致
している文字列を回答候補とする。抽出文字列タイプの
一致判定は、文書ブロック抽出手段6の詳細説明で用い
た文字列タイプ判定手段64を利用して行えるので、こ
こでは説明を省略する。図23の例では、1行目−1列
目にある「仕様」というセルと、6行目―4列目にある
「10月1日」というセルが処理対象になる。抽出文字
列タイプは「日付」であるので、6行目―4列目にある
「10月1日」という文字列を回答候補とする。表解析
処理を用いた文字列抽出手段71(2)により得られた
回答候補の信頼度は1.0とする。以上の処理により、
情報抽出手段7は文章ブロックが表である場合に、その
表から検索語と属性名で特定される文字列を抽出する。
【0053】次に、情報抽出手段7は、抽出処理係数判
定(ステップST43)により求めた各文字列抽出手段
71(1)〜71(n)の抽出処理係数と、各文字列抽
出手段71(1)〜71(n)により得られた抽出文字
列の信頼度との積をとり、得られた値を抽出文字列の信
頼度とし、出力として抽出文字列、信頼度および抽出文
書ブロックからなる組を得る。
【0054】ステップST8において、抽出結果統合手
段8は、以上の処理によって得られた抽出文字列、その
信頼度および抽出文書ブロックからなる組のリストを入
力とする。抽出結果統合手段8は、抽出された複数の抽
出文字列のうち、同じ文字列のものについて信頼度の合
計を求める。例えば、図24に示すように、抽出文字列
が得られた場合、「10月1日」、「26日」等のそれ
ぞれ同じ抽出文字列に対して信頼度の合計値(集計信頼
度)を求める。この集計結果は図25に示される。抽出
結果統合手段8は、抽出文字列、信頼度、集計信頼度お
よび抽出文書ブロックを統合して出力する。
【0055】ステップST9において、抽出結果出力手
段9は、抽出文字列、信頼度、抽出結果統合手段8から
の集計信頼度および抽出文書ブロックからなる組を入力
とし、集計された信頼度の順位に基づいた抽出文書ブロ
ックからユーザに提示する表示用データを生成する。図
26は抽出結果出力手段9の構成例を示す。図におい
て、91は文書選択手段、92は文書要約手段、93は
抽出結果整形手段である。抽出文字列と信頼度、集計信
頼度および抽出文書ブロックからなる組が入力される
と、文書選択手段91は、抽出文書ブロックのうちから
抽出文字列と共にユーザに提示する抽出元文書ブロック
を選択する。抽出文字列ごとに抽出元文書ブロックを信
頼度の高い順に並べ替え、1抽出文字列あたりの抽出元
文書ブロックを予め設定された表示件数分だけ、信頼度
の上位から取得する。図24の抽出文字列「10月1
日」を例にとると、抽出元文書ブロックの順番は信頼度
の高い順に「三菱電機株式会社(…)、「バックナンバ
ー:電力…」、「リレー製品一覧…」、「製品ラインナ
ップ…」となる。ここで、1抽出文字列あたりの抽出元
文書ブロックの表示件数を2件とすると、「三菱電機株
式会社(…)、「バックナンバー:電力…」の2つの文
書ブロックを選択する。同様に、他の抽出文字列につい
ても信頼度の高い順に抽出元文書ブロックを選択する。
【0056】次に、文書要約手段92は検索語、属性
名、抽出文字列および文書選択手段91で選択された抽
出元文書ブロックを入力とし、各文書の要約を生成す
る。文書要約手段92は、抽出元文書ブロックから取り
出す文字列の長さを予め定めておき、抽出元文書ブロッ
クを先頭から読み込み、検索語、属性名、抽出文字列の
いずれかを検出した場合、抽出元文書ブロック中での検
出位置の前後から予め定めた長さ分だけ文字列を取り出
す。これら取り出された文字列を、ユーザが見て中略し
たことが判明できる「…」等の記号を間に入れて連結
し、要約文書を生成する。
【0057】次に、抽出結果整形手段93は、ユーザの
入力した質問文、抽出文字列、集計信頼度および要約文
書を図27に例示されるような予め定められた形式に整
形して出力する。ここで示されたものは、ユーザの入力
した質問文、抽出文字列、集計信頼度および要約文書を
含んだ例である。他の例として、抽出結果整形手段93
は、抽出文字列と文書選択手段91で選択された抽出元
文書ブロックとからなる組で表示データを生成するよう
にしてもよい。
【0058】以上のように、ここでは、文書の構造を考
慮した文字列抽出処理を行っているが、文書の構造の持
つ意味は、文書の所在と形式によって異なることが分
る。この実施の形態1では、文書の所在と形式によって
文字列抽出方法に対する係数を切り替えることで、文書
の構造の持つ意味の違いにも対応できるようにしてい
る。例えば、ニュースサイトにおいて、文書形式が「文
書」に分類されるような個別のニュースの文書では、タ
イトル部分にニュース記事に関係した語が記述されるこ
とが多い。また、文書形式が「トップページ」に分類さ
れるような表紙の文書では、一般にタイトル部分が新聞
社の名前やニュースサイトのブランドになっていること
が多い。そこで、図17に示すように、文書所在分類の
「ニュースサイト」に対応する文書形式分類の「文書」
は、タイトル重視解析の抽出処理係数を係り受け解析よ
りも高く設定する。このことにより、タイトル中に検索
語があり、タイトルから離れた位置に抽出文字列がある
文書においても、抽出文字列とタイトル中の語には関係
があるとみなせる。一方、対応する文書形式分類の「ト
ップページ」はタイトル重視解析の抽出処理係数を低く
し、1文ずつ処理する係り受け解析の値をより大きく設
定することにより、不要な語の抽出を避けることが可能
となる。
【0059】以上の処理について具体例を用いて説明す
る。質問文として、「ディジタル保護リレーの発売日は
いつですか?」を想定する。ステップST2で文書検索
した結果として、企業のサイトにある図28で示す文書
と、ニュースのサイトにある図29で示す文書がヒット
したとする。ステップST4の情報抽出制御では、これ
らの文書を形式と所在で分類し、図28の文書を「混在
−企業サイト」、図29の文書を「トップページ−ニュ
ースサイト」と判定する。図28の文書については、図
17の抽出処理係数を参照すると、タイトル重視解析の
抽出処理係数が0.7となる。一般に企業が公開してい
る通常の文書では、タイトル部分に重要な項目が記述さ
れており、かつ1文書1トピックであることが多い。そ
のため、「混在−企業サイト」と判定された文書に対す
る文字列抽出処理では、タイトル重視解析により得られ
た情報の信頼度を、情報抽出の注目範囲を段落内だけに
絞った段落重視解析の信頼度より高く設定しておく。結
果として、文書中の<TITLE>タグで囲まれたタイ
トル部分にある「ディジタル保護リレー」が文書全体に
関係するとみなすタイトル重視解析によって抽出された
情報の信頼度は高くなる。
【0060】一方、文書の形式と所在が「トップページ
−ニュースサイト」と判定された図29の文書では、タ
イトル重視解析の抽出処理係数は0.2となる。図29
を見ると分るように、タイトル部分に日付が表記されて
いるが、これはトピック部分に記述されていることとは
直接関係していない。タイトル重視解析の抽出処理係数
は0.2となっており、この文書に対しては、タイトル
を重視した解析により抽出された情報の信頼度は低くな
る。
【0061】以上のように、この実施の形態1によれ
ば、文書中に見出しや箇条書き、表などを有する文書の
構造を考慮した文字列抽出処理を行うことで、構造を持
った文書からの情報の抽出を可能にする効果が得られ
る。また、文書の所在と形式によって文字列抽出処理に
おける抽出処理係数を切り替えることで、文書の構造の
持つ意味の違いに適宜対応する情報抽出を行える効果が
得られる。
【0062】
【発明の効果】以上のように、この発明によれば、ユー
ザが入力した質問文中の疑問詞の種類から質問文の答え
として求める文字列の種類を表す抽出文字列タイプを特
定すると共に、質問文から抽出文字列に関連する属性名
と、疑問詞や属性名以外の自立語からなる検索語とを抽
出する質問文解析手段と、抽出された検索語と属性名を
検索条件としてネットワーク上の文書を検索し、検索結
果として文書へのリンクのリストを得る文書検索手段
と、文書へのリンクにアクセスして該当する各文書をネ
ットワークから収集して格納する文書収集手段と、収集
された文書と文書へのリンクを文書収集手段から取得し
予め用意された分類ルールに従ってカテゴリに分類する
文書分類手段と、収集された文書を文書収集手段から取
得し検索語、属性名および抽出文字列タイプをすべて含
む文書ブロックを抽出する文書ブロック抽出手段と、一
つの文書ブロックに対して適用するそれぞれ異なる解析
処理方法を持つ複数の文字列抽出手段を用い、抽出され
た文書ブロックから検索語、属性名および抽出文字列タ
イプを用い質問文の解答候補となる文字列および質問文
に対する答えとしての当該文字列の信頼度を抽出する情
報抽出手段と、文書収集手段から収集された文書を順次
に取得して文書分類手段と文書ブロック抽出手段の動作
を制御し、かつ文書分類手段で分類されたカテゴリに応
じて文字列抽出手段のそれぞれが受け持つ解析処理係数
の組み合わせを設定し情報抽出手段の動作を制御する情
報抽出制御手段と、抽出された文字列のうちの同じ文字
列について信頼度を集計し、抽出された文字列、信頼
度、集計された信頼度、抽出された文書ブロックおよび
信頼度からなる組を出力する抽出結果統合手段と、集計
された信頼度の順位に基づいて抽出された文書ブロック
から表示用データを生成する抽出結果出力手段とを備え
るように構成したので、文書の構造を考慮した文字列抽
出処理を行うことで、構造を持った文書からの情報の抽
出を可能にする効果がある。また、文書分類手段で分類
されたカテゴリによって文字列の抽出処理係数を切り替
えることで、文書の構造の持つ意味の違いに適宜対応す
る情報抽出を行える効果がある。
【0063】この発明によれば、質問文解析手段が、疑
問詞と係り受け関係にある自立語を属性名と判定し抽出
する属性名判定手段を有するように構成したので、文字
列抽出に用いる属性名を容易に得ることができ、構造を
持った文書からの情報の抽出を可能にする効果がある。
【0064】この発明によれば、質問文解析手段が、疑
問詞の省略された質問文の文末にある自立語を属性名と
推定し抽出するように構成したので、疑問詞を持たない
質問文に対しても対応ができ、構造を持った文書からの
情報の抽出を可能にする効果がある。
【0065】この発明によれば、質問文解析手段が、疑
問詞とこの疑問詞に対応する抽出文字列タイプを定義し
た疑問詞辞書と、抽出された疑問詞に基づいて疑問詞辞
書を参照し該当する抽出文字列タイプを出力する抽出文
字列タイプ判定手段を有するように構成したので、質問
文の答えとして求める文字列の種類を表す抽出文字列タ
イプを容易に特定することができ、構造を持った文書か
らの情報の抽出を可能にする効果がある。
【0066】この発明によれば、質問文解析手段が、属
性名とこの属性名に対応する抽出文字列タイプを定義し
た属性名辞書と、推定された属性名に基づいて属性名辞
書を参照し該当する抽出文字列タイプを推定し出力する
抽出文字列タイプ推定手段を有するように構成したの
で、質問文に疑問詞が省略されている場合でも、推定さ
れた属性名から抽出文字列タイプを直接入手することが
でき、構造を持った文書からの情報の抽出を可能にする
効果がある。
【0067】この発明によれば、文書検索手段が、複数
の検索エンジンに対して検索語および属性名を検索条件
として与え、複数の検索エンジンが収集した各検索結果
である文書へのリンクのリストを一つのリストに統合す
る検索エンジン制御手段を有するように構成したので、
複数の検索エンジンによる処理結果を自動的に整理し、
重複の無い文書へのリンクのリストを作成でき、構造を
持った文書からの情報の抽出を効率よく行う効果があ
る。
【0068】この発明によれば、文書検索手段が、検索
語の分野の検索に適した検索エンジンを判定する分野判
定手段と、この分野判定手段により判定された検索エン
ジンを複数の検索エンジンの中から選択する検索エンジ
ン選択手段とを有するように構成したので、検索対象の
分野に適した検索エンジンを優先して自動選択でき、検
索ノイズが少なく確度の高い検索結果が得られ、構造を
持った文書からの情報の抽出を効率よく行う効果があ
る。
【0069】この発明によれば、抽出結果出力手段が、
抽出された文字列、検索語および属性名を含む要約文書
を抽出された文書ブロックから作成する文書要約手段
と、抽出された文字列と要約文書とからなる組で表示用
データを生成する抽出結果整形手段とを有するように構
成したので、構造を持った文書からの情報の抽出を可能
にし、ユーザの質問に対して複数の検索された文書情報
から適切な回答文を作成することができる効果がある。
【0070】この発明によれば、抽出結果出力手段が、
抽出された文字列と抽出された文書ブロックとからなる
組で表示用データを生成する抽出結果整形手段を有する
ように構成したので、構造を持った文書からの情報の抽
出を可能にし、ユーザの質問に対して複数の検索された
文書情報から信頼度の高い回答を得ることができる効果
がある。
【0071】この発明によれば、ユーザが入力した質問
文中の疑問詞の種類から質問文の答えとして求める文字
列の種類を表す抽出文字列タイプを特定し、質問文から
抽出文字列に関連する属性名と、疑問詞や属性名以外の
自立語からなる検索語とを抽出し、抽出された検索語と
属性名を検索条件としてネットワーク上の文書を検索し
て検索結果として文書へのリンクのリストを取得し、文
書へのリンクにアクセスして該当する各文書をネットワ
ークから収集し、収集された文書と文書へのリンクを予
め用意された分類ルールに従ってカテゴリに分類し、収
集された文書から検索語、属性名および抽出文字列タイ
プをすべて含む文書ブロックを抽出し、一つの文書ブロ
ックにそれぞれ適用する異なる複数の解析処理方法にお
いて各解析処理係数をカテゴリに応じて設定し、抽出さ
れた文書ブロックに解析処理方法を適用することにより
検索語、属性名および抽出文字列タイプに基づいて質問
文の解答候補となる文字列および質問文に対する答えと
しての当該文字列の信頼度を抽出し、抽出された文字列
のうちの同じ文字列について信頼度を集計し、集計され
た信頼度の順位に基づいて抽出された文書ブロックから
表示用データを生成するように構成したので、文書の構
造を考慮した文字列抽出処理を行うことで、構造を持っ
た文書からの情報の抽出を可能にする効果がある。ま
た、分類されたカテゴリによって文字列の抽出処理係数
を切り替えることで、文書の構造の持つ意味の違いに適
宜対応する情報抽出を行える効果がある。
【0072】この発明によれば、抽出された疑問詞と係
り受け関係にある自立語を属性名と判定し抽出するよう
に構成したので、文字列抽出に用いる属性名を容易に得
ることができ、構造を持った文書からの情報の抽出を可
能にする効果がある。
【0073】この発明によれば、疑問詞の省略された質
問文の文末にある自立語を属性名と推定し抽出するよう
に構成したので、属性名を持たない質問文に対しても対
応ができ、構造を持った文書からの情報の抽出を可能に
する効果がある。
【0074】この発明によれば、疑問詞とこの疑問詞に
対応する抽出文字列タイプの関係予め設けた定義を参照
し、抽出された疑問詞について該当する抽出文字列タイ
プを推定するように構成したので、質問文の答えとして
求める文字列の種類を表す抽出文字列タイプを容易に特
定することができ、構造を持った文書からの情報の抽出
を可能にする効果がある。
【0075】この発明によれば、属性名とこの属性名に
対応する抽出文字列タイプの関係を予め設けた定義を参
照し、推定された属性名について該当する抽出文字列タ
イプを推定するように構成したので、質問文に疑問詞が
省略されている場合でも、推定された属性名から抽出文
字列タイプを直接入手することができ、構造を持った文
書からの情報の抽出を可能にする効果がある。
【0076】この発明によれば、ネットワーク上の文書
を検索して文書へのリンクのリストを取得する際に、複
数の検索エンジンに対して検索語および属性名を検索条
件として与え、複数の検索エンジンが収集した各検索結
果である文書へのリンクのリストを一つのリストに統合
するように構成したので、複数の検索エンジンによる処
理結果を自動的に整理し、重複の無い文書へのリンクの
リストを作成でき、構造を持った文書からの情報の抽出
を効率よく行う効果がある。
【0077】この発明によれば、ネットワーク上の文書
を検索して文書へのリンクのリストを取得する際に、検
索語の分野の検索に適した検索エンジンを判定し、判定
された検索エンジンを複数の検索エンジンの中から選択
するように構成したので、検索対象の分野に適した検索
エンジンを優先して自動選択でき、検索ノイズが少なく
確度の高い検索結果が得られ、構造を持った文書からの
情報の抽出を効率よく行う効果がある。
【0078】この発明によれば、抽出された文字列、検
索語および属性名を含む要約文書を抽出された文書ブロ
ックから作成し、抽出された文字列と要約文書とからな
る組で表示用データを生成するように構成したので、構
造を持った文書からの情報の抽出を可能にし、ユーザの
質問に対して複数の検索された文書情報から適切な回答
文を作成することができる効果がある。
【0079】この発明によれば、抽出された文字列と抽
出された文書ブロックとからなる組で表示用データを生
成するように構成したので、構造を持った文書からの情
報の抽出を可能にし、ユーザの質問に対して複数の検索
された文書情報から信頼度の高い回答を得ることができ
る効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における情報抽出装
置の構成を示すブロック図である。
【図2】 同実施の形態1による動作のフローチャート
である。
【図3】 同実施の形態1に係る質問文解析手段の構成
例を示すブロック図である。
【図4】 同実施の形態1に係る形態素解析処理の文例
を示す説明図である。
【図5】 同実施の形態1に係る疑問詞辞書の構成例を
示す説明図である。
【図6】 同実施の形態1に係る抽出文字列タイプ推定
手段を示すブロック図である。
【図7】 同実施の形態1に係る属性名辞書の構成例を
示す説明図である。
【図8】 同実施の形態1に係る文書検索手段の構成例
を示すブロック図である。
【図9】 同実施の形態1に係る分野判定辞書の構成例
を示す説明図である。
【図10】 同実施の形態1に係る情報抽出制御の詳細
手順を示すフローチャートである。
【図11】 同実施の形態1に係る文書分類手段の構成
例を示すブロック図である。
【図12】 同実施の形態1に係る文書形式分類ルール
の構成例を示す説明図である。
【図13】 同実施の形態1に係る文書所在分類ルール
の構成例を示す説明図である。
【図14】 同実施の形態1に係る文書ブロック抽出手
段の構成例を示すブロック図である。
【図15】 同実施の形態1に係る文字列タイプ判定辞
書の構成例示す説明図である。
【図16】 同実施の形態1に係る文書ブロック抽出手
段で抽出対象とする文書ブロックの例を示す説明図であ
る。
【図17】 同実施の形態1に係る情報抽出制御手段で
扱う抽出処理係数定義の例を示す説明図である。
【図18】 同実施の形態1における係り受け解析処理
を受け持つ文字列抽出手段の構成例を示すブロック図で
ある。
【図19】 同実施の形態1に係る文字列抽出手段で処
理される文例を示す説明図である。
【図20】 同実施の形態1に係る係り受け解析手段に
よる解析結果例を示す説明図である。
【図21】 同実施の形態1に係る回答候補生成手段に
よる解答候補の例を示す説明図である。
【図22】 同実施の形態1における表解析処理を受け
持つ文字列抽出手段の構成例を示すブロック図である。
【図23】 同実施の形態1に係る文字列抽出手段で処
理される表例を示す説明図である。
【図24】 同実施の形態1に係る情報抽出手段の抽出
結果の例を示す説明図である。
【図25】 同実施の形態1に係る抽出結果統合手段の
集計結果の例を示す説明図である。
【図26】 同実施の形態1に係る抽出結果出力手段の
構成例を示すブロック図である。
【図27】 同実施の形態1に係る抽出結果出力手段の
抽出元文書例を示す説明図である。
【図28】 同実施の形態1に係る文書検索で抽出され
た文書ブロックの例を示す説明図である。
【図29】 同実施の形態1に係る文書検索で抽出され
た文書ブロックの例を示す説明図である。
【図30】 従来技術を説明するフローチャートであ
る。
【符号の説明】
1 質問文解析手段、2 文書検索手段、3 文書収集
手段、4 情報抽出制御手段、5 文書分類手段、6
文書ブロック抽出手段、7 情報抽出手段、8抽出結果
統合手段、9 抽出結果出力手段、11 形態素解析手
段、12 構文解析手段、21 分野判定手段、22
分野判定辞書、23 検索エンジン選択手段、24 検
索エンジン制御手段、25(1)〜25(n) 検索エ
ンジン、51 文書形式分類手段、52 文書所在分類
手段、61 検索語位置判定手段、62 属性名位置判
定手段、63 抽出文字列位置判定手段、64 文字列
タイプ判定手段、65 文字列タイプ判定辞書、66
部分文書抽出手段、71(1)〜71(n) 文字列抽
出手段、91 文書選択手段、92 文書要約手段、9
3 抽出結果整形手段、131 属性名判定手段、13
2 属性名推定手段、141 疑問詞辞書、142 抽
出文字列タイプ判別手段、143 抽出文字列タイプ推
定手段、144 属性名辞書、511 パタン比較手
段、512文書形式分類ルール、521 パタン比較手
段、522 文書所在分類ルール、711 形態素解析
手段、712 係り受け解析手段、713 回答候補生
成手段、714 抽出処理信頼度判定手段、721 属
性名位置判定手段、722検索語位置判定手段、723
回答候補抽出手段、724 抽出文字列タイプ判定手
段。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高山 泰博 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 鈴木 克志 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B075 ND03 NK25 NR12 PP24 PQ74 UU06

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 ユーザが入力した質問文中の疑問詞の種
    類から前記質問文の答えとして求める文字列の種類を表
    す抽出文字列タイプを特定すると共に、前記質問文から
    前記抽出文字列に関連する属性名と、前記疑問詞や前記
    属性名以外の自立語からなる検索語とを抽出する質問文
    解析手段と、 抽出された前記検索語と前記属性名を検索条件としてネ
    ットワーク上の文書を検索し、検索結果として文書への
    リンクのリストを得る文書検索手段と、 前記文書へのリンクにアクセスして該当する各文書をネ
    ットワークから収集して格納する文書収集手段と、 収集された文書と前記文書へのリンクを前記文書収集手
    段から取得し予め用意された分類ルールに従ってカテゴ
    リに分類する文書分類手段と、 前記収集された文書を前記文書収集手段から取得し前記
    検索語、前記属性名および前記抽出文字列タイプをすべ
    て含む文書ブロックを抽出する文書ブロック抽出手段
    と、 一つの文書ブロックに対して適用するそれぞれ異なる解
    析処理方法を持つ複数の文字列抽出手段を用い、抽出さ
    れた文書ブロックから前記検索語、前記属性名および前
    記抽出文字列タイプを用い前記質問文の解答候補となる
    文字列および前記質問文に対する答えとしての当該文字
    列の信頼度を抽出する情報抽出手段と、 前記文書収集手段から前記収集された文書を順次に取得
    して前記文書分類手段と前記文書ブロック抽出手段の動
    作を制御し、かつ前記文書分類手段で分類されたカテゴ
    リに応じて前記文字列抽出手段のそれぞれが受け持つ解
    析処理係数の組み合わせを設定し前記情報抽出手段の動
    作を制御する情報抽出制御手段と、 抽出された文字列のうちの同じ文字列について前記信頼
    度を集計し、前記抽出された文字列、前記信頼度、集計
    された信頼度、前記抽出された文書ブロックおよび前記
    信頼度からなる組を出力する抽出結果統合手段と、 前記集計された信頼度の順位に基づいて前記抽出された
    文書ブロックから表示用データを生成する抽出結果出力
    手段とを備えたことを特徴とする情報抽出装置。
  2. 【請求項2】 質問文解析手段が、疑問詞と係り受け関
    係にある自立語を属性名と判定し抽出する属性名判定手
    段を有したことを特徴とする請求項1記載の情報抽出装
    置。
  3. 【請求項3】 質問文解析手段が、疑問詞の省略された
    質問文の文末にある自立語を属性名と推定し抽出する属
    性名推定手段を有したことを特徴とする請求項1または
    請求項2記載の情報抽出装置。
  4. 【請求項4】 質問文解析手段が、 疑問詞とこの疑問詞に対応する抽出文字列タイプを定義
    した疑問詞辞書と、 抽出された疑問詞に基づいて前記疑問詞辞書を参照し該
    当する抽出文字列タイプを出力する抽出文字列タイプ判
    定手段を有したことを特徴とする請求項2記載の情報抽
    出装置。
  5. 【請求項5】 質問文解析手段が、 属性名とこの属性名に対応する抽出文字列タイプを定義
    した属性名辞書と、 推定された属性名に基づいて前記属性名辞書を参照し該
    当する抽出文字列タイプを推定し出力する抽出文字列タ
    イプ推定手段を有したことを特徴とする請求項3記載の
    情報抽出装置。
  6. 【請求項6】 文書検索手段が、複数の検索エンジンに
    対して検索語および属性名を検索条件として与え、前記
    複数の検索エンジンが収集した各検索結果である文書へ
    のリンクのリストを一つのリストに統合する検索エンジ
    ン制御手段を有したことを特徴とする請求項1から請求
    項5のうちのいずれか1項記載の情報抽出装置。
  7. 【請求項7】 文書検索手段が、 検索語の分野の検索に適した検索エンジンを判定する分
    野判定手段と、 この分野判定手段により判定された検索エンジンを複数
    の検索エンジンの中から選択する検索エンジン選択手段
    とを有したことを特徴とする請求項1から請求項6のう
    ちのいずれか1項記載の情報抽出装置。
  8. 【請求項8】 抽出結果出力手段が、 抽出された文字列、検索語および属性名を含む要約文書
    を抽出された文書ブロックから作成する文書要約手段
    と、 前記抽出された文字列と前記要約文書とからなる組で表
    示用データを生成する抽出結果整形手段とを有したこと
    を特徴とする請求項1から請求項7のうちのいずれか1
    項記載の情報抽出装置。
  9. 【請求項9】 抽出結果出力手段が、抽出された文字列
    と抽出された文書ブロックとからなる組で表示用データ
    を生成する抽出結果整形手段を有したことを特徴とする
    請求項1から請求項7のうちのいずれか1項記載の情報
    抽出装置。
  10. 【請求項10】 ユーザが入力した質問文中の疑問詞の
    種類から前記質問文の答えとして求める文字列の種類を
    表す抽出文字列タイプを特定し、 前記質問文から前記抽出文字列に関連する属性名と、前
    記疑問詞や前記属性名以外の自立語からなる検索語とを
    抽出し、 抽出された前記検索語と前記属性名を検索条件としてネ
    ットワーク上の文書を検索して検索結果として文書への
    リンクのリストを取得し、 前記文書へのリンクにアクセスして該当する各文書をネ
    ットワークから収集し、 収集された文書と前記文書へのリンクを予め用意された
    分類ルールに従ってカテゴリに分類し、 前記収集された文書から前記検索語、前記属性名および
    前記抽出文字列タイプをすべて含む文書ブロックを抽出
    し、 一つの文書ブロックにそれぞれ適用する異なる複数の解
    析処理方法において各解析処理係数を前記カテゴリに応
    じて設定し、 抽出された文書ブロックに前記解析処理方法を適用する
    ことにより前記検索語、前記属性名および前記抽出文字
    列タイプに基づいて前記質問文の解答候補となる文字列
    および前記質問文に対する答えとしての当該文字列の信
    頼度を抽出し、 抽出された文字列のうちの同じ文字列について前記信頼
    度を集計し、 前記集計された信頼度の順位に基づいて前記抽出された
    文書ブロックから表示用データを生成するようにしたこ
    とを特徴とする情報抽出方法。
  11. 【請求項11】 抽出された疑問詞と係り受け関係にあ
    る自立語を属性名と判定し抽出するようにしたことを特
    徴とする請求項10記載の情報抽出方法。
  12. 【請求項12】 疑問詞の省略された質問文の文末にあ
    る自立語を属性名と推定し抽出するようにしたことを特
    徴とする請求項10または請求項11記載の情報抽出方
    法。
  13. 【請求項13】 疑問詞とこの疑問詞に対応する抽出文
    字列タイプの関係を予め設けた定義を参照し、抽出され
    た疑問詞について該当する抽出文字列タイプを推定する
    ようにしたことを特徴とする請求項11記載の情報抽出
    方法。
  14. 【請求項14】 属性名とこの属性名に対応する抽出文
    字列タイプの関係を予め設けた定義を参照し、推定され
    た属性名について該当する抽出文字列タイプを推定する
    ようにしたことを特徴とする請求項12記載の情報抽出
    方法。
  15. 【請求項15】 ネットワーク上の文書を検索して文書
    へのリンクのリストを取得する際に、複数の検索エンジ
    ンに対して検索語および属性名を検索条件として与え、
    前記複数の検索エンジンが収集した各検索結果である文
    書へのリンクのリストを一つのリストに統合するように
    したことを特徴とする請求項10から請求項14のうち
    のいずれか1項記載の情報抽出方法。
  16. 【請求項16】 ネットワーク上の文書を検索して文書
    へのリンクのリストを取得する際に、検索語の分野の検
    索に適した検索エンジンを判定し、判定された検索エン
    ジンを複数の検索エンジンの中から選択するようにした
    ことを特徴とする請求項10から請求項15のうちのい
    ずれか1項記載の情報抽出方法。
  17. 【請求項17】 抽出された文字列、検索語および属性
    名を含む要約文書を抽出された文書ブロックから作成
    し、前記抽出された文字列と前記要約文書とからなる組
    で表示用データを生成するようにしたことを特徴とする
    請求項10から請求項16のうちのいずれか1項記載の
    情報抽出方法。
  18. 【請求項18】 抽出された文字列と抽出された文書ブ
    ロックとからなる組で表示用データを生成するようにし
    たことを特徴とする請求項10から請求項16のうちの
    いずれか1項記載の情報抽出方法。
JP2001346422A 2001-11-12 2001-11-12 情報抽出装置および情報抽出方法 Pending JP2003150624A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001346422A JP2003150624A (ja) 2001-11-12 2001-11-12 情報抽出装置および情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001346422A JP2003150624A (ja) 2001-11-12 2001-11-12 情報抽出装置および情報抽出方法

Publications (1)

Publication Number Publication Date
JP2003150624A true JP2003150624A (ja) 2003-05-23

Family

ID=19159601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001346422A Pending JP2003150624A (ja) 2001-11-12 2001-11-12 情報抽出装置および情報抽出方法

Country Status (1)

Country Link
JP (1) JP2003150624A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289848A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
JP2006099428A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書要約作成システム、方法、及びプログラム
JP2006099279A (ja) * 2004-09-28 2006-04-13 Newswatch Inc 検索装置及び検索プログラム
JP2006106872A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 知識情報収集システム、知識検索システム及び知識情報収集方法
JP2006107495A (ja) * 2004-10-01 2006-04-20 Ricoh Co Ltd イメージキャプチャー装置を使った文書検索技術
JP2006252380A (ja) * 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2007139039A1 (ja) 2006-05-26 2007-12-06 Nec Corporation 情報分類装置、情報分類方法、及び情報分類プログラム
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
JP2009003814A (ja) * 2007-06-22 2009-01-08 National Institute Of Information & Communication Technology 質問応答方法及びシステム
KR101284788B1 (ko) 2009-10-13 2013-07-10 한국전자통신연구원 신뢰도에 기반한 질의응답 장치 및 그 방법
JP2018085020A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018085021A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018116447A (ja) * 2017-01-18 2018-07-26 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289848A (ja) * 2003-03-24 2004-10-14 Microsoft Corp 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
JP4623985B2 (ja) * 2003-03-24 2011-02-02 マイクロソフト コーポレーション 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
US7752217B2 (en) 2004-09-28 2010-07-06 Newswatch, Inc. Search device
JP2006099279A (ja) * 2004-09-28 2006-04-13 Newswatch Inc 検索装置及び検索プログラム
JP4516815B2 (ja) * 2004-09-28 2010-08-04 株式会社ニューズウォッチ 検索装置
JP2006099428A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書要約作成システム、方法、及びプログラム
JP2006106872A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 知識情報収集システム、知識検索システム及び知識情報収集方法
JP2006107495A (ja) * 2004-10-01 2006-04-20 Ricoh Co Ltd イメージキャプチャー装置を使った文書検索技術
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2006252380A (ja) * 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2007139039A1 (ja) 2006-05-26 2007-12-06 Nec Corporation 情報分類装置、情報分類方法、及び情報分類プログラム
US9025890B2 (en) 2006-05-26 2015-05-05 Nec Corporation Information classification device, information classification method, and information classification program
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
JP2011222056A (ja) * 2007-01-29 2011-11-04 Nhn Japan Corp 検索システム及び検索方法
JP2009003814A (ja) * 2007-06-22 2009-01-08 National Institute Of Information & Communication Technology 質問応答方法及びシステム
KR101284788B1 (ko) 2009-10-13 2013-07-10 한국전자통신연구원 신뢰도에 기반한 질의응답 장치 및 그 방법
JP2018085020A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018085021A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018116447A (ja) * 2017-01-18 2018-07-26 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
CN103136352B (zh) 基于双层语义分析的全文检索系统
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
US20100205198A1 (en) Search query disambiguation
US20040117352A1 (en) System for answering natural language questions
US20060161543A1 (en) Systems and methods for providing search results based on linguistic analysis
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP3918374B2 (ja) 文書検索装置および方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
JP2006227823A (ja) 情報処理装置及びその制御方法
JPH1049543A (ja) 文書検索装置
JP3612769B2 (ja) 情報検索装置および情報検索方法
WO1999014690A1 (fr) Procede d'addition d'un mot cle au moyen d'informations de liaison
KR20020072092A (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP3249743B2 (ja) 文書検索システム
Pizzato et al. Extracting exact answers using a meta question answering system
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
EP1876539A1 (en) Method and system for classifying media content