JP2007287134A

JP2007287134A - 情報抽出装置、及び情報抽出方法

Info

Publication number: JP2007287134A
Application number: JP2007038235A
Authority: JP
Inventors: Nahoko Sato; 奈穂子佐藤; Tetsuo Nagatsuka; 哲郎長束
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-03-20
Filing date: 2007-02-19
Publication date: 2007-11-01
Also published as: US20070233465A1

Abstract

【課題】ユーザによるキーワード入力などの煩雑な操作なしに、文書のテキスト部分を、時期、場所、主体、対象、態様の５要素の情報および述語情報として抽出できる情報抽出装置、及び情報抽出方法を提供する。
【解決手段】情報抽出装置１０は、言語解析部１２、要素抽出部１３、および補完情報取得部１４を備える。言語解析部１２は、入力する文書情報からテキスト部分を言語解析する。補完情報取得部１４は、文書に付随するプロパティなどの付随情報を取得する。要素抽出部１３は、言語解析された結果に対して、取得された付随情報を補完し、テキスト情報中の時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出する。
【選択図】図１

Description

本発明は、情報を抽出する情報抽出装置、及び情報抽出方法に関し、特に、テキスト情報から時期、場所、主体、対象、態様を示す５要素情報および述語情報を精度良く抽出できる情報抽出装置、及び情報抽出方法に関する。

現在、大量の電子化文書データが流通するようになり、収集・蓄積された文書の簡便な管理、再利用の方法のニーズが高まってきている。情報の再利用のために、文書検索、文書分類など、文書の分析技術が提案されている。文書の分析の際には、文書から有用な情報を効率よく抽出し、活用しやすい形態で記憶、出力させる情報抽出技術が必要である。

現在、情報抽出技術として最も広く知られているのが、文書を特徴づける単語であるキーワードを抽出する方法である。例えば文書中の単語の頻度を計量し、頻度を単語の「重み」に換算して自動的にキーワードを同定、抽出する方法が考案されている（特許文献１）。

また、対象文書を係り受け解析して、その結果を構文木（ツリー）や線形リストの形式で記憶し、単語と位置関係の頻出パターンを有用情報として自動抽出する方法が提案されている（特許文献２）。

また、人名や企業名特定の表現パターンを予め登録しておき、パターンマッチングでそれらの情報を抽出する方法も提案されている（特許文献３）。

また、複数の文書から所定の抽出パターンを用いて人物の業績を記述したイベント情報を抽出し、該当人物の業績を整理して出力する技術も提案されている（特許文献４）。

特開平０８−３０６２７号公報特開２００１−８４２５０号公報特開２００１−７５９５９号公報特開２００４−３５５４０４号公報

しかしながら、特許文献１および２の技術では、表層情報の頻出情報を用いた情報抽出方法であるので、テキスト中の高頻度情報からテキストの内容を類推することができるのであるが、日付や期間、場所などイベント付随の情報は同一テキスト中に高頻度で出現することが少ないため、取得が困難であるという問題があった。

また、特許文献３および４の技術では、パターンマッチングの方法を用いた情報抽出方法であるので、イベント付随の表現パターンを予め登録しておいた場合は、パターンマッチングで様々なバリエーションの表現抽出に対応できるが、しかしながら、登録パターンに合致しなければ抽出が困難であるという問題があった。

本発明は、上記の問題に鑑みてなされその目的は、ユーザによるキーワード入力などの煩雑な操作なしに、文書のテキスト部分を時期、場所、主体、対象、態様の５要素情報および述語情報として抽出できる情報抽出装置、及び情報抽出方法を提供することである。ここで、５要素情報は、簡略に４Ｗ１Ｈと称する情報のことである。

また、その目的は、ユーザによるキーワードの入力などの煩雑な操作なしに、複数の文書間の関係を判別して、複数の文書のテキスト部分から４Ｗ１Ｈおよび述語情報を抽出できる情報抽出装置、及び情報抽出方法を提供することである。

上述した課題を解決し、目的を達成するために、請求項１にかかる発明は、情報抽出装置において、入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析手段と、前記言語解析手段によって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出する要素抽出手段と、を備えたことを特徴とする。

また、請求項２記載の発明は、請求項１に記載の情報抽出装置において、前記要素抽出手段は、前記テキスト情報と抽出した前記５要素の情報および述語情報を関連付けて記憶する記憶手段を備え、該テキスト情報と該５要素の情報および述語情報とを関連付けて表示する表示手段をさらに備えたことを特徴とする。

また、請求項３記載の発明は、請求項１又は２に記載の情報抽出装置において、文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか１つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記５要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶する知識辞書記憶手段をさらに備え、前記要素抽出手段は、前記知識辞書を使用して前記テキスト情報から前記５要素の情報および述語情報を抽出することを特徴とする。

また、請求項４記載の発明は、請求項３に記載の情報抽出装置において、前記関係情報が範囲に関連する情報であることを特徴とする。

また、請求項５記載の発明は、請求項１から４のいずれか１項に記載の情報抽出装置において、前記文書情報に付随する文書属性情報を補完情報として取得する第１の補完情報取得手段を、さらに備え、前記要素抽出手段は、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第１の補完情報取得手段により取得した前記補完情報により補完することを特徴とする。

また、請求項６記載の発明は、請求項１から５のいずれか１項に記載の情報抽出装置において、前記文書情報の他のテキスト情報を補完情報として取得する第２の補完情報取得手段を、さらに備え、前記要素抽出手段は、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第２の補完情報取得手段により取得した前記補完情報により補完することを特徴とする。

また、請求項７記載の発明は、請求項１から６のいずれか１項に記載の情報抽出装置において、他の文書情報の周辺情報及び前記５要素情報および述語情報を補完情報として取得する第３の補完情報取得手段と、前記文書情報間の関係を特定する文書関係特定手段と、前記５要素の情報および述語情報を再構成する要素再構成手段と、をさらに備え、前記要素抽出手段は、前記言語解析手段によって解析された統語構造を用いて特定した前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第３の補完情報取得手段によって取得した前記補完情報により補完し、前記要素再構成手段は、前記文書関係特定手段によって特定された文書間の関係に基づいて、前記要素抽出手段によって抽出した前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項８記載の発明は、請求項７に記載の情報抽出装置において、前記要素再構成手段は、前記第３の補完情報取得手段により取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項９記載の発明は、請求項７に記載の情報抽出装置において、前記要素再構成手段は、前記第３の補完情報取得手段により取得する補完情報同士、および前記５要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記５要素の情報および述語情報の中からそれぞれ１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項１０記載の発明は、請求項７に記載の情報抽出装置において、前記要素再構成手段はさらに、前記文書関係特定手段によって関係が特定された他の文書情報から抽出された５要素の情報および述語情報に基づいて、前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項１１記載の発明は、情報抽出方法において、入力手段から入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析ステップと、前記言語解析ステップによって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出する要素抽出ステップと、を有することを特徴とする。

また、請求項１２記載の発明は、請求項１１に記載の情報抽出方法において、前記要素抽出ステップは、前記テキスト情報と抽出した前記５要素の情報および述語情報を関連付けて記憶手段に記憶する記憶ステップを有し、該テキスト情報と該５要素の情報および述語情報とを関連付けて表示手段に表示する表示ステップをさらに有することを特徴とする。

また、請求項１３記載の発明は、請求項１１又は１２に記載の情報抽出方法において、文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか１つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記５要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶手段に記憶する知識辞書記憶ステップをさらに有し、前記要素抽出ステップは、前記知識辞書を使用して前記テキスト情報から前記５要素の情報および述語情報を抽出することを特徴とする。

また、請求項１４記載の発明は、請求項１３に記載の情報抽出方法において、前記関係情報が範囲に関連する情報であることを特徴とする。

また、請求項１５記載の発明は、請求項１１から１４のいずれか１項に記載の情報抽出方法において、前記文書情報に付随する文書属性情報を補完情報として取得する第１の補完情報取得ステップをさらに有し、前記要素抽出ステップは、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第１の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする。

また、請求項１６記載の発明は、請求項１１から１５のいずれか１項に記載の情報抽出方法において、前記文書情報の他のテキスト情報を補完情報として取得する第２の補完情報取得ステップをさらに有し、前記要素抽出ステップは、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第２の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする。

また、請求項１７記載の発明は、請求項１１から１６のいずれか１項に記載の情報抽出方法において、他の文書情報の周辺情報及び前記５要素情報および述語情報を補完情報として取得する第３の補完情報取得ステップと、前記文書情報間の関係を特定する文書関係特定ステップと、前記５要素の情報および述語情報を再構成する要素再構成ステップと、をさらに有し、前記要素抽出ステップは、前記言語解析ステップによって解析された統語構造を用いて特定した前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第３の補完情報取得ステップによって取得した前記補完情報により補完し、前記要素再構成ステップは、前記文書関係特定ステップによって特定された文書間の関係に基づいて、前記要素抽出ステップによって抽出した前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項１８記載の発明は、請求項１７に記載の情報抽出方法において、前記要素再構成ステップは、前記第３の補完情報取得ステップにより取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項１９記載の発明は、請求項１７に記載の情報抽出方法において、前記要素再構成ステップは、前記第３の補完情報取得ステップにより取得する補完情報同士、および前記５要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記５要素の情報および述語情報の中からそれぞれ１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする。

また、請求項２０記載の発明は、請求項１７に記載の情報抽出方法において、前記要素再構成ステップはさらに、前記文書関係特定ステップによって関係が特定された他の文書情報から抽出された５要素の情報および述語情報に基づいて、前記５要素の情報および述語情報を再構成することを特徴とする。

本発明によれば、入力する文書情報におけるテキスト情報の統語構造を解析し、解析した統語構造を用いてテキスト情報中の時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出するので、ユーザがキーワードを入力したり、予め情報抽出定義を設定することなく、テキスト中の各トピックの関連情報を、４Ｗ１Ｈプラス述語情報として精度よく抽出することができる。

また、本発明によれば、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から４Ｗ１Ｈプラス述語情報を再構成することにより、複数の文書情報群で構成されるテキスト中におけるスケジュール情報などのイベント付随の情報を高速に抽出することができる。

以下に添付図面を参照して、この発明にかかる情報抽出装置、及び情報抽出方法の最良な実施の形態を実施の形態１〜４に沿って詳細に説明する。

（１．実施の形態１）
（１．１．全体構成）
実施の形態１による情報抽出装置１０は、入力する文書情報からテキスト部分を言語解析して、時期、場所、主体、対象、態様の５要素の情報、即ち、４Ｗ１Ｈ情報に述語を加えた情報を抽出する際に、文書に付随するプロパティなどの付随情報を取得して４Ｗ１Ｈ情報を補完する。このように付随情報を取得してテキスト部分からの情報を補完することによって、テキスト部分のみから抽出できる４Ｗ１Ｈおよび述語情報よりも、より正確な４Ｗ１Ｈおよび述語情報を抽出することができる。４Ｗ１Ｈおよび述語情報は、文章として生成する文章情報、あるいはグラフとして表示する表示情報に使用できる。以下の説明では、時期、場所、主体、対象、態様の５要素情報および述語情報を、簡略に４Ｗ１Ｈプラス述語情報と称する。

図１は、実施の形態１による情報抽出装置１０の機能的ブロック図である。情報抽出装置１０は、入力する文書情報に対して、言語解析処理、要素抽出処理、および補完情報処理を施して、文書情報に含まれる４Ｗ１Ｈプラス述語情報を抽出する。

実施の形態１による情報抽出装置１０は、文書登録部１１、言語解析部１２、要素抽出部１３、補完情報取得部１４、辞書１５、記憶部１６、表示制御部１７、モニタ１８、および入出力部１９を備える。

ここで、言語解析部１２は、形態素解析部１２ａおよび係り受け解析部１２ｂを有する。また、辞書１５は、言語解析辞書１５ａおよび知識辞書１５ｂを有する。また、記憶部１６は、文書記憶部１６ａ、言語情報記憶部１６ｂ、および抽出情報記憶部１６ｃを有する。

文書登録部１１は、入出力部１９から受信する文書情報に対して、要素抽出処理の開始指示を受信すると、文書情報に対して文書登録処理を施して、登録した情報抽出対象文書を順に文書記憶部１６ａに記憶する。

言語解析部１２は、文書記憶部１６ａに記憶された文書情報のテキスト部分に対して、一文書毎に言語解析処理を施す。言語解析の際には言語解析辞書１５ａを参照する。言語解析処理については、形態素解析部１２ａが形態素解析処理を施し、係り受け解析部１２ｂが係り受け解析処理を施す。以下、ここでの処理は、文書情報のうちテキスト部分を扱うので、簡単にテキストと記述する。

形態素解析部１２ａは、テキストを単語毎に区切り、品詞など、各単語の属性を付加する形態素解析処理を施す。形態素解析部１２ａが行う形態素解析については、「日本語情報処理」第４章「形態素解析」に説明されているように、最長一致法、コスト最小法、用例検索法などの既存の手法を適用する。

係り受け解析部１２ｂは、一つの自立語、あるいは一つの自立語に一つ以上の付属語がついた形式の文節を生成し、文節と文節がどのような関係にあるかを同定する係り受け解析処理を施す。

係り受け解析部１２ｂは、例えば、「私が食べた林檎。」という文では、体言性文節「私が」は、用言性文節「食べた」と文法的に係り受け関係にあり、用言性文節を修飾していることから、その係り受け関係名は「ガ格連用修飾関係」であると同定する。

また、係り受け解析部１２ｂは、用言性文節「食べた」は、体言性文節「林檎。」と文法的に係り受け関係にあり、体言性文節を修飾していることから、この係り受け関係名は「連体修飾関係」であると同定する。係り受け解析部１２ｂの係り受け解析処理については「日本語情報処理」第５章「構文解析」に記載されている方法など、既存の手法を用いる。

係り受け解析部１２ｂは、一文書の言語情報取得処理が終了すると、結果を順に言語情報記憶部１６ｂに記憶する。係り受け解析部１２ｂは、登録文書全部の言語情報取得処理を終えると、次に、記憶された言語情報に対し、要素抽出部１３が、要素抽出処理を実行する。

要素抽出部１３は、一文書の一文毎に、時期、場所、主体、対象、態様に対応する４W１H（When＝いつ、Where＝どこ−で、Who＝誰−が、What＝何−を、How＝（どのくらい・どうやって））＋述語を特定する情報を、即ち４Ｗ１Ｈプラス述語情報を抽出する。ここで、４Ｗ１Ｈプラス述語情報は、もともとのテキストに由来して、完全に４Ｗ１Ｈおよび述語全ての情報が取得できるとは限らない。

要素抽出部１３の施す情報抽出には、文法特性を利用した知識を記述した知識辞書１５ｂを使う。要素抽出部１３が、一文の抽出を終えると、抽出した要素を言語情報由来の関係情報と共に、抽出情報記憶部１６ｃに記憶する。そして、要素抽出部１３は、次の文の言語情報から、同様に要素抽出処理と記憶を実行する。

要素抽出部１３が、一文書の内容情報のテキスト部分全文に対して要素抽出処理と記憶が終了すると、次の文書の内容情報のテキスト部分の先頭文から、同様の要素抽出処理と記憶を実行する。

表示制御部１７は、すべての登録文書に対して要素抽出処理と記憶が終了し、出力指示を受信した場合、記憶された抽出情報をモニタ１８上で表示する。要素抽出部１３は、終了指示があれば、要素抽出処理を終了する。

図２は、知識辞書１５ｂの記載の一例を説明する図である。知識辞書１５ｂは、文節に属する単語の特定の品詞情報及び特定の品詞情報の組み合わせの少なくともいずれか１つと、該文節の係り先と係り受けとの関係情報と、該関係情報が４Ｗ１Ｈ（When＝いつ、Where＝どこ−で、Who＝誰−が、What＝何−を、How＝（どのくらい・どうやって））のいずれに該当するかを示す意味解釈と、を記載した辞書である。図２に示したように、特定の品詞情報が複数ある場合や、この組み合わせに対し、正規表現による記述形式を採ることで簡潔な記述が可能である。また、辞書の構成要素として、４Ｗ１Ｈの意味解釈に、更なる意味属性を付与しても良い。図２では「範囲起点」「範囲終点」「範囲」など、When情報、Where情報に、詳細な意味属性を与えている。

図３は、要素抽出部１３による４Ｗ１Ｈプラス述語情報抽出の一例を説明する図である。４Ｗ１Ｈプラス述語情報抽出の一例として、「標記の展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」というテキスト例から、述語と、直接係り受け関係がある文節、文節属性、および係り受け関係を抽出する。

補完情報取得部１４は、文書に付随する文書属性情報を取得し、取得された文書属性情報に基づいて、４Ｗ１Ｈプラス述語情報の抽出を補完する。文書属性情報とは、文書の中で直接記述されている内容情報以外の文書の周辺情報である。

図４は、補完情報取得部１４が、文書属性情報から４Ｗ１Ｈプラス述語情報抽出を補完する一例を説明する図である。図５は、文書の定義を説明する図である。

ここで文書は、文書内容情報と文書属性情報とから構成される。文書内容情報とは、記述される文書内容に直接的に含まれる部分であり、例えばテキスト部分４０１（図４）、画像部分、図表部分を含む。文書属性情報とは、文書が作成された際に、利用アプリケーションが自動的に付加する属性情報であって、例えば文書プロパティ４０２（図４）の情報などであり、書誌的な情報が代表例である。また、図５では、文書５００は、文書内容情報５０１、文書属性情報５０２および５０３を含む。

例えばあるソフトウェア商品の文書プロパティとしては以下の情報が含まれている。｛ファイル名、現在のフォルダ名、テンプレート、表題、副題、作成者、キーワード、説明、作成日時、変更回数、最終保存日時、最終保存者｝

また、メール文書の場合であれば、文書内容情報は、メールの本文５０１である。補完情報取得部１４が、文書属性情報として、送信者情報、送信経路情報、および利用メールソフト情報などが記載されるヘッダ５０２やフッダを取得する。取得が可能であれば、利用アプリケーション情報、作成場所情報、作成機器情報など、対象文書の内容以外に関係する情報を文書属性情報として扱う。

図４に示した文書プロパティ４０２は、文書登録の際に自動的に付加されたものであり、文書属性情報として利用する。この例では、補完情報取得部１４は、テキスト中の「来月」「年末」の具体的な日時を、文書プロパティ４０２の作成日時、最終保存日時から算出し、補完情報として取得する。その他、機器情報、アプリケーション情報、場所情報などが取得可能であれば、情報補完のための文書属性情報として利用する。抽出例４０３は、補完情報取得部１４によって、テキスト部分４０１に対して、文書プロパティ４０２の情報によって補完されて抽出された一例である。

図６は、補完情報取得部１４が、テキストの他の箇所からの情報を抽出して補完する一例を説明する図である。テキストの最初の文と２番目の文からは、開催起点の１０月と１１月しか抽出できない。しかし、その後の文中のマデ格修飾文節を利用して、最初の文と２文目の抽出情報に、範囲終点の補完情報を加えることが可能である。

図７は、補完情報取得部１４が、テキストの他の箇所および文書プロパティから情報を抽出して補完した一例を説明する図である。テキスト部分７０１における該当文７０１ａから抽出例７０３が抽出され、さらにテキストの他の箇所７０１ｂ、および文書プロパティ７０２から、時間的な範囲の情報がさらに詳細に取得されることを示している。即ち、来月として１０月、年末として１２月３１日という情報が取得されている。

図８は、図３、図４、図６、および図７における抽出処理を施したデータの出力例を示す図である。図３の抽出データの出力例８０１、図４の抽出データの出力例８０２、図６の抽出データの出力例８０３、および図７の抽出データの出力例８０４を示している。

（１．２．言語解析処理）
実施の形態１による情報抽出装置１０の言語解析処理について、図２、図３、および図８を参照しながら説明する。この情報抽出装置１０が起動され、文書登録部１１は、図３のように「標記の展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」という文を含むテキストを登録したとする。この情報抽出装置１０は、文書記憶部１６ａが登録文書を記憶し、言語解析部１２が言語解析処理を施す。

（形態素解析処理）
言語解析部１２では、文書の先頭から１文を取り出し、形態素解析部１２ａが、言語解析辞書１５ａを参照して形態素解析処理を行う。以下に、形態素解析部１２ａによる形態素解析処理結果の一例を示す。文書を構成する単語の表記と品詞を対で記憶する。この場合、その他の単語属性が付帯情報として表現されても良い。

(標記名詞)
(の格助詞ノ)
(展示名詞)
(会接辞：集団)
(は副助詞)
(１０数詞)
(月接辞：日付)
(から格助詞カラ)
(本社名詞)
(ビル名詞：場所)
(で格助詞デ)
(１１数詞)
(月接辞：日付)
(から格助詞カラ)
(銀座固有名詞：場所)
(ショールーム名詞：場所)
(で格助詞デ)
(年末時節名詞)
(まで格助詞マデ)
(開催サ変名詞)
(さ補助動詞)
(れ助動詞)
(ます助動詞)
(。句点)

（係り受け解析処理）
次に、形態素解析結果に基づき、係り受け解析部１２ｂは、言語解析辞書１５ａを参照して係り受け解析処理を行う。実施例１における例文の係り受け解析処理結果の一例は以下のようになる。

文節番号文節表記属性係り受け関係係り先
0 標記・の名詞ノ連体修飾 1
1 展示・会・は名詞＋集団接辞提題連用修飾 7
2 １０・月・から数詞＋日付接辞カラ格連用修飾 7
3 本社・ビル・で名詞：場所デ格連用修飾 7
4 １１・月・から数詞＋日付接辞カラ格連用修飾 7
5 銀座・ショールーム・で
固有名詞：場所デ格連用修飾 7
6 年末・まで時節名詞マデ格連用修飾 7
7 開催・さ・れ・ます・。
サ変名詞＋補助動詞＋助動詞＋句点文末-1

１文の係り受け解析処理が終了すると、言語解析結果を言語情報記憶部１６ｂに格納する。

登録テキストに次の文がある場合は、形態素解析処理の最初に戻り、次の文を対象に、形態素解析と係り受け解析を実施する。この操作をテキスト中の文がなくなるまで行い、全文の言語解析処理を終了すると、要素抽出部１５による要素抽出処理に進む。

（要素抽出処理）
（１）要素抽出部１３は、言語情報記憶部１６ｂから、先頭の１文分の言語解析処理結果を取り出し、最後尾の文節から、述語と定義される用言、もしくは体言止文末文節を検索する。最後尾の文節は文節番号[7]の文節である。
（２）文節番号[7]から述語「開催されます」を発見する。
（３）「開催されます。」の表記を一時記憶する。
（４）次に、文節番号[7]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（５）文節番号[6]の係り先文節番号が[7]であることから、文節番号[6]の文節が述語「開催されます」を直接連用修飾していることがわかり、「年末まで」の表記と属性「時節名詞」と、係り受け関係「マデ格連用修飾」を記憶する。
（６）さらに、文節番号[6]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（７）文節番号[5]の係り先文節番号が[7]であることから、文節番号[5]の文節が述語「開催されます」を直接連用修飾していることがわかり、「銀座ショールームで」の表記と属性「固有名詞：場所」と、係り受け関係「デ格連用修飾」を記憶する。
（８）さらに、文節番号[5]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（９）文節番号[4]の係り先文節番号が[7]であることから、文節番号[4]の文節が述語「開催されます」を直接連用修飾していることがわかり、「１１月から」の表記と属性「数詞＋日付接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
（１０）さらに、文節番号[4]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（１１）文節番号[3]の係り先文節番号が[7]であることから、文節番号[3]の文節が述語「開催されます」を直接連用修飾していることがわかり、「本社ビルで」の表記と属性「名詞：場所」と、係り受け関係「デ格連用修飾」を記憶する。
（１２）さらに、文節番号[3]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（１３）文節番号[2]の係り先文節番号が[7]であることから、文節番号[2]の文節が述語「開催されます」を直接連用修飾していることがわかり、「１０月から」の表記と属性「数詞＋日付接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
（１４）さらに、文節番号[2]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（１５）文節番号[1]の係り先文節番号が[7]であることから、文節番号[1]の文節が述語「開催されます」を直接連用修飾していることがわかり、「展示会は」の表記と属性「名詞＋集団接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
（１６）さらに、文節番号[1]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
（１７）文節番号[0]の係り先文節番号が[1]であることから、文節番号[0]の文節は述語「開催されます」を直接連用修飾していないことがわかり、述語を直接連用修飾していない文節は抽出対象外であるため、文節「標記の」は記憶しない。
（１８）先頭文節まで検索し終わったら、次に文節番号[7]が直接連体修飾している文節を文末文節に向かって検索する。
（１９）ないので、述語「開催されます。」の関連文節要素の抽出を終了する。
（２０）文節番号[6]から述語と定義される用言もしくは体言止文末文節を検索する。
（２１）述語が検出されなかったので、例文中の述語の抽出を終了する。抽出結果は、図３の情報抽出例のようになる。
（２２）次に、抽出され一時記憶された情報と、図２の知識辞書１５ｂを照合し、知識辞書１５ｂに合致する情報があれば、それぞれ４Ｗ１Ｈ情報を特定する。

知識辞書１５ｂの
「（名詞＋集団接辞）（提題修飾｜ガ格修飾）→ Ｗｈａｔ」
という記述より、「展示会は」は「Ｗｈａｔ」であると特定する。
「（時節名詞｜数詞＋日付接辞）カラ格修飾 → Ｗｈｅｎ＊範囲起点」
「（時節名詞｜数詞＋日付接辞）マデ格修飾 → Ｗｈｅｎ＊範囲終点」
「Ｗｈｅｎ＊範囲起点とＷｈｅｎ＊範囲終点が同じ述語に係る → Ｗｈｅｎ＊範囲」という記述より、
「１０月から年末まで」が「Ｗｈｅｎ＊範囲」であると特定する。
また、「１１月から年末まで」が「Ｗｈｅｎ＊範囲」であると特定する。
「（名詞：場所｜固有名詞：場所｜名詞＋場所接辞｜固有名詞＋場所接辞｜名詞＋集団接辞）デ格修飾 → Ｗｈｅｒｅ」という記述より、
「本社ビル」「銀座ショールーム」は「Ｗｈｅｒｅ」であると特定する。これらを４Ｗ１Ｈの単位で抽出情報記憶部１６ｃで記憶する。
（２３）上記のようにテキストの全文に対し、述語と関連文節要素の抽出と、４Ｗ１Ｈの特定と、記憶を繰り返す。
（２４）テキスト全文に対して情報抽出が終わると、出力指示があれば出力処理を実施する。この例の図３のテキストの抽出データの出力例を図８の出力例８０１に示す。

（１．３．補間処理）
図２、図６、図８を参照しながら、情報を他のテキスト部分から補完する例を説明する。情報抽出装置１０が起動され、図６のように「展示会は10月から本社ビルで開催されます。11月からは銀座ショールームでも開催されます。・・・（中略）・・・会期は１２月までとなっております。」という文を含むテキストが登録されたとする。情報抽出装置１０は、文書記憶部１６ａで登録文書を記憶し、言語解析処理に進む。

言語解析処理は、実施例１と同様の処理を施す。言語解析処理が終わると、実施例１の要素抽出処理と同様に、（１）〜（２４）の記載と同様の処理を施し、図６の情報抽出例を得て、４Ｗ１Ｈ情報を特定し、記憶する。

（情報補完処理例）
（１）テキスト中の各文に対し、先頭から４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。図８のテキストの先頭の文は、「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲起点｛１０月｝」「Ｗｈｅｒｅ｛本社ビル｝」が取得できている。
（２）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｈｏｗ」情報がないことを認識する。さらに、「Ｗｈｅｎ＊範囲起点」があるが、「Ｗｈｅｎ＊範囲終点」が同文中にないことも認識する。
（３）４Ｗ１Ｈ情報で欠けている情報があれば、次の文から順に補完できる情報を探す。この例では次文にも「Ｗｈｏ」「Ｈｏｗ」「Ｗｈｅｎ＊範囲終点」がない。
（４）次の文を検査し、補完情報を探す、を繰り返す。
（５）最後の文「会期は１２月までとなっております。」には、「Ｗｈｅｎ＊範囲終点｛１２月｝」があることがわかり、この情報を先頭の文の抽出情報へ、補完情報として付け加える。
（６）補完情報を得て図２に示した知識辞書１５ｂを再読み込みする。
（７）Ｗｈｅｎ＊範囲起点とＷｈｅｎ＊範囲終点が存在するため、「Ｗｈｅｎ＊範囲｛10月から12月まで｝」が得られる。
（８）次に図６の２番目の文に対し、４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。図９のテキストの２番目の文は、「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲起点｛１１月｝」「Ｗｈｅｒｅ｛銀座ショールーム｝」が取得できている。
（９）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｈｏｗ」情報がないことを認識する。さらに、「Ｗｈｅｎ＊範囲起点」があるが、「Ｗｈｅｎ＊範囲終点」が同文中にないことも認識する。
（１０）４Ｗ１Ｈ情報で欠けている情報があるので、次の文から順に補完できる情報を探す。
（１１）次の文を検査し、補完情報を探す、を繰り返す。
（１２）この例の最後の文「会期は１２月までとなっております。」には、「Ｗｈｅｎ＊範囲終点｛12月｝」があることがわかり、この情報を２番目の文の抽出情報へ、補完情報として付け加える。
（１３）補完情報を得て図２の知識辞書１５ｂを再読み込みする。
（１４）Ｗｈｅｎ＊範囲起点とＷｈｅｎ＊範囲終点が存在するため、「Ｗｈｅｎ＊範囲｛11月から12月まで｝」が得られる。
（１５）このようにしてテキスト中の各文に対し、４Ｗ１Ｈ情報で欠けている情報を認識し、次の文から最後の文まで補完情報の有無を検査し、見つけたら情報を補完し、知識辞書１５ｂを再読み込みして４Ｗ１Ｈ情報を再特定することを繰り返す。
（１６）最後の文に対し、４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。図６のテキストの最後の文は、「Ｗｈａｔ｛会期｝」「Ｗｈｅｎ＊範囲終点｛12月｝」が取得できている。
（１７）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｗｈｅｒｅ」「Ｈｏｗ」情報がないことを認識する。さらに、「Ｗｈｅｎ＊範囲終点」があるが、「Ｗｈｅｎ＊範囲起点」が同文中にないことも認識する。
（１８）４Ｗ１Ｈ情報で欠けている情報があるので、次の文から補完情報を探しにいく。
（１９）次の文がないため、情報補完処理を終了する。
（２０）テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図６のテキストの抽出データの出力例を図８の出力例９０３に示す。

さらに、他の実施例として、図２、図４、図８を使って、４Ｗ１Ｈ情報を文書属性情報から補完する例を説明する。

この情報抽出装置１０を起動すると、図４のように「展示会は来月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」という文を含むテキストが登録されたとする。情報抽出装置１０は、文書記憶部１６ａで登録文書を記憶し、言語解析処理に進む。言語解析処理は、実施例１と同様の処理を施す。言語解析処理が終わると、実施例１の要素抽出処理と同様に（１）〜（２４）において説明した処理と同様の処理を実施し、図４の情報抽出例を得て、４Ｗ１Ｈ情報を特定し、記憶する。

（１）テキスト中の各文に対し、先頭から４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。
（２）図４のテキストは、「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲起点｛来月｝」「Ｗｈｅｒｅ｛本社ビル｝」「Ｗｈｅｎ＊範囲起点｛11月｝」「Ｗｈｅｒｅ｛銀座ショールーム｝」「Ｗｈｅｎ＊範囲終点｛年末｝」が特定でき、これらを４Ｗ１Ｈの単位で抽出情報記憶部１６ｃで記憶している。
（３）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｈｏｗ」情報がないことを認識する。
（４）次に、ここでは図４の文書プロパティを文書属性情報として以下を取得する。
ファイル名：開催案内
フォルダ名：展示会関係
表題：展示会開催案内
作成者：理光太郎
作成日時：２００５．９．１５１４：３５
最終保存日時：２００５．９．１７０９：３５
（５）文書属性情報は、テキストの内容に関する情報はないため、「Ｗｈｏ」「Ｈｏｗ」情報は取得できない。
（６）しかし、作成日時と最終保存日時が取得でき、この情報を、Ｗｈｅｎ情報と比較する。本例でのＷｈｅｎ情報は「Ｗｈｅｎ＊範囲起点｛来月｝」「Ｗｈｅｎ＊範囲起点｛11月｝」「Ｗｈｅｎ＊範囲終点｛年末｝」である。
（７）まず、「Ｗｈｅｎ＊範囲起点｛来月｝」は、本例のテキスト作成時の「２００５．９．１５１４：３５」を起点とした「来月」であると想定し、作成日時の月情報「9月」を加算し、「10月」とする。年は変わらず、日と時間は不明のため、「２００５．１０」を補完する。
（８）次に、「Ｗｈｅｎ＊範囲起点｛11月｝」は、具体的な月が明記されているため、情報補完対象外であるとする。
（９）次に「Ｗｈｅｎ＊範囲終点｛年末｝」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「２００５」を取得し、年末は12月31日であると特定できるため、具体的な日時として「２００５．１２．３１」を補完する。
（１０）抽出情報を、補完情報で置き換え、抽出４Ｗ１Ｈプラス述語情報を「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲起点｛2005.10｝」「Ｗｈｅｒｅ｛本社ビル｝」「Ｗｈｅｎ＊範囲起点｛11月｝」「Ｗｈｅｒｅ｛銀座ショールーム｝」「Ｗｈｅｎ＊範囲終点｛2005.12.31｝」と特定する。
（１１）テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図４のテキストの抽出データの出力例を図８における出力例８０２に示す。

他の情報補完実施例として、図２、図７、および図８を参照しながら、他のテキスト部分と、文書属性情報を併用して情報補完する例を挙げる。本発明の情報抽出装置１０を内蔵した情報抽出装置１０が起動され、図７のように「展示会は来月から本社ビルで、11月から銀座ショールームで開催されます。・・・（中略）・・・会期は年末までとなっております。」という文を含むテキストが登録されたとする。この情報抽出装置１０は、文書記憶部１６ａで登録文書を記憶し、言語解析処理に進む。言語解析処理は、実施例１で施したと同様の処理を施す。言語解析処理が終わると、実施例１の要素抽出処理と同様に（１）〜（２４）に説明したと同様の処理を施し、図７の情報抽出例を得て、４Ｗ１Ｈ情報を特定し、記憶する。

（情報補完処理）
（１）テキスト中の各文に対し、先頭から４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。
（２）図７のテキストは、「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲起点｛来月｝」「Ｗｈｅｒｅ｛本社ビル｝」「Ｗｈｅｎ＊範囲起点｛11月｝」「Ｗｈｅｒｅ｛銀座ショールーム｝」が特定でき、これらを４Ｗ１Ｈの単位で抽出情報記憶部１６ｃで記憶している。
（３）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｈｏｗ」情報がないことを認識する。さらに、「Ｗｈｅｎ＊範囲起点」があるが、「Ｗｈｅｎ＊範囲終点」が同文中にないことも認識する。４Ｗ１Ｈ情報で欠けている情報があれば、次の文から順に補完できる情報を探す。この例では次文にも「Ｗｈｏ」「Ｈｏｗ」「Ｗｈｅｎ＊範囲終点」がない。
（４）次の文を検査し、補完情報を探す、を繰り返す。
（５）最後の文「会期は年末までとなっております。」には、「Ｗｈｅｎ＊範囲終点｛年末｝」があることがわかり、この情報を先頭の文の抽出情報へ、補完情報として付け加える。
（６）補完情報を得て図２に示した知識辞書１５ｂを再読み込みする。
（７）Ｗｈｅｎ＊範囲起点とＷｈｅｎ＊範囲終点が存在するため、「Ｗｈｅｎ＊範囲｛来月から年末まで｝」「Ｗｈｅｎ＊範囲｛１１月から年末まで｝」が得られる。
（８）このようにしてテキスト中の各文に対し、４Ｗ１Ｈ情報で欠けている情報を認識し、次の文から最後の文まで補完情報の有無を検査し、見つけた場合、情報を補完し、知識辞書１５ｂを再読み込みして４Ｗ１Ｈ情報を再特定することを繰り返す。
（９）最後の文に対し、４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。図７のテキストの最後の文は、「Ｗｈａｔ｛会期｝」「Ｗｈｅｎ＊範囲終点｛年末｝」が取得できている。
（１０）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Ｗｈｏ」「Ｗｈｅｒｅ」「Ｈｏｗ」情報がないことを認識する。さらに、「Ｗｈｅｎ＊範囲終点」があるが、「Ｗｈｅｎ＊範囲起点」が同文中にないことも認識する。
（１１）４Ｗ１Ｈ情報で欠けている情報があるので、次の文から補完情報を探しにいく。
（１２）次の文がないため、情報補完処理を終了する。
（１３）次に、ここでは図７の文書プロパティ７０２を文書属性情報として以下を取得する。
ファイル名：開催案内
フォルダ名：展示会関係
表題：展示会開催案内
作成者：理光太郎
作成日時：２００５．９．１５１４：３５
最終保存日時：２００５．９．１７０９：３５
（１４）文書属性情報は、テキストの内容に関する情報はないため、「Ｗｈｏ」「Ｈｏｗ」情報は取得できない。
（１５）しかし、作成日時と最終保存日時が取得でき、この情報を、Ｗｈｅｎ情報と比較する。本例でのＷｈｅｎ情報は「Ｗｈｅｎ＊範囲起点｛来月｝」「Ｗｈｅｎ＊範囲起点｛11月｝」「Ｗｈｅｎ＊範囲終点｛年末｝」である。
（１６）まず、「Ｗｈｅｎ＊範囲起点｛来月｝」は、本例のテキスト作成時の「２００５．９．１５１４：３５」を起点とした「来月」であると想定し、作成日時の月情報「9月」を加算し、「10月」とする。年は変わらず、日と時間は不明のため、「２００５．１０」を補完する。
（１７）次に、「Ｗｈｅｎ＊範囲起点｛11月｝」は、具体的な月が明記されているため、情報補完対象外であるとする。
（１８）次に「Ｗｈｅｎ＊範囲終点｛年末｝」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「２００５」を取得し、年末は12月31日であると特定できるため、具体的な日時として「２００５．１２．３１」を補完する。
（１９）抽出情報を、補完情報で置き換え、抽出４Ｗ１Ｈプラス述語情報を「Ｗｈａｔ｛展示会｝」「Ｗｈｅｎ＊範囲｛2005.10から2005.12.31まで｝」「Ｗｈｅｒｅ｛本社ビル｝」「Ｗｈｅｎ＊範囲｛11月から2005.12.31まで｝」「Ｗｈｅｒｅ｛銀座ショールーム｝」と特定する。
（２０）次の述語「なっております」に関係する抽出情報「Ｗｈａｔ｛会期｝」「Ｗｈｅｎ＊範囲終点｛年末｝」についても、文書属性情報と比較し、「Ｗｈｅｎ＊範囲終点｛年末｝」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「２００５」を取得し、年末は12月31日である特定できるため、具体的な日時として「２００５．１２．３１」を補完する。
（２１）抽出情報を、補完情報で置き換え、抽出４Ｗ１Ｈプラス述語情報を「Ｗｈａｔ｛会期｝」「Ｗｈｅｎ＊範囲終点｛12.31まで｝」と特定する。
（２２）テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図４のテキストの抽出データの出力例を図８の出力例８０４に示す。

（１．４．実施の形態１による要素抽出手順）
図９は、実施の形態１による４Ｗ１Ｈプラス述語情報抽出手順を説明するフローチャートである。ここでは、４Ｗ１Ｈプラス述語情報抽出の全体的な手順を示している。以下、４Ｗ１Ｈプラス述語情報抽出を、簡略に、要素情報抽出、あるいは要素抽出と記載することもある。

文書登録部１１は、４Ｗ１Ｈプラス述語情報抽出命令を受信して、文書情報を登録し、文書記憶部１６ａに記憶させる（ステップＳ１０１）。言語解析部１２は、文書記憶部１６ａに記憶された文書に対して、言語解析処理を施す（ステップＳ１０２）。言語解析処理手順については後述する。

要素抽出部１３は、言語解析処理を施された文書に対して、要素抽出処理を施す（ステップＳ１０３）。要素抽出処理手順については後述する。補完情報取得部１４は、文書情報に付随する属性情報から補完情報を取得し、対象となる文章情報に対して補間処理を施し、補間処理を施された抽出４Ｗ１Ｈプラス述語情報を抽出情報記憶部１６ｃに記憶させる（ステップＳ１０４）。

表示制御部１７は、モニタで表示出力させる指示情報を受信したか否かを判定し（ステップＳ１０５）、受信した場合（ステップＳ１０５のＹｅｓ）、モニタ１８上に抽出した４Ｗ１Ｈプラス述語情報などを表示させる（ステップＳ１０６）。モニタ出力の指示情報を受信しない場合（ステップＳ１０５のＮｏ）そのまま終了する。

図１０は、言語解析手順を説明する図である。言語解析部１２は、登録文書があるか否かを判定し（ステップＳ２０１）、ない場合は（ステップＳ２０１のＮｏ）、そのまま終了する。登録文書がある場合は（ステップＳ２０１のＹｅｓ）、形態素解析部１２ａが、文書記憶部１６ａに記憶されたテキストに対し、形態素解析を実施する。形態素解析は、テキストを単語毎に区切り、品詞など、各単語の属性を付加する処理である（ステップＳ２０２）。そして、形態素解析部１２ａは、形態素解析処理を終了したか否かを判定し（ステップＳ２０３）、終了していない場合は（ステップＳ２０３のＮｏ）、ステップＳ２０２に戻る。

形態素解析処理が終了したと判定した場合は（ステップＳ２０３のＹｅｓ）、係り受け解析部１２ｂが、登録された文書に対して係り受け解析処理を施す。係り受け解析は、係り受け処理の１単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理である。単語の属性である品詞に関して、名詞なら固有名詞や時節名詞、接辞なら日付接辞や場所接辞、集団接辞、数量接辞など、詳細な品詞を付加するようにしている（ステップＳ２０４）。そして、係り受け解析処理が終了したか否かを判定し（ステップＳ２０５）、終了していない場合（ステップＳ２０５のＮｏ）は、再び係り受け解析処理を継続する（ステップＳ２０４）。終了している場合（ステップＳ２０５のＹｅｓ）は、言語解析部１２が解析された形態素処理および係り受け処理の結果を言語情報記憶部１６ｃに記憶させ（ステップＳ２０６）、再びステップＳ２０１に戻る。

図１１は、４Ｗ１Ｈプラス述語情報抽出手順を説明するフローチャートである。要素抽出部１３は、言語情報記憶部１６ｂに言語解析された結果のデータがあるか否かを判定し（ステップＳ３０１）、ない場合（ステップＳ３０１のＮｏ）、そのまま終了する。あると判定した場合（ステップＳ３０１のＹｅｓ）、要素抽出部１３は、読み込んだ言語解析データの先頭から述語検索する。述語とは、具体的には用言や、体言止めの文末文節などである（ステップＳ３０２）。

要素抽出部１３は、述語があるか否かを判定し（ステップＳ３０３）、ないと判定した場合（ステップＳ３０３のＮｏ）、要素抽出部１３は、述語のないことを抽出情報記憶部１６ｃに記憶させて（ステップＳ３０４）、ステップＳ３０１に戻る。

一方、要素抽出部１３は、述語があると判定した場合（ステップＳ３０３のＹｅｓ）、述語を抽出する（ステップＳ３０５）。

そして、要素抽出部１３は、この述語を直接修飾している文節、この述語が直接連体修飾している文節を検索して、検索できた場合、この文節、属性、および述語の係り受け関係を抽出し、記憶する（ステップＳ３０６）。

要素抽出部１３は、さらに、４Ｗ１Ｈ情報の抽出を行う。要素抽出部１３は、言語情報から４W１H（When＝いつ、Where＝どこ−で、Who＝誰−が、What＝何−を、How＝（どのくらい・どうやって））＋述語を抽出し、特定する（ステップＳ３０７）。そして、４Ｗ１Ｈ情報の特定が終了したか否かを判定し（ステップＳ３０８）、終了していない場合（ステップＳ３０８のＮｏ）、ステップＳ３０６に戻って再び、特定動作を行う。

要素抽出部１３は、４Ｗ１Ｈ情報の特定が終了したと判定した場合（ステップＳ３０８のＹｅｓ）、補完情報取得部１４は、補完情報を取得し（ステップＳ３０９）、要素抽出部１３は、取得した補完情報を用いて、すでに特定した４Ｗ１Ｈ情報を補完し（ステップＳ３１０）、抽出情報記憶部１６ｃに記憶に記憶させ（ステップＳ３０４）、ステップＳ３０１に戻る。全ての言語解析データについて処理を終え、言語解析データがない場合は（ステップＳ３０１のＮｏ）、終了する。

（１．５．実施の形態１の非膠着語への適用）
なお、ここまでは日本語などの膠着語で記述された文書情報から、４Ｗ１Ｈ情報を抽出する処理について説明したが、本実施の形態にかかる情報抽出装置１０によれば英語などの非膠着語で記述された文書情報から、４Ｗ１Ｈ情報を抽出することも可能である。以下に、説明する。

なお、英文を扱う場合には、図１の言語解析部１２が含む形態素解析部１２ａが不要であること以外に構成の相違はない。すなわち、言語解析部１２は、係り受け解析部１２ｂのみを有する。なお、以下の説明では、実施の形態１に記載した各部と同一の機能を備える構成については、同一の符号を用いて説明することとする。

言語解析部１２は、文書記憶部１６ａに記憶された文書情報のテキスト部分に対して、一文書毎に言語解析処理を施す。言語解析の際、言語解析部１２は、言語解析辞書１５ａを参照して言語解析処理を実行する。前述のように、英文の場合、言語解析処理において形態素解析処理は実施せず、係り受け解析部１２ｂが係り受け解析処理を施す。

係り受け解析部１２ｂは、「語」または、２つ以上の「語」が集まって意味を持ち、一つの品詞と同じような働きをするがその中に主語と述語動詞の関係を含まない「句」を特定し、語と語、語と句、句と句がどのような関係にあるかを同定する係り受け解析処理を施す。

係り受け解析部１２ｂは、例えば、「He ate an apple.」という文では、名詞の語「He」は、述語動詞「ate」と文法的に係り受け関係にあり、その係り受け関係名は「主述関係」であると同定し、また、述語動詞「ate」と名詞句「an apple」は文法的に係り受け関係にあり、その係り受け関係名は「目的関係」であると同定する。

図２６は、知識辞書１５ｂの記載の一例を説明する図である。知識辞書１５ｂは、語句に属する単語の特定の品詞情報及び特定の品詞情報の組み合わせの少なくともいずれか１つと、該語句の係り先と係り受けとの関係情報と、該関係情報が４Ｗ１Ｈ（When＝いつ、Where＝どこ−で、Who＝誰−が、What＝何−を、How＝（どのくらい・どうやって））のいずれに該当するかを示す意味解釈と、を記載した辞書である。図２６に示したように、特定の品詞情報が複数ある場合や、この組み合わせに対し、正規表現による記述形式を採ることで簡潔な記述が可能である。また、辞書の構成要素として、４Ｗ１Ｈの意味解釈に、更なる意味属性を付与しても良い。図２６では、「範囲起点」「範囲終点」「Range」など、When情報、Where情報に、詳細な意味属性を与えている。

図２７は、要素抽出部１３によって英文から４Ｗ１Ｈプラス述語情報抽出の一例を説明する図である。４Ｗ１Ｈプラス述語情報抽出の一例として、「The exhibition is held from October to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という英文のテキスト例（Example 1）から、述語動詞句「is held」、直接係り受け関係がある語句、語句属性、および係り受け関係を抽出する。

補完情報取得部１４は、文書に付随する文書属性情報（例えば、文書プロパティ）を取得し、取得した文書プロパティに基づいて、４Ｗ１Ｈプラス述語情報の抽出を補完する。図２８は、補完情報取得部１４によって取得された文書プロパティ２９０２の一例である。文書プロパティ２９０２は、文書登録の際に文書に自動的に付加され、文書属性情報として利用される。この例では、補完情報取得部１４は、テキスト中の「next month」「the end of the year」の具体的な日時を、文書プロパティ２９０２の作成日時、最終保存日時から算出し、補完情報として取得する。その他、機器情報、アプリケーション情報、場所情報などが取得可能であれば、補完情報のための文書属性情報として利用される。

図２９に、補完情報取得部１４が、テキストの文書プロパティ２９０２から情報を抽出し、テキスト中の情報を補完する処理の一例を示す。ここでは、文書例としてExample 2を採用し、Example 2に示す文章から抽出した４W1H情報を文書プロパティ２９０２から抽出した情報によって補完する。

ここで文書は、文書内容情報と文書属性情報とから構成される。文書内容情報とは、記述される文書内容に直接的に含まれる部分であり、例えばテキスト部分２９０１（図２９）、画像部分、図表部分を含む。文書属性情報とは、文書が作成された際に、アプリケーションが自動的に付加する属性情報であって、例えば文書プロパティ（Document Property）２９０２（図２９）の情報などであり、書誌的な情報が代表例である。

図３０は、Example 1、Example 2のそれぞれのテキストの文書プロパティ２９０２から情報が抽出され、補完された一例である。Example 1とExample 2のそれぞれの出力例を比較すると、Example 1の出力例では、テキスト部分における該当文から抽出された情報のみの４W1H情報が出力されている。一方、Example２の出力例では、テキスト部分における該当文から抽出された情報に加え、さらにテキストの文書プロパティ２９０２から時間的な範囲の情報が取得され、テキスト部分における該当文から抽出された情報が補完されていることを示している。即ち、Next monthとしてOctober、the end of yearとして31 Novemberという情報が取得され、補完されている。

（１．６．言語解析処理）
実施の形態１の情報抽出装置１０における非膠着語の言語解析処理について、図２６、図２７、及び図２９を参照しながらExample 1への処理例について説明する。この情報抽出装置１０が起動され、文書登録部１１は、図２７のように「The exhibition is held from October to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という文を含むテキストを登録したとする。この情報抽出装置１０は、文書記憶部１６ａが登録文書を記憶し、言語解析部１２が言語解析処理を施す。

（係り受け解析処理）
次に、係り受け解析部１２ｂは、言語解析辞書１５ｂを参照して係り受け解析処理を行う。本実施の形態における例文の係り受け解析処理結果の一例は以下のようになる。

語句番号語句表記属性係り受け関係係り先
1 The exhibition 名詞句主述関係 2
2 is held 動詞句文末-1
3 from October 名詞句(日付) 副詞的修飾（日付起点） 2
4 to the end of the year
名詞句（日付）副詞的修飾（日付終点） 2
5 in the corporate headquarter building
名詞句（場所）副詞的修飾（場所） 2
6 from November 名詞句（日付）副詞的修飾（日付起点） 2
7 to the end of the year
名詞句（日付）副詞的修飾（日付終点） 2
8 in the Ginza showroom
名詞句（場所）副詞的修飾（場所） 2

１文の係り受け解析処理が終了すると、言語解析部１２は言語解析結果を言語情報記憶部１６ｂに格納する。

登録テキストに次の文がある場合には、言語解析部１２は次の文を対象に、係り受け解析を実施する。この操作をテキスト中の文がなくなるまで行い、全文の言語解析処理を終了すると、要素抽出部１５による要素抽出処理に進む。

（要素抽出処理）
（１）要素抽出部１３は、言語情報記憶部１６ｂから、先頭の１文分の言語解析処理結果を取り出し、最後尾の語句から、述語動詞を検索する。先頭の１文における最後尾の語句は語句番号[8]「in the Ginza showroom」の語句である。
（２）語句番号[2]から述語動詞句「is held」を抽出する。
（３）そして、「is held」の表記を一時記憶する。
（４）次に、語句番号[8]から、先頭語句に向かって順に語句番号[2]を直接修飾している語句を検索する。
（５）語句番号[8]の係り先語句番号が[2]であることから、語句番号[8]の語句が述語動詞句「is held」を直接連用修飾していることがわかり、「in the Ginza showroom」の表記と属性「名詞句（場所）」と、係り受け関係「副詞的修飾（場所）」を記憶する。
（６）さらに、語句番号[7]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
（７）語句番号[7]の係り先語句番号が[2]であることから、語句番号[7]の語句が述語動詞句「is held」を直接連用修飾していることがわかり、「to the end of the year」の表記と属性「名詞句（日付）」と、係り受け関係「副詞的修飾（日付終点）」を記憶する。
（８）さらに、語句番号[6]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
（９）語句番号[6]の係り先語句番号が[2]であることから、語句番号[6]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「from November」の表記と属性「名詞句（日付）」と、係り受け関係「副詞的修飾（日付起点）」を記憶する。
（１０）語句番号[5]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
（１１）語句番号[5]の係り先語句番号が[2]であることから、語句番号[5]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「in the corporate headquarter building」の表記と属性「名詞句（場所）」と、係り受け関係「副詞的修飾（場所）」を記憶する。
（１２）さらに、語句番号[4]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
（１３）語句番号[4]の係り先語句番号が[2]であることから、語句番号[4]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「to the end of the year」の表記と属性「名詞句（日付）」と、係り受け関係「副詞的修飾（日付終点）」を記憶する。
（１４）さらに、語句番号[3]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
（１５）語句番号[3]の係り先語句番号が[2]であることから、語句番号[3]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「from October」の表記と属性「名詞句(日付)」と、係り受け関係「副詞的修飾（日付起点）」を記憶する。
（１６）語句番号[1]の係り先語句番号が[2]であることから、語句番号[1]の語句は述語動詞句「is held」」を直接連用修飾していることがわかり、「The exhibition」の表記と属性「名詞句」と、係り受け関係「主述関係」を記憶し、述語動詞句「is held」の関連語句要素の抽出を終了する。
（１７）語句番号[2]から先頭の語句に向けて述語動詞を検索する。
（１８）述語動詞が検出されなかったので、例文中の述語動詞の抽出および関連語句要素の抽出を終了する。抽出結果は、図２７に示すExample 1の情報抽出例のようになる。
（１９）次に、抽出され一時記憶された情報と、図２６の知識辞書１５ｂを照合し、知識辞書１５ｂに合致する情報があれば、それぞれ４Ｗ１Ｈ情報を特定する。

知識辞書１５ｂの
「（名詞｜集団名詞｜名詞句）主述関係 → What」
という記述より、「exhibition」は「What」であると特定する。
「（時節名詞｜名詞句：日時｜日付表現）副詞的修飾（日付起点） → When＊範囲起点」
「（時節名詞｜名詞句：日時｜日付表現）副詞的修飾（日付終点） → When＊範囲終点」
「When＊範囲起点とWhen＊範囲終点が同じ述語に係る → When＊Range」
という記述より、「from October to the end of the year 」が「When＊Range」であると特定する。
また、「from November to the end of the year 」が「When＊Range」であると特定する。
「（固有名詞：場所｜名詞句：場所｜集団名詞）副詞的修飾（場所） → Where」という記述より、「corporate headquarter building 」「Ginza showroom 」は「Where」であると特定する。特定されたそれぞれの４W1H情報は、４Ｗ１Ｈの単位で抽出情報記憶部１６ｃに記憶される。
（２０）上記のようにテキストの全文に対し、述語動詞と関連語句要素の抽出と、４Ｗ１Ｈ情報の特定と、記憶を繰り返す。
（２１）テキスト全文に対して情報抽出が終わると、出力指示があれば出力処理を実施する。この例のテキストの抽出データの出力は、図３０に示すExample 1の抽出データの出力例のようになる。

（１．７．補完処理）
次に、図２６、図２９、及び図３０用いて、４Ｗ１Ｈ情報を文書プロパティから補完する例を説明する。

この情報抽出装置１０を起動すると、Example 2に示す「The exhibition is held from next month to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という文を含むテキストが登録されたとする。情報抽出装置１０は、文書記憶部１６ａで登録文書を記憶し、言語解析処理に進む。言語解析処理は、上述と同様の処理を施す。言語解析処理が終わると、上述の要素抽出処理と同様に（１）〜（２１）に示す処理を実施し、Example 2の情報抽出例を得て、４Ｗ１Ｈ情報を特定し、記憶する。

（１）テキスト中の各文に対し、先頭から４Ｗ１Ｈのすべての情報が取得できたかどうかを検査する。
（２）Example 2のテキストは、「What｛exhibition｝」「When＊範囲起点｛next month｝」「Where｛the corporate headquarter building ｝」「When＊範囲起点｛November｝」「Where｛the Ginza showroom ｝」「When＊範囲終点｛the end of the year ｝」が特定でき、これらを４Ｗ１Ｈの単位で抽出情報記憶部１６ｃで記憶している。
（３）同文中に、４Ｗ１Ｈ情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。
（４）次に、ここでは図２８に示す文書プロパティから文書属性情報として以下を取得する。
File Name：Holding guide
Folder Name：exhibition
Title：Holding guide of exhibition
Writer：Taro Ricoh
Date：２００５．９．１５１４：３５
The Final Preservation Date：２００５．９．１６０９：３５
（５）文書属性情報は、テキストの内容に関する情報はないため、「Who」「How」情報は取得できない。
（６）しかし、作成日時と最終保存日時が取得でき、この情報を、When情報と比較する。
本例でのWhen情報は「When＊範囲起点｛来月｝」「When＊範囲起点｛11月｝」「When＊範囲終点｛年末｝」である。
（７）まず、「When＊範囲起点｛next month｝」は、本例のテキスト作成時の「２００５．９．１５１４：３５」を起点とした「next month」であると想定し、作成日時の月情報「9月」に1加算し、「10月」とする。年は変わらず、日と時間は不明のため、「２００５．１０」を補完する。
（８）次に、「When＊範囲起点｛November｝」は、具体的な月が明記されているため、情報補完対象外であるとする。
（９）次に「When＊範囲終点｛the end of the year｝」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「２００５」を取得し、年末は12月31日であると特定できるため、具体的な日時として「２００５．１２．３１」を補完する。
（１０）抽出情報を、補完情報で置き換え、抽出４Ｗ１Ｈプラス述語動詞情報を「What｛exhibition]」「When＊Range｛ from Oct.2005 to 31 Dec.2005 ｝」「Where｛ the corporate headquarter building ｝」「 When＊Range｛ from November to 31 Dec.2005 ｝」「Where｛ the Ginza showroom ｝」と特定する。
（１１）テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図２９のテキストの抽出データの出力例を図２８の抽出（補完）データの出力例で補完した出力例を図３０のExample 2の抽出（補完）データの出力例に示す。

このように、英文の場合においても、日本語の場合と同様に、テキストから４W1H情報を抽出することができる。

（１．８．効果）
このように実施の形態１による情報抽出装置１０によると、ユーザがキーワードを入力したり、予め情報抽出定義をすることなく、テキスト中の各トピックの関連情報を、４Ｗ１Ｈプラス述語情報として精度良く抽出できる。また、例えばこのデータを用いて文書を閲覧する場合、抽出したキーワードをユーザが参照して文書の内容を理解する従来のキーワード抽出手法を用いた文書閲覧に比べ、４Ｗ１Ｈおよび述語で関連付けされた情報を参照したほうが直感的に文書の内容を理解しやすく、文書の内容をより早く簡単に正確に理解することが可能となる。従って、収集・蓄積された文書の管理、閲覧、分析、再利用などが、精度よく、かつ簡便に実現できる。

また、情報抽出において、知識辞書１５ｂは、単語や文節の表層パターンマッチングや正規表現によるパターンマッチングではなく、テキストの構文構造と、日本語の文法特性を利用した条件一致による４Ｗ１Ｈ情報特定が可能なため、精度の高い情報抽出が実現できる。例えば、「展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」というテキストを、従来技術におけるように、表層パターン「■から○まで」や正規表現「．＊から．＊まで」で情報抽出すると、前者は間に「本社ビルで、」や「銀座ショールームで」が挟まるため、日時の範囲は取得できず、後者は、「10月から年末まで」もしくは「11月から年末まで」のどちらかしか取得できなかったが、しかし、実施の形態１による情報抽出装置１０の知識辞書１５ｂを用いると、「10月から年末＝本社ビル、11月から年末＝銀座ショールーム」という情報が正しく取得できる。

また、この情報抽出装置１０は、対象文から必要情報が取得できない場合に、テキストの他部分から情報補完できるので、詳細かつ必要な情報を取得できる。

また、この情報抽出装置１０は、対象文から必要情報が取得できない場合に、テキスト以外の情報を取り込み、情報補完ができるので、詳細かつ必要な情報を取得できる。

また、この情報抽出装置１０は、範囲情報を正しく抽出し、日時の範囲と場所の範囲と区別できるので、正確な情報抽出が可能である。

（２．実施の形態２）
図１２は、実施の形態２による情報抽出装置の機能的ブロック図である。情報抽出装置２０は、変換部２１を備える。

実施の形態２による情報抽出装置２０が実施の形態１と異なる点は、変換部２１が、要素抽出部１３が関連付けた４Ｗ１Ｈプラス述語情報群を、コンピュータが読み取りおよび解釈可能なデータ表現に変換することである。

これによって、実施の形態２による情報抽出装置２０が、自動的にコンピュータが可読解釈できるデータ表現に変換することにより、ユーザは情報抽出したデータを特別なＸＭＬやＲＤＦ構文知識を必要とせずに、労力をかけずにウェブ上でコンピュータ処理可能なデータに変換することができる。

変換部２１は、要素抽出部１３によって抽出され、補完情報取得部１４によって取得された補完情報によって補完された４Ｗ１Ｈプラス述語情報を、コンピュータが可読解釈できるデータ表現であるＲＤＦ／ＸＭＬ構文に変換する。ＲＤＦとはリソース表現のフレームワークであり、標準化団体Ｗ３Ｃが１９９９年に正式勧告しているものである。例えば４Ｗ１Ｈの情報の語彙を定義したＵＲＩhttp://example.org/a/termを用意し、その接頭辞をa:と表現し、既存の語彙（例えばダブリンコアなど）と共に用いる。対象文書に合致した既存の語彙があれば、新たに定義した語彙を用意する必要はない。情報抽出で４Ｗ１Ｈ情報を取得した後、変換部は、文書属性情報と共に、例えばＲＤＦ／ＸＭＬ構文に変換し、記憶する。変換部がＲＤＦグラフ形式に変換し、モニタなどの表示部でユーザに提示できる構成とすることもできる。

また、変換部２１は、ＲＤＦの他に、コンピュータが可読解釈できるデータ表現であればよく、例えば対象データがスケジュールなどイベント情報であれば、標準フォーマットiCalender形式に変換しても良い。

図１３は、変換部が、取得された抽出要素を、ＲＤＦ／ＸＭＬ構文へ変換した変換例と、ＲＤＦグラフへの変換例とを説明する図である。情報抽出装置２０が起動され、「展示会は10月から本社ビルで年末まで開催されます。」という文を含むテキストが登録されたとする。このとき、テキスト登録と同時に、図１３に示される文書プロパティ１３１１が自動的に付加される。これは従来のフロントエンドプロセッサーなどに付帯の機能を利用することができる。

可読データ表現への変換処理について、さらに詳細に説明する。変換部２１は、コンピュータが可読解釈できるデータ表現への変換処理を施す。ここでは、コンピュータが可読解釈できるデータ表現として、ＲＤＦ／ＸＭＬ構文を例にして説明する。

（１）例えば４Ｗ１Ｈの情報をプロパティ要素として有する語彙を定義したＵＲＩ、この例ではhttp://example.org/a/term/を予め用意し、図１３のＲＤＦ／ＸＭＬ変換例のように、その接頭辞を例えばa:と表現し、既存の語彙（例えばダブリンコアなど）と共に用いるようにする。対象文書に合致した既存の語彙があれば、それを用い、新たに定義した語彙を用意する必要はない。
（２）抽出情報記憶部１７ｃから、４Ｗ１Ｈの単位で情報を取り出す。例えば図１３の出力情報例１３１２が得られる。
（３）ＲＤＦ／ＸＭＬ構文でテキストの内容を示す空白ノードを記述する。
（４）次に述語「開催されます」をノード要素として記述する。
（５）次にＷｈａｔ情報「展示会」をノード要素として記述する。
（６）次にＷｈｅｎ情報「１０月から年末まで」をノード要素として記述する。
（７）次にＷｈｅｒｅ情報「本社ビル」をノード要素として記述する。
（８）文書属性情報が得られれば、取得する。この例では、図１３の文書プロパティの情報を取得できた場合を想定し、文書のタイトル「展示会開催案内」、作成者「理光太郎」、作成日「2005-9-15」をダブリンコアの接頭辞を用いてノード要素として記述する。
（９）これらを記憶し、出力指示があれば、出力処理を実施する。図１３には、抽出情報のＲＤＦ／ＸＭＬ変換例１３１３と、ＲＤＦグラフ変換例１３１４とを示す。図１３に示すＲＤＦ／ＸＭＬ構文、もしくはＲＤＦグラフ形式などをそのまま出力してもよく、またこれらをユーザに分かり易く加工して提示してもよい。

実施の形態２による情報抽出装置によると、関係付けられた情報群を、自動的にコンピュータが可読解釈できるデータ表現に変換することが可能なため、ユーザは情報抽出したデータを特別なＸＭＬやＲＤＦ構文知識をもつ必要がなく、労力をかけずにウェブ上で機械が処理できるデータに変換することが可能になる。

（３．実施の形態３）
（３．１．全体構成）
実施の形態３による情報抽出装置３０が、実施の形態１と異なる点は、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から４Ｗ１Ｈプラス述語情報を再構成することである。

この構成によって、文書情報間の関係に基づいて、各文書情報から抽出された４Ｗ１Ｈプラス述語情報の中から、４Ｗ１Ｈプラス述語情報を再構成するので、複数ある文書情報の中から文書情報間の関係において最も相応しい４Ｗ１Ｈプラス述語情報を抽出することができる。

図１４は、実施形態３による情報抽出装置３０の機能的ブロック図である。実施の形態３による情報抽出装置３０は、文書関係特定部３１、および要素再構成部３２を、さらに備える。実施の形態１と異なる点について重点的に説明し、それ以外は適宜説明を省略する。

文書関係特定部３１は文書情報間の関係を特定する。要素抽出部３３は、テキスト情報の中から４Ｗ１Ｈプラス述語情報を抽出する。要素再構成部３２は、文書関係特定部３１によって特定された文書間の関係に基づいて、要素抽出部３３によって抽出された４Ｗ１Ｈプラス述語情報の中から、４Ｗ１Ｈプラス述語情報を再構成する。

文書関係特定部３１が特定する文書情報間の関係とは、例えば送受信された複数の電子メールにおいては、送受信の関係である。この関係を例えばツリー表示した場合、文書間構造とも見ることができる。

図１５は、文書関係特定部３１が文書情報間の関係を特定するために適用する文書関係特定規則を説明する図である。文書関係特定部３１は、特定指示を受信すると、対象文書群を取得し、１文書を読み込み、この文書のヘッダ情報を取得し、バッファに記憶する。そして、次の文書も同様にヘッダ情報を取得し、双方の文書のヘッダ情報を、図１５に示した文書関係特定規則に基づいて解析する。

文書関係特定部３１は、例えば、文書群のヘッダ情報により文書群が電子メール文書群であると判別すれば、２文書の発行順や元メールに対する返答メールである応答関係を特定し、文書関係コードを付与し、文書の発行日時情報と共に記憶する。次文書があれば、その文書のヘッダ情報を取得し、同様に１つ前に取得したヘッダ情報と比較し、文書関係特定規則に基づき２文書の関係を特定し、文書関係コードを付与し、文書の発行日時情報と共に記憶する。取得した文書群全てのヘッダ比較解析、関係特定が完了すると、文書と文書関係コードで表現された対象文書群の文書構造を保存し、処理を終了する。

要素抽出部３３が、各文書情報から４Ｗ１Ｈプラス述語情報を抽出する技術については、実施の形態１で説明した通りである。ここで、実施の形態１のように、要素抽出部３３は、言語解析部１２による解析と、補完情報取得部１４によって取得される補完情報によって４Ｗ１Ｈプラス述語情報を抽出することが望ましい。要素抽出部３３は、１つの文書情報の抽出を終了させると、抽出した要素は言語情報由来の関係情報と共に記憶、さらに、次の文の統語情報から、同様に要素抽出処理を実行する。一文書の全文に対して要素抽出処理が終了すると、次の文書の先頭文から、同様の要素抽出処理を実行する。すべての登録文書に対して要素抽出を実施すると、処理を終了する。ここで、抽出される要素情報は、もともとのテキストに由来して、完全に４Ｗ１Ｈおよび述語全ての情報が取得できるとは限らない。

要素再構成部３２は、要素（４Ｗ１Ｈプラス述語情報）再構成指示を受信して、対象文書群の文書間構造情報と各文書の４Ｗ１Ｈプラス述語情報に基づいて、４Ｗ１Ｈプラス述語情報を再構成する。この再構成動作については、以下、再構成手順において詳細に説明するが、ここで概略を説明する、先頭の１文書の先頭の４Ｗ１Ｈおよび述語を読み込み先頭バッファに記憶し、次の４Ｗ１Ｈおよび述語を比較する。４Ｗ１Ｈ属性情報間の重複、同じ属性で違う表記の情報があれば、各情報へ重複情報を付与する。さらに、次の４Ｗ１Ｈおよび述語がなければ、この時点での４Ｗ１Ｈおよび述語群が、必要４Ｗ１Ｈプラス述語情報を満たしているかどうかを調べ、満たしていた場合、再構成した４Ｗ１Ｈプラス述語情報を選択して要素再構成処理を終了する。

図１５の文書関係特定規則の記載例について、説明する。文書関係特定規則は、例えば、文書カテゴリー判別規則を有し、文書のヘッダ情報や書誌情報と照合し、対象文書がメール文書なのか、掲示板投稿文書なのか、チャット投稿文書なのか、などを判別する。さらに、文書間関係判別規則を有し、２つの文書のヘッダ情報や書誌情報と照合し、記載条件に合致した２文書の関係を例えば文書コードを付与することで特定する。本例は、テキスト記述であるが、システム実装の場合は、これらの条件をプログラムコードの形式に書き下した規則を用いることが好ましい。

図１６は、知識辞書１５ｂの記載例である。要素抽出部３３が使用する知識辞書１５ｂについては、すでに説明した通りであるが、本例では、文法情報を正規表現で表現した形式の記述にしてあるが、システム実装の場合は、これらの条件をプログラムコードの形式に書き下した規則を用いるのが好ましい。テキストの統語情報と本辞書を照合し、統語情報から４Ｗ１Ｈ情報として合致する情報を抽出することができる。

（３．２．文書関係抽出）
図１７は、実施の形態３による情報抽出装置３０が、メール文書群における文書間関係を抽出することを説明する図である。図１８は、図１７における文書Ｂから、４Ｗ１Ｈプラス述語情報を抽出することを説明する図である。図１９は、図１７における文書ＢおよびＣから、４Ｗ１Ｈおよび述語を抽出する処理を説明する図である。図２０は、要素再構成部３２が、図１７における文書Ａ、Ｂ、およびＣから、要素を再構成することを説明する図である。

図１７は、処理対象文書群の例と文書間関係抽出の例を図示している。図１７と図１５とを用いて文書関係特定処理を説明する。例えば、本発明の一形態である情報抽出装置３０が起動され、図１７の文書Ａ，文書Ｂ，文書Ｃが登録されたとする。情報抽出装置３０の補完情報取得部１４は、まず文書Ａのヘッダ情報と文書Ｂのヘッダ情報を取得し、バッファに記憶する。ヘッダ情報は以下の通りである。

文書Ａのヘッダ：
Date:Tue,23Aug200510:04:02
Message-Id:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
X-Mailer:A_Mailver.2.21
文書Ｂのヘッダ：
Date:Tue,23Aug200510:22:10
In-Reply-To:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
References:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
Message-Id:<200508230122.AA00694@AAA.bbb.ccc.co.jp>
X-Mailer:A_MailVersion1.12

文書関係特定部３１は、各ヘッダ情報「X-Mailer:A_Mailver.2.21」「X-Mailer:A_MailVersion1.12」から、これらの文書がメールシステムを用いた電子メール文書群であると判別する。

図１５の文書関係特定規則を参照すると、図１５の文書関係特定規則の条件１を１００％満たす。次に文書Ａを対象文書とし、文書Ｂを次文書とした場合、次文書のIn-Reply-ToのMessage-Id「20050823100245.036F.TaroYamada@ddd.eee.co.jp」が対象文書のMessage-Idである、次文書のDate 「Tue,23Aug200510:22:10」が対象文書のDate 「Tue,23Aug200510:04:02」より時間的に新しい、次文書の件名「Re:会議日程」に対象文書の件名「会議日程」と同じ文字列がある、次文書の件名の先頭にRe:がついている、ということを判別する。これは図１５の文書関係特定規則の条件２を１００％満たしている。条件１を１００％、条件２を１００％満たしているため、文書Ａと文書Ｂの関係は、メールシステムにおける呼応関係にあると特定し、対象文書である文書Ａにコード０を、応答関係にある次文書Ｂにコード１を付与する。

次に、文書をひとつシフトし、文書Ｂのヘッダ情報はそのままにして、文書Ｃのヘッダ情報をバッファに記憶する。ヘッダ情報は以下の通りである。

文書Ｃのヘッダ：
Date:Tue,23Aug200510:23:35
In-Reply-To:<200508230122.AA00694@AAA.bbb.ccc.co.jp>
References:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
<200508230122.AA00694@AAA.bbb.ccc.co.jp>
Message-Id:<20050823102041.0374.TaroYamada@ddd.eee.co.jp>
X-Mailer:A_Mailver.2.21

各ヘッダ情報「X-Mailer:A_MailVersion1.12」「X-Mailer:A_Mailver.2.21」から、これらの文書がメールシステムを用いた電子メール文書群であると判別する。図１５の文書関係特定規則を参照すると、図１５の文書関係特定規則の条件１を１００％満たす。次に文書Ｂを対象文書とし、文書Ｃを次文書とした場合、次文書のIn-Reply-ToのMessage-Id「200508230122.AA00694@AAA.bbb.ccc.co.jp」が対象文書のMessage-Idである、次文書のDate 「Tue,23Aug200510:23:35」が対象文書のDate 「Tue,23Aug200510:22:10」より時間的に新しい、次文書の件名「Re:Re:会議日程」に対象文書の件名「Re:会議日程」と同じ文字列がある、次文書の件名の先頭にRe:がついている、ということを判別する。これは図１５の文書関係特定規則の条件２を１００％満たしている。条件１を１００％、条件２を１００％満たしているため、文書Ｂと文書Ｃの関係は、メールシステムにおける呼応関係にあると特定し、対象文書である文書Ｂのコードが１なので、文書ＣにはＢのコードに１加算した２を付与する。

文書関係特定部３１による上記処理により、図１７の文書Ａ、文書Ｂ、文書Ｃの文書群が、一連の呼応関係にある電子メール文書群であり、その文書群構造が、文書Ａがメールの元文書、文書Ｂが文書Ａへの返信メール文書、文書Ｃが文書Ｂへの返信メール文書であるという構造であることを特定することができる。従って、文書関係特定部３１は、文書間構造「文書Ａコード：０発行日時：Tue,23Aug200510:04:02
文書B コード：1 発行日時：Tue,23Aug200510:22:10
文書C コード：2 発行日時：Tue,23Aug200510:23:35」
を抽出することができる。

（３．３．４Ｗ１Ｈプラス述語情報の抽出）
図１８は、図１７の文書Ｂから統語処理によって４Ｗ１Ｈプラス述語情報（要素）を抽出することを説明している。図１６、図１７、および図１８を参照しながら、文書Ｂの要素抽出処理を説明する。

情報抽出装置３０が起動され、図１７の文書Ａ，文書Ｂ，文書Ｃが登録される。まず要素抽出部３３は、登録順に文書Ａの４Ｗ１Ｈおよび述語を抽出し、文書Ａの抽出が終了すると、次に文書Ｂの要素抽出処理を開始する。まず、文書Ｂのヘッダ部分を除くテキストの統語情報を取得する。ヘッダ部分を除くテキストは以下である。

テキスト部分：
「第一開発部の佐藤です。TaroYamadawrote: >来月の希望の日時をお知らせください。来月７日、午前中がいいです。場所はどこですか？」

この際、テキスト中に「○○さんが書きました：」「xxxwrote:」の記述がある場合、この記述およびその直後の文や、複数の先頭に文と無関係な同じ記号が付与されている場合の、その文全ては引用部分と見做し、抽出の対象外として処理する。そこで、統語情報取得対象テキストは以下となる。
統語情報取得対象テキスト部分：
「第一開発部の佐藤です。来月７日、午前中がいいです。場所はどこですか？」

次に、要素抽出部３３は、統語情報取得対象テキスト部分を解析し、例えば図１８に示す以下のような統語構造を取得する。解析には例えば形態素解析、係り受け解析などの従来の言語解析処理手法を用いることができる。

統語構造：
文節表記単語列品詞列係り受け関係係り先（−１は係り先なしの文末）
第一開発部の第・一・開発・部・の接頭辞＋数詞＋サ変名詞＋集団接辞＋格助詞
連体修飾+1
佐藤です。佐藤・です・。固有名詞＋助動詞＋句点文末-1
来月７日、来月・７日・、時節名詞＋数詞＋日付接辞＋読点連用修飾+2
午前中が午前・中・が時節名詞＋接尾辞＋格助詞ガ格連用修飾+1
いいです。いい・です・。形容詞＋助動詞＋句点文末-1
場所は場所・は名詞＋副助詞連用修飾+1
どこですか。どこ・です・か・？代名詞＋助動詞＋終助詞＋記号句点文末-1

要素抽出部３３は、統語情報取得処理が終了すると、次に、得られた統語情報から４W１H（When＝いつ、Where＝どこ−で、Who＝誰−が、What＝何−を、How＝（どのくらい・どうやって））＋述語を抽出、特定する。まず、統語情報付きのテキストの先頭から、述語を検索する。述語とは、具体的には用言や、文末文節などである。文書Ｂの統語構造を先頭から検索すると、述語として文末文節の「佐藤です。」を見つける。述語が特定できた場合、述語にコードを付与し、その述語を直接修飾している文節、その述語が直接連体修飾している文節を検索し、ある場合は、その文節と、その属性と、述語との係り受け関係を抽出し、述語と同じコードを付与して記憶する。同セット内に同じ属性の情報が複数存在する場合は下位コードを追加付与して区別をつける。文末文節「佐藤です。」を直接修飾している文節「第一開発部の」があるのでこの文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。述語を直接修飾している文節がすべて抽出できたら、それぞれの文節に対し、その属性と述語との係り受け関係に基づき、４Ｗ１Ｈのいずれかを特定する。４W１Hの特定には、文法特性を利用した知識を記述した例えば図１６に例を示した知識辞書１５ｂを使う方法が考えられる。ここでは、他に「佐藤です。」を直接修飾している文節、「佐藤です。」が直接連体修飾している文節がないので、「佐藤です。」と「第一開発部の」の２文節とその属性に対し、図１６の知識辞書１５ｂを適用し、４Ｗ１Ｈおよび述語のいずれかを特定する。「佐藤です。」が述語であり、「第一開発部の」は属性である品詞列の「サ変名詞＋集団接辞」、係り受け関係の「連体修飾」が知識辞書１５ｂの「（（名詞｜数詞）＋集団接辞）（連体修飾） → How」に合致するため、Howを特定することができる。

要素抽出部３３は、特定が終わると、次の述語の検索に移る。「佐藤です。」の次の述語を検索すると、文節「いいです。」が見つかる。文節「いいです。」を直接修飾している文節、その述語が直接連体修飾している文節を検索すると、文節「来月７日、」文節「午前中が」が見つかり、この文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。これらの文節に対し、図１６の知識辞書１５ｂを適用し、４Ｗ１Ｈおよび述語のいずれかを特定する。「いいです。」が述語であり、「来月７日、」は属性である品詞列の「時節名詞＋数詞＋日付接辞＋読点」、係り受け関係の「連用修飾」が知識辞書１５ｂの「（時節名詞｜数詞＋（日付接辞｜時間接辞））＋読点連用修飾 → When」に合致するため、Whenを特定することができる。また、「午前中が」は属性である品詞列の「時節名詞＋接尾辞＋格助詞」、係り受け関係の「ガ格連用修飾」が知識辞書１５ｂの「（時節名詞｜数詞＋（日付接辞｜時間接辞））ガ格修飾 →When」に合致するため、Whenを特定することができる。

さらに、「いいです。」の次の述語を検索すると、文節「どこですか？」が見つかる。文節「どこですか？」を直接修飾している文節、その述語が直接連体修飾している文節を検索すると、文節「来月７日、」が見つかり、この文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。この文節に対し、図１６の知識辞書１５ｂを適用し、４Ｗ１Ｈおよび述語のいずれかを特定する。「どこですか？」が述語であり、「場所は」は属性である品詞列の「名詞＋副助詞」、係り受け関係の「連用修飾」が知識辞書１５ｂの「（名詞｜副詞｜数量名詞｜数詞＋数量接辞）連用修飾 → How」に合致するため、Howを特定することができる。特定が終わると、次の述語の検索に移る。述語が検索されなくなるまで、この処理を繰り返す。「どこですか？」の次の述語がないため、文書Bの要素抽出を終了する。

このように１つの文書の全文に対して要素抽出処理が終了すると、次の文書の先頭文から、同様の要素抽出処理を実行する。すべての登録文書に対して要素抽出を実施すると、処理を終了する。本実施例で文書Bから抽出した４Ｗ１Ｈおよび述語は図１８に示すように以下のセットである。
001述語[佐藤です。]
001How[第一開発部]
002述語[いいです。]
0020When[来月]
0021When[７日]
0022When[午前中]
003述語[どこですか?]
003How[場所]

補完情報取得部１４が、要素抽出の際、対象文書が電子メール文書と判断した場合、テキスト部分以外の「件名」と「送信者」と「受信者」を書誌情報由来の４Ｗ１Ｈプラス述語情報として予め抽出し、要素抽出部３３が「件名」をWhat情報、「送信者」「受信者」をWho情報と予め特定し、４Ｗ１Ｈおよび述語の各要素に補完情報として加える。これは電子メールにおける件名、送受信者名が、メール文書のイベント付随の表現に重要な役割を果たしており、情報抽出精度の向上が見込まれるからである。

同様に、補完情報取得部１４は、対象文書が掲示板文書であれば、文書中の「議題」「作成者」を予め抽出し、要素抽出部３３が、それぞれWhat情報、Who情報と予め特定し、４Ｗ１Ｈおよび述語の各要素に補完情報として加える。

同様に、補完情報取得部１４は、対象文書がチャット文書であれば、文書中の「日時」「ユーザ」を予め抽出し、要素抽出部３３は、それぞれWhat情報、Who情報と予め特定し、４Ｗ１Ｈおよび述語の各要素に補完情報として加える。

（３．４．補完情報処理）
図１９は、図１７における文書ＢおよびＣから４Ｗ１Ｈおよび述語を抽出することを説明しており、補完情報によって、情報を補完する例を示している。図１７、および図１９を用いて文書の周辺情報および別文書から４Ｗ１Ｈプラス述語情報を補完する例を説明する。

情報抽出装置３０が起動され、図１７の文書Ａ，文書Ｂ，文書Ｃが登録されたとする。このうち、文書Ｂの４Ｗ１Ｈおよび述語の不足を、文書Ｃの４Ｗ１Ｈプラス述語情報、および文書Ｂ、文書Ｃの周辺情報で補完する。

（周辺情報からの補完）
まず、文書登録と同時に、図１９で示すような書誌情報に代表される文書の周辺情報による補完情報が自動的に付加される。ここでは、この周辺情報として文書の書誌情報を４Ｗ１Ｈプラス述語情報の補完に利用する。

予め書誌情報をパタンマッチなど従来手法などを用いて取得する方法、ユーザが書誌情報に対して補完対象情報を指定する方法などが考えられる。周辺情報は、例えば文書の書誌情報のほか、文書の更新履歴や、文書の作成場所、文書の作成機器情報、利用アプリケーション情報、文書のアクセス履歴など、所謂、文書のコンテキスト情報である。

例えばあるソフトウェア商品の書誌的情報としては以下の情報が知られている。即ち、[ファイル名、現在のフォルダ名、テンプレート、表題、副題、作成者、キーワード、説明、作成日時、変更回数、最終保存日時、最終保存者]である。

ここでは、書誌情報から得られる４Ｗ１Ｈプラス述語情報は以下のものである。
文書Ｂ：
P_date[23Aug2005]
P_creater[佐藤直子]
P_title[会議日程]
文書Ｃ：
P_date[23Aug2005]
P_creater[山田太郎]
P_title[会議日程]

要素抽出部３３は、これらの情報を統合し、同じ表現形式に変換する。例えば日付は、西暦−月−日という表現に統一する。dateはWhen情報に、createrはWho情報に、titleはWhat情報に変換する。周辺情報由来の４Ｗ１Ｈ情報は、それとわかるような表現にする。ここでの書誌情報からの４Ｗ１Ｈプラス述語情報は、４Ｗ１Ｈ情報の先頭にＰ：を付与し、以下のようにする。

P:When[2005-8-23]
P:Who[佐藤直子]
P:Who[山田太郎]
P:What[会議日程]

（他文書情報からの補完）
次に、情報抽出装置３０は、文書記憶部で登録文書を記憶し、先に挙げた文書関係特定処理と同様の処理を施し、文書Ｂと文書Ｃがメールシステム上で呼応関係にあることを判別する。そして、先に挙げた各文書に対する統語構造を取得し、４Ｗ１Ｈおよび述語を抽出し、４Ｗ１Ｈプラス述語情報を特定し、図１９のように、文書Ｂ、文書Ｃの各文書の４Ｗ１Ｈおよび述語を得て、記憶する。

文書Ｂの各４Ｗ１Ｈおよび述語に対し、先頭から４Ｗ１Ｈおよび述語のすべての情報が取得できたかどうかを検査する。文書Ｂの先頭の４Ｗ１Ｈおよび述語は、「述語[佐藤です。]」と「How[第一開発部]」が取得できている。４Ｗ１Ｈプラス述語情報で欠けている情報は、本実施例では「Who」「What」「When」「Where」情報であることを認識する。次セットで「When[来月]］、「When[７日]］、「When[午前中]］が取得できていることを認識する。次の４Ｗ１Ｈおよび述語に、不足情報を補完する情報がなく、次の４Ｗ１Ｈおよび述語がないことから文書Ｂの４Ｗ１Ｈおよび述語における不足情報は、「Who」「What」「Where」であることを認識し、文書Ｂの４Ｗ１Ｈプラス述語情報チェックを終了する。

次に文書Ｃの各４Ｗ１Ｈおよび述語に対し、文書Ｂでの不足情報を補完できる情報の有無を検査する。文書Ｂの４Ｗ１Ｈおよび述語における不足情報は、「Who」「What」「Where」情報であることを認識する。先頭から不足情報を補完できる情報の有無を検査する。文書Ｃの先頭の４Ｗ１Ｈおよび述語は、「述語[山田です。]」が取得できるが不足情報を補完する情報がないため次セットを検索する。

次セットで「What[返信]」が取得できていることを認識する。次の４Ｗ１Ｈおよび述語に、「When[７日]」］、「When[１０時〜１２時]」、「Where[第一会議室]］が取得できていることを認識する。次の４Ｗ１Ｈおよび述語に、「What[出席]」「How[よろしく]」が取得できていることを認識する。不足情報を補完する情報としては、「What[返信]」「What[出席]」「Where[第一会議室]］が見つかり、次の４Ｗ１Ｈおよび述語がないことから文書Ｂ，文書Ｃの４Ｗ１Ｈおよび述語における不足情報は、「Who」情報であることを認識し、文書Ｃの４Ｗ１Ｈプラス述語情報チェックを終了する。

このようにして登録された各文書に対し、４Ｗ１Ｈプラス述語情報で欠けている情報を認識し、補完情報の有無を検査し、情報を補完することを繰り返す。登録文書に対して情報補完処理が終わると、次に、要素抽出部３３は、周辺情報由来の４Ｗ１Ｈ情報と組み合わせる。このとき、文書由来の４Ｗ１Ｈプラス述語情報と周辺情報由来の関係では、基本的には、文書由来の４Ｗ１Ｈプラス述語情報を優先する。これは、文書中の話題の方が、４Ｗ１Ｈプラス述語情報として尤もらしいと考えられるからである。

上記の例では、文書Ｂの４Ｗ１Ｈおよび述語と補完された情報は以下のとおりとなる。
文書Ｂオリジナル
1001述語[佐藤です。]
1001How[第一開発部]
1002述語[いいです。]
10020When[来月]
10021When[７日]
10022When[午前中]
1003述語[どこですか?]
1003How[場所]

文書Ｃからの補完情報
2002What[返信]
2003Where[第一会議室]
2004What[出席]

周辺情報からの補完情報
P:When[2005-8-23]
P:Who[佐藤直子]
P:Who[山田太郎]
P:What[会議日程]

（３．５．要素再構成処理）
図２０は、要素再構成部３２が、図１７における文書Ａ、Ｂ、およびＣから４Ｗ１Ｈプラス述語情報を再構成することを説明している。図１７、および図２０を用いて文書群から、要素再構成部３２による要素再構成処理の例を説明する。

情報抽出装置３０が起動され、図１７の文書Ａ，文書Ｂ，文書Ｃが登録されたとする。このとき、文書登録と同時に、補完情報取得部１４は、図２０で示すようなコンテキストによる補完情報を自動的に付加する。文書記憶部が登録文書を記憶し、先に説明した文書関係特定処理と同様の処理を施す。次に、既述のように、各文書に対して、要素抽出部３３は、統語構造から４Ｗ１Ｈおよび述語を抽出し、文書群の４Ｗ１Ｈおよび述語に文書群内４Ｗ１Ｈプラス述語情報と各文書の周辺情報を用いた４Ｗ１Ｈプラス述語情報補完処理を施す。各文書から抽出した、４Ｗ１Ｈおよび述語、および、書誌情報による補完情報を図２０に図示してある。

要素抽出部３３は、各文書から抽出した４Ｗ１Ｈおよび述語および書誌情報による補完情報を読み込み、必要な４Ｗ１Ｈプラス述語情報を選択する。このときの選択基準の設定方法としては、システム側に予め基本設定をしておく方法、システム側に予め基本設定をしておき、システム利用時にユーザが任意にカスタマイズできる方法、ユーザが予め登録する方法、文書群全ての４Ｗ１Ｈおよび述語をモニタ１８に表示させ、ユーザが選択する方法など、が可能である。ここでは、装置側に予め基本設定をしておく方法について説明する。例えば、情報抽出装置３０側の出力必要情報として、以下の基本設定がなされている場合について説明する。

述語選択基準：
・全ての文書に共通な述語が存在すれば、その述語を、必要情報セットの述語と仮定し、記憶する。
・全ての文書に共通な述語がなければ、広範囲の文書に含有率の高い述語を必要情報セットの述語と仮定し、記憶する。
・複数ある場合は複数記憶する。

４Ｗ１Ｈ情報選択基準：
・述語選択基準に合致した述語と係り受け関係を有する４Ｗ１Ｈプラス述語情報を必要情報セットの要素と仮定し、記憶する。
・ただし、述語選択基準に合致した述語がない場合は、全ての要素を記憶しておき、必要情報セット外の要素は削除する。
・同じ属性同じ表記の要素が存在する場合は、その要素に重複フラグを付与し、述語選択基準に合致した述語と関係を有する要素を１つ選択する。
・同じ属性で異なる表記の要素が複数存在する場合は、文書コードおよび要素コードの値の高い要素を１つ選択する。

書誌情報選択基準：
・必要要素のうち、文書情報由来の要素で不足している要素について、補完する。同じ属性の要素があっても、文書情報由来の要素を優先する。
このような処理を施し、必要な要素である４Ｗ１Ｈおよび述語が揃わない場合は、不足のままで出力する。

要素抽出部３３は、まず、読み込んだ情報のうち、述語に着目し、全ての文書に共通な述語を検索する。本実施例では、文書Ａ〜文書Ｃ全てに共通の述語はなく、文書Ａと文書Ｃに共通して存在する「設定」を必要情報セットの述語と仮定し、記憶する。ここで、必要情報セットとは、目標とする再構成要素の４Ｗ１Ｈおよび述語のセットのことである。
述語[設定]

次に、文書Ａの４Ｗ１Ｈおよび述語から、002「設定したいのですが、」と係り受け関係を有する４Ｗ１Ｈプラス述語情報である002What[会議]を必要情報セットの要素と仮定し、記憶する。

述語[設定]
0-002What[会議]

文書Ａの残る４Ｗ１Ｈプラス述語情報には、他に002「設定したいのですが、」と係り受け関係を有する４Ｗ１Ｈプラス述語情報がないので、次に文書Ｂの４Ｗ１Ｈおよび述語から要素を検索するが、文書Ｂには述語「設定」が存在しないため、文書Ｂの４Ｗ１Ｈおよび述語全ての要素を記憶する。

述語[設定]
0-002What[会議]
1-001How[第・一・開発・部]
1-002When[0:来月1:７日2:午前・中]
1-003How[場所]

要素抽出部３３は、次に文書Ｃの４Ｗ１Ｈおよび述語から、003「設定しました。」と係り受け関係を有する４Ｗ１Ｈプラス述語情報である003When[0:７日、1:１０時・〜・１２時]003Where[第・一・会議・室]を必要情報セットの要素と仮定し、記憶する。

述語[設定]
0-002What[会議]
1-001How[第・一・開発・部]
1-002When[0:来月1:７日2:午前・中]
1-003How[場所]
2-003When[0:７日、1:１０時・〜・１２時]
2-003Where[第・一・会議・室]

文書Ｃの残る４Ｗ１Ｈプラス述語情報には、他に003「設定しました」と係り受け関係を有する４Ｗ１Ｈプラス述語情報がなく、次の文書もないため、文書情報由来の４Ｗ１Ｈおよび述語の検索を終了する。

ここで、同じ属性で同じ表記の要素である1-002When[1:７日]と2-003When[0:７日]には、重複フラグ*を付与し、記憶する。また、同じ属性で、異なる表記の要素である1-001How[第・一・開発・部]と1-003How[場所]、1-002When[2:午前・中]と2-003When[1:１０時・〜・１２時]に、異表記フラグ%を付与し、記憶する。データは、以下のようになる。

述語[設定]
0-002What[会議]
1-001How[第・一・開発・部%]
1-002When[0:来月1:７日*2:午前・中%]
1-003How[場所%]
2-003When[0:７日*、1:１０時・〜・１２時%]
2-003Where[第・一・会議・室]

述語「設定」に関連する４Ｗ１Ｈプラス述語情報と重複や異表記がある文書Ｂの1-002When[0:来月1:７日*2:午前・中%]は採り、そのほかの文書Ｂの４Ｗ１Ｈプラス述語情報1-001How[第・一・開発・部%]、1-003How[場所%]は削除する。
述語[設定]
0-002What[会議]
1-002When[0:来月1:７日*2:午前・中%]
2-003When[0:７日*、1:１０時・〜・１２時%]
2-003Where[第・一・会議・室]

上記までの処理で、必要要素４Ｗ１Ｈおよび述語のうち、Who属性、How属性が不足していることがわかる。そこで、書誌情報による補完情報を利用する。先頭のP:When[2005-8-23]は、文書の作成日時であり、文書情報由来の要素1-002When[0:来月1:７日*2:午前・中%]、2-003When[0:７日*、1:１０時・〜・１２時%]があるため、こちらを優先し、４Ｗ１Ｈプラス述語情報要素として加えない。次のP:Who[佐藤・直子]、P:Who[山田・太郎]は、文書の作成者であるが、Who属性は必要要素の不足情報であるため、これら４Ｗ１Ｈプラス述語情報を必要情報として加える。

述語[設定]
0-002What[会議]
1-002When[0:来月1:７日*2:午前・中%]
2-003When[0:７日*、1:１０時・〜・１２時%]
2-003Where[第・一・会議・室]
P:Who[佐藤・直子、山田・太郎]

次のP:What[会議・日程]は、文書情報由来の要素0-002What[会議]と重複があるため、双方へ重複フラグを付与する。しかし、文書情報由来の要素があるため、こちらを優先し、４Ｗ１Ｈプラス述語情報要素として加えない。次の書誌情報由来の４Ｗ１Ｈプラス述語情報がないため、書誌情報による補完情報からの要素取得を終了する。

次に、基本設定に従い、情報選択を実施する。必要情報のうち、重複情報1-002When[1:７日]と2-003When[0:７日]について、述語選択基準に合致した述語「設定」と関係を有する要素である2-003When[0:７日]を選択対象とする。次に、異表記情報1-002When[2:午前・中]と2-003When[1:１０時・〜・１２時]について、文書コードの高い2-003When[1:１０時・〜・１２時]を選択対象とする。

必要情報のうち、How属性が不足しているが、補完が適わないため、本実施例における４Ｗ１Ｈおよび述語選択結果は、以下のようになる。

述語[設定]
What[会議]
Who[山田太郎、佐藤直子]
When[来月、７日、１０時〜１２時]
Where[第一会議室]

また、情報抽出装置３０は、所定の条件を受け付けて、受け付けた条件に最も適合するように、文書間の関係に基づいて他の文章から、４Ｗ１Ｈプラス述語情報を再構成することができる。例えば、時間的に最後の文章、あるいは最先の文章、あるいは最頻の述語を条件として、条件とされた文章、あるいは述語に従って再構成する。このようにして、条件を与えて最もこの条件に適合する４Ｗ１Ｈプラス述語情報を再構成することができる。

（３．６．情報抽出手順）
図２１は、実施の形態３による情報抽出手順を説明するフローチャートである。ステップＳ４０１〜ステップＳ４０４までは、図１８に示した実施の形態１による情報抽出手順のステップＳ１０１〜ステップＳ１０４までと同様であるので、説明を省略する。ステップＳ４０４で、要素抽出部３３が統語構造と補完情報とに基づいて４Ｗ１Ｈプラス述語情報を抽出する手順までは、実施の形態１と同様である。

文書関係特定部３１は、文書情報間の関係を特定する（ステップＳ４０５）。このステップについては、後述する。そして、要素再構成部３２は、文書間の関係に基づいて、抽出された４Ｗ１Ｈプラス述語情報の中から、４Ｗ１Ｈプラス述語情報を再構成する（ステップＳ４０６）。このステップについては後述する。

図２２は、文書関係特定手順を説明するフローチャートである。以下、図２２における動作主は文書関係特定部３１である。文書関係特定部３１は、文書間関係の特定命令を受けると、対象文書群を取得し（ステップＳ５０１）、その中から１文書を読み込む（ステップＳ５０２）。文書関係特定部３１は、ヘッダ情報を取得し、記憶部１６に記憶させ（ステップＳ５０３）、次文書があるか否かを判定し（ステップＳ５０４）、ないと判定した場合（ステップＳ５０４のＮｏ）、再び文書間関係の特定命令の受信を待機状態となる。

文書関係特定部３１は、次文書があると判定した場合（ステップＳ５０４のＹｅｓ）、文書関係特定部３１は、次文書のヘッダ情報を取得し、記憶部１６に記憶させる（ステップＳ５０５）。そして、文書関係特定部３１は記憶した２文書のヘッダ内容を解析し（ステップＳ５０６）、２文書の関係を特定する（ステップＳ５０７）。

文書関係特定部３１は、文書関係を特定できたか否かを判定し（ステップＳ５０８）、特定できたと判定した場合（ステップＳ５０８のＹｅｓ）、文書関係特定部３１は、特定された文書間の関係を記憶部１６に記憶させて（ステップＳ５０９）、ステップＳ５０４に戻る。一方、文書関係特定部３１が、文書間の関係を特定できなかった場合（ステップＳ５０８のＮｏ）、モニタ１８において、表示制御部１７を介してエラー表示させる（ステップＳ５１０）。

図２３は、要素再構成部３２が、４Ｗ１Ｈプラス述語情報を再構成する手順を説明するフローチャートである。以下のステップにおいて、特記しない限り、動作主は要素再構成部３２である。要素再構成部３２は、要素（４Ｗ１Ｈプラス述語情報）再構成指示を受信待機し、受信すると（ステップＳ６０１のＹｅｓ）、要素再構成部３２は、対象文書群の文書間構造情報と各文書の４Ｗ１Ｈおよび述語の有無を調べ（ステップＳ６０２およびステップＳ６０３）、どちらもあれば（ステップＳ６０２のＹｅｓおよびステップＳ６０３のＹｅｓ）、先頭の１文書の先頭の４Ｗ１Ｈおよび述語を読み込み（ステップＳ６０４）、先頭バッファに記憶する（ステップＳ６０６）。どちらもなければ（ステップＳ６０２のＮｏ、またはステップＳ６０３のＮｏ）、表示制御部１７を介してモニタ１８においてエラー表示を行い（ステップＳ６０５）、終了する。

次に、要素再構成部３２は、次の４Ｗ１Ｈおよび述語を比較バッファへ読み込み、ステップＳ６０６で読み込んだ先頭バッファ内の情報と比較する（ステップＳ６０７）。比較する点は、例えばそれぞれの４Ｗ１Ｈおよび述語の４Ｗ１Ｈ属性情報間の重複の有無、同じ属性で違う表記の情報の有無などである。重複があれば、各情報へ重複情報を付与し、記憶部１６に記憶する（ステップＳ６０９）。

もしも、要素再構成部３２は、同じ属性で違う表記の情報があると判定すれば（ステップＳ６１０のＹｅｓ）、知識辞書１５ｂを利用して双方の関係を特定し、双方へ異表記情報を付与し、記憶部に記憶する（ステップＳ６１１）。ここで、同じ属性とは、４Ｗ１Ｈのうち、同じＷあるいは、Ｈに属することである。重複情報、異表記情報は、例えばフラグ、特定コードなどで表現する。要素再構成部３２は、２セットの４Ｗ１Ｈプラス述語情報の比較特定処理が終了すると、双方の４Ｗ１Ｈプラス述語情報を記憶する（ステップＳ６１２）。次の４Ｗ１Ｈおよび述語があれば（ステップＳ６１３のＹｅｓ）、ステップＳ６０７に戻って、比較バッファの４Ｗ１Ｈプラス述語情報を先頭バッファへシフトし、３番目の４Ｗ１Ｈプラス述語情報を比較バッファへ読み込み、新たに比較特定処理を実施する。

もし、要素再構成部３２は、次の４Ｗ１Ｈおよび述語がないと判定すれば（ステップＳ６１３のＮｏ）、その時点での４Ｗ１Ｈおよび述語群が、必要４Ｗ１Ｈプラス述語情報を満たしているかどうかを調べる。必要４Ｗ１Ｈプラス述語情報とは、４Ｗ１Ｈプラス述語情報の全てが欠けることなく揃っている情報のことである（ステップＳ６１４）。

要素再構成部３２は、満たしていると判定すれば（ステップＳ６１４のＹｅｓ）、再構成した４Ｗ１Ｈプラス述語情報を選択して、記憶し（ステップＳ６１６）、要素再構成処理を終了する（ステップＳ６１７のＹｅｓ）。もし満たしていない情報があると判定し（ステップＳ６１４のＮｏ）、かつ次の文書があると判定した場合（ステップＳ６１５のＹｅｓ）、ステップＳ６０３に戻って、次の文書の４Ｗ１Ｈおよび述語を読み込み、先頭の４Ｗ１Ｈおよび述語を比較バッファへ読み込み、比較特定処理を実施し、必要な４Ｗ１Ｈプラス述語情報が満たされるまで、繰り返す。

ここで、複数の文書情報からだけではなく、１つの文書情報の中にある複数の文章から４Ｗ１Ｈプラス述語情報を再構成することも可能である。

ここで、情報抽出装置３０は、登録された文書群がメール文書群である場合において、４Ｗ１Ｈプラス述語情報を抽出して文書間関係情報により再構成する例について説明したが、登録された文書群がメール文書以外についても、適用できる。

例えば、登録された文書群が電子掲示板文書群である場合も、電子掲示板文書特有の文書間構造および電子掲示板文書特有の書誌情報に代表される文書周辺情報を取得し、テキストからの情報抽出で満たされないイベント付随の情報補完を行い、４Ｗ１Ｈプラス述語情報の再構成を行う構成とすることができる。

また、登録された文書群がチャット文書群である場合、チャット文書特有の文書間構造およびチャット文書特有の書誌情報に代表される文書周辺情報を取得し、テキストからの情報抽出で満たされないイベント付随の情報補完を行い、４Ｗ１Ｈプラス述語情報の再構成を行う構成とすることができる。

ここで、情報抽出装置３０は、テキスト中の引用部分を文章対象外にすることで、対象文書に直接関係しない余計な４Ｗ１Ｈプラス述語情報を抽出することなく、上記の４Ｗ１Ｈプラス述語情報を再構成する構成とすることができる。

ここで、情報抽出装置３０は、４Ｗ１Ｈおよび述語要素の重複による情報の無駄な増加を抑制しているが、必要な場合は、そのような抑制を解除する構成とすることもできる。

ここで、情報抽出装置３０は、同じ属性で異なる表記の４Ｗ１Ｈプラス述語情報が複数存在する場合に、４Ｗ１Ｈプラス述語情報を、１つだけ選択する構成とすることができる。例えば、設定情報を「最新」「詳細」などにすることで、最新の４Ｗ１Ｈプラス述語情報や、最も詳細な４Ｗ１Ｈプラス述語情報を再構成する構成とすることができる。このような条件設定を、ユーザが任意に選択可能とすることができる。

（３．７．効果）
このように、実施の形態３による情報抽出装置３０は、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から４Ｗ１Ｈプラス述語情報を再構成することによって、文書情報間の関係に基づいて、各文書情報から抽出された４Ｗ１Ｈプラス述語情報の中から、４Ｗ１Ｈプラス述語情報を再構成するので、複数ある文書情報の中から文書間の関係において最も相応しい４Ｗ１Ｈプラス述語情報を抽出することができる。

従って、ユーザがキーワードを入力したり、予め情報抽出定義をすることなく、複数の文書群で構成されるテキスト中のイベント付随の情報を精度良く抽出でき、例えばこのデータを用いて文書を閲覧する場合、抽出したキーワードをユーザが参照して文書の内容を理解する従来のキーワード抽出手法を用いた文書閲覧に比べ、イベントの纏まりで関連付けされた情報を参照したほうが直感的に文書の内容を理解しやすく、文書の内容をより早く簡単に正確に理解することが可能となる。

また、登録された文書群がメール文書群である場合、メール文書特有の文書間構造およびメール文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。

また、登録された文書群が電子掲示板文書群である場合、電子掲示板文書特有の文書間構造および電子掲示板文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。

また、登録された文書群がチャット文書群である場合、チャット文書特有の文書間構造およびチャット文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。

また、テキスト中の引用部分を文章対象外にすることで、対象文書に直接関係しない余計な４Ｗ１Ｈプラス述語情報を抽出せずに済むため、このような方式を採用しない情報抽出に比べ、紛らわしい情報がなくなる上、情報抽出の処理効率が向上するため、処理コストを低減できる。

また、４Ｗ１Ｈおよび述語要素の重複による情報の無駄な増加を抑制し、本方法搭載システムにて処理結果を閲覧する際に、ユーザが処理結果を理解しやすく、さらに情報抽出の処理効率が向上するため処理コストを低減できる。

また、同じ４Ｗ１Ｈ情報であって異なる表記の４Ｗ１Ｈプラス述語情報が複数存在する場合に、４Ｗ１Ｈプラス述語情報を、１つだけ選択することで、文書群中のイベントをユーザが混乱することなく理解しやすくなる。例えば、「午前中」という要素と「午前１０時から１２時」という要素の中から１つを選択することによって、より情報が単純化されてユーザにとって理解しやすいものとなる。あるいは、例えば設定情報を「最新」「詳細」などにすることで、最新の４Ｗ１Ｈプラスや、最も詳細な４Ｗ１Ｈ情報を、ユーザ任意に選択可能とすることができる。即ち、ユーザが条件を入力することによって、該入力された条件に最も相応しい４Ｗ１Ｈプラス述語情報を抽出することができる。

また、１つの文書の４Ｗ１Ｈおよび述語から必要情報が取得できない場合に、該文書の周辺情報および該文書と特定の文書間関係を有する別文書から必要情報を補完することができるため、イベント付随の情報補完がよりよくできるようになり、情報抽出精度を向上させることができる。

（４．実施の形態４）
実施の形態４による情報抽出装置が実施の形態３と異なる点は、変換部（不図示）が、要素抽出部３３が関連付けて抽出した４Ｗ１Ｈプラス述語情報、および要素再構成部３２が再構成した４Ｗ１Ｈプラス述語情報を、コンピュータが読み取りおよび解釈可能なデータ表現に変換することである。また、変換してモニタ１８で表示することが望ましい。変換部は、機能的ブロック図としては、例えば、実施の形態２において示したと同様の位置に配設できる。

図２４は、実施の形態４による情報抽出装置の変換部が、４Ｗ１Ｈプラス述語情報をＲＤＦ構文に変換した例と、ＲＤＦグラフの例とを示す図である。例えば４Ｗ１Ｈおよび述語の情報の語彙を定義したＵＲＩ、http://example.org/a/termを用意し、その接頭辞をa:と表現し、既存の語彙（例えばダブリンコアなど）と共に用いる。対象文書に合致した既存の語彙があれば、新たに定義した語彙を用意する必要はない。本発明の情報抽出処理で４Ｗ１Ｈ情報＋述語を取得した際、抽出情報を、文書情報と共に、例えばＲＤＦ／ＸＭＬに変換し、記憶することができる。図２４のＲＤＦグラフ形式に変換し、モニタ１８でユーザに提示できる構成とできる。

図１７、図２０、図２４を用いて、再構成された４Ｗ１Ｈおよび述語を、ＲＤＦ構文に変換して記憶し、出力する例を説明する。例えば、情報抽出装置が起動され、図１７の文書Ａ〜Ｃが登録されたとする。このとき、文書登録と同時に、図２０で示すようなコンテキストによる補完情報が生成される。情報抽出装置は、文書記憶部１６が登録文書を記憶し、先の例で挙げた文書関係特定処理と同様の処理をする。次に先の例で挙げたように、各文書に対して統語構造を取得し４Ｗ１Ｈおよび述語を抽出し、図２０に示すように各文書の４Ｗ１Ｈおよび述語を取得し、記憶する。次に先に挙げたように、文書の周辺情報による情報補完と各文書の４Ｗ１Ｈおよび述語からの情報補完を実施し、４Ｗ１Ｈプラス述語情報の選択処理、即ち要素再構成処理を施して、最終的な４Ｗ１Ｈおよび述語を得る。

次に、例えば４Ｗ１Ｈおよび述語の情報をプロパティ要素として有する語彙を定義したＵＲＩ、本実施例ではhttp://example.org/a/term/を予め用意し、その接頭辞を例えば図２４のＲＤＦ／ＸＭＬ変換例に示すように、a:と表現し、既存の語彙（例えばダブリンコアなど）と共に用いるようにする。対象文書に合致した既存の語彙があれば、それを用い、新たに定義した語彙を用意する必要はない。

次に抽出情報記憶部１６ｃから、４Ｗ１Ｈおよび述語の単位で情報を取り出す。例えば図２４の４Ｗ１Ｈおよび述語選択結果が得られれば、まず、ＲＤＦ構文でテキストの内容を示す空白ノードを記述する。次に述語「設定」をノード要素として記述する。次にWhat情報「会議」をノード要素として記述する。次にWho情報「山田太郎」「佐藤直子」をノード要素として記述する。次にWhen情報「来月」「７日」「１０時から１２時まで」をノード要素として記述する。次にWhere情報「第一会議室」をノード要素として記述する。

これらに加えて、書誌情報から得られた情報もノード要素として記述する。ここでは、図１９、および図２０の書誌情報による補完情報で得られた情報としては文書のタイトル「会議日程」、作成者「山田太郎」「佐藤直子」、作成日「2005-8-23」をダブリンコアの接頭辞を用いてノード要素として記述する。

これらを記憶し、出力指示があれば、出力処理を実施する。図２４では、抽出情報のＲＤＦ／ＸＭＬ変換例２４１０であり、ＲＤＦ／ＸＭＬ構文、もしくはＲＤＦグラフ形式２４２０が出力例として示されている。

このように、実施の形態４による情報抽出装置によると、ユーザがＸＭＬやＲＤＦ構文知識をもたずとも、テキスト中のイベント付随情報をウェブ上で機械が処理できるデータに変換することが可能になる。即ち、複数の文書群で構成されるテキスト中のイベント付随情報を、自動的にＲＤＦ構文に変換することが可能なため、ユーザは情報抽出したデータをＲＤＦエディタを使うことなく、特別なＸＭＬやＲＤＦ構文知識をもたずとも、ウェブ上で機械が処理できるデータモデルを構築することが可能になる。

（５．ハードウェア構成）
図２５は、実施の形態による情報抽出装置のハードウェア構成を示す図である。実施の形態による情報抽出装置は、図２５に示すように、ＣＰＵ（Central Processing Unit）２５０１などの制御装置と、ＲＯＭ（Read Only Memory）２５０２やＲＡＭ（Random Access Memory）２５０３などの記憶装置と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disk）ドライブ装置等の外部記憶装置２５０４と、モニタ等の表示装置２５０５と、キーボードやマウス等の入力デバイス２５０６と、通信Ｉ／Ｆ２５０７と、これらを接続するバス２５０８を備えており、通常のコンピュータを利用したハードウェア構成となっている。

実施の形態による情報抽出装置で実行される情報抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、実施の形態による情報抽出装置で実行される情報抽出プログラムを、インタネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、実施の形態による情報抽出装置で実行される情報抽出プログラムをインタネット等のネットワーク経由で提供または配布するように構成しても良い。また、実施の形態による情報抽出プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

実施の形態による情報抽出装置で実行される情報抽出プログラムは、上述した各部（文書登録部、言語解析部、要素抽出部、補完情報取得部、表示制御部、文書関係特定部、および要素再構成部など）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から情報抽出プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、文書登録部、言語解析部、要素抽出部、
補完情報取得部、表示制御部、文書関係特定部、および要素再構成部などが主記憶装置上
に生成されるようになっている。

以上のように、本発明にかかる情報抽出装置、情報抽出方法、およびその方法をコンピュータに実行させるプログラムは、情報抽出技術に有用であり、特に、文章情報に加工できる４Ｗ１Ｈプラス述語情報を抽出する技術に適している。

実施の形態１による情報抽出装置１０の機能的ブロック図である。知識辞書１５ｂの記載の一例を説明する図である。要素抽出部１３による４Ｗ１Ｈプラス述語情報抽出の一例を説明する図である。補完情報取得部１４が、文書属性情報から４Ｗ１Ｈプラス述語情報抽出を補完する一例を説明する図である。文書の定義を説明する図である。補完情報取得部１４が、テキストの他の箇所からの情報を抽出して補完する一例を説明する図である。補完情報取得部１４が、テキストの他の箇所および文書プロパティから情報を抽出して補完した一例を説明する図である。図３、図４、図６、および図７における抽出処理を施したデータの出力例を示す図である。実施の形態１による４Ｗ１Ｈプラス述語情報抽出手順を説明するフローチャートである。言語解析手順を説明する図である。４Ｗ１Ｈプラス述語情報抽出手順を説明するフローチャートである。実施の形態２による情報抽出装置の機能的ブロック図である。変換部が、取得された抽出要素を、ＲＤＦ／ＸＭＬ構文へ変換した変換例と、ＲＤＦグラフへの変換例とを説明する図である。実施形態３による情報抽出装置３０の機能的ブロック図である。文書関係特定部３１が文書情報間の関係を特定するために適用する文書関係特定規則を説明する図である。知識辞書１５ｂの記載の一例を説明する図である。実施の形態３による情報抽出装置３０が、メール文書群における文書間関係を抽出することを説明する図である。図１７における文書Ｂから、４Ｗ１Ｈプラス述語情報を抽出することを説明する図である。図１７における文書ＢおよびＣから、４Ｗ１Ｈおよび述語を抽出ことを説明する図である。要素再構成部が、図１７における文書Ａ、Ｂ、およびＣから、要素を再構成することを説明する図である。実施の形態３による情報抽出手順を説明するフローチャートである。文書関係特定手順を説明するフローチャートである。要素再構成部３２が、４Ｗ１Ｈプラス述語情報を再構成する手順を説明するフローチャートである。実施の形態４による情報抽出装置の変換部が、４Ｗ１Ｈプラス述語情報をＲＤＦ構文に変換した例と、ＲＤＦグラフの例とを示す図である。実施の形態による情報抽出装置のハードウェア構成を示す図である。知識辞書１５ｂの記載の一例を説明する図である。要素抽出部１３による４Ｗ１Ｈプラス述語情報抽出の一例を説明する図である。文書プロパティに含まれる情報の一例を説明する図である。補完情報取得部１４が、文書プロパティから情報を抽出して補完した一例を説明する図である。図２６、図２７、図２８、および図２９における抽出処理を施したデータの出力例を示す図である。

符号の説明

１０、１２、３０情報抽出装置
１１文書登録部
１２言語解析部
１３、３３要素抽出部
１４補完情報取得部
１７表示制御部
３１文書関係特定部
３２要素再構成部

Claims

入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析手段と、
前記言語解析手段によって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出する要素抽出手段と、
を備えたことを特徴とする情報抽出装置。
前記要素抽出手段は、前記テキスト情報と抽出した前記５要素の情報および述語情報を関連付けて記憶する記憶手段を備え、
該テキスト情報と該５要素の情報および述語情報とを関連付けて表示する表示手段をさらに備えたことを特徴とする請求項１に記載の情報抽出装置。
文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか１つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記５要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶する知識辞書記憶手段をさらに備え、
前記要素抽出手段は、前記知識辞書を使用して前記テキスト情報から前記５要素の情報および述語情報を抽出することを特徴とする請求項１又は２に記載の情報抽出装置。
前記関係情報が範囲に関連する情報であることを特徴とする請求項３に記載の情報抽出装置。
前記文書情報に付随する文書属性情報を補完情報として取得する第１の補完情報取得手段を、さらに備え、
前記要素抽出手段は、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第１の補完情報取得手段により取得した前記補完情報により補完することを特徴とする請求項１から４のいずれか１項に記載の情報抽出装置。
前記文書情報の他のテキスト情報を補完情報として取得する第２の補完情報取得手段を、さらに備え、
前記要素抽出手段は、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第２の補完情報取得手段により取得した前記補完情報により補完することを特徴とする請求項１から５のいずれか１項に記載の情報抽出装置。
他の文書情報の周辺情報及び前記５要素情報および述語情報を補完情報として取得する第３の補完情報取得手段と、
前記文書情報間の関係を特定する文書関係特定手段と、
前記５要素の情報および述語情報を再構成する要素再構成手段と、をさらに備え、
前記要素抽出手段は、前記言語解析手段によって解析された統語構造を用いて特定した前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第３の補完情報取得手段によって取得した前記補完情報により補完し、
前記要素再構成手段は、前記文書関係特定手段によって特定された文書間の関係に基づいて、前記要素抽出手段によって抽出した前記５要素の情報および述語情報を再構成することを特徴とする請求項１から６のいずれか１項に記載の情報抽出装置。
前記要素再構成手段は、前記第３の補完情報取得手段により取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする請求項７に記載の情報抽出装置。
前記要素再構成手段は、前記第３の補完情報取得手段により取得する補完情報同士、および前記５要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記５要素の情報および述語情報の中からそれぞれ１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする請求項７に記載の情報抽出装置。
前記要素再構成手段はさらに、前記文書関係特定手段によって関係が特定された他の文書情報から抽出された５要素の情報および述語情報に基づいて、前記５要素の情報および述語情報を再構成することを特徴とする請求項７に記載の情報抽出装置。
入力手段から入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析ステップと、
前記言語解析ステップによって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の５要素の情報および述語情報を抽出する要素抽出ステップと、
を有することを特徴とする情報抽出方法。
前記要素抽出ステップは、前記テキスト情報と抽出した前記５要素の情報および述語情報を関連付けて記憶手段に記憶する記憶ステップを有し、
該テキスト情報と該５要素の情報および述語情報とを関連付けて表示手段に表示する表示ステップをさらに有することを特徴とする請求項１１に記載の情報抽出方法。
文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか１つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記５要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶手段に記憶する知識辞書記憶ステップをさらに有し、
前記要素抽出ステップは、前記知識辞書を使用して前記テキスト情報から前記５要素の情報および述語情報を抽出することを特徴とする請求項１１又は１２に記載の情報抽出方法。
前記関係情報が範囲に関連する情報であることを特徴とする請求項１３に記載の情報抽出方法。
前記文書情報に付随する文書属性情報を補完情報として取得する第１の補完情報取得ステップをさらに有し、
前記要素抽出ステップは、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第１の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする請求項１１から１４のいずれか１項に記載の情報抽出方法。
前記文書情報の他のテキスト情報を補完情報として取得する第２の補完情報取得ステップをさらに有し、
前記要素抽出ステップは、前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第２の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする請求項１１から１５のいずれか１項に記載の情報抽出方法。
他の文書情報の周辺情報及び前記５要素情報および述語情報を補完情報として取得する第３の補完情報取得ステップと、
前記文書情報間の関係を特定する文書関係特定ステップと、
前記５要素の情報および述語情報を再構成する要素再構成ステップと、をさらに有し、
前記要素抽出ステップは、前記言語解析ステップによって解析された統語構造を用いて特定した前記テキスト情報からの前記５要素の情報および述語情報の抽出を、前記第３の補完情報取得ステップによって取得した前記補完情報により補完し、
前記要素再構成ステップは、前記文書関係特定ステップによって特定された文書間の関係に基づいて、前記要素抽出ステップによって抽出した前記５要素の情報および述語情報を再構成することを特徴とする請求項１１から１６のいずれか１項に記載の情報抽出方法。
前記要素再構成ステップは、前記第３の補完情報取得ステップにより取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする請求項１７に記載の情報抽出方法。
前記要素再構成ステップは、前記第３の補完情報取得ステップにより取得する補完情報同士、および前記５要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記５要素の情報および述語情報の中からそれぞれ１つ選択して、前記５要素の情報および述語情報を再構成することを特徴とする請求項１７に記載の情報抽出方法。
前記要素再構成ステップはさらに、前記文書関係特定ステップによって関係が特定された他の文書情報から抽出された５要素の情報および述語情報に基づいて、前記５要素の情報および述語情報を再構成することを特徴とする請求項１７に記載の情報抽出方法。