JP2007287134A - 情報抽出装置、及び情報抽出方法 - Google Patents

情報抽出装置、及び情報抽出方法 Download PDF

Info

Publication number
JP2007287134A
JP2007287134A JP2007038235A JP2007038235A JP2007287134A JP 2007287134 A JP2007287134 A JP 2007287134A JP 2007038235 A JP2007038235 A JP 2007038235A JP 2007038235 A JP2007038235 A JP 2007038235A JP 2007287134 A JP2007287134 A JP 2007287134A
Authority
JP
Japan
Prior art keywords
information
document
predicate
extraction
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007038235A
Other languages
English (en)
Inventor
Nahoko Sato
奈穂子 佐藤
Tetsuo Nagatsuka
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007038235A priority Critical patent/JP2007287134A/ja
Priority to US11/687,852 priority patent/US20070233465A1/en
Publication of JP2007287134A publication Critical patent/JP2007287134A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザによるキーワード入力などの煩雑な操作なしに、文書のテキスト部分を、時期、場所、主体、対象、態様の5要素の情報および述語情報として抽出できる情報抽出装置、及び情報抽出方法を提供する。
【解決手段】情報抽出装置10は、言語解析部12、要素抽出部13、および補完情報取得部14を備える。言語解析部12は、入力する文書情報からテキスト部分を言語解析する。補完情報取得部14は、文書に付随するプロパティなどの付随情報を取得する。要素抽出部13は、言語解析された結果に対して、取得された付随情報を補完し、テキスト情報中の時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出する。
【選択図】 図1

Description

本発明は、情報を抽出する情報抽出装置、及び情報抽出方法に関し、特に、テキスト情報から時期、場所、主体、対象、態様を示す5要素情報および述語情報を精度良く抽出できる情報抽出装置、及び情報抽出方法に関する。
現在、大量の電子化文書データが流通するようになり、収集・蓄積された文書の簡便な管理、再利用の方法のニーズが高まってきている。情報の再利用のために、文書検索、文書分類など、文書の分析技術が提案されている。文書の分析の際には、文書から有用な情報を効率よく抽出し、活用しやすい形態で記憶、出力させる情報抽出技術が必要である。
現在、情報抽出技術として最も広く知られているのが、文書を特徴づける単語であるキーワードを抽出する方法である。例えば文書中の単語の頻度を計量し、頻度を単語の「重み」に換算して自動的にキーワードを同定、抽出する方法が考案されている(特許文献1)。
また、対象文書を係り受け解析して、その結果を構文木(ツリー)や線形リストの形式で記憶し、単語と位置関係の頻出パターンを有用情報として自動抽出する方法が提案されている(特許文献2)。
また、人名や企業名特定の表現パターンを予め登録しておき、パターンマッチングでそれらの情報を抽出する方法も提案されている(特許文献3)。
また、複数の文書から所定の抽出パターンを用いて人物の業績を記述したイベント情報を抽出し、該当人物の業績を整理して出力する技術も提案されている(特許文献4)。
特開平08−30627号公報 特開2001−84250号公報 特開2001−75959号公報 特開2004−355404号公報
しかしながら、特許文献1および2の技術では、表層情報の頻出情報を用いた情報抽出方法であるので、テキスト中の高頻度情報からテキストの内容を類推することができるのであるが、日付や期間、場所などイベント付随の情報は同一テキスト中に高頻度で出現することが少ないため、取得が困難であるという問題があった。
また、特許文献3および4の技術では、パターンマッチングの方法を用いた情報抽出方法であるので、イベント付随の表現パターンを予め登録しておいた場合は、パターンマッチングで様々なバリエーションの表現抽出に対応できるが、しかしながら、登録パターンに合致しなければ抽出が困難であるという問題があった。
本発明は、上記の問題に鑑みてなされその目的は、ユーザによるキーワード入力などの煩雑な操作なしに、文書のテキスト部分を時期、場所、主体、対象、態様の5要素情報および述語情報として抽出できる情報抽出装置、及び情報抽出方法を提供することである。ここで、5要素情報は、簡略に4W1Hと称する情報のことである。
また、その目的は、ユーザによるキーワードの入力などの煩雑な操作なしに、複数の文書間の関係を判別して、複数の文書のテキスト部分から4W1Hおよび述語情報を抽出できる情報抽出装置、及び情報抽出方法を提供することである。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、情報抽出装置において、入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析手段と、前記言語解析手段によって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出する要素抽出手段と、を備えたことを特徴とする。
また、請求項2記載の発明は、請求項1に記載の情報抽出装置において、前記要素抽出手段は、前記テキスト情報と抽出した前記5要素の情報および述語情報を関連付けて記憶する記憶手段を備え、該テキスト情報と該5要素の情報および述語情報とを関連付けて表示する表示手段をさらに備えたことを特徴とする。
また、請求項3記載の発明は、請求項1又は2に記載の情報抽出装置において、文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか1つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記5要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶する知識辞書記憶手段をさらに備え、前記要素抽出手段は、前記知識辞書を使用して前記テキスト情報から前記5要素の情報および述語情報を抽出することを特徴とする。
また、請求項4記載の発明は、請求項3に記載の情報抽出装置において、前記関係情報が範囲に関連する情報であることを特徴とする。
また、請求項5記載の発明は、請求項1から4のいずれか1項に記載の情報抽出装置において、前記文書情報に付随する文書属性情報を補完情報として取得する第1の補完情報取得手段を、さらに備え、前記要素抽出手段は、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第1の補完情報取得手段により取得した前記補完情報により補完することを特徴とする。
また、請求項6記載の発明は、請求項1から5のいずれか1項に記載の情報抽出装置において、前記文書情報の他のテキスト情報を補完情報として取得する第2の補完情報取得手段を、さらに備え、前記要素抽出手段は、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第2の補完情報取得手段により取得した前記補完情報により補完することを特徴とする。
また、請求項7記載の発明は、請求項1から6のいずれか1項に記載の情報抽出装置において、他の文書情報の周辺情報及び前記5要素情報および述語情報を補完情報として取得する第3の補完情報取得手段と、前記文書情報間の関係を特定する文書関係特定手段と、前記5要素の情報および述語情報を再構成する要素再構成手段と、をさらに備え、前記要素抽出手段は、前記言語解析手段によって解析された統語構造を用いて特定した前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第3の補完情報取得手段によって取得した前記補完情報により補完し、前記要素再構成手段は、前記文書関係特定手段によって特定された文書間の関係に基づいて、前記要素抽出手段によって抽出した前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項8記載の発明は、請求項7に記載の情報抽出装置において、前記要素再構成手段は、前記第3の補完情報取得手段により取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項9記載の発明は、請求項7に記載の情報抽出装置において、前記要素再構成手段は、前記第3の補完情報取得手段により取得する補完情報同士、および前記5要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記5要素の情報および述語情報の中からそれぞれ1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項10記載の発明は、請求項7に記載の情報抽出装置において、前記要素再構成手段はさらに、前記文書関係特定手段によって関係が特定された他の文書情報から抽出された5要素の情報および述語情報に基づいて、前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項11記載の発明は、情報抽出方法において、入力手段から入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析ステップと、前記言語解析ステップによって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出する要素抽出ステップと、を有することを特徴とする。
また、請求項12記載の発明は、請求項11に記載の情報抽出方法において、前記要素抽出ステップは、前記テキスト情報と抽出した前記5要素の情報および述語情報を関連付けて記憶手段に記憶する記憶ステップを有し、該テキスト情報と該5要素の情報および述語情報とを関連付けて表示手段に表示する表示ステップをさらに有することを特徴とする。
また、請求項13記載の発明は、請求項11又は12に記載の情報抽出方法において、文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか1つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記5要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶手段に記憶する知識辞書記憶ステップをさらに有し、前記要素抽出ステップは、前記知識辞書を使用して前記テキスト情報から前記5要素の情報および述語情報を抽出することを特徴とする。
また、請求項14記載の発明は、請求項13に記載の情報抽出方法において、前記関係情報が範囲に関連する情報であることを特徴とする。
また、請求項15記載の発明は、請求項11から14のいずれか1項に記載の情報抽出方法において、前記文書情報に付随する文書属性情報を補完情報として取得する第1の補完情報取得ステップをさらに有し、前記要素抽出ステップは、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第1の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする。
また、請求項16記載の発明は、請求項11から15のいずれか1項に記載の情報抽出方法において、前記文書情報の他のテキスト情報を補完情報として取得する第2の補完情報取得ステップをさらに有し、前記要素抽出ステップは、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第2の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする。
また、請求項17記載の発明は、請求項11から16のいずれか1項に記載の情報抽出方法において、他の文書情報の周辺情報及び前記5要素情報および述語情報を補完情報として取得する第3の補完情報取得ステップと、前記文書情報間の関係を特定する文書関係特定ステップと、前記5要素の情報および述語情報を再構成する要素再構成ステップと、をさらに有し、前記要素抽出ステップは、前記言語解析ステップによって解析された統語構造を用いて特定した前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第3の補完情報取得ステップによって取得した前記補完情報により補完し、前記要素再構成ステップは、前記文書関係特定ステップによって特定された文書間の関係に基づいて、前記要素抽出ステップによって抽出した前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項18記載の発明は、請求項17に記載の情報抽出方法において、前記要素再構成ステップは、前記第3の補完情報取得ステップにより取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項19記載の発明は、請求項17に記載の情報抽出方法において、前記要素再構成ステップは、前記第3の補完情報取得ステップにより取得する補完情報同士、および前記5要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記5要素の情報および述語情報の中からそれぞれ1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする。
また、請求項20記載の発明は、請求項17に記載の情報抽出方法において、前記要素再構成ステップはさらに、前記文書関係特定ステップによって関係が特定された他の文書情報から抽出された5要素の情報および述語情報に基づいて、前記5要素の情報および述語情報を再構成することを特徴とする。
本発明によれば、入力する文書情報におけるテキスト情報の統語構造を解析し、解析した統語構造を用いてテキスト情報中の時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出するので、ユーザがキーワードを入力したり、予め情報抽出定義を設定することなく、テキスト中の各トピックの関連情報を、4W1Hプラス述語情報として精度よく抽出することができる。
また、本発明によれば、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から4W1Hプラス述語情報を再構成することにより、複数の文書情報群で構成されるテキスト中におけるスケジュール情報などのイベント付随の情報を高速に抽出することができる。
以下に添付図面を参照して、この発明にかかる情報抽出装置、及び情報抽出方法の最良な実施の形態を実施の形態1〜4に沿って詳細に説明する。
(1.実施の形態1)
(1.1.全体構成)
実施の形態1による情報抽出装置10は、入力する文書情報からテキスト部分を言語解析して、時期、場所、主体、対象、態様の5要素の情報、即ち、4W1H情報に述語を加えた情報を抽出する際に、文書に付随するプロパティなどの付随情報を取得して4W1H情報を補完する。このように付随情報を取得してテキスト部分からの情報を補完することによって、テキスト部分のみから抽出できる4W1Hおよび述語情報よりも、より正確な4W1Hおよび述語情報を抽出することができる。4W1Hおよび述語情報は、文章として生成する文章情報、あるいはグラフとして表示する表示情報に使用できる。以下の説明では、時期、場所、主体、対象、態様の5要素情報および述語情報を、簡略に4W1Hプラス述語情報と称する。
図1は、実施の形態1による情報抽出装置10の機能的ブロック図である。情報抽出装置10は、入力する文書情報に対して、言語解析処理、要素抽出処理、および補完情報処理を施して、文書情報に含まれる4W1Hプラス述語情報を抽出する。
実施の形態1による情報抽出装置10は、文書登録部11、言語解析部12、要素抽出部13、補完情報取得部14、辞書15、記憶部16、表示制御部17、モニタ18、および入出力部19を備える。
ここで、言語解析部12は、形態素解析部12aおよび係り受け解析部12bを有する。また、辞書15は、言語解析辞書15aおよび知識辞書15bを有する。また、記憶部16は、文書記憶部16a、言語情報記憶部16b、および抽出情報記憶部16cを有する。
文書登録部11は、入出力部19から受信する文書情報に対して、要素抽出処理の開始指示を受信すると、文書情報に対して文書登録処理を施して、登録した情報抽出対象文書を順に文書記憶部16aに記憶する。
言語解析部12は、文書記憶部16aに記憶された文書情報のテキスト部分に対して、一文書毎に言語解析処理を施す。言語解析の際には言語解析辞書15aを参照する。言語解析処理については、形態素解析部12aが形態素解析処理を施し、係り受け解析部12bが係り受け解析処理を施す。以下、ここでの処理は、文書情報のうちテキスト部分を扱うので、簡単にテキストと記述する。
形態素解析部12aは、テキストを単語毎に区切り、品詞など、各単語の属性を付加する形態素解析処理を施す。形態素解析部12aが行う形態素解析については、「日本語情報処理」第4章「形態素解析」に説明されているように、最長一致法、コスト最小法、用例検索法などの既存の手法を適用する。
係り受け解析部12bは、一つの自立語、あるいは一つの自立語に一つ以上の付属語がついた形式の文節を生成し、文節と文節がどのような関係にあるかを同定する係り受け解析処理を施す。
係り受け解析部12bは、例えば、「私が食べた林檎。」という文では、体言性文節「私が」は、用言性文節「食べた」と文法的に係り受け関係にあり、用言性文節を修飾していることから、その係り受け関係名は「ガ格連用修飾関係」であると同定する。
また、係り受け解析部12bは、用言性文節「食べた」は、体言性文節「林檎。」と文法的に係り受け関係にあり、体言性文節を修飾していることから、この係り受け関係名は「連体修飾関係」であると同定する。係り受け解析部12bの係り受け解析処理については「日本語情報処理」第5章「構文解析」に記載されている方法など、既存の手法を用いる。
係り受け解析部12bは、一文書の言語情報取得処理が終了すると、結果を順に言語情報記憶部16bに記憶する。係り受け解析部12bは、登録文書全部の言語情報取得処理を終えると、次に、記憶された言語情報に対し、要素抽出部13が、要素抽出処理を実行する。
要素抽出部13は、一文書の一文毎に、時期、場所、主体、対象、態様に対応する4W1H(When=いつ、Where=どこ−で、Who=誰−が、What=何−を、How=(どのくらい・どうやって))+述語を特定する情報を、即ち4W1Hプラス述語情報を抽出する。ここで、4W1Hプラス述語情報は、もともとのテキストに由来して、完全に4W1Hおよび述語全ての情報が取得できるとは限らない。
要素抽出部13の施す情報抽出には、文法特性を利用した知識を記述した知識辞書15bを使う。要素抽出部13が、一文の抽出を終えると、抽出した要素を言語情報由来の関係情報と共に、抽出情報記憶部16cに記憶する。そして、要素抽出部13は、次の文の言語情報から、同様に要素抽出処理と記憶を実行する。
要素抽出部13が、一文書の内容情報のテキスト部分全文に対して要素抽出処理と記憶が終了すると、次の文書の内容情報のテキスト部分の先頭文から、同様の要素抽出処理と記憶を実行する。
表示制御部17は、すべての登録文書に対して要素抽出処理と記憶が終了し、出力指示を受信した場合、記憶された抽出情報をモニタ18上で表示する。要素抽出部13は、終了指示があれば、要素抽出処理を終了する。
図2は、知識辞書15bの記載の一例を説明する図である。知識辞書15bは、文節に属する単語の特定の品詞情報及び特定の品詞情報の組み合わせの少なくともいずれか1つと、該文節の係り先と係り受けとの関係情報と、該関係情報が4W1H(When=いつ、Where=どこ−で、Who=誰−が、What=何−を、How=(どのくらい・どうやって))のいずれに該当するかを示す意味解釈と、を記載した辞書である。図2に示したように、特定の品詞情報が複数ある場合や、この組み合わせに対し、正規表現による記述形式を採ることで簡潔な記述が可能である。また、辞書の構成要素として、4W1Hの意味解釈に、更なる意味属性を付与しても良い。図2では「範囲起点」「範囲終点」「範囲」など、When情報、Where情報に、詳細な意味属性を与えている。
図3は、要素抽出部13による4W1Hプラス述語情報抽出の一例を説明する図である。4W1Hプラス述語情報抽出の一例として、「標記の展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」というテキスト例から、述語と、直接係り受け関係がある文節、文節属性、および係り受け関係を抽出する。
補完情報取得部14は、文書に付随する文書属性情報を取得し、取得された文書属性情報に基づいて、4W1Hプラス述語情報の抽出を補完する。文書属性情報とは、文書の中で直接記述されている内容情報以外の文書の周辺情報である。
図4は、補完情報取得部14が、文書属性情報から4W1Hプラス述語情報抽出を補完する一例を説明する図である。図5は、文書の定義を説明する図である。
ここで文書は、文書内容情報と文書属性情報とから構成される。文書内容情報とは、記述される文書内容に直接的に含まれる部分であり、例えばテキスト部分401(図4)、画像部分、図表部分を含む。文書属性情報とは、文書が作成された際に、利用アプリケーションが自動的に付加する属性情報であって、例えば文書プロパティ402(図4)の情報などであり、書誌的な情報が代表例である。また、図5では、文書500は、文書内容情報501、文書属性情報502および503を含む。
例えばあるソフトウェア商品の文書プロパティとしては以下の情報が含まれている。{ファイル名、現在のフォルダ名、テンプレート、表題、副題、作成者、キーワード、説明、作成日時、変更回数、最終保存日時、最終保存者}
また、メール文書の場合であれば、文書内容情報は、メールの本文501である。補完情報取得部14が、文書属性情報として、送信者情報、送信経路情報、および利用メールソフト情報などが記載されるヘッダ502やフッダを取得する。取得が可能であれば、利用アプリケーション情報、作成場所情報、作成機器情報など、対象文書の内容以外に関係する情報を文書属性情報として扱う。
図4に示した文書プロパティ402は、文書登録の際に自動的に付加されたものであり、文書属性情報として利用する。この例では、補完情報取得部14は、テキスト中の「来月」「年末」の具体的な日時を、文書プロパティ402の作成日時、最終保存日時から算出し、補完情報として取得する。その他、機器情報、アプリケーション情報、場所情報などが取得可能であれば、情報補完のための文書属性情報として利用する。抽出例403は、補完情報取得部14によって、テキスト部分401に対して、文書プロパティ402の情報によって補完されて抽出された一例である。
図6は、補完情報取得部14が、テキストの他の箇所からの情報を抽出して補完する一例を説明する図である。テキストの最初の文と2番目の文からは、開催起点の10月と11月しか抽出できない。しかし、その後の文中のマデ格修飾文節を利用して、最初の文と2文目の抽出情報に、範囲終点の補完情報を加えることが可能である。
図7は、補完情報取得部14が、テキストの他の箇所および文書プロパティから情報を抽出して補完した一例を説明する図である。テキスト部分701における該当文701aから抽出例703が抽出され、さらにテキストの他の箇所701b、および文書プロパティ702から、時間的な範囲の情報がさらに詳細に取得されることを示している。即ち、来月として10月、年末として12月31日という情報が取得されている。
図8は、図3、図4、図6、および図7における抽出処理を施したデータの出力例を示す図である。図3の抽出データの出力例801、図4の抽出データの出力例802、図6の抽出データの出力例803、および図7の抽出データの出力例804を示している。
(1.2.言語解析処理)
実施の形態1による情報抽出装置10の言語解析処理について、図2、図3、および図8を参照しながら説明する。この情報抽出装置10が起動され、文書登録部11は、図3のように「標記の展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」という文を含むテキストを登録したとする。この情報抽出装置10は、文書記憶部16aが登録文書を記憶し、言語解析部12が言語解析処理を施す。
(形態素解析処理)
言語解析部12では、文書の先頭から1文を取り出し、形態素解析部12aが、言語解析辞書15aを参照して形態素解析処理を行う。以下に、形態素解析部12aによる形態素解析処理結果の一例を示す。文書を構成する単語の表記と品詞を対で記憶する。この場合、その他の単語属性が付帯情報として表現されても良い。
(標記 名詞)
(の 格助詞ノ)
(展示 名詞)
(会 接辞:集団)
(は 副助詞)
(10 数詞)
(月 接辞:日付)
(から 格助詞カラ)
(本社 名詞)
(ビル 名詞:場所)
(で 格助詞デ)
(11 数詞)
(月 接辞:日付)
(から 格助詞カラ)
(銀座 固有名詞:場所)
(ショールーム 名詞:場所)
(で 格助詞デ)
(年末 時節名詞)
(まで 格助詞マデ)
(開催 サ変名詞)
(さ 補助動詞)
(れ 助動詞)
(ます 助動詞)
(。 句点)
(係り受け解析処理)
次に、形態素解析結果に基づき、係り受け解析部12bは、言語解析辞書15aを参照して係り受け解析処理を行う。実施例1における例文の係り受け解析処理結果の一例は以下のようになる。
文節番号 文節表記 属性 係り受け関係 係り先
0 標記・の 名詞 ノ連体修飾 1
1 展示・会・は 名詞+集団接辞 提題連用修飾 7
2 10・月・から 数詞+日付接辞 カラ格連用修飾 7
3 本社・ビル・で 名詞:場所 デ格連用修飾 7
4 11・月・から 数詞+日付接辞 カラ格連用修飾 7
5 銀座・ショールーム・で
固有名詞:場所 デ格連用修飾 7
6 年末・まで 時節名詞 マデ格連用修飾 7
7 開催・さ・れ・ます・。
サ変名詞+補助動詞+助動詞+句点 文末-1
1文の係り受け解析処理が終了すると、言語解析結果を言語情報記憶部16bに格納する。
登録テキストに次の文がある場合は、形態素解析処理の最初に戻り、次の文を対象に、形態素解析と係り受け解析を実施する。この操作をテキスト中の文がなくなるまで行い、全文の言語解析処理を終了すると、要素抽出部15による要素抽出処理に進む。
(要素抽出処理)
(1)要素抽出部13は、言語情報記憶部16bから、先頭の1文分の言語解析処理結果を取り出し、最後尾の文節から、述語と定義される用言、もしくは体言止文末文節を検索する。最後尾の文節は文節番号[7]の文節である。
(2)文節番号[7]から述語「開催されます」を発見する。
(3)「開催されます。」の表記を一時記憶する。
(4)次に、文節番号[7]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(5)文節番号[6]の係り先文節番号が[7]であることから、文節番号[6]の文節が述語「開催されます」を直接連用修飾していることがわかり、「年末まで」の表記と属性「時節名詞」と、係り受け関係「マデ格連用修飾」を記憶する。
(6)さらに、文節番号[6]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(7)文節番号[5]の係り先文節番号が[7]であることから、文節番号[5]の文節が述語「開催されます」を直接連用修飾していることがわかり、「銀座ショールームで」の表記と属性「固有名詞:場所」と、係り受け関係「デ格連用修飾」を記憶する。
(8)さらに、文節番号[5]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(9)文節番号[4]の係り先文節番号が[7]であることから、文節番号[4]の文節が述語「開催されます」を直接連用修飾していることがわかり、「11月から」の表記と属性「数詞+日付接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
(10)さらに、文節番号[4]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(11)文節番号[3]の係り先文節番号が[7]であることから、文節番号[3]の文節が述語「開催されます」を直接連用修飾していることがわかり、「本社ビルで」の表記と属性「名詞:場所」と、係り受け関係「デ格連用修飾」を記憶する。
(12)さらに、文節番号[3]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(13)文節番号[2]の係り先文節番号が[7]であることから、文節番号[2]の文節が述語「開催されます」を直接連用修飾していることがわかり、「10月から」の表記と属性「数詞+日付接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
(14)さらに、文節番号[2]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(15)文節番号[1]の係り先文節番号が[7]であることから、文節番号[1]の文節が述語「開催されます」を直接連用修飾していることがわかり、「展示会は」の表記と属性「名詞+集団接辞」と、係り受け関係「カラ格連用修飾」を記憶する。
(16)さらに、文節番号[1]から、先頭文節に向かって順に文節番号[7]を直接連用修飾している文節を検索する。
(17)文節番号[0]の係り先文節番号が[1]であることから、文節番号[0]の文節は述語「開催されます」を直接連用修飾していないことがわかり、述語を直接連用修飾していない文節は抽出対象外であるため、文節「標記の」は記憶しない。
(18)先頭文節まで検索し終わったら、次に文節番号[7]が直接連体修飾している文節を文末文節に向かって検索する。
(19)ないので、述語「開催されます。」の関連文節要素の抽出を終了する。
(20)文節番号[6]から述語と定義される用言もしくは体言止文末文節を検索する。
(21)述語が検出されなかったので、例文中の述語の抽出を終了する。抽出結果は、図3の情報抽出例のようになる。
(22)次に、抽出され一時記憶された情報と、図2の知識辞書15bを照合し、知識辞書15bに合致する情報があれば、それぞれ4W1H情報を特定する。
知識辞書15bの
「(名詞+集団接辞) (提題修飾|ガ格修飾)→ What」
という記述より、「展示会は」は「What」であると特定する。
「(時節名詞|数詞+日付接辞) カラ格修飾 → When*範囲起点」
「(時節名詞|数詞+日付接辞) マデ格修飾 → When*範囲終点」
「When*範囲起点 とWhen*範囲終点が同じ述語に係る → When*範囲」という記述より、
「10月から年末まで」が「When*範囲」であると特定する。
また、「11月から年末まで」が「When*範囲」であると特定する。
「(名詞:場所|固有名詞:場所|名詞+場所接辞|固有名詞+場所接辞|名詞+集団接辞) デ格修飾 → Where」という記述より、
「本社ビル」「銀座ショールーム」は「Where」であると特定する。これらを4W1Hの単位で抽出情報記憶部16cで記憶する。
(23)上記のようにテキストの全文に対し、述語と関連文節要素の抽出と、4W1Hの特定と、記憶を繰り返す。
(24)テキスト全文に対して情報抽出が終わると、出力指示があれば出力処理を実施する。この例の図3のテキストの抽出データの出力例を図8の出力例801に示す。
(1.3.補間処理)
図2、図6、図8を参照しながら、情報を他のテキスト部分から補完する例を説明する。情報抽出装置10が起動され、図6のように「展示会は10月から本社ビルで開催されます。11月からは銀座ショールームでも開催されます。・・・(中略)・・・会期は12月までとなっております。」という文を含むテキストが登録されたとする。情報抽出装置10は、文書記憶部16aで登録文書を記憶し、言語解析処理に進む。
言語解析処理は、実施例1と同様の処理を施す。言語解析処理が終わると、実施例1の要素抽出処理と同様に、(1)〜(24)の記載と同様の処理を施し、図6の情報抽出例を得て、4W1H情報を特定し、記憶する。
(情報補完処理例)
(1)テキスト中の各文に対し、先頭から4W1Hのすべての情報が取得できたかどうかを検査する。図8のテキストの先頭の文は、「What{展示会}」「When*範囲起点{10月}」「Where{本社ビル}」が取得できている。
(2)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。さらに、「When*範囲起点」があるが、「When*範囲終点」が同文中にないことも認識する。
(3)4W1H情報で欠けている情報があれば、次の文から順に補完できる情報を探す。この例では次文にも「Who」「How」「When*範囲終点」がない。
(4)次の文を検査し、補完情報を探す、を繰り返す。
(5)最後の文「会期は12月までとなっております。」には、「When*範囲終点{12月}」があることがわかり、この情報を先頭の文の抽出情報へ、補完情報として付け加える。
(6)補完情報を得て図2に示した知識辞書15bを再読み込みする。
(7)When*範囲起点とWhen*範囲終点が存在するため、「When*範囲{10月から12月まで}」が得られる。
(8)次に図6の2番目の文に対し、4W1Hのすべての情報が取得できたかどうかを検査する。図9のテキストの2番目の文は、「What{展示会}」「When*範囲起点{11月}」「Where{銀座ショールーム}」が取得できている。
(9)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。さらに、「When*範囲起点」があるが、「When*範囲終点」が同文中にないことも認識する。
(10)4W1H情報で欠けている情報があるので、次の文から順に補完できる情報を探す。
(11)次の文を検査し、補完情報を探す、を繰り返す。
(12)この例の最後の文「会期は12月までとなっております。」には、「When*範囲終点{12月}」があることがわかり、この情報を2番目の文の抽出情報へ、補完情報として付け加える。
(13)補完情報を得て図2の知識辞書15bを再読み込みする。
(14)When*範囲起点とWhen*範囲終点が存在するため、「When*範囲{11月から12月まで}」が得られる。
(15)このようにしてテキスト中の各文に対し、4W1H情報で欠けている情報を認識し、次の文から最後の文まで補完情報の有無を検査し、見つけたら情報を補完し、知識辞書15bを再読み込みして4W1H情報を再特定することを繰り返す。
(16)最後の文に対し、4W1Hのすべての情報が取得できたかどうかを検査する。図6のテキストの最後の文は、「What{会期}」「When*範囲終点{12月}」が取得できている。
(17)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「Where」「How」情報がないことを認識する。さらに、「When*範囲終点」があるが、「When*範囲起点」が同文中にないことも認識する。
(18)4W1H情報で欠けている情報があるので、次の文から補完情報を探しにいく。
(19)次の文がないため、情報補完処理を終了する。
(20)テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図6のテキストの抽出データの出力例を図8の出力例903に示す。
さらに、他の実施例として、図2、図4、図8を使って、4W1H情報を文書属性情報から補完する例を説明する。
この情報抽出装置10を起動すると、図4のように「展示会は来月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」という文を含むテキストが登録されたとする。情報抽出装置10は、文書記憶部16aで登録文書を記憶し、言語解析処理に進む。言語解析処理は、実施例1と同様の処理を施す。言語解析処理が終わると、実施例1の要素抽出処理と同様に(1)〜(24)において説明した処理と同様の処理を実施し、図4の情報抽出例を得て、4W1H情報を特定し、記憶する。
(1)テキスト中の各文に対し、先頭から4W1Hのすべての情報が取得できたかどうかを検査する。
(2)図4のテキストは、「What{展示会}」「When*範囲起点{来月}」「Where{本社ビル}」「When*範囲起点{11月}」「Where{銀座ショールーム}」「When*範囲終点{年末}」が特定でき、これらを4W1Hの単位で抽出情報記憶部16cで記憶している。
(3)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。
(4)次に、ここでは図4の文書プロパティを文書属性情報として以下を取得する。
ファイル名:開催案内
フォルダ名:展示会関係
表題:展示会開催案内
作成者:理光太郎
作成日時:2005.9.15 14:35
最終保存日時: 2005.9.17 09:35
(5)文書属性情報は、テキストの内容に関する情報はないため、「Who」「How」情報は取得できない。
(6)しかし、作成日時と最終保存日時が取得でき、この情報を、When情報と比較する。本例でのWhen情報は「When*範囲起点{来月}」「When*範囲起点{11月}」「When*範囲終点{年末}」である。
(7)まず、「When*範囲起点{来月}」は、本例のテキスト作成時の「2005.9.15 14:35」を起点とした「来月」であると想定し、作成日時の月情報「9月」を加算し、「10月」とする。年は変わらず、日と時間は不明のため、「2005.10」を補完する。
(8)次に、「When*範囲起点{11月}」は、具体的な月が明記されているため、情報補完対象外であるとする。
(9)次に「When*範囲終点{年末}」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「2005」を取得し、年末は12月31日であると特定できるため、具体的な日時として「2005.12.31」を補完する。
(10)抽出情報を、補完情報で置き換え、抽出4W1Hプラス述語情報を「What{展示会}」「When*範囲起点{2005.10}」「Where{本社ビル}」「When*範囲起点{11月}」「Where{銀座ショールーム}」「When*範囲終点{2005.12.31}」と特定する。
(11)テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図4のテキストの抽出データの出力例を図8における出力例802に示す。
他の情報補完実施例として、図2、図7、および図8を参照しながら、他のテキスト部分と、文書属性情報を併用して情報補完する例を挙げる。本発明の情報抽出装置10を内蔵した情報抽出装置10が起動され、図7のように「展示会は来月から本社ビルで、11月から銀座ショールームで開催されます。・・・(中略)・・・会期は年末までとなっております。」という文を含むテキストが登録されたとする。この情報抽出装置10は、文書記憶部16aで登録文書を記憶し、言語解析処理に進む。言語解析処理は、実施例1で施したと同様の処理を施す。言語解析処理が終わると、実施例1の要素抽出処理と同様に(1)〜(24)に説明したと同様の処理を施し、図7の情報抽出例を得て、4W1H情報を特定し、記憶する。
(情報補完処理)
(1)テキスト中の各文に対し、先頭から4W1Hのすべての情報が取得できたかどうかを検査する。
(2)図7のテキストは、「What{展示会}」「When*範囲起点{来月}」「Where{本社ビル}」「When*範囲起点{11月}」「Where{銀座ショールーム}」が特定でき、これらを4W1Hの単位で抽出情報記憶部16cで記憶している。
(3)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。さらに、「When*範囲起点」があるが、「When*範囲終点」が同文中にないことも認識する。4W1H情報で欠けている情報があれば、次の文から順に補完できる情報を探す。この例では次文にも「Who」「How」「When*範囲終点」がない。
(4)次の文を検査し、補完情報を探す、を繰り返す。
(5)最後の文「会期は年末までとなっております。」には、「When*範囲終点{年末}」があることがわかり、この情報を先頭の文の抽出情報へ、補完情報として付け加える。
(6)補完情報を得て図2に示した知識辞書15bを再読み込みする。
(7)When*範囲起点とWhen*範囲終点が存在するため、「When*範囲{来月から年末まで}」「When*範囲{11月から年末まで}」が得られる。
(8)このようにしてテキスト中の各文に対し、4W1H情報で欠けている情報を認識し、次の文から最後の文まで補完情報の有無を検査し、見つけた場合、情報を補完し、知識辞書15bを再読み込みして4W1H情報を再特定することを繰り返す。
(9)最後の文に対し、4W1Hのすべての情報が取得できたかどうかを検査する。図7のテキストの最後の文は、「What{会期}」「When*範囲終点{年末}」が取得できている。
(10)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「Where」「How」情報がないことを認識する。さらに、「When*範囲終点」があるが、「When*範囲起点」が同文中にないことも認識する。
(11)4W1H情報で欠けている情報があるので、次の文から補完情報を探しにいく。
(12)次の文がないため、情報補完処理を終了する。
(13)次に、ここでは図7の文書プロパティ702を文書属性情報として以下を取得する。
ファイル名:開催案内
フォルダ名:展示会関係
表題:展示会開催案内
作成者:理光太郎
作成日時:2005.9.15 14:35
最終保存日時: 2005.9.17 09:35
(14)文書属性情報は、テキストの内容に関する情報はないため、「Who」「How」情報は取得できない。
(15)しかし、作成日時と最終保存日時が取得でき、この情報を、When情報と比較する。本例でのWhen情報は「When*範囲起点{来月}」「When*範囲起点{11月}」「When*範囲終点{年末}」である。
(16)まず、「When*範囲起点{来月}」は、本例のテキスト作成時の「2005.9.15 14:35」を起点とした「来月」であると想定し、作成日時の月情報「9月」を加算し、「10月」とする。年は変わらず、日と時間は不明のため、「2005.10」を補完する。
(17)次に、「When*範囲起点{11月}」は、具体的な月が明記されているため、情報補完対象外であるとする。
(18)次に「When*範囲終点{年末}」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「2005」を取得し、年末は12月31日であると特定できるため、具体的な日時として「2005.12.31」を補完する。
(19)抽出情報を、補完情報で置き換え、抽出4W1Hプラス述語情報を「What{展示会}」「When*範囲{2005.10から2005.12.31まで}」「Where{本社ビル}」「When*範囲{11月から2005.12.31まで}」「Where{銀座ショールーム}」と特定する。
(20)次の述語「なっております」に関係する抽出情報「What{会期}」「When*範囲終点{年末}」についても、文書属性情報と比較し、「When*範囲終点{年末}」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「2005」を取得し、年末は12月31日である特定できるため、具体的な日時として「2005.12.31」を補完する。
(21)抽出情報を、補完情報で置き換え、抽出4W1Hプラス述語情報を「What{会期}」「When*範囲終点{12.31まで}」と特定する。
(22)テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図4のテキストの抽出データの出力例を図8の出力例804に示す。
(1.4.実施の形態1による要素抽出手順)
図9は、実施の形態1による4W1Hプラス述語情報抽出手順を説明するフローチャートである。ここでは、4W1Hプラス述語情報抽出の全体的な手順を示している。以下、4W1Hプラス述語情報抽出を、簡略に、要素情報抽出、あるいは要素抽出と記載することもある。
文書登録部11は、4W1Hプラス述語情報抽出命令を受信して、文書情報を登録し、文書記憶部16aに記憶させる(ステップS101)。言語解析部12は、文書記憶部16aに記憶された文書に対して、言語解析処理を施す(ステップS102)。言語解析処理手順については後述する。
要素抽出部13は、言語解析処理を施された文書に対して、要素抽出処理を施す(ステップS103)。要素抽出処理手順については後述する。補完情報取得部14は、文書情報に付随する属性情報から補完情報を取得し、対象となる文章情報に対して補間処理を施し、補間処理を施された抽出4W1Hプラス述語情報を抽出情報記憶部16cに記憶させる(ステップS104)。
表示制御部17は、モニタで表示出力させる指示情報を受信したか否かを判定し(ステップS105)、受信した場合(ステップS105のYes)、モニタ18上に抽出した4W1Hプラス述語情報などを表示させる(ステップS106)。モニタ出力の指示情報を受信しない場合(ステップS105のNo)そのまま終了する。
図10は、言語解析手順を説明する図である。言語解析部12は、登録文書があるか否かを判定し(ステップS201)、ない場合は(ステップS201のNo)、そのまま終了する。登録文書がある場合は(ステップS201のYes)、形態素解析部12aが、文書記憶部16aに記憶されたテキストに対し、形態素解析を実施する。形態素解析は、テキストを単語毎に区切り、品詞など、各単語の属性を付加する処理である(ステップS202)。そして、形態素解析部12aは、形態素解析処理を終了したか否かを判定し(ステップS203)、終了していない場合は(ステップS203のNo)、ステップS202に戻る。
形態素解析処理が終了したと判定した場合は(ステップS203のYes)、係り受け解析部12bが、登録された文書に対して係り受け解析処理を施す。係り受け解析は、係り受け処理の1単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理である。単語の属性である品詞に関して、名詞なら固有名詞や時節名詞、接辞なら日付接辞や場所接辞、集団接辞、数量接辞など、詳細な品詞を付加するようにしている(ステップS204)。そして、係り受け解析処理が終了したか否かを判定し(ステップS205)、終了していない場合(ステップS205のNo)は、再び係り受け解析処理を継続する(ステップS204)。終了している場合(ステップS205のYes)は、言語解析部12が解析された形態素処理および係り受け処理の結果を言語情報記憶部16cに記憶させ(ステップS206)、再びステップS201に戻る。
図11は、4W1Hプラス述語情報抽出手順を説明するフローチャートである。要素抽出部13は、言語情報記憶部16bに言語解析された結果のデータがあるか否かを判定し(ステップS301)、ない場合(ステップS301のNo)、そのまま終了する。あると判定した場合(ステップS301のYes)、要素抽出部13は、読み込んだ言語解析データの先頭から述語検索する。述語とは、具体的には用言や、体言止めの文末文節などである(ステップS302)。
要素抽出部13は、述語があるか否かを判定し(ステップS303)、ないと判定した場合(ステップS303のNo)、要素抽出部13は、述語のないことを抽出情報記憶部16cに記憶させて(ステップS304)、ステップS301に戻る。
一方、要素抽出部13は、述語があると判定した場合(ステップS303のYes)、述語を抽出する(ステップS305)。
そして、要素抽出部13は、この述語を直接修飾している文節、この述語が直接連体修飾している文節を検索して、検索できた場合、この文節、属性、および述語の係り受け関係を抽出し、記憶する(ステップS306)。
要素抽出部13は、さらに、4W1H情報の抽出を行う。要素抽出部13は、言語情報から4W1H(When=いつ、Where=どこ−で、Who=誰−が、What=何−を、How=(どのくらい・どうやって))+述語を抽出し、特定する(ステップS307)。そして、4W1H情報の特定が終了したか否かを判定し(ステップS308)、終了していない場合(ステップS308のNo)、ステップS306に戻って再び、特定動作を行う。
要素抽出部13は、4W1H情報の特定が終了したと判定した場合(ステップS308のYes)、補完情報取得部14は、補完情報を取得し(ステップS309)、要素抽出部13は、取得した補完情報を用いて、すでに特定した4W1H情報を補完し(ステップS310)、抽出情報記憶部16cに記憶に記憶させ(ステップS304)、ステップS301に戻る。全ての言語解析データについて処理を終え、言語解析データがない場合は(ステップS301のNo)、終了する。
(1.5.実施の形態1の非膠着語への適用)
なお、ここまでは日本語などの膠着語で記述された文書情報から、4W1H情報を抽出する処理について説明したが、本実施の形態にかかる情報抽出装置10によれば英語などの非膠着語で記述された文書情報から、4W1H情報を抽出することも可能である。以下に、説明する。
なお、英文を扱う場合には、図1の言語解析部12が含む形態素解析部12aが不要であること以外に構成の相違はない。すなわち、言語解析部12は、係り受け解析部12bのみを有する。なお、以下の説明では、実施の形態1に記載した各部と同一の機能を備える構成については、同一の符号を用いて説明することとする。
言語解析部12は、文書記憶部16aに記憶された文書情報のテキスト部分に対して、一文書毎に言語解析処理を施す。言語解析の際、言語解析部12は、言語解析辞書15aを参照して言語解析処理を実行する。前述のように、英文の場合、言語解析処理において形態素解析処理は実施せず、係り受け解析部12bが係り受け解析処理を施す。
係り受け解析部12bは、「語」または、2つ以上の「語」が集まって意味を持ち、一つの品詞と同じような働きをするがその中に主語と述語動詞の関係を含まない「句」を特定し、語と語、語と句、句と句がどのような関係にあるかを同定する係り受け解析処理を施す。
係り受け解析部12bは、例えば、「He ate an apple.」という文では、名詞の語「He」は、述語動詞「ate」と文法的に係り受け関係にあり、その係り受け関係名は「主述関係」であると同定し、また、述語動詞「ate」と名詞句「an apple」は文法的に係り受け関係にあり、その係り受け関係名は「目的関係」であると同定する。
図26は、知識辞書15bの記載の一例を説明する図である。知識辞書15bは、語句に属する単語の特定の品詞情報及び特定の品詞情報の組み合わせの少なくともいずれか1つと、該語句の係り先と係り受けとの関係情報と、該関係情報が4W1H(When=いつ、Where=どこ−で、Who=誰−が、What=何−を、How=(どのくらい・どうやって))のいずれに該当するかを示す意味解釈と、を記載した辞書である。図26に示したように、特定の品詞情報が複数ある場合や、この組み合わせに対し、正規表現による記述形式を採ることで簡潔な記述が可能である。また、辞書の構成要素として、4W1Hの意味解釈に、更なる意味属性を付与しても良い。図26では、「範囲起点」「範囲終点」「Range」など、When情報、Where情報に、詳細な意味属性を与えている。
図27は、要素抽出部13によって英文から4W1Hプラス述語情報抽出の一例を説明する図である。4W1Hプラス述語情報抽出の一例として、「The exhibition is held from October to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という英文のテキスト例(Example 1)から、述語動詞句「is held」、直接係り受け関係がある語句、語句属性、および係り受け関係を抽出する。
補完情報取得部14は、文書に付随する文書属性情報(例えば、文書プロパティ)を取得し、取得した文書プロパティに基づいて、4W1Hプラス述語情報の抽出を補完する。図28は、補完情報取得部14によって取得された文書プロパティ2902の一例である。文書プロパティ2902は、文書登録の際に文書に自動的に付加され、文書属性情報として利用される。この例では、補完情報取得部14は、テキスト中の「next month」「the end of the year」の具体的な日時を、文書プロパティ2902の作成日時、最終保存日時から算出し、補完情報として取得する。その他、機器情報、アプリケーション情報、場所情報などが取得可能であれば、補完情報のための文書属性情報として利用される。
図29に、補完情報取得部14が、テキストの文書プロパティ2902から情報を抽出し、テキスト中の情報を補完する処理の一例を示す。ここでは、文書例としてExample 2を採用し、Example 2に示す文章から抽出した4W1H情報を文書プロパティ2902から抽出した情報によって補完する。
ここで文書は、文書内容情報と文書属性情報とから構成される。文書内容情報とは、記述される文書内容に直接的に含まれる部分であり、例えばテキスト部分2901(図29)、画像部分、図表部分を含む。文書属性情報とは、文書が作成された際に、アプリケーションが自動的に付加する属性情報であって、例えば文書プロパティ(Document Property)2902(図29)の情報などであり、書誌的な情報が代表例である。
図30は、Example 1、Example 2のそれぞれのテキストの文書プロパティ2902から情報が抽出され、補完された一例である。Example 1とExample 2のそれぞれの出力例を比較すると、Example 1の出力例では、テキスト部分における該当文から抽出された情報のみの4W1H情報が出力されている。一方、Example2の出力例では、テキスト部分における該当文から抽出された情報に加え、さらにテキストの文書プロパティ2902から時間的な範囲の情報が取得され、テキスト部分における該当文から抽出された情報が補完されていることを示している。即ち、Next monthとしてOctober、the end of yearとして31 Novemberという情報が取得され、補完されている。
(1.6.言語解析処理)
実施の形態1の情報抽出装置10における非膠着語の言語解析処理について、図26、図27、及び図29を参照しながらExample 1への処理例について説明する。この情報抽出装置10が起動され、文書登録部11は、図27のように「The exhibition is held from October to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という文を含むテキストを登録したとする。この情報抽出装置10は、文書記憶部16aが登録文書を記憶し、言語解析部12が言語解析処理を施す。
(係り受け解析処理)
次に、係り受け解析部12bは、言語解析辞書15bを参照して係り受け解析処理を行う。本実施の形態における例文の係り受け解析処理結果の一例は以下のようになる。
語句番号 語句表記 属性 係り受け関係 係り先
1 The exhibition 名詞句 主述関係 2
2 is held 動詞句 文末-1
3 from October 名詞句(日付) 副詞的修飾(日付起点) 2
4 to the end of the year
名詞句(日付) 副詞的修飾(日付終点) 2
5 in the corporate headquarter building
名詞句(場所) 副詞的修飾(場所) 2
6 from November 名詞句(日付) 副詞的修飾(日付起点) 2
7 to the end of the year
名詞句(日付) 副詞的修飾(日付終点) 2
8 in the Ginza showroom
名詞句(場所) 副詞的修飾(場所) 2
1文の係り受け解析処理が終了すると、言語解析部12は言語解析結果を言語情報記憶部16bに格納する。
登録テキストに次の文がある場合には、言語解析部12は次の文を対象に、係り受け解析を実施する。この操作をテキスト中の文がなくなるまで行い、全文の言語解析処理を終了すると、要素抽出部15による要素抽出処理に進む。
(要素抽出処理)
(1)要素抽出部13は、言語情報記憶部16bから、先頭の1文分の言語解析処理結果を取り出し、最後尾の語句から、述語動詞を検索する。先頭の1文における最後尾の語句は語句番号[8]「in the Ginza showroom」の語句である。
(2)語句番号[2]から述語動詞句「is held」を抽出する。
(3)そして、「is held」の表記を一時記憶する。
(4)次に、語句番号[8]から、先頭語句に向かって順に語句番号[2]を直接修飾している語句を検索する。
(5)語句番号[8]の係り先語句番号が[2]であることから、語句番号[8]の語句が述語動詞句「is held」を直接連用修飾していることがわかり、「in the Ginza showroom」の表記と属性「名詞句(場所)」と、係り受け関係「副詞的修飾(場所)」を記憶する。
(6)さらに、語句番号[7]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
(7)語句番号[7]の係り先語句番号が[2]であることから、語句番号[7]の語句が述語動詞句「is held」を直接連用修飾していることがわかり、「to the end of the year」の表記と属性「名詞句(日付)」と、係り受け関係「副詞的修飾(日付終点)」を記憶する。
(8)さらに、語句番号[6]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
(9)語句番号[6]の係り先語句番号が[2]であることから、語句番号[6]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「from November」の表記と属性「名詞句(日付)」と、係り受け関係「副詞的修飾(日付起点)」を記憶する。
(10)語句番号[5]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
(11)語句番号[5]の係り先語句番号が[2]であることから、語句番号[5]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「in the corporate headquarter building」の表記と属性「名詞句(場所)」と、係り受け関係「副詞的修飾(場所)」を記憶する。
(12)さらに、語句番号[4]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
(13)語句番号[4]の係り先語句番号が[2]であることから、語句番号[4]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「to the end of the year」の表記と属性「名詞句(日付)」と、係り受け関係「副詞的修飾(日付終点)」を記憶する。
(14)さらに、語句番号[3]から、先頭語句に向かって順に語句番号[2]を直接連用修飾している語句を検索する。
(15)語句番号[3]の係り先語句番号が[2]であることから、語句番号[3]の語句が述語動詞句「is held」」を直接連用修飾していることがわかり、「from October」の表記と属性「名詞句(日付)」と、係り受け関係「副詞的修飾(日付起点)」を記憶する。
(16)語句番号[1]の係り先語句番号が[2]であることから、語句番号[1]の語句は述語動詞句「is held」」を直接連用修飾していることがわかり、「The exhibition」の表記と属性「名詞句」と、係り受け関係「主述関係」を記憶し、述語動詞句「is held」の関連語句要素の抽出を終了する。
(17)語句番号[2]から先頭の語句に向けて述語動詞を検索する。
(18)述語動詞が検出されなかったので、例文中の述語動詞の抽出および関連語句要素の抽出を終了する。抽出結果は、図27に示すExample 1の情報抽出例のようになる。
(19)次に、抽出され一時記憶された情報と、図26の知識辞書15bを照合し、知識辞書15bに合致する情報があれば、それぞれ4W1H情報を特定する。
知識辞書15bの
「(名詞|集団名詞|名詞句) 主述関係 → What」
という記述より、「exhibition」は「What」であると特定する。
「(時節名詞|名詞句:日時|日付表現) 副詞的修飾(日付起点) → When*範囲起点」
「(時節名詞|名詞句:日時|日付表現) 副詞的修飾(日付終点) → When*範囲終点」
「When*範囲起点 とWhen*範囲終点が同じ述語に係る → When*Range」
という記述より、「from October to the end of the year 」が「When*Range」であると特定する。
また、「from November to the end of the year 」が「When*Range」であると特定する。
「(固有名詞:場所|名詞句:場所|集団名詞) 副詞的修飾(場所) → Where」という記述より、「corporate headquarter building 」「Ginza showroom 」は「Where」であると特定する。特定されたそれぞれの4W1H情報は、4W1Hの単位で抽出情報記憶部16cに記憶される。
(20)上記のようにテキストの全文に対し、述語動詞と関連語句要素の抽出と、4W1H情報の特定と、記憶を繰り返す。
(21)テキスト全文に対して情報抽出が終わると、出力指示があれば出力処理を実施する。この例のテキストの抽出データの出力は、図30に示すExample 1の抽出データの出力例のようになる。
(1.7.補完処理)
次に、図26、図29、及び図30用いて、4W1H情報を文書プロパティから補完する例を説明する。
この情報抽出装置10を起動すると、Example 2に示す「The exhibition is held from next month to the end of the year in the corporate headquarter building, from November to the end of the year in the Ginza showroom.」という文を含むテキストが登録されたとする。情報抽出装置10は、文書記憶部16aで登録文書を記憶し、言語解析処理に進む。言語解析処理は、上述と同様の処理を施す。言語解析処理が終わると、上述の要素抽出処理と同様に(1)〜(21)に示す処理を実施し、Example 2の情報抽出例を得て、4W1H情報を特定し、記憶する。
(1)テキスト中の各文に対し、先頭から4W1Hのすべての情報が取得できたかどうかを検査する。
(2)Example 2のテキストは、「What{exhibition}」「When*範囲起点{next month}」「Where{the corporate headquarter building }」「When*範囲起点{November}」「Where{the Ginza showroom }」「When*範囲終点{the end of the year }」が特定でき、これらを4W1Hの単位で抽出情報記憶部16cで記憶している。
(3)同文中に、4W1H情報で欠けている情報を認識する。この例では「Who」「How」情報がないことを認識する。
(4)次に、ここでは図28に示す文書プロパティから文書属性情報として以下を取得する。
File Name:Holding guide
Folder Name:exhibition
Title:Holding guide of exhibition
Writer:Taro Ricoh
Date:2005.9.15 14:35
The Final Preservation Date:2005.9.16 09:35
(5)文書属性情報は、テキストの内容に関する情報はないため、「Who」「How」情報は取得できない。
(6)しかし、作成日時と最終保存日時が取得でき、この情報を、When情報と比較する。
本例でのWhen情報は「When*範囲起点{来月}」「When*範囲起点{11月}」「When*範囲終点{年末}」である。
(7)まず、「When*範囲起点{next month}」は、本例のテキスト作成時の「2005.9.15 14:35」を起点とした「next month」であると想定し、作成日時の月情報「9月」に1加算し、「10月」とする。年は変わらず、日と時間は不明のため、「2005.10」を補完する。
(8)次に、「When*範囲起点{November}」は、具体的な月が明記されているため、情報補完対象外であるとする。
(9)次に「When*範囲終点{the end of the year}」は、本例のテキスト作成日時や最終保存日時から、2005年の年末であると想定し、作成日時および最終保存日時の年情報「2005」を取得し、年末は12月31日であると特定できるため、具体的な日時として「2005.12.31」を補完する。
(10)抽出情報を、補完情報で置き換え、抽出4W1Hプラス述語動詞情報を「What{exhibition]」「When*Range{ from Oct.2005 to 31 Dec.2005 }」「Where{ the corporate headquarter building }」「 When*Range{ from November to 31 Dec.2005 }」「Where{ the Ginza showroom }」と特定する。
(11)テキスト全文に対して情報補完処理を終えると、出力指示があれば出力処理を実施する。この例の図29のテキストの抽出データの出力例を図28の抽出(補完)データの出力例で補完した出力例を図30のExample 2の抽出(補完)データの出力例に示す。
このように、英文の場合においても、日本語の場合と同様に、テキストから4W1H情報を抽出することができる。
(1.8.効果)
このように実施の形態1による情報抽出装置10によると、ユーザがキーワードを入力したり、予め情報抽出定義をすることなく、テキスト中の各トピックの関連情報を、4W1Hプラス述語情報として精度良く抽出できる。また、例えばこのデータを用いて文書を閲覧する場合、抽出したキーワードをユーザが参照して文書の内容を理解する従来のキーワード抽出手法を用いた文書閲覧に比べ、4W1Hおよび述語で関連付けされた情報を参照したほうが直感的に文書の内容を理解しやすく、文書の内容をより早く簡単に正確に理解することが可能となる。従って、収集・蓄積された文書の管理、閲覧、分析、再利用などが、精度よく、かつ簡便に実現できる。
また、情報抽出において、知識辞書15bは、単語や文節の表層パターンマッチングや正規表現によるパターンマッチングではなく、テキストの構文構造と、日本語の文法特性を利用した条件一致による4W1H情報特定が可能なため、精度の高い情報抽出が実現できる。例えば、「展示会は10月から本社ビルで、11月から銀座ショールームで年末まで開催されます。」というテキストを、従来技術におけるように、表層パターン「■から○まで」や正規表現「.*から.*まで」で情報抽出すると、前者は間に「本社ビルで、」や「銀座ショールームで」が挟まるため、日時の範囲は取得できず、後者は、「10月から年末まで」もしくは「11月から年末まで」のどちらかしか取得できなかったが、しかし、実施の形態1による情報抽出装置10の知識辞書15bを用いると、「10月から年末=本社ビル、11月から年末=銀座ショールーム」という情報が正しく取得できる。
また、この情報抽出装置10は、対象文から必要情報が取得できない場合に、テキストの他部分から情報補完できるので、詳細かつ必要な情報を取得できる。
また、この情報抽出装置10は、対象文から必要情報が取得できない場合に、テキスト以外の情報を取り込み、情報補完ができるので、詳細かつ必要な情報を取得できる。
また、この情報抽出装置10は、範囲情報を正しく抽出し、日時の範囲と場所の範囲と区別できるので、正確な情報抽出が可能である。
(2.実施の形態2)
図12は、実施の形態2による情報抽出装置の機能的ブロック図である。情報抽出装置20は、変換部21を備える。
実施の形態2による情報抽出装置20が実施の形態1と異なる点は、変換部21が、要素抽出部13が関連付けた4W1Hプラス述語情報群を、コンピュータが読み取りおよび解釈可能なデータ表現に変換することである。
これによって、実施の形態2による情報抽出装置20が、自動的にコンピュータが可読解釈できるデータ表現に変換することにより、ユーザは情報抽出したデータを特別なXMLやRDF構文知識を必要とせずに、労力をかけずにウェブ上でコンピュータ処理可能なデータに変換することができる。
変換部21は、要素抽出部13によって抽出され、補完情報取得部14によって取得された補完情報によって補完された4W1Hプラス述語情報を、コンピュータが可読解釈できるデータ表現であるRDF/XML構文に変換する。RDFとはリソース表現のフレームワークであり、標準化団体W3Cが1999年に正式勧告しているものである。例えば4W1Hの情報の語彙を定義したURIhttp://example.org/a/termを用意し、その接頭辞をa:と表現し、既存の語彙(例えばダブリンコアなど)と共に用いる。対象文書に合致した既存の語彙があれば、新たに定義した語彙を用意する必要はない。情報抽出で4W1H情報を取得した後、変換部は、文書属性情報と共に、例えばRDF/XML構文に変換し、記憶する。変換部がRDFグラフ形式に変換し、モニタなどの表示部でユーザに提示できる構成とすることもできる。
また、変換部21は、RDFの他に、コンピュータが可読解釈できるデータ表現であればよく、例えば対象データがスケジュールなどイベント情報であれば、標準フォーマットiCalender形式に変換しても良い。
図13は、変換部が、取得された抽出要素を、RDF/XML構文へ変換した変換例と、RDFグラフへの変換例とを説明する図である。情報抽出装置20が起動され、「展示会は10月から本社ビルで年末まで開催されます。」という文を含むテキストが登録されたとする。このとき、テキスト登録と同時に、図13に示される文書プロパティ1311が自動的に付加される。これは従来のフロントエンドプロセッサーなどに付帯の機能を利用することができる。
可読データ表現への変換処理について、さらに詳細に説明する。変換部21は、コンピュータが可読解釈できるデータ表現への変換処理を施す。ここでは、コンピュータが可読解釈できるデータ表現として、RDF/XML構文を例にして説明する。
(1)例えば4W1Hの情報をプロパティ要素として有する語彙を定義したURI、この例ではhttp://example.org/a/term/を予め用意し、図13のRDF/XML変換例のように、その接頭辞を例えばa:と表現し、既存の語彙(例えばダブリンコアなど)と共に用いるようにする。対象文書に合致した既存の語彙があれば、それを用い、新たに定義した語彙を用意する必要はない。
(2)抽出情報記憶部17cから、4W1Hの単位で情報を取り出す。例えば図13の出力情報例1312が得られる。
(3)RDF/XML構文でテキストの内容を示す空白ノードを記述する。
(4)次に述語「開催されます」をノード要素として記述する。
(5)次にWhat情報「展示会」をノード要素として記述する。
(6)次にWhen情報「10月から年末まで」をノード要素として記述する。
(7)次にWhere情報「本社ビル」をノード要素として記述する。
(8)文書属性情報が得られれば、取得する。この例では、図13の文書プロパティの情報を取得できた場合を想定し、文書のタイトル「展示会開催案内」、作成者「理光太郎」、作成日「2005-9-15」をダブリンコアの接頭辞を用いてノード要素として記述する。
(9)これらを記憶し、出力指示があれば、出力処理を実施する。図13には、抽出情報のRDF/XML変換例1313と、RDFグラフ変換例1314とを示す。図13に示すRDF/XML構文、もしくはRDFグラフ形式などをそのまま出力してもよく、またこれらをユーザに分かり易く加工して提示してもよい。
実施の形態2による情報抽出装置によると、関係付けられた情報群を、自動的にコンピュータが可読解釈できるデータ表現に変換することが可能なため、ユーザは情報抽出したデータを特別なXMLやRDF構文知識をもつ必要がなく、労力をかけずにウェブ上で機械が処理できるデータに変換することが可能になる。
(3.実施の形態3)
(3.1.全体構成)
実施の形態3による情報抽出装置30が、実施の形態1と異なる点は、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から4W1Hプラス述語情報を再構成することである。
この構成によって、文書情報間の関係に基づいて、各文書情報から抽出された4W1Hプラス述語情報の中から、4W1Hプラス述語情報を再構成するので、複数ある文書情報の中から文書情報間の関係において最も相応しい4W1Hプラス述語情報を抽出することができる。
図14は、実施形態3による情報抽出装置30の機能的ブロック図である。実施の形態3による情報抽出装置30は、文書関係特定部31、および要素再構成部32を、さらに備える。実施の形態1と異なる点について重点的に説明し、それ以外は適宜説明を省略する。
文書関係特定部31は文書情報間の関係を特定する。要素抽出部33は、テキスト情報の中から4W1Hプラス述語情報を抽出する。要素再構成部32は、文書関係特定部31によって特定された文書間の関係に基づいて、要素抽出部33によって抽出された4W1Hプラス述語情報の中から、4W1Hプラス述語情報を再構成する。
文書関係特定部31が特定する文書情報間の関係とは、例えば送受信された複数の電子メールにおいては、送受信の関係である。この関係を例えばツリー表示した場合、文書間構造とも見ることができる。
図15は、文書関係特定部31が文書情報間の関係を特定するために適用する文書関係特定規則を説明する図である。文書関係特定部31は、特定指示を受信すると、対象文書群を取得し、1文書を読み込み、この文書のヘッダ情報を取得し、バッファに記憶する。そして、次の文書も同様にヘッダ情報を取得し、双方の文書のヘッダ情報を、図15に示した文書関係特定規則に基づいて解析する。
文書関係特定部31は、例えば、文書群のヘッダ情報により文書群が電子メール文書群であると判別すれば、2文書の発行順や元メールに対する返答メールである応答関係を特定し、文書関係コードを付与し、文書の発行日時情報と共に記憶する。次文書があれば、その文書のヘッダ情報を取得し、同様に1つ前に取得したヘッダ情報と比較し、文書関係特定規則に基づき2文書の関係を特定し、文書関係コードを付与し、文書の発行日時情報と共に記憶する。取得した文書群全てのヘッダ比較解析、関係特定が完了すると、文書と文書関係コードで表現された対象文書群の文書構造を保存し、処理を終了する。
要素抽出部33が、各文書情報から4W1Hプラス述語情報を抽出する技術については、実施の形態1で説明した通りである。ここで、実施の形態1のように、要素抽出部33は、言語解析部12による解析と、補完情報取得部14によって取得される補完情報によって4W1Hプラス述語情報を抽出することが望ましい。要素抽出部33は、1つの文書情報の抽出を終了させると、抽出した要素は言語情報由来の関係情報と共に記憶、さらに、次の文の統語情報から、同様に要素抽出処理を実行する。一文書の全文に対して要素抽出処理が終了すると、次の文書の先頭文から、同様の要素抽出処理を実行する。すべての登録文書に対して要素抽出を実施すると、処理を終了する。ここで、抽出される要素情報は、もともとのテキストに由来して、完全に4W1Hおよび述語全ての情報が取得できるとは限らない。
要素再構成部32は、要素(4W1Hプラス述語情報)再構成指示を受信して、対象文書群の文書間構造情報と各文書の4W1Hプラス述語情報に基づいて、4W1Hプラス述語情報を再構成する。この再構成動作については、以下、再構成手順において詳細に説明するが、ここで概略を説明する、先頭の1文書の先頭の4W1Hおよび述語を読み込み先頭バッファに記憶し、次の4W1Hおよび述語を比較する。4W1H属性情報間の重複、同じ属性で違う表記の情報があれば、各情報へ重複情報を付与する。さらに、次の4W1Hおよび述語がなければ、この時点での4W1Hおよび述語群が、必要4W1Hプラス述語情報を満たしているかどうかを調べ、満たしていた場合、再構成した4W1Hプラス述語情報を選択して要素再構成処理を終了する。
図15の文書関係特定規則の記載例について、説明する。文書関係特定規則は、例えば、文書カテゴリー判別規則を有し、文書のヘッダ情報や書誌情報と照合し、対象文書がメール文書なのか、掲示板投稿文書なのか、チャット投稿文書なのか、などを判別する。さらに、文書間関係判別規則を有し、2つの文書のヘッダ情報や書誌情報と照合し、記載条件に合致した2文書の関係を例えば文書コードを付与することで特定する。本例は、テキスト記述であるが、システム実装の場合は、これらの条件をプログラムコードの形式に書き下した規則を用いることが好ましい。
図16は、知識辞書15bの記載例である。要素抽出部33が使用する知識辞書15bについては、すでに説明した通りであるが、本例では、文法情報を正規表現で表現した形式の記述にしてあるが、システム実装の場合は、これらの条件をプログラムコードの形式に書き下した規則を用いるのが好ましい。テキストの統語情報と本辞書を照合し、統語情報から4W1H情報として合致する情報を抽出することができる。
(3.2.文書関係抽出)
図17は、実施の形態3による情報抽出装置30が、メール文書群における文書間関係を抽出することを説明する図である。図18は、図17における文書Bから、4W1Hプラス述語情報を抽出することを説明する図である。図19は、図17における文書BおよびCから、4W1Hおよび述語を抽出する処理を説明する図である。図20は、要素再構成部32が、図17における文書A、B、およびCから、要素を再構成することを説明する図である。
図17は、処理対象文書群の例と文書間関係抽出の例を図示している。図17と図15とを用いて文書関係特定処理を説明する。例えば、本発明の一形態である情報抽出装置30が起動され、図17の文書A,文書B,文書Cが登録されたとする。情報抽出装置30の補完情報取得部14は、まず文書Aのヘッダ情報と文書Bのヘッダ情報を取得し、バッファに記憶する。ヘッダ情報は以下の通りである。
文書Aのヘッダ:
Date:Tue,23Aug200510:04:02
Message-Id:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
X-Mailer:A_Mailver.2.21
文書Bのヘッダ:
Date:Tue,23Aug200510:22:10
In-Reply-To:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
References:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
Message-Id:<200508230122.AA00694@AAA.bbb.ccc.co.jp>
X-Mailer:A_MailVersion1.12
文書関係特定部31は、各ヘッダ情報「X-Mailer:A_Mailver.2.21」「X-Mailer:A_MailVersion1.12」から、これらの文書がメールシステムを用いた電子メール文書群であると判別する。
図15の文書関係特定規則を参照すると、図15の文書関係特定規則の条件1を100%満たす。次に文書Aを対象文書とし、文書Bを次文書とした場合、次文書のIn-Reply-ToのMessage-Id「20050823100245.036F.TaroYamada@ddd.eee.co.jp」が対象文書のMessage-Idである、次文書のDate 「Tue,23Aug200510:22:10」 が対象文書のDate 「Tue,23Aug200510:04:02」より時間的に新しい、次文書の件名「Re:会議日程」に対象文書の件名「会議日程」と同じ文字列がある、次文書の件名の先頭にRe:がついている、ということを判別する。これは図15の文書関係特定規則の条件2を100%満たしている。条件1を100%、条件2を100%満たしているため、文書Aと文書Bの関係は、メールシステムにおける呼応関係にあると特定し、対象文書である文書Aにコード0を、応答関係にある次文書Bにコード1を付与する。
次に、文書をひとつシフトし、文書Bのヘッダ情報はそのままにして、文書Cのヘッダ情報をバッファに記憶する。ヘッダ情報は以下の通りである。
文書Cのヘッダ:
Date:Tue,23Aug200510:23:35
In-Reply-To:<200508230122.AA00694@AAA.bbb.ccc.co.jp>
References:<20050823100245.036F.TaroYamada@ddd.eee.co.jp>
<200508230122.AA00694@AAA.bbb.ccc.co.jp>
Message-Id:<20050823102041.0374.TaroYamada@ddd.eee.co.jp>
X-Mailer:A_Mailver.2.21
各ヘッダ情報「X-Mailer:A_MailVersion1.12」「X-Mailer:A_Mailver.2.21」から、これらの文書がメールシステムを用いた電子メール文書群であると判別する。図15の文書関係特定規則を参照すると、図15の文書関係特定規則の条件1を100%満たす。次に文書Bを対象文書とし、文書Cを次文書とした場合、次文書のIn-Reply-ToのMessage-Id「200508230122.AA00694@AAA.bbb.ccc.co.jp」が対象文書のMessage-Idである、次文書のDate 「Tue,23Aug200510:23:35」が対象文書のDate 「Tue,23Aug200510:22:10」 より時間的に新しい、次文書の件名 「Re:Re:会議日程」に対象文書の件名「Re:会議日程」 と同じ文字列がある、次文書の件名の先頭にRe:がついている、ということを判別する。これは図15の文書関係特定規則の条件2を100%満たしている。条件1を100%、条件2を100%満たしているため、文書Bと文書Cの関係は、メールシステムにおける呼応関係にあると特定し、対象文書である文書Bのコードが1なので、文書CにはBのコードに1加算した2を付与する。
文書関係特定部31による上記処理により、図17の文書A、文書B、文書Cの文書群が、一連の呼応関係にある電子メール文書群であり、その文書群構造が、文書Aがメールの元文書、文書Bが文書Aへの返信メール文書、文書Cが文書Bへの返信メール文書であるという構造であることを特定することができる。従って、文書関係特定部31は、文書間構造「文書A コード:0 発行日時:Tue,23Aug200510:04:02
文書B コード:1 発行日時:Tue,23Aug200510:22:10
文書C コード:2 発行日時:Tue,23Aug200510:23:35」
を抽出することができる。
(3.3.4W1Hプラス述語情報の抽出)
図18は、図17の文書Bから統語処理によって4W1Hプラス述語情報(要素)を抽出することを説明している。図16、図17、および図18を参照しながら、文書Bの要素抽出処理を説明する。
情報抽出装置30が起動され、図17の文書A,文書B,文書Cが登録される。まず要素抽出部33は、登録順に文書Aの4W1Hおよび述語を抽出し、文書Aの抽出が終了すると、次に文書Bの要素抽出処理を開始する。まず、文書Bのヘッダ部分を除くテキストの統語情報を取得する。ヘッダ部分を除くテキストは以下である。
テキスト部分:
「第一開発部の佐藤です。TaroYamadawrote: >来月の希望の日時をお知らせください。来月7日、午前中がいいです。場所はどこですか?」
この際、テキスト中に「○○さんが書きました:」「xxxwrote:」の記述がある場合、この記述およびその直後の文や、複数の先頭に文と無関係な同じ記号が付与されている場合の、その文全ては引用部分と見做し、抽出の対象外として処理する。そこで、統語情報取得対象テキストは以下となる。
統語情報取得対象テキスト部分:
「第一開発部の佐藤です。来月7日、午前中がいいです。場所はどこですか?」
次に、要素抽出部33は、統語情報取得対象テキスト部分を解析し、例えば図18に示す以下のような統語構造を取得する。解析には例えば形態素解析、係り受け解析などの従来の言語解析処理手法を用いることができる。
統語構造:
文節表記 単語列 品詞列 係り受け関係 係り先(−1は係り先なしの文末)
第一開発部の 第・一・開発・部・の 接頭辞+数詞+サ変名詞+集団接辞+格助詞
連体修飾+1
佐藤です。 佐藤・です・。 固有名詞+助動詞+句点 文末-1
来月7日、 来月・7日・、 時節名詞+数詞+日付接辞+読点 連用修飾+2
午前中が 午前・中・が 時節名詞+接尾辞+格助詞 ガ格連用修飾+1
いいです。 いい・です・。 形容詞+助動詞+句点 文末-1
場所は 場所・は 名詞+副助詞 連用修飾+1
どこですか。 どこ・です・か・?代名詞+助動詞+終助詞+記号句点 文末-1
要素抽出部33は、統語情報取得処理が終了すると、次に、得られた統語情報から4W1H(When=いつ、Where=どこ−で、Who=誰−が、What=何−を、How=(どのくらい・どうやって))+述語を抽出、特定する。まず、統語情報付きのテキストの先頭から、述語を検索する。述語とは、具体的には用言や、文末文節などである。文書Bの統語構造を先頭から検索すると、述語として文末文節の「佐藤です。」を見つける。述語が特定できた場合、述語にコードを付与し、その述語を直接修飾している文節、その述語が直接連体修飾している文節を検索し、ある場合は、その文節と、その属性と、述語との係り受け関係を抽出し、述語と同じコードを付与して記憶する。同セット内に同じ属性の情報が複数存在する場合は下位コードを追加付与して区別をつける。文末文節「佐藤です。」を直接修飾している文節「第一開発部の」があるのでこの文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。述語を直接修飾している文節がすべて抽出できたら、それぞれの文節に対し、その属性と述語との係り受け関係に基づき、4W1Hのいずれかを特定する。4W1Hの特定には、文法特性を利用した知識を記述した例えば図16に例を示した知識辞書15bを使う方法が考えられる。ここでは、他に「佐藤です。」を直接修飾している文節、「佐藤です。」が直接連体修飾している文節がないので、「佐藤です。」と「第一開発部の」の2文節とその属性に対し、図16の知識辞書15bを適用し、4W1Hおよび述語のいずれかを特定する。「佐藤です。」が述語であり、「第一開発部の」は属性である品詞列の「サ変名詞+集団接辞」、係り受け関係の「連体修飾」が知識辞書15bの「((名詞|数詞)+集団接辞) (連体修飾) → How」に合致するため、Howを特定することができる。
要素抽出部33は、特定が終わると、次の述語の検索に移る。「佐藤です。」の次の述語を検索すると、文節「いいです。」が見つかる。文節「いいです。」を直接修飾している文節、その述語が直接連体修飾している文節を検索すると、文節「来月7日、」文節「午前中が」が見つかり、この文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。これらの文節に対し、図16の知識辞書15bを適用し、4W1Hおよび述語のいずれかを特定する。「いいです。」が述語であり、「来月7日、」は属性である品詞列の「時節名詞+数詞+日付接辞+読点」、係り受け関係の「連用修飾」が知識辞書15bの「(時節名詞|数詞+(日付接辞|時間接辞))+読点 連用修飾 → When」に合致するため、Whenを特定することができる。また、「午前中が」は属性である品詞列の「時節名詞+接尾辞+格助詞」、係り受け関係の「ガ格連用修飾」が知識辞書15bの「(時節名詞|数詞+(日付接辞|時間接辞))ガ格修飾 →When」に合致するため、Whenを特定することができる。
さらに、「いいです。」の次の述語を検索すると、文節「どこですか?」が見つかる。文節「どこですか?」を直接修飾している文節、その述語が直接連体修飾している文節を検索すると、文節「来月7日、」が見つかり、この文節表記と品詞列などの属性と、係り受け関係を抽出し、記憶する。この文節に対し、図16の知識辞書15bを適用し、4W1Hおよび述語のいずれかを特定する。「どこですか?」が述語であり、「場所は」は属性である品詞列の「名詞+副助詞」、係り受け関係の「連用修飾」が知識辞書15bの「(名詞|副詞|数量名詞|数詞+数量接辞) 連用修飾 → How」に合致するため、Howを特定することができる。特定が終わると、次の述語の検索に移る。述語が検索されなくなるまで、この処理を繰り返す。「どこですか?」の次の述語がないため、文書Bの要素抽出を終了する。
このように1つの文書の全文に対して要素抽出処理が終了すると、次の文書の先頭文から、同様の要素抽出処理を実行する。すべての登録文書に対して要素抽出を実施すると、処理を終了する。本実施例で文書Bから抽出した4W1Hおよび述語は図18に示すように以下のセットである。
001述語[佐藤です。]
001How[第一開発部]
002述語[いいです。]
0020When[来月]
0021When[7日]
0022When[午前中]
003述語[どこですか?]
003How[場所]
補完情報取得部14が、要素抽出の際、対象文書が電子メール文書と判断した場合、テキスト部分以外の「件名」と「送信者」と「受信者」を書誌情報由来の4W1Hプラス述語情報として予め抽出し、要素抽出部33が「件名」をWhat情報、「送信者」「受信者」をWho情報と予め特定し、4W1Hおよび述語の各要素に補完情報として加える。これは電子メールにおける件名、送受信者名が、メール文書のイベント付随の表現に重要な役割を果たしており、情報抽出精度の向上が見込まれるからである。
同様に、補完情報取得部14は、対象文書が掲示板文書であれば、文書中の「議題」「作成者」を予め抽出し、要素抽出部33が、それぞれWhat情報、Who情報と予め特定し、4W1Hおよび述語の各要素に補完情報として加える。
同様に、補完情報取得部14は、対象文書がチャット文書であれば、文書中の「日時」「ユーザ」を予め抽出し、要素抽出部33は、それぞれWhat情報、Who情報と予め特定し、4W1Hおよび述語の各要素に補完情報として加える。
(3.4.補完情報処理)
図19は、図17における文書BおよびCから4W1Hおよび述語を抽出することを説明しており、補完情報によって、情報を補完する例を示している。図17、および図19を用いて文書の周辺情報および別文書から4W1Hプラス述語情報を補完する例を説明する。
情報抽出装置30が起動され、図17の文書A,文書B,文書Cが登録されたとする。このうち、文書Bの4W1Hおよび述語の不足を、文書Cの4W1Hプラス述語情報、および文書B、文書Cの周辺情報で補完する。
(周辺情報からの補完)
まず、文書登録と同時に、図19で示すような書誌情報に代表される文書の周辺情報による補完情報が自動的に付加される。ここでは、この周辺情報として文書の書誌情報を4W1Hプラス述語情報の補完に利用する。
予め書誌情報をパタンマッチなど従来手法などを用いて取得する方法、ユーザが書誌情報に対して補完対象情報を指定する方法などが考えられる。周辺情報は、例えば文書の書誌情報のほか、文書の更新履歴や、文書の作成場所、文書の作成機器情報、利用アプリケーション情報、文書のアクセス履歴など、所謂、文書のコンテキスト情報である。
例えばあるソフトウェア商品の書誌的情報としては以下の情報が知られている。即ち、[ファイル名、現在のフォルダ名、テンプレート、表題、副題、作成者、キーワード、説明、作成日時、変更回数、最終保存日時、最終保存者]である。
ここでは、書誌情報から得られる4W1Hプラス述語情報は以下のものである。
文書B:
P_date[23Aug2005]
P_creater[佐藤直子]
P_title[会議日程]
文書C:
P_date[23Aug2005]
P_creater[山田太郎]
P_title[会議日程]
要素抽出部33は、これらの情報を統合し、同じ表現形式に変換する。例えば日付は、西暦−月−日という表現に統一する。dateはWhen情報に、createrはWho情報に、titleはWhat情報に変換する。周辺情報由来の4W1H情報は、それとわかるような表現にする。ここでの書誌情報からの4W1Hプラス述語情報は、4W1H情報の先頭にP:を付与し、以下のようにする。
P:When[2005-8-23]
P:Who[佐藤直子]
P:Who[山田太郎]
P:What[会議日程]
(他文書情報からの補完)
次に、情報抽出装置30は、文書記憶部で登録文書を記憶し、先に挙げた文書関係特定処理と同様の処理を施し、文書Bと文書Cがメールシステム上で呼応関係にあることを判別する。そして、先に挙げた各文書に対する統語構造を取得し、4W1Hおよび述語を抽出し、4W1Hプラス述語情報を特定し、図19のように、文書B、文書Cの各文書の4W1Hおよび述語を得て、記憶する。
文書Bの各4W1Hおよび述語に対し、先頭から4W1Hおよび述語のすべての情報が取得できたかどうかを検査する。文書Bの先頭の4W1Hおよび述語は、「述語[佐藤です。]」と「How[第一開発部]」が取得できている。4W1Hプラス述語情報で欠けている情報は、本実施例では「Who」「What」「When」「Where」情報であることを認識する。次セットで「When[来月]]、「When[7日]]、「When[午前中]]が取得できていることを認識する。次の4W1Hおよび述語に、不足情報を補完する情報がなく、次の4W1Hおよび述語がないことから文書Bの4W1Hおよび述語における不足情報は、「Who」「What」「Where」であることを認識し、文書Bの4W1Hプラス述語情報チェックを終了する。
次に文書Cの各4W1Hおよび述語に対し、文書Bでの不足情報を補完できる情報の有無を検査する。文書Bの4W1Hおよび述語における不足情報は、「Who」「What」「Where」情報であることを認識する。先頭から不足情報を補完できる情報の有無を検査する。文書Cの先頭の4W1Hおよび述語は、「述語[山田です。]」が取得できるが不足情報を補完する情報がないため次セットを検索する。
次セットで「What[返信]」が取得できていることを認識する。次の4W1Hおよび述語に、「When[7日]」]、「When[10時〜12時]」、「Where[第一会議室]]が取得できていることを認識する。次の4W1Hおよび述語に、「What[出席]」「How[よろしく]」が取得できていることを認識する。不足情報を補完する情報としては、「What[返信]」「What[出席]」「Where[第一会議室]]が見つかり、次の4W1Hおよび述語がないことから文書B,文書Cの4W1Hおよび述語における不足情報は、「Who」情報であることを認識し、文書Cの4W1Hプラス述語情報チェックを終了する。
このようにして登録された各文書に対し、4W1Hプラス述語情報で欠けている情報を認識し、補完情報の有無を検査し、情報を補完することを繰り返す。登録文書に対して情報補完処理が終わると、次に、要素抽出部33は、周辺情報由来の4W1H情報と組み合わせる。このとき、文書由来の4W1Hプラス述語情報と周辺情報由来の関係では、基本的には、文書由来の4W1Hプラス述語情報を優先する。これは、文書中の話題の方が、4W1Hプラス述語情報として尤もらしいと考えられるからである。
上記の例では、文書Bの4W1Hおよび述語と補完された情報は以下のとおりとなる。
文書Bオリジナル
1001述語[佐藤です。]
1001How[第一開発部]
1002述語[いいです。]
10020When[来月]
10021When[7日]
10022When[午前中]
1003述語[どこですか?]
1003How[場所]
文書Cからの補完情報
2002What[返信]
2003Where[第一会議室]
2004What[出席]
周辺情報からの補完情報
P:When[2005-8-23]
P:Who[佐藤直子]
P:Who[山田太郎]
P:What[会議日程]
(3.5.要素再構成処理)
図20は、要素再構成部32が、図17における文書A、B、およびCから4W1Hプラス述語情報を再構成することを説明している。図17、および図20を用いて文書群から、要素再構成部32による要素再構成処理の例を説明する。
情報抽出装置30が起動され、図17の文書A,文書B,文書Cが登録されたとする。このとき、文書登録と同時に、補完情報取得部14は、図20で示すようなコンテキストによる補完情報を自動的に付加する。文書記憶部が登録文書を記憶し、先に説明した文書関係特定処理と同様の処理を施す。次に、既述のように、各文書に対して、要素抽出部33は、統語構造から4W1Hおよび述語を抽出し、文書群の4W1Hおよび述語に文書群内4W1Hプラス述語情報と各文書の周辺情報を用いた4W1Hプラス述語情報補完処理を施す。各文書から抽出した、4W1Hおよび述語、および、書誌情報による補完情報を図20に図示してある。
要素抽出部33は、各文書から抽出した4W1Hおよび述語および書誌情報による補完情報を読み込み、必要な4W1Hプラス述語情報を選択する。このときの選択基準の設定方法としては、システム側に予め基本設定をしておく方法、システム側に予め基本設定をしておき、システム利用時にユーザが任意にカスタマイズできる方法、ユーザが予め登録する方法、文書群全ての4W1Hおよび述語をモニタ18に表示させ、ユーザが選択する方法など、が可能である。ここでは、装置側に予め基本設定をしておく方法について説明する。例えば、情報抽出装置30側の出力必要情報として、以下の基本設定がなされている場合について説明する。
述語選択基準:
・全ての文書に共通な述語が存在すれば、その述語を、必要情報セットの述語と仮定し、記憶する。
・全ての文書に共通な述語がなければ、広範囲の文書に含有率の高い述語を必要情報セットの述語と仮定し、記憶する。
・複数ある場合は複数記憶する。
4W1H情報選択基準:
・述語選択基準に合致した述語と係り受け関係を有する4W1Hプラス述語情報を必要情報セットの要素と仮定し、記憶する。
・ただし、述語選択基準に合致した述語がない場合は、全ての要素を記憶しておき、必要情報セット外の要素は削除する。
・同じ属性同じ表記の要素が存在する場合は、その要素に重複フラグを付与し、述語選択基準に合致した述語と関係を有する要素を1つ選択する。
・同じ属性で異なる表記の要素が複数存在する場合は、文書コードおよび要素コードの値の高い要素を1つ選択する。
書誌情報選択基準:
・必要要素のうち、文書情報由来の要素で不足している要素について、補完する。同じ属性の要素があっても、文書情報由来の要素を優先する。
このような処理を施し、必要な要素である4W1Hおよび述語が揃わない場合は、不足のままで出力する。
要素抽出部33は、まず、読み込んだ情報のうち、述語に着目し、全ての文書に共通な述語を検索する。本実施例では、文書A〜文書C全てに共通の述語はなく、文書Aと文書Cに共通して存在する「設定」を必要情報セットの述語と仮定し、記憶する。ここで、必要情報セットとは、目標とする再構成要素の4W1Hおよび述語のセットのことである。
述語[設定]
次に、文書Aの4W1Hおよび述語から、002「設定したいのですが、」と係り受け関係を有する4W1Hプラス述語情報である002What[会議]を必要情報セットの要素と仮定し、記憶する。
述語[設定]
0-002What[会議]
文書Aの残る4W1Hプラス述語情報には、他に002「設定したいのですが、」と係り受け関係を有する4W1Hプラス述語情報がないので、次に文書Bの4W1Hおよび述語から要素を検索するが、文書Bには述語「設定」が存在しないため、文書Bの4W1Hおよび述語全ての要素を記憶する。
述語[設定]
0-002What[会議]
1-001How[第・一・開発・部]
1-002When[0:来月1:7日2:午前・中]
1-003How[場所]
要素抽出部33は、次に文書Cの4W1Hおよび述語から、003「設定しました。」と係り受け関係を有する4W1Hプラス述語情報である003When[0:7日、1:10時・〜・12時]003Where[第・一・会議・室]を必要情報セットの要素と仮定し、記憶する。
述語[設定]
0-002What[会議]
1-001How[第・一・開発・部]
1-002When[0:来月1:7日2:午前・中]
1-003How[場所]
2-003When[0:7日、1:10時・〜・12時]
2-003Where[第・一・会議・室]
文書Cの残る4W1Hプラス述語情報には、他に003「設定しました」と係り受け関係を有する4W1Hプラス述語情報がなく、次の文書もないため、文書情報由来の4W1Hおよび述語の検索を終了する。
ここで、同じ属性で同じ表記の要素である1-002When[1:7日]と2-003When[0:7日]には、重複フラグ*を付与し、記憶する。また、同じ属性で、異なる表記の要素である1-001How[第・一・開発・部]と1-003How[場所]、1-002When[2:午前・中]と2-003When[1:10時・〜・12時]に、異表記フラグ%を付与し、記憶する。データは、以下のようになる。
述語[設定]
0-002What[会議]
1-001How[第・一・開発・部%]
1-002When[0:来月1:7日*2:午前・中%]
1-003How[場所%]
2-003When[0:7日*、1:10時・〜・12時%]
2-003Where[第・一・会議・室]
述語「設定」に関連する4W1Hプラス述語情報と重複や異表記がある文書Bの1-002When[0:来月1:7日*2:午前・中%]は採り、そのほかの文書Bの4W1Hプラス述語情報1-001How[第・一・開発・部%]、1-003How[場所%]は削除する。
述語[設定]
0-002What[会議]
1-002When[0:来月1:7日*2:午前・中%]
2-003When[0:7日*、1:10時・〜・12時%]
2-003Where[第・一・会議・室]
上記までの処理で、必要要素4W1Hおよび述語のうち、Who属性、How属性が不足していることがわかる。そこで、書誌情報による補完情報を利用する。先頭のP:When[2005-8-23]は、文書の作成日時であり、文書情報由来の要素1-002When[0:来月1:7日*2:午前・中%]、2-003When[0:7日*、1:10時・〜・12時%]があるため、こちらを優先し、4W1Hプラス述語情報要素として加えない。次のP:Who[佐藤・直子]、P:Who[山田・太郎]は、文書の作成者であるが、Who属性は必要要素の不足情報であるため、これら4W1Hプラス述語情報を必要情報として加える。
述語[設定]
0-002What[会議]
1-002When[0:来月1:7日*2:午前・中%]
2-003When[0:7日*、1:10時・〜・12時%]
2-003Where[第・一・会議・室]
P:Who[佐藤・直子、山田・太郎]
次のP:What[会議・日程]は、文書情報由来の要素0-002What[会議]と重複があるため、双方へ重複フラグを付与する。しかし、文書情報由来の要素があるため、こちらを優先し、4W1Hプラス述語情報要素として加えない。次の書誌情報由来の4W1Hプラス述語情報がないため、書誌情報による補完情報からの要素取得を終了する。
次に、基本設定に従い、情報選択を実施する。必要情報のうち、重複情報1-002When[1:7日]と2-003When[0:7日]について、述語選択基準に合致した述語「設定」と関係を有する要素である2-003When[0:7日]を選択対象とする。次に、異表記情報1-002When[2:午前・中]と2-003When[1:10時・〜・12時]について、文書コードの高い2-003When[1:10時・〜・12時]を選択対象とする。
必要情報のうち、How属性が不足しているが、補完が適わないため、本実施例における4W1Hおよび述語選択結果は、以下のようになる。
述語[設定]
What[会議]
Who[山田太郎、佐藤直子]
When[来月、7日、10時〜12時]
Where[第一会議室]
また、情報抽出装置30は、所定の条件を受け付けて、受け付けた条件に最も適合するように、文書間の関係に基づいて他の文章から、4W1Hプラス述語情報を再構成することができる。例えば、時間的に最後の文章、あるいは最先の文章、あるいは最頻の述語を条件として、条件とされた文章、あるいは述語に従って再構成する。このようにして、条件を与えて最もこの条件に適合する4W1Hプラス述語情報を再構成することができる。
(3.6.情報抽出手順)
図21は、実施の形態3による情報抽出手順を説明するフローチャートである。ステップS401〜ステップS404までは、図18に示した実施の形態1による情報抽出手順のステップS101〜ステップS104までと同様であるので、説明を省略する。ステップS404で、要素抽出部33が統語構造と補完情報とに基づいて4W1Hプラス述語情報を抽出する手順までは、実施の形態1と同様である。
文書関係特定部31は、文書情報間の関係を特定する(ステップS405)。このステップについては、後述する。そして、要素再構成部32は、文書間の関係に基づいて、抽出された4W1Hプラス述語情報の中から、4W1Hプラス述語情報を再構成する(ステップS406)。このステップについては後述する。
図22は、文書関係特定手順を説明するフローチャートである。以下、図22における動作主は文書関係特定部31である。文書関係特定部31は、文書間関係の特定命令を受けると、対象文書群を取得し(ステップS501)、その中から1文書を読み込む(ステップS502)。文書関係特定部31は、ヘッダ情報を取得し、記憶部16に記憶させ(ステップS503)、次文書があるか否かを判定し(ステップS504)、ないと判定した場合(ステップS504のNo)、再び文書間関係の特定命令の受信を待機状態となる。
文書関係特定部31は、次文書があると判定した場合(ステップS504のYes)、文書関係特定部31は、次文書のヘッダ情報を取得し、記憶部16に記憶させる(ステップS505)。そして、文書関係特定部31は記憶した2文書のヘッダ内容を解析し(ステップS506)、2文書の関係を特定する(ステップS507)。
文書関係特定部31は、文書関係を特定できたか否かを判定し(ステップS508)、特定できたと判定した場合(ステップS508のYes)、文書関係特定部31は、特定された文書間の関係を記憶部16に記憶させて(ステップS509)、ステップS504に戻る。一方、文書関係特定部31が、文書間の関係を特定できなかった場合(ステップS508のNo)、モニタ18において、表示制御部17を介してエラー表示させる(ステップS510)。
図23は、要素再構成部32が、4W1Hプラス述語情報を再構成する手順を説明するフローチャートである。以下のステップにおいて、特記しない限り、動作主は要素再構成部32である。要素再構成部32は、要素(4W1Hプラス述語情報)再構成指示を受信待機し、受信すると(ステップS601のYes)、要素再構成部32は、対象文書群の文書間構造情報と各文書の4W1Hおよび述語の有無を調べ(ステップS602およびステップS603)、どちらもあれば(ステップS602のYesおよびステップS603のYes)、先頭の1文書の先頭の4W1Hおよび述語を読み込み(ステップS604)、先頭バッファに記憶する(ステップS606)。どちらもなければ(ステップS602のNo、またはステップS603のNo)、表示制御部17を介してモニタ18においてエラー表示を行い(ステップS605)、終了する。
次に、要素再構成部32は、次の4W1Hおよび述語を比較バッファへ読み込み、ステップS606で読み込んだ先頭バッファ内の情報と比較する(ステップS607)。比較する点は、例えばそれぞれの4W1Hおよび述語の4W1H属性情報間の重複の有無、同じ属性で違う表記の情報の有無などである。重複があれば、各情報へ重複情報を付与し、記憶部16に記憶する(ステップS609)。
もしも、要素再構成部32は、同じ属性で違う表記の情報があると判定すれば(ステップS610のYes)、知識辞書15bを利用して双方の関係を特定し、双方へ異表記情報を付与し、記憶部に記憶する(ステップS611)。ここで、同じ属性とは、4W1Hのうち、同じWあるいは、Hに属することである。重複情報、異表記情報は、例えばフラグ、特定コードなどで表現する。要素再構成部32は、2セットの4W1Hプラス述語情報の比較特定処理が終了すると、双方の4W1Hプラス述語情報を記憶する(ステップS612)。次の4W1Hおよび述語があれば(ステップS613のYes)、ステップS607に戻って、比較バッファの4W1Hプラス述語情報を先頭バッファへシフトし、3番目の4W1Hプラス述語情報を比較バッファへ読み込み、新たに比較特定処理を実施する。
もし、要素再構成部32は、次の4W1Hおよび述語がないと判定すれば(ステップS613のNo)、その時点での4W1Hおよび述語群が、必要4W1Hプラス述語情報を満たしているかどうかを調べる。必要4W1Hプラス述語情報とは、4W1Hプラス述語情報の全てが欠けることなく揃っている情報のことである(ステップS614)。
要素再構成部32は、満たしていると判定すれば(ステップS614のYes)、再構成した4W1Hプラス述語情報を選択して、記憶し(ステップS616)、要素再構成処理を終了する(ステップS617のYes)。もし満たしていない情報があると判定し(ステップS614のNo)、かつ次の文書があると判定した場合(ステップS615のYes)、ステップS603に戻って、次の文書の4W1Hおよび述語を読み込み、先頭の4W1Hおよび述語を比較バッファへ読み込み、比較特定処理を実施し、必要な4W1Hプラス述語情報が満たされるまで、繰り返す。
ここで、複数の文書情報からだけではなく、1つの文書情報の中にある複数の文章から4W1Hプラス述語情報を再構成することも可能である。
ここで、情報抽出装置30は、登録された文書群がメール文書群である場合において、4W1Hプラス述語情報を抽出して文書間関係情報により再構成する例について説明したが、登録された文書群がメール文書以外についても、適用できる。
例えば、登録された文書群が電子掲示板文書群である場合も、電子掲示板文書特有の文書間構造および電子掲示板文書特有の書誌情報に代表される文書周辺情報を取得し、テキストからの情報抽出で満たされないイベント付随の情報補完を行い、4W1Hプラス述語情報の再構成を行う構成とすることができる。
また、登録された文書群がチャット文書群である場合、チャット文書特有の文書間構造およびチャット文書特有の書誌情報に代表される文書周辺情報を取得し、テキストからの情報抽出で満たされないイベント付随の情報補完を行い、4W1Hプラス述語情報の再構成を行う構成とすることができる。
ここで、情報抽出装置30は、テキスト中の引用部分を文章対象外にすることで、対象文書に直接関係しない余計な4W1Hプラス述語情報を抽出することなく、上記の4W1Hプラス述語情報を再構成する構成とすることができる。
ここで、情報抽出装置30は、4W1Hおよび述語要素の重複による情報の無駄な増加を抑制しているが、必要な場合は、そのような抑制を解除する構成とすることもできる。
ここで、情報抽出装置30は、同じ属性で異なる表記の4W1Hプラス述語情報が複数存在する場合に、4W1Hプラス述語情報を、1つだけ選択する構成とすることができる。例えば、設定情報を「最新」「詳細」などにすることで、最新の4W1Hプラス述語情報や、最も詳細な4W1Hプラス述語情報を再構成する構成とすることができる。このような条件設定を、ユーザが任意に選択可能とすることができる。
(3.7.効果)
このように、実施の形態3による情報抽出装置30は、文書情報間の関係を特定し、特定された文書間の関係に基づいて、それぞれの文書情報から抽出された中から4W1Hプラス述語情報を再構成することによって、文書情報間の関係に基づいて、各文書情報から抽出された4W1Hプラス述語情報の中から、4W1Hプラス述語情報を再構成するので、複数ある文書情報の中から文書間の関係において最も相応しい4W1Hプラス述語情報を抽出することができる。
従って、ユーザがキーワードを入力したり、予め情報抽出定義をすることなく、複数の文書群で構成されるテキスト中のイベント付随の情報を精度良く抽出でき、例えばこのデータを用いて文書を閲覧する場合、抽出したキーワードをユーザが参照して文書の内容を理解する従来のキーワード抽出手法を用いた文書閲覧に比べ、イベントの纏まりで関連付けされた情報を参照したほうが直感的に文書の内容を理解しやすく、文書の内容をより早く簡単に正確に理解することが可能となる。
また、登録された文書群がメール文書群である場合、メール文書特有の文書間構造およびメール文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。
また、登録された文書群が電子掲示板文書群である場合、電子掲示板文書特有の文書間構造および電子掲示板文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。
また、登録された文書群がチャット文書群である場合、チャット文書特有の文書間構造およびチャット文書特有の書誌情報に代表される文書周辺情報を取得でき、テキストからの情報抽出で満たされないイベント付随の情報補完がよりよくできるようになり、情報抽出精度の向上が期待できる。
また、テキスト中の引用部分を文章対象外にすることで、対象文書に直接関係しない余計な4W1Hプラス述語情報を抽出せずに済むため、このような方式を採用しない情報抽出に比べ、紛らわしい情報がなくなる上、情報抽出の処理効率が向上するため、処理コストを低減できる。
また、4W1Hおよび述語要素の重複による情報の無駄な増加を抑制し、本方法搭載システムにて処理結果を閲覧する際に、ユーザが処理結果を理解しやすく、さらに情報抽出の処理効率が向上するため処理コストを低減できる。
また、同じ4W1H情報であって異なる表記の4W1Hプラス述語情報が複数存在する場合に、4W1Hプラス述語情報を、1つだけ選択することで、文書群中のイベントをユーザが混乱することなく理解しやすくなる。例えば、「午前中」という要素と「午前10時から12時」という要素の中から1つを選択することによって、より情報が単純化されてユーザにとって理解しやすいものとなる。あるいは、例えば設定情報を「最新」「詳細」などにすることで、最新の4W1Hプラスや、最も詳細な4W1H情報を、ユーザ任意に選択可能とすることができる。即ち、ユーザが条件を入力することによって、該入力された条件に最も相応しい4W1Hプラス述語情報を抽出することができる。
また、1つの文書の4W1Hおよび述語から必要情報が取得できない場合に、該文書の周辺情報および該文書と特定の文書間関係を有する別文書から必要情報を補完することができるため、イベント付随の情報補完がよりよくできるようになり、情報抽出精度を向上させることができる。
(4.実施の形態4)
実施の形態4による情報抽出装置が実施の形態3と異なる点は、変換部(不図示)が、要素抽出部33が関連付けて抽出した4W1Hプラス述語情報、および要素再構成部32が再構成した4W1Hプラス述語情報を、コンピュータが読み取りおよび解釈可能なデータ表現に変換することである。また、変換してモニタ18で表示することが望ましい。変換部は、機能的ブロック図としては、例えば、実施の形態2において示したと同様の位置に配設できる。
図24は、実施の形態4による情報抽出装置の変換部が、4W1Hプラス述語情報をRDF構文に変換した例と、RDFグラフの例とを示す図である。例えば4W1Hおよび述語の情報の語彙を定義したURI、http://example.org/a/termを用意し、その接頭辞をa:と表現し、既存の語彙(例えばダブリンコアなど)と共に用いる。対象文書に合致した既存の語彙があれば、新たに定義した語彙を用意する必要はない。本発明の情報抽出処理で4W1H情報+述語を取得した際、抽出情報を、文書情報と共に、例えばRDF/XMLに変換し、記憶することができる。図24のRDFグラフ形式に変換し、モニタ18でユーザに提示できる構成とできる。
図17、図20、図24を用いて、再構成された4W1Hおよび述語を、RDF構文に変換して記憶し、出力する例を説明する。例えば、情報抽出装置が起動され、図17の文書A〜Cが登録されたとする。このとき、文書登録と同時に、図20で示すようなコンテキストによる補完情報が生成される。情報抽出装置は、文書記憶部16が登録文書を記憶し、先の例で挙げた文書関係特定処理と同様の処理をする。次に先の例で挙げたように、各文書に対して統語構造を取得し4W1Hおよび述語を抽出し、図20に示すように各文書の4W1Hおよび述語を取得し、記憶する。次に先に挙げたように、文書の周辺情報による情報補完と各文書の4W1Hおよび述語からの情報補完を実施し、4W1Hプラス述語情報の選択処理、即ち要素再構成処理を施して、最終的な4W1Hおよび述語を得る。
次に、例えば4W1Hおよび述語の情報をプロパティ要素として有する語彙を定義したURI、本実施例ではhttp://example.org/a/term/を予め用意し、その接頭辞を例えば図24のRDF/XML変換例に示すように、a:と表現し、既存の語彙(例えばダブリンコアなど)と共に用いるようにする。対象文書に合致した既存の語彙があれば、それを用い、新たに定義した語彙を用意する必要はない。
次に抽出情報記憶部16cから、4W1Hおよび述語の単位で情報を取り出す。例えば図24の4W1Hおよび述語選択結果が得られれば、まず、RDF構文でテキストの内容を示す空白ノードを記述する。次に述語「設定」をノード要素として記述する。次にWhat情報「会議」をノード要素として記述する。次にWho情報「山田太郎」「佐藤直子」をノード要素として記述する。次にWhen情報「来月」「7日」「10時から12時まで」をノード要素として記述する。次にWhere情報「第一会議室」をノード要素として記述する。
これらに加えて、書誌情報から得られた情報もノード要素として記述する。ここでは、図19、および図20の書誌情報による補完情報で得られた情報としては文書のタイトル「会議日程」、作成者「山田太郎」「佐藤直子」、作成日「2005-8-23」をダブリンコアの接頭辞を用いてノード要素として記述する。
これらを記憶し、出力指示があれば、出力処理を実施する。図24では、抽出情報のRDF/XML変換例2410であり、RDF/XML構文、もしくはRDFグラフ形式2420が出力例として示されている。
このように、実施の形態4による情報抽出装置によると、ユーザがXMLやRDF構文知識をもたずとも、テキスト中のイベント付随情報をウェブ上で機械が処理できるデータに変換することが可能になる。即ち、複数の文書群で構成されるテキスト中のイベント付随情報を、自動的にRDF構文に変換することが可能なため、ユーザは情報抽出したデータをRDFエディタを使うことなく、特別なXMLやRDF構文知識をもたずとも、ウェブ上で機械が処理できるデータモデルを構築することが可能になる。
(5.ハードウェア構成)
図25は、実施の形態による情報抽出装置のハードウェア構成を示す図である。実施の形態による情報抽出装置は、図25に示すように、CPU(Central Processing Unit)2501などの制御装置と、ROM(Read Only Memory)2502やRAM(Random Access Memory)2503などの記憶装置と、HDD(Hard Disk Drive)、CD(Compact Disk)ドライブ装置等の外部記憶装置2504と、モニタ等の表示装置2505と、キーボードやマウス等の入力デバイス2506と、通信I/F2507と、これらを接続するバス2508を備えており、通常のコンピュータを利用したハードウェア構成となっている。
実施の形態による情報抽出装置で実行される情報抽出プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、実施の形態による情報抽出装置で実行される情報抽出プログラムを、インタネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、実施の形態による情報抽出装置で実行される情報抽出プログラムをインタネット等のネットワーク経由で提供または配布するように構成しても良い。また、実施の形態による情報抽出プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
実施の形態による情報抽出装置で実行される情報抽出プログラムは、上述した各部(文書登録部、言語解析部、要素抽出部、補完情報取得部、表示制御部、文書関係特定部、および要素再構成部など)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から情報抽出プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、文書登録部、言語解析部、要素抽出部、
補完情報取得部、表示制御部、文書関係特定部、および要素再構成部などが主記憶装置上
に生成されるようになっている。
以上のように、本発明にかかる情報抽出装置、情報抽出方法、およびその方法をコンピュータに実行させるプログラムは、情報抽出技術に有用であり、特に、文章情報に加工できる4W1Hプラス述語情報を抽出する技術に適している。
実施の形態1による情報抽出装置10の機能的ブロック図である。 知識辞書15bの記載の一例を説明する図である。 要素抽出部13による4W1Hプラス述語情報抽出の一例を説明する図である。 補完情報取得部14が、文書属性情報から4W1Hプラス述語情報抽出を補完する一例を説明する図である。 文書の定義を説明する図である。 補完情報取得部14が、テキストの他の箇所からの情報を抽出して補完する一例を説明する図である。 補完情報取得部14が、テキストの他の箇所および文書プロパティから情報を抽出して補完した一例を説明する図である。 図3、図4、図6、および図7における抽出処理を施したデータの出力例を示す図である。 実施の形態1による4W1Hプラス述語情報抽出手順を説明するフローチャートである。 言語解析手順を説明する図である。 4W1Hプラス述語情報抽出手順を説明するフローチャートである。 実施の形態2による情報抽出装置の機能的ブロック図である。 変換部が、取得された抽出要素を、RDF/XML構文へ変換した変換例と、RDFグラフへの変換例とを説明する図である。 実施形態3による情報抽出装置30の機能的ブロック図である。 文書関係特定部31が文書情報間の関係を特定するために適用する文書関係特定規則を説明する図である。 知識辞書15bの記載の一例を説明する図である。 実施の形態3による情報抽出装置30が、メール文書群における文書間関係を抽出することを説明する図である。 図17における文書Bから、4W1Hプラス述語情報を抽出することを説明する図である。 図17における文書BおよびCから、4W1Hおよび述語を抽出ことを説明する図である。 要素再構成部が、図17における文書A、B、およびCから、要素を再構成することを説明する図である。 実施の形態3による情報抽出手順を説明するフローチャートである。 文書関係特定手順を説明するフローチャートである。 要素再構成部32が、4W1Hプラス述語情報を再構成する手順を説明するフローチャートである。 実施の形態4による情報抽出装置の変換部が、4W1Hプラス述語情報をRDF構文に変換した例と、RDFグラフの例とを示す図である。 実施の形態による情報抽出装置のハードウェア構成を示す図である。 知識辞書15bの記載の一例を説明する図である。 要素抽出部13による4W1Hプラス述語情報抽出の一例を説明する図である。 文書プロパティに含まれる情報の一例を説明する図である。 補完情報取得部14が、文書プロパティから情報を抽出して補完した一例を説明する図である。 図26、図27、図28、および図29における抽出処理を施したデータの出力例を示す図である。
符号の説明
10、12、30 情報抽出装置
11 文書登録部
12 言語解析部
13、33 要素抽出部
14 補完情報取得部
17 表示制御部
31 文書関係特定部
32 要素再構成部

Claims (20)

  1. 入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析手段と、
    前記言語解析手段によって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出する要素抽出手段と、
    を備えたことを特徴とする情報抽出装置。
  2. 前記要素抽出手段は、前記テキスト情報と抽出した前記5要素の情報および述語情報を関連付けて記憶する記憶手段を備え、
    該テキスト情報と該5要素の情報および述語情報とを関連付けて表示する表示手段をさらに備えたことを特徴とする請求項1に記載の情報抽出装置。
  3. 文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか1つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記5要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶する知識辞書記憶手段をさらに備え、
    前記要素抽出手段は、前記知識辞書を使用して前記テキスト情報から前記5要素の情報および述語情報を抽出することを特徴とする請求項1又は2に記載の情報抽出装置。
  4. 前記関係情報が範囲に関連する情報であることを特徴とする請求項3に記載の情報抽出装置。
  5. 前記文書情報に付随する文書属性情報を補完情報として取得する第1の補完情報取得手段を、さらに備え、
    前記要素抽出手段は、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第1の補完情報取得手段により取得した前記補完情報により補完することを特徴とする請求項1から4のいずれか1項に記載の情報抽出装置。
  6. 前記文書情報の他のテキスト情報を補完情報として取得する第2の補完情報取得手段を、さらに備え、
    前記要素抽出手段は、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第2の補完情報取得手段により取得した前記補完情報により補完することを特徴とする請求項1から5のいずれか1項に記載の情報抽出装置。
  7. 他の文書情報の周辺情報及び前記5要素情報および述語情報を補完情報として取得する第3の補完情報取得手段と、
    前記文書情報間の関係を特定する文書関係特定手段と、
    前記5要素の情報および述語情報を再構成する要素再構成手段と、をさらに備え、
    前記要素抽出手段は、前記言語解析手段によって解析された統語構造を用いて特定した前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第3の補完情報取得手段によって取得した前記補完情報により補完し、
    前記要素再構成手段は、前記文書関係特定手段によって特定された文書間の関係に基づいて、前記要素抽出手段によって抽出した前記5要素の情報および述語情報を再構成することを特徴とする請求項1から6のいずれか1項に記載の情報抽出装置。
  8. 前記要素再構成手段は、前記第3の補完情報取得手段により取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする請求項7に記載の情報抽出装置。
  9. 前記要素再構成手段は、前記第3の補完情報取得手段により取得する補完情報同士、および前記5要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記5要素の情報および述語情報の中からそれぞれ1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする請求項7に記載の情報抽出装置。
  10. 前記要素再構成手段はさらに、前記文書関係特定手段によって関係が特定された他の文書情報から抽出された5要素の情報および述語情報に基づいて、前記5要素の情報および述語情報を再構成することを特徴とする請求項7に記載の情報抽出装置。
  11. 入力手段から入力された文書情報に含まれるテキスト情報の統語構造を解析する言語解析ステップと、
    前記言語解析ステップによって解析された統語構造を用いて前記テキスト情報から時期、場所、主体、対象、態様の5要素の情報および述語情報を抽出する要素抽出ステップと、
    を有することを特徴とする情報抽出方法。
  12. 前記要素抽出ステップは、前記テキスト情報と抽出した前記5要素の情報および述語情報を関連付けて記憶手段に記憶する記憶ステップを有し、
    該テキスト情報と該5要素の情報および述語情報とを関連付けて表示手段に表示する表示ステップをさらに有することを特徴とする請求項11に記載の情報抽出方法。
  13. 文節に属する単語の特定の品詞情報および特定の品詞情報の組み合わせの少なくともいずれか1つと、前記文節の係り先と係り受けとの関係情報と、前記関係情報が前記5要素の情報および述語情報のいずれに該当するかを示す意味解釈と、を記載する知識辞書を記憶手段に記憶する知識辞書記憶ステップをさらに有し、
    前記要素抽出ステップは、前記知識辞書を使用して前記テキスト情報から前記5要素の情報および述語情報を抽出することを特徴とする請求項11又は12に記載の情報抽出方法。
  14. 前記関係情報が範囲に関連する情報であることを特徴とする請求項13に記載の情報抽出方法。
  15. 前記文書情報に付随する文書属性情報を補完情報として取得する第1の補完情報取得ステップをさらに有し、
    前記要素抽出ステップは、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第1の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする請求項11から14のいずれか1項に記載の情報抽出方法。
  16. 前記文書情報の他のテキスト情報を補完情報として取得する第2の補完情報取得ステップをさらに有し、
    前記要素抽出ステップは、前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第2の補完情報取得ステップにより取得した前記補完情報により補完することを特徴とする請求項11から15のいずれか1項に記載の情報抽出方法。
  17. 他の文書情報の周辺情報及び前記5要素情報および述語情報を補完情報として取得する第3の補完情報取得ステップと、
    前記文書情報間の関係を特定する文書関係特定ステップと、
    前記5要素の情報および述語情報を再構成する要素再構成ステップと、をさらに有し、
    前記要素抽出ステップは、前記言語解析ステップによって解析された統語構造を用いて特定した前記テキスト情報からの前記5要素の情報および述語情報の抽出を、前記第3の補完情報取得ステップによって取得した前記補完情報により補完し、
    前記要素再構成ステップは、前記文書関係特定ステップによって特定された文書間の関係に基づいて、前記要素抽出ステップによって抽出した前記5要素の情報および述語情報を再構成することを特徴とする請求項11から16のいずれか1項に記載の情報抽出方法。
  18. 前記要素再構成ステップは、前記第3の補完情報取得ステップにより取得する補完情報同士において所定の重複度以上の重複度を有する場合、前記補完情報の中から1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする請求項17に記載の情報抽出方法。
  19. 前記要素再構成ステップは、前記第3の補完情報取得ステップにより取得する補完情報同士、および前記5要素の情報および述語情報同士において、所定の重複度以上の重複度を有する場合、前記補完情報および前記5要素の情報および述語情報の中からそれぞれ1つ選択して、前記5要素の情報および述語情報を再構成することを特徴とする請求項17に記載の情報抽出方法。
  20. 前記要素再構成ステップはさらに、前記文書関係特定ステップによって関係が特定された他の文書情報から抽出された5要素の情報および述語情報に基づいて、前記5要素の情報および述語情報を再構成することを特徴とする請求項17に記載の情報抽出方法。
JP2007038235A 2006-03-20 2007-02-19 情報抽出装置、及び情報抽出方法 Pending JP2007287134A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007038235A JP2007287134A (ja) 2006-03-20 2007-02-19 情報抽出装置、及び情報抽出方法
US11/687,852 US20070233465A1 (en) 2006-03-20 2007-03-19 Information extracting apparatus, and information extracting method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006077740 2006-03-20
JP2007038235A JP2007287134A (ja) 2006-03-20 2007-02-19 情報抽出装置、及び情報抽出方法

Publications (1)

Publication Number Publication Date
JP2007287134A true JP2007287134A (ja) 2007-11-01

Family

ID=38560463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007038235A Pending JP2007287134A (ja) 2006-03-20 2007-02-19 情報抽出装置、及び情報抽出方法

Country Status (2)

Country Link
US (1) US20070233465A1 (ja)
JP (1) JP2007287134A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006802A (ja) * 2012-06-26 2014-01-16 Nippon Telegr & Teleph Corp <Ntt> 文書間関係推定装置、方法、及びプログラム
JP2022095952A (ja) * 2018-04-12 2022-06-28 富士通株式会社 生成プログラム、生成方法および情報処理装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533795B2 (en) * 2007-03-19 2013-09-10 Ricoh Company, Ltd. Information processing apparatus, information processing method, information processing program, and computer-readable medium
JP2008268995A (ja) * 2007-04-16 2008-11-06 Sony Corp 辞書データ生成装置、文字入力装置、辞書データ生成方法、文字入力方法
JP5106155B2 (ja) * 2008-01-29 2012-12-26 株式会社東芝 文書処理装置、方法及びプログラム
JP2009245418A (ja) * 2008-03-13 2009-10-22 Ricoh Co Ltd 画像読取蓄積システム、画像読取蓄積方法、プログラム及び記憶媒体
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
JP2010198203A (ja) * 2009-02-24 2010-09-09 Fuji Xerox Co Ltd 情報処理装置及びプログラム
EP2702508A4 (en) * 2011-04-27 2015-07-15 Vadim Berman GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
US9747280B1 (en) * 2013-08-21 2017-08-29 Intelligent Language, LLC Date and time processing
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP5904559B2 (ja) 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP6642429B2 (ja) * 2014-07-23 2020-02-05 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN104378441B (zh) * 2014-11-25 2017-12-22 小米科技有限责任公司 日程创建方法和装置
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
CN107797991B (zh) * 2017-10-23 2020-11-24 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
WO2020054244A1 (ja) * 2018-09-13 2020-03-19 株式会社Nttドコモ 対話情報生成装置
CN111104624B (zh) * 2018-10-25 2023-08-22 富士通株式会社 内容提取方法和设备以及存储介质
JP7374215B2 (ja) * 2019-12-03 2023-11-06 富士フイルム株式会社 文書作成支援装置、方法およびプログラム
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429205B2 (en) * 1995-07-27 2013-04-23 Digimarc Corporation Associating data with media signals in media signal systems through auxiliary data steganographically embedded in the media signals
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
CN1100300C (zh) * 1996-10-16 2003-01-29 夏普公司 字符输入装置
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
JP3597370B2 (ja) * 1998-03-10 2004-12-08 富士通株式会社 文書処理装置および記録媒体
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP2003242136A (ja) * 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
JPWO2004019225A1 (ja) * 2002-08-26 2005-12-15 富士通株式会社 状況付情報を処理する装置および方法
JP3891909B2 (ja) * 2002-09-03 2007-03-14 日本アイ・ビー・エム株式会社 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
KR101007613B1 (ko) * 2003-03-12 2011-01-12 토요엔지니어링 카부시키가이샤 키워드를 이용한 데이터의 등록, 검색을 지원하는 장치
US20060036633A1 (en) * 2004-08-11 2006-02-16 Oracle International Corporation System for indexing ontology-based semantic matching operators in a relational database system
US8386453B2 (en) * 2004-09-30 2013-02-26 Google Inc. Providing search information relating to a document
US20060245641A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
JP2007094544A (ja) * 2005-09-27 2007-04-12 Fuji Xerox Co Ltd 情報検索システム
US20070083510A1 (en) * 2005-10-07 2007-04-12 Mcardle James M Capturing bibliographic attribution information during cut/copy/paste operations
US20070118399A1 (en) * 2005-11-22 2007-05-24 Avinash Gopal B System and method for integrated learning and understanding of healthcare informatics

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006802A (ja) * 2012-06-26 2014-01-16 Nippon Telegr & Teleph Corp <Ntt> 文書間関係推定装置、方法、及びプログラム
JP2022095952A (ja) * 2018-04-12 2022-06-28 富士通株式会社 生成プログラム、生成方法および情報処理装置
JP7351372B2 (ja) 2018-04-12 2023-09-27 富士通株式会社 生成プログラム、生成方法および情報処理装置

Also Published As

Publication number Publication date
US20070233465A1 (en) 2007-10-04

Similar Documents

Publication Publication Date Title
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US11113304B2 (en) Techniques for creating computer generated notes
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US20030158723A1 (en) Syntactic information tagging support system and method
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
JP5315368B2 (ja) 文書処理装置
WO2007105202A2 (en) Automatic reusable definitions identification (rdi) method
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP2004310691A (ja) 文章情報処理装置
JPWO2008108061A1 (ja) 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP5187187B2 (ja) 体験情報検索システム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004287781A (ja) 重要度算出装置
KR101476230B1 (ko) 자연어와 수학식이 포함된 복합문장의 시맨틱 정보 추출방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP4397221B2 (ja) テキスト文から抽出した情報を利用したリンク設定装置およびその方法
JP2009252143A (ja) 機械翻訳装置及びプログラム
JP2003173338A (ja) 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム