JP5176481B2 - 関係知識抽出装置 - Google Patents

関係知識抽出装置 Download PDF

Info

Publication number
JP5176481B2
JP5176481B2 JP2007278274A JP2007278274A JP5176481B2 JP 5176481 B2 JP5176481 B2 JP 5176481B2 JP 2007278274 A JP2007278274 A JP 2007278274A JP 2007278274 A JP2007278274 A JP 2007278274A JP 5176481 B2 JP5176481 B2 JP 5176481B2
Authority
JP
Japan
Prior art keywords
information
knowledge
sentence
extracted
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007278274A
Other languages
English (en)
Other versions
JP2009104561A (ja
Inventor
宏 梅基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007278274A priority Critical patent/JP5176481B2/ja
Publication of JP2009104561A publication Critical patent/JP2009104561A/ja
Application granted granted Critical
Publication of JP5176481B2 publication Critical patent/JP5176481B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストから仮説と根拠の関係知識を抽出する関係知識抽出装置およびプログラムに関する。
診断や企画、アイデア立案などについて記述するテキストには、仮説とその根拠が示される。そうした仮説と根拠の関係知識をテキスト中から精度よく抽出することができれば、知識ベースの自動構築や、整合性のチェックによる校正支援、検索、テキストマイニングなどに役立てることができる。
ここで、非特許文献1には、テキストから因果関係知識を自動的に抽出する方法が示されており、同文献によると接続詞「ため」を手がかりにしている。また、同文献には、関連研究として、“cause”や“force”といった使役動詞を手がかりとする方法や、予め人手で作成しておいた知識ベースを利用して、手がかりを伴わない非明示的な因果関係を推定する方法などが示されている。
乾孝司・乾健太郎・松本裕治、"接続詞「ため」を含む複文から因果関係知識を獲得する"、情報処理学会自然言語処理研究会、NL-150-25、2002 乾孝司・奥村学、"文書内に現れる因果関係の出現特性調査"、情報処理学会自然言語処理研究会、NL-167-12、2005
非特許文献1によると、明示的な手がかり標識によって表された因果関係知識は抽出できるが、非特許文献2で指摘されているように、文書内に現れる因果関係は手がかりとなる標識を伴わない場合の方が多い。例えば、或る医療機関における読影レポートの記述を見ると、接続詞「ので」は殆どの場合において理由を表すために使われており、原因を表すことは少ないということがある。この場合、診断の仮説とその根拠を表すときは、手がかり標識を伴わない非明示的な表現形式をとることが多い。
一方で、知識ベースを利用して非明示的な因果関係を求める方法では、ベースとなるデータの作成に大きなコストがかかり、精度よく関係知識を抽出するシステムを構築することが難しい。
本発明は、上記従来の事情に鑑みなされたものであり、手がかり標識を伴わず非明示的にテキスト中に記述されている仮説と根拠の関係知識を抽出することを目的としている。
請求項1に記載の本発明は、テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する文単位の文字列同士が順接の接続関係にある場合に該連続する文単位が順接であることを示す接続情報を付加して出力する第1の抽出手段と、文単位の文字列から、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文単位の文字列の文脈が内容に不確実性が含まれる表現であるモーダル表現を含む場合にはモーダル表現情報を付加して出力する第2の抽出手段と、前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある文単位の文字列同士のうち、後方の文字列の文脈がモーダル表現の場合に、前方の文字列から抽出した知識表現情報を根拠情報とし、後方の文字列から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段と、を備えたことを特徴とする関係知識抽出装置である。
請求項2に記載の本発明は、請求項1に記載の関係知識抽出装置において、前記第3の抽出手段は、順接の接続関係にある文単位の文字列同士のうち、前方の文字列の文脈がモーダル表現でなく且つ後方の文字列の文脈がモーダル表現の場合に、前方の文字列から抽出した知識表現情報を根拠情報とし、後方の文字列から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする。
請求項3に記載の本発明は、請求項1又は請求項2に記載の関係知識抽出装置において、前記抽出した関係知識情報を抽出元のテキストに対応付けて記憶する記憶手段を備えたことを特徴とする。
請求項4に記載の本発明は、コンピュータを、テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する文単位の文字列同士が順接の接続関係にある場合に該連続する文単位が順接であることを示す接続情報を付加して出力する第1の抽出手段と、文単位の文字列から、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文単位の文字列の文脈が内容に不確実性が含まれる表現であるモーダル表現を含む場合にはモーダル表現情報を付加して出力する第2の抽出手段と、前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある文単位の文字列同士のうち、後方の文字列の文脈がモーダル表現の場合に、前方の文字列から抽出した知識表現情報を根拠情報とし、後方の文字列から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段として機能させるための関係知識抽出プログラムである。
請求項5に記載の本発明は、請求項4に記載の関係知識抽出プログラムにおいて、前記第3の抽出手段は、順接の接続関係にある文単位の文字列同士のうち、前方の文字列の文脈がモーダル表現でなく且つ後方の文字列の文脈がモーダル表現の場合に、前方の文字列から抽出した知識表現情報を根拠情報とし、後方の文字列から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする。
請求項1に記載の関係知識抽出装置によると、手がかり標識を伴わず非明示的にテキスト中に記述されている仮説と根拠の関係知識を抽出することができる。
請求項2に記載の関係知識抽出装置によると、より根拠が強い関係知識を抽出することができる。
請求項3に記載の関係知識抽出装置によると、抽出元のテキストに対応付けて記憶した関係知識を検索やテキストマイニングなどに役立てることができる。
請求項4に記載の関係知識抽出プログラムによると、手がかり標識を伴わず非明示的にテキスト中に記述されている仮説と根拠の関係知識を抽出することができる。
請求項5に記載の関係知識抽出プログラムによると、より根拠が強い関係知識を抽出するができる。
本発明を、以下に例示する一実施形態に基づいて具体的に説明する。
図1は、本例に係る関係知識抽出装置の機能ブロック図を示している。
本例の関係知識抽出装置は、解析対象のテキストを格納するテキスト格納手段1、テキストから文もしくは節を抽出する(節を抽出する際は節の文末表現を整える)とともに、文の接続情報を抽出するテキスト前処理手段2、文を解析して構文の係り受け構造を求める構文解析手段3、構文解析結果から意味表現を求める意味解析手段4、文脈情報や事象関係を含むような知識表現を意味表現から求める知識解析手段5、知識表現と文の接続情報とから、仮説と根拠の命題関係が現れている箇所を判定する命題関係判定手段6、知識表現から命題関係を抽出する命題関係抽出手段7、を備えている。
テキスト格納手段1は、解析対象のテキストを格納している。本例では、図2に示すように、「近接する下顎骨の骨髄脂肪織に濃度上昇が見られます。下顎骨の骨髄炎に起因した頬腫脹の可能性が高いように思われます。」という文章が記述された医療の読影レポートが、テキスト格納手段1に格納されている。
テキスト前処理手段2は、テキスト格納手段1に格納されているテキストから、文もしくは節を記述されている順番に従って取り出す。また、その際に、当該テキスト中で連続する文同士が順接の接続関係にあるか否かを示す接続情報を、これらの文に関係付けて付加する。なお、文から節を取り出す場合は、節の文末を終止形に変形し、元の文末が主節に接続する順逆の情報を接続情報として付加する。
図3は、図2に示したテキストからの抽出結果を示しており、第1文として「近接する下顎骨の骨髄脂肪織に濃度上昇が見られます。」が抽出され、第2文として「下顎骨の骨髄炎に起因した頬腫脹の可能性が高いように思われます。」が抽出され、また、これら文同士の接続関係が順接であることから、接続情報として「順接」が付加されていることが分かる。
構文解析手段3は、テキスト前処理手段2で取り出された文を構文解析し、少なくとも構文構成要素の係り受け構造を求める。なお、「増市博・大熊智子、“Lexical Functional Grammarに基づく実用的な日本語解析システムの構築”、自然言語処理、2003、Vol.10、No.2、pp.79-109」(文献1)に述べられている構文解析技術を用いることで、入力文から、構文構成要素の係り受け構造とともに、主語や目的語などといった文法的役割を含めた述語項構造も併せて得ることができる。
意味解析手段4は、構文解析手段3で得られた構文の係り受け構造から、構文構成要素の意味表現を求める。ここで、上記文献1に述べられてるLFG解析システムの結果には、文の入れ子構造や、述語と主語・目的語等の関係などが含まれており、「R. Crouch、“Packed rewriting for mapping semantics to KR”、In Proceedings of the Sixth International Workshop on Computational Semantics、2005」(文献2)に述べられている意味解析技術を用いることで、入力文に対応する文脈つきの一階述語論理式を得ることができる。なお、上記意味解析技術は英語のテキストを入力とするものだが、「H. Umemoto、“Implementing a Japanese semantic parser based on Glue approach”、In Proceedings of The 20th Pacific Asia Conference on Language、Information and Computation、2006」(文献3)には、日本語に対する同様の意味解析技術が述べられている。
図4は、意味解析手段4で求めた意味表現を示している。
(1)は第1文「近接する下顎骨の骨髄脂肪織に濃度上昇が見られます。」から得た意味表現を示す論理式である。論理式の第1項は、文脈を表しており、「t」は常に真であることを示す。第2項は述語を表しており、第3項以降は述語に対応する項を表している。また、数字を含む述語や項は、文字列ラベルで表される実体を指しており、例えば「見られる:0」は「見られる」という或る状態を、「上昇:0」は「上昇」という或る現象をそれぞれ指すことになる。
(2)は第2文「下顎骨の骨髄炎に起因した頬腫脹の可能性が高いように思われます。」から得た論理式である。なお、当該論理式では、文脈を表す第1項がいずれも「ctx(思われる:0)」となっており、各述語が「思われる」という文脈における表現であることを示している。
知識解析手段5は、意味解析手段4で得られた意味表現から、上記文献2に述べられている知識解析技術を用いることで、文脈つきで概念を要素とする知識表現を求める。
図5は、知識解析手段5で求めた知識表現を示しており、(1)は第1文に対応する知識表現、(2)は第2文に対応する知識表現を示している。知識表現の第1項は意味表現と同様に文脈を表し、第2項以降の要素は特定の実体を表すような概念で記述されている。ここで、第2文の「可能性」は内容に不確実性が含まれていることを示す書き手の推測を表すモーダル表現であり、知識表現では「思われる」の文脈と合わさって、文脈c3として「〜の可能性が高いと思われる」が設定されている。
内容に不確実性が含まれる表現とは、その文の文末表現により内容が可能性や推測であることを表している場合や、文中における不確実性を表す単語を含む文(例えば、「この腫瘍は確実に良性です。」の、「確実」という単語を用いた表現は、腫瘍が良性であることが確実であるとの文の作成者の推測を表したもの)による表現等がある。
なお、例えば、「観察-ev:4」は、述語「見られる」の概念である「観察」を表す出来事(イベント;ev)の文脈情報であり、このような出来事の文脈情報に基づいて、事象を表す命題を得ることができる。具体的には、第1文から事象「観察-ev:4」を表す命題が、第2文から事象「存在-ev:5」と事象「Cause-ev:1」を表す2つの命題がそれぞれ得られる。
命題関係判定手段6は、知識解析手段5で得られた知識表現の文脈で示されているモーダル情報と、テキスト前処理手段2で抽出した接続情報とに基づいて、仮説とその根拠をそれぞれ表す命題同士の関係が現れている箇所を判定する。
本例では、第1文がモーダル表現を含まず、順接を挟んで、モーダル表現を含む第2文につながっている箇所を、命題関係を抽出する対象としている。なお、第1文がモーダル表現を含み、順接を挟んで、モーダル表現を含む第2文につながっている箇所も、命題関係を抽出する対象とすることができるが、この場合は、前述の場合に較べて根拠が弱いことになる。
命題関係抽出手段7は、命題関係判定手段6で抽出対象とされた箇所の知識表現から、仮説とその根拠をそれぞれ表す命題を抽出する。すなわち、本例では、順接を挟んで後方に接続されたモーダル表現の第2文における事象を表す命題を仮説とし、順接を挟んで前方に接続された非モーダル表現の第1文における事象を表す命題を前記仮説の根拠として、両者を対応付けた関係知識情報を抽出する。具体的には、第1文から「観察-ev:4(上昇:0, 脂肪織:0)」を、第2文から「存在-ev:5(腫脹:0, 脂肪織:0)」と「Cause-ev:1(骨髄炎:0, 腫脹:0)」をそれぞれ抽出し、後者の2つの命題を仮説とし、前者を当該仮説に対する根拠とする命題関係を抽出結果として出力する。一方、それ以外の関係や属性などを表す命題、例えば「部位-rel:2(脂肪織:0, 骨髄:0)」などは抽出しない。
このように抽出した関係知識情報は、例えば、ディスプレイ画面への表示出力や紙媒体等への印刷出力により利用者に提示してもよく、テキストの校正を支援するための整合性チェック処理に用いてもよく、抽出元のテキストに対応付けて記憶手段に記憶しておき、検索やテキストマイニングなどに役立てるようにしてもよい。
なお、テキスト前処理手段2、構文解析手段3、意味解析手段4、知識解析手段5に代えて、文を単語のレベルで解析する文解析手段を設けてもよい。
すなわち、文解析手段にて、出来事といった事象を表す表現や、事実の断定表現や、書き手が可能性や推測といった文が内容の不確実性を含むことを表したモーダル表現などの文脈情報、及び、順接(例えば「そして」)や逆接(例えば「しかし」)など文同士の接続情報を抽出する。そして、命題関係判定手段6が、2つの事象の間に順接表現があり、少なくとも2つのうちの後方にモーダル表現が現れている箇所を文解析手段の解析結果から特定すればよい。
このように、単語レベルの解析のみを行うことで検索の精度は低下するが、解析に必要な時間や記憶容量、必要なデータなどの計算資源を削減することができる。
図6は、本例の関係知識抽出装置の主要なハードウェア構成を示している。
すなわち、本例の関係知識抽出装置は、各種演算処理を行うCPU、CPUの作業領域となるRAM、基本的な制御プログラムを記憶するROM、本発明に係る各機能を実現するためのプログラム等を記憶するHDD、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F、他の装置との間で通信を行うインターフェースである通信I/F、等のハードウェア資源を有するコンピュータで構成されている。
そして、本発明に係るプログラムをHDDから読み出してRAMに展開し、これをCPUにより実行させることで、本発明に係る各機能手段を、関係知識抽出装置のコンピュータに実現している。
なお、本発明に係るプログラムは、例えば、当該プログラムを記憶したCD−ROM等の外部記憶媒体を配布する形式や、ネットワークを介して配信する形式により、本発明の実施者に提供される。
また、本発明に係る関係知識抽出装置の各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、専用のハードウエアモジュールで構成してもよい。
また、本発明に係る関係知識抽出装置の各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
本発明の一実施形態に係る関係知識抽出装置の機能ブロック図である。 本発明の一実施形態に係る解析対象のテキスト例を示す図である。 本発明の一実施形態に係るテキスト前処理の結果を示す図である。 本発明の一実施形態に係る意味解析処理の結果を例示する図である。 本発明の一実施形態に係る知識解析処理の結果を例示する図である。 本発明の一実施形態に係る関係知識抽出装置のハードウェア構成図である。
符号の説明
1:テキスト格納手段、
2:テキスト前処理手段、
3:構文解析手段、
4:意味解析手段、
5:知識解析手段、
6:命題関係判定手段、
7:命題関係抽出手段

Claims (5)

  1. テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する2つの文が順接の接続関係にある場合には当該2つの文が順接であることを示す接続情報を付加して出力する第1の抽出手段と、
    テキストから抽出された文毎に、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文脈の内容に不確実性が含まれる表現であるモーダル表現を含む文の場合には当該文の文脈がモーダル表現であることを示すモーダル表現情報を付加して出力する第2の抽出手段と、
    前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある連続する2つの文のうち、後方のの文脈がモーダル表現の場合に、前方のから抽出した知識表現情報を根拠情報とし、後方のから抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段と、
    を備えたことを特徴とする関係知識抽出装置。
  2. 前記第3の抽出手段は、順接の接続関係にある連続する2つの文のうち、前方のの文脈がモーダル表現でなく且つ後方のの文脈がモーダル表現の場合に、前方のから抽出した知識表現情報を根拠情報とし、後方のから抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする請求項1に記載の関係知識抽出装置。
  3. 前記抽出した関係知識情報を抽出元のテキストに対応付けて記憶する記憶手段を備えたことを特徴とする請求項1又は請求項2に記載の関係知識抽出装置。
  4. コンピュータを、
    テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する2つの文が順接の接続関係にある場合には当該2つの文が順接であることを示す接続情報を付加して出力する第1の抽出手段と、
    テキストから抽出された文毎に、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文脈の内容に不確実性が含まれる表現であるモーダル表現を含む文の場合には当該文の文脈がモーダル表現であることを示すモーダル表現情報を付加して出力する第2の抽出手段と、
    前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある連続する2つの文のうち、後方のの文脈がモーダル表現の場合に、前方のから抽出した知識表現情報を根拠情報とし、後方のから抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段として機能させるための関係知識抽出プログラム。
  5. 前記第3の抽出手段は、順接の接続関係にある連続する2つの文のうち、前方のの文脈がモーダル表現でなく且つ後方のの文脈がモーダル表現の場合に、前方のから抽出した知識表現情報を根拠情報とし、後方のから抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする請求項4に記載の関係知識抽出プログラム。
JP2007278274A 2007-10-26 2007-10-26 関係知識抽出装置 Expired - Fee Related JP5176481B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007278274A JP5176481B2 (ja) 2007-10-26 2007-10-26 関係知識抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007278274A JP5176481B2 (ja) 2007-10-26 2007-10-26 関係知識抽出装置

Publications (2)

Publication Number Publication Date
JP2009104561A JP2009104561A (ja) 2009-05-14
JP5176481B2 true JP5176481B2 (ja) 2013-04-03

Family

ID=40706146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007278274A Expired - Fee Related JP5176481B2 (ja) 2007-10-26 2007-10-26 関係知識抽出装置

Country Status (1)

Country Link
JP (1) JP5176481B2 (ja)

Also Published As

Publication number Publication date
JP2009104561A (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
Collard et al. An XML-based lightweight C++ fact extractor
US7080004B2 (en) Grammar authoring system
US7827155B2 (en) System for processing formatted data
US7711546B2 (en) User interface for machine aided authoring and translation
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
US8171462B2 (en) User declarative language for formatted data processing
Casalnuovo et al. Studying the difference between natural and programming language corpora
KR20050058189A (ko) 정보 추출을 위한 일반화된 스트링 패턴의 학습 및 사용
WO2007124176A2 (en) Machine declarative language for formatted data processing
CN110413996B (zh) 构造零指代消解语料的方法及装置
Dickinson et al. Dependency annotation for learner corpora
CN111985232A (zh) 基于nlp的机载显控系统需求的领域模型提取方法
JP5228451B2 (ja) 文書検索装置
JP2009128968A (ja) 表記ゆれ解析装置
JP5176481B2 (ja) 関係知識抽出装置
CN112699642B (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
CN111753555B (zh) 一种基于MathML的数学公式到盲文的翻译方法及系统
CN112836477B (zh) 代码注释文档的生成方法、装置、电子设备及存储介质
JP2004102554A (ja) 文章画像変換ツール
KR101164014B1 (ko) 스프레드시트 구동 장치 및 방법
Love Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO
JP2010117832A (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体
Dash et al. POSIT: Simultaneously Tagging Natural and Programming Languages
Alfter Analyzer and generator for Pali

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100922

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110505

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121224

R150 Certificate of patent or registration of utility model

Ref document number: 5176481

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees