JP5176481B2 - 関係知識抽出装置 - Google Patents
関係知識抽出装置 Download PDFInfo
- Publication number
- JP5176481B2 JP5176481B2 JP2007278274A JP2007278274A JP5176481B2 JP 5176481 B2 JP5176481 B2 JP 5176481B2 JP 2007278274 A JP2007278274 A JP 2007278274A JP 2007278274 A JP2007278274 A JP 2007278274A JP 5176481 B2 JP5176481 B2 JP 5176481B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- knowledge
- sentence
- extracted
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方で、知識ベースを利用して非明示的な因果関係を求める方法では、ベースとなるデータの作成に大きなコストがかかり、精度よく関係知識を抽出するシステムを構築することが難しい。
図1は、本例に係る関係知識抽出装置の機能ブロック図を示している。
本例の関係知識抽出装置は、解析対象のテキストを格納するテキスト格納手段1、テキストから文もしくは節を抽出する(節を抽出する際は節の文末表現を整える)とともに、文の接続情報を抽出するテキスト前処理手段2、文を解析して構文の係り受け構造を求める構文解析手段3、構文解析結果から意味表現を求める意味解析手段4、文脈情報や事象関係を含むような知識表現を意味表現から求める知識解析手段5、知識表現と文の接続情報とから、仮説と根拠の命題関係が現れている箇所を判定する命題関係判定手段6、知識表現から命題関係を抽出する命題関係抽出手段7、を備えている。
(1)は第1文「近接する下顎骨の骨髄脂肪織に濃度上昇が見られます。」から得た意味表現を示す論理式である。論理式の第1項は、文脈を表しており、「t」は常に真であることを示す。第2項は述語を表しており、第3項以降は述語に対応する項を表している。また、数字を含む述語や項は、文字列ラベルで表される実体を指しており、例えば「見られる:0」は「見られる」という或る状態を、「上昇:0」は「上昇」という或る現象をそれぞれ指すことになる。
(2)は第2文「下顎骨の骨髄炎に起因した頬腫脹の可能性が高いように思われます。」から得た論理式である。なお、当該論理式では、文脈を表す第1項がいずれも「ctx(思われる:0)」となっており、各述語が「思われる」という文脈における表現であることを示している。
図5は、知識解析手段5で求めた知識表現を示しており、(1)は第1文に対応する知識表現、(2)は第2文に対応する知識表現を示している。知識表現の第1項は意味表現と同様に文脈を表し、第2項以降の要素は特定の実体を表すような概念で記述されている。ここで、第2文の「可能性」は内容に不確実性が含まれていることを示す書き手の推測を表すモーダル表現であり、知識表現では「思われる」の文脈と合わさって、文脈c3として「〜の可能性が高いと思われる」が設定されている。
内容に不確実性が含まれる表現とは、その文の文末表現により内容が可能性や推測であることを表している場合や、文中における不確実性を表す単語を含む文(例えば、「この腫瘍は確実に良性です。」の、「確実」という単語を用いた表現は、腫瘍が良性であることが確実であるとの文の作成者の推測を表したもの)による表現等がある。
本例では、第1文がモーダル表現を含まず、順接を挟んで、モーダル表現を含む第2文につながっている箇所を、命題関係を抽出する対象としている。なお、第1文がモーダル表現を含み、順接を挟んで、モーダル表現を含む第2文につながっている箇所も、命題関係を抽出する対象とすることができるが、この場合は、前述の場合に較べて根拠が弱いことになる。
すなわち、文解析手段にて、出来事といった事象を表す表現や、事実の断定表現や、書き手が可能性や推測といった文が内容の不確実性を含むことを表したモーダル表現などの文脈情報、及び、順接(例えば「そして」)や逆接(例えば「しかし」)など文同士の接続情報を抽出する。そして、命題関係判定手段6が、2つの事象の間に順接表現があり、少なくとも2つのうちの後方にモーダル表現が現れている箇所を文解析手段の解析結果から特定すればよい。
このように、単語レベルの解析のみを行うことで検索の精度は低下するが、解析に必要な時間や記憶容量、必要なデータなどの計算資源を削減することができる。
すなわち、本例の関係知識抽出装置は、各種演算処理を行うCPU、CPUの作業領域となるRAM、基本的な制御プログラムを記憶するROM、本発明に係る各機能を実現するためのプログラム等を記憶するHDD、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F、他の装置との間で通信を行うインターフェースである通信I/F、等のハードウェア資源を有するコンピュータで構成されている。
そして、本発明に係るプログラムをHDDから読み出してRAMに展開し、これをCPUにより実行させることで、本発明に係る各機能手段を、関係知識抽出装置のコンピュータに実現している。
また、本発明に係る関係知識抽出装置の各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、専用のハードウエアモジュールで構成してもよい。
また、本発明に係る関係知識抽出装置の各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
2:テキスト前処理手段、
3:構文解析手段、
4:意味解析手段、
5:知識解析手段、
6:命題関係判定手段、
7:命題関係抽出手段
Claims (5)
- テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する2つの文が順接の接続関係にある場合には当該2つの文が順接であることを示す接続情報を付加して出力する第1の抽出手段と、
テキストから抽出された文毎に、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文脈の内容に不確実性が含まれる表現であるモーダル表現を含む文の場合には当該文の文脈がモーダル表現であることを示すモーダル表現情報を付加して出力する第2の抽出手段と、
前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある連続する2つの文のうち、後方の文の文脈がモーダル表現の場合に、前方の文から抽出した知識表現情報を根拠情報とし、後方の文から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段と、
を備えたことを特徴とする関係知識抽出装置。 - 前記第3の抽出手段は、順接の接続関係にある連続する2つの文のうち、前方の文の文脈がモーダル表現でなく且つ後方の文の文脈がモーダル表現の場合に、前方の文から抽出した知識表現情報を根拠情報とし、後方の文から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする請求項1に記載の関係知識抽出装置。
- 前記抽出した関係知識情報を抽出元のテキストに対応付けて記憶する記憶手段を備えたことを特徴とする請求項1又は請求項2に記載の関係知識抽出装置。
- コンピュータを、
テキストから文字列を文単位で抽出するとともに、当該テキスト中で連続する2つの文が順接の接続関係にある場合には当該2つの文が順接であることを示す接続情報を付加して出力する第1の抽出手段と、
テキストから抽出された文毎に、文脈を含む概念要素からなる知識表現を表す知識表現情報を抽出するとともに、文脈の内容に不確実性が含まれる表現であるモーダル表現を含む文の場合には当該文の文脈がモーダル表現であることを示すモーダル表現情報を付加して出力する第2の抽出手段と、
前記接続情報及び前記モーダル表現情報に基づいて、順接の接続関係にある連続する2つの文のうち、後方の文の文脈がモーダル表現の場合に、前方の文から抽出した知識表現情報を根拠情報とし、後方の文から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出する第3の抽出手段として機能させるための関係知識抽出プログラム。 - 前記第3の抽出手段は、順接の接続関係にある連続する2つの文のうち、前方の文の文脈がモーダル表現でなく且つ後方の文の文脈がモーダル表現の場合に、前方の文から抽出した知識表現情報を根拠情報とし、後方の文から抽出した知識表現情報を仮説情報として対応付けた関係知識情報を抽出することを特徴とする請求項4に記載の関係知識抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007278274A JP5176481B2 (ja) | 2007-10-26 | 2007-10-26 | 関係知識抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007278274A JP5176481B2 (ja) | 2007-10-26 | 2007-10-26 | 関係知識抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009104561A JP2009104561A (ja) | 2009-05-14 |
JP5176481B2 true JP5176481B2 (ja) | 2013-04-03 |
Family
ID=40706146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007278274A Expired - Fee Related JP5176481B2 (ja) | 2007-10-26 | 2007-10-26 | 関係知識抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5176481B2 (ja) |
-
2007
- 2007-10-26 JP JP2007278274A patent/JP5176481B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009104561A (ja) | 2009-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
Collard et al. | An XML-based lightweight C++ fact extractor | |
US7080004B2 (en) | Grammar authoring system | |
US7827155B2 (en) | System for processing formatted data | |
US7711546B2 (en) | User interface for machine aided authoring and translation | |
JP4940325B2 (ja) | 文書校正支援装置、方法およびプログラム | |
US8171462B2 (en) | User declarative language for formatted data processing | |
Casalnuovo et al. | Studying the difference between natural and programming language corpora | |
KR20050058189A (ko) | 정보 추출을 위한 일반화된 스트링 패턴의 학습 및 사용 | |
WO2007124176A2 (en) | Machine declarative language for formatted data processing | |
CN110413996B (zh) | 构造零指代消解语料的方法及装置 | |
Dickinson et al. | Dependency annotation for learner corpora | |
CN111985232A (zh) | 基于nlp的机载显控系统需求的领域模型提取方法 | |
JP5228451B2 (ja) | 文書検索装置 | |
JP2009128968A (ja) | 表記ゆれ解析装置 | |
JP5176481B2 (ja) | 関係知識抽出装置 | |
CN112699642B (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 | |
CN111753555B (zh) | 一种基于MathML的数学公式到盲文的翻译方法及系统 | |
CN112836477B (zh) | 代码注释文档的生成方法、装置、电子设备及存储介质 | |
JP2004102554A (ja) | 文章画像変換ツール | |
KR101164014B1 (ko) | 스프레드시트 구동 장치 및 방법 | |
Love | Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO | |
JP2010117832A (ja) | 関係情報抽出装置、その方法、プログラム及び記録媒体 | |
Dash et al. | POSIT: Simultaneously Tagging Natural and Programming Languages | |
Alfter | Analyzer and generator for Pali |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100922 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101118 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110505 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5176481 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |