JP6074820B2 - アノテーション補助装置及びそのためのコンピュータプログラム - Google Patents
アノテーション補助装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP6074820B2 JP6074820B2 JP2015011491A JP2015011491A JP6074820B2 JP 6074820 B2 JP6074820 B2 JP 6074820B2 JP 2015011491 A JP2015011491 A JP 2015011491A JP 2015011491 A JP2015011491 A JP 2015011491A JP 6074820 B2 JP6074820 B2 JP 6074820B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- annotation
- word
- knowledge
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000004458 analytical method Methods 0.000 claims description 135
- 230000014509 gene expression Effects 0.000 claims description 102
- 238000012545 processing Methods 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 230000001364 causal effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 description 67
- 238000012706 support-vector machine Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 235000020095 red wine Nutrition 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 208000006673 asthma Diseases 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 235000015041 whisky Nutrition 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 208000019622 heart disease Diseases 0.000 description 2
- 238000004092 self-diagnosis Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図3を参照して、本発明の第1の実施の形態に係る学習データ生成補助装置においてアノテーションをテキストに付する作業の概略を説明する。図3の上段を参照して、表示装置の画面に、アノテーション対象のテキスト90が表示される。このテキスト90は2つの文からなる。第1の文には、「導入する」という述部と、述部の主語である「N社」という単語100と、述部の目的語である「新型交換機」という単語110とが含まれる。第2の文は実質的には2つの節からなる。前半の文の先頭には「自己診断機能を搭載」の主語が省略されている箇所(省略箇所)114がある。前半の文と後半の文との中間箇所には、「200システムを設置する予定だ。」の主語が省略されている省略箇所104がある。
図4を参照して、最初に、本実施の形態に係る学習データ生成補助装置を使用する照応・省略解析システム150の全体構成について説明する。
アノテーションデータ生成補助システム160は、表示装置とキーボート及びマウス等を用いてユーザとの間で対話的な入出力を行う入出力装置202と、言語知識を含む様々な資源を用いて、テキストアーカイブ192に記憶された大量のテキストに対するユーザのアノテーション付与作業を補助することで、学習データを生成し学習データDB162に出力する学習データ生成補助装置204とを含む。
図5を参照して、言語知識DB194に記憶された言語知識の規則は、大きく分けて4種類ある。すなわち、因果関係知識290、含意関係知識292、事態生起順序関係知識294、及び事態生起無効化関係知識296である。各知識は、ワイルドカード的な役割を果たす、任意の名詞句等に置換可能な変数(以下では、「X」,「Y」等によって表わす)を含んでもよい。
図6を参照して、質問タイプDB200は、学習データ生成補助装置204が質問応答システム206を利用して先行詞の候補を入手するときに利用される。質問タイプDB200は、複数のエントリを持つ。各エントリは例えば、ある動詞について、ある表現内でのその動詞の係り受け関係において省略されている部分の文法役割と、省略部分に挿入されるべき表現を求める際に、どのような形で質問文を生成すればよいかを示す情報(質問タイプ)とを含む。例えば「食べる」という動詞について、ある表現内でその主語が省略されている場合には、「誰が」を文の先頭に配置して文を生成すれば、回答として「食べる」の主語になるべき表現が質問応答システムから得られる。
図7を参照して、質問応答システム206を利用して省略箇所の指す表現の候補を得るプロセスについて説明する。まず、入力テキスト320が2つの文を含むものとする。第1の文は「夕食に赤ワインを飲みましょう」という文であり、第2の文は「心臓病を防ぎます」であるものとする。第2の文の先頭には「防ぎます」という動詞332の主語が省略されており、この省略箇所334には省略を示すタグが付されているものとする。ここでは、この省略箇所には「赤ワイン」という単語330が入るべきである。
図8を参照して、既存照応・省略解析器208は、既存の、照応・省略解析を行うものである。ここでは、既存照応・省略解析器208は、省略箇所の候補、照応詞の候補、及び省略箇所及び照応詞の先行詞の候補を提示するために使用される。最終的には人間がこれら候補の中から正しい候補を選択する。したがって、ここで用いる既存照応・省略解析器208の精度は必ずしも高くなくてもよい。
図8を参照して、学習データ生成補助装置204は、テキストアーカイブ192に含まれる各テキストに対して形態素解析を行い、さまざまな文法情報が付された形態素列を出力する形態素解析システム380と、形態素解析システム380の出力する形態素列に対し、文の構造及び係り受け解析を行い、構造・係り受け情報が付された形態素列を出力する係り受け関係解析システム382と、係り受け関係解析システム382が出力する形態素列を、それらの文法情報及び構造・係り受け関係とともに記憶する解析後テキストDB384とを含む。ここでは、係り受け関係解析システム382は、少なくともどの単語がどの単語に係っているかを示す係り受け情報を各形態素列に付すものとする。なお、図8においては、図面を簡略にするために図示していないが、本実施の形態では、学習データ生成補助装置204内の各要素は、入出力装置202を介したユーザの指示により動作する。
図9を参照して、第1の候補生成部388は、解析後テキストDB384に記憶された各テキストデータのうちの述語を検索する述語検索部420と、述語検索部420が出力した各述語のリストを各述語の出現位置とともに記憶する述語リスト記憶部422と、述語リスト記憶部422に記憶された各述語のうち、当該述語が関与する係り受け関係のうちで省略されている箇所を検出し、省略候補として出力する省略候補検出部424と、省略候補検出部424に記憶された省略候補の各々に対して、質問タイプDB200を参照してその省略箇所を補完する単語を回答として求める質問文を生成し、質問応答システム206に質問文として与える質問文自動生成部426と、質問文自動生成部426から質問文を、その質問文に対する回答候補群を質問応答システム206から受信し、質問文とその回答候補群とを組み合わせて出力する回答受信部428と、回答受信部428が出現する質問文と回答候補群とのペアを受け、回答候補群に含まれる候補のうち、解析後テキストDB384に記憶された解析後テキスト文内の出現箇所を確認し、質問の対象となっている省略箇所より前の位置に出現するものを全て選択して省略箇所の指し先候補として出力する出現位置確認部430と、出現位置確認部430から出力される省略箇所とその省略箇所を補完する候補群とを組にしてアノテーション候補として候補DB386に追加する候補追加部432とを含む。
図10を参照して、第2の候補生成部390は、図9に示す述語検索部420、述語リスト記憶部422、及び省略候補検出部424とそれぞれ同様の述語検索部450、述語リスト記憶部452、及び省略候補検出部454と、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして出力する対象述語検索部456と、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語、又はそれを言換え・カテゴリ辞書196を参照して得られた等価な表現で言換えた述語が、第1文と第2文とにぞれぞれ出現するような言語知識が言語知識DB194内にあるか、又はそうした表現のパターンがパターン辞書198にあるか否かを判定し、あればその言語知識又はパターンを出力する言語知識検索部458と、言語知識検索部458が出力する言語知識又はパターンを一時記憶する合致言語知識記憶部460と、合致言語知識記憶部460に記憶された言語知識又はパターンを用い、対象述語検索部456が出力した述語ペアの各述語を含む表現を用いて、それら表現に含まれる省略箇所の指し先を推定し、省略箇所と指し先とを組にしてアノテーション候補として候補DB386に記憶させる候補追加部462とを含む。
図15を参照して、第3の候補生成部392は、既存小規模学習データDB190の中からアノテーション済の照応関係及び省略関係を検索し、両者を区別して出力する照応・省略関係検索部680と、照応・省略関係検索部680の出力する照応関係を構成する名詞句対の各々について、その名詞句の内の指し元(テキスト内で後方に位置するもの)を自動的に省略した新たな文を生成して新たなテキストを生成する指し元省略文生成部682と、指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付すアノテーション追加部684と、照応・省略関係検索部680が出力する省略関係を含むテキスト部分のうち、省略箇所について、アノテーションに基づいて省略箇所に、その指し先の要素を代名詞として復元することで新たな文を生成する省略要素復元部688と、省略要素復元部688により生成された新たな文に、省略要素復元部688により復元された代名詞の指し元とその指し先とからなるアノテーション候補を追加するアノテーション追加部690と、アノテーション追加部684及びアノテーション追加部690により生成された新たな文をそのアノテーション候補とともに候補DB386に追加する候補追加部686とを含む。
図16を参照して、第4の候補生成部394は、解析後テキストDB384に記憶された解析後テキストに対して、既存照応・省略解析器208を適用することにより、照応・省略解析の実行結果を得て、解析後テキストにアノテーションとして追加する照応・省略解析実行部710と、照応・省略解析実行部710の出力する照応・省略解析結果のアノテーションが付されたテキストを記憶する解析結果記憶部712と、解析結果記憶部712に記憶された解析結果に含まれるアノテーションを、解析後テキストDB384で解析対象となったテキストに対するアノテーション候補として候補DB386に追加する候補追加部714とを含む。
図8に示す対話型アノテーション装置396は、図17に示すような状態遷移を行うプログラムにより実現される。図17を参照して、このプログラムは、プログラム実行開始時及び文書クローズ時等に初期処理を実行し、初期画面を表示した状態(初期状態)740から開始する。この状態では、テキストアーカイブから処理対象の文書を選択する処理と、プログラムの実行を終了する処理とのいずれかを選択できる。文書の選択が選ばれるとプログラムの状態は文書選択状態742に遷移する。文書選択状態742では、文書ファイルの選択ダイアログが表示される。ここでは文書ファイルの選択と、処理のキャンセルとを選ぶことができる。処理のキャンセルが選ばれると状態は初期状態740に戻る。文書選択状態742で文書が選択されるとプログラムは文書の内容を表示する状態(文書表示状態)744に遷移する。文書表示状態744では、文書の表示をキャンセルし、更新を反映せずに再度文書選択状態742に戻る処理と、更新を反映して文書をクローズする処理と、照応・省略解析の学習データを作成するために、アノテーション候補の選択を指示する処理とのいずれかを選択できる。アノテーション候補の選択が指示されると、文書の、現在処理中の位置から文書の末尾方向に向かって、アノテーション候補を検索する状態(候補検索状態)746を経由した後、アノテーション候補を表示してユーザによるアノテーション候補の選択を待つ状態(候補選択待機状態)748に遷移する。
再び図4を参照して、検出器学習装置222は、前述したとおり、学習データDB162に記憶された学習データから、選択制限DB224、質問タイプDB220及び質問応答システム226を用いて省略検出器166、照応詞検出器168、及び先行詞特定器170の学習をそれぞれ別々に行う。先行詞特定器170についてはさらに、省略箇所の先行詞用の特定器と、照応詞の先行詞用の特定器との学習を独立に行う。
本実施の形態では、省略検出器166は、主語省略検出器800、目的語省略検出器802,及び間接目的語省略検出器804を含む。省略検出器学習部770は、これら3つの検出器の学習を個別に行うため、学習データDB162に記憶された学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習をそれぞれ行うための素性ベクトル群782、784及び786を生成するための格別素性ベクトル生成部780と、これら素性ベクトル群782,784及び786を用いてそれぞれ主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804を構成するSVMの学習を行うためのSVM学習処理部788とを含む。
・省略検出対象の述語に関して、検出対象の文法役割(例えば、主語)が係り受け関係にあるなら1,それ以外なら0
・主題となる表現(「は」でマークされた名詞句)が述語と同一文内に出現しているなら1,それ以外なら0
・省略検出対象の述語が対象テキストの1文目に出現しているなら1,それ以外なら0
・省略検出対象の述語が文の最初の後であるなら1,それ以外なら0
・省略検出対象の述語と係り受け関係にある語の見出し語、品詞
照応詞検出器学習部772は、学習データDB162に記憶された学習データから、照応詞検出器168のSVMの学習を行うために、照応関係の差し元(照応詞)としてアノテーションが付された単語を選択する照応詞候補選択部830と、照応詞候補選択部830により選択された照応詞の各々について、後述するような素性ベクトルを生成するための素性ベクトル生成部832と、素性ベクトル生成部832により生成された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行うためのSVM学習処理部834とを含む。
・照応詞候補の品詞、見出し語文字列、及びその候補に後続する格助詞
・照応詞候補の係り先の品詞、見出し語、その係り先に後続する格助詞
・テキスト中で照応詞候補より前の位置に出現する名詞句が文字列として照応詞候補と完全一致する場合に1,それ以外は0
・テキスト中で照応詞候補と部分一致する場合に1,それ以外は0
先行詞特定器170は、照応詞用先行詞特定器900と、省略用先行詞特定器902とを含む。そのため、先行詞特定器学習部774はこの2つの特定器900及び902の学習を別個に行う構成を有する。
・先行詞候補の品詞、見出し語文字列、その候補に後続する格助詞
・先行詞候補がテキストの1文目に出現するなら1,それ以外なら0
・先行詞候補が文内で最初に言及された先行詞候補なら1,それ以外なら0
・先行詞候補と照応詞が完全に同じ文字列なら1,それ以外なら0
・先行詞候補と照応詞が部分的に同じ文字列なら1,それ以外なら0
・選択制限DB224を用い、省略を持つ述語と先行詞となる名詞句の間で選択制限が満たされる場合には1,それ以外なら0
・省略を含む文、その省略の箇所について、質問タイプDB220を用いてその箇所が回答となるような質問文を生成し質問応答システム226に与えて得られた回答のいずれかが先行詞候補と一致すれば1,それ以外なら0
・省略を持つ述語、先行詞の係り先の述語が検出器学習装置222に登録されている因果関係知識に含まれる述語対と合致するなら1,それ以外なら0
図4を参照して、照応・省略解析装置172は、省略検出器166、照応詞検出器168及び先行詞特定器170に接続され、これらを用いて入力250に対する照応・省略解析をし、自動的にアノテーションを入力250に追加して出力254とするための照応・省略解析器252と、照応・省略解析器252が照応・省略解析をする際の素性ベクトル生成に使用する言語知識DB256、質問タイプDB258、質問応答システム260、及び選択制限DB262を含む。言語知識DB256は、照応・省略解析システム150で使用される言語知識DB194、学習システム164で使用される言語知識DB228と同様の言語知識を記憶したデータベースである。質問タイプDB258は、アノテーションデータ生成補助システム160で使用される質問タイプDB200及び学習システム164で使用される質問タイプDB220と同様の構成を持ち、その記憶内容も同様である。質問応答システム260は、アノテーションデータ生成補助システム160で使用される質問応答システム206及び学習システム164で使用される質問応答システム226と同様の機能を持つシステムである。選択制限DB262は、学習システム164における素性ベクトルの生成時に使用される選択制限DB224と同様のものである。なお、ここで同様の構成を持つと記載したDBは、互いに同一のものでもよいし、互いに異なるものでもよい。
以上に構成を述べた照応・省略解析システム150は以下のように動作する。学習データの作成、検出器の学習、及び入力に対する自動アノテーションの3つのフェーズに分けて説明する。
学習データの作成はアノテーションデータ生成補助システム160により行われる。この処理に先立ち、既存小規模学習データDB190、テキストアーカイブ192、言語知識DB194、言換え・カテゴリ辞書196、パターン辞書198、既存照応・省略解析器208、及び質問タイプDB200を準備しておく必要がある。また、質問応答システム206については、予めアノテーションデータ生成補助システム160内に準備し学習データ生成補助装置204からアクセス可能にしておくか、外部の質問応答システムに対して質問文を送れるよう準備しておく必要がある。
図18を参照して、検出器学習装置222は以下のように動作する。省略検出器学習部770の格別素性ベクトル生成部780は、学習データDB162に記憶されたアノテーション確定済の学習データのうち、省略を含む学習データを読出す。格別素性ベクトル生成部780は、学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、それぞれ素性ベクトル群782、784及び786を生成し図示しない記憶装置に蓄積する。この際、格別素性ベクトル生成部780は、確定したアノテーションについては学習ラベルを1、それ以外のアノテーションについては学習ラベルを0とする。SVM学習処理部788は、これら素性ベクトル群782、784及び786を用いて、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804が有するSVMの学習を行う。
図4に戻り、照応・省略解析器252による入力250に対する照応・省略解析とその結果の自動アノテーションは以下のようにして実行される。なお、この解析は省略解析、照応解析、省略及び照応詞に対する先行詞解析に分割される。省略解析では省略検出器166が用いられる。照応解析では照応詞検出器168が用いられる。先行詞解析では先行詞特定器170が用いられる。
上記実施の形態に係る学習データ生成補助装置204は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図19はこのコンピュータシステム930の外観を示し、図20はコンピュータシステム930の内部構成を示す。
160 アノテーションデータ生成補助システム
162 学習データDB
164 学習システム
166 省略検出器
168 照応詞検出器
170 先行詞特定器
172 照応・省略解析装置
190 既存小規模学習データDB
192 テキストアーカイブ
194,228,256 言語知識DB
196 言換え・カテゴリ辞書
198 パターン辞書
200,220,258 質問タイプDB
202 入出力装置
204 学習データ生成補助装置
206,226,260 質問応答システム
222 検出器学習装置
224,262 選択制限DB
252 照応・省略解析器
Claims (6)
- 自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置であって、
表示装置と入力装置とからなり、ユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語により表現された知識を用いて推定する候補推定手段と、
前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段とを含み、
前記候補推定手段は、言語により表現された複数の知識を記憶する知識記憶手段を含み
前記複数の知識の各々は、各々が名詞と述語との組合せからなる、それら表現の間に前記所定の関係が成立することを示す順序付ペアを含み、
前記候補推定手段はさらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた前記述語とを含む表現であって、前記知識記憶手段に記憶された知識のいずれかに適合する表現を特定する適合表現抽出手段と、
前記適合表現抽出手段により抽出された表現と、当該表現が適合した知識とを照合することにより、前記表現中の、前記対象特定手段が特定した前記単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として前記候補記憶手段に記憶させる手段とを含む、アノテーション補助装置。 - 前記候補推定手段は、さらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置に入るべき単語を問い合わせる文を、当該位置の周囲の単語列を用いて生成する質問文生成手段と、
前記質問文生成手段が生成した質問文を、予め準備された質問応答システムに入力として与える質問文入力手段と、
前記質問文入力手段から与えられた質問文に対して前記質問応答システムから得られる回答から、前記単語の位置に挿入されるべき単語の候補を当該単語の位置と関連付けて前記候補記憶手段に記憶させる手段とを含む、請求項1に記載のアノテーション補助装置。 - 前記候補推定手段はさらに、
予め準備された既存のアノテーション済テキストデータベースに含まれるテキスト中で、省略又は照応関係に関するアノテーションが付されている箇所を検索するアノテーション検索手段と、
前記アノテーション検索手段により検索された箇所の各々について、各アノテーションごとに予め定められた方式にしたがって文を変形し、当該変形箇所を前記検索された箇所に対するアノテーションの候補として前記候補記憶手段に記憶させる手段とを含む、請求項2に記載のアノテーション補助装置。 - 前記候補推定手段はさらに、
前記解析手段の出力する解析後の形態素列を、他の既存の照応・省略解析器への入力として与える手段と、
前記既存の照応・省略解析器による照応・省略解析結果を受け、当該照応・省略解析結果を、前記候補記憶手段に記憶させる手段とを含む、請求項1〜請求項3のいずれかに記載のアノテーション補助装置。 - 前記知識記憶手段が記憶する前記複数の知識は、因果関係知識、含意関係知識、事態生起順序関係知識、及び事態生起無効化関係知識の任意の組合せを含む、請求項1〜請求項4のいずれかに記載のアノテーション補助装置。
- 自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置としてコンピュータを動作させるコンピュータプログラムであって、コンピュータを、
当該コンピュータの表示装置と入力装置とを用いたユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語により表現された知識を用いて推定する候補推定手段と、
前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段として機能させ、
前記候補推定手段は、言語により表された複数の知識を記憶する知識記憶手段を含み
前記複数の知識の各々は、各々が名詞と述語との組合せからなる表現からなり、それら表現の間に前記所定の関係が成立することを示す順序付ペアを含み、
前記候補推定手段はさらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた前記述語とを含む表現であって、前記知識記憶手段に記憶された知識のいずれかに適合する表現を特定する適合表現抽出手段と、
前記適合表現抽出手段により抽出された表現と、当該表現が適合した知識とを照合することにより、前記表現中の、前記対象特定手段が特定した前記単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として前記候補記憶手段に記憶させる手段とを含む、コンピュータプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015011491A JP6074820B2 (ja) | 2015-01-23 | 2015-01-23 | アノテーション補助装置及びそのためのコンピュータプログラム |
US15/544,227 US10157171B2 (en) | 2015-01-23 | 2016-01-20 | Annotation assisting apparatus and computer program therefor |
KR1020177017635A KR20170106308A (ko) | 2015-01-23 | 2016-01-20 | 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램 |
CN201680006728.2A CN107209759B (zh) | 2015-01-23 | 2016-01-20 | 注解辅助装置及记录介质 |
PCT/JP2016/051577 WO2016117607A1 (ja) | 2015-01-23 | 2016-01-20 | アノテーション補助装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015011491A JP6074820B2 (ja) | 2015-01-23 | 2015-01-23 | アノテーション補助装置及びそのためのコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016136341A JP2016136341A (ja) | 2016-07-28 |
JP2016136341A5 JP2016136341A5 (ja) | 2016-09-15 |
JP6074820B2 true JP6074820B2 (ja) | 2017-02-08 |
Family
ID=56417145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015011491A Active JP6074820B2 (ja) | 2015-01-23 | 2015-01-23 | アノテーション補助装置及びそのためのコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10157171B2 (ja) |
JP (1) | JP6074820B2 (ja) |
KR (1) | KR20170106308A (ja) |
CN (1) | CN107209759B (ja) |
WO (1) | WO2016117607A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7239863B2 (ja) | 2019-10-30 | 2023-03-15 | 日本電信電話株式会社 | 自己校正機能付きadコンバータ |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018131048A1 (en) * | 2017-01-11 | 2018-07-19 | Satyanarayana Krishnamurthy | System and method for natural language generation |
US20180203856A1 (en) * | 2017-01-17 | 2018-07-19 | International Business Machines Corporation | Enhancing performance of structured lookups using set operations |
CN106874467B (zh) * | 2017-02-15 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 用于提供搜索结果的方法和装置 |
JP6888357B2 (ja) | 2017-03-22 | 2021-06-16 | カシオ計算機株式会社 | 情報表示装置、情報表示方法、及びプログラム |
JP6957918B2 (ja) | 2017-03-22 | 2021-11-02 | カシオ計算機株式会社 | 情報表示装置、情報表示方法、及びプログラム |
JP6911432B2 (ja) * | 2017-03-23 | 2021-07-28 | カシオ計算機株式会社 | 情報表示装置、情報表示装置の制御方法、及び情報表示装置の制御プログラム |
JP7174717B2 (ja) * | 2017-10-20 | 2022-11-17 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者-医師間会話からの詳細構造の取込み |
US10860800B2 (en) * | 2017-10-30 | 2020-12-08 | Panasonic Intellectual Property Management Co., Ltd. | Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system |
CN108319467B (zh) * | 2018-01-03 | 2022-01-04 | 武汉斗鱼网络科技有限公司 | 一种注释填充方法 |
CN108664465B (zh) * | 2018-03-07 | 2023-06-27 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
US10740541B2 (en) * | 2018-05-24 | 2020-08-11 | Microsoft Technology Licensing, Llc | Fact validation in document editors |
CN109446517B (zh) * | 2018-10-08 | 2022-07-05 | 平安科技(深圳)有限公司 | 指代消解方法、电子装置及计算机可读存储介质 |
JP7159778B2 (ja) * | 2018-10-16 | 2022-10-25 | 日本電信電話株式会社 | 発話生成装置、方法、及びプログラム |
KR102220106B1 (ko) * | 2018-12-12 | 2021-02-24 | 주식회사 엘지유플러스 | 음성 인식된 문장의 보정 방법 |
KR102194424B1 (ko) * | 2018-12-18 | 2020-12-23 | 주식회사 엘지유플러스 | 문장 복원 방법 및 장치 |
JP7103264B2 (ja) * | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN109933217B (zh) * | 2019-03-12 | 2020-05-01 | 北京字节跳动网络技术有限公司 | 用于推送语句的方法和装置 |
US11409950B2 (en) * | 2019-05-08 | 2022-08-09 | International Business Machines Corporation | Annotating documents for processing by cognitive systems |
JP7374756B2 (ja) * | 2019-12-20 | 2023-11-07 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2021210142A1 (ja) * | 2020-04-16 | 2021-10-21 | 日本電信電話株式会社 | データパターンの分類方法および分類システム |
KR102383043B1 (ko) * | 2020-07-02 | 2022-04-05 | 주식회사 엔씨소프트 | 생략 복원 학습 방법과 인식 방법 및 이를 수행하기 위한 장치 |
KR102417531B1 (ko) | 2020-07-08 | 2022-07-06 | 주식회사 메가젠임플란트 | 학습 데이터 생성장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체 |
US11853702B2 (en) * | 2021-01-29 | 2023-12-26 | International Business Machines Corporation | Self-supervised semantic shift detection and alignment |
US11977852B2 (en) * | 2022-01-12 | 2024-05-07 | Bank Of America Corporation | Anaphoric reference resolution using natural language processing and machine learning |
JP7455338B2 (ja) | 2022-07-13 | 2024-03-26 | ダイキン工業株式会社 | 情報処理方法、情報処理装置及びコンピュータプログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6442524B1 (en) * | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6925432B2 (en) * | 2000-10-11 | 2005-08-02 | Lucent Technologies Inc. | Method and apparatus using discriminative training in natural language call routing and document retrieval |
US7548847B2 (en) | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
CA2549769A1 (en) * | 2003-12-15 | 2005-06-30 | Laboratory For Language Technology Incorporated | System, method, and program for identifying the corresponding translation |
US20050273314A1 (en) * | 2004-06-07 | 2005-12-08 | Simpleact Incorporated | Method for processing Chinese natural language sentence |
JP3986531B2 (ja) * | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
JP5010885B2 (ja) * | 2006-09-29 | 2012-08-29 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
US20080162117A1 (en) * | 2006-12-28 | 2008-07-03 | Srinivas Bangalore | Discriminative training of models for sequence classification |
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN102193946A (zh) * | 2010-03-18 | 2011-09-21 | 株式会社理光 | 为媒体文件添加标签方法和使用该方法的系统 |
JP5390463B2 (ja) * | 2010-04-27 | 2014-01-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム |
US9575937B2 (en) * | 2010-08-24 | 2017-02-21 | Nec Corporation | Document analysis system, document analysis method, document analysis program and recording medium |
EP2635965A4 (en) * | 2010-11-05 | 2016-08-10 | Rakuten Inc | SYSTEMS AND METHODS RELATING TO KEYWORD EXTRACTION |
US8880391B2 (en) * | 2010-12-17 | 2014-11-04 | Rakuten, Inc. | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program |
JP5197774B2 (ja) * | 2011-01-18 | 2013-05-15 | 株式会社東芝 | 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム |
US8868407B2 (en) * | 2011-07-06 | 2014-10-21 | Honda Motor Co., Ltd. | Language processor |
CN104169909B (zh) * | 2012-06-25 | 2016-10-05 | 株式会社东芝 | 上下文解析装置及上下文解析方法 |
JP2014067179A (ja) * | 2012-09-25 | 2014-04-17 | Toshiba Corp | 文書処理装置及び文書処理プログラム |
WO2014132402A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社東芝 | データ処理装置および物語モデル構築方法 |
US9171542B2 (en) * | 2013-03-11 | 2015-10-27 | Nuance Communications, Inc. | Anaphora resolution using linguisitic cues, dialogue context, and general knowledge |
CN104268132B (zh) * | 2014-09-11 | 2017-04-26 | 北京交通大学 | 机器翻译方法及系统 |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
-
2015
- 2015-01-23 JP JP2015011491A patent/JP6074820B2/ja active Active
-
2016
- 2016-01-20 US US15/544,227 patent/US10157171B2/en active Active
- 2016-01-20 CN CN201680006728.2A patent/CN107209759B/zh not_active Expired - Fee Related
- 2016-01-20 WO PCT/JP2016/051577 patent/WO2016117607A1/ja active Application Filing
- 2016-01-20 KR KR1020177017635A patent/KR20170106308A/ko unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7239863B2 (ja) | 2019-10-30 | 2023-03-15 | 日本電信電話株式会社 | 自己校正機能付きadコンバータ |
Also Published As
Publication number | Publication date |
---|---|
JP2016136341A (ja) | 2016-07-28 |
KR20170106308A (ko) | 2017-09-20 |
US10157171B2 (en) | 2018-12-18 |
US20180011830A1 (en) | 2018-01-11 |
CN107209759B (zh) | 2020-09-18 |
CN107209759A (zh) | 2017-09-26 |
WO2016117607A1 (ja) | 2016-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6074820B2 (ja) | アノテーション補助装置及びそのためのコンピュータプログラム | |
EP3230896B1 (en) | Localization complexity of arbitrary language assets and resources | |
JP3009215B2 (ja) | 自然語処理方法および自然語処理システム | |
US8972240B2 (en) | User-modifiable word lattice display for editing documents and search queries | |
US10496756B2 (en) | Sentence creation system | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
JPS6091450A (ja) | テ−ブル型言語翻訳器 | |
US20180293215A1 (en) | Method and Computer Program for Sharing Memo between Electronic Documents | |
JP3899414B2 (ja) | 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム | |
Choi et al. | Syntactic and semantic information extraction from NPP procedures utilizing natural language processing integrated with rules | |
JP2005228075A (ja) | 日常言語プログラム処理システム、その方法および修辞構造解析方法 | |
Ahmed et al. | Studying and recommending information highlighting in Stack Overflow answers | |
JP6976585B2 (ja) | 照応・省略解析装置及びコンピュータプログラム | |
van de Camp et al. | Resolving relative time expressions in dutch text with constraint handling rules | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
Syu et al. | Rule-based extraction of tuple-based service demand from natural language-based software requirement for automated service composition | |
Patel et al. | Incorporating linguistic expertise using ilp for named entity recognition in data hungry indian languages | |
Vo et al. | VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words | |
JP2013206130A (ja) | 検索装置、検索方法およびプログラム | |
KR102640887B1 (ko) | 다국어 웹사이트 콘텐츠를 생성하는 방법 및 전자 장치 | |
JP4300056B2 (ja) | 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置 | |
JP5965785B2 (ja) | ユースケースシナリオ作成支援装置、ユースケースシナリオ作成支援方法、およびユースケースシナリオ作成支援プログラム | |
EP4398143A1 (en) | Translating a natural language processing system given in a source language into at least one target language | |
JP4043176B2 (ja) | 自然言語処理装置 | |
JP4039205B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160729 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160729 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6074820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |