JP2016136341A - アノテーション補助装置及びそのためのコンピュータプログラム - Google Patents

アノテーション補助装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2016136341A
JP2016136341A JP2015011491A JP2015011491A JP2016136341A JP 2016136341 A JP2016136341 A JP 2016136341A JP 2015011491 A JP2015011491 A JP 2015011491A JP 2015011491 A JP2015011491 A JP 2015011491A JP 2016136341 A JP2016136341 A JP 2016136341A
Authority
JP
Japan
Prior art keywords
candidate
annotation
word
text
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015011491A
Other languages
English (en)
Other versions
JP2016136341A5 (ja
JP6074820B2 (ja
Inventor
龍 飯田
Ryu Iida
龍 飯田
健太郎 鳥澤
Kentaro Torisawa
健太郎 鳥澤
力 橋本
Chikara Hashimoto
力 橋本
鍾勲 呉
Jong Hoon Oh
鍾勲 呉
清敬 大竹
Kiyotaka Otake
清敬 大竹
豊 木俵
Yutaka Kidawara
豊 木俵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2015011491A priority Critical patent/JP6074820B2/ja
Priority to CN201680006728.2A priority patent/CN107209759B/zh
Priority to KR1020177017635A priority patent/KR20170106308A/ko
Priority to PCT/JP2016/051577 priority patent/WO2016117607A1/ja
Priority to US15/544,227 priority patent/US10157171B2/en
Publication of JP2016136341A publication Critical patent/JP2016136341A/ja
Publication of JP2016136341A5 publication Critical patent/JP2016136341A5/ja
Application granted granted Critical
Publication of JP6074820B2 publication Critical patent/JP6074820B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】テキストへのアノテーションを容易に、低コストで構築できるアノテーション補助装置を提供する。【解決手段】アノテーションデータ生成補助システム160は、対話型処理で入力を受ける入出力装置202と、テキストアーカイブ192のテキストデータに形態素解析及び係り受け解析を行なう形態素解析システム380及び係り受け関係解析システム382と、形態素列中の述語の係り受け関係において、省略又は指示語を検出し、アノテーション処理の対象位置を特定し、挿入される表現の候補を言語知識を用いて推定する第1〜第4の候補生成部388,390,392及び394と、推定された候補を記憶する候補DB386と、アノテーション処理の候補を候補DB386から読出して、入出力装置202による対話型処理で選択された候補をアノテーションとして付加する対話型アノテーション装置396とを含む。【選択図】図8

Description

この発明は、自然言語処理技術に関し、特に、自然言語の文章中に頻出する省略、代名詞等の指示語の照応関係についてのアノテーションを、テキストに対して効率的に行うためのアノテーション補助装置に関する。
自然言語のテキスト中には、省略及び指示語が頻出する。例えば図1に示す例文30を考える。例文30は第1文と第2文とからなる。第2文には、「それ」という指示語(代名詞)42が含まれる。この場合、「それ」という指示語は第1文の「モン歴の正月の日付」という表現40を指す。このように指示語の指す語を特定する処理を「照応解析」と呼ぶ。一方、図2の例文60を考える。この例文60は、第1文と第2文とからなる。第2文において、「自己診断機能を搭載」という述部の主語は省略されているが、この主語の省略箇所76には、第1文の「新型交換機」という単語72が省略されている。同様に、「200システムを設置する予定だ。」という述部の主語は省略されている。この主語の省略箇所74には、第1文の「N社」という単語70が省略されている。このように、主語等の省略を検出し、それを補完する処理を「省略解析」と呼ぶ。以後、照応解析と省略解析とをまとめて「照応・省略解析」と呼ぶ。
いわゆる人工知能において、人間とのコミュニケーションをとるために、自然言語処理は欠かせない技術である。自然言語処理の重要な問題として、自動翻訳及び質問応答等が存在する。照応・省略解析の技術は、このような自動翻訳及び質問応答において必須の要素技術である。しかし、現状の照応・省略解析の技術水準は、言語にもよるが未だ実用レベルには至っていない。
このように照応・省略解析の性能が向上しない理由は種々考えられる。主な理由として、このような解析には一般常識が必要であることが挙げられる。一般常識を考慮するためには、照応・解析に関する人間による判断を考慮する必要がある。しかし、そうした要素を考慮した解析アルゴリズムは難しい。結局、人間による判断を学習データとして多数準備し、統計的学習により照応・省略解析を行う解析器を作成する必要がある。しかし、そのような解析器構築用の学習データを作成するためのコストは非常に大きいことが知られている。そのため、十分な量の学習データが作成できないために照応・省略解析の性能の向上を図ることができない。
自然言語処理の性能を高め、ひいては人工知能をより知的にするためには、照応・省略解析に関するこうした問題を解決する事が必要である。
照応・省略解析器の学習データを作成する技術として、後掲の非特許文献1に記載されたものがある。この技術では、学習データの作成は以下のようにして行われる。すなわち、人間がテキストを最初から読み、代名詞及び省略等を人手で検出するという作業が行われる。機械による支援としては、例えば照応関係の指し先の表現を予め列挙する程度である。
一方、後掲の非特許文献2には、自動的に、一定の手順で照応・省略解析を行う照応・省略解析アルゴリズムが開示されている。この文献に開示された技術は、形態素解析、構文・係り受け解析(以下単に「係り受け解析」と呼ぶ。)等が出力する情報と、辞書等の外部資源ツールを利用する。ここで利用される辞書とは、例えば「食べる」という動詞の目的語には「食べ物」に相当する表現が含まれる、という特性をまとめたものである。非特許文献2に開示された技術では、これ以外にはテキストの中から得られる情報を参照して代名詞の指し先及び省略の補完が行われている。
飯田龍、小町守、井之上直也、乾健太郎、松本裕治、述語構造と照応関係のアノテーション: NAIST テキストコーパス構築の経験から、自然言語処理,Vol.17, No.2, pp.25-50,2010. Ryu Iida, Massimo Poesio. A Cross-Lingual lLP Solution to Zero Anaphora Resolution. The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT2011), pp.804-813.2011.
しかし、前掲の非特許文献2によれば、日本語の照応解析の場合で、再現率が44%、精度が42%、主語の省略解析の場合で再現率及び精度がいずれも35%という数字が報告されている。日常生活で目にする文書には、省略及び代名詞等が頻繁に使用されている。正確な資源言語処理を行うためには、省略箇所の検出、省略箇所及び代名詞の指示先の検出が正確に行われなければならない。そのためには、精度の高い照応・省略解析器を得る必要がある。しかし、前述のように、そうした照応・省略解析器の学習を行うためには、学習データの作成に手間がかかり、コストが掛かり過ぎるという問題があった。学習データは、文章中に出現する省略、代名詞等の指示語の照応関係についてのアノテーションを、テキストに対して行う事により作成する。もちろん、アノテーションの精度自体は高くしなければならないため、人間による判断を学習データに反映させなければならない。すなわち、アノテーション自体は人間が行うこととし、そうした人間のアノテーション作業をより効率的に行えるようなシステムを得ることが上記課題を解決する上で望ましい。
それゆえにこの発明の目的は、人間が、テキストに対するアノテーションデータを容易に構築でき、それによってコストを下げることができるアノテーション補助装置を提供することである。
本発明の第1の局面にかかるアノテーション補助装置は、自然言語のテキストの照応・省略解析のためのアノテーションデータの作成を補助する。このアノテーション補助装置は、表示装置と入力装置とからなり、ユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、解析手段の出力する形態素列中の述語を検索する述語検索手段と、述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、対象特定手段が特定した単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び予め準備された言語知識を用いて推定する候補推定手段と、候補推定手段により推定された候補を単語の位置と関連付けて記憶する候補記憶手段と、アノテーション処理の対象の各々について、候補推定手段が推定した候補を候補記憶手段から読出し、ユーザがいずれかを選択可能なように表示装置に表示する候補表示手段と、候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を位置にアノテーションとして付加する対話的選択手段とを含む。
好ましくは、候補推定手段は、対象特定手段が特定した単語の位置の各々について、当該単語の位置に入るべき単語を問い合わせる文を、当該位置の周囲の単語列を用いて生成する質問文生成手段と、質問文生成手段が生成した質問文を、予め準備された質問応答システムに入力として与える質問文入力手段と、質問文入力手段から与えられた質問文に対して質問応答システムから得られる回答から、単語の位置に挿入されるべき単語の候補を当該単語の位置と関連付けて候補記憶手段に記憶させる手段とを含む。
より好ましくは、候補推定手段は、さらに、複数の言語知識規則を記憶する言語知識記憶手段と、対象特定手段が特定した単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた述語とを含む表現であって、言語知識記憶手段に記憶された言語知識のいずれかに適合する表現を特定する適合表現抽出手段と、適合表現抽出手段により抽出された表現と、当該表現が適合した言語知識規則とを照合することにより、表現中の、対象特定手段が特定した単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として候補記憶手段に記憶させる手段とを含む。
さらに好ましくは、候補推定手段はさらに、予め準備された既存のアノテーション済テキストデータベースに含まれるテキスト中で、省略又は照応関係に関するアノテーションが付されている箇所を検索するアノテーション検索手段と、アノテーション検索手段により検索された箇所の各々について、各アノテーションごとに予め定められた方式にしたがって文を変形し、当該変形箇所を検索された箇所に対するアノテーションの候補として候補記憶手段に記憶させる手段とを含む。
候補推定手段はさらに、解析手段の出力する解析後の形態素列を、他の既存の照応・省略解析器への入力として与える手段と、既存の照応・省略解析器による照応・省略解析結果を受け、当該照応・省略解析結果を、候補記憶手段に記憶させる手段とを含んでもよい。
本発明の第2の局面にかかるコンピュータプログラムは、自然言語のテキストの照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置としてコンピュータを動作させる。このコンピュータプログラムは、コンピュータを、当該コンピュータの表示装置と入力装置とを用いたユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、解析手段の出力する形態素列中の述語を検索する述語検索手段と、述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、対象特定手段が特定した単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び予め準備された言語知識を用いて推定する候補推定手段と、候補推定手段により推定された候補を単語の位置と関連付けて記憶する候補記憶手段と、アノテーション処理の対象の各々について、候補推定手段が推定した候補を候補記憶手段から読出し、ユーザがいずれかを選択可能なように表示装置に表示する候補表示手段と、候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を位置にアノテーションとして付加する対話的選択手段として機能させる。
照応解析を説明するための模式図である。 省略解析を説明するための模式図である。 省略解析のプロセスを説明するための模式図である。 本発明の一実施の形態に係る学習データ生成補助装置を含む照応・省略解析のためのシステムの全体ブロック図である。 言語知識を構成する規則の概略構成を説明するための図である。 質問タイプDBの概略構成を説明する模式図である。 質問応答システムを利用したアノテーション方法の概略を示す模式図である。 学習データ生成補助装置のブロック図である。 アノテーション候補を生成する第1の候補生成部のブロック図である。 アノテーション候補を生成する第2の候補生成部のブロック図である。 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。 言語知識を利用したアノテーション候補の生成プロセスを説明する図である。 アノテーション候補を生成する第3の候補生成部のブロック図である。 アノテーション候補を生成する第4の候補生成部のブロック図である。 テキストへのアノテーションをユーザとの対話により実行して学習データを生成するためのプログラムの状態遷移図である。 検出器学習装置222の詳細な機能ブロック図である。 学習データを生成するためのプログラムを実行するコンピュータの外観を示す図である。 図19に外観を示すコンピュータのハードウェアブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[概略]
図3を参照して、本発明の第1の実施の形態に係る学習データ生成補助装置においてアノテーションをテキストに付する作業の概略を説明する。図3の上段を参照して、表示装置の画面に、アノテーション対象のテキスト90が表示される。このテキスト90は2つの文からなる。第1の文には、「導入する」という述部と、述部の主語である「N社」という単語100と、述部の目的語である「新型交換機」という単語110とが含まれる。第2の文は実質的には2つの節からなる。前半の文の先頭には「自己診断機能を搭載」の主語が省略されている箇所(省略箇所)114がある。前半の文と後半の文との中間箇所には、「200システムを設置する予定だ。」の主語が省略されている省略箇所104がある。
照応・省略解析では、矩形102及び矩形112内に記載したように、まず省略箇所104又は114を発見する。その後、その省略箇所を補完すべき表現を探索し決定する。省略箇所104の場合には単語100が補完すべき表現となる。省略箇所114の場合には、単語110が補完すべき表現となる。
従来は、こうした省略箇所の発見と、補完表現の探索及び決定とを、いずれも人間が行っていた。しかしそのような作業は非効率的であり、学習データの生成コストを押し上げる要因となっていた。本実施の形態では、上記した省略箇所の発見と、補完表現の候補の発見とをコンピュータプログラムで自動的に行う。こうした処理には、後述するように様々な手法を使用する。特に、言語知識を活用することで、人間が行うような作業と同様、省略箇所の発見と補完表現の候補の探索とを効率的に行う。
省略箇所の発見と補完表現の候補の発見とが終わると、各省略箇所に対して、図3の下段に示すような処理を行う。この例では、図3の上段に示す省略箇所114に対する補完表現に対しては「新型交換機」という単語110が発見され、省略箇所104には単語100を含む複数の単語が発見されたものとする。この場合、学習データ生成補助装置は、省略箇所114に単語110と同じ「新型交換機」という単語と主格の格助詞とからなる文字列130を挿入し、さらにその右側には、いわゆるドロップダウンリストが存在することを意味するアイコン「▼」を表示する。ユーザがこのアイコンをクリックするとドロップダウンリスト132が表示される。ドロップダウンリスト132には、表示された候補をこの省略箇所114に対するアノテーションとして付加して良いか否かを尋ねる2つのオプション(YES、NO)と、人間が手入力するオプション(「手入力」)が表示される。利用者がYESを選択すると、この省略箇所114に文字列130がアノテーションとして付加される。NOを選択すればこの省略箇所114にはアノテーションは付加されない。「手入力」を選択すると、図示しない入力ダイアログが開き、アノテーションを直接入力できる。
省略箇所104の場合、候補の一つ、例えば単語100と同じ単語と格助詞「ハ」からなる文字列134が表示され、右側にドロップダウンリストを示すアイコン「▼」が表示される。このアイコンをユーザがクリックすると、複数の候補のリストと「直接入力」とをオプションとして含むドロップダウンリストが表示される。ユーザが候補のいずれかを選択すると、その候補の単語が省略箇所104に対するアノテーションとして付加される。直接入力が選択されたときについては、省略箇所114と同様である。
[照応・解析システムの全体構成]
図4を参照して、最初に、本実施の形態に係る学習データ生成補助装置を使用する照応・省略解析システム150の全体構成について説明する。
この照応・省略解析システム150は、予め準備された大量のテキストについて、省略箇所及び照応詞の検出を行い、それらが指す表現(先行詞)の候補をユーザに提示して簡単な操作で選択させることにより、ユーザが照応・省略解析に必要なモデルの学習データ(アノテーションデータ)を生成するのを補助するアノテーションデータ生成補助システム160と、アノテーションデータ生成補助システム160を用いてユーザにより生成された学習データを記憶する学習データDB162と、学習データDB162に記憶された学習データを用いて、後述する省略検出器166、照応詞検出器168、及び先行詞特定器170の学習を行うための学習システム164とを含む。省略検出器166は、テキスト中の任意の述語を対象に、省略検出を行う。省略検出器166は、テキスト中の主語、目的語等が省略された省略箇所を検出するための統計的モデルを含む。照応詞検出器168は、テキスト中の任意の名詞句(照応詞候補)を分類対象として、他の単語などを指示するための照応詞を検出するための統計的モデルを含む。先行詞特定器170は、テキスト中の、省略を持つ述語と先行詞候補である名詞句とを分類対象に、省略が指す先(先行詞)を特定するための検出器と、テキスト中の名詞句の対(照応詞と先行詞候補)とを分類対象に、照応詞が指す先行詞を特定するための検出器とを含む。これら検出器は、それぞれ別個の統計的モデルを有する。本実施の形態では、省略検出器166、照応詞検出器168、及び先行詞特定器170は、いずれもSVM(Support Vector Machine)を統計的モデルとして用いる。
照応・省略解析システム150はさらに、省略検出器166、照応詞検出器168、及び先行詞特定器170を用いて、入力テキスト中の省略箇所及び照応詞を検出し、それらの指す先行詞を特定する情報を付して出力する照応・省略解析装置172を含む。
<アノテーションデータ生成補助システム160>
アノテーションデータ生成補助システム160は、表示装置とキーボート及びマウス等を用いてユーザとの間で対話的な入出力を行う入出力装置202と、言語知識を含む様々な資源を用いて、テキストアーカイブ192に記憶された大量のテキストに対するユーザのアノテーション付与作業を補助することで、学習データを生成し学習データDB162に出力する学習データ生成補助装置204とを含む。
学習データ生成補助装置204が使用する資源は、学習データDB162と同様の学習データを記憶した既存小規模学習データDB190と、テキストアーカイブ192に記憶されたテキストに対して適用可能な形式の言語知識を規則の形で記憶した言語知識DB194と、学習データ生成補助装置204が言語知識DB194に記憶された言語知識をテキストに対して適用する際に、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりするために使用される言換え規則及びカテゴリを記憶した言換え・カテゴリ辞書196と、テキストが特定のパターンを持つときに、そのパターンに付随する省略箇所を特定できるよう、予め準備されたパターンを記憶するためのパターン辞書198とを含む。
アノテーションデータ生成補助システム160はさらに、学習データ生成補助装置204が、テキスト中に省略箇所を発見したときに、その省略箇所が指し示す単語の候補を問い合わせる質問応答システム206と、学習データ生成補助装置204が質問応答システム206に対する質問をテキストに基づいて作成するときに参照する質問タイプDB200と、テキストに対して照応・省略解析を行って、学習データ生成補助装置204が実行する照応・省略解析の際に、省略箇所、照応詞、先行詞等の候補を学習データ生成補助装置204に対して提示するための既存照応・省略解析器208とを含む。
既存小規模学習データDB190の構成は、テキスト中の省略箇所、照応詞、及び先行詞の特定ができるようなフォーマットであればどのような形式でもよい。
テキストアーカイブ192に記憶されたテキストは、本実施の形態では単純なテキストであり、形態素解析、構造・係り受け解析がされていないことを前提とする。しかし、本発明はそのような実施の形態には限定されない。他のシステムで形態素解析若しくは構造・係り受け解析又はその双方が行われ、そうした情報が付されたものを用いてもよい。
〈言語知識DB194〉
図5を参照して、言語知識DB194に記憶された言語知識の規則は、大きく分けて4種類ある。すなわち、因果関係知識290、含意関係知識292、事態生起順序関係知識294、及び事態生起無効化関係知識296である。各知識は、ワイルドカード的な役割を果たす、任意の名詞句等に置換可能な変数(以下では、「X」,「Y」等によって表わす)を含んでもよい。
因果関係知識290は、例えば「Xがタバコを吸う」という、原因に相当する表現と、「Xが肺がんの可能性を高める」という、結果に相当する表現との順序付ペアである。ここでは、原因に相当する表現が先に、結果に相当する表現が後に位置するものとする。
含意関係知識292は、例えば「XがYの著者だ」という表現により、「XがYを執筆した」という表現が含意されている、ということをこれら2つの表現の順序付ペアで表す。ここでは、含意する表現が先に、含意される表現が後に位置するものとする。
事態生起順序関係知識294は、例えば「XがYを発見する」という事象が生じると、「XがYを発表する」という事象が生じ得る、という事象の正規の順序関係を、これら2つの表現の順序付ペアで表す。ここでは、事象の順序関係にしたがって表現が配置されるものとする。
事態生起無効化関係知識296は、例えば「Xを禁止する」という事象が発生すると、「Xを公開できない」という事象が発生するように、ある事象が発生したことにより別のある事象の発生が無効化されるような関係にある表現の順序付ペアである。ここでは、発生する事象が先に位置し、その事象により発生が無効化される事象が後に位置するものとする。
後述するように、これら知識は単独でテキストに対して適用できるが、それだけではなく、例えば2つの知識のうち、一方の知識の後半の表現が、他方の知識の前半の表現と一致するような場合には、知識を連鎖させて適用できる。なお、ここでいう「一致」は、例えば同義語の言換え、含意等も含む。
〈質問タイプDB200〉
図6を参照して、質問タイプDB200は、学習データ生成補助装置204が質問応答システム206を利用して先行詞の候補を入手するときに利用される。質問タイプDB200は、複数のエントリを持つ。各エントリは例えば、ある動詞について、ある表現内でのその動詞の係り受け関係において省略されている部分の文法役割と、省略部分に挿入されるべき表現を求める際に、どのような形で質問文を生成すればよいかを示す情報(質問タイプ)とを含む。例えば「食べる」という動詞について、ある表現内でその主語が省略されている場合には、「誰が」を文の先頭に配置して文を生成すれば、回答として「食べる」の主語になるべき表現が質問応答システムから得られる。
〈質問応答システム206〉
図7を参照して、質問応答システム206を利用して省略箇所の指す表現の候補を得るプロセスについて説明する。まず、入力テキスト320が2つの文を含むものとする。第1の文は「夕食に赤ワインを飲みましょう」という文であり、第2の文は「心臓病を防ぎます」であるものとする。第2の文の先頭には「防ぎます」という動詞332の主語が省略されており、この省略箇所334には省略を示すタグが付されているものとする。ここでは、この省略箇所には「赤ワイン」という単語330が入るべきである。
ここで、このテキストから省略箇所334に入るべき表現の候補を質問応答システムから得るためには、適切な質問文を生成して質問応答システム206への入力として与える必要がある。ここでは、入力テキスト320の省略箇所の文で「防ぎます」の主語を知る必要がある。図示しないが、言換え・カテゴリ辞書196に「予防」と「防ぐ」との言換えが可能であるという情報が格納されているものとする。すると、図6に示す質問タイプDB200に、動詞が「予防する」、文法役割が「主語」となったエントリが見つかる。その「質問タイプ」のカラムには「何が」が格納されている。学習データ生成補助装置204は、これら情報から、「何が心臓病を防ぐのか」という質問文336を生成する。質問文の生成において、文末は質問文にふさわしく、予め準備された規則にしたがって変換する。文末の変換規則を、質問タイプDB200の各エントリに予め格納しておくようにしてもよい。
図7を参照して、質問応答システム206は、この質問文336を受け取ると、システム内のデータベース内から、質問文336に対する回答としてふさわしい単語候補群342を検索して取り出す。質問応答システム206はさらに、このようにして得られた単語候補群342を、カテゴリ別に、各カテゴリ344、346、及び348が1又は複数の回答候補を含むようにして学習データ生成補助装置204に送信する。ここでは、カテゴリ344が「赤ワイン」、「酒」、「ビール」を含むものとする。他のカテゴリ346及び348も同様である。学習データ生成補助装置204は、例えば、こうして得られた単語の候補のうち、入力テキスト320内で省略箇所334より前の位置にある単語と一致する表現(この例では「赤ワイン」という単語330)を選択し、省略箇所334と、その指し先の候補としての単語330とをアノテーション350の対象とする。以上が質問応答システム206を用いたアノテーション付加作業の概略である。
〈既存照応・省略解析器208〉
図8を参照して、既存照応・省略解析器208は、既存の、照応・省略解析を行うものである。ここでは、既存照応・省略解析器208は、省略箇所の候補、照応詞の候補、及び省略箇所及び照応詞の先行詞の候補を提示するために使用される。最終的には人間がこれら候補の中から正しい候補を選択する。したがって、ここで用いる既存照応・省略解析器208の精度は必ずしも高くなくてもよい。
〈学習データ生成補助装置204〉
図8を参照して、学習データ生成補助装置204は、テキストアーカイブ192に含まれる各テキストに対して形態素解析を行い、さまざまな文法情報が付された形態素列を出力する形態素解析システム380と、形態素解析システム380の出力する形態素列に対し、文の構造及び係り受け解析を行い、構造・係り受け情報が付された形態素列を出力する係り受け関係解析システム382と、係り受け関係解析システム382が出力する形態素列を、それらの文法情報及び構造・係り受け関係とともに記憶する解析後テキストDB384とを含む。ここでは、係り受け関係解析システム382は、少なくともどの単語がどの単語に係っているかを示す係り受け情報を各形態素列に付すものとする。なお、図8においては、図面を簡略にするために図示していないが、本実施の形態では、学習データ生成補助装置204内の各要素は、入出力装置202を介したユーザの指示により動作する。
学習データ生成補助装置204はさらに、解析後テキストDB384に記憶された解析後テキストにおいて、省略箇所を検出し、質問タイプDB200及び質問応答システム206を用いて各省略箇所の先行詞を指すアノテーション候補群を生成する第1の候補生成部388と、解析後テキストDB384に記憶された解析後テキストにおいて、第1の候補生成部388と同様に省略箇所を検出し、各省略箇所に対して言語知識DB194、言換え・カテゴリ辞書196、及びパターン辞書198を用いて省略箇所に関するアノテーション候補群を生成する第2の候補生成部390と、既存小規模学習データDB190に記憶された学習データに対して、その中に存在している照応関係、省略関係の一部を変更して新たな学習データを生成し、その学習データから新たなアノテーション候補を生成する第3の候補生成部392と、既存照応・省略解析器208を用い、解析後テキストDB384に記憶されたテキストに対する照応・省略解析を行って、その結果をアノテーション候補として生成する第4の候補生成部394とを含む。
学習データ生成補助装置204はさらに、第1の候補生成部388、第2の候補生成部390、第3の候補生成部392、及び第4の候補生成部394の出力するアノテーション候補群を、各アノテーションが付されるべき省略箇所、照応詞等と関連付けて記憶する候補DB386と、解析後テキストDB384に記憶された各テキストの省略箇所及び照応詞の各々について、候補DB386を参照して候補を選択可能な形式で入出力装置202の表示装置に表示し、ユーザからの選択入力を受け付けて学習データDB162に学習データとして出力する対話型アノテーション装置396とを含む。
再び図4を参照して、学習システム164は、アノテーションデータ生成補助システム160で用いられた質問タイプDB200及び学習データ生成補助装置204とそれぞれ同様の質問タイプDB220及び質問応答システム226と、後述するように、先行詞特定器170の学習の際に、選択される先行詞に課される制約を記述した選択制限DB224と、アノテーションデータ生成補助システム160で使用される言語知識DB194と同様の構成を持つ言語知識を記憶した言語知識DB228と、学習データDB162に記憶された学習データ、質問タイプDB220、質問応答システム226、言語知識DB228、及び選択制限DB224を用い、省略検出器166、照応詞検出器168、及び先行詞特定器170の学習処理を実行する検出器学習装置222とを含む。
〈第1の候補生成部388〉
図9を参照して、第1の候補生成部388は、解析後テキストDB384に記憶された各テキストデータのうちの述語を検索する述語検索部420と、述語検索部420が出力した各述語のリストを各述語の出現位置とともに記憶する述語リスト記憶部422と、述語リスト記憶部422に記憶された各述語のうち、当該述語が関与する係り受け関係のうちで省略されている箇所を検出し、省略候補として出力する省略候補検出部424と、省略候補検出部424に記憶された省略候補の各々に対して、質問タイプDB200を参照してその省略箇所を補完する単語を回答として求める質問文を生成し、質問応答システム206に質問文として与える質問文自動生成部426と、質問文自動生成部426から質問文を、その質問文に対する回答候補群を質問応答システム206から受信し、質問文とその回答候補群とを組み合わせて出力する回答受信部428と、回答受信部428が出現する質問文と回答候補群とのペアを受け、回答候補群に含まれる候補のうち、解析後テキストDB384に記憶された解析後テキスト文内の出現箇所を確認し、質問の対象となっている省略箇所より前の位置に出現するものを全て選択して省略箇所の指し先候補として出力する出現位置確認部430と、出現位置確認部430から出力される省略箇所とその省略箇所を補完する候補群とを組にしてアノテーション候補として候補DB386に追加する候補追加部432とを含む。
〈第2の候補生成部390〉
図10を参照して、第2の候補生成部390は、図9に示す述語検索部420、述語リスト記憶部422、及び省略候補検出部424とそれぞれ同様の述語検索部450、述語リスト記憶部452、及び省略候補検出部454と、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして出力する対象述語検索部456と、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語、又はそれを言換え・カテゴリ辞書196を参照して得られた等価な表現で言換えた述語が、第1文と第2文とにぞれぞれ出現するような言語知識が言語知識DB194内にあるか、又はそうした表現のパターンがパターン辞書198にあるか否かを判定し、あればその言語知識又はパターンを出力する言語知識検索部458と、言語知識検索部458が出力する言語知識又はパターンを一時記憶する合致言語知識記憶部460と、合致言語知識記憶部460に記憶された言語知識又はパターンを用い、対象述語検索部456が出力した述語ペアの各述語を含む表現を用いて、それら表現に含まれる省略箇所の指し先を推定し、省略箇所と指し先とを組にしてアノテーション候補として候補DB386に記憶させる候補追加部462とを含む。
候補追加部462による省略箇所の指し先の推定は以下のようにして行われる。図11を参照して、テキスト482中に出現するある述語対(文字列494の「導入する」、文字列500の「設置する」)に対して、言語知識検索部458が言語知識480を検索したものとする。テキスト482は、図2に示す例文60と同文である。言語知識480は、「XがYを導入する」という第1文と、「XがYを設置する」という第2文とからなる。テキスト482内で、第1文の変数Xに相当する表現は「N社は」という文字列490である。第1文の「Y」に相当する表現は、テキスト482内の「新型交換機を」という文字列492である。そして、言語知識480の第1文の「導入する」という表現は、テキスト482内の「導入する」という文字列494と一致している。この関係から、変数Xが指す候補は文字列490中の「N社」という単語であり、変数Yが指す候補は文字列492中の「新型交換機」という単語であることが分かる。
一方、言語知識480の第2文の「設置する」という表現と合致する表現としてテキスト482に出現するのは、「200システムを設置する」の中の「設置する」という文字列500である。この表現の先頭には省略箇所496を示すタグが付されている。この文(「(〈主語〉は)200システムを設置する」)という文と言語知識480の第2文とを比較することにより、Yは「システム」に相当し、Xは省略されていることがわかる。言語知識480の第1文から得られた知識を用いると、テキスト482の省略箇所496は、言語知識480のXを指し、したがって「N社は」という文字列490が「設置する」の主語であることが分かる。さらに、テキスト482の第2文の「システム」が言語知識480の変数Yに相当し、したがってテキスト482の「新型交換機は」という文字列492がテキスト482の「システム」という文字列498に対応するものであることが分かる。このようにして、省略箇所496の指し先の候補が言語知識480とテキストとを比較することにより求められる。
言語知識を用いた別の例について、図12を参照して説明する。この例では、2つ以上の規則を順次結合することにより、3つ以上の文についての連続した因果関係が得られ、その関係を用いることで、テキスト中に出現する3つ以上の述語に関連して検出される2か所以上の省略箇所の指し先候補を特定する処理を表す。
図12に示すように、第1の言語知識520として「砂漠化が進む→黄砂が増える」、第2の言語知識522として「黄砂が増える→喘息が悪化する」という知識があるものとする。第1の言語知識520の第2文と、第2の言語知識522の第1文とは一致する。したがって、これら2つの知識を連鎖させることにより、「砂漠化が進む→黄砂が増える→喘息が悪化する」という第3の知識524が得られる。この第3の知識524とたとえば図12に示すテキスト526とを、特に述語その出現順序に注目して比較する。ここで、テキスト526については省略箇所の推定がされており、省略箇所542、省略箇所548等を示すタグが付加されているものとする。なお、テキスト526において、「(φ1)」は第1の省略箇所を、「(φ2)」は第2の省略箇所を、それぞれ表し、以下同様である。すると、テキスト526に「砂漠化が進んでいて」という表現540、「(φ1が)増えている」という表現544、及び「(φ2が)悪化して」という表現546が、第3の知識524の3つの述語部分と同じ順序で出現している。これらの表現の述語部分は、第3の知識524の述語と同じか、その活用形である。そこで、第3の知識524とテキスト526のうちで上記述語の出現している箇所とを比較することにより、φ1は黄砂を指し、φ2は喘息を指すことが分かる。
このような比較により、2つ以上の知識を連結して得た知識を活用することで、省略箇所の指し先を効率よく探索できる。なお、知識をどの程度まで連結するかは、設計事項に関する。知識が長くなると1つの知識で探索可能な省略箇所の指し先数の最大値は大きくなるが、規則が適用可能なテキストは少なくなる。本実施の形態では、2つの知識までの連結することを想定している。ただし、本発明はそのような実施の形態には限定されない。もっと多くの知識を連結して省略箇所の指し先の探索に用いてもよい。又は、文の種類により連結数の最大値を変化させたり、ユーザに知識の連結数の最大値を指定させたりしてもよい。
図13を参照して、知識の述語の言換えを適用することにより、一つの知識でより多くの指し先の探索を行う例について説明する。知識として「Xが生まれる→Xを販売する」という事態生起順序関係言語知識570があるものとする。一方、「販売する」を「売る」と言換えられるという言換え規則574が言換え・カテゴリ辞書196に記憶されているものとする。処理対象のテキストとして、「ウィスキー『W』が北海道で生まれA社が(φヲ)販売した」というテキスト572を考える。処理対象のテキストは、(φヲ)で表される省略箇所582を含む。テキスト572の前半部分と事態生起順序関係言語知識570の第1文とを比較すると、変数Xがテキスト572中の「ウィスキー『W』」という単語580を指すことが分かる。一方、テキスト572の述語「販売する」の目的語がXとなっている。この結果と、テキスト572の後半部の述語が「販売した」という表現584であることから、テキスト572中の「φヲ」で示される省略箇所582が「ウィスキー『W』」という単語580に相当することが分かる。そこで、まずこのようなアノテーション済のテキスト572が得られる。さらに、こうして得られたテキスト572に対し、言換え規則574を適用した言換え576により「販売した」を「売った」という表現586に置換し、アノテーションはそのまま残すことで、アノテーション済の新たなアノテーション済テキスト578が得られる。
図14を参照して、さらに、経験的に得られた文のパターンを用いて省略箇所又は照応詞の指し元及び/又は指し先を特定する処理について説明する。例えば、「Xは〜して、〜する」のようなパターンが出現する場合、「〈述語〉して」の主語と「〈述語〉する」の主語とがいずれもXであるような例が多いことが経験的に知られている。そうした知識を文法的なパターンとしてパターン辞書198に記憶しておく。パターン中には、省略箇所に相当する部分を特定する情報と、その指し先を示す情報とを挿入しておいてもよい。そして、処理対象のテキスト中にパターン辞書198に記憶されたパターンに合致するような表現が出現した場合、その表現をパターンと比較することで、入力箇所内の省略箇所(指し元)と、その省略箇所の指し先との候補を特定できる。
例えば、図14に示すように、パターン612がパターン辞書198に記憶されているものとする。このパターン612は、「Xは」という表現650、「…して」という表現652、及び「…する」という表現654がこの順序で出現した場合、表現654の先頭に表現654の主語が省略された箇所を示すタグ656が付されること、そのタグ656の指先がXであることが記述されているものとする。
入力としてテキスト610が与えられたものとする。テキスト610には、「台風20号は」という表現630、「…を北上し」という表現632、及び「接近する」という表現634がこの順番で出現する。このテキスト610をパターン612と照合614することにより、Xが台風20号に相当すること、「接近する」の主語が省略されており、その指し先は台風20号であることが判明する。そこで、「接近する」の直前の省略箇所を示すタグ636と、その指し先としての「台風20号」とを対にしてアノテーション候補とする。このように、人の経験から導き出されたパターンを照応・省略解析に適応することで、人が持つ知識を生かした照応・省略解析を実現できる。
〈第3の候補生成部392〉
図15を参照して、第3の候補生成部392は、既存小規模学習データDB190の中からアノテーション済の照応関係及び省略関係を検索し、両者を区別して出力する照応・省略関係検索部680と、照応・省略関係検索部680の出力する照応関係を構成する名詞句対の各々について、その名詞句の内の指し元(テキスト内で後方に位置するもの)を自動的に省略した新たな文を生成して新たなテキストを生成する指し元省略文生成部682と、指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付すアノテーション追加部684と、照応・省略関係検索部680が出力する省略関係を含むテキスト部分のうち、省略箇所について、アノテーションに基づいて省略箇所に、その指し先の要素を代名詞として復元することで新たな文を生成する省略要素復元部688と、省略要素復元部688により生成された新たな文に、省略要素復元部688により復元された代名詞の指し元とその指し先とからなるアノテーション候補を追加するアノテーション追加部690と、アノテーション追加部684及びアノテーション追加部690により生成された新たな文をそのアノテーション候補とともに候補DB386に追加する候補追加部686とを含む。
第3の候補生成部392により指し元を省略した場合、省略は機械によりある基準にしたがって自動的に行われる。そのため、省略語の表現について、その省略部分の指し先が何かを人が判断できない場合も生ずる。そうした場合には、そのアノテーションを負例として学習データに追加する。
なお、候補追加部686は、照応・省略関係検索部680及び省略要素復元部688の出力するテキストが解析後テキストDB384に存在しない場合には、これらテキストを解析後テキストDB384に追加し、アノテーション候補を解析後テキストDB384に追加されたテキストと関連付けて候補DB386に追加する。
〈第4の候補生成部394〉
図16を参照して、第4の候補生成部394は、解析後テキストDB384に記憶された解析後テキストに対して、既存照応・省略解析器208を適用することにより、照応・省略解析の実行結果を得て、解析後テキストにアノテーションとして追加する照応・省略解析実行部710と、照応・省略解析実行部710の出力する照応・省略解析結果のアノテーションが付されたテキストを記憶する解析結果記憶部712と、解析結果記憶部712に記憶された解析結果に含まれるアノテーションを、解析後テキストDB384で解析対象となったテキストに対するアノテーション候補として候補DB386に追加する候補追加部714とを含む。
〈対話型アノテーション装置396〉
図8に示す対話型アノテーション装置396は、図17に示すような状態遷移を行うプログラムにより実現される。図17を参照して、このプログラムは、プログラム実行開始時及び文書クローズ時等に初期処理を実行し、初期画面を表示した状態(初期状態)740から開始する。この状態では、テキストアーカイブから処理対象の文書を選択する処理と、プログラムの実行を終了する処理とのいずれかを選択できる。文書の選択が選ばれるとプログラムの状態は文書選択状態742に遷移する。文書選択状態742では、文書ファイルの選択ダイアログが表示される。ここでは文書ファイルの選択と、処理のキャンセルとを選ぶことができる。処理のキャンセルが選ばれると状態は初期状態740に戻る。文書選択状態742で文書が選択されるとプログラムは文書の内容を表示する状態(文書表示状態)744に遷移する。文書表示状態744では、文書の表示をキャンセルし、更新を反映せずに再度文書選択状態742に戻る処理と、更新を反映して文書をクローズする処理と、照応・省略解析の学習データを作成するために、アノテーション候補の選択を指示する処理とのいずれかを選択できる。アノテーション候補の選択が指示されると、文書の、現在処理中の位置から文書の末尾方向に向かって、アノテーション候補を検索する状態(候補検索状態)746を経由した後、アノテーション候補を表示してユーザによるアノテーション候補の選択を待つ状態(候補選択待機状態)748に遷移する。
候補検索状態746では、アノテーション候補が付された次の位置を検索し、検索された位置に付されているアノテーション候補が1つだけであれば図3の下段に示したような、アノテーション候補を承認するか否かを指定するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコン「▼」を対象箇所に表示する。アノテーション候補が複数個ある場合には、それらを全て表示するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコンを対象箇所に表示する。なお、ドロップダウンリストの表示時に、ユーザがリストのいずれかにポインタを合わせると、その候補と、その候補に対応する文書上の表現とが同じ色でハイライトされる。こうした処理により、指し元と指し先との対応についてユーザが容易に理解できる。この状態では、アノテーション選択処理を中断して文書表示状態744に状態を遷移させる処理と、それまでに行われたアノテーションの選択を文書に反映させて文書を保存し、文書ファイルをクローズする処理とのいずれかが選択できる。
ドロップダウンリストの操作により候補のいずれかが選択がされると、プログラムはアノテート付加状態750に遷移する。アノテート付加状態750では、選択にしたがって文書内の指定箇所に選択されたアノテートを付し、他の候補には選択されなかったことを示す情報を付すよう、メモリ上の文書を更新する。プログラムは再び候補検索状態746に移動し、次の候補が見つかると候補選択待機状態748に遷移する。
候補選択待機状態748で文書を表示させたままアノテーション処理を中断することを選択すると、プログラムは文書表示状態744に遷移する。文書に対して行ったアノテーション処理を反映させて現在の文書を保存することを選択した場合、プログラムは、文書クローズ状態752に遷移する。文書クローズ状態752では、プログラムは、メモリにロードされている更新済の文書データを文書ファイルとして上書き保存し、開いている文書ファイルをクローズする処理と、文書を保存せず、文書選択状態742に遷移する処理とのいずれかを選択できる。文書を保存しないことが選択されると、状態は文書選択状態742に直接遷移する。文書を保存することが選択されると、メモリ上のファイルを文書ファイルとして記憶媒体に上書き保存する状態(上書保存状態)754に遷移し、保存が完了すると文書選択状態742に遷移する。
このプログラムを実行することにより、省略箇所、照応詞を装置側で自動的に検索し、いずれかが検索されるたびに、その箇所に付されたアノテーション候補が表示される。アノテーション候補が1つであればユーザはそのアノテーション候補を承認するか否かを入力すればよい。場合によってはアノテーション候補を手入力してもよい。いずれにせよ、削除位置又は照応詞をユーザが目視で探し、その指し先をさらに目視で探す場合と比較して、はるかに容易にアノテーションを行える。
<検出器学習装置222>
再び図4を参照して、検出器学習装置222は、前述したとおり、学習データDB162に記憶された学習データから、選択制限DB224、質問タイプDB220及び質問応答システム226を用いて省略検出器166、照応詞検出器168、及び先行詞特定器170の学習をそれぞれ別々に行う。先行詞特定器170についてはさらに、省略箇所の先行詞用の特定器と、照応詞の先行詞用の特定器との学習を独立に行う。
図18を参照して、検出器学習装置222は、このために、省略検出器学習部770、照応詞検出器学習部772、及び先行詞特定器学習部774を含む。
〈省略検出器学習部770〉
本実施の形態では、省略検出器166は、主語省略検出器800、目的語省略検出器802,及び間接目的語省略検出器804を含む。省略検出器学習部770は、これら3つの検出器の学習を個別に行うため、学習データDB162に記憶された学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習をそれぞれ行うための素性ベクトル群782、784及び786を生成するための格別素性ベクトル生成部780と、これら素性ベクトル群782,784及び786を用いてそれぞれ主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804を構成するSVMの学習を行うためのSVM学習処理部788とを含む。
ここでは、述語とは、動詞、形容詞、及び「名詞+『だ』」の形式の文字列である。素性ベクトルに含む学習のラベルとしては、述語が省略を持つ場合に1,それ以外なら0を用いる。
格別素性ベクトル生成部780が生成する素性ベクトルは、以下のような要素を含む。
・省略検出対象の述語に関して、検出対象の文法役割(例えば、主語)が係り受け関係にあるなら1,それ以外なら0
・主題となる表現(「は」でマークされた名詞句)が述語と同一文内に出現しているなら1,それ以外なら0
・省略検出対象の述語が対象テキストの1文目に出現しているなら1,それ以外なら0
・省略検出対象の述語が文の最初の後であるなら1,それ以外なら0
・省略検出対象の述語と係り受け関係にある語の見出し語、品詞
〈照応詞検出器学習部772〉
照応詞検出器学習部772は、学習データDB162に記憶された学習データから、照応詞検出器168のSVMの学習を行うために、照応関係の差し元(照応詞)としてアノテーションが付された単語を選択する照応詞候補選択部830と、照応詞候補選択部830により選択された照応詞の各々について、後述するような素性ベクトルを生成するための素性ベクトル生成部832と、素性ベクトル生成部832により生成された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行うためのSVM学習処理部834とを含む。
素性ベクトル生成部832が生成する素性ベクトルにおいて、学習のラベルは、分類対象の名詞句が、テキストの前方に照応関係となる差し先を持つなら1,それ以外なら0である。照応詞検出学習のための素性ベクトルの要素は以下を含む。
・照応詞候補の品詞、見出し語文字列、及びその候補に後続する格助詞
・照応詞候補の係り先の品詞、見出し語、その係り先に後続する格助詞
・テキスト中で照応詞候補より前の位置に出現する名詞句が文字列として照応詞候補と完全一致する場合に1,それ以外は0
・テキスト中で照応詞候補と部分一致する場合に1,それ以外は0
〈先行詞特定器学習部774〉
先行詞特定器170は、照応詞用先行詞特定器900と、省略用先行詞特定器902とを含む。そのため、先行詞特定器学習部774はこの2つの特定器900及び902の学習を別個に行う構成を有する。
具体的には、先行詞特定器学習部774は、照応詞用先行詞特定器900の学習を行う照応詞用先行詞特定器学習部840と、省略用先行詞特定器902の学習を行う省略用先行詞特定器学習部842とを含む。
照応詞用先行詞特定器学習部840は、学習データDB162に記憶された学習データから照応関係の指し元(照応詞)としてアノテーションが付された表現を選択する照応詞選択部850と、照応詞選択部850が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現とからなる先行詞候補を選択する先行詞候補選択部852と、照応詞選択部850が選択した照応詞と、先行詞候補選択部852が選択した照応詞候補との組み合わせの各々について照応詞用先行詞特定器900の学習を行うための素性ベクトルを生成する素性ベクトル生成部854と、素性ベクトル生成部854が生成した素性ベクトルを用いて照応詞用先行詞特定器900を構成するSVMの学習を行うためのSVM学習処理部856とを含む。
一方、省略用先行詞特定器学習部842は、学習データDB162内の学習データのうち、省略関係としてアノテーションされた表現(省略)を選択する省略選択部870と、省略選択部870が選択した省略に対する先行詞としてアノテーションされた表現を含め、先行詞となる可能性のある候補を学習データ中で選択する先行詞候補選択部872と、省略選択部870が選択した省略部と、先行詞候補選択部872が選択した先行詞候補との組み合わせの各々について、素性ベクトルを生成するための素性ベクトル生成部874と、素性ベクトル生成部874により生成された素性ベクトルを用いて、省略用先行詞特定器902を構成するSVMの学習を行うSVM学習処理部876とを含む。なお、素性ベクトル生成部874は後述するように選択制限DB224、質問タイプDB220、質問応答システム226、及び言語知識DB228に接続されており、素性ベクトルの生成時にこれらから得られる情報を用いる。
素性ベクトル生成部854及び素性ベクトル生成部874が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補又は照応詞・先行詞候補の対が照応・省略関係となるなら1,それ以外は0である。
素性ベクトルの要素は以下のとおりである。
・先行詞候補の品詞、見出し語文字列、その候補に後続する格助詞
・先行詞候補がテキストの1文目に出現するなら1,それ以外なら0
・先行詞候補が文内で最初に言及された先行詞候補なら1,それ以外なら0
・先行詞候補と照応詞が完全に同じ文字列なら1,それ以外なら0
・先行詞候補と照応詞が部分的に同じ文字列なら1,それ以外なら0
・選択制限DB224を用い、省略を持つ述語と先行詞となる名詞句の間で選択制限が満たされる場合には1,それ以外なら0
・省略を含む文、その省略の箇所について、質問タイプDB220を用いてその箇所が回答となるような質問文を生成し質問応答システム226に与えて得られた回答のいずれかが先行詞候補と一致すれば1,それ以外なら0
・省略を持つ述語、先行詞の係り先の述語が検出器学習装置222に登録されている因果関係知識に含まれる述語対と合致するなら1,それ以外なら0
<照応・省略解析装置172>
図4を参照して、照応・省略解析装置172は、省略検出器166、照応詞検出器168及び先行詞特定器170に接続され、これらを用いて入力250に対する照応・省略解析をし、自動的にアノテーションを入力250に追加して出力254とするための照応・省略解析器252と、照応・省略解析器252が照応・省略解析をする際の素性ベクトル生成に使用する言語知識DB256、質問タイプDB258、質問応答システム260、及び選択制限DB262を含む。言語知識DB256は、照応・省略解析システム150で使用される言語知識DB194、学習システム164で使用される言語知識DB228と同様の言語知識を記憶したデータベースである。質問タイプDB258は、アノテーションデータ生成補助システム160で使用される質問タイプDB200及び学習システム164で使用される質問タイプDB220と同様の構成を持ち、その記憶内容も同様である。質問応答システム260は、アノテーションデータ生成補助システム160で使用される質問応答システム206及び学習システム164で使用される質問応答システム226と同様の機能を持つシステムである。選択制限DB262は、学習システム164における素性ベクトルの生成時に使用される選択制限DB224と同様のものである。なお、ここで同様の構成を持つと記載したDBは、互いに同一のものでもよいし、互いに異なるものでもよい。
[動作]
以上に構成を述べた照応・省略解析システム150は以下のように動作する。学習データの作成、検出器の学習、及び入力に対する自動アノテーションの3つのフェーズに分けて説明する。
<学習データの作成>
学習データの作成はアノテーションデータ生成補助システム160により行われる。この処理に先立ち、既存小規模学習データDB190、テキストアーカイブ192、言語知識DB194、言換え・カテゴリ辞書196、パターン辞書198、既存照応・省略解析器208、及び質問タイプDB200を準備しておく必要がある。また、質問応答システム206については、予めアノテーションデータ生成補助システム160内に準備し学習データ生成補助装置204からアクセス可能にしておくか、外部の質問応答システムに対して質問文を送れるよう準備しておく必要がある。
図8を参照して、利用者は学習データ生成補助装置204を起動し、テキストアーカイブ192を指定して学習データの生成の開始を指示する。形態素解析システム380は、テキストアーカイブ192に記憶された各テキストを読出し、形態素解析をして種々の文法的情報が付された形態素列を係り受け関係解析システム382に与える。係り受け関係解析システム382は、与えられた形態素列からなる各文について文法的構造解析及び係り受け解析を行い、構造情報と係り受け情報とが付された形態素列を解析後テキストDB384に出力する。こうして、テキストアーカイブ192に記憶された各テキストが解析され、解析後テキストが解析後テキストDB384に蓄積される。
図9を参照して、第1の候補生成部388の述語検索部420は、解析後テキストDB384に記憶された解析後テキストの各々を読出し、述語を検索して述語リスト記憶部422に書き出す。省略候補検出部424は、述語リスト記憶部422に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出し質問文自動生成部426に与える。質問文自動生成部426は、省略候補の部分が回答となるような質問文から質問文を生成する。この際、質問文自動生成部426は、処理対象となっている述語と、省略候補の文法役割(主語、目的語、等)とをキーとして質問タイプDB200をアクセスし、質問タイプを読み出す。質問文自動生成部426はさらに、読み出した質問タイプの表現を用いて、省略箇所を含む文を変形して図7に示す質問文336のような質問文を生成する。質問文自動生成部426はこの質問文を質問応答システム206と回答受信部428に与える。回答受信部428は、質問文自動生成部426から質問文を受けると、質問文に対する回答が質問応答システム206から与えられるまで待機する。
質問応答システム206は、本実施の形態では、与えられた質問文に対し、いくつかのカテゴリ別に、各カテゴリについて複数の回答候補を生成し、回答受信部428に与える。回答受信部428は、質問応答システム206から回答を受信すると、その回答が質問文自動生成部426から送信されたどの質問文に対するものかを確認し、出現位置確認部430に処理対象となっている述語を特定する情報と回答とを与える。
出現位置確認部430は、回答受信部428からの情報に基づき、処理対象の解析後テキストのうち、処理の対象となっている述語より前に出現している省略の指し先候補の位置を確認し、それらを省略箇所の補完候補として、処理対象となっている述語と、候補の各々とを組みにして候補追加部432に出力する。候補追加部432は、出現位置確認部430から与えられた候補を候補DB386に追加する。
図10を参照して、第2の候補生成部390は以下のように動作する。述語検索部450は、解析後テキストDB384に格納された解析後テキストの内の各述語を検索し、述語リスト記憶部452に蓄積する。省略候補検出部454は、図8に示す省略候補検出部424と同様、述語リスト記憶部452に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出する。省略候補検出部454は、検出された省略候補の位置を示す情報を対象述語検索部456に与える。対象述語検索部456は、省略候補検出部454により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして言語知識検索部458に与える。
言語知識検索部458は、対象述語検索部456が出力する各述語ペアについて、それらペアを構成する述語又はそれを言換えた述語が言語知識DB194内の言語知識のいずれかにおいて、第1文と第2文とに出現するような言語知識があるか否かを判定し、あればその言語知識を出力する。言語知識検索部458はまた、対象述語検索部456から与えられる述語ペアを含む表現であって、かつパターン辞書198に記憶されたパターンに合致するものがあればそれも出力する。言語知識検索部458はこれら言語知識及びパターンをテキストに適用する際に、言換え・カテゴリ辞書196に記憶された言換え規則及びカテゴリを用い、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりすることにより、言語知識の適用対象を広げる。言語知識検索部458により検索された言語知識は、その言語知識の検索の際に用いられた述語ペアとともに合致言語知識記憶部460に蓄積される。最後に、候補追加部462が、図11〜図14を参照して説明したように、合致言語知識記憶部460に記憶された述語ペアと、合致した言語知識又はパターンとを照合することにより、省略候補の指し先候補を特定し、省略候補と、各指し先候補とのペアをアノテーション候補として候補DB386に追加する。
図15を参照して、第3の候補生成部392の照応・省略関係検索部680は、既存小規模学習データDB190の中でアノテーション済の照応関係及び省略関係を検索し、照応関係を含む文を指し元省略文生成部682に、省略関係を含む文を省略要素復元部688に、それぞれ出力する。
指し元省略文生成部682は、照応関係を含むテキストから、照応関係を構成する名詞句対を探し、その各々について、その名詞句の内、テキスト内で後方に位置する指し元を自動的に省略した新たなテキストを生成してアノテーション追加部684に与える。アノテーション追加部684は、このようにして指し元省略文生成部682の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付して候補追加部686に出力する。
候補追加部686は、照応・省略関係検索部680が出力する省略関係を含むテキストのうち、省略箇所について、アノテーションに基づいて、その指し先の要素を代名詞として復元することで新たなテキストを生成しアノテーション追加部690に与える。アノテーション追加部690は、省略要素復元部688により生成された新たなテキストに、省略要素復元部688により復元された代名詞からなる指し元と、もともとのアノテーションにより指し先とされていた部分とからなる新たな照応関係のアノテーション候補を追加し候補追加部686に出力する。
候補追加部686は、アノテーション追加部684及びアノテーション追加部690から出力されたテキストをそれらに付加されたアノテーション候補とともに候補DB386に追加する。
図16を参照して、第4の候補生成部394の照応・省略解析実行部710は、解析後テキストDB384からテキストを読出し、既存照応・省略解析器208による照応・省略解析を実行する。既存照応・省略解析器208は、その性能には限界があるものの、入力されたテキストに対して照応・省略解析を実行し、アノテーションされたテキストを照応・省略解析実行部710に返す。照応・省略解析実行部710は、そのアノテーションされた解析結果を解析結果記憶部712に蓄積する。候補追加部714は、解析結果記憶部712に記憶された解析結果に含まれるアノテーションをアノテーション候補として候補DB386に追加する。
以上の処理をテキストアーカイブ192(図4及び図8参照)に記憶された全てのテキストに対して実行することにより、最終的に候補DB386にはアノテーション候補が付されたテキストが蓄積される。候補DB386に蓄積されたテキストは、省略候補及び照応詞候補を含み、各省略候補及び照応詞候補には、それらの指し先を示すアノテーション候補が1又は複数個付加されている。
対話型アノテーション装置396は、候補DB386に蓄積された候補の各々について、入出力装置202を用いたユーザとの対話型処理により、省略候補及び照応詞候補の各々について、以下のように動作する。
図3の下段を参照して、対話型アノテーション装置396は、アノテーション候補を含むテキスト92を画面に表示する。その際、対話型アノテーション装置396は、省略候補及び照応詞候補の各々について、以下のようにしてアノテーション候補を選択するドロップダウンメニューを作成する。すなわち、省略候補の指し先が1箇所しか存在しない場合には、図3において文字列130で示される省略候補の位置に、その指し先候補である単語110と同じ単語を表示し、さらにその右側にドロップダウンメニューがあることを示すアイコン「▼」を表示する。ドロップダウンメニューには、表示されている候補を受け入れるか否かを示すオプション(YES・NO)と、直接入力とを示すオプションとが表示される。ユーザがYESを選択すると、選択されたアノテーションがアノテーションとして確定される。NOが選択された場合、アノテーションは未確定で残される。直接入力が選択されると、文字列130で示される省略候補の指し先を直接指定するためのダイアログが表示される。ユーザが指し先を入力することにより、ユーザの指定にしたがった新たなアノテーションが生成され、確定アノテーションとなる。この場合、最初に表示されていながらユーザにより選択されなかったアノテーションは、学習時の素性ベクトル作成の際の負例を生成するために使用される。したがって、負例であることを示すフラグがこのアノテーション候補に付される。
アノテーション候補が複数個ある場合には、それら複数個のアノテーション候補をオプションとして含むドロップダウンリストが生成される。該当箇所には、アノテーション候補のうち先頭のもの、又は何らかの形でアノテーション候補にスコア付けした際の最高スコアのアノテーション候補が表示される。その右側には、ドロップダウンリストがあることを示すアイコン「▼」が表示される。この場合にも、ドロップダウンリストには、直接入力することを選択するオプション項目が表示される。ユーザがいずれかのオプションを選択すると、選択されたアノテーション候補がアノテーションとして確定する。選択されなかった候補については、学習時の素性ベクトル作成の際に、負例を生成するために使用される。
いずれの場合も、アノテーションが確定した解析後テキストは学習データDB162に蓄積される。候補DB386に記憶された全ての解析後テキストについて、上記したアノテーションの選択が完了すると、学習データDB162が完成する。
<検出器の学習>
図18を参照して、検出器学習装置222は以下のように動作する。省略検出器学習部770の格別素性ベクトル生成部780は、学習データDB162に記憶されたアノテーション確定済の学習データのうち、省略を含む学習データを読出す。格別素性ベクトル生成部780は、学習データの省略箇所の各々が、述語の主語(ガ格)、直接目的語(ヲ格)、又は間接目的語(二格)であるときに、それらを分類して、それぞれ素性ベクトル群782、784及び786を生成し図示しない記憶装置に蓄積する。この際、格別素性ベクトル生成部780は、確定したアノテーションについては学習ラベルを1、それ以外のアノテーションについては学習ラベルを0とする。SVM学習処理部788は、これら素性ベクトル群782、784及び786を用いて、主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804が有するSVMの学習を行う。
照応詞検出器学習部772の照応詞候補選択部830は、学習データDB162に蓄積された学習データのうち、照応詞候補を含むテキストを読み出し、照応関係の差し元(照応詞)としてアノテーションが付された単語を選択する。素性ベクトル生成部832は、照応詞候補選択部830により選択された照応詞候補の各々について、前述した素性ベクトルを生成する。この際、素性ベクトル生成部832は、確定したアノテーションについては学習ラベルを1,それ以外のアノテーションについては学習ラベルを0とする。素性ベクトル生成部832が生成した素性ベクトルは図示しない記憶装置に蓄積される。SVM学習処理部834は、このようにして蓄積された素性ベクトル群を用い、照応詞検出器168を構成するSVMの学習を行う。
先行詞特定器学習部774において、照応詞用先行詞特定器学習部840は以下のように動作する。照応詞用先行詞特定器学習部840の照応詞選択部850は、学習データDB162に記憶された学習データのうち、照応関係の指し元(照応詞)としてアノテーションされている表現を選択し、先行詞候補選択部852に与える。先行詞候補選択部852は、照応詞選択部850が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現(名詞句)との双方を含む先行詞候補を選択する。素性ベクトル生成部854は、照応詞選択部850が選択した照応詞と、先行詞候補選択部852が選択した照応詞候補の各々との組み合わせについて照応詞用先行詞特定器900の学習を行うための素性ベクトルを生成する。この際、素性ベクトル生成部854は、照応関係において照応詞の指し先としてアノテーションされた表現については学習ラベルを1,それ以外の学習ラベルを0とする。SVM学習処理部856は、素性ベクトル生成部854が生成した素性ベクトルを用いて照応詞用先行詞特定器900を構成するSVMの学習を行う。
一方、省略用先行詞特定器学習部842は以下のように動作する。省略用先行詞特定器学習部842の省略選択部870は、学習データDB162内の学習データのうち、省略関係としてアノテーションされた表現(省略)を選択し、先行詞候補選択部872に与える。先行詞候補選択部872は、省略選択部870が選択した省略に対する先行詞としてアノテーションされた表現を含め、省略の先行詞となる可能性のある候補を学習データ中で選択する。素性ベクトル生成部874は、省略選択部870が選択した省略部と、先行詞候補選択部872が選択した先行詞候補の各々との組み合わせについて、素性ベクトルを生成し図示しない記憶装置に蓄積する。このとき、素性ベクトル生成部874が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補の対が省略関係となるなら1、それ以外は0である。また素性ベクトル生成部874は、素性ベクトルの生成にあたって、前述したとおり、選択制限DB224、質問タイプDB220、質問応答システム226及び言語知識DB228を用いる。SVM学習処理部876は、素性ベクトル生成部874により生成された素性ベクトルを用いて、省略用先行詞特定器902を構成するSVMの学習を行う。
以上の処理により、省略検出器166に含まれる主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804、照応詞検出器168、並びに先行詞特定器170に含まれる照応詞用先行詞特定器900及び省略用先行詞特定器902の学習が完了する。
<自動アノテーション>
図4に戻り、照応・省略解析器252による入力250に対する照応・省略解析とその結果の自動アノテーションは以下のようにして実行される。なお、この解析は省略解析、照応解析、省略及び照応詞に対する先行詞解析に分割される。省略解析では省略検出器166が用いられる。照応解析では照応詞検出器168が用いられる。先行詞解析では先行詞特定器170が用いられる。
最初に、入力250に対する形態素解析及び構造・係り受け解析が実行され、構造・係り受け情報が付された形態素列が処理の対象となる。この形態素列に対し、省略解析では、それぞれ図18に示す主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の学習を行ったときと同様の構成の素性ベクトルを生成し、これら検出器に与える。主語省略検出器800、目的語省略検出器802、及び間接目的語省略検出器804の出力により、入力250のうちでそれぞれ最も高いスコアを示す部分に省略箇所としてのアノテーションが付される。照応詞解析では、入力250に含まれる名詞句対中から照応詞候補となり得る語句を選択し、その各々について、図18に示す素性ベクトル生成部832により生成された素性ベクトルと同様の構成の素性ベクトルを入力250から生成する。この組成ベクトルを照応詞検出器168に与えることにより、照応詞検出器168からスコアが得られる。このスコアにより、照応詞か否かを決定し、その旨のアノテーションを付する。
照応詞用先行詞特定器900による先行詞の推定は以下のようにして行われる。照応詞検出器168により照応詞と判定された表現の各々について、先行詞となり得る表現を入力250中で選択し、両者をペアとして図18の素性ベクトル生成部854と同様に素性ベクトルを生成する。この素性ベクトルを照応詞用先行詞特定器900への入力とし、照応詞用先行詞特定器900のスコアを得て、しきい値より高いスコアで、かつ最も高いスコアを示した先行詞候補と、処理対象の照応詞との間で照応関係のアノテーションを追加する。
省略用先行詞特定器902による先行詞の推定も同様である。ただしこの場合、素性ベクトル生成部854により生成される素性ベクトルではなく素性ベクトル生成部874により作成されるものと同様の構成の素性ベクトルが使用される。したがってこのときには、選択制限DB224、質問タイプDB220、質問応答システム226及び言語知識DB228が必要となる。
以上のように本実施の形態によれば、テキストアーカイブから、照応・省略解析のための検出器の学習を行うための学習データ生成が容易に行える。例えば照応・省略関係の候補が自動的に検索され、その先行詞候補がリストとして表示される。ユーザは、リストに表示された候補が1つでかつ正しいものであればそれを承認し、リストに表示された候補が複数個であればそのうちの1つを選択すればよい。従来のように、照応・省略関係の位置を目視で探し、次にその指し示す位置をさらに目視で探して両者に照応・省略関係のアノテーションを付す、という作業を行う必要はない。仮に表示されたリストに正しい指し先が示されないときには、手入力により正しい指し先を指定することができる。
したがって、従来の技術よりもはるかに簡便に、照応・省略解析の検出器の学習を行うための学習データを準備できる。その結果、学習データの作成コスト及び作成時間をいずれも低減できる。大量の学習データを低コストで準備できるため、この学習データを使用して学習を行った省略検出器166、照応詞検出器168、及び先行詞特定器170を用いてテキストの照応・省略解析を効率的に行うことが可能になる。また、学習データが大量になるため、これら検出器の精度が向上することが期待でき、高い精度でほぼ自動的にテキストの照応・省略解析を行うことができる。
なお、上記実施の形態では、質問応答システム206は単数であるものとして説明した。しかし本発明はそのような実施の形態には限定されない。質問応答システムが複数個利用できるのであれば、複数個の質問応答システムを利用してもよい。この場合、各質問応答システムがいずれも自然言語のテキストを入力とするのであれば、同一の質問文をそれらに送信するだけで回答候補を得ることができる。
[コンピュータによる実現]
上記実施の形態に係る学習データ生成補助装置204は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図19はこのコンピュータシステム930の外観を示し、図20はコンピュータシステム930の内部構成を示す。
図19を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
図20を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートプログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)960と、ハードディスク954を含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワーク968への接続を提供するネットワークインターフェイス(I/F)944を含む。
コンピュータシステム930を上記した実施の形態に係る学習データ生成補助装置204の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムはネットワーク968を通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から又はネットワーク968を介して、直接にRAM960にプログラムをロードしてもよい。
このプログラムは、コンピュータ940を、上記実施の形態に係る学習データ生成補助装置204の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ940にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ940にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
150 照応・省略解析システム
160 アノテーションデータ生成補助システム
162 学習データDB
164 学習システム
166 省略検出器
168 照応詞検出器
170 先行詞特定器
172 照応・省略解析装置
190 既存小規模学習データDB
192 テキストアーカイブ
194,228,256 言語知識DB
196 言換え・カテゴリ辞書
198 パターン辞書
200,220,258 質問タイプDB
202 入出力装置
204 学習データ生成補助装置
206,226,260 質問応答システム
222 検出器学習装置
224,262 選択制限DB
252 照応・省略解析器

Claims (6)

  1. 自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置であって、
    表示装置と入力装置とからなり、ユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
    アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
    前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
    前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
    前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
    前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語知識を用いて推定する候補推定手段と、
    前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
    前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
    前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段とを含む、アノテーション補助装置。
  2. 前記候補推定手段は、
    前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置に入るべき単語を問い合わせる文を、当該位置の周囲の単語列を用いて生成する質問文生成手段と、
    前記質問文生成手段が生成した質問文を、予め準備された質問応答システムに入力として与える質問文入力手段と、
    前記質問文入力手段から与えられた質問文に対して前記質問応答システムから得られる回答から、前記単語の位置に挿入されるべき単語の候補を当該単語の位置と関連付けて前記候補記憶手段に記憶させる手段とを含む、請求項1に記載のアノテーション補助装置。
  3. 前記候補推定手段は、さらに、
    複数の言語知識規則を記憶する言語知識記憶手段と、
    前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた前記述語とを含む表現であって、前記言語知識記憶手段に記憶された言語知識のいずれかに適合する表現を特定する適合表現抽出手段と、
    前記適合表現抽出手段により抽出された表現と、当該表現が適合した言語知識規則とを照合することにより、前記表現中の、前記対象特定手段が特定した前記単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として前記候補記憶手段に記憶させる手段とを含む、請求項2に記載のアノテーション補助装置。
  4. 前記候補推定手段はさらに、
    予め準備された既存のアノテーション済テキストデータベースに含まれるテキスト中で、省略又は照応関係に関するアノテーションが付されている箇所を検索するアノテーション検索手段と、
    前記アノテーション検索手段により検索された箇所の各々について、各アノテーションごとに予め定められた方式にしたがって文を変形し、当該変形箇所を前記検索された箇所に対するアノテーションの候補として前記候補記憶手段に記憶させる手段とを含む、請求項3に記載のアノテーション補助装置。
  5. 前記候補推定手段はさらに、
    前記解析手段の出力する解析後の形態素列を、他の既存の照応・省略解析器への入力として与える手段と、
    前記既存の照応・省略解析器による照応・省略解析結果を受け、当該照応・省略解析結果を、前記候補記憶手段に記憶させる手段とを含む、請求項2〜請求項4のいずれかに記載のアノテーション補助装置。
  6. 自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置としてコンピュータを動作させるコンピュータプログラムであって、コンピュータを、
    当該コンピュータの表示装置と入力装置とを用いたユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
    アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
    前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
    前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
    前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
    前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語知識を用いて推定する候補推定手段と、
    前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
    前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
    前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段として機能させる、コンピュータプログラム。
JP2015011491A 2015-01-23 2015-01-23 アノテーション補助装置及びそのためのコンピュータプログラム Active JP6074820B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015011491A JP6074820B2 (ja) 2015-01-23 2015-01-23 アノテーション補助装置及びそのためのコンピュータプログラム
CN201680006728.2A CN107209759B (zh) 2015-01-23 2016-01-20 注解辅助装置及记录介质
KR1020177017635A KR20170106308A (ko) 2015-01-23 2016-01-20 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
PCT/JP2016/051577 WO2016117607A1 (ja) 2015-01-23 2016-01-20 アノテーション補助装置及びそのためのコンピュータプログラム
US15/544,227 US10157171B2 (en) 2015-01-23 2016-01-20 Annotation assisting apparatus and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015011491A JP6074820B2 (ja) 2015-01-23 2015-01-23 アノテーション補助装置及びそのためのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2016136341A true JP2016136341A (ja) 2016-07-28
JP2016136341A5 JP2016136341A5 (ja) 2016-09-15
JP6074820B2 JP6074820B2 (ja) 2017-02-08

Family

ID=56417145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015011491A Active JP6074820B2 (ja) 2015-01-23 2015-01-23 アノテーション補助装置及びそのためのコンピュータプログラム

Country Status (5)

Country Link
US (1) US10157171B2 (ja)
JP (1) JP6074820B2 (ja)
KR (1) KR20170106308A (ja)
CN (1) CN107209759B (ja)
WO (1) WO2016117607A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135457A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
WO2024014386A1 (ja) * 2022-07-13 2024-01-18 ダイキン工業株式会社 情報処理方法、情報処理装置及びコンピュータプログラム

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528665B2 (en) * 2017-01-11 2020-01-07 Satyanarayana Krishnamurthy System and method for natural language generation
US20180203856A1 (en) * 2017-01-17 2018-07-19 International Business Machines Corporation Enhancing performance of structured lookups using set operations
CN106874467B (zh) * 2017-02-15 2019-12-06 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
JP6957918B2 (ja) 2017-03-22 2021-11-02 カシオ計算機株式会社 情報表示装置、情報表示方法、及びプログラム
JP6888357B2 (ja) 2017-03-22 2021-06-16 カシオ計算機株式会社 情報表示装置、情報表示方法、及びプログラム
JP6911432B2 (ja) * 2017-03-23 2021-07-28 カシオ計算機株式会社 情報表示装置、情報表示装置の制御方法、及び情報表示装置の制御プログラム
KR102365621B1 (ko) * 2017-10-20 2022-02-21 구글 엘엘씨 임상 문서에서 사용하기 위한 환자-의사 대화에서 세부 구조 캡처링
US10860800B2 (en) * 2017-10-30 2020-12-08 Panasonic Intellectual Property Management Co., Ltd. Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
CN108319467B (zh) * 2018-01-03 2022-01-04 武汉斗鱼网络科技有限公司 一种注释填充方法
CN108664465B (zh) * 2018-03-07 2023-06-27 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
US10740541B2 (en) * 2018-05-24 2020-08-11 Microsoft Technology Licensing, Llc Fact validation in document editors
CN109446517B (zh) * 2018-10-08 2022-07-05 平安科技(深圳)有限公司 指代消解方法、电子装置及计算机可读存储介质
JP7159778B2 (ja) * 2018-10-16 2022-10-25 日本電信電話株式会社 発話生成装置、方法、及びプログラム
KR102220106B1 (ko) * 2018-12-12 2021-02-24 주식회사 엘지유플러스 음성 인식된 문장의 보정 방법
KR102194424B1 (ko) * 2018-12-18 2020-12-23 주식회사 엘지유플러스 문장 복원 방법 및 장치
CN109933217B (zh) * 2019-03-12 2020-05-01 北京字节跳动网络技术有限公司 用于推送语句的方法和装置
US11409950B2 (en) * 2019-05-08 2022-08-09 International Business Machines Corporation Annotating documents for processing by cognitive systems
WO2021084645A1 (ja) 2019-10-30 2021-05-06 日本電信電話株式会社 自己校正機能付きadコンバータ
WO2021210142A1 (ja) * 2020-04-16 2021-10-21 日本電信電話株式会社 データパターンの分類方法および分類システム
KR102383043B1 (ko) * 2020-07-02 2022-04-05 주식회사 엔씨소프트 생략 복원 학습 방법과 인식 방법 및 이를 수행하기 위한 장치
KR102417531B1 (ko) 2020-07-08 2022-07-06 주식회사 메가젠임플란트 학습 데이터 생성장치 및 그 장치의 구동방법, 그리고 컴퓨터 판독가능 기록매체
US11853702B2 (en) * 2021-01-29 2023-12-26 International Business Machines Corporation Self-supervised semantic shift detection and alignment
US11977852B2 (en) * 2022-01-12 2024-05-07 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005648A (ja) * 2002-05-10 2004-01-08 Microsoft Corp 自然言語理解システムに関するトレーニングデータの自動注釈付けのための方法およびユーザインターフェース

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6925432B2 (en) * 2000-10-11 2005-08-02 Lucent Technologies Inc. Method and apparatus using discriminative training in natural language call routing and document retrieval
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
CA2549769A1 (en) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated System, method, and program for identifying the corresponding translation
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
US20080162117A1 (en) * 2006-12-28 2008-07-03 Srinivas Bangalore Discriminative training of models for sequence classification
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
CN102193946A (zh) * 2010-03-18 2011-09-21 株式会社理光 为媒体文件添加标签方法和使用该方法的系统
JP5390463B2 (ja) * 2010-04-27 2014-01-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム
US9575937B2 (en) * 2010-08-24 2017-02-21 Nec Corporation Document analysis system, document analysis method, document analysis program and recording medium
US8874568B2 (en) * 2010-11-05 2014-10-28 Zofia Stankiewicz Systems and methods regarding keyword extraction
EP2653981A4 (en) * 2010-12-17 2018-01-17 Rakuten, Inc. Natural language processing device, method, and program
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
US8868407B2 (en) * 2011-07-06 2014-10-21 Honda Motor Co., Ltd. Language processor
JP5389273B1 (ja) * 2012-06-25 2014-01-15 株式会社東芝 文脈解析装置および文脈解析方法
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム
WO2014132402A1 (ja) * 2013-02-28 2014-09-04 株式会社東芝 データ処理装置および物語モデル構築方法
US9171542B2 (en) * 2013-03-11 2015-10-27 Nuance Communications, Inc. Anaphora resolution using linguisitic cues, dialogue context, and general knowledge
CN104268132B (zh) * 2014-09-11 2017-04-26 北京交通大学 机器翻译方法及系统
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005648A (ja) * 2002-05-10 2004-01-08 Microsoft Corp 自然言語理解システムに関するトレーニングデータの自動注釈付けのための方法およびユーザインターフェース

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6016038732; 川口 晋平 外1名: '照応解析に知識源を利用した関連質問群に対する質問応答' 言語処理学会第12回年次大会発表論文集 , 20060313, p.927-930, 言語処理学会 *
JPN6016038733; 鈴木 敬文 外4名: '代表・派生関係を利用した日本語機能表現の解析方式の評価' 言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM] , 20120313, p.598-601, 言語処理学会 *
JPN6016038734; 池田 和史 外4名: '口語文書の解析精度向上のための助詞落ち推定および補完手法の提案' 情報処理学会研究報告 平成22年度4 [CD-ROM] , 20101215, p.1-8, 一般社団法人情報処理学会 *
JPN6016038735; 松本 裕治: 'コーパスへの自動アノテーションツールとアノテーション支援環境の構築' 人工知能学会誌 第24巻第5号, 20090901, p.632-639, (社)人工知能学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135457A (ja) * 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
JP7103264B2 (ja) 2019-02-20 2022-07-20 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
WO2024014386A1 (ja) * 2022-07-13 2024-01-18 ダイキン工業株式会社 情報処理方法、情報処理装置及びコンピュータプログラム
JP7455338B2 (ja) 2022-07-13 2024-03-26 ダイキン工業株式会社 情報処理方法、情報処理装置及びコンピュータプログラム

Also Published As

Publication number Publication date
US20180011830A1 (en) 2018-01-11
WO2016117607A1 (ja) 2016-07-28
JP6074820B2 (ja) 2017-02-08
US10157171B2 (en) 2018-12-18
CN107209759B (zh) 2020-09-18
KR20170106308A (ko) 2017-09-20
CN107209759A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
JP6074820B2 (ja) アノテーション補助装置及びそのためのコンピュータプログラム
EP3230896B1 (en) Localization complexity of arbitrary language assets and resources
JP3009215B2 (ja) 自然語処理方法および自然語処理システム
US8972240B2 (en) User-modifiable word lattice display for editing documents and search queries
US10496756B2 (en) Sentence creation system
US10296584B2 (en) Semantic textual analysis
JP2002215617A (ja) 品詞タグ付けをする方法
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US20180293215A1 (en) Method and Computer Program for Sharing Memo between Electronic Documents
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
Rigouts Terryn et al. HAMLET: hybrid adaptable machine learning approach to extract terminology
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
Choi et al. Syntactic and semantic information extraction from NPP procedures utilizing natural language processing integrated with rules
JP2005228075A (ja) 日常言語プログラム処理システム、その方法および修辞構造解析方法
JP6976585B2 (ja) 照応・省略解析装置及びコンピュータプログラム
Bimson et al. The lexical bridge: A methodology for bridging the semantic gaps between a natural language and an ontology
Revanth et al. Nl2sql: Natural language to sql query translator
Vo et al. VietSentiLex: a sentiment dictionary that considers the polarity of ambiguous sentiment words
JP2008171164A (ja) 分類付与支援装置及び方法及びプログラム
KR102640887B1 (ko) 다국어 웹사이트 콘텐츠를 생성하는 방법 및 전자 장치
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
Xu et al. A Pipeline-Based Multimodal Military Event Argument Extraction Framework
JP4043176B2 (ja) 自然言語処理装置
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2013206130A (ja) 検索装置、検索方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160729

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160729

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161221

R150 Certificate of patent or registration of utility model

Ref document number: 6074820

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250