JP6074820B2

JP6074820B2 - アノテーション補助装置及びそのためのコンピュータプログラム

Info

Publication number: JP6074820B2
Application number: JP2015011491A
Authority: JP
Inventors: 龍飯田; 健太郎鳥澤; 力橋本; 鍾勲呉; 清敬大竹; 豊木俵
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2017-02-08
Anticipated expiration: 2035-01-23
Also published as: JP2016136341A; KR20170106308A; US10157171B2; US20180011830A1; CN107209759B; CN107209759A; WO2016117607A1

Description

この発明は、自然言語処理技術に関し、特に、自然言語の文章中に頻出する省略、代名詞等の指示語の照応関係についてのアノテーションを、テキストに対して効率的に行うためのアノテーション補助装置に関する。

自然言語のテキスト中には、省略及び指示語が頻出する。例えば図１に示す例文３０を考える。例文３０は第１文と第２文とからなる。第２文には、「それ」という指示語（代名詞）４２が含まれる。この場合、「それ」という指示語は第１文の「モン歴の正月の日付」という表現４０を指す。このように指示語の指す語を特定する処理を「照応解析」と呼ぶ。一方、図２の例文６０を考える。この例文６０は、第１文と第２文とからなる。第２文において、「自己診断機能を搭載」という述部の主語は省略されているが、この主語の省略箇所７６には、第１文の「新型交換機」という単語７２が省略されている。同様に、「２００システムを設置する予定だ。」という述部の主語は省略されている。この主語の省略箇所７４には、第１文の「Ｎ社」という単語７０が省略されている。このように、主語等の省略を検出し、それを補完する処理を「省略解析」と呼ぶ。以後、照応解析と省略解析とをまとめて「照応・省略解析」と呼ぶ。

いわゆる人工知能において、人間とのコミュニケーションをとるために、自然言語処理は欠かせない技術である。自然言語処理の重要な問題として、自動翻訳及び質問応答等が存在する。照応・省略解析の技術は、このような自動翻訳及び質問応答において必須の要素技術である。しかし、現状の照応・省略解析の技術水準は、言語にもよるが未だ実用レベルには至っていない。

このように照応・省略解析の性能が向上しない理由は種々考えられる。主な理由として、このような解析には一般常識が必要であることが挙げられる。一般常識を考慮するためには、照応・解析に関する人間による判断を考慮する必要がある。しかし、そうした要素を考慮した解析アルゴリズムは難しい。結局、人間による判断を学習データとして多数準備し、統計的学習により照応・省略解析を行う解析器を作成する必要がある。しかし、そのような解析器構築用の学習データを作成するためのコストは非常に大きいことが知られている。そのため、十分な量の学習データが作成できないために照応・省略解析の性能の向上を図ることができない。

自然言語処理の性能を高め、ひいては人工知能をより知的にするためには、照応・省略解析に関するこうした問題を解決する事が必要である。

照応・省略解析器の学習データを作成する技術として、後掲の非特許文献１に記載されたものがある。この技術では、学習データの作成は以下のようにして行われる。すなわち、人間がテキストを最初から読み、代名詞及び省略等を人手で検出するという作業が行われる。機械による支援としては、例えば照応関係の指し先の表現を予め列挙する程度である。

一方、後掲の非特許文献２には、自動的に、一定の手順で照応・省略解析を行う照応・省略解析アルゴリズムが開示されている。この文献に開示された技術は、形態素解析、構文・係り受け解析（以下単に「係り受け解析」と呼ぶ。）等が出力する情報と、辞書等の外部資源ツールを利用する。ここで利用される辞書とは、例えば「食べる」という動詞の目的語には「食べ物」に相当する表現が含まれる、という特性をまとめたものである。非特許文献２に開示された技術では、これ以外にはテキストの中から得られる情報を参照して代名詞の指し先及び省略の補完が行われている。

飯田龍、小町守、井之上直也、乾健太郎、松本裕治、述語構造と照応関係のアノテーション: NAIST テキストコーパス構築の経験から、自然言語処理，Vol.17, No.2, pp.25-50,2010. Ryu Iida, Massimo Poesio. A Cross-Lingual lLP Solution to Zero Anaphora Resolution. The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT2011), pp.804-813.2011.

しかし、前掲の非特許文献２によれば、日本語の照応解析の場合で、再現率が４４％、精度が４２％、主語の省略解析の場合で再現率及び精度がいずれも３５％という数字が報告されている。日常生活で目にする文書には、省略及び代名詞等が頻繁に使用されている。正確な資源言語処理を行うためには、省略箇所の検出、省略箇所及び代名詞の指示先の検出が正確に行われなければならない。そのためには、精度の高い照応・省略解析器を得る必要がある。しかし、前述のように、そうした照応・省略解析器の学習を行うためには、学習データの作成に手間がかかり、コストが掛かり過ぎるという問題があった。学習データは、文章中に出現する省略、代名詞等の指示語の照応関係についてのアノテーションを、テキストに対して行う事により作成する。もちろん、アノテーションの精度自体は高くしなければならないため、人間による判断を学習データに反映させなければならない。すなわち、アノテーション自体は人間が行うこととし、そうした人間のアノテーション作業をより効率的に行えるようなシステムを得ることが上記課題を解決する上で望ましい。

それゆえにこの発明の目的は、人間が、テキストに対するアノテーションデータを容易に構築でき、それによってコストを下げることができるアノテーション補助装置を提供することである。

本発明の第１の局面にかかるアノテーション補助装置は、自然言語のテキストの照応・省略解析のためのアノテーションデータの作成を補助する。このアノテーション補助装置は、表示装置と入力装置とからなり、ユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、解析手段の出力する形態素列中の述語を検索する述語検索手段と、述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、対象特定手段が特定した単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び予め準備された言語知識を用いて推定する候補推定手段と、候補推定手段により推定された候補を単語の位置と関連付けて記憶する候補記憶手段と、アノテーション処理の対象の各々について、候補推定手段が推定した候補を候補記憶手段から読出し、ユーザがいずれかを選択可能なように表示装置に表示する候補表示手段と、候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を位置にアノテーションとして付加する対話的選択手段とを含む。

好ましくは、候補推定手段は、対象特定手段が特定した単語の位置の各々について、当該単語の位置に入るべき単語を問い合わせる文を、当該位置の周囲の単語列を用いて生成する質問文生成手段と、質問文生成手段が生成した質問文を、予め準備された質問応答システムに入力として与える質問文入力手段と、質問文入力手段から与えられた質問文に対して質問応答システムから得られる回答から、単語の位置に挿入されるべき単語の候補を当該単語の位置と関連付けて候補記憶手段に記憶させる手段とを含む。

より好ましくは、候補推定手段は、さらに、複数の言語知識規則を記憶する言語知識記憶手段と、対象特定手段が特定した単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた述語とを含む表現であって、言語知識記憶手段に記憶された言語知識のいずれかに適合する表現を特定する適合表現抽出手段と、適合表現抽出手段により抽出された表現と、当該表現が適合した言語知識規則とを照合することにより、表現中の、対象特定手段が特定した単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として候補記憶手段に記憶させる手段とを含む。

さらに好ましくは、候補推定手段はさらに、予め準備された既存のアノテーション済テキストデータベースに含まれるテキスト中で、省略又は照応関係に関するアノテーションが付されている箇所を検索するアノテーション検索手段と、アノテーション検索手段により検索された箇所の各々について、各アノテーションごとに予め定められた方式にしたがって文を変形し、当該変形箇所を検索された箇所に対するアノテーションの候補として候補記憶手段に記憶させる手段とを含む。

候補推定手段はさらに、解析手段の出力する解析後の形態素列を、他の既存の照応・省略解析器への入力として与える手段と、既存の照応・省略解析器による照応・省略解析結果を受け、当該照応・省略解析結果を、候補記憶手段に記憶させる手段とを含んでもよい。

本発明の第２の局面にかかるコンピュータプログラムは、自然言語のテキストの照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置としてコンピュータを動作させる。このコンピュータプログラムは、コンピュータを、当該コンピュータの表示装置と入力装置とを用いたユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、解析手段の出力する形態素列中の述語を検索する述語検索手段と、述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、対象特定手段が特定した単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び予め準備された言語知識を用いて推定する候補推定手段と、候補推定手段により推定された候補を単語の位置と関連付けて記憶する候補記憶手段と、アノテーション処理の対象の各々について、候補推定手段が推定した候補を候補記憶手段から読出し、ユーザがいずれかを選択可能なように表示装置に表示する候補表示手段と、候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を位置にアノテーションとして付加する対話的選択手段として機能させる。

照応解析を説明するための模式図である。省略解析を説明するための模式図である。省略解析のプロセスを説明するための模式図である。本発明の一実施の形態に係る学習データ生成補助装置を含む照応・省略解析のためのシステムの全体ブロック図である。言語知識を構成する規則の概略構成を説明するための図である。質問タイプＤＢの概略構成を説明する模式図である。質問応答システムを利用したアノテーション方法の概略を示す模式図である。学習データ生成補助装置のブロック図である。アノテーション候補を生成する第１の候補生成部のブロック図である。アノテーション候補を生成する第２の候補生成部のブロック図である。言語知識を利用したアノテーション候補の生成プロセスを説明する図である。言語知識を利用したアノテーション候補の生成プロセスを説明する図である。言語知識を利用したアノテーション候補の生成プロセスを説明する図である。言語知識を利用したアノテーション候補の生成プロセスを説明する図である。アノテーション候補を生成する第３の候補生成部のブロック図である。アノテーション候補を生成する第４の候補生成部のブロック図である。テキストへのアノテーションをユーザとの対話により実行して学習データを生成するためのプログラムの状態遷移図である。検出器学習装置２２２の詳細な機能ブロック図である。学習データを生成するためのプログラムを実行するコンピュータの外観を示す図である。図１９に外観を示すコンピュータのハードウェアブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［概略］
図３を参照して、本発明の第１の実施の形態に係る学習データ生成補助装置においてアノテーションをテキストに付する作業の概略を説明する。図３の上段を参照して、表示装置の画面に、アノテーション対象のテキスト９０が表示される。このテキスト９０は２つの文からなる。第１の文には、「導入する」という述部と、述部の主語である「Ｎ社」という単語１００と、述部の目的語である「新型交換機」という単語１１０とが含まれる。第２の文は実質的には２つの節からなる。前半の文の先頭には「自己診断機能を搭載」の主語が省略されている箇所（省略箇所）１１４がある。前半の文と後半の文との中間箇所には、「２００システムを設置する予定だ。」の主語が省略されている省略箇所１０４がある。

照応・省略解析では、矩形１０２及び矩形１１２内に記載したように、まず省略箇所１０４又は１１４を発見する。その後、その省略箇所を補完すべき表現を探索し決定する。省略箇所１０４の場合には単語１００が補完すべき表現となる。省略箇所１１４の場合には、単語１１０が補完すべき表現となる。

従来は、こうした省略箇所の発見と、補完表現の探索及び決定とを、いずれも人間が行っていた。しかしそのような作業は非効率的であり、学習データの生成コストを押し上げる要因となっていた。本実施の形態では、上記した省略箇所の発見と、補完表現の候補の発見とをコンピュータプログラムで自動的に行う。こうした処理には、後述するように様々な手法を使用する。特に、言語知識を活用することで、人間が行うような作業と同様、省略箇所の発見と補完表現の候補の探索とを効率的に行う。

省略箇所の発見と補完表現の候補の発見とが終わると、各省略箇所に対して、図３の下段に示すような処理を行う。この例では、図３の上段に示す省略箇所１１４に対する補完表現に対しては「新型交換機」という単語１１０が発見され、省略箇所１０４には単語１００を含む複数の単語が発見されたものとする。この場合、学習データ生成補助装置は、省略箇所１１４に単語１１０と同じ「新型交換機」という単語と主格の格助詞とからなる文字列１３０を挿入し、さらにその右側には、いわゆるドロップダウンリストが存在することを意味するアイコン「▼」を表示する。ユーザがこのアイコンをクリックするとドロップダウンリスト１３２が表示される。ドロップダウンリスト１３２には、表示された候補をこの省略箇所１１４に対するアノテーションとして付加して良いか否かを尋ねる２つのオプション（ＹＥＳ、ＮＯ）と、人間が手入力するオプション（「手入力」）が表示される。利用者がＹＥＳを選択すると、この省略箇所１１４に文字列１３０がアノテーションとして付加される。ＮＯを選択すればこの省略箇所１１４にはアノテーションは付加されない。「手入力」を選択すると、図示しない入力ダイアログが開き、アノテーションを直接入力できる。

省略箇所１０４の場合、候補の一つ、例えば単語１００と同じ単語と格助詞「ハ」からなる文字列１３４が表示され、右側にドロップダウンリストを示すアイコン「▼」が表示される。このアイコンをユーザがクリックすると、複数の候補のリストと「直接入力」とをオプションとして含むドロップダウンリストが表示される。ユーザが候補のいずれかを選択すると、その候補の単語が省略箇所１０４に対するアノテーションとして付加される。直接入力が選択されたときについては、省略箇所１１４と同様である。

［照応・解析システムの全体構成］
図４を参照して、最初に、本実施の形態に係る学習データ生成補助装置を使用する照応・省略解析システム１５０の全体構成について説明する。

この照応・省略解析システム１５０は、予め準備された大量のテキストについて、省略箇所及び照応詞の検出を行い、それらが指す表現（先行詞）の候補をユーザに提示して簡単な操作で選択させることにより、ユーザが照応・省略解析に必要なモデルの学習データ（アノテーションデータ）を生成するのを補助するアノテーションデータ生成補助システム１６０と、アノテーションデータ生成補助システム１６０を用いてユーザにより生成された学習データを記憶する学習データＤＢ１６２と、学習データＤＢ１６２に記憶された学習データを用いて、後述する省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０の学習を行うための学習システム１６４とを含む。省略検出器１６６は、テキスト中の任意の述語を対象に、省略検出を行う。省略検出器１６６は、テキスト中の主語、目的語等が省略された省略箇所を検出するための統計的モデルを含む。照応詞検出器１６８は、テキスト中の任意の名詞句（照応詞候補）を分類対象として、他の単語などを指示するための照応詞を検出するための統計的モデルを含む。先行詞特定器１７０は、テキスト中の、省略を持つ述語と先行詞候補である名詞句とを分類対象に、省略が指す先（先行詞）を特定するための検出器と、テキスト中の名詞句の対（照応詞と先行詞候補）とを分類対象に、照応詞が指す先行詞を特定するための検出器とを含む。これら検出器は、それぞれ別個の統計的モデルを有する。本実施の形態では、省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０は、いずれもＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を統計的モデルとして用いる。

照応・省略解析システム１５０はさらに、省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０を用いて、入力テキスト中の省略箇所及び照応詞を検出し、それらの指す先行詞を特定する情報を付して出力する照応・省略解析装置１７２を含む。

＜アノテーションデータ生成補助システム１６０＞
アノテーションデータ生成補助システム１６０は、表示装置とキーボート及びマウス等を用いてユーザとの間で対話的な入出力を行う入出力装置２０２と、言語知識を含む様々な資源を用いて、テキストアーカイブ１９２に記憶された大量のテキストに対するユーザのアノテーション付与作業を補助することで、学習データを生成し学習データＤＢ１６２に出力する学習データ生成補助装置２０４とを含む。

学習データ生成補助装置２０４が使用する資源は、学習データＤＢ１６２と同様の学習データを記憶した既存小規模学習データＤＢ１９０と、テキストアーカイブ１９２に記憶されたテキストに対して適用可能な形式の言語知識を規則の形で記憶した言語知識ＤＢ１９４と、学習データ生成補助装置２０４が言語知識ＤＢ１９４に記憶された言語知識をテキストに対して適用する際に、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりするために使用される言換え規則及びカテゴリを記憶した言換え・カテゴリ辞書１９６と、テキストが特定のパターンを持つときに、そのパターンに付随する省略箇所を特定できるよう、予め準備されたパターンを記憶するためのパターン辞書１９８とを含む。

アノテーションデータ生成補助システム１６０はさらに、学習データ生成補助装置２０４が、テキスト中に省略箇所を発見したときに、その省略箇所が指し示す単語の候補を問い合わせる質問応答システム２０６と、学習データ生成補助装置２０４が質問応答システム２０６に対する質問をテキストに基づいて作成するときに参照する質問タイプＤＢ２００と、テキストに対して照応・省略解析を行って、学習データ生成補助装置２０４が実行する照応・省略解析の際に、省略箇所、照応詞、先行詞等の候補を学習データ生成補助装置２０４に対して提示するための既存照応・省略解析器２０８とを含む。

既存小規模学習データＤＢ１９０の構成は、テキスト中の省略箇所、照応詞、及び先行詞の特定ができるようなフォーマットであればどのような形式でもよい。

テキストアーカイブ１９２に記憶されたテキストは、本実施の形態では単純なテキストであり、形態素解析、構造・係り受け解析がされていないことを前提とする。しかし、本発明はそのような実施の形態には限定されない。他のシステムで形態素解析若しくは構造・係り受け解析又はその双方が行われ、そうした情報が付されたものを用いてもよい。

〈言語知識ＤＢ１９４〉
図５を参照して、言語知識ＤＢ１９４に記憶された言語知識の規則は、大きく分けて４種類ある。すなわち、因果関係知識２９０、含意関係知識２９２、事態生起順序関係知識２９４、及び事態生起無効化関係知識２９６である。各知識は、ワイルドカード的な役割を果たす、任意の名詞句等に置換可能な変数（以下では、「Ｘ」，「Ｙ」等によって表わす）を含んでもよい。

因果関係知識２９０は、例えば「Ｘがタバコを吸う」という、原因に相当する表現と、「Ｘが肺がんの可能性を高める」という、結果に相当する表現との順序付ペアである。ここでは、原因に相当する表現が先に、結果に相当する表現が後に位置するものとする。

含意関係知識２９２は、例えば「ＸがＹの著者だ」という表現により、「ＸがＹを執筆した」という表現が含意されている、ということをこれら２つの表現の順序付ペアで表す。ここでは、含意する表現が先に、含意される表現が後に位置するものとする。

事態生起順序関係知識２９４は、例えば「ＸがＹを発見する」という事象が生じると、「ＸがＹを発表する」という事象が生じ得る、という事象の正規の順序関係を、これら２つの表現の順序付ペアで表す。ここでは、事象の順序関係にしたがって表現が配置されるものとする。

事態生起無効化関係知識２９６は、例えば「Ｘを禁止する」という事象が発生すると、「Ｘを公開できない」という事象が発生するように、ある事象が発生したことにより別のある事象の発生が無効化されるような関係にある表現の順序付ペアである。ここでは、発生する事象が先に位置し、その事象により発生が無効化される事象が後に位置するものとする。

後述するように、これら知識は単独でテキストに対して適用できるが、それだけではなく、例えば２つの知識のうち、一方の知識の後半の表現が、他方の知識の前半の表現と一致するような場合には、知識を連鎖させて適用できる。なお、ここでいう「一致」は、例えば同義語の言換え、含意等も含む。

〈質問タイプＤＢ２００〉
図６を参照して、質問タイプＤＢ２００は、学習データ生成補助装置２０４が質問応答システム２０６を利用して先行詞の候補を入手するときに利用される。質問タイプＤＢ２００は、複数のエントリを持つ。各エントリは例えば、ある動詞について、ある表現内でのその動詞の係り受け関係において省略されている部分の文法役割と、省略部分に挿入されるべき表現を求める際に、どのような形で質問文を生成すればよいかを示す情報（質問タイプ）とを含む。例えば「食べる」という動詞について、ある表現内でその主語が省略されている場合には、「誰が」を文の先頭に配置して文を生成すれば、回答として「食べる」の主語になるべき表現が質問応答システムから得られる。

〈質問応答システム２０６〉
図７を参照して、質問応答システム２０６を利用して省略箇所の指す表現の候補を得るプロセスについて説明する。まず、入力テキスト３２０が２つの文を含むものとする。第１の文は「夕食に赤ワインを飲みましょう」という文であり、第２の文は「心臓病を防ぎます」であるものとする。第２の文の先頭には「防ぎます」という動詞３３２の主語が省略されており、この省略箇所３３４には省略を示すタグが付されているものとする。ここでは、この省略箇所には「赤ワイン」という単語３３０が入るべきである。

ここで、このテキストから省略箇所３３４に入るべき表現の候補を質問応答システムから得るためには、適切な質問文を生成して質問応答システム２０６への入力として与える必要がある。ここでは、入力テキスト３２０の省略箇所の文で「防ぎます」の主語を知る必要がある。図示しないが、言換え・カテゴリ辞書１９６に「予防」と「防ぐ」との言換えが可能であるという情報が格納されているものとする。すると、図６に示す質問タイプＤＢ２００に、動詞が「予防する」、文法役割が「主語」となったエントリが見つかる。その「質問タイプ」のカラムには「何が」が格納されている。学習データ生成補助装置２０４は、これら情報から、「何が心臓病を防ぐのか」という質問文３３６を生成する。質問文の生成において、文末は質問文にふさわしく、予め準備された規則にしたがって変換する。文末の変換規則を、質問タイプＤＢ２００の各エントリに予め格納しておくようにしてもよい。

図７を参照して、質問応答システム２０６は、この質問文３３６を受け取ると、システム内のデータベース内から、質問文３３６に対する回答としてふさわしい単語候補群３４２を検索して取り出す。質問応答システム２０６はさらに、このようにして得られた単語候補群３４２を、カテゴリ別に、各カテゴリ３４４、３４６、及び３４８が１又は複数の回答候補を含むようにして学習データ生成補助装置２０４に送信する。ここでは、カテゴリ３４４が「赤ワイン」、「酒」、「ビール」を含むものとする。他のカテゴリ３４６及び３４８も同様である。学習データ生成補助装置２０４は、例えば、こうして得られた単語の候補のうち、入力テキスト３２０内で省略箇所３３４より前の位置にある単語と一致する表現（この例では「赤ワイン」という単語３３０）を選択し、省略箇所３３４と、その指し先の候補としての単語３３０とをアノテーション３５０の対象とする。以上が質問応答システム２０６を用いたアノテーション付加作業の概略である。

〈既存照応・省略解析器２０８〉
図８を参照して、既存照応・省略解析器２０８は、既存の、照応・省略解析を行うものである。ここでは、既存照応・省略解析器２０８は、省略箇所の候補、照応詞の候補、及び省略箇所及び照応詞の先行詞の候補を提示するために使用される。最終的には人間がこれら候補の中から正しい候補を選択する。したがって、ここで用いる既存照応・省略解析器２０８の精度は必ずしも高くなくてもよい。

〈学習データ生成補助装置２０４〉
図８を参照して、学習データ生成補助装置２０４は、テキストアーカイブ１９２に含まれる各テキストに対して形態素解析を行い、さまざまな文法情報が付された形態素列を出力する形態素解析システム３８０と、形態素解析システム３８０の出力する形態素列に対し、文の構造及び係り受け解析を行い、構造・係り受け情報が付された形態素列を出力する係り受け関係解析システム３８２と、係り受け関係解析システム３８２が出力する形態素列を、それらの文法情報及び構造・係り受け関係とともに記憶する解析後テキストＤＢ３８４とを含む。ここでは、係り受け関係解析システム３８２は、少なくともどの単語がどの単語に係っているかを示す係り受け情報を各形態素列に付すものとする。なお、図８においては、図面を簡略にするために図示していないが、本実施の形態では、学習データ生成補助装置２０４内の各要素は、入出力装置２０２を介したユーザの指示により動作する。

学習データ生成補助装置２０４はさらに、解析後テキストＤＢ３８４に記憶された解析後テキストにおいて、省略箇所を検出し、質問タイプＤＢ２００及び質問応答システム２０６を用いて各省略箇所の先行詞を指すアノテーション候補群を生成する第１の候補生成部３８８と、解析後テキストＤＢ３８４に記憶された解析後テキストにおいて、第１の候補生成部３８８と同様に省略箇所を検出し、各省略箇所に対して言語知識ＤＢ１９４、言換え・カテゴリ辞書１９６、及びパターン辞書１９８を用いて省略箇所に関するアノテーション候補群を生成する第２の候補生成部３９０と、既存小規模学習データＤＢ１９０に記憶された学習データに対して、その中に存在している照応関係、省略関係の一部を変更して新たな学習データを生成し、その学習データから新たなアノテーション候補を生成する第３の候補生成部３９２と、既存照応・省略解析器２０８を用い、解析後テキストＤＢ３８４に記憶されたテキストに対する照応・省略解析を行って、その結果をアノテーション候補として生成する第４の候補生成部３９４とを含む。

学習データ生成補助装置２０４はさらに、第１の候補生成部３８８、第２の候補生成部３９０、第３の候補生成部３９２、及び第４の候補生成部３９４の出力するアノテーション候補群を、各アノテーションが付されるべき省略箇所、照応詞等と関連付けて記憶する候補ＤＢ３８６と、解析後テキストＤＢ３８４に記憶された各テキストの省略箇所及び照応詞の各々について、候補ＤＢ３８６を参照して候補を選択可能な形式で入出力装置２０２の表示装置に表示し、ユーザからの選択入力を受け付けて学習データＤＢ１６２に学習データとして出力する対話型アノテーション装置３９６とを含む。

再び図４を参照して、学習システム１６４は、アノテーションデータ生成補助システム１６０で用いられた質問タイプＤＢ２００及び学習データ生成補助装置２０４とそれぞれ同様の質問タイプＤＢ２２０及び質問応答システム２２６と、後述するように、先行詞特定器１７０の学習の際に、選択される先行詞に課される制約を記述した選択制限ＤＢ２２４と、アノテーションデータ生成補助システム１６０で使用される言語知識ＤＢ１９４と同様の構成を持つ言語知識を記憶した言語知識ＤＢ２２８と、学習データＤＢ１６２に記憶された学習データ、質問タイプＤＢ２２０、質問応答システム２２６、言語知識ＤＢ２２８、及び選択制限ＤＢ２２４を用い、省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０の学習処理を実行する検出器学習装置２２２とを含む。

〈第１の候補生成部３８８〉
図９を参照して、第１の候補生成部３８８は、解析後テキストＤＢ３８４に記憶された各テキストデータのうちの述語を検索する述語検索部４２０と、述語検索部４２０が出力した各述語のリストを各述語の出現位置とともに記憶する述語リスト記憶部４２２と、述語リスト記憶部４２２に記憶された各述語のうち、当該述語が関与する係り受け関係のうちで省略されている箇所を検出し、省略候補として出力する省略候補検出部４２４と、省略候補検出部４２４に記憶された省略候補の各々に対して、質問タイプＤＢ２００を参照してその省略箇所を補完する単語を回答として求める質問文を生成し、質問応答システム２０６に質問文として与える質問文自動生成部４２６と、質問文自動生成部４２６から質問文を、その質問文に対する回答候補群を質問応答システム２０６から受信し、質問文とその回答候補群とを組み合わせて出力する回答受信部４２８と、回答受信部４２８が出現する質問文と回答候補群とのペアを受け、回答候補群に含まれる候補のうち、解析後テキストＤＢ３８４に記憶された解析後テキスト文内の出現箇所を確認し、質問の対象となっている省略箇所より前の位置に出現するものを全て選択して省略箇所の指し先候補として出力する出現位置確認部４３０と、出現位置確認部４３０から出力される省略箇所とその省略箇所を補完する候補群とを組にしてアノテーション候補として候補ＤＢ３８６に追加する候補追加部４３２とを含む。

〈第２の候補生成部３９０〉
図１０を参照して、第２の候補生成部３９０は、図９に示す述語検索部４２０、述語リスト記憶部４２２、及び省略候補検出部４２４とそれぞれ同様の述語検索部４５０、述語リスト記憶部４５２、及び省略候補検出部４５４と、省略候補検出部４５４により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして出力する対象述語検索部４５６と、対象述語検索部４５６が出力する各述語ペアについて、それらペアを構成する述語、又はそれを言換え・カテゴリ辞書１９６を参照して得られた等価な表現で言換えた述語が、第１文と第２文とにぞれぞれ出現するような言語知識が言語知識ＤＢ１９４内にあるか、又はそうした表現のパターンがパターン辞書１９８にあるか否かを判定し、あればその言語知識又はパターンを出力する言語知識検索部４５８と、言語知識検索部４５８が出力する言語知識又はパターンを一時記憶する合致言語知識記憶部４６０と、合致言語知識記憶部４６０に記憶された言語知識又はパターンを用い、対象述語検索部４５６が出力した述語ペアの各述語を含む表現を用いて、それら表現に含まれる省略箇所の指し先を推定し、省略箇所と指し先とを組にしてアノテーション候補として候補ＤＢ３８６に記憶させる候補追加部４６２とを含む。

候補追加部４６２による省略箇所の指し先の推定は以下のようにして行われる。図１１を参照して、テキスト４８２中に出現するある述語対（文字列４９４の「導入する」、文字列５００の「設置する」）に対して、言語知識検索部４５８が言語知識４８０を検索したものとする。テキスト４８２は、図２に示す例文６０と同文である。言語知識４８０は、「ＸがＹを導入する」という第１文と、「ＸがＹを設置する」という第２文とからなる。テキスト４８２内で、第１文の変数Ｘに相当する表現は「Ｎ社は」という文字列４９０である。第１文の「Ｙ」に相当する表現は、テキスト４８２内の「新型交換機を」という文字列４９２である。そして、言語知識４８０の第１文の「導入する」という表現は、テキスト４８２内の「導入する」という文字列４９４と一致している。この関係から、変数Ｘが指す候補は文字列４９０中の「Ｎ社」という単語であり、変数Ｙが指す候補は文字列４９２中の「新型交換機」という単語であることが分かる。

一方、言語知識４８０の第２文の「設置する」という表現と合致する表現としてテキスト４８２に出現するのは、「２００システムを設置する」の中の「設置する」という文字列５００である。この表現の先頭には省略箇所４９６を示すタグが付されている。この文（「（〈主語〉は）２００システムを設置する」）という文と言語知識４８０の第２文とを比較することにより、Ｙは「システム」に相当し、Ｘは省略されていることがわかる。言語知識４８０の第１文から得られた知識を用いると、テキスト４８２の省略箇所４９６は、言語知識４８０のＸを指し、したがって「Ｎ社は」という文字列４９０が「設置する」の主語であることが分かる。さらに、テキスト４８２の第２文の「システム」が言語知識４８０の変数Ｙに相当し、したがってテキスト４８２の「新型交換機は」という文字列４９２がテキスト４８２の「システム」という文字列４９８に対応するものであることが分かる。このようにして、省略箇所４９６の指し先の候補が言語知識４８０とテキストとを比較することにより求められる。

言語知識を用いた別の例について、図１２を参照して説明する。この例では、２つ以上の規則を順次結合することにより、３つ以上の文についての連続した因果関係が得られ、その関係を用いることで、テキスト中に出現する３つ以上の述語に関連して検出される２か所以上の省略箇所の指し先候補を特定する処理を表す。

図１２に示すように、第１の言語知識５２０として「砂漠化が進む→黄砂が増える」、第２の言語知識５２２として「黄砂が増える→喘息が悪化する」という知識があるものとする。第１の言語知識５２０の第２文と、第２の言語知識５２２の第１文とは一致する。したがって、これら２つの知識を連鎖させることにより、「砂漠化が進む→黄砂が増える→喘息が悪化する」という第３の知識５２４が得られる。この第３の知識５２４とたとえば図１２に示すテキスト５２６とを、特に述語その出現順序に注目して比較する。ここで、テキスト５２６については省略箇所の推定がされており、省略箇所５４２、省略箇所５４８等を示すタグが付加されているものとする。なお、テキスト５２６において、「（φ１）」は第１の省略箇所を、「（φ２）」は第２の省略箇所を、それぞれ表し、以下同様である。すると、テキスト５２６に「砂漠化が進んでいて」という表現５４０、「（φ１が）増えている」という表現５４４、及び「（φ２が）悪化して」という表現５４６が、第３の知識５２４の３つの述語部分と同じ順序で出現している。これらの表現の述語部分は、第３の知識５２４の述語と同じか、その活用形である。そこで、第３の知識５２４とテキスト５２６のうちで上記述語の出現している箇所とを比較することにより、φ１は黄砂を指し、φ２は喘息を指すことが分かる。

このような比較により、２つ以上の知識を連結して得た知識を活用することで、省略箇所の指し先を効率よく探索できる。なお、知識をどの程度まで連結するかは、設計事項に関する。知識が長くなると１つの知識で探索可能な省略箇所の指し先数の最大値は大きくなるが、規則が適用可能なテキストは少なくなる。本実施の形態では、２つの知識までの連結することを想定している。ただし、本発明はそのような実施の形態には限定されない。もっと多くの知識を連結して省略箇所の指し先の探索に用いてもよい。又は、文の種類により連結数の最大値を変化させたり、ユーザに知識の連結数の最大値を指定させたりしてもよい。

図１３を参照して、知識の述語の言換えを適用することにより、一つの知識でより多くの指し先の探索を行う例について説明する。知識として「Ｘが生まれる→Ｘを販売する」という事態生起順序関係言語知識５７０があるものとする。一方、「販売する」を「売る」と言換えられるという言換え規則５７４が言換え・カテゴリ辞書１９６に記憶されているものとする。処理対象のテキストとして、「ウィスキー『Ｗ』が北海道で生まれＡ社が（φヲ）販売した」というテキスト５７２を考える。処理対象のテキストは、（φヲ）で表される省略箇所５８２を含む。テキスト５７２の前半部分と事態生起順序関係言語知識５７０の第１文とを比較すると、変数Ｘがテキスト５７２中の「ウィスキー『Ｗ』」という単語５８０を指すことが分かる。一方、テキスト５７２の述語「販売する」の目的語がＸとなっている。この結果と、テキスト５７２の後半部の述語が「販売した」という表現５８４であることから、テキスト５７２中の「φヲ」で示される省略箇所５８２が「ウィスキー『Ｗ』」という単語５８０に相当することが分かる。そこで、まずこのようなアノテーション済のテキスト５７２が得られる。さらに、こうして得られたテキスト５７２に対し、言換え規則５７４を適用した言換え５７６により「販売した」を「売った」という表現５８６に置換し、アノテーションはそのまま残すことで、アノテーション済の新たなアノテーション済テキスト５７８が得られる。

図１４を参照して、さらに、経験的に得られた文のパターンを用いて省略箇所又は照応詞の指し元及び／又は指し先を特定する処理について説明する。例えば、「Ｘは〜して、〜する」のようなパターンが出現する場合、「〈述語〉して」の主語と「〈述語〉する」の主語とがいずれもＸであるような例が多いことが経験的に知られている。そうした知識を文法的なパターンとしてパターン辞書１９８に記憶しておく。パターン中には、省略箇所に相当する部分を特定する情報と、その指し先を示す情報とを挿入しておいてもよい。そして、処理対象のテキスト中にパターン辞書１９８に記憶されたパターンに合致するような表現が出現した場合、その表現をパターンと比較することで、入力箇所内の省略箇所（指し元）と、その省略箇所の指し先との候補を特定できる。

例えば、図１４に示すように、パターン６１２がパターン辞書１９８に記憶されているものとする。このパターン６１２は、「Ｘは」という表現６５０、「…して」という表現６５２、及び「…する」という表現６５４がこの順序で出現した場合、表現６５４の先頭に表現６５４の主語が省略された箇所を示すタグ６５６が付されること、そのタグ６５６の指先がＸであることが記述されているものとする。

入力としてテキスト６１０が与えられたものとする。テキスト６１０には、「台風２０号は」という表現６３０、「…を北上し」という表現６３２、及び「接近する」という表現６３４がこの順番で出現する。このテキスト６１０をパターン６１２と照合６１４することにより、Ｘが台風２０号に相当すること、「接近する」の主語が省略されており、その指し先は台風２０号であることが判明する。そこで、「接近する」の直前の省略箇所を示すタグ６３６と、その指し先としての「台風２０号」とを対にしてアノテーション候補とする。このように、人の経験から導き出されたパターンを照応・省略解析に適応することで、人が持つ知識を生かした照応・省略解析を実現できる。

〈第３の候補生成部３９２〉
図１５を参照して、第３の候補生成部３９２は、既存小規模学習データＤＢ１９０の中からアノテーション済の照応関係及び省略関係を検索し、両者を区別して出力する照応・省略関係検索部６８０と、照応・省略関係検索部６８０の出力する照応関係を構成する名詞句対の各々について、その名詞句の内の指し元（テキスト内で後方に位置するもの）を自動的に省略した新たな文を生成して新たなテキストを生成する指し元省略文生成部６８２と、指し元省略文生成部６８２の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付すアノテーション追加部６８４と、照応・省略関係検索部６８０が出力する省略関係を含むテキスト部分のうち、省略箇所について、アノテーションに基づいて省略箇所に、その指し先の要素を代名詞として復元することで新たな文を生成する省略要素復元部６８８と、省略要素復元部６８８により生成された新たな文に、省略要素復元部６８８により復元された代名詞の指し元とその指し先とからなるアノテーション候補を追加するアノテーション追加部６９０と、アノテーション追加部６８４及びアノテーション追加部６９０により生成された新たな文をそのアノテーション候補とともに候補ＤＢ３８６に追加する候補追加部６８６とを含む。

第３の候補生成部３９２により指し元を省略した場合、省略は機械によりある基準にしたがって自動的に行われる。そのため、省略語の表現について、その省略部分の指し先が何かを人が判断できない場合も生ずる。そうした場合には、そのアノテーションを負例として学習データに追加する。

なお、候補追加部６８６は、照応・省略関係検索部６８０及び省略要素復元部６８８の出力するテキストが解析後テキストＤＢ３８４に存在しない場合には、これらテキストを解析後テキストＤＢ３８４に追加し、アノテーション候補を解析後テキストＤＢ３８４に追加されたテキストと関連付けて候補ＤＢ３８６に追加する。

〈第４の候補生成部３９４〉
図１６を参照して、第４の候補生成部３９４は、解析後テキストＤＢ３８４に記憶された解析後テキストに対して、既存照応・省略解析器２０８を適用することにより、照応・省略解析の実行結果を得て、解析後テキストにアノテーションとして追加する照応・省略解析実行部７１０と、照応・省略解析実行部７１０の出力する照応・省略解析結果のアノテーションが付されたテキストを記憶する解析結果記憶部７１２と、解析結果記憶部７１２に記憶された解析結果に含まれるアノテーションを、解析後テキストＤＢ３８４で解析対象となったテキストに対するアノテーション候補として候補ＤＢ３８６に追加する候補追加部７１４とを含む。

〈対話型アノテーション装置３９６〉
図８に示す対話型アノテーション装置３９６は、図１７に示すような状態遷移を行うプログラムにより実現される。図１７を参照して、このプログラムは、プログラム実行開始時及び文書クローズ時等に初期処理を実行し、初期画面を表示した状態（初期状態）７４０から開始する。この状態では、テキストアーカイブから処理対象の文書を選択する処理と、プログラムの実行を終了する処理とのいずれかを選択できる。文書の選択が選ばれるとプログラムの状態は文書選択状態７４２に遷移する。文書選択状態７４２では、文書ファイルの選択ダイアログが表示される。ここでは文書ファイルの選択と、処理のキャンセルとを選ぶことができる。処理のキャンセルが選ばれると状態は初期状態７４０に戻る。文書選択状態７４２で文書が選択されるとプログラムは文書の内容を表示する状態（文書表示状態）７４４に遷移する。文書表示状態７４４では、文書の表示をキャンセルし、更新を反映せずに再度文書選択状態７４２に戻る処理と、更新を反映して文書をクローズする処理と、照応・省略解析の学習データを作成するために、アノテーション候補の選択を指示する処理とのいずれかを選択できる。アノテーション候補の選択が指示されると、文書の、現在処理中の位置から文書の末尾方向に向かって、アノテーション候補を検索する状態（候補検索状態）７４６を経由した後、アノテーション候補を表示してユーザによるアノテーション候補の選択を待つ状態（候補選択待機状態）７４８に遷移する。

候補検索状態７４６では、アノテーション候補が付された次の位置を検索し、検索された位置に付されているアノテーション候補が１つだけであれば図３の下段に示したような、アノテーション候補を承認するか否かを指定するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコン「▼」を対象箇所に表示する。アノテーション候補が複数個ある場合には、それらを全て表示するドロップダウンリストを生成し、ドロップダウンリスト表示のためのアイコンを対象箇所に表示する。なお、ドロップダウンリストの表示時に、ユーザがリストのいずれかにポインタを合わせると、その候補と、その候補に対応する文書上の表現とが同じ色でハイライトされる。こうした処理により、指し元と指し先との対応についてユーザが容易に理解できる。この状態では、アノテーション選択処理を中断して文書表示状態７４４に状態を遷移させる処理と、それまでに行われたアノテーションの選択を文書に反映させて文書を保存し、文書ファイルをクローズする処理とのいずれかが選択できる。

ドロップダウンリストの操作により候補のいずれかが選択がされると、プログラムはアノテート付加状態７５０に遷移する。アノテート付加状態７５０では、選択にしたがって文書内の指定箇所に選択されたアノテートを付し、他の候補には選択されなかったことを示す情報を付すよう、メモリ上の文書を更新する。プログラムは再び候補検索状態７４６に移動し、次の候補が見つかると候補選択待機状態７４８に遷移する。

候補選択待機状態７４８で文書を表示させたままアノテーション処理を中断することを選択すると、プログラムは文書表示状態７４４に遷移する。文書に対して行ったアノテーション処理を反映させて現在の文書を保存することを選択した場合、プログラムは、文書クローズ状態７５２に遷移する。文書クローズ状態７５２では、プログラムは、メモリにロードされている更新済の文書データを文書ファイルとして上書き保存し、開いている文書ファイルをクローズする処理と、文書を保存せず、文書選択状態７４２に遷移する処理とのいずれかを選択できる。文書を保存しないことが選択されると、状態は文書選択状態７４２に直接遷移する。文書を保存することが選択されると、メモリ上のファイルを文書ファイルとして記憶媒体に上書き保存する状態（上書保存状態）７５４に遷移し、保存が完了すると文書選択状態７４２に遷移する。

このプログラムを実行することにより、省略箇所、照応詞を装置側で自動的に検索し、いずれかが検索されるたびに、その箇所に付されたアノテーション候補が表示される。アノテーション候補が１つであればユーザはそのアノテーション候補を承認するか否かを入力すればよい。場合によってはアノテーション候補を手入力してもよい。いずれにせよ、削除位置又は照応詞をユーザが目視で探し、その指し先をさらに目視で探す場合と比較して、はるかに容易にアノテーションを行える。

＜検出器学習装置２２２＞
再び図４を参照して、検出器学習装置２２２は、前述したとおり、学習データＤＢ１６２に記憶された学習データから、選択制限ＤＢ２２４、質問タイプＤＢ２２０及び質問応答システム２２６を用いて省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０の学習をそれぞれ別々に行う。先行詞特定器１７０についてはさらに、省略箇所の先行詞用の特定器と、照応詞の先行詞用の特定器との学習を独立に行う。

図１８を参照して、検出器学習装置２２２は、このために、省略検出器学習部７７０、照応詞検出器学習部７７２、及び先行詞特定器学習部７７４を含む。

〈省略検出器学習部７７０〉
本実施の形態では、省略検出器１６６は、主語省略検出器８００、目的語省略検出器８０２，及び間接目的語省略検出器８０４を含む。省略検出器学習部７７０は、これら３つの検出器の学習を個別に行うため、学習データＤＢ１６２に記憶された学習データの省略箇所の各々が、述語の主語（ガ格）、直接目的語（ヲ格）、又は間接目的語（二格）であるときに、それらを分類して、主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４の学習をそれぞれ行うための素性ベクトル群７８２、７８４及び７８６を生成するための格別素性ベクトル生成部７８０と、これら素性ベクトル群７８２，７８４及び７８６を用いてそれぞれ主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４を構成するＳＶＭの学習を行うためのＳＶＭ学習処理部７８８とを含む。

ここでは、述語とは、動詞、形容詞、及び「名詞＋『だ』」の形式の文字列である。素性ベクトルに含む学習のラベルとしては、述語が省略を持つ場合に１，それ以外なら０を用いる。

格別素性ベクトル生成部７８０が生成する素性ベクトルは、以下のような要素を含む。
・省略検出対象の述語に関して、検出対象の文法役割（例えば、主語）が係り受け関係にあるなら１，それ以外なら０
・主題となる表現（「は」でマークされた名詞句）が述語と同一文内に出現しているなら１，それ以外なら０
・省略検出対象の述語が対象テキストの１文目に出現しているなら１，それ以外なら０
・省略検出対象の述語が文の最初の後であるなら１，それ以外なら０
・省略検出対象の述語と係り受け関係にある語の見出し語、品詞

〈照応詞検出器学習部７７２〉
照応詞検出器学習部７７２は、学習データＤＢ１６２に記憶された学習データから、照応詞検出器１６８のＳＶＭの学習を行うために、照応関係の差し元（照応詞）としてアノテーションが付された単語を選択する照応詞候補選択部８３０と、照応詞候補選択部８３０により選択された照応詞の各々について、後述するような素性ベクトルを生成するための素性ベクトル生成部８３２と、素性ベクトル生成部８３２により生成された素性ベクトル群を用い、照応詞検出器１６８を構成するＳＶＭの学習を行うためのＳＶＭ学習処理部８３４とを含む。

素性ベクトル生成部８３２が生成する素性ベクトルにおいて、学習のラベルは、分類対象の名詞句が、テキストの前方に照応関係となる差し先を持つなら１，それ以外なら０である。照応詞検出学習のための素性ベクトルの要素は以下を含む。
・照応詞候補の品詞、見出し語文字列、及びその候補に後続する格助詞
・照応詞候補の係り先の品詞、見出し語、その係り先に後続する格助詞
・テキスト中で照応詞候補より前の位置に出現する名詞句が文字列として照応詞候補と完全一致する場合に１，それ以外は０
・テキスト中で照応詞候補と部分一致する場合に１，それ以外は０

〈先行詞特定器学習部７７４〉
先行詞特定器１７０は、照応詞用先行詞特定器９００と、省略用先行詞特定器９０２とを含む。そのため、先行詞特定器学習部７７４はこの２つの特定器９００及び９０２の学習を別個に行う構成を有する。

具体的には、先行詞特定器学習部７７４は、照応詞用先行詞特定器９００の学習を行う照応詞用先行詞特定器学習部８４０と、省略用先行詞特定器９０２の学習を行う省略用先行詞特定器学習部８４２とを含む。

照応詞用先行詞特定器学習部８４０は、学習データＤＢ１６２に記憶された学習データから照応関係の指し元（照応詞）としてアノテーションが付された表現を選択する照応詞選択部８５０と、照応詞選択部８５０が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現とからなる先行詞候補を選択する先行詞候補選択部８５２と、照応詞選択部８５０が選択した照応詞と、先行詞候補選択部８５２が選択した照応詞候補との組み合わせの各々について照応詞用先行詞特定器９００の学習を行うための素性ベクトルを生成する素性ベクトル生成部８５４と、素性ベクトル生成部８５４が生成した素性ベクトルを用いて照応詞用先行詞特定器９００を構成するＳＶＭの学習を行うためのＳＶＭ学習処理部８５６とを含む。

一方、省略用先行詞特定器学習部８４２は、学習データＤＢ１６２内の学習データのうち、省略関係としてアノテーションされた表現（省略）を選択する省略選択部８７０と、省略選択部８７０が選択した省略に対する先行詞としてアノテーションされた表現を含め、先行詞となる可能性のある候補を学習データ中で選択する先行詞候補選択部８７２と、省略選択部８７０が選択した省略部と、先行詞候補選択部８７２が選択した先行詞候補との組み合わせの各々について、素性ベクトルを生成するための素性ベクトル生成部８７４と、素性ベクトル生成部８７４により生成された素性ベクトルを用いて、省略用先行詞特定器９０２を構成するＳＶＭの学習を行うＳＶＭ学習処理部８７６とを含む。なお、素性ベクトル生成部８７４は後述するように選択制限ＤＢ２２４、質問タイプＤＢ２２０、質問応答システム２２６、及び言語知識ＤＢ２２８に接続されており、素性ベクトルの生成時にこれらから得られる情報を用いる。

素性ベクトル生成部８５４及び素性ベクトル生成部８７４が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補又は照応詞・先行詞候補の対が照応・省略関係となるなら１，それ以外は０である。

素性ベクトルの要素は以下のとおりである。
・先行詞候補の品詞、見出し語文字列、その候補に後続する格助詞
・先行詞候補がテキストの１文目に出現するなら１，それ以外なら０
・先行詞候補が文内で最初に言及された先行詞候補なら１，それ以外なら０
・先行詞候補と照応詞が完全に同じ文字列なら１，それ以外なら０
・先行詞候補と照応詞が部分的に同じ文字列なら１，それ以外なら０
・選択制限ＤＢ２２４を用い、省略を持つ述語と先行詞となる名詞句の間で選択制限が満たされる場合には１，それ以外なら０
・省略を含む文、その省略の箇所について、質問タイプＤＢ２２０を用いてその箇所が回答となるような質問文を生成し質問応答システム２２６に与えて得られた回答のいずれかが先行詞候補と一致すれば１，それ以外なら０
・省略を持つ述語、先行詞の係り先の述語が検出器学習装置２２２に登録されている因果関係知識に含まれる述語対と合致するなら１，それ以外なら０

＜照応・省略解析装置１７２＞
図４を参照して、照応・省略解析装置１７２は、省略検出器１６６、照応詞検出器１６８及び先行詞特定器１７０に接続され、これらを用いて入力２５０に対する照応・省略解析をし、自動的にアノテーションを入力２５０に追加して出力２５４とするための照応・省略解析器２５２と、照応・省略解析器２５２が照応・省略解析をする際の素性ベクトル生成に使用する言語知識ＤＢ２５６、質問タイプＤＢ２５８、質問応答システム２６０、及び選択制限ＤＢ２６２を含む。言語知識ＤＢ２５６は、照応・省略解析システム１５０で使用される言語知識ＤＢ１９４、学習システム１６４で使用される言語知識ＤＢ２２８と同様の言語知識を記憶したデータベースである。質問タイプＤＢ２５８は、アノテーションデータ生成補助システム１６０で使用される質問タイプＤＢ２００及び学習システム１６４で使用される質問タイプＤＢ２２０と同様の構成を持ち、その記憶内容も同様である。質問応答システム２６０は、アノテーションデータ生成補助システム１６０で使用される質問応答システム２０６及び学習システム１６４で使用される質問応答システム２２６と同様の機能を持つシステムである。選択制限ＤＢ２６２は、学習システム１６４における素性ベクトルの生成時に使用される選択制限ＤＢ２２４と同様のものである。なお、ここで同様の構成を持つと記載したＤＢは、互いに同一のものでもよいし、互いに異なるものでもよい。

［動作］
以上に構成を述べた照応・省略解析システム１５０は以下のように動作する。学習データの作成、検出器の学習、及び入力に対する自動アノテーションの３つのフェーズに分けて説明する。

＜学習データの作成＞
学習データの作成はアノテーションデータ生成補助システム１６０により行われる。この処理に先立ち、既存小規模学習データＤＢ１９０、テキストアーカイブ１９２、言語知識ＤＢ１９４、言換え・カテゴリ辞書１９６、パターン辞書１９８、既存照応・省略解析器２０８、及び質問タイプＤＢ２００を準備しておく必要がある。また、質問応答システム２０６については、予めアノテーションデータ生成補助システム１６０内に準備し学習データ生成補助装置２０４からアクセス可能にしておくか、外部の質問応答システムに対して質問文を送れるよう準備しておく必要がある。

図８を参照して、利用者は学習データ生成補助装置２０４を起動し、テキストアーカイブ１９２を指定して学習データの生成の開始を指示する。形態素解析システム３８０は、テキストアーカイブ１９２に記憶された各テキストを読出し、形態素解析をして種々の文法的情報が付された形態素列を係り受け関係解析システム３８２に与える。係り受け関係解析システム３８２は、与えられた形態素列からなる各文について文法的構造解析及び係り受け解析を行い、構造情報と係り受け情報とが付された形態素列を解析後テキストＤＢ３８４に出力する。こうして、テキストアーカイブ１９２に記憶された各テキストが解析され、解析後テキストが解析後テキストＤＢ３８４に蓄積される。

図９を参照して、第１の候補生成部３８８の述語検索部４２０は、解析後テキストＤＢ３８４に記憶された解析後テキストの各々を読出し、述語を検索して述語リスト記憶部４２２に書き出す。省略候補検出部４２４は、述語リスト記憶部４２２に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出し質問文自動生成部４２６に与える。質問文自動生成部４２６は、省略候補の部分が回答となるような質問文から質問文を生成する。この際、質問文自動生成部４２６は、処理対象となっている述語と、省略候補の文法役割（主語、目的語、等）とをキーとして質問タイプＤＢ２００をアクセスし、質問タイプを読み出す。質問文自動生成部４２６はさらに、読み出した質問タイプの表現を用いて、省略箇所を含む文を変形して図７に示す質問文３３６のような質問文を生成する。質問文自動生成部４２６はこの質問文を質問応答システム２０６と回答受信部４２８に与える。回答受信部４２８は、質問文自動生成部４２６から質問文を受けると、質問文に対する回答が質問応答システム２０６から与えられるまで待機する。

質問応答システム２０６は、本実施の形態では、与えられた質問文に対し、いくつかのカテゴリ別に、各カテゴリについて複数の回答候補を生成し、回答受信部４２８に与える。回答受信部４２８は、質問応答システム２０６から回答を受信すると、その回答が質問文自動生成部４２６から送信されたどの質問文に対するものかを確認し、出現位置確認部４３０に処理対象となっている述語を特定する情報と回答とを与える。

出現位置確認部４３０は、回答受信部４２８からの情報に基づき、処理対象の解析後テキストのうち、処理の対象となっている述語より前に出現している省略の指し先候補の位置を確認し、それらを省略箇所の補完候補として、処理対象となっている述語と、候補の各々とを組みにして候補追加部４３２に出力する。候補追加部４３２は、出現位置確認部４３０から与えられた候補を候補ＤＢ３８６に追加する。

図１０を参照して、第２の候補生成部３９０は以下のように動作する。述語検索部４５０は、解析後テキストＤＢ３８４に格納された解析後テキストの内の各述語を検索し、述語リスト記憶部４５２に蓄積する。省略候補検出部４５４は、図８に示す省略候補検出部４２４と同様、述語リスト記憶部４５２に蓄積された述語リスト内の各述語について、その述語を含む係り受け関係において、その述語の主語、目的語、間接目的語等のいずれかが存在している否かを判定し、存在していないときにはその部分を省略候補として検出する。省略候補検出部４５４は、検出された省略候補の位置を示す情報を対象述語検索部４５６に与える。対象述語検索部４５６は、省略候補検出部４５４により検出された省略候補のうち、テキスト内でその省略の候補を持つ述語よりも前に出現している他の述語を検索し、検索された各述語とその省略の候補を持つ述語とをペアにして言語知識検索部４５８に与える。

言語知識検索部４５８は、対象述語検索部４５６が出力する各述語ペアについて、それらペアを構成する述語又はそれを言換えた述語が言語知識ＤＢ１９４内の言語知識のいずれかにおいて、第１文と第２文とに出現するような言語知識があるか否かを判定し、あればその言語知識を出力する。言語知識検索部４５８はまた、対象述語検索部４５６から与えられる述語ペアを含む表現であって、かつパターン辞書１９８に記憶されたパターンに合致するものがあればそれも出力する。言語知識検索部４５８はこれら言語知識及びパターンをテキストに適用する際に、言換え・カテゴリ辞書１９６に記憶された言換え規則及びカテゴリを用い、規則中の表現を他の表現に言換えたり、規則中の単語を別の単語に入れ替えたりすることにより、言語知識の適用対象を広げる。言語知識検索部４５８により検索された言語知識は、その言語知識の検索の際に用いられた述語ペアとともに合致言語知識記憶部４６０に蓄積される。最後に、候補追加部４６２が、図１１〜図１４を参照して説明したように、合致言語知識記憶部４６０に記憶された述語ペアと、合致した言語知識又はパターンとを照合することにより、省略候補の指し先候補を特定し、省略候補と、各指し先候補とのペアをアノテーション候補として候補ＤＢ３８６に追加する。

図１５を参照して、第３の候補生成部３９２の照応・省略関係検索部６８０は、既存小規模学習データＤＢ１９０の中でアノテーション済の照応関係及び省略関係を検索し、照応関係を含む文を指し元省略文生成部６８２に、省略関係を含む文を省略要素復元部６８８に、それぞれ出力する。

指し元省略文生成部６８２は、照応関係を含むテキストから、照応関係を構成する名詞句対を探し、その各々について、その名詞句の内、テキスト内で後方に位置する指し元を自動的に省略した新たなテキストを生成してアノテーション追加部６８４に与える。アノテーション追加部６８４は、このようにして指し元省略文生成部６８２の生成した文のうち、省略された箇所と、省略された箇所とともに照応関係がアノテーションされていた名詞句との間に新たな省略関係のアノテーション候補を付して候補追加部６８６に出力する。

候補追加部６８６は、照応・省略関係検索部６８０が出力する省略関係を含むテキストのうち、省略箇所について、アノテーションに基づいて、その指し先の要素を代名詞として復元することで新たなテキストを生成しアノテーション追加部６９０に与える。アノテーション追加部６９０は、省略要素復元部６８８により生成された新たなテキストに、省略要素復元部６８８により復元された代名詞からなる指し元と、もともとのアノテーションにより指し先とされていた部分とからなる新たな照応関係のアノテーション候補を追加し候補追加部６８６に出力する。

候補追加部６８６は、アノテーション追加部６８４及びアノテーション追加部６９０から出力されたテキストをそれらに付加されたアノテーション候補とともに候補ＤＢ３８６に追加する。

図１６を参照して、第４の候補生成部３９４の照応・省略解析実行部７１０は、解析後テキストＤＢ３８４からテキストを読出し、既存照応・省略解析器２０８による照応・省略解析を実行する。既存照応・省略解析器２０８は、その性能には限界があるものの、入力されたテキストに対して照応・省略解析を実行し、アノテーションされたテキストを照応・省略解析実行部７１０に返す。照応・省略解析実行部７１０は、そのアノテーションされた解析結果を解析結果記憶部７１２に蓄積する。候補追加部７１４は、解析結果記憶部７１２に記憶された解析結果に含まれるアノテーションをアノテーション候補として候補ＤＢ３８６に追加する。

以上の処理をテキストアーカイブ１９２（図４及び図８参照）に記憶された全てのテキストに対して実行することにより、最終的に候補ＤＢ３８６にはアノテーション候補が付されたテキストが蓄積される。候補ＤＢ３８６に蓄積されたテキストは、省略候補及び照応詞候補を含み、各省略候補及び照応詞候補には、それらの指し先を示すアノテーション候補が１又は複数個付加されている。

対話型アノテーション装置３９６は、候補ＤＢ３８６に蓄積された候補の各々について、入出力装置２０２を用いたユーザとの対話型処理により、省略候補及び照応詞候補の各々について、以下のように動作する。

図３の下段を参照して、対話型アノテーション装置３９６は、アノテーション候補を含むテキスト９２を画面に表示する。その際、対話型アノテーション装置３９６は、省略候補及び照応詞候補の各々について、以下のようにしてアノテーション候補を選択するドロップダウンメニューを作成する。すなわち、省略候補の指し先が１箇所しか存在しない場合には、図３において文字列１３０で示される省略候補の位置に、その指し先候補である単語１１０と同じ単語を表示し、さらにその右側にドロップダウンメニューがあることを示すアイコン「▼」を表示する。ドロップダウンメニューには、表示されている候補を受け入れるか否かを示すオプション（ＹＥＳ・ＮＯ）と、直接入力とを示すオプションとが表示される。ユーザがＹＥＳを選択すると、選択されたアノテーションがアノテーションとして確定される。ＮＯが選択された場合、アノテーションは未確定で残される。直接入力が選択されると、文字列１３０で示される省略候補の指し先を直接指定するためのダイアログが表示される。ユーザが指し先を入力することにより、ユーザの指定にしたがった新たなアノテーションが生成され、確定アノテーションとなる。この場合、最初に表示されていながらユーザにより選択されなかったアノテーションは、学習時の素性ベクトル作成の際の負例を生成するために使用される。したがって、負例であることを示すフラグがこのアノテーション候補に付される。

アノテーション候補が複数個ある場合には、それら複数個のアノテーション候補をオプションとして含むドロップダウンリストが生成される。該当箇所には、アノテーション候補のうち先頭のもの、又は何らかの形でアノテーション候補にスコア付けした際の最高スコアのアノテーション候補が表示される。その右側には、ドロップダウンリストがあることを示すアイコン「▼」が表示される。この場合にも、ドロップダウンリストには、直接入力することを選択するオプション項目が表示される。ユーザがいずれかのオプションを選択すると、選択されたアノテーション候補がアノテーションとして確定する。選択されなかった候補については、学習時の素性ベクトル作成の際に、負例を生成するために使用される。

いずれの場合も、アノテーションが確定した解析後テキストは学習データＤＢ１６２に蓄積される。候補ＤＢ３８６に記憶された全ての解析後テキストについて、上記したアノテーションの選択が完了すると、学習データＤＢ１６２が完成する。

＜検出器の学習＞
図１８を参照して、検出器学習装置２２２は以下のように動作する。省略検出器学習部７７０の格別素性ベクトル生成部７８０は、学習データＤＢ１６２に記憶されたアノテーション確定済の学習データのうち、省略を含む学習データを読出す。格別素性ベクトル生成部７８０は、学習データの省略箇所の各々が、述語の主語（ガ格）、直接目的語（ヲ格）、又は間接目的語（二格）であるときに、それらを分類して、それぞれ素性ベクトル群７８２、７８４及び７８６を生成し図示しない記憶装置に蓄積する。この際、格別素性ベクトル生成部７８０は、確定したアノテーションについては学習ラベルを１、それ以外のアノテーションについては学習ラベルを０とする。ＳＶＭ学習処理部７８８は、これら素性ベクトル群７８２、７８４及び７８６を用いて、主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４が有するＳＶＭの学習を行う。

照応詞検出器学習部７７２の照応詞候補選択部８３０は、学習データＤＢ１６２に蓄積された学習データのうち、照応詞候補を含むテキストを読み出し、照応関係の差し元（照応詞）としてアノテーションが付された単語を選択する。素性ベクトル生成部８３２は、照応詞候補選択部８３０により選択された照応詞候補の各々について、前述した素性ベクトルを生成する。この際、素性ベクトル生成部８３２は、確定したアノテーションについては学習ラベルを１，それ以外のアノテーションについては学習ラベルを０とする。素性ベクトル生成部８３２が生成した素性ベクトルは図示しない記憶装置に蓄積される。ＳＶＭ学習処理部８３４は、このようにして蓄積された素性ベクトル群を用い、照応詞検出器１６８を構成するＳＶＭの学習を行う。

先行詞特定器学習部７７４において、照応詞用先行詞特定器学習部８４０は以下のように動作する。照応詞用先行詞特定器学習部８４０の照応詞選択部８５０は、学習データＤＢ１６２に記憶された学習データのうち、照応関係の指し元（照応詞）としてアノテーションされている表現を選択し、先行詞候補選択部８５２に与える。先行詞候補選択部８５２は、照応詞選択部８５０が選択した照応詞に対し、実際に先行詞としてアノテーションされたものとそれ以外の先行詞の可能性がある表現（名詞句）との双方を含む先行詞候補を選択する。素性ベクトル生成部８５４は、照応詞選択部８５０が選択した照応詞と、先行詞候補選択部８５２が選択した照応詞候補の各々との組み合わせについて照応詞用先行詞特定器９００の学習を行うための素性ベクトルを生成する。この際、素性ベクトル生成部８５４は、照応関係において照応詞の指し先としてアノテーションされた表現については学習ラベルを１，それ以外の学習ラベルを０とする。ＳＶＭ学習処理部８５６は、素性ベクトル生成部８５４が生成した素性ベクトルを用いて照応詞用先行詞特定器９００を構成するＳＶＭの学習を行う。

一方、省略用先行詞特定器学習部８４２は以下のように動作する。省略用先行詞特定器学習部８４２の省略選択部８７０は、学習データＤＢ１６２内の学習データのうち、省略関係としてアノテーションされた表現（省略）を選択し、先行詞候補選択部８７２に与える。先行詞候補選択部８７２は、省略選択部８７０が選択した省略に対する先行詞としてアノテーションされた表現を含め、省略の先行詞となる可能性のある候補を学習データ中で選択する。素性ベクトル生成部８７４は、省略選択部８７０が選択した省略部と、先行詞候補選択部８７２が選択した先行詞候補の各々との組み合わせについて、素性ベクトルを生成し図示しない記憶装置に蓄積する。このとき、素性ベクトル生成部８７４が生成する素性ベクトルにおいて、学習のラベルは、分類対象の省略・先行詞候補の対が省略関係となるなら１、それ以外は０である。また素性ベクトル生成部８７４は、素性ベクトルの生成にあたって、前述したとおり、選択制限ＤＢ２２４、質問タイプＤＢ２２０、質問応答システム２２６及び言語知識ＤＢ２２８を用いる。ＳＶＭ学習処理部８７６は、素性ベクトル生成部８７４により生成された素性ベクトルを用いて、省略用先行詞特定器９０２を構成するＳＶＭの学習を行う。

以上の処理により、省略検出器１６６に含まれる主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４、照応詞検出器１６８、並びに先行詞特定器１７０に含まれる照応詞用先行詞特定器９００及び省略用先行詞特定器９０２の学習が完了する。

＜自動アノテーション＞
図４に戻り、照応・省略解析器２５２による入力２５０に対する照応・省略解析とその結果の自動アノテーションは以下のようにして実行される。なお、この解析は省略解析、照応解析、省略及び照応詞に対する先行詞解析に分割される。省略解析では省略検出器１６６が用いられる。照応解析では照応詞検出器１６８が用いられる。先行詞解析では先行詞特定器１７０が用いられる。

最初に、入力２５０に対する形態素解析及び構造・係り受け解析が実行され、構造・係り受け情報が付された形態素列が処理の対象となる。この形態素列に対し、省略解析では、それぞれ図１８に示す主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４の学習を行ったときと同様の構成の素性ベクトルを生成し、これら検出器に与える。主語省略検出器８００、目的語省略検出器８０２、及び間接目的語省略検出器８０４の出力により、入力２５０のうちでそれぞれ最も高いスコアを示す部分に省略箇所としてのアノテーションが付される。照応詞解析では、入力２５０に含まれる名詞句対中から照応詞候補となり得る語句を選択し、その各々について、図１８に示す素性ベクトル生成部８３２により生成された素性ベクトルと同様の構成の素性ベクトルを入力２５０から生成する。この組成ベクトルを照応詞検出器１６８に与えることにより、照応詞検出器１６８からスコアが得られる。このスコアにより、照応詞か否かを決定し、その旨のアノテーションを付する。

照応詞用先行詞特定器９００による先行詞の推定は以下のようにして行われる。照応詞検出器１６８により照応詞と判定された表現の各々について、先行詞となり得る表現を入力２５０中で選択し、両者をペアとして図１８の素性ベクトル生成部８５４と同様に素性ベクトルを生成する。この素性ベクトルを照応詞用先行詞特定器９００への入力とし、照応詞用先行詞特定器９００のスコアを得て、しきい値より高いスコアで、かつ最も高いスコアを示した先行詞候補と、処理対象の照応詞との間で照応関係のアノテーションを追加する。

省略用先行詞特定器９０２による先行詞の推定も同様である。ただしこの場合、素性ベクトル生成部８５４により生成される素性ベクトルではなく素性ベクトル生成部８７４により作成されるものと同様の構成の素性ベクトルが使用される。したがってこのときには、選択制限ＤＢ２２４、質問タイプＤＢ２２０、質問応答システム２２６及び言語知識ＤＢ２２８が必要となる。

以上のように本実施の形態によれば、テキストアーカイブから、照応・省略解析のための検出器の学習を行うための学習データ生成が容易に行える。例えば照応・省略関係の候補が自動的に検索され、その先行詞候補がリストとして表示される。ユーザは、リストに表示された候補が１つでかつ正しいものであればそれを承認し、リストに表示された候補が複数個であればそのうちの１つを選択すればよい。従来のように、照応・省略関係の位置を目視で探し、次にその指し示す位置をさらに目視で探して両者に照応・省略関係のアノテーションを付す、という作業を行う必要はない。仮に表示されたリストに正しい指し先が示されないときには、手入力により正しい指し先を指定することができる。

したがって、従来の技術よりもはるかに簡便に、照応・省略解析の検出器の学習を行うための学習データを準備できる。その結果、学習データの作成コスト及び作成時間をいずれも低減できる。大量の学習データを低コストで準備できるため、この学習データを使用して学習を行った省略検出器１６６、照応詞検出器１６８、及び先行詞特定器１７０を用いてテキストの照応・省略解析を効率的に行うことが可能になる。また、学習データが大量になるため、これら検出器の精度が向上することが期待でき、高い精度でほぼ自動的にテキストの照応・省略解析を行うことができる。

なお、上記実施の形態では、質問応答システム２０６は単数であるものとして説明した。しかし本発明はそのような実施の形態には限定されない。質問応答システムが複数個利用できるのであれば、複数個の質問応答システムを利用してもよい。この場合、各質問応答システムがいずれも自然言語のテキストを入力とするのであれば、同一の質問文をそれらに送信するだけで回答候補を得ることができる。

［コンピュータによる実現］
上記実施の形態に係る学習データ生成補助装置２０４は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１９はこのコンピュータシステム９３０の外観を示し、図２０はコンピュータシステム９３０の内部構成を示す。

図１９を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

図２０を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０と、ハードディスク９５４を含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワーク９６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。

コンピュータシステム９３０を上記した実施の形態に係る学習データ生成補助装置２０４の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムはネットワーク９６８を通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から又はネットワーク９６８を介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ９４０を、上記実施の形態に係る学習データ生成補助装置２０４の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ９４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ９４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の内、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１５０照応・省略解析システム
１６０アノテーションデータ生成補助システム
１６２学習データＤＢ
１６４学習システム
１６６省略検出器
１６８照応詞検出器
１７０先行詞特定器
１７２照応・省略解析装置
１９０既存小規模学習データＤＢ
１９２テキストアーカイブ
１９４，２２８，２５６言語知識ＤＢ
１９６言換え・カテゴリ辞書
１９８パターン辞書
２００，２２０，２５８質問タイプＤＢ
２０２入出力装置
２０４学習データ生成補助装置
２０６，２２６，２６０質問応答システム
２２２検出器学習装置
２２４，２６２選択制限ＤＢ
２５２照応・省略解析器

Claims

自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置であって、
表示装置と入力装置とからなり、ユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語により表現された知識を用いて推定する候補推定手段と、
前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段とを含み、
前記候補推定手段は、言語により表現された複数の知識を記憶する知識記憶手段を含み
前記複数の知識の各々は、各々が名詞と述語との組合せからなる、それら表現の間に前記所定の関係が成立することを示す順序付ペアを含み、
前記候補推定手段はさらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた前記述語とを含む表現であって、前記知識記憶手段に記憶された知識のいずれかに適合する表現を特定する適合表現抽出手段と、
前記適合表現抽出手段により抽出された表現と、当該表現が適合した知識とを照合することにより、前記表現中の、前記対象特定手段が特定した前記単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として前記候補記憶手段に記憶させる手段とを含む、アノテーション補助装置。
前記候補推定手段は、さらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置に入るべき単語を問い合わせる文を、当該位置の周囲の単語列を用いて生成する質問文生成手段と、
前記質問文生成手段が生成した質問文を、予め準備された質問応答システムに入力として与える質問文入力手段と、
前記質問文入力手段から与えられた質問文に対して前記質問応答システムから得られる回答から、前記単語の位置に挿入されるべき単語の候補を当該単語の位置と関連付けて前記候補記憶手段に記憶させる手段とを含む、請求項１に記載のアノテーション補助装置。
前記候補推定手段はさらに、
予め準備された既存のアノテーション済テキストデータベースに含まれるテキスト中で、省略又は照応関係に関するアノテーションが付されている箇所を検索するアノテーション検索手段と、
前記アノテーション検索手段により検索された箇所の各々について、各アノテーションごとに予め定められた方式にしたがって文を変形し、当該変形箇所を前記検索された箇所に対するアノテーションの候補として前記候補記憶手段に記憶させる手段とを含む、請求項２に記載のアノテーション補助装置。
前記候補推定手段はさらに、
前記解析手段の出力する解析後の形態素列を、他の既存の照応・省略解析器への入力として与える手段と、
前記既存の照応・省略解析器による照応・省略解析結果を受け、当該照応・省略解析結果を、前記候補記憶手段に記憶させる手段とを含む、請求項１〜請求項３のいずれかに記載のアノテーション補助装置。
前記知識記憶手段が記憶する前記複数の知識は、因果関係知識、含意関係知識、事態生起順序関係知識、及び事態生起無効化関係知識の任意の組合せを含む、請求項１〜請求項４のいずれかに記載のアノテーション補助装置。
自然言語文の照応・省略解析のためのアノテーションデータの作成を補助するアノテーション補助装置としてコンピュータを動作させるコンピュータプログラムであって、コンピュータを、
当該コンピュータの表示装置と入力装置とを用いたユーザとの対話型処理によりユーザ入力を受け付ける入出力手段と、
アノテーションの対象となるテキストアーカイブからテキストデータを読み出す読出手段と、
前記読出手段が読み出したテキストデータの形態素解析及び係り受け解析を行って、係り受け構造を示す情報が付された形態素列を出力する解析手段と、
前記解析手段の出力する形態素列中の述語を検索する述語検索手段と、
前記述語検索手段が検索した述語の各々が関与する係り受け関係において、当該述語に対して所定の関係にあるべき単語が省略されていること、又は指示語となっていることを検出し、アノテーション処理の対象として当該単語の位置を特定するための対象特定手段と、
前記対象特定手段が特定した前記単語の位置の各々について、当該位置に挿入されるべき表現の候補を、当該位置と周囲の形態素列との関係、及び言語により表現された知識を用いて推定する候補推定手段と、
前記候補推定手段により推定された候補を前記単語の位置と関連付けて記憶する候補記憶手段と、
前記アノテーション処理の対象の各々について、前記候補推定手段が推定した候補を前記候補記憶手段から読出し、ユーザがいずれかを選択可能なように前記表示装置に表示する候補表示手段と、
前記候補表示手段により表示された候補のいずれかを選択するユーザの指示に応答して、選択された候補を前記位置にアノテーションとして付加する対話的選択手段として機能させ、
前記候補推定手段は、言語により表された複数の知識を記憶する知識記憶手段を含み
前記複数の知識の各々は、各々が名詞と述語との組合せからなる表現からなり、それら表現の間に前記所定の関係が成立することを示す順序付ペアを含み、
前記候補推定手段はさらに、
前記対象特定手段が特定した前記単語の位置の各々について、当該単語の位置と、当該単語の位置を特定する際に用いられた前記述語とを含む表現であって、前記知識記憶手段に記憶された知識のいずれかに適合する表現を特定する適合表現抽出手段と、
前記適合表現抽出手段により抽出された表現と、当該表現が適合した知識とを照合することにより、前記表現中の、前記対象特定手段が特定した前記単語の位置に挿入されるべき表現を、当該単語の位置に挿入されるべき文字列の候補として前記候補記憶手段に記憶させる手段とを含む、コンピュータプログラム。