JP2011248633A

JP2011248633A - 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Info

Publication number: JP2011248633A
Application number: JP2010121257A
Authority: JP
Inventors: Hiroyori Taira; 博順平; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-27
Filing date: 2010-05-27
Publication date: 2011-12-08
Anticipated expiration: 2030-05-27
Also published as: JP5466997B2

Abstract

【課題】解析モデルの自動学習における処理速度の向上を図ること。
【解決手段】解析モデル学習装置１は、一度に読み込む訓練データ中の記事数を１記事または少数記事とし、それ以前に読み込まれた記事も含めて解析を行い解析結果の初期値を与えるベースライン解析部２と、訓練用データに対する解析結果を保持する解析結果テーブル３と、解析誤りデータからルールテンプレート５に基づいてルール候補を作成するルール候補作成部４と、それを保持するルール候補テーブル７と、ルール候補の中で最も正味の正解の増加数が大きくなるルールを選択するルール選択部６と、選択されたルールを保持する解析モデルテーブル９と、保持されたルールを、前記テーブル３に保持された訓練データに対する解析結果に適用し解析結果を変換するルール適用部８と、解析モデルテーブル９に保持されたルールを解析モデルとして外部に出力する出力部１０とを備える。
【選択図】図１

Description

本発明は、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、誤り駆動型変換学習モデルを用いてテキストを解析する際に用いる解析モデルを訓練用データから自動学習する技術に関するものである。

従来、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、解析ルールが人間にとって理解しやすい利点を持つ、誤り駆動型変換学習モデルによるテキスト解析方法が提案されている（非特許文献１，２，３参照）。

誤り駆動型変換学習モデルでは、訓練用データのテキストに対し、最初にベースライン解析と呼ばれる簡単な解析を行い、解析結果の初期値を得る。この解析は例えば形態素解析の場合には、すべての形態素に対する品詞の解析結果をすべて名詞とするようなベースラインとなる簡単な解析である。

この解析結果の初期値に対し、訓練用データ中の人手による正解の解析結果と比較し、正解の解析結果と異なる場合には、解析誤りが発生したテキストからテキストの特徴を抽出し、変換ルールの条件部の候補とする。

この変換ルールの条件部の候補と、現在の自動解析結果を変換する前の解析結果と、人手による正解を変換した後の解析結果との３つの組み合わせで表される変換ルール候補それぞれに対し、訓練用データ全体に変換ルールを適用した場合の（解析結果における正味の正解数の増加数）＝（解析結果の正解数の増加数−解析結果の不正解数の増加数）を求め、正味の正解数の増加数が最も大きな変換ルール候補を１番目に適用する変換ルールとする。

こうして選ばれた１番目の変換ルールを訓練データに対する現在の解析結果に対し適用し、変換を行う。こうして得られた変換後の解析結果について１番目の変換ルールを得たときと同様、解析誤りが発生した訓練用データ中の各テキストから変換ルール候補を作成し、訓練用データ全体に変換ルールを適用した場合の正味の正解数の増加数を求め、正味の正解数の増加数が最も大きな変換ルール候補を２番目に適用する変換ルールとする。

以降、同様に３，４、．．．番目の変換ルールを生成していき、正味の正解数の増加数が１以上のものが存在する間、変換ルールを生成する。こうして最終的に得られた変換ルール群を解析モデルとする。この解析モデルを用いて、未知のテキストに対してテキスト解析を行うことができる。

未知のテキストに対するテキスト解析では、まず、未知のテキストに対してベースライン手法を適用し、解析結果の初期値を得た後、上記で得られた変換ルールを順次適用し、最終的な解析結果を得る。

この誤り駆動型変換学習モデルでは、大規模な訓練用データから変換ルールを自動学習する際、解析誤りの数が訓練用データの規模に応じて多くなり、それに伴い変換ルール候補が多くなりすぎて、学習に莫大な時間がかかる問題がある。

この問題に関しては、あらかじめインデクスを構築しておく手法（非特許文献４参照）、まず条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択する手法（非特許文献３参照）などが提案されている。

ＥｒｉｃＢｒｉｌｌ，「Ｔｒａｎｓｆｏｒｍａｔｉｏｎ−ＢａｓｅｄＥｒｒｏｒ−ＤｒｉｖｅｎＬｅａｒｎｉｎｇａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：ＡＣａｓｅＳｔｕｄｙｉｎＰａｒｔ−ｏｆ−ＳｐｅｅｃｈＴａｇｇｉｎｇ」，ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．２１，Ｎｏ．４，１９９５年，ｐｐ．５４３〜５６５ＥｒｉｃＢｒｉｌｌ，「Ｔｒａｎｓｆｏｒｍａｔｉｏｎ−ＢａｓｅｄＥｒｒｏｒ−ＤｒｉｖｅｎＰａｒｓｉｎｇ」，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＰａｒｓｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ，１９９３年ＶａｌｅｎｔｉｎＪｉｊｋｏｕｎａｎｄＭａａｒｔｅｎｄｅＲｉｊｋｅ，「ＬｅａｒｎｉｎｇｔｏＴｒａｎｓｆｏｒｍＬｉｎｇｕｉｓｔｉｃＧｒａｐｈｓ」，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＷｏｒｋｓｈｏｐｏｎＴｅｘｔＧｒａｐｈｓ：Ｇｒａｐｈ−ＢａｓｅｄＡｌｇｏｒｉｔｈｍｓｆｏｒＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＴｅｘｔＧｒａｐｈ−２），２００７年，ｐｐ．５３〜６０ＬａｎｃｅＡ．ＲａｍｓｈａｗａｎｄＭｉｔｃｈｅｌｌＰ．Ｍａｒｃｕｓ，「ＥｘｐｌｏｒｉｎｇｔｈｅＳｔａｔｉｓｔｉｃａｌＤｅｒｉｖａｔｉｏｎｏｆＴｒａｎｓｆｏｒｍａｔｉｏｎａｌＲｕｌｅＳｅｑｕｅｎｃｅｓｆｏｒＰａｒｔ−ｏｆ−ＳｐｅｅｃｈＴａｇｇｉｎｇ」，ＩｎＴｈｅＢａｌａｎｃｉｎｇＡｃｔ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬＷｏｒｋｓｈｏｐｏｎＣｏｍｂｉｎｉｎｇＳｙｍｂｏｌｉｃａｎｄＳｔａｔｉｓｔｉｃａｌＡｐｐｒｏａｃｈｅｓｔｏＬａｎｇｕａｇｅ，１９９４年，ｐｐ．８６〜９５

従来の変換学習における解析モデル学習装置では、大規模な訓練用データから変換ルールを自動学習する際、一般的には訓練用データの数に応じて解析誤りの数が多くなり、それに伴い変換ルール候補が多くなりすぎ、各変換ルール候補に対するルールの良さの評価値の計算に莫大な時間がかかる課題があった。

この課題に関しては、あらかじめ各特徴量と解析結果の組について出現するデータについてのインデクスを作成しておき、評価値の計算の高速化をはかる手法（非特許文献４参照）、まず条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択することで評価値の高い変換ルール候補を近似的に求める手法（非特許文献３参照）などが提案されている。

しかしながら、上記のあらかじめインデクスを構築しておく手法は、述語項構造解析のようにある解析結果が他の解析結果と依存関係にあり、ある解析結果を変換した結果、他の解析結果も同時変更しなければならないような解析では、各特徴量と解析結果の組の数の管理が困難であり、単純には使用できない。

ここで、述語項構造解析における解析結果同士の依存関係とは、例えば、現在、ある名詞に対する解析結果がヲ格の項である場合に、この名詞がある変換ルールの条件に合致し、解析結果がヲ格の項からガ格の項へ変換された場合、既に別の名詞がガ格の項になっている場合とそうでない場合があり、別の名詞がガ格になっている場合は、その名詞を別の項に変換するかもしくは、項の認定を止めるなどしなくてはならず、その結果全体として誤り数がどのように変化するか、単純に計算できない。
また上記の、条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択する手法では、解析ルールが人間にとって理解しやすい利点が損なわれる短所がある。

解析ルールが人間にとって理解しやすいまま、述語項構造解析のようにある予測値が他の予測値の解析誤り数の増減に影響を与える解析においても学習時間が短縮できる手法が求められていた。

本発明は、解析結果に対する変換ルールを学習する際に、変換ルール候補を訓練データ全体から一度に抽出して、最も優れたルールをその中から選択するのではなく、新たに読み込む訓練データは１記事に限定し、現在読み込まれている訓練データの解析誤り数が所定の閾値以下となるまで、解析ルール候補の抽出および評価および解析ルールの追加を繰り返し、解析誤り数が所定の閾値以下になったあと、新たに次の訓練データを１記事読み込んで処理を行う。こうすることで、一度に抽出されるルール候補数を絞り、計算処理速度の向上を図る。

ここで、「記事」とは、新聞などにおける１記事全体のテキストを指すが、解析対象のテキストで、予測値の変更が他の予測値に影響を与えない範囲の単位としてもよい。また、一度に読み込む記事の数は１記事には限定せずとも、訓練データの規模に応じて２，３記事などの記事数で処理を行うことも可能である。

本発明の解析モデル学習装置の態様としては、訓練データに基づき述語項構造解析の解析モデルを自動学習する解析モデル学習装置であって、訓練用データに対して例えばベースライン解析の簡単な手法で解析を行ない初期予測値を与えるベースライン解析部と、訓練用データに対する解析結果を保持する解析結果テーブルと、解析結果中の解析誤りデータからルールテンプレートに基づいてルール候補を作成するルール候補作成部と、ルール候補作成部で作成されたルール候補を保持するルール候補テーブルと、ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択部と、ルール選択部で選択されたルールを保持しておく解析モデルテーブルと、解析モデルテーブルに保持されたルールを解析結果テーブルに保持された訓練データに対する解析結果に適用し、解析結果を変換するルール適用部と、解析モデルテーブルに保持されたルールを解析モデルとして外部に出力する出力部とを備える。

本発明の解析モデル学習方法の態様としては、訓練用データに基づき述語項構造解析の解析モデルを自動学習するモデル学習方法であって、ベースライン解析部が、訓練用データに対して、例えばベースライン解析の簡単な手法で解析を行ない初期予測値を与えるステップと、訓練用データに対する解析結果を解析結果テーブルに保持するステップと、前記ルール候補作成部が、解析結果中の解析誤りデータからルールテンプレートに基づいてルール候補を作成するルール候補作成ステップと、前記作成されたルール候補をルール候補テーブルに保持するステップと、ルール選択部が、前記ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択ステップと、前記選択されたルールを解析モデルテーブルに保持するステップと、ルール適用部が、前記解析モデルテーブルに保持されたルールを解析結果テーブルに保持された訓練データに対する解析結果に適用し、解析結果を変換するルール適用ステップと、出力部が、前記解析モデルテーブルに保持されたルールを解析モデルとして外部に出力するステップとを有する。

尚、本発明は上記解析モデル学習装置を構成する各手段として機能させる解析モデル学習プログラムの態様とすることもできる。

本発明によれば、解析モデル学習装置が一度に作成、評価を行うルール候補数を減少させ、計算処理速度が向上する。

本発明の実施形態１に係る解析モデル学習装置の構成を示すブロック図。本発明の実施形態１に係る解析モデル学習の過程を説明するフローチャート。本発明の実施形態１に係る解析モデル学習装置に入力される訓練用データの例を示す図。本発明の実施形態１における解析結果テーブルの一例を示す図。本発明の実施形態１におけるルールテンプレートの一例を示す図。本発明の実施形態１におけるルール候補テーブルの一例を示す図。本発明の実施形態１におけるルール候補テーブルの他の例を示す図。本発明の実施形態１における解析モデルテーブルの一例を示す図。本発明の実施形態１における解析結果テーブルの他の例を示す図。本発明の実施形態１におけるルール候補テーブルの他の例を示す図。本発明の実施形態１におけるルール候補テーブルの他の例を示す図。本発明の実施形態１における解析モデルテーブルの他の例を示す図。本発明の実施形態１における解析結果テーブルの他の例を示す図。本発明の実施形態１における解析モデル学習結果の一例を示す図。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。

（実施形態１）
図１は本発明の実施形態１に係る解析モデル学習装置の構成を示している。解析モデル学習装置１は、ベースライン解析部２と解析結果テーブル３とルール候補作成部４とルールテンプレート５とルール選択部６とルール候補テーブル７とルール適用部８と解析モデルテーブル９と出力部１０とを備える。

前記解析モデル学習装置１内の各部の機能は、例えばコンピュータによって達成される。図１において、ベースライン解析部２は訓練用データ中のテキストに対し、ベースライン解析を行う。

解析結果テーブル３は、ベースライン解析部２やルール適用部８での解析結果を格納しており、解析モデル学習装置１内の解析結果テーブル記憶部（図示省略）に更新可能に保存される。

ルール候補作成部４は、解析結果テーブル３に格納されている解析結果において解析誤りがある箇所から、テキストの特徴をルールテンプレート５に基づいて抽出してルール候補を作成し、作成したルール候補をルール候補テーブル７に格納する。

ルールテンプレート５は、解析結果誤りを修正する変換ルールを抽出するためのテキストの特徴の集合であり、予め解析モデル学習装置１内の記憶手段（図示省略）に保存される。なお、ルールテンプレート５は前記記憶手段に予め保存しておく代わりに、外部から入力される形態としてもよい。

ルール候補テーブル７は解析モデル学習装置１内の周知の記憶手段（図示省略)に更新可能に保存される。

ルール選択部６は、ルール候補テーブル７に格納されているルール候補について、解析結果テーブル３に格納されている解析結果にルール候補を適用した場合の、正味の正解数の増加を計算し、計算結果をルール候補テーブル７に格納する。そして正味の正解数が最大のルール候補を新規のルール（解析モデルとなる変換ルール）として選択し、解析モデルテーブル９の末尾に格納する。

解析モデルテーブル９は解析モデル学習装置１内の記憶手段（図示省略）に更新可能に保存される。

ルール適用部８は、解析モデルテーブル９に格納されたルールを、解析結果テーブル３に格納されている訓練用データに対する解析結果に適用して解析結果を変換する。

出力部１０は、解析モデルテーブル９に格納された変換ルールを解析モデルとして外部に出力する。

前記訓練用データは自然言語の形態で解析モデル学習装置１に入力される。訓練用データの入力手段としては、ユーザによって操作されるキーボード、インターネット等のネットワークを介して解析モデル学習装置１と接続可能なユーザの端末、または解析モデル学習装置１とユーザの端末とを中継するネットワークサーバ等が挙げられる。

次に図２のフローチャートを参照しながら解析モデル学習装置１による解析モデルの学習のステップＳ１０１〜Ｓ１１２について説明する。なお、以下の説明では、解析誤り数の所定の閾値を０に設定した場合を考える。

Ｓ１０１：解析モデル学習装置１は訓練用データ中の記事の番号を示す変数ｋに０を代入する。

Ｓ１０２：解析モデル学習装置１は訓練用データ中の記事の番号を示す変数ｋの値に１を加える。

Ｓ１０３：変数ｋの値が、訓練用データ中の全記事数ｎを超える場合は、終了処理Ｓ１１２に処理を移す。そうでない場合には、Ｓ１０４に処理を移す。

Ｓ１０４：ベースライン解析部２が、訓練用データからｋ番目の記事を読み込み、ベースライン解析を行ない、解析結果を解析結果テーブル３に格納する。図３に、述語の基本形に対するガ格、ヲ格、ニ格の項の解析を行う述語項構造解析の述語「返す」に対する項の解析モデルの学習における訓練用データの例を示す。図４は、図３の記事番号１のテキスト「太郎は、花子から借りた本を土曜日に返した。」中の名詞「太郎」、「花子」、「本」、「土曜日」に対し、ベースライン解析部２が、後続の助詞が「が」である場合には「ガ格項」、後続の助詞が「を」である場合には「ヲ格項」、後続の助詞が「に」である場合には「ニ格項」と予測するベースライン手法を用いた解析で解析した結果の例である。なお、図４における「項の予測」の列が解析した結果を表す。「項の人手正解」の列は、予め訓練データに人手で付与されている解析結果の正解である。

Ｓ１０５：ルール適用部８が、解析モデルテーブル９に格納されている解析モデル（変換ルール）でｋ番目の記事を解析し、解析結果を解析結果テーブル３に格納する。本例（変数ｋの値が１である場合）では、まだ解析モデルテーブル９が存在しないのでこの解析は行われず、次の処理に進む。

Ｓ１０６：ルール候補作成部４が、現在の解析結果テーブル３において項の人手正解と項の予測の一致数を計算する。図４の例では一致するのは「本」の一つの名詞のみであり、「太郎」、「花子」、「土曜日」については不一致となっているので、解析誤りの数は３となり予め定めた解析誤り数の閾値（この例では０）と一致しないのでＳ１０７のステップに進む。もし、解析誤り数が予め定めた閾値以下となった場合は、ステップＳ１０２に進む。

Ｓ１０７：ルール候補作成部４が、解析誤りの箇所から、ルールテンプレート５に基づいて特徴を抽出して変換ルール候補を作成し、ルール候補テーブル７に格納する。図５にルールテンプレートの例を示す。図４で解析が誤っていた「太郎」、「花子」、「土曜日」から図５のルールテンプレートに従って後続助詞と意味カテゴリを抽出しルール候補を作成した例を図６に示す。

図６のルール候補番号１のルール候補に関しては、条件にあてはまる名詞は、「太郎」である。「太郎」がガ格項に変換されるとガ格項の正解が１増加するため、正味の正解増加数は１となる。

ルール候補番号２のルール候補に関しては、条件にあてはまる名詞は、「太郎」と「花子」である。「太郎」がガ格項に変換されるとガ格項の正解が１増加するが、「花子」がガ格項に変換されても不正解なため、正味の正解増加数は１となる。

ルール候補番号３のルール候補に関しては、条件にあてはまる名詞は「花子」のみで、「花子」がニ格項に変換されるとニ格項の正解が１増加するため、正味の正解増加数は１となる。

ルール候補番号４のルール候補に関しては、条件にあてはまる名詞は「太郎」と「花子」で、「花子」がニ格項に変換されたときのみニ格項の正解が１増加するため、正味の正解増加数は１となる。

ルール候補番号５のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’（項に該当しない）に変換されるとニ格項の不正解が１減少するため、正味の正解増加数は１となる。

ルール候補番号６のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’（項に該当しない）に変換されるとニ格項の不正解が１減少するため、正味の正解増加数は１となる。

Ｓ１０８：ルール選択部６が変換ルール候補毎にそのルールを、記事番号１〜記事番号ｋまでの記事に適用した場合の正味の正解増加数を計算して、ルール候補テーブル７に格納する。ここで正味の正解増加数とは、（ルールを適用した場合の正解増加数）から（ルールを適用した場合の不正解増加数）を差し引いた数である。図７に正味の正解増加数が格納されたルール候補テーブル７の例を示す。

Ｓ１０９：ルール選択部６が正味の正解増加数の最大値を計算し、その値が所定の正解増加数の閾値より大きければ処理をＳ１１０に進め、そうでなければ処理をＳ１０２に移す。ここでは、所定の正解増加数の閾値が０の場合の例を考える。すると、図７の例の場合は、正味の正解増加数の最大値が１であり、所定の正解増加数の閾値よりも大きいので処理をＳ１１０に進める。

Ｓ１１０：ルール選択部６が正味の正解増加数が最も大きい値を取る変換ルール候補を解析モデルテーブル９に追加する。図７の例では、どのルール候補も最も大きい値１をとっているので、ここではその中でルール候補番号１を解析モデルテーブル９に追加したとする。その場合の解析モデルテーブル９の例を図８に示す。

Ｓ１１１：ルール適用部８が、１〜ｋ番目の記事に対し、前記追加された変換ルールを適用して解析結果を変換し、その結果を解析結果テーブル３に格納し、処理をＳ１０６に移す。図４の例に対して、図８の例の追加された変換ルールを適用した結果の解析結果テーブル３の例を図９に示す。図９の例においてＳ１０６では解析誤り数が所定の閾値以下でない場合は、処理Ｓ１０７以降が実行される。

Ｓ１０７：図９において解析誤りの箇所は「花子」と「土曜日」の二箇所であり、ここからルールテンプレート５にしたがって変換ルール候補を作成した例を図１０に示す。また、変換ルール候補毎にルールを適用した場合の正味の正解増加数をルール候補テーブル７に格納した例を図１１に示す（Ｓ１０８）。

図１１のルール候補番号１のルール候補に関しては、条件にあてはまる名詞は「花子」のみで、「花子」が二格に変換されると「花子」の項予測が正解になり正解数が１増加し、「土曜日」の項予測が間接的に‘―’となり、正味の正解増加数は２となる（ある変換ルール（この場合はルール候補番号１のルール）が適用され、ある項のタイプに変換（この場合は花子がニ格項に変換）された際に、その項のタイプが既に別の名詞に割り当てられている（この場合は二格項が既に土曜日に割り当てられている）場合には、その別の名詞（この場合は土曜日）の項のタイプを‘―’に変換するものとする）。

また、ルール候補番号２のルール候補に関しても、条件にあてはまる名詞は「花子」のみで、「花子」が二格に変換されると「花子」の項予測が正解になり正解数が１増加し、「土曜日」の項予測が間接的に‘―’となり、正味の正解増加数は２となる。

ルール候補番号３のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’に変換されると「土曜日」の項予測が正解になり正解数が１増加するので、正味の正解増加数は１となる。同様に、ルール候補番号４の正味の正解増加数は１となる。ここで正味の正解増加数の最大値は２であり正解増加数の閾値（この例では０）より大きいのでＳ１１０に処理を進める（Ｓ１０９）。

図１１において、正味の正解増加数が最も大きい値をとる変換ルール候補は番号１と番号２の二つ存在するので、ここではそのうちのルール候補番号１の候補を解析モデルに追加したとする（Ｓ１１０）。そのときの解析モデルテーブル９の例を図１２に示す。

この追加されたルール番号２で、１番目の記事を解析した結果（Ｓ１１１）の解析結果テーブル３の例を図１３に示す。ここで解析誤り数が解析誤り数の閾値（この例では０）以下となるので（Ｓ１０６）、処理をＳ１０２に進める。

このような処理を繰り返し、Ｓ１０３の処理でｋがｎよりも大きくなった場合には図２（ｂ）に示す終了処理を行う。終了処理では出力部１０が、解析モデルテーブル９に格納された解析モデルを外部に出力し（Ｓ１１２）、全体の処理を終了する。こうして得られた解析モデルの例を図１４に示す。

以上のように解析モデル学習装置１は、訓練用データを１記事ずつ読み込み、読み込まれた記事の中での解析誤り数が所定の閾値以下（上記の例では０）になるまで繰り返し変換ルールを作成することで、ルール候補数の増大によるルール候補に対する正味の正解数の増加数の計算にかかるコストを削減することができる。

尚、本発明の実施形態に係る解析モデル学習装置１はコンピュータとプログラムによっても実現でき、当該プログラムを記録媒体に記録することも、ネットワークを介して提供することも可能である。すなわち、上述の解析モデル学習装置１を構成する各機能部２、４、６、８、１０に係る処理をプログラムとして構築し、このプログラムを記録媒体または通信回線によってコンピュータにインストールすることにより、当該コンピュータによって解析モデル学習装置１の実現が可能となる。また前記ルールテンプレート５，テーブル３、７、９の記憶手段としてはハードディスク装置やファイルサーバ等に例示される記憶手段によって実現できる。

１…解析モデル学習装置
２…ベースライン解析部
３…解析結果テーブル
４…ルール候補作成部
５…ルールテンプレート
６…ルール選択部
７…ルール候補テーブル
８…ルール適用部
９…解析モデルテーブル
１０…出力部

Claims

訓練用データから、テキスト解析のための解析モデルを学習する解析モデル学習装置であって、
前記訓練データ中の記事の総数よりも少ない数の記事を読み込み、それ以前に読み込まれている記事と前記読み込んだ記事とに対して解析を行い解析結果の初期値を与えるベースライン解析部と、
前記読み込んだ訓練用データに対する解析結果を記憶する解析結果テーブル記憶部と、
解析結果誤り修正用の変換ルールを抽出するためのテキストの特徴の集合であるルールテンプレートを予め記憶したルールテンプレート記憶部と、
前記読み込んだ記事に対する前記解析結果中の解析誤りデータから、前記ルールテンプレートを参照してルール候補を作成するルール候補作成部と、
前記ルール候補作成部で作成されたルール候補を記憶するルール候補テーブル記憶部と、
前記ルール候補テーブル記憶部中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択部と、
前記ルール選択部で選択されたルールを記憶する解析モデルテーブル記憶部と、
前記解析モデルテーブル記憶部に保持されたルールを前記解析結果テーブル記憶部に記憶された訓練データに対する解析結果に適用し、解析結果を変換するルール適用部と、
を備えることを特徴とする解析モデル学習装置。
前記ベースライン解析部で読み込む記事の数は、１記事であることを特徴とする請求項１に記載の解析モデル学習装置。
請求項１又は２に記載の解析モデル学習装置において、前記ルール適用部は、訓練データ中の同一テキスト内で、１度のルール適用により変換した解析結果と同一となる解析結果を、前記変換した解析結果とは異なる解析結果に変換することを特徴とする解析モデル学習装置。
請求項１から３のいずれか１項に記載の解析モデル学習装置において、述語項構造解析の解析モデルを学習することを特徴とする解析モデル学習装置。
訓練用データから、テキスト解析のための解析モデルを学習する解析モデル学習方法であって、
解析モデル学習装置のベースライン解析部が、前記訓練データ中の記事の総数よりも少ない数の記事を読み込み、それ以前に読み込まれている記事と前記読み込んだ記事とに対して解析を行い解析結果の初期値を与えるベースライン解析ステップと、
前記解析結果を解析結果テーブル記憶部に格納するステップと、
解析モデル学習装置のルール候補作成部が、読み込まれている訓練用データに対する解析結果中の解析誤りデータから、解析結果誤り修正用の変換ルールを抽出するためのテキストの特徴の集合であるルールテンプレートに基づいて、ルール候補を作成するルール候補作成ステップと、
前記作成したルール候補をルール候補テーブル記憶部に格納するステップと、
解析モデル学習装置のルール選択部が、前記ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択ステップと、
前記選択したルールを解析モデルテーブル記憶部に格納するステップと、
解析モデル学習装置のルール適用部が、前記解析モデルテーブル記憶部に記憶されたルールを、前記解析結果テーブル記憶部に記憶された訓練データに対する解析結果に適用し、解析結果を変換するルール適用ステップと、
解析モデル学習装置の出力部が、解析モデルテーブル記憶部に記憶されたルールを解析モデルとして外部に出力するステップと、
を有することを特徴とする解析モデル学習方法。
前記ベースライン解析ステップにおいて、読み込む記事の数は１記事であることを特徴とする請求項５に記載の解析モデル学習方法。
請求項５又は６に記載の解析モデル学習方法において、前記ルール適用ステップは、訓練データ中の同一テキスト内で、１度のルール適用により変換した解析結果と同一となる解析結果を、前記変換した解析結果とは異なる解析結果に変換することを特徴とする解析モデル学習方法。
請求項５から７のいずれか１項に記載の解析モデル学習方法において、述語項構造解析の解析モデルを学習することを特徴とする解析モデル学習方法。
コンピュータを請求項１から４のいずれか１項に記載の解析モデル学習装置を構成する各手段として機能させることを特徴とする解析モデル学習プログラム。