JP2013011985A

JP2013011985A - 解析モデル学習装置、方法、及びプログラム

Info

Publication number: JP2013011985A
Application number: JP2011143418A
Authority: JP
Inventors: Hiroyori Taira; 博順平; Masaaki Nagata; 昌明永田; Sanae Fujita; 早苗藤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2013-01-17

Abstract

【課題】計算コストの増大を抑制しつつ、高精度な分類精度を得られる解析モデルを学習する。
【解決手段】ベースライン解析部２で、解析対象、基本特徴量、及び正解を含む複数の訓練用サンプル各々に対して、解析結果の予測値を解析し、ルール候補作成部４で、解析誤りのある訓練用サンプルからルールテンプレート５に従って変換ルール候補を作成し、ルール選択部６で、変換ルール候補各々を適用した場合に、正味の正解増加数が最大となる変換ルール候補を選択し、ルール適用部８で、選択した変換ルールを全訓練用サンプルに適用し、解析誤りが０になるまでルールの生成及び適用を繰り返す。インデクス作成部１０で、各訓練用サンプルに適用されたルールの履歴及び基本特徴量のインデクスを格納し、訓練ベクトル作成部１２で、インデクスに基づいて訓練ベクトルを作成し、学習部１４で、訓練ベクトルに基づいて解析モデルを学習する。
【選択図】図１

Description

本発明は、解析モデル学習装置、方法、及びプログラムに係り、特に、形態素解析、構文解析、述語項構造解析等のテキスト解析に用いる解析モデルを訓練用サンプルから自動学習する解析モデル学習装置、方法、及びプログラムに関する。

従来、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、大規模な訓練用データから解析モデルを自動学習するための学習器として線形識別モデルによる学習器がしばしば用いられる（例えば、非特許文献１参照）。線形識別モデルによる学習器が用いられる理由の一つは、非線形モデルを使用する学習器を学習に用いた場合には、大規模な訓練用データを用いた学習にかかる時間が一般に膨大なものとなり、実用的でなくなることが多いためである。非特許文献１のような線形識別モデルによる学習器では、大規模な訓練用データから解析モデルを自動学習する際、予め設定された形態素、品詞といった基本特徴量、またはそれらの基本特徴量の重みつき線形和を各訓練データの特徴量として抽出して、学習に用いている。

Zhouyu Fu,Antonio Robles-Kelly,and Jun Zhou,「Mixing Linear SVMs for Nonlinear Classification」,IEEE Transactions on Neural Networks,Vol.21,No.12,2010年

しかしながら、非特許文献１に記載の線形識別モデルによる学習器で用いられるような基本特徴量や基本特徴量の重み付き線形和だけでは、各訓練データの特徴を捉えきれず、高い分類精度が得られる解析モデルが学習できない場合がある、という問題がある。

本発明は上記問題点を解決するためになされたものであり、計算コストの増大を抑制しつつ、高精度な分類精度を得られる解析モデルを学習することができる解析モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の解析モデル学習装置は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与する付与手段と、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成する生成手段と、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換する変換手段と、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御する制御手段と、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する学習手段と、を含んで構成されている。

本発明の解析モデル学習装置によれば、単語または単語の組み合わせからなる解析対象、解析対象を含むテキストデータの特徴を示す基本特徴量、及び解析対象に対する正解を含む複数の訓練用サンプルが学習に用いられる。付与手段が、この複数の訓練用サンプル各々に、解析対象に対する解析結果の予測値を付与する。そして、生成手段が、訓練用サンプルに含まれる正解と予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して予測値を変換した場合に、正解と予測値との不一致が減少するルールを生成し、変換手段が、生成手段により生成されたルールを適用して、解析対象に対する解析結果の予測値を変換する。そして、制御手段が、正解と予測値との不一致が予め定めた所定数以下となるまで、ルールの生成、及び予測値の変換を繰り返すように生成手段及び変換手段を制御すると共に、変換手段により解析結果が変換された場合に、適用されたルールの履歴を訓練用サンプル毎に所定の記憶領域に記憶するように制御する。この適用されたルールの履歴は、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を表す。そして、学習手段が、制御手段により記憶された履歴から抽出される訓練用サンプル毎の組み合わせ特徴量、及び訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する。

このように、訓練用サンプルに含まれる正解と予測値との不一致が所定数以下となるまで、正解と予測値との不一致が減少するルールの作成及び予測値の変換を繰り返して、訓練用サンプル毎に適用されたルールの履歴により、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得て、この組み合わせ特徴量及び基本特徴量を用いて解析モデルを学習することにより、非線形モデルを用いた場合に比べて、計算コストの増大を抑制しつつ、高い解析精度を得られる解析モデルを学習することができる。

また、前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いた複数のルール候補を作成し、該複数のルール候補の中で、該ルール候補を適用した場合に、前記予測値の正解数の増加が最も大きくなるルール候補を、前記正解と前記予測値との不一致が減少するルールとして選択することができる。これにより、正解と予測値との不一致が減少するルールを効率よく選択することができる。

また、前記生成手段は、前記正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量と、予め定めたルールテンプレートとに基づいて、前記ルールを生成することができる。これにより、簡易にルールを生成することができる。

また、前記学習手段は、前記訓練用サンプル毎の基本特徴量及び組み合わせ特徴量から訓練ベクトルを生成し、該訓練ベクトルに基づいて、前記解析モデルを学習することができる。

また、前記学習手段は、線形サポートベクトルマシンを用いて、前記解析モデルを学習することができる。このような線形モデルに適用した場合でも、高い解析精度を得られる解析モデルを学習することができる。

また、本発明の解析モデル学習方法は、付与手段と、生成手段と、変換手段と、制御手段と、学習手段とを含む解析モデル学習装置における解析モデル学習方法であって、前記付与手段は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与し、前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成し、前記変換手段は、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換し、前記制御手段は、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御し、前記学習手段は、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する方法である。

また、本発明の解析モデル学習プログラムは、コンピュータを、上記解析モデル学習装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の解析モデル学習装置、方法、及びプログラムによれば、訓練用サンプルに含まれる正解と予測値との不一致が所定数以下となるまで、正解と予測値との不一致が減少するルールの作成及び予測値の変換を繰り返して、訓練用サンプル毎に適用されたルールの履歴により、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得て、この組み合わせ特徴量及び基本特徴量を用いて解析モデルを学習することにより、非線形モデルを用いた場合に比べて、計算コストの増大を抑制しつつ、高い解析精度を得られる解析モデルを学習することができる、という効果が得られる。

本実施の形態の解析モデル学習装置の機能的構成を示すブロック図である。本実施の形態の解析モデル学習装置における解析モデル学習処理ルーチンの内容を示すフローチャートである。訓練用データの一例を示す図である。解析結果テーブルの一例（１回目）を示す図である。ルールテンプレートの一例を示す図である。ルール候補テーブルの一例（１回目）を示す図である。正味の正解増加数が格納されたルール候補テーブルの一例（１回目）を示す図である。解析モデルテーブルに追加されたルールの一例（１回目）を示す図である。解析結果テーブルの一例（２回目）を示す図である。ルール適用履歴テーブルの一例（１回目）を示す図である。ルール候補テーブルの一例（２回目）を示す図である。正味の正解増加数が格納されたルール候補テーブルの一例（２回目）を示す図である。解析モデルテーブルに追加されたルールの一例（２回目）を示す図である。解析結果テーブルの一例（３回目）を示す図である。ルール適用履歴テーブルの一例（２回目）を示す図である。ルール候補テーブルの一例（３回目）を示す図である。正味の正解増加数が格納されたルール候補テーブルの一例（３回目）を示す図である。解析モデルテーブルに追加されたルールの一例（３回目）を示す図である。解析結果テーブルの一例（４回目）を示す図である。ルール適用履歴テーブルの一例（３回目）を示す図である。ルール候補テーブルの一例（４回目）を示す図である。正味の正解増加数が格納されたルール候補テーブルの一例（４回目）を示す図である。解析モデルテーブルに追加されたルールの一例（４回目）を示す図である。解析結果テーブルの一例（５回目）を示す図である。ルール適用履歴テーブルの一例（４回目）を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、解析モデルを学習する際に、高精度な解析モデルの学習に有効な組み合わせ特徴量を、誤り駆動型変換ベース学習（参考文献「Eric Brill,「Transformation-basederror-driven learning and natural language processing:A case study in part-of-speech tagging」,Computational Linguistics,Vol.21,No.4,1995年,p.543-565」参照）に各訓練用サンプルに対する変換履歴保持機構を持たせることで、訓練用サンプルから抽出する。最終的に得られた変換履歴が、結果的に解析に有効な組み合わせ特徴量を表しており、その組み合わせ特徴量も解析モデルの学習に使用することで、解析精度の向上を図る。

本実施の形態に係る解析モデル学習装置１は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、後述する解析モデル学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図１に示すように、ベースライン解析部２と、ルール候補作成部４と、ルール選択部６と、ルール適用部８と、インデクス作成部１０と、訓練ベクトル作成部１２と、学習部１４と、出力部１６と、記憶部１８とを含んだ構成で表すことができる。なお、ベースライン解析部２が本発明の付与手段の一例、ルール候補作成部４及びルール選択部６が本発明の生成手段の一例、ルール適用部８が本発明の変換手段及び制御手段の一例、インデクス作成部１０、訓練ベクトル作成部１２、及び学習部１４が本発明の学習手段の一例である。

また、記憶部１８には、解析結果テーブル３と、ルールテンプレート５と、ルール候補テーブル７と、ルール適用履歴テーブル９と、インデクステーブル１１と、訓練ベクトルテーブル１３と、解析モデルテーブル１５とが記憶される。なお、各テーブルは記憶部１８に更新可能に記憶される。

本実施の形態で用いられる訓練用サンプルは、訓練用のテキストデータ（以下、訓練用データともいう）に含まれる解析対象となる単語または単語の組み合わせ、解析対象毎に抽出されたテキストデータの特徴を示す基本特徴量、及び各解析対象に対する正解を含むデータである。基本特徴量は、解析対象の後続助詞や解析対象となる単語間の係り受けの有無、解析対象となる単語の基本形等の特徴であり、訓練用データに対して、形態素解析や係り受け解析等を施した上で抽出された特徴量である。また、「正解」は、解析対象となる単語または単語の組み合わせが、例えば、所定の構文構造であるなど、解析したい内容に応じた条件を満たすか否かを示す情報を、人手により付与したものである。

訓練用サンプルは、自然言語の形態で解析モデル学習装置１に入力される。入力手段としては、ユーザによって操作されるキーボート、インターネット等のネットワークを介して解析モデル学習装置１と接続可能なユーザの端末、または解析モデル学習装置１とユーザの端末とを中継するネットワークサーバ等が挙げられる。

ベースライン解析部２は、入力された訓練用サンプル中の解析対象に対して、解析結果を予測して予測値を付与し、訓練用サンプルに含まれる正解と付与した予測値との一致または不一致を解析する。この解析結果の予測値の付与及び一致または不一致の解析を、以下では、ベースライン解析という。なお、解析結果の予測には、簡易な手法を用いる。例えば、予め定めた初期値を予測値として付与することができる。また、ベースライン解析部２は、訓練用サンプルと共に、付与した予測値及び一致又は不一致のベースライン解析の結果を、解析結果テーブル３に格納する。

ルール候補作成部４は、解析結果テーブル３に格納されている解析結果において、正解と予測値との不一致がある訓練用サンプル、すなわち、解析誤りがある訓練用サンプルの基本特徴量を、予め定められたルールテンプレートの集合であるルールテンプレート５に基づいて抽出して、基本特徴量の変換条件とする。そして、変換前の項の予測値が、変換ルール候補を作成する元となった訓練用サンプルの変換前の項の予測値と同一で、かつ基本特徴量の変換条件を満たす訓練用サンプルの項の予測値を、変換前とは異なる値（逆の値）に変換する、という変換ルール候補を作成する。作成した変換ルール候補を、ルール候補テーブル７に格納する。なお、ルール候補テーブル７には、後述するルール選択部６で計算される、ルール候補を解析結果に適用した場合の正味の正解増加数も変換ルール候補に対応づけて格納される。

ルール選択部６は、ルール候補テーブル７に格納された変換ルール候補各々について、解析結果テーブル３に格納されている各訓練用サンプルに変換ルール候補を適用した場合の、正味の正解増加数を計算する。そして、計算結果を適用した変換ルール候補に対応付けて、ルール候補テーブル７に格納する。また、正味の正解増加数が最大の変換ルール候補を新規の変換ルールとして選択し、新規の変換ルールのリストである解析モデルテーブル１５の末尾に格納する。

ルール適用部８は、解析モデルテーブル１５に格納された新規の変換ルールを全ての訓練用サンプルに適用し、適用した結果得られた解析結果の予測値を用いて、解析結果テーブル３を更新する。また、新しい変換ルールを適用することにより解析結果の予測値が変換された訓練用サンプル（解析結果テーブル３中のデータ）について、適用したルールの履歴を、訓練用サンプル毎の組み合わせ特徴量として、ルール適用履歴テーブル９に格納する。

インデクス作成部１０は、ルール適用履歴テーブル９に格納された組み合わせ特徴量と訓練用データから抽出した基本特徴量（形態素、品詞などの情報）の中の異なり特徴量を学習に使用するインデクスとし、インデクステーブル１１に格納する。

訓練ベクトル作成部１２は、インデクステーブル１１に格納されたインデクスに基づいて、訓練用サンプルから特徴量を抽出し、訓練ベクトルを作成する。インデクステーブル１１には、基本特徴量及び組み合わせ特徴量のインデクスが格納されているため、訓練ベクトルは、訓練用サンプル毎に基本特徴量及び組み合わせ特徴量の両方を用いた特徴量として作成される。また、訓練ベクトル作成部１２は、作成した訓練ベクトルを訓練ベクトルテーブル１３に格納する。

学習部１４は、訓練ベクトルテーブル１３に格納された訓練ベクトルを用いて学習し、得られた解析モデルを解析モデルテーブル１５に格納する。学習には、周知の線形サポートベクトルマシンなどを用いることができる。ここで、本実施の形態では、周知技術とは異なり、学習に利用する特徴量として、基本特徴量の重みつき和だけでなく、ルール適用履歴テーブル９に格納された組み合わせ特徴量も学習に利用する点にある。これにより、各訓練用サンプルの特徴を的確に捉えることができるので、線形モデルを用いつつ、高精度な分類精度を得られる解析モデルを学習することができる。

出力部１６は、解析モデルテーブル１５に格納された解析モデルを外部に出力する。

次に、図２を参照して、本実施の形態の解析モデル学習装置１において実行される解析モデル学習処理ルーチンについて説明する。本実施の形態では、述語と名詞との組（解析対象）において、テキスト中の各名詞が、同一文中の述語の基本形に対するガ格、ヲ格、ニ格となる場合を述語に対する項と定義した場合に、各名詞が項になるか否かの解析（述語項構造解析）を行うための解析モデルを学習する場合について説明する。

ステップＳ１０１で、全ての訓練用サンプルを読み込む。図３に、本実施の形態で用いる訓練用サンプルの元となる訓練用データの一例を示す。本実施の形態では、＜記事番号１＞及び＜記事番号２＞のテキストに含まれる述語（の基本形）と名詞との全ての組を解析対象とし、この解析対象毎に各訓練用サンプルが構成される。図３において図示は省略するが、各テキストは、形態素解析及び係り受け解析の解析結果の情報、及び名詞については、その意味カテゴリの情報を保持している。意味カテゴリは、日本語語彙大系等に基づいて付与することができる。これらの情報は、訓練用サンプル毎の基本特徴量となる。また、各テキストに含まれる述語に対する項の正解が、人手によって付与されている。例えば、＜記事番号１＞のテキストに含まれる述語「もらう」に対する項として、ガ格項「太郎」、ヲ格項「本」、ニ格項「花子」が正解として付与されている。この訓練用データから、解析対象（述語の基本形と名詞との組）、基本特徴量、及び項の人手正解を抽出して、各訓練用サンプルが構成される。ここでは、基本特徴量として、解析対象となる名詞の後続助詞、解析対象となる名詞の意味カテゴリ、解析対象となる述語と名詞との係り受けの有無、及び述語の基本形を抽出している。また、各訓練用サンプルの人手正解としては、解析対象の名詞が述語に対する項である場合に「項」、項でない場合に「非項」としている。

そして、読み込んだ全ての訓練用サンプルに対して、ベースライン解析を行なう。ここでは、解析結果の予測値として、全ての訓練用サンプルに対して「非項」を付与するものとする。そして、訓練用サンプル毎に、訓練用サンプルに含まれる正解と付与した予測値との一致または不一致を解析し、ベースライン解析の結果を、解析結果テーブル３に格納する。図４に、ベースライン解析の結果の一例を示す。「ＩＤ番号」は、各訓練用サンプルを識別するための番号である。訓練用サンプル毎に、ベースライン解析の結果が対応付けられている。なお、図４の例では、解析結果テーブル３中の「項の人手正解と予測値との一致」列において、項の人手正解と項の予測値とが一致した場合に○、不一致の場合に×として示している。

次に、ステップＳ１０２で、現在の解析結果テーブル３中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が０か否かを判定する。この判定は、変換ルールの生成及び適用の繰り返し処理を終了するか否かを判定するためのものである。ここでは、解析誤り数０か否かを判定することとして説明するが、解析誤り数が所定数以下になった場合に、繰り返し処理を終了するように判定してもよい。解析誤り数＝０の場合には、ステップＳ１０９へ移行し、解析誤り数≠０の場合には、ステップＳ１０３へ移行する。図４の例では、解析誤りの数（「項の人手正解と予測値との一致」列の「×」の数）は、７で０と一致していないため、ステップＳ１０３へ移行する。

ステップＳ１０３では、解析結果テーブル３に格納されている解析結果において、解析誤りがある訓練用サンプルの基本特徴量を、予め定められたルールテンプレートの集合であるルールテンプレート５に基づいて抽出して、基本特徴量の変換条件とする。そして、変換前の項の予測値が「非項」（ここでは、項の予測値の初期値を「非項」としているため）で、かつ基本特徴量の変換条件を満たす訓練用サンプルの項の予測値を「項」に変換する、という変換ルール候補を作成し、ルール候補テーブル７に格納する。図５に、ルールテンプレート５の一例を、図６に、図４の例で解析誤りがあった訓練用サンプルから変換ルール候補を作成した場合のルール候補テーブル７の一例を示す。例えば、図４の解析結果において、解析誤りのあるＩＤ番号１の訓練用サンプルから、図５に示すルールテンプレート５を適用すると、「後続助詞が「は」」、「意味カテゴリが「人」」、「解析対象の述語と係り受け関係に「ない」」、及び「解析対象の述語が「もらう」」の各々が基本特徴量の変換条件として抽出される。同様に解析誤りのある訓練用サンプルから基本特徴量の変換条件を抽出し、重複を排除して整理すると共に、各基本特徴量の変換条件、変換前の項の予測値「非項」、及び変換後の項の予測値「項」を１つの変換ルール候補として作成する。図６に示すように、作成された変換ルール候補には、変換ルール候補番号が付与されて、ルール候補テーブル７に格納される。

次に、ステップＳ１０４で、ルール候補テーブル７に格納された変換ルール候補各々について、解析結果テーブル３に格納されている訓練用サンプルに変換ルール候補を適用した場合の、正味の正解増加数を計算し、計算結果を適用した変換ルール候補に対応付けて、ルール候補テーブル７に格納する。ここで、正味の正解増加数とは、（変換ルール候補ｉ（ｉは変換ルール候補番号）を適用した場合の正解増加数）から（変換ルール候補ｉを適用した場合の不正解増加数）を差し引いた数である。図７に、図６の変換ルール候補を各訓練用サンプルに適用した場合に、項の予測値が不正解から正解になる訓練用サンプルのＩＤ番号、逆に正解から不正解になる訓練用サンプルのＩＤ番号、及びそれらに基づいて計算される正味の正解増加数が格納されたルール候補テーブル７の一例を示す。

次に、ステップＳ１０５で、上記ステップ１０４で計算した変換ルール候補毎の正味の正解増加数の最大値を計算し、その値が０以下か否かを判定する。正味の正解増加数の最大値＞０の場合には、ステップＳ１０６に移行し、正味の正解増加数の最大値≦０の場合には、ステップＳ１０９へ移行する。図７の例の場合は、正味の正解増加数の最大値が４であり、０以下ではないため、ステップＳ１０６に移行する。

ステップＳ１０６では、正味の正解増加数が最大値となる変換ルール候補を、新規の変換ルールとして選択し、新規の変換ルールのリストである解析モデルテーブル１５の末尾に格納する。図７の例では、変換ルール候補番号６の正味の正解増加数が最も大きい値４をとっており、この変換ルール候補を選択して、ルール番号を付与して、解析モデルテーブル１５に追加する。図８に、解析モデルテーブル１５の一例を示す。

次に、ステップＳ１０７で、全ての訓練用サンプルに対し、解析モデルテーブル１５に追加された変換ルールを適用し、適用した結果得られた解析結果の予測値を用いて、解析結果テーブル３を更新する。図４の例に対して、図８の例の追加された変換ルールを適用した結果の解析結果テーブル３の例を図９に示す。

次に、ステップＳ１０８で、新しい変換ルールを適用することにより解析結果の予測値が変換された訓練用サンプルについて、適用した変換ルールの履歴を、訓練用サンプル毎の組み合わせ特徴量として、ルール適用履歴テーブル９に格納して、ステップＳ１０２へ戻る。図１０に、図８に示す変換ルールが適用された後のルール適用履歴テーブル９の一例を示す。

ステップＳ１０２では、再度、現在の解析結果テーブル３中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が０か否かを判定する。図９の例において、解析誤り数が０ではないため、ステップＳ１０３以降が実行される。図９の例において、解析誤りのある訓練用サンプルからルールテンプレート５に従って変換ルール候補を作成した例を、図１１に示す（ステップＳ１０３）。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル７に格納した例を図１２に示す（ステップＳ１０４）。ここで、正味の正解増加数の最大値は１であり０より大きいため、ステップＳ１０６に移行する（ステップＳ１０５）。正味の正解増加数が最も大きい値をとる変換ルール候補は番号１と番号５の二つ存在するので、ここでは、そのうちの番号の若い番号１の変換ルール候補を解析モデルテーブル１５に追加したとする（ステップＳ１０６）。その場合の解析モデルテーブル１５の例を図１３に示す。この追加されたルール番号２の変換ルールを、全訓練用サンプルに適用した結果（ステップＳ１０７）の解析結果テーブル３の例を図１４に示す。また、追加されたルール番号２の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル９に格納して（ステップＳ１０８）、ステップＳ１０２へ戻る。適用したルールの履歴をルール適用履歴テーブル９に格納したときの例を図１５に示す。

ステップＳ１０２では、再度、現在の解析結果テーブル３中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が０か否かを判定する。図１４の例において、解析誤り数が０ではないため、ステップＳ１０３以降が実行される。図１４の例において、解析誤りのある訓練用サンプルからルールテンプレート５に従って変換ルール候補を作成した例を、図１６に示す（ステップＳ１０３）。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル７に格納した例を図１７に示す（ステップＳ１０４）。ここで、正味の正解増加数の最大値は１であり０より大きいため、ステップＳ１０６に移行する（ステップＳ１０５）。正味の正解増加数が最も大きい値をとる変換ルール候補番号２の変換ルール候補を、解析モデルテーブル１５に追加する（ステップＳ１０６）。その場合の解析モデルテーブル１５の例を図１８に示す。この追加されたルール番号３の変換ルールを、全訓練用サンプルに適用した結果（ステップＳ１０７）の解析結果テーブル３の例を図１９に示す。また、追加されたルール番号３の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル９に格納して（ステップＳ１０８）、ステップＳ１０２へ戻る。適用したルールの履歴をルール適用履歴テーブル９に格納したときの例を図２０に示す。

ステップＳ１０２では、再度、現在の解析結果テーブル３中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が０か否かを判定する。図１９の例において、解析誤り数が０ではないため、ステップＳ１０３以降が実行される。図１９の例において、解析誤りのある訓練用サンプルからルールテンプレート５に従って変換ルール候補を作成した例を、図２１に示す（ステップＳ１０３）。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル７に格納した例を図２２に示す（ステップＳ１０４）。ここで、正味の正解増加数の最大値は１であり０より大きいため、ステップＳ１０６に移行する（ステップＳ１０５）。正味の正解増加数が最も大きい値をとる変換ルール候補番号４の変換ルール候補を、解析モデルテーブル１５に追加する（ステップＳ１０６）。その場合の解析モデルテーブル１５の例を図２３に示す。この追加されたルール番号４の変換ルールを、全訓練用サンプルに適用した結果（ステップＳ１０７）の解析結果テーブル３の例を図２４に示す。また、追加されたルール番号４の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル９に格納して（ステップＳ１０８）、ステップＳ１０２へ戻る。適用したルールの履歴をルール適用履歴テーブル９に格納したときの例を図２５に示す。

ここで、ステップＳ１０２において、解析誤り数が０であると判定されて、ステップＳ１０９へ移行する。

ステップＳ１０９では、ルール適用履歴テーブル９に格納された組み合わせ特徴量と訓練用サンプルから抽出した基本特徴量とを学習に使用するインデクスとし、インデクステーブル１１に格納する。ここでは、図２５に示すように、ＩＤ番号＝２及びＩＤ番号＝１１の訓練用サンプルから、ルール番号１とルール番号３とからなる組み合わせ特徴量が、ＩＤ番号＝１３の訓練用サンプルから、ルール番号１とルール番号３とルール番号４とからなる組み合わせ特徴量が得られている。すなわち、（解析対象の述語と係り受け関係に「ある」）∧（意味カテゴリが「時間」）という組み合わせ特徴量と、（解析対象の述語と係り受け関係に「ある」）∧（意味カテゴリが「時間」）∧（解析対象の述語が「なる」）という組み合わせ特徴量である。また、基本特徴量は、各訓練用サンプルに含まれる（後続助詞が「は」）、（後続助詞が「に」）、（後続助詞が「を」）、（意味カテゴリが「人」）、（意味カテゴリが「出版物」）、（意味カテゴリが「時間」）、（解析対象述語との係り受けが「ない」）、（解析対象述語との係り受けが「ある」）、（解析対象述語の基本形が「もらう」）、（解析対象述語の基本形が「あげる」）、及び（解析対象述語の基本形が「なる」）の１１個の特徴量である。従って、本実施の形態では、１３個の特徴量がインデクステーブル１１に格納される。

次に、ステップＳ１１０で、インデクステーブル１１に格納されたインデクスに基づいて、訓練用データから特徴量を抽出し、訓練ベクトルを作成して、訓練ベクトルテーブル１３に格納する。

次に、ステップＳ１１１で、訓練ベクトルテーブル１３に格納された訓練ベクトルを用いて学習し、得られた解析モデルを解析モデルテーブル１５に格納する。そして、ステップＳ１１２で、解析モデルテーブル１５に格納された解析モデルを外部に出力して、全体の処理を終了する。

以上説明したように、本実施の形態の解析モデル学習装置によれば、正解が付与された訓練用サンプルと予測値との解析誤りが０になるまで、変換ルールの作成及び適用を繰り返し、各訓練用サンプルに適用された変換ルールの履歴により、（解析対象の述語と係り受け関係に「ある」）∧（意味カテゴリが「時間」）∧（解析対象の述語が「なる」）といった、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得ることができ、この組み合わせ特徴量を用いて解析モデルを学習することにより、高い解析精度を得られる解析モデルを学習することができる。

本実施の形態では、一般的な傾向としては、（解析対象の述語と係り受けに「ある」）という基本特徴量は、項のなり易さと正の相関があり、（意味カテゴリが「時間」）という基本特徴量は、項のなり易さと負の相関があり、全体としては通常の述語の場合は（意味カテゴリが「時間」）という基本特徴量の項のなり易さの負の相関の傾向がまさり、非項となり易い。しかしながら、解析対象の述語が「なる」の場合にはその傾向は無く、また、述語が「なる」であるだけでは項のなり易さとはほとんど関係がないため、基本特徴量の重み付き和だけでは、これらの状況を表現できず、組み合わせ特徴量が有効となる。

なお、上記実施の形態では、訓練用サンプルを読み込んで処理を開始する場合について説明したが、訓練用データの状態で読み込んで、ベースライン解析の前に、訓練用データから各訓練用サンプルを抽出する処理を行うようにしてもよい。また、未処理のテキストデータを読み込んで、形態素解析や係り受け解析、意味カテゴリの付与等の前処理を行う処理部を設け、前処理後のテキストデータに対する人手正解を受け付けて訓練用データを生成した上で、訓練用サンプルを抽出する処理を行うようにしてもよい。なお、人手正解は、訓練用サンプルを抽出した後に付与するようにしてもよい。

また、上記実施の形態において、非特許文献１のように、主となる学習器を対数線形モデルに限ることなく、あらゆる線形モデルの学習器を利用することが可能である。

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の解析モデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の解析モデル学習装置の各部をハードウエアにより構成してもよい。また、ルールテンプレートや各種テーブルが記憶される記憶部としては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、解析モデル学習装置内部に記憶部を設けてもよいし、外部装置に設けてもよい。

１解析モデル学習装置
２ベースライン解析部
３解析結果テーブル
４ルール候補作成部
５ルールテンプレート
６ルール選択部
７ルール候補テーブル
８ルール適用部
９ルール適用履歴テーブル
１０インデクス作成部
１１インデクステーブル
１２訓練ベクトル作成部
１３訓練ベクトルテーブル
１４学習部
１５解析モデルテーブル
１６出力部
１８記憶部

Claims

単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与する付与手段と、
前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成する生成手段と、
前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換する変換手段と、
前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御する制御手段と、
前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する学習手段と、
を含む解析モデル学習装置。
前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いた複数のルール候補を作成し、該複数のルール候補の中で、該ルール候補を適用した場合に、前記予測値の正解数の増加が最も大きくなるルール候補を、前記正解と前記予測値との不一致が減少するルールとして選択する請求項１記載の解析モデル学習装置。
前記生成手段は、前記正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量と、予め定めたルールテンプレートとに基づいて、前記ルールを生成する請求項１または請求項２記載の解析モデル学習装置。
前記学習手段は、前記訓練用サンプル毎の基本特徴量及び組み合わせ特徴量から訓練ベクトルを生成し、該訓練ベクトルに基づいて、前記解析モデルを学習する請求項１〜請求項３のいずれか１項記載の解析モデル学習装置。
前記学習手段は、線形サポートベクトルマシンを用いて、前記解析モデルを学習する請求項１〜請求項４のいずれか１項記載の解析モデル学習装置。
付与手段と、生成手段と、変換手段と、制御手段と、学習手段とを含む解析モデル学習装置における解析モデル学習方法であって、
前記付与手段は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与し、
前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成し、
前記変換手段は、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換し、
前記制御手段は、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御し、
前記学習手段は、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する
解析モデル学習方法。
コンピュータを、請求項１〜請求項５のいずれか１項記載の解析モデル学習装置を構成する各手段として機能させるための解析モデル学習プログラム。