JP2013011985A - 解析モデル学習装置、方法、及びプログラム - Google Patents

解析モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013011985A
JP2013011985A JP2011143418A JP2011143418A JP2013011985A JP 2013011985 A JP2013011985 A JP 2013011985A JP 2011143418 A JP2011143418 A JP 2011143418A JP 2011143418 A JP2011143418 A JP 2011143418A JP 2013011985 A JP2013011985 A JP 2013011985A
Authority
JP
Japan
Prior art keywords
rule
analysis
predicted value
training sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011143418A
Other languages
English (en)
Inventor
Hiroyori Taira
博順 平
Masaaki Nagata
昌明 永田
Sanae Fujita
早苗 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011143418A priority Critical patent/JP2013011985A/ja
Publication of JP2013011985A publication Critical patent/JP2013011985A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】計算コストの増大を抑制しつつ、高精度な分類精度を得られる解析モデルを学習する。
【解決手段】ベースライン解析部2で、解析対象、基本特徴量、及び正解を含む複数の訓練用サンプル各々に対して、解析結果の予測値を解析し、ルール候補作成部4で、解析誤りのある訓練用サンプルからルールテンプレート5に従って変換ルール候補を作成し、ルール選択部6で、変換ルール候補各々を適用した場合に、正味の正解増加数が最大となる変換ルール候補を選択し、ルール適用部8で、選択した変換ルールを全訓練用サンプルに適用し、解析誤りが0になるまでルールの生成及び適用を繰り返す。インデクス作成部10で、各訓練用サンプルに適用されたルールの履歴及び基本特徴量のインデクスを格納し、訓練ベクトル作成部12で、インデクスに基づいて訓練ベクトルを作成し、学習部14で、訓練ベクトルに基づいて解析モデルを学習する。
【選択図】図1

Description

本発明は、解析モデル学習装置、方法、及びプログラムに係り、特に、形態素解析、構文解析、述語項構造解析等のテキスト解析に用いる解析モデルを訓練用サンプルから自動学習する解析モデル学習装置、方法、及びプログラムに関する。
従来、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、大規模な訓練用データから解析モデルを自動学習するための学習器として線形識別モデルによる学習器がしばしば用いられる(例えば、非特許文献1参照)。線形識別モデルによる学習器が用いられる理由の一つは、非線形モデルを使用する学習器を学習に用いた場合には、大規模な訓練用データを用いた学習にかかる時間が一般に膨大なものとなり、実用的でなくなることが多いためである。非特許文献1のような線形識別モデルによる学習器では、大規模な訓練用データから解析モデルを自動学習する際、予め設定された形態素、品詞といった基本特徴量、またはそれらの基本特徴量の重みつき線形和を各訓練データの特徴量として抽出して、学習に用いている。
Zhouyu Fu,Antonio Robles-Kelly,and Jun Zhou,「Mixing Linear SVMs for Nonlinear Classification」,IEEE Transactions on Neural Networks,Vol.21,No.12,2010年
しかしながら、非特許文献1に記載の線形識別モデルによる学習器で用いられるような基本特徴量や基本特徴量の重み付き線形和だけでは、各訓練データの特徴を捉えきれず、高い分類精度が得られる解析モデルが学習できない場合がある、という問題がある。
本発明は上記問題点を解決するためになされたものであり、計算コストの増大を抑制しつつ、高精度な分類精度を得られる解析モデルを学習することができる解析モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の解析モデル学習装置は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与する付与手段と、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成する生成手段と、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換する変換手段と、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御する制御手段と、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する学習手段と、を含んで構成されている。
本発明の解析モデル学習装置によれば、単語または単語の組み合わせからなる解析対象、解析対象を含むテキストデータの特徴を示す基本特徴量、及び解析対象に対する正解を含む複数の訓練用サンプルが学習に用いられる。付与手段が、この複数の訓練用サンプル各々に、解析対象に対する解析結果の予測値を付与する。そして、生成手段が、訓練用サンプルに含まれる正解と予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して予測値を変換した場合に、正解と予測値との不一致が減少するルールを生成し、変換手段が、生成手段により生成されたルールを適用して、解析対象に対する解析結果の予測値を変換する。そして、制御手段が、正解と予測値との不一致が予め定めた所定数以下となるまで、ルールの生成、及び予測値の変換を繰り返すように生成手段及び変換手段を制御すると共に、変換手段により解析結果が変換された場合に、適用されたルールの履歴を訓練用サンプル毎に所定の記憶領域に記憶するように制御する。この適用されたルールの履歴は、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を表す。そして、学習手段が、制御手段により記憶された履歴から抽出される訓練用サンプル毎の組み合わせ特徴量、及び訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する。
このように、訓練用サンプルに含まれる正解と予測値との不一致が所定数以下となるまで、正解と予測値との不一致が減少するルールの作成及び予測値の変換を繰り返して、訓練用サンプル毎に適用されたルールの履歴により、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得て、この組み合わせ特徴量及び基本特徴量を用いて解析モデルを学習することにより、非線形モデルを用いた場合に比べて、計算コストの増大を抑制しつつ、高い解析精度を得られる解析モデルを学習することができる。
また、前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いた複数のルール候補を作成し、該複数のルール候補の中で、該ルール候補を適用した場合に、前記予測値の正解数の増加が最も大きくなるルール候補を、前記正解と前記予測値との不一致が減少するルールとして選択することができる。これにより、正解と予測値との不一致が減少するルールを効率よく選択することができる。
また、前記生成手段は、前記正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量と、予め定めたルールテンプレートとに基づいて、前記ルールを生成することができる。これにより、簡易にルールを生成することができる。
また、前記学習手段は、前記訓練用サンプル毎の基本特徴量及び組み合わせ特徴量から訓練ベクトルを生成し、該訓練ベクトルに基づいて、前記解析モデルを学習することができる。
また、前記学習手段は、線形サポートベクトルマシンを用いて、前記解析モデルを学習することができる。このような線形モデルに適用した場合でも、高い解析精度を得られる解析モデルを学習することができる。
また、本発明の解析モデル学習方法は、付与手段と、生成手段と、変換手段と、制御手段と、学習手段とを含む解析モデル学習装置における解析モデル学習方法であって、前記付与手段は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与し、前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成し、前記変換手段は、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換し、前記制御手段は、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御し、前記学習手段は、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する方法である。
また、本発明の解析モデル学習プログラムは、コンピュータを、上記解析モデル学習装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の解析モデル学習装置、方法、及びプログラムによれば、訓練用サンプルに含まれる正解と予測値との不一致が所定数以下となるまで、正解と予測値との不一致が減少するルールの作成及び予測値の変換を繰り返して、訓練用サンプル毎に適用されたルールの履歴により、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得て、この組み合わせ特徴量及び基本特徴量を用いて解析モデルを学習することにより、非線形モデルを用いた場合に比べて、計算コストの増大を抑制しつつ、高い解析精度を得られる解析モデルを学習することができる、という効果が得られる。
本実施の形態の解析モデル学習装置の機能的構成を示すブロック図である。 本実施の形態の解析モデル学習装置における解析モデル学習処理ルーチンの内容を示すフローチャートである。 訓練用データの一例を示す図である。 解析結果テーブルの一例(1回目)を示す図である。 ルールテンプレートの一例を示す図である。 ルール候補テーブルの一例(1回目)を示す図である。 正味の正解増加数が格納されたルール候補テーブルの一例(1回目)を示す図である。 解析モデルテーブルに追加されたルールの一例(1回目)を示す図である。 解析結果テーブルの一例(2回目)を示す図である。 ルール適用履歴テーブルの一例(1回目)を示す図である。 ルール候補テーブルの一例(2回目)を示す図である。 正味の正解増加数が格納されたルール候補テーブルの一例(2回目)を示す図である。 解析モデルテーブルに追加されたルールの一例(2回目)を示す図である。 解析結果テーブルの一例(3回目)を示す図である。 ルール適用履歴テーブルの一例(2回目)を示す図である。 ルール候補テーブルの一例(3回目)を示す図である。 正味の正解増加数が格納されたルール候補テーブルの一例(3回目)を示す図である。 解析モデルテーブルに追加されたルールの一例(3回目)を示す図である。 解析結果テーブルの一例(4回目)を示す図である。 ルール適用履歴テーブルの一例(3回目)を示す図である。 ルール候補テーブルの一例(4回目)を示す図である。 正味の正解増加数が格納されたルール候補テーブルの一例(4回目)を示す図である。 解析モデルテーブルに追加されたルールの一例(4回目)を示す図である。 解析結果テーブルの一例(5回目)を示す図である。 ルール適用履歴テーブルの一例(4回目)を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、解析モデルを学習する際に、高精度な解析モデルの学習に有効な組み合わせ特徴量を、誤り駆動型変換ベース学習(参考文献「Eric Brill,「Transformation-basederror-driven learning and natural language processing:A case study in part-of-speech tagging」,Computational Linguistics,Vol.21,No.4,1995年,p.543-565」参照)に各訓練用サンプルに対する変換履歴保持機構を持たせることで、訓練用サンプルから抽出する。最終的に得られた変換履歴が、結果的に解析に有効な組み合わせ特徴量を表しており、その組み合わせ特徴量も解析モデルの学習に使用することで、解析精度の向上を図る。
本実施の形態に係る解析モデル学習装置1は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する解析モデル学習処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。このコンピュータは、機能的には、図1に示すように、ベースライン解析部2と、ルール候補作成部4と、ルール選択部6と、ルール適用部8と、インデクス作成部10と、訓練ベクトル作成部12と、学習部14と、出力部16と、記憶部18とを含んだ構成で表すことができる。なお、ベースライン解析部2が本発明の付与手段の一例、ルール候補作成部4及びルール選択部6が本発明の生成手段の一例、ルール適用部8が本発明の変換手段及び制御手段の一例、インデクス作成部10、訓練ベクトル作成部12、及び学習部14が本発明の学習手段の一例である。
また、記憶部18には、解析結果テーブル3と、ルールテンプレート5と、ルール候補テーブル7と、ルール適用履歴テーブル9と、インデクステーブル11と、訓練ベクトルテーブル13と、解析モデルテーブル15とが記憶される。なお、各テーブルは記憶部18に更新可能に記憶される。
本実施の形態で用いられる訓練用サンプルは、訓練用のテキストデータ(以下、訓練用データともいう)に含まれる解析対象となる単語または単語の組み合わせ、解析対象毎に抽出されたテキストデータの特徴を示す基本特徴量、及び各解析対象に対する正解を含むデータである。基本特徴量は、解析対象の後続助詞や解析対象となる単語間の係り受けの有無、解析対象となる単語の基本形等の特徴であり、訓練用データに対して、形態素解析や係り受け解析等を施した上で抽出された特徴量である。また、「正解」は、解析対象となる単語または単語の組み合わせが、例えば、所定の構文構造であるなど、解析したい内容に応じた条件を満たすか否かを示す情報を、人手により付与したものである。
訓練用サンプルは、自然言語の形態で解析モデル学習装置1に入力される。入力手段としては、ユーザによって操作されるキーボート、インターネット等のネットワークを介して解析モデル学習装置1と接続可能なユーザの端末、または解析モデル学習装置1とユーザの端末とを中継するネットワークサーバ等が挙げられる。
ベースライン解析部2は、入力された訓練用サンプル中の解析対象に対して、解析結果を予測して予測値を付与し、訓練用サンプルに含まれる正解と付与した予測値との一致または不一致を解析する。この解析結果の予測値の付与及び一致または不一致の解析を、以下では、ベースライン解析という。なお、解析結果の予測には、簡易な手法を用いる。例えば、予め定めた初期値を予測値として付与することができる。また、ベースライン解析部2は、訓練用サンプルと共に、付与した予測値及び一致又は不一致のベースライン解析の結果を、解析結果テーブル3に格納する。
ルール候補作成部4は、解析結果テーブル3に格納されている解析結果において、正解と予測値との不一致がある訓練用サンプル、すなわち、解析誤りがある訓練用サンプルの基本特徴量を、予め定められたルールテンプレートの集合であるルールテンプレート5に基づいて抽出して、基本特徴量の変換条件とする。そして、変換前の項の予測値が、変換ルール候補を作成する元となった訓練用サンプルの変換前の項の予測値と同一で、かつ基本特徴量の変換条件を満たす訓練用サンプルの項の予測値を、変換前とは異なる値(逆の値)に変換する、という変換ルール候補を作成する。作成した変換ルール候補を、ルール候補テーブル7に格納する。なお、ルール候補テーブル7には、後述するルール選択部6で計算される、ルール候補を解析結果に適用した場合の正味の正解増加数も変換ルール候補に対応づけて格納される。
ルール選択部6は、ルール候補テーブル7に格納された変換ルール候補各々について、解析結果テーブル3に格納されている各訓練用サンプルに変換ルール候補を適用した場合の、正味の正解増加数を計算する。そして、計算結果を適用した変換ルール候補に対応付けて、ルール候補テーブル7に格納する。また、正味の正解増加数が最大の変換ルール候補を新規の変換ルールとして選択し、新規の変換ルールのリストである解析モデルテーブル15の末尾に格納する。
ルール適用部8は、解析モデルテーブル15に格納された新規の変換ルールを全ての訓練用サンプルに適用し、適用した結果得られた解析結果の予測値を用いて、解析結果テーブル3を更新する。また、新しい変換ルールを適用することにより解析結果の予測値が変換された訓練用サンプル(解析結果テーブル3中のデータ)について、適用したルールの履歴を、訓練用サンプル毎の組み合わせ特徴量として、ルール適用履歴テーブル9に格納する。
インデクス作成部10は、ルール適用履歴テーブル9に格納された組み合わせ特徴量と訓練用データから抽出した基本特徴量(形態素、品詞などの情報)の中の異なり特徴量を学習に使用するインデクスとし、インデクステーブル11に格納する。
訓練ベクトル作成部12は、インデクステーブル11に格納されたインデクスに基づいて、訓練用サンプルから特徴量を抽出し、訓練ベクトルを作成する。インデクステーブル11には、基本特徴量及び組み合わせ特徴量のインデクスが格納されているため、訓練ベクトルは、訓練用サンプル毎に基本特徴量及び組み合わせ特徴量の両方を用いた特徴量として作成される。また、訓練ベクトル作成部12は、作成した訓練ベクトルを訓練ベクトルテーブル13に格納する。
学習部14は、訓練ベクトルテーブル13に格納された訓練ベクトルを用いて学習し、得られた解析モデルを解析モデルテーブル15に格納する。学習には、周知の線形サポートベクトルマシンなどを用いることができる。ここで、本実施の形態では、周知技術とは異なり、学習に利用する特徴量として、基本特徴量の重みつき和だけでなく、ルール適用履歴テーブル9に格納された組み合わせ特徴量も学習に利用する点にある。これにより、各訓練用サンプルの特徴を的確に捉えることができるので、線形モデルを用いつつ、高精度な分類精度を得られる解析モデルを学習することができる。
出力部16は、解析モデルテーブル15に格納された解析モデルを外部に出力する。
次に、図2を参照して、本実施の形態の解析モデル学習装置1において実行される解析モデル学習処理ルーチンについて説明する。本実施の形態では、述語と名詞との組(解析対象)において、テキスト中の各名詞が、同一文中の述語の基本形に対するガ格、ヲ格、ニ格となる場合を述語に対する項と定義した場合に、各名詞が項になるか否かの解析(述語項構造解析)を行うための解析モデルを学習する場合について説明する。
ステップS101で、全ての訓練用サンプルを読み込む。図3に、本実施の形態で用いる訓練用サンプルの元となる訓練用データの一例を示す。本実施の形態では、<記事番号1>及び<記事番号2>のテキストに含まれる述語(の基本形)と名詞との全ての組を解析対象とし、この解析対象毎に各訓練用サンプルが構成される。図3において図示は省略するが、各テキストは、形態素解析及び係り受け解析の解析結果の情報、及び名詞については、その意味カテゴリの情報を保持している。意味カテゴリは、日本語語彙大系等に基づいて付与することができる。これらの情報は、訓練用サンプル毎の基本特徴量となる。また、各テキストに含まれる述語に対する項の正解が、人手によって付与されている。例えば、<記事番号1>のテキストに含まれる述語「もらう」に対する項として、ガ格項「太郎」、ヲ格項「本」、ニ格項「花子」が正解として付与されている。この訓練用データから、解析対象(述語の基本形と名詞との組)、基本特徴量、及び項の人手正解を抽出して、各訓練用サンプルが構成される。ここでは、基本特徴量として、解析対象となる名詞の後続助詞、解析対象となる名詞の意味カテゴリ、解析対象となる述語と名詞との係り受けの有無、及び述語の基本形を抽出している。また、各訓練用サンプルの人手正解としては、解析対象の名詞が述語に対する項である場合に「項」、項でない場合に「非項」としている。
そして、読み込んだ全ての訓練用サンプルに対して、ベースライン解析を行なう。ここでは、解析結果の予測値として、全ての訓練用サンプルに対して「非項」を付与するものとする。そして、訓練用サンプル毎に、訓練用サンプルに含まれる正解と付与した予測値との一致または不一致を解析し、ベースライン解析の結果を、解析結果テーブル3に格納する。図4に、ベースライン解析の結果の一例を示す。「ID番号」は、各訓練用サンプルを識別するための番号である。訓練用サンプル毎に、ベースライン解析の結果が対応付けられている。なお、図4の例では、解析結果テーブル3中の「項の人手正解と予測値との一致」列において、項の人手正解と項の予測値とが一致した場合に○、不一致の場合に×として示している。
次に、ステップS102で、現在の解析結果テーブル3中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が0か否かを判定する。この判定は、変換ルールの生成及び適用の繰り返し処理を終了するか否かを判定するためのものである。ここでは、解析誤り数0か否かを判定することとして説明するが、解析誤り数が所定数以下になった場合に、繰り返し処理を終了するように判定してもよい。解析誤り数=0の場合には、ステップS109へ移行し、解析誤り数≠0の場合には、ステップS103へ移行する。図4の例では、解析誤りの数(「項の人手正解と予測値との一致」列の「×」の数)は、7で0と一致していないため、ステップS103へ移行する。
ステップS103では、解析結果テーブル3に格納されている解析結果において、解析誤りがある訓練用サンプルの基本特徴量を、予め定められたルールテンプレートの集合であるルールテンプレート5に基づいて抽出して、基本特徴量の変換条件とする。そして、変換前の項の予測値が「非項」(ここでは、項の予測値の初期値を「非項」としているため)で、かつ基本特徴量の変換条件を満たす訓練用サンプルの項の予測値を「項」に変換する、という変換ルール候補を作成し、ルール候補テーブル7に格納する。図5に、ルールテンプレート5の一例を、図6に、図4の例で解析誤りがあった訓練用サンプルから変換ルール候補を作成した場合のルール候補テーブル7の一例を示す。例えば、図4の解析結果において、解析誤りのあるID番号1の訓練用サンプルから、図5に示すルールテンプレート5を適用すると、「後続助詞が「は」」、「意味カテゴリが「人」」、「解析対象の述語と係り受け関係に「ない」」、及び「解析対象の述語が「もらう」」の各々が基本特徴量の変換条件として抽出される。同様に解析誤りのある訓練用サンプルから基本特徴量の変換条件を抽出し、重複を排除して整理すると共に、各基本特徴量の変換条件、変換前の項の予測値「非項」、及び変換後の項の予測値「項」を1つの変換ルール候補として作成する。図6に示すように、作成された変換ルール候補には、変換ルール候補番号が付与されて、ルール候補テーブル7に格納される。
次に、ステップS104で、ルール候補テーブル7に格納された変換ルール候補各々について、解析結果テーブル3に格納されている訓練用サンプルに変換ルール候補を適用した場合の、正味の正解増加数を計算し、計算結果を適用した変換ルール候補に対応付けて、ルール候補テーブル7に格納する。ここで、正味の正解増加数とは、(変換ルール候補i(iは変換ルール候補番号)を適用した場合の正解増加数)から(変換ルール候補iを適用した場合の不正解増加数)を差し引いた数である。図7に、図6の変換ルール候補を各訓練用サンプルに適用した場合に、項の予測値が不正解から正解になる訓練用サンプルのID番号、逆に正解から不正解になる訓練用サンプルのID番号、及びそれらに基づいて計算される正味の正解増加数が格納されたルール候補テーブル7の一例を示す。
次に、ステップS105で、上記ステップ104で計算した変換ルール候補毎の正味の正解増加数の最大値を計算し、その値が0以下か否かを判定する。正味の正解増加数の最大値>0の場合には、ステップS106に移行し、正味の正解増加数の最大値≦0の場合には、ステップS109へ移行する。図7の例の場合は、正味の正解増加数の最大値が4であり、0以下ではないため、ステップS106に移行する。
ステップS106では、正味の正解増加数が最大値となる変換ルール候補を、新規の変換ルールとして選択し、新規の変換ルールのリストである解析モデルテーブル15の末尾に格納する。図7の例では、変換ルール候補番号6の正味の正解増加数が最も大きい値4をとっており、この変換ルール候補を選択して、ルール番号を付与して、解析モデルテーブル15に追加する。図8に、解析モデルテーブル15の一例を示す。
次に、ステップS107で、全ての訓練用サンプルに対し、解析モデルテーブル15に追加された変換ルールを適用し、適用した結果得られた解析結果の予測値を用いて、解析結果テーブル3を更新する。図4の例に対して、図8の例の追加された変換ルールを適用した結果の解析結果テーブル3の例を図9に示す。
次に、ステップS108で、新しい変換ルールを適用することにより解析結果の予測値が変換された訓練用サンプルについて、適用した変換ルールの履歴を、訓練用サンプル毎の組み合わせ特徴量として、ルール適用履歴テーブル9に格納して、ステップS102へ戻る。図10に、図8に示す変換ルールが適用された後のルール適用履歴テーブル9の一例を示す。
ステップS102では、再度、現在の解析結果テーブル3中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が0か否かを判定する。図9の例において、解析誤り数が0ではないため、ステップS103以降が実行される。図9の例において、解析誤りのある訓練用サンプルからルールテンプレート5に従って変換ルール候補を作成した例を、図11に示す(ステップS103)。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル7に格納した例を図12に示す(ステップS104)。ここで、正味の正解増加数の最大値は1であり0より大きいため、ステップS106に移行する(ステップS105)。正味の正解増加数が最も大きい値をとる変換ルール候補は番号1と番号5の二つ存在するので、ここでは、そのうちの番号の若い番号1の変換ルール候補を解析モデルテーブル15に追加したとする(ステップS106)。その場合の解析モデルテーブル15の例を図13に示す。この追加されたルール番号2の変換ルールを、全訓練用サンプルに適用した結果(ステップS107)の解析結果テーブル3の例を図14に示す。また、追加されたルール番号2の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル9に格納して(ステップS108)、ステップS102へ戻る。適用したルールの履歴をルール適用履歴テーブル9に格納したときの例を図15に示す。
ステップS102では、再度、現在の解析結果テーブル3中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が0か否かを判定する。図14の例において、解析誤り数が0ではないため、ステップS103以降が実行される。図14の例において、解析誤りのある訓練用サンプルからルールテンプレート5に従って変換ルール候補を作成した例を、図16に示す(ステップS103)。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル7に格納した例を図17に示す(ステップS104)。ここで、正味の正解増加数の最大値は1であり0より大きいため、ステップS106に移行する(ステップS105)。正味の正解増加数が最も大きい値をとる変換ルール候補番号2の変換ルール候補を、解析モデルテーブル15に追加する(ステップS106)。その場合の解析モデルテーブル15の例を図18に示す。この追加されたルール番号3の変換ルールを、全訓練用サンプルに適用した結果(ステップS107)の解析結果テーブル3の例を図19に示す。また、追加されたルール番号3の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル9に格納して(ステップS108)、ステップS102へ戻る。適用したルールの履歴をルール適用履歴テーブル9に格納したときの例を図20に示す。
ステップS102では、再度、現在の解析結果テーブル3中の解析誤り数、すなわち、項の人手正解と予測値との不一致数を計算し、解析誤り数が0か否かを判定する。図19の例において、解析誤り数が0ではないため、ステップS103以降が実行される。図19の例において、解析誤りのある訓練用サンプルからルールテンプレート5に従って変換ルール候補を作成した例を、図21に示す(ステップS103)。また、変換ルール候補各々を適用した場合の正味の正解増加数をルール候補テーブル7に格納した例を図22に示す(ステップS104)。ここで、正味の正解増加数の最大値は1であり0より大きいため、ステップS106に移行する(ステップS105)。正味の正解増加数が最も大きい値をとる変換ルール候補番号4の変換ルール候補を、解析モデルテーブル15に追加する(ステップS106)。その場合の解析モデルテーブル15の例を図23に示す。この追加されたルール番号4の変換ルールを、全訓練用サンプルに適用した結果(ステップS107)の解析結果テーブル3の例を図24に示す。また、追加されたルール番号4の変換ルールを適用したことにより解析結果の予測値が変換された訓練用サンプルについて、適用したルールの履歴を、ルール適用履歴テーブル9に格納して(ステップS108)、ステップS102へ戻る。適用したルールの履歴をルール適用履歴テーブル9に格納したときの例を図25に示す。
ここで、ステップS102において、解析誤り数が0であると判定されて、ステップS109へ移行する。
ステップS109では、ルール適用履歴テーブル9に格納された組み合わせ特徴量と訓練用サンプルから抽出した基本特徴量とを学習に使用するインデクスとし、インデクステーブル11に格納する。ここでは、図25に示すように、ID番号=2及びID番号=11の訓練用サンプルから、ルール番号1とルール番号3とからなる組み合わせ特徴量が、ID番号=13の訓練用サンプルから、ルール番号1とルール番号3とルール番号4とからなる組み合わせ特徴量が得られている。すなわち、(解析対象の述語と係り受け関係に「ある」)∧(意味カテゴリが「時間」)という組み合わせ特徴量と、(解析対象の述語と係り受け関係に「ある」)∧(意味カテゴリが「時間」)∧(解析対象の述語が「なる」)という組み合わせ特徴量である。また、基本特徴量は、各訓練用サンプルに含まれる(後続助詞が「は」)、(後続助詞が「に」)、(後続助詞が「を」)、(意味カテゴリが「人」)、(意味カテゴリが「出版物」)、(意味カテゴリが「時間」)、(解析対象述語との係り受けが「ない」)、(解析対象述語との係り受けが「ある」)、(解析対象述語の基本形が「もらう」)、(解析対象述語の基本形が「あげる」)、及び(解析対象述語の基本形が「なる」)の11個の特徴量である。従って、本実施の形態では、13個の特徴量がインデクステーブル11に格納される。
次に、ステップS110で、インデクステーブル11に格納されたインデクスに基づいて、訓練用データから特徴量を抽出し、訓練ベクトルを作成して、訓練ベクトルテーブル13に格納する。
次に、ステップS111で、訓練ベクトルテーブル13に格納された訓練ベクトルを用いて学習し、得られた解析モデルを解析モデルテーブル15に格納する。そして、ステップS112で、解析モデルテーブル15に格納された解析モデルを外部に出力して、全体の処理を終了する。
以上説明したように、本実施の形態の解析モデル学習装置によれば、正解が付与された訓練用サンプルと予測値との解析誤りが0になるまで、変換ルールの作成及び適用を繰り返し、各訓練用サンプルに適用された変換ルールの履歴により、(解析対象の述語と係り受け関係に「ある」)∧(意味カテゴリが「時間」)∧(解析対象の述語が「なる」)といった、基本特徴量の重みつき和では表現が困難な組み合わせ特徴量を得ることができ、この組み合わせ特徴量を用いて解析モデルを学習することにより、高い解析精度を得られる解析モデルを学習することができる。
本実施の形態では、一般的な傾向としては、(解析対象の述語と係り受けに「ある」)という基本特徴量は、項のなり易さと正の相関があり、(意味カテゴリが「時間」)という基本特徴量は、項のなり易さと負の相関があり、全体としては通常の述語の場合は(意味カテゴリが「時間」)という基本特徴量の項のなり易さの負の相関の傾向がまさり、非項となり易い。しかしながら、解析対象の述語が「なる」の場合にはその傾向は無く、また、述語が「なる」であるだけでは項のなり易さとはほとんど関係がないため、基本特徴量の重み付き和だけでは、これらの状況を表現できず、組み合わせ特徴量が有効となる。
なお、上記実施の形態では、訓練用サンプルを読み込んで処理を開始する場合について説明したが、訓練用データの状態で読み込んで、ベースライン解析の前に、訓練用データから各訓練用サンプルを抽出する処理を行うようにしてもよい。また、未処理のテキストデータを読み込んで、形態素解析や係り受け解析、意味カテゴリの付与等の前処理を行う処理部を設け、前処理後のテキストデータに対する人手正解を受け付けて訓練用データを生成した上で、訓練用サンプルを抽出する処理を行うようにしてもよい。なお、人手正解は、訓練用サンプルを抽出した後に付与するようにしてもよい。
また、上記実施の形態において、非特許文献1のように、主となる学習器を対数線形モデルに限ることなく、あらゆる線形モデルの学習器を利用することが可能である。
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の解析モデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の解析モデル学習装置の各部をハードウエアにより構成してもよい。また、ルールテンプレートや各種テーブルが記憶される記憶部としては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、解析モデル学習装置内部に記憶部を設けてもよいし、外部装置に設けてもよい。
1 解析モデル学習装置
2 ベースライン解析部
3 解析結果テーブル
4 ルール候補作成部
5 ルールテンプレート
6 ルール選択部
7 ルール候補テーブル
8 ルール適用部
9 ルール適用履歴テーブル
10 インデクス作成部
11 インデクステーブル
12 訓練ベクトル作成部
13 訓練ベクトルテーブル
14 学習部
15 解析モデルテーブル
16 出力部
18 記憶部

Claims (7)

  1. 単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与する付与手段と、
    前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成する生成手段と、
    前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換する変換手段と、
    前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御する制御手段と、
    前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する学習手段と、
    を含む解析モデル学習装置。
  2. 前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いた複数のルール候補を作成し、該複数のルール候補の中で、該ルール候補を適用した場合に、前記予測値の正解数の増加が最も大きくなるルール候補を、前記正解と前記予測値との不一致が減少するルールとして選択する請求項1記載の解析モデル学習装置。
  3. 前記生成手段は、前記正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量と、予め定めたルールテンプレートとに基づいて、前記ルールを生成する請求項1または請求項2記載の解析モデル学習装置。
  4. 前記学習手段は、前記訓練用サンプル毎の基本特徴量及び組み合わせ特徴量から訓練ベクトルを生成し、該訓練ベクトルに基づいて、前記解析モデルを学習する請求項1〜請求項3のいずれか1項記載の解析モデル学習装置。
  5. 前記学習手段は、線形サポートベクトルマシンを用いて、前記解析モデルを学習する請求項1〜請求項4のいずれか1項記載の解析モデル学習装置。
  6. 付与手段と、生成手段と、変換手段と、制御手段と、学習手段とを含む解析モデル学習装置における解析モデル学習方法であって、
    前記付与手段は、単語または単語の組み合わせからなる解析対象、前記解析対象を含むテキストデータの特徴を示す基本特徴量、及び前記解析対象に対する正解を含む複数の訓練用サンプル各々に、前記解析対象に対する解析結果の予測値を付与し、
    前記生成手段は、前記訓練用サンプルに含まれる正解と前記予測値とが一致しない訓練用サンプルに含まれる基本特徴量を用いたルールであって、該ルールを適用して前記予測値を変換した場合に、前記正解と前記予測値との不一致が減少するルールを生成し、
    前記変換手段は、前記生成手段により生成されたルールを適用して、前記解析対象に対する解析結果の予測値を変換し、
    前記制御手段は、前記正解と前記予測値との不一致が予め定めた所定数以下となるまで、前記ルールの生成、及び前記予測値の変換を繰り返すように前記生成手段及び前記変換手段を制御すると共に、前記変換手段により解析結果が変換された場合に、適用されたルールの履歴を前記訓練用サンプル毎に所定の記憶領域に記憶するように制御し、
    前記学習手段は、前記制御手段により記憶された履歴から抽出される前記訓練用サンプル毎の組み合わせ特徴量、及び前記訓練用サンプル毎の基本特徴量に基づいて、テキストデータに含まれる解析結果が未知の解析対象を解析するための解析モデルを学習する
    解析モデル学習方法。
  7. コンピュータを、請求項1〜請求項5のいずれか1項記載の解析モデル学習装置を構成する各手段として機能させるための解析モデル学習プログラム。
JP2011143418A 2011-06-28 2011-06-28 解析モデル学習装置、方法、及びプログラム Pending JP2013011985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011143418A JP2013011985A (ja) 2011-06-28 2011-06-28 解析モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011143418A JP2013011985A (ja) 2011-06-28 2011-06-28 解析モデル学習装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2013011985A true JP2013011985A (ja) 2013-01-17

Family

ID=47685830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011143418A Pending JP2013011985A (ja) 2011-06-28 2011-06-28 解析モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2013011985A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215920A (ja) * 2013-04-26 2014-11-17 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
US20170098239A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Prediction of content performance in content delivery based on presentation context

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248633A (ja) * 2010-05-27 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248633A (ja) * 2010-05-27 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199800474006; 松本 裕治 外2名: '誤り駆動型の確率モデル学習による日本語形態素解析' 情報処理学会研究報告 第98巻 第21号, 19980312, P.41〜48, 社団法人情報処理学会 *
CSNG200100732008; 正富 欣之 外2名: '実例からの帰納的学習を用いた構文解析手法' 電子情報通信学会技術研究報告 第99巻 第691号, 20000316, P.57〜64, 社団法人電子情報通信学会 *
CSNG200401461012; 中川 哲治 外2名: 'Support Vector Machineを用いた形態素解析と修正学習法の提案' 情報処理学会論文誌 第44巻 第5号, 20030515, P.1354〜1367, 社団法人情報処理学会 *
JPN6014003637; 松本 裕治 外2名: '誤り駆動型の確率モデル学習による日本語形態素解析' 情報処理学会研究報告 第98巻 第21号, 19980312, P.41〜48, 社団法人情報処理学会 *
JPN6014003639; 正富 欣之 外2名: '実例からの帰納的学習を用いた構文解析手法' 電子情報通信学会技術研究報告 第99巻 第691号, 20000316, P.57〜64, 社団法人電子情報通信学会 *
JPN6014003641; 中川 哲治 外2名: 'Support Vector Machineを用いた形態素解析と修正学習法の提案' 情報処理学会論文誌 第44巻 第5号, 20030515, P.1354〜1367, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215920A (ja) * 2013-04-26 2014-11-17 日本電信電話株式会社 格解析モデルパラメータ学習装置、格解析装置、方法、及びプログラム
US20170098239A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Prediction of content performance in content delivery based on presentation context
US10748178B2 (en) * 2015-10-02 2020-08-18 Adobe Inc. Prediction of content performance in content delivery based on presentation context

Similar Documents

Publication Publication Date Title
JP7259650B2 (ja) 翻訳装置、翻訳方法及びプログラム
CN108475262A (zh) 用于文本处理的电子设备和方法
CN112069295B (zh) 相似题推荐方法、装置、电子设备和存储介质
Plepi et al. Context transformer with stacked pointer networks for conversational question answering over knowledge graphs
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
Aralikatte et al. Rewarding coreference resolvers for being consistent with world knowledge
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
Hara et al. Evaluating the impact of re-training a lexical disambiguation model on domain adaptation of an HPSG parser
Liu et al. Augmenting multi-turn text-to-SQL datasets with self-play
CN117193823A (zh) 一种软件需求变更的代码工作量评估方法、系统及设备
CN111723583A (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
Surendran et al. Conversational AI-A retrieval based chatbot
Adewoyin et al. RSTGen: imbuing fine-grained interpretable control into long-FormText generators
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
JP2013011985A (ja) 解析モデル学習装置、方法、及びプログラム
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN116483314A (zh) 一种自动化智能活动图生成方法
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
CN113326348A (zh) 一种博客质量评估方法及工具
CN114547321A (zh) 一种基于知识图谱的答案生成方法、装置及电子设备
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Sampath et al. Hybrid Tamil spell checker with combined character splitting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150217