JP2011248633A - 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム - Google Patents

解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム Download PDF

Info

Publication number
JP2011248633A
JP2011248633A JP2010121257A JP2010121257A JP2011248633A JP 2011248633 A JP2011248633 A JP 2011248633A JP 2010121257 A JP2010121257 A JP 2010121257A JP 2010121257 A JP2010121257 A JP 2010121257A JP 2011248633 A JP2011248633 A JP 2011248633A
Authority
JP
Japan
Prior art keywords
rule
analysis
analysis result
model learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010121257A
Other languages
English (en)
Other versions
JP5466997B2 (ja
Inventor
Hiroyori Taira
博順 平
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010121257A priority Critical patent/JP5466997B2/ja
Publication of JP2011248633A publication Critical patent/JP2011248633A/ja
Application granted granted Critical
Publication of JP5466997B2 publication Critical patent/JP5466997B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】解析モデルの自動学習における処理速度の向上を図ること。
【解決手段】解析モデル学習装置1は、一度に読み込む訓練データ中の記事数を1記事または少数記事とし、それ以前に読み込まれた記事も含めて解析を行い解析結果の初期値を与えるベースライン解析部2と、訓練用データに対する解析結果を保持する解析結果テーブル3と、解析誤りデータからルールテンプレート5に基づいてルール候補を作成するルール候補作成部4と、それを保持するルール候補テーブル7と、ルール候補の中で最も正味の正解の増加数が大きくなるルールを選択するルール選択部6と、選択されたルールを保持する解析モデルテーブル9と、保持されたルールを、前記テーブル3に保持された訓練データに対する解析結果に適用し解析結果を変換するルール適用部8と、解析モデルテーブル9に保持されたルールを解析モデルとして外部に出力する出力部10とを備える。
【選択図】図1

Description

本発明は、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、誤り駆動型変換学習モデルを用いてテキストを解析する際に用いる解析モデルを訓練用データから自動学習する技術に関するものである。
従来、形態素解析、構文解析、述語項構造解析などのテキスト解析に関して、解析ルールが人間にとって理解しやすい利点を持つ、誤り駆動型変換学習モデルによるテキスト解析方法が提案されている(非特許文献1,2,3参照)。
誤り駆動型変換学習モデルでは、訓練用データのテキストに対し、最初にベースライン解析と呼ばれる簡単な解析を行い、解析結果の初期値を得る。この解析は例えば形態素解析の場合には、すべての形態素に対する品詞の解析結果をすべて名詞とするようなベースラインとなる簡単な解析である。
この解析結果の初期値に対し、訓練用データ中の人手による正解の解析結果と比較し、正解の解析結果と異なる場合には、解析誤りが発生したテキストからテキストの特徴を抽出し、変換ルールの条件部の候補とする。
この変換ルールの条件部の候補と、現在の自動解析結果を変換する前の解析結果と、人手による正解を変換した後の解析結果との3つの組み合わせで表される変換ルール候補それぞれに対し、訓練用データ全体に変換ルールを適用した場合の(解析結果における正味の正解数の増加数)=(解析結果の正解数の増加数−解析結果の不正解数の増加数)を求め、正味の正解数の増加数が最も大きな変換ルール候補を1番目に適用する変換ルールとする。
こうして選ばれた1番目の変換ルールを訓練データに対する現在の解析結果に対し適用し、変換を行う。こうして得られた変換後の解析結果について1番目の変換ルールを得たときと同様、解析誤りが発生した訓練用データ中の各テキストから変換ルール候補を作成し、訓練用データ全体に変換ルールを適用した場合の正味の正解数の増加数を求め、正味の正解数の増加数が最も大きな変換ルール候補を2番目に適用する変換ルールとする。
以降、同様に3,4、...番目の変換ルールを生成していき、正味の正解数の増加数が1以上のものが存在する間、変換ルールを生成する。こうして最終的に得られた変換ルール群を解析モデルとする。この解析モデルを用いて、未知のテキストに対してテキスト解析を行うことができる。
未知のテキストに対するテキスト解析では、まず、未知のテキストに対してベースライン手法を適用し、解析結果の初期値を得た後、上記で得られた変換ルールを順次適用し、最終的な解析結果を得る。
この誤り駆動型変換学習モデルでは、大規模な訓練用データから変換ルールを自動学習する際、解析誤りの数が訓練用データの規模に応じて多くなり、それに伴い変換ルール候補が多くなりすぎて、学習に莫大な時間がかかる問題がある。
この問題に関しては、あらかじめインデクスを構築しておく手法(非特許文献4参照)、まず条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択する手法(非特許文献3参照)などが提案されている。
Eric Brill,「Transformation−Based Error−Driven Learning and Natural Language Processing:A Case Study in Part−of−Speech Tagging」,Computational Linguistics,Vol.21,No.4,1995年,pp.543〜565 Eric Brill,「Transformation−Based Error−Driven Parsing」,In Proceedings of the Third International Workshop on Parsing Technologies,1993年 Valentin Jijkoun and Maarten de Rijke,「Learning to Transform Linguistic Graphs」,In Proceedings of the Second Workshop on TextGraphs: Graph−Based Algorithms for Natural Language Processing(TextGraph−2),2007年,pp.53〜60 Lance A.Ramshaw and Mitchell P.Marcus,「Exploring the Statistical Derivationof Transformational Rule Sequences for Part−of−Speech Tagging」,In The Balancing Act:Proceedings of the ACL Workshop on Combining Symbolic and Statistical Approaches to Language,1994年,pp.86〜95
従来の変換学習における解析モデル学習装置では、大規模な訓練用データから変換ルールを自動学習する際、一般的には訓練用データの数に応じて解析誤りの数が多くなり、それに伴い変換ルール候補が多くなりすぎ、各変換ルール候補に対するルールの良さの評価値の計算に莫大な時間がかかる課題があった。
この課題に関しては、あらかじめ各特徴量と解析結果の組について出現するデータについてのインデクスを作成しておき、評価値の計算の高速化をはかる手法(非特許文献4参照)、まず条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択することで評価値の高い変換ルール候補を近似的に求める手法(非特許文献3参照)などが提案されている。
しかしながら、上記のあらかじめインデクスを構築しておく手法は、述語項構造解析のようにある解析結果が他の解析結果と依存関係にあり、ある解析結果を変換した結果、他の解析結果も同時変更しなければならないような解析では、各特徴量と解析結果の組の数の管理が困難であり、単純には使用できない。
ここで、述語項構造解析における解析結果同士の依存関係とは、例えば、現在、ある名詞に対する解析結果がヲ格の項である場合に、この名詞がある変換ルールの条件に合致し、解析結果がヲ格の項からガ格の項へ変換された場合、既に別の名詞がガ格の項になっている場合とそうでない場合があり、別の名詞がガ格になっている場合は、その名詞を別の項に変換するかもしくは、項の認定を止めるなどしなくてはならず、その結果全体として誤り数がどのように変化するか、単純に計算できない。
また上記の、条件部で頻度の高いルールを選びさらにその上位数十件について結論部で頻度の高いルールを選択する手法では、解析ルールが人間にとって理解しやすい利点が損なわれる短所がある。
解析ルールが人間にとって理解しやすいまま、述語項構造解析のようにある予測値が他の予測値の解析誤り数の増減に影響を与える解析においても学習時間が短縮できる手法が求められていた。
本発明は、解析結果に対する変換ルールを学習する際に、変換ルール候補を訓練データ全体から一度に抽出して、最も優れたルールをその中から選択するのではなく、新たに読み込む訓練データは1記事に限定し、現在読み込まれている訓練データの解析誤り数が所定の閾値以下となるまで、解析ルール候補の抽出および評価および解析ルールの追加を繰り返し、解析誤り数が所定の閾値以下になったあと、新たに次の訓練データを1記事読み込んで処理を行う。こうすることで、一度に抽出されるルール候補数を絞り、計算処理速度の向上を図る。
ここで、「記事」とは、新聞などにおける1記事全体のテキストを指すが、解析対象のテキストで、予測値の変更が他の予測値に影響を与えない範囲の単位としてもよい。また、一度に読み込む記事の数は1記事には限定せずとも、訓練データの規模に応じて2,3記事などの記事数で処理を行うことも可能である。
本発明の解析モデル学習装置の態様としては、訓練データに基づき述語項構造解析の解析モデルを自動学習する解析モデル学習装置であって、訓練用データに対して例えばベースライン解析の簡単な手法で解析を行ない初期予測値を与えるベースライン解析部と、訓練用データに対する解析結果を保持する解析結果テーブルと、解析結果中の解析誤りデータからルールテンプレートに基づいてルール候補を作成するルール候補作成部と、ルール候補作成部で作成されたルール候補を保持するルール候補テーブルと、ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択部と、ルール選択部で選択されたルールを保持しておく解析モデルテーブルと、解析モデルテーブルに保持されたルールを解析結果テーブルに保持された訓練データに対する解析結果に適用し、解析結果を変換するルール適用部と、解析モデルテーブルに保持されたルールを解析モデルとして外部に出力する出力部とを備える。
本発明の解析モデル学習方法の態様としては、訓練用データに基づき述語項構造解析の解析モデルを自動学習するモデル学習方法であって、ベースライン解析部が、訓練用データに対して、例えばベースライン解析の簡単な手法で解析を行ない初期予測値を与えるステップと、訓練用データに対する解析結果を解析結果テーブルに保持するステップと、前記ルール候補作成部が、解析結果中の解析誤りデータからルールテンプレートに基づいてルール候補を作成するルール候補作成ステップと、前記作成されたルール候補をルール候補テーブルに保持するステップと、ルール選択部が、前記ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択ステップと、前記選択されたルールを解析モデルテーブルに保持するステップと、ルール適用部が、前記解析モデルテーブルに保持されたルールを解析結果テーブルに保持された訓練データに対する解析結果に適用し、解析結果を変換するルール適用ステップと、出力部が、前記解析モデルテーブルに保持されたルールを解析モデルとして外部に出力するステップとを有する。
尚、本発明は上記解析モデル学習装置を構成する各手段として機能させる解析モデル学習プログラムの態様とすることもできる。
本発明によれば、解析モデル学習装置が一度に作成、評価を行うルール候補数を減少させ、計算処理速度が向上する。
本発明の実施形態1に係る解析モデル学習装置の構成を示すブロック図。 本発明の実施形態1に係る解析モデル学習の過程を説明するフローチャート。 本発明の実施形態1に係る解析モデル学習装置に入力される訓練用データの例を示す図。 本発明の実施形態1における解析結果テーブルの一例を示す図。 本発明の実施形態1におけるルールテンプレートの一例を示す図。 本発明の実施形態1におけるルール候補テーブルの一例を示す図。 本発明の実施形態1におけるルール候補テーブルの他の例を示す図。 本発明の実施形態1における解析モデルテーブルの一例を示す図。 本発明の実施形態1における解析結果テーブルの他の例を示す図。 本発明の実施形態1におけるルール候補テーブルの他の例を示す図。 本発明の実施形態1におけるルール候補テーブルの他の例を示す図。 本発明の実施形態1における解析モデルテーブルの他の例を示す図。 本発明の実施形態1における解析結果テーブルの他の例を示す図。 本発明の実施形態1における解析モデル学習結果の一例を示す図。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
(実施形態1)
図1は本発明の実施形態1に係る解析モデル学習装置の構成を示している。解析モデル学習装置1は、ベースライン解析部2と解析結果テーブル3とルール候補作成部4とルールテンプレート5とルール選択部6とルール候補テーブル7とルール適用部8と解析モデルテーブル9と出力部10とを備える。
前記解析モデル学習装置1内の各部の機能は、例えばコンピュータによって達成される。図1において、ベースライン解析部2は訓練用データ中のテキストに対し、ベースライン解析を行う。
解析結果テーブル3は、ベースライン解析部2やルール適用部8での解析結果を格納しており、解析モデル学習装置1内の解析結果テーブル記憶部(図示省略)に更新可能に保存される。
ルール候補作成部4は、解析結果テーブル3に格納されている解析結果において解析誤りがある箇所から、テキストの特徴をルールテンプレート5に基づいて抽出してルール候補を作成し、作成したルール候補をルール候補テーブル7に格納する。
ルールテンプレート5は、解析結果誤りを修正する変換ルールを抽出するためのテキストの特徴の集合であり、予め解析モデル学習装置1内の記憶手段(図示省略)に保存される。なお、ルールテンプレート5は前記記憶手段に予め保存しておく代わりに、外部から入力される形態としてもよい。
ルール候補テーブル7は解析モデル学習装置1内の周知の記憶手段(図示省略)に更新可能に保存される。
ルール選択部6は、ルール候補テーブル7に格納されているルール候補について、解析結果テーブル3に格納されている解析結果にルール候補を適用した場合の、正味の正解数の増加を計算し、計算結果をルール候補テーブル7に格納する。そして正味の正解数が最大のルール候補を新規のルール(解析モデルとなる変換ルール)として選択し、解析モデルテーブル9の末尾に格納する。
解析モデルテーブル9は解析モデル学習装置1内の記憶手段(図示省略)に更新可能に保存される。
ルール適用部8は、解析モデルテーブル9に格納されたルールを、解析結果テーブル3に格納されている訓練用データに対する解析結果に適用して解析結果を変換する。
出力部10は、解析モデルテーブル9に格納された変換ルールを解析モデルとして外部に出力する。
前記訓練用データは自然言語の形態で解析モデル学習装置1に入力される。訓練用データの入力手段としては、ユーザによって操作されるキーボード、インターネット等のネットワークを介して解析モデル学習装置1と接続可能なユーザの端末、または解析モデル学習装置1とユーザの端末とを中継するネットワークサーバ等が挙げられる。
次に図2のフローチャートを参照しながら解析モデル学習装置1による解析モデルの学習のステップS101〜S112について説明する。なお、以下の説明では、解析誤り数の所定の閾値を0に設定した場合を考える。
S101:解析モデル学習装置1は訓練用データ中の記事の番号を示す変数kに0を代入する。
S102:解析モデル学習装置1は訓練用データ中の記事の番号を示す変数kの値に1を加える。
S103:変数kの値が、訓練用データ中の全記事数nを超える場合は、終了処理S112に処理を移す。そうでない場合には、S104に処理を移す。
S104:ベースライン解析部2が、訓練用データからk番目の記事を読み込み、ベースライン解析を行ない、解析結果を解析結果テーブル3に格納する。図3に、述語の基本形に対するガ格、ヲ格、ニ格の項の解析を行う述語項構造解析の述語「返す」に対する項の解析モデルの学習における訓練用データの例を示す。図4は、図3の記事番号1のテキスト「太郎は、花子から借りた本を土曜日に返した。」中の名詞「太郎」、「花子」、「本」、「土曜日」に対し、ベースライン解析部2が、後続の助詞が「が」である場合には「ガ格項」、後続の助詞が「を」である場合には「ヲ格項」、後続の助詞が「に」である場合には「ニ格項」と予測するベースライン手法を用いた解析で解析した結果の例である。なお、図4における「項の予測」の列が解析した結果を表す。「項の人手正解」の列は、予め訓練データに人手で付与されている解析結果の正解である。
S105:ルール適用部8が、解析モデルテーブル9に格納されている解析モデル(変換ルール)でk番目の記事を解析し、解析結果を解析結果テーブル3に格納する。本例(変数kの値が1である場合)では、まだ解析モデルテーブル9が存在しないのでこの解析は行われず、次の処理に進む。
S106:ルール候補作成部4が、現在の解析結果テーブル3において項の人手正解と項の予測の一致数を計算する。図4の例では一致するのは「本」の一つの名詞のみであり、「太郎」、「花子」、「土曜日」については不一致となっているので、解析誤りの数は3となり予め定めた解析誤り数の閾値(この例では0)と一致しないのでS107のステップに進む。もし、解析誤り数が予め定めた閾値以下となった場合は、ステップS102に進む。
S107:ルール候補作成部4が、解析誤りの箇所から、ルールテンプレート5に基づいて特徴を抽出して変換ルール候補を作成し、ルール候補テーブル7に格納する。図5にルールテンプレートの例を示す。図4で解析が誤っていた「太郎」、「花子」、「土曜日」から図5のルールテンプレートに従って後続助詞と意味カテゴリを抽出しルール候補を作成した例を図6に示す。
図6のルール候補番号1のルール候補に関しては、条件にあてはまる名詞は、「太郎」である。「太郎」がガ格項に変換されるとガ格項の正解が1増加するため、正味の正解増加数は1となる。
ルール候補番号2のルール候補に関しては、条件にあてはまる名詞は、「太郎」と「花子」である。「太郎」がガ格項に変換されるとガ格項の正解が1増加するが、「花子」がガ格項に変換されても不正解なため、正味の正解増加数は1となる。
ルール候補番号3のルール候補に関しては、条件にあてはまる名詞は「花子」のみで、「花子」がニ格項に変換されるとニ格項の正解が1増加するため、正味の正解増加数は1となる。
ルール候補番号4のルール候補に関しては、条件にあてはまる名詞は「太郎」と「花子」で、「花子」がニ格項に変換されたときのみニ格項の正解が1増加するため、正味の正解増加数は1となる。
ルール候補番号5のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’(項に該当しない)に変換されるとニ格項の不正解が1減少するため、正味の正解増加数は1となる。
ルール候補番号6のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’(項に該当しない)に変換されるとニ格項の不正解が1減少するため、正味の正解増加数は1となる。
S108:ルール選択部6が変換ルール候補毎にそのルールを、記事番号1〜記事番号kまでの記事に適用した場合の正味の正解増加数を計算して、ルール候補テーブル7に格納する。ここで正味の正解増加数とは、(ルールを適用した場合の正解増加数)から(ルールを適用した場合の不正解増加数)を差し引いた数である。図7に正味の正解増加数が格納されたルール候補テーブル7の例を示す。
S109:ルール選択部6が正味の正解増加数の最大値を計算し、その値が所定の正解増加数の閾値より大きければ処理をS110に進め、そうでなければ処理をS102に移す。ここでは、所定の正解増加数の閾値が0の場合の例を考える。すると、図7の例の場合は、正味の正解増加数の最大値が1であり、所定の正解増加数の閾値よりも大きいので処理をS110に進める。
S110:ルール選択部6が正味の正解増加数が最も大きい値を取る変換ルール候補を解析モデルテーブル9に追加する。図7の例では、どのルール候補も最も大きい値1をとっているので、ここではその中でルール候補番号1を解析モデルテーブル9に追加したとする。その場合の解析モデルテーブル9の例を図8に示す。
S111:ルール適用部8が、1〜k番目の記事に対し、前記追加された変換ルールを適用して解析結果を変換し、その結果を解析結果テーブル3に格納し、処理をS106に移す。図4の例に対して、図8の例の追加された変換ルールを適用した結果の解析結果テーブル3の例を図9に示す。図9の例においてS106では解析誤り数が所定の閾値以下でない場合は、処理S107以降が実行される。
S107:図9において解析誤りの箇所は「花子」と「土曜日」の二箇所であり、ここからルールテンプレート5にしたがって変換ルール候補を作成した例を図10に示す。また、変換ルール候補毎にルールを適用した場合の正味の正解増加数をルール候補テーブル7に格納した例を図11に示す(S108)。
図11のルール候補番号1のルール候補に関しては、条件にあてはまる名詞は「花子」のみで、「花子」が二格に変換されると「花子」の項予測が正解になり正解数が1増加し、「土曜日」の項予測が間接的に‘―’となり、正味の正解増加数は2となる(ある変換ルール(この場合はルール候補番号1のルール)が適用され、ある項のタイプに変換(この場合は花子がニ格項に変換)された際に、その項のタイプが既に別の名詞に割り当てられている(この場合は二格項が既に土曜日に割り当てられている)場合には、その別の名詞(この場合は土曜日)の項のタイプを‘―’に変換するものとする)。
また、ルール候補番号2のルール候補に関しても、条件にあてはまる名詞は「花子」のみで、「花子」が二格に変換されると「花子」の項予測が正解になり正解数が1増加し、「土曜日」の項予測が間接的に‘―’となり、正味の正解増加数は2となる。
ルール候補番号3のルール候補に関しては、条件にあてはまる名詞は「土曜日」のみで、「土曜日」が‘―’に変換されると「土曜日」の項予測が正解になり正解数が1増加するので、正味の正解増加数は1となる。同様に、ルール候補番号4の正味の正解増加数は1となる。ここで正味の正解増加数の最大値は2であり正解増加数の閾値(この例では0)より大きいのでS110に処理を進める(S109)。
図11において、正味の正解増加数が最も大きい値をとる変換ルール候補は番号1と番号2の二つ存在するので、ここではそのうちのルール候補番号1の候補を解析モデルに追加したとする(S110)。そのときの解析モデルテーブル9の例を図12に示す。
この追加されたルール番号2で、1番目の記事を解析した結果(S111)の解析結果テーブル3の例を図13に示す。ここで解析誤り数が解析誤り数の閾値(この例では0)以下となるので(S106)、処理をS102に進める。
このような処理を繰り返し、S103の処理でkがnよりも大きくなった場合には図2(b)に示す終了処理を行う。終了処理では出力部10が、解析モデルテーブル9に格納された解析モデルを外部に出力し(S112)、全体の処理を終了する。こうして得られた解析モデルの例を図14に示す。
以上のように解析モデル学習装置1は、訓練用データを1記事ずつ読み込み、読み込まれた記事の中での解析誤り数が所定の閾値以下(上記の例では0)になるまで繰り返し変換ルールを作成することで、ルール候補数の増大によるルール候補に対する正味の正解数の増加数の計算にかかるコストを削減することができる。
尚、本発明の実施形態に係る解析モデル学習装置1はコンピュータとプログラムによっても実現でき、当該プログラムを記録媒体に記録することも、ネットワークを介して提供することも可能である。すなわち、上述の解析モデル学習装置1を構成する各機能部2、4、6、8、10に係る処理をプログラムとして構築し、このプログラムを記録媒体または通信回線によってコンピュータにインストールすることにより、当該コンピュータによって解析モデル学習装置1の実現が可能となる。また前記ルールテンプレート5,テーブル3、7、9の記憶手段としてはハードディスク装置やファイルサーバ等に例示される記憶手段によって実現できる。
1…解析モデル学習装置
2…ベースライン解析部
3…解析結果テーブル
4…ルール候補作成部
5…ルールテンプレート
6…ルール選択部
7…ルール候補テーブル
8…ルール適用部
9…解析モデルテーブル
10…出力部

Claims (9)

  1. 訓練用データから、テキスト解析のための解析モデルを学習する解析モデル学習装置であって、
    前記訓練データ中の記事の総数よりも少ない数の記事を読み込み、それ以前に読み込まれている記事と前記読み込んだ記事とに対して解析を行い解析結果の初期値を与えるベースライン解析部と、
    前記読み込んだ訓練用データに対する解析結果を記憶する解析結果テーブル記憶部と、
    解析結果誤り修正用の変換ルールを抽出するためのテキストの特徴の集合であるルールテンプレートを予め記憶したルールテンプレート記憶部と、
    前記読み込んだ記事に対する前記解析結果中の解析誤りデータから、前記ルールテンプレートを参照してルール候補を作成するルール候補作成部と、
    前記ルール候補作成部で作成されたルール候補を記憶するルール候補テーブル記憶部と、
    前記ルール候補テーブル記憶部中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択部と、
    前記ルール選択部で選択されたルールを記憶する解析モデルテーブル記憶部と、
    前記解析モデルテーブル記憶部に保持されたルールを前記解析結果テーブル記憶部に記憶された訓練データに対する解析結果に適用し、解析結果を変換するルール適用部と、
    を備えることを特徴とする解析モデル学習装置。
  2. 前記ベースライン解析部で読み込む記事の数は、1記事であることを特徴とする請求項1に記載の解析モデル学習装置。
  3. 請求項1又は2に記載の解析モデル学習装置において、前記ルール適用部は、訓練データ中の同一テキスト内で、1度のルール適用により変換した解析結果と同一となる解析結果を、前記変換した解析結果とは異なる解析結果に変換することを特徴とする解析モデル学習装置。
  4. 請求項1から3のいずれか1項に記載の解析モデル学習装置において、述語項構造解析の解析モデルを学習することを特徴とする解析モデル学習装置。
  5. 訓練用データから、テキスト解析のための解析モデルを学習する解析モデル学習方法であって、
    解析モデル学習装置のベースライン解析部が、前記訓練データ中の記事の総数よりも少ない数の記事を読み込み、それ以前に読み込まれている記事と前記読み込んだ記事とに対して解析を行い解析結果の初期値を与えるベースライン解析ステップと、
    前記解析結果を解析結果テーブル記憶部に格納するステップと、
    解析モデル学習装置のルール候補作成部が、読み込まれている訓練用データに対する解析結果中の解析誤りデータから、解析結果誤り修正用の変換ルールを抽出するためのテキストの特徴の集合であるルールテンプレートに基づいて、ルール候補を作成するルール候補作成ステップと、
    前記作成したルール候補をルール候補テーブル記憶部に格納するステップと、
    解析モデル学習装置のルール選択部が、前記ルール候補テーブル中のルール候補の中でもっとも正味の正解の増加数が大きくなるルールを選択するルール選択ステップと、
    前記選択したルールを解析モデルテーブル記憶部に格納するステップと、
    解析モデル学習装置のルール適用部が、前記解析モデルテーブル記憶部に記憶されたルールを、前記解析結果テーブル記憶部に記憶された訓練データに対する解析結果に適用し、解析結果を変換するルール適用ステップと、
    解析モデル学習装置の出力部が、解析モデルテーブル記憶部に記憶されたルールを解析モデルとして外部に出力するステップと、
    を有することを特徴とする解析モデル学習方法。
  6. 前記ベースライン解析ステップにおいて、読み込む記事の数は1記事であることを特徴とする請求項5に記載の解析モデル学習方法。
  7. 請求項5又は6に記載の解析モデル学習方法において、前記ルール適用ステップは、訓練データ中の同一テキスト内で、1度のルール適用により変換した解析結果と同一となる解析結果を、前記変換した解析結果とは異なる解析結果に変換することを特徴とする解析モデル学習方法。
  8. 請求項5から7のいずれか1項に記載の解析モデル学習方法において、述語項構造解析の解析モデルを学習することを特徴とする解析モデル学習方法。
  9. コンピュータを請求項1から4のいずれか1項に記載の解析モデル学習装置を構成する各手段として機能させることを特徴とする解析モデル学習プログラム。
JP2010121257A 2010-05-27 2010-05-27 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム Active JP5466997B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010121257A JP5466997B2 (ja) 2010-05-27 2010-05-27 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010121257A JP5466997B2 (ja) 2010-05-27 2010-05-27 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Publications (2)

Publication Number Publication Date
JP2011248633A true JP2011248633A (ja) 2011-12-08
JP5466997B2 JP5466997B2 (ja) 2014-04-09

Family

ID=45413814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121257A Active JP5466997B2 (ja) 2010-05-27 2010-05-27 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム

Country Status (1)

Country Link
JP (1) JP5466997B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013011985A (ja) * 2011-06-28 2013-01-17 Nippon Telegr & Teleph Corp <Ntt> 解析モデル学習装置、方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040085A (ja) * 1998-07-22 2000-02-08 Hitachi Ltd 日本語形態素解析処理の後処理方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040085A (ja) * 1998-07-22 2000-02-08 Hitachi Ltd 日本語形態素解析処理の後処理方法および装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800063020; 定政 邦彦,安藤 真一,土井 伸一: 'SVMを用いた不要な曖昧性の除去による構文解析高速化の検討' 言語処理学会第12回年次大会発表論文集 , 20060313, p.121-124, 言語処理学会 *
CSNG200800758131; 平 博順,永田 昌明: '構造学習を用いた述語項構造解析' 言語処理学会第14回年次大会発表論文集 , 20080317, p.556-p.559, 言語処理学会 *
JPN6013047437; 定政 邦彦,安藤 真一,土井 伸一: 'SVMを用いた不要な曖昧性の除去による構文解析高速化の検討' 言語処理学会第12回年次大会発表論文集 , 20060313, p.121-124, 言語処理学会 *
JPN6013047438; 平 博順,永田 昌明: '構造学習を用いた述語項構造解析' 言語処理学会第14回年次大会発表論文集 , 20080317, p.556-p.559, 言語処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013011985A (ja) * 2011-06-28 2013-01-17 Nippon Telegr & Teleph Corp <Ntt> 解析モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP5466997B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
KR20190062413A (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
CN108475262A (zh) 用于文本处理的电子设备和方法
WO2017198031A1 (zh) 解析语义的方法和装置
CN112579469A (zh) 一种源代码缺陷检测方法与装置
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN111723192B (zh) 代码推荐方法和装置
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
US20100125448A1 (en) Automated identification of documents as not belonging to any language
JPWO2019021804A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4005343B2 (ja) 情報検索システム
JP5466997B2 (ja) 解析モデル学習装置、解析モデル学習方法及び解析モデル学習プログラム
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
Rofiq Indonesian news extractive text summarization using latent semantic analysis
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置
JP2013011985A (ja) 解析モデル学習装置、方法、及びプログラム
JP4576977B2 (ja) 情報処理装置および方法、並びにプログラム
CN114722267A (zh) 信息推送方法、装置及服务器
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP6667875B2 (ja) 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム
JP2010170303A (ja) 機械翻訳装置及びプログラム
CN111341404A (zh) 一种基于ernie模型的电子病历数据组解析方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Ref document number: 5466997

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150