JP5553779B2

JP5553779B2 - 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Info

Publication number: JP5553779B2
Application number: JP2011002940A
Authority: JP
Inventors: 賢治今村; 朋子泉; 九月貞光; 邦子齋藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-01-11
Filing date: 2011-01-11
Publication date: 2014-07-16
Anticipated expiration: 2031-01-11
Also published as: JP2012146059A

Description

この発明は、一つの形態素解析器で解析した結果を、他の形態素解析器の解析結果に変換するための形態素列変換装置と形態素変換学習装置と、それらの方法とプログラムに関する。

日本語、中国語など、単語区切りを陽に指定しない言語では、形態素は単語区切りと品詞・見出し語同定が同時に行われる。この単語区切りと品詞の体系は、文法設計者によって一貫性を保つ形で定義されている。そのため、形態素システムが異なると、一般的に単語区切りと品詞は異なる。

図１２に、２つの主要な日本語形態素解析器であるＭｅＣａｂ（非特許文献１）とＪＵＭＡＮ（非特許文献２と３）で、同一の文「ローマ帝国は征服された地域を奪い返した。」を解析した結果を示す。ＭｅＣａｂの品詞体系は４階層、ＪＵＭＡＮは２階層であるので、品詞が異なるのはもちろんであるが、単語区切りに関しても、両者は一致していない。また、図示していないが、一対一に対応付けられた形態素であっても、ＭｅＣａｂのある形態素が、ＪＵＭＡＮでは数種類の形態素に対応し、文脈によって使い分けなければならない場合もある。また、この他にも、Ｕｎｉｄｉｃという形態素辞書体系（非特許文献４）も知られている。

「ipadic version 2.7.0 ユーザーズマニュアル」http://sourceforge.jp/projects/ipadic/releases/24435/ 黒橋禎夫、河原大輔、「日本語形態素解析システムＪＵＭＡＮ version 6.0」 http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html 黒橋禎夫、居蔵由子、坂口昌子、「形態素・構文タグ付きコーパス作成の作業基準」http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/syn_guideline.pdf 伝康晴、山田篤、峰松信明、内元清貴、小磯花絵、小木曽智信、「多様な目的に適した形態素解析システム用電子化辞書の開発」 http://www.tokuteicorpus.jp/result/pdf/2006_017.pdf

例えば、ＪＵＭＡＮで形態素解析された文に対して、ＭｅＣａｂ体系で構築された辞書（例えば対訳辞書）を適用して処理を行う場合、形態素体系が異なると辞書エントリも異なっているため、ＪＵＭＡＮの形態素にそのままＭｅＣａｂの辞書を適用しても、一致するものがないため処理できない。言語処理用の辞書は、特定の形態素体系に基づいて作成するので、一度完成した辞書を他の形態素体系に変更することは容易ではない。

この課題を解決する方法としては、ある形態素体系に基づいて解析された文の形態素表記を接続して文を再現し、辞書の形態素体系に基づく解析器で再度、形態素解析を行うことが考えられる。つまり、形態素体系の異なる２つの形態素解析システムが必要になる。

しかし、言語には常に新しい表現が出現しており、２つの形態素解析器を併用した場合、両方の解析器を新しい言語表現に追従させる必要が生じる。例えば、新語が出現した場合、形態素解析器が解析可能になるように、その新語を登録する必要があり、両方の解析器を頻繁にメンテナンスしなければならないことになる。

この発明は、このような課題に鑑みてなされたものであり、変換元と変換先の両方の解析器をメンテナンスする必要がない形態素列変換装置と、形態素変換学習装置とそれらの方法とプログラムを提供することを目的とする。

この発明の形態素列変換装置は、フレーズテーブルと、未知語テーブルと、正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルと、ラティス構造構築部と、最尤フレーズ対列探索部と、出力形態素列作成部と、を具備する。フレーズテーブルと未知部テーブルとパラメータテーブルは、下記する形態素変換学習装置が作成したものである。ラティス構造構築部は、変換元形態素列を入力形態素列とし当該入力形態素列に対して、フレーズテーブルと未知語テーブルを参照して上記入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築する。最尤フレーズ対列探索部は、フレーズラティスの最尤フレーズ対列をパラメータテーブルを参照して探索する。出力形態素列作成部は、最尤フレーズ対列から変換先形態素を取り出して出力する。上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、上記ラティス構造構築部は、入力形態素列中にフレーズテーブルに含まれない入力形態素があった場合に、未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するものである。

また、この発明の形態素変換学習装置は、第１形態素解析器と、第２形態素解析器と、フレーズアライメント部と、フレーズアライメント済み訓練コーパスと、フレーズテーブル作成部と、未知語テーブル作成部と、パラメータ推定部と、フレーズテーブルと、未知語テーブルと、パラメータテーブルと、を具備する。第１形態素解析器は、訓練コーパスを一文ずつ形態素解析して第１の形態素解析結果を出力する。第２の形態素解析器は、第１形態素解析器と異なる品詞体系に基づいて訓練コーパスを一文ずつ形態素解析して第２形態素結果を出力する。フレーズアライメント部は、第１形態素解析結果と第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させたフレーズ対の列を生成する。これを正解フレーズ対列と呼ぶ。フレーズアライメント済み訓練コーパスは、その正解フレーズ対列を記録する。フレーズテーブル作成部は、フレーズアライメント済み訓練コーパスを参照して対応付けられた第１形態素解析結果と第２形態素解析結果とを集約してフレーズテーブルを作成する。未知語テーブル作成部は、フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する。パラメータ推定部は、フレーズテーブルと未知語テーブルを参照して正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成する。上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、上記パラメータ推定部は、入力形態素列中にフレーズテーブルに含まれない入力形態素があった場合に、未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するラティス構造構築部を含むものである。

この発明の形態素列変換装置は、形態素解析器を用いることなく、変換元の形態素列を変換先の形態素列に変換することができる。そのため、新しい表現が出現した場合でも、入力形態素列を生成するための変換元の形態素解析器のみに新しい表現を登録すれば良い。変換先の形態素解析器に新しい表現が存在しなくても、未知語テーブルによって自動的に作成された新語が変換先の形態素列に含まれるため、変換先の形態素解析器をメンテナンスする必要がない。また、この発明の形態素変換学習装置は、この発明の形態素列変換装置が用いるフレーズテーブルと未知語テーブルとパラメータテーブルを作成する。

この発明の形態素変換学習装置１００の機能構成例を示す図。その動作フローを示す図。フレーズテーブル１７の一部の例を示す図。未知語テーブル１８の一部の例を示す図。パラメータ推定部１６のより具体的な機能構成例を示す図。パラメータ推定部１６の動作フローを示す図。フレーズラティスの一例を示す図。素性テンプレートの例を示す図。素性テンプレートのイメージ（形象）を示す図。フレーズ対「れた」に対して図８に示した素性テンプレートを用いて素性選択を行って作成した素性の例を示す図。この発明の形態素列変換装置２００の機能構成例を示す図。ＭｅＣａｂとＪＵＭＡＮで、同一の文「ローマ帝国は征服された地域を奪い返した。」を形態素解析した結果得られる正解フレーズ対列を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔形態素変換学習装置〕
図１に、この発明の形態素変換学習装置１００の機能構成例を示す。その動作フローを図２に示す。形態素変換学習装置１００は、第１形態素解析器１０と、第２形態素解析器１１と、フレーズアライメント部１２と、フレーズアライメント済み訓練コーパス１３と、フレーズテーブル作成部１４と、未知語テーブル作成部１５と、パラメータ推定部１６と、フレーズテーブル１７と、未知語テーブル１８と、パラメータテーブル１９と、を具備する。形態素変換学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

第１形態素解析器１０は、大量の文（平文）を集めた訓練コーパスを一文ずつ形態素解析して第１の形態素解析結果を出力する（ステップＳ１０）。第１形態素解析器１０は、２つの主要な日本語形態素変換器の一方の例えばＭｅＣａｂであり、変換元の形態素列を出力する。

第２形態素解析器１１は、上記した同じ訓練コーパスを上記第１形態素解析器１０と異なる品詞体系に基づいて一文ずつ形態素解析して第２形態素結果を出力する（ステップＳ１１）。第２形態素解析器は、第１形態素解析器１０のＭｅＣａｂと異なる例えばＪＵＭＡＮであり、変換先の形態素列を出力する。なお、本実施例では、変換すべき形態素情報として、表記と品詞のみを対象とするが、標準表記や活用型、活用形を含んでもよい。

フレーズアライメント部１２は、第１形態素解析結果と第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させたフレーズ対の列を生成する（ステップＳ１２）。これを正解フレーズ対列と呼ぶ。異なる形態素解析器で解析された結果であっても、文字単位に表記を比べた場合、必ず形態素区切りが一致する箇所が存在する。図１２に、形態素を破線で結んで正解フレーズ対列を示す。図１２は、同一の文「ローマ帝国は征服された地域を奪い返した。」を、第１形態素解析器１０と第２形態素解析器１１で形態素解析した結果得られた正解フレーズ対列である。

ＭｅＣａｂによる解析結果の形態素「ローマ帝国」は、ＪＵＭＡＮの解析結果では２つの形態素「ローマ」と「帝国」に対応する。また、ＭｅＣａｂの解析結果では２つの形態素に分かれる「れ」と「た」は、ＪＵＭＡＮの１つの形態素「れた」に対応する。このフレーズアライメントを、訓練コーパス中の全文に対して行うことで、フレーズアライメント済み訓練コーパスが作成される。

フレーズテーブル作成部１４は、フレーズアライメント済み訓練コーパス１３の正解フレーズ対列を参照して、対応付けられた第１形態素解析結果と第２形態素解析結果を集約してフレーズテーブルを作成する（ステップＳ１４）。具体的には、フレーズアライメント済み訓練コーパス１３の全ての正解フレーズ対を集約し、第１形態素解析結果または第２形態素解析結果が異なるフレーズ対をフレーズテーブル１７に格納する。図３に、フレーズテーブル１７の一部を示す。変換元フレーズと変換先フレーズとが一対一に対応する。

未知語テーブル作成部１５は、フレーズアライメント済み訓練コーパス１３を参照して、変換元および変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の変換元、変換先双方の表記を特定の文字列に置換する。そして、置換の結果、異なるフレーズ対のみを未知語テーブル１８に格納する（ステップＳ１５）。図４に、未知語テーブル１８の例を示す。変換元のフレーズが〈れ、動詞―接尾〉で、変換先のフレーズが〈れ、接尾辞−動詞性接尾辞〉である場合、表記部分を「＿ＳＵＲＦ＿」に置換し、変換元を〈＿ＳＵＲＦ＿，動詞−接尾〉、変換先を〈＿ＳＵＲＦ＿，接尾辞−動詞性接尾辞〉というフレーズ対を作成する。未知語テーブル１８の１レコードは、変換元の形態素品詞がどのような変換先の品詞に変化されるかを示している。なお、変換すべき形態素情報として、標準表記を含む場合は、標準表記部分を表記部分とは異なる別の特定文字列に置換する。

パラメータ推定部１６は、フレーズテーブル１７と未知語テーブル１９を参照してフレーズアライメント済み訓練コーパス１３に格納された正解フレーズ対列を正解とした識別学習を行い、素性に対する重みパラメータを推定してパラメータテーブルを作成する（ステップＳ１６）。ここで、素性とは、何を特徴として識別学習するかを決める対象のことであり、機械学習の分野で用いられる常套句である。

図５に、パラメータ推定部１６のより具体的な機能構成例を示す。その動作フローを図６に示す。パラメータ推定部１６は、ラティス構造構築部１６０と、最尤フレーズ対列探索部１６１と、素性選択部１６２と、差分抽出部１６３と、パラメータ更新部１６４と、を備える。この実施例では、パーセプトロン学習を用いる。

先ず、パラメータ更新部１６４内のパラメータテーブル初期化手段１６４０は、全ての素性の重みが０のパラメータテーブルを作成する（ステップＳ１６４０）。存在しない素性の重みは０であるので、空のパラメータテーブルを作成してもよい。

ラティス構造構築部１６０は、変換元形態素列を入力としてその形態素列に変換元が一致するフレーズ対をフレーズテーブル１７から取得（ステップＳ１６００）してラティス構造を構築する（ステップＳ１６０）。構築したラティス構造を、フレーズラティスと称する。図７に、フレーズラティスの一例を示す。図７のフレーズラティスは、変換元形態素列「征服」、「さ」、「れ」、「た」、「地域」、から生成可能な変換先形態素の全てのフレーズ対列を一つにまとめたものである。なお、変換元形態素を含むフレーズが全くなく、ラティスが途切れる場合は、変換元形態素の表記部分を、特定の文字列（例えば＿ＳＵＲＦ＿）に置換し、未知語テーブル１８を探索する。そして、一致した未知語形態素の特定文字列部分（変換元、変換先双方）に、変換元形態素の表記を代入することにより、新たなフレーズ対を作成し、フレーズラティスに挿入する。この工夫により、必ず変換元形態素列をカバーするフレーズ対が、フレーズラティスに含まれることになる。

最尤フレーズ対列探索部１６１は、フレーズラティスの最尤フレーズ対列をパラメータテーブル１９を参照して探索する（ステップＳ１６１）。形態素変換は、変換元と変換先の形態素の間で、その出現順序は変更されないため、式（１）を満たす最尤フレーズ対列＾Ｐは、動的計画法を用いて探索することができる。

ここで、Ｐはフレーズ対列、ｆ_ｋ（Ｐ）はフレーズ対列Ｐが与えられた時のｋ番目の素性、ｗ_ｋは素性ｆ_ｋ（Ｐ）に対応する重みであり、パラメータテーブル１９を検索することで取得される。なお、パラメータテーブルに素性が存在しない場合、その重みを０とする。最尤フレーズ対列＾Ｐは、素性選択部１６２に出力される。

素性選択部１６２は、例えば図８に示した素性テンプレートを用いて素性選択を行う（ステップＳ１６２）。素性選択最尤パス探索で用いる素性は、最尤フレーズ対列＾Ｐから決定する。これには、変換元のフレーズを変換先のフレーズに対応付けるための素性（マッピング素性）と、変換先の形態素列の素性（Ｎ−ｇｒａｍ）がある。マッピング素性に対する重みは、変換元フレーズの変換先フレーズへの成り易さを表し、Ｎ−ｇｒａｍ素性に対する重みは、変換先形態素列の尤もらしさを表す。

マッピング素性は、基本的には図７のＳＷ１とＳＰ１のようにフレーズ対に含まれる形態素情報から決定されるが、変換元に関してはフレーズの直前形態素又は直後形態素のようにフレーズの周辺形態素（図７のＳＷ２，ＳＰ２，ＳＷ３，ＳＰ３）を用いても良い。また、この実施例では、Ｎ−ｇｒａｍ素性として３，２，１−ｇｒａｍを用いているが、他のＮ−ｇｒａｍを用いても良い。

図９に、素性テンプレートのイメージ（形象）を示す。図８の横方向は、形態素の出現順を表す。実線で囲まれた部分がフレーズ対であり、破線で囲った部分が素性テンプレートを表す。素性選択部１６２は、例えば、図１２のフレーズ対「れた」に対して図７に示した素性テンプレートを用いて素性選択を行い、図１０に示す素性を作成する。この実施例の素性は、形態素（または品詞）が存在するか否かに基づく二値素性である。

ラティス構造構築部１６０と最尤フレーズ対列探索部１６１は、正解となるフレーズ対列の変換元形態素列を取り出して、現在のパラメータテーブル１９を検索して最尤フレーズ対列＾Ｐを探索する。そして、出力された最尤フレーズ対列＾Ｐから、素性選択部１６２で素性選択され素性集合１が得られる（ステップＳ１６２０）。

次に、素性選択部１６２は、正解フレーズ対列そのものを用いて素性選択処理を行い素性集合２を得る（ステップＳ１６２１）。もし、現在のパラメータテーブルが正しいとすると、最尤フレーズ対列＾Ｐと正解フレーズ対列は一致するので、素性集合も同一となる。

差分抽出部１６３は、最尤フレーズ対列＾Ｐと正解フレーズ対列が異なると、素性集合１と２で異なる素性が使われるため、異なる素性のみを抽出する（ステップＳ１６３）。パラメータ更新部１６４は、素性集合１のみで使用された素性の重みを−１し、素性集合２のみで使用された素性の重みを＋１して、パラメータテーブル１９を更新する（ステップＳ１６４）。このパラメータの更新処理は、フレーズアライメント済み訓練コーパス１３中の全文に対して行っても（ステップＳ１６５のＹｅｓ）パラメータテーブル１９の重みに変化が無くなるまで繰り返される（ステップＳ１６６のＮｏ）。

以上のようにして作成されたフレーズテーブル１７と未知語テーブル１８とパラメータテーブル１９を用いることで、変換先の形態素解析器をメンテナンスする必要がない形態素列変換装置を実現することが可能になる。

なお、パラメータ推定方法にパーセプトロン学習を用いた例で説明したが、平均化パーセプトロン（参考文献：Michael Collins. 2002. Discriminative training methods for hidden markov models Theory and experiments with perceptron algorithms. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1-8, Philadelphia, July. Association for Computational Linguistics.）を用いても良い。

〔形態素列変換装置〕
図１１に、この発明の形態素列変換装置２００の機能構成例を示す。形態素列変換装置２００は、フレーズテーブル１７と、未知語テーブル１８と、パラメータテーブル１９と、ラティス構造構築部１６０と、最尤フレーズ対列探索部１６１と、出力形態素列作成部２０１と、を具備する。

フレーズテーブル１７は、訓練コーパスを一文ずつ形態素解析した第１形態素解析結果と、その形態素解析と異なる品詞体系に基づいて訓練コーパスを一文ずつ形態素解析した第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したものである。未知語テーブル１８は、フレーズアライメント済み訓練コーパスから変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録したものである。パラメータテーブル１９は、正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したものである。

フレーズテーブル１７と未知語テーブル１８とパラメータテーブル１９は、形態素変換学習装置１００で説明したものと同じである。また、ラティス構造構築部１６０と最尤フレーズ対列探索部１６１も、形態素変換学習装置１００で説明したものと同じである。

ラティス構造構築部１６０は、変換元形態素列に対して、フレーズテーブル１７と未知語テーブル１８を参照して入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築する。最尤フレーズ対列探索部１６１は、フレーズラティスの最尤フレーズ対列をパラメータテーブル１９を参照して探索する。

出力形態素列作成部２０１は、最尤フレーズ対列から変換先形態素のみを取り出して出力する。

このように、この発明の形態素列変換装置２００は、形態素解析器を用いることなく、変換元の形態素列を変換先の形態素列に変換する。そのため、新たな語が出現した場合でも、その新たな語を変換元の形態素解析器のみに登録すれば良い。変換先の形態素解析器に新語が存在しなくとも、未知語テーブル１８によって自動的に作成された語が変換先の形態素列に含まれる。

以上述べたように、この発明の形態素列変換装置２００は、２つの形態素変換器をメンテナンスすることなく形態素列の変換を可能にする。なお、変換元の形態素解析器をＭｅＣａｂ、変換先の形態素解析器をＪＵＭＡＮの例で説明したが、この関係を逆転させても良い。その場合は、形態素変換学習装置１００の第１形態素解析器１０をＪＵＭＡＮ、第２形態素解析器１１をＭｅＣａｂにして、フレーズテーブル１７と未知語テーブル１８とパラメータテーブル１９を作成する。そして、それらのテーブルを用いた形態素列変換装置に、ＪＵＭＡＮで形態素解析した変換元形態素列を入力すれば良い。

なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

訓練コーパスを一文ずつ形態素解析した第１形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、
上記正解フレーズ対列から、変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルと、
上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルと、
変換元形態素列を入力形態素列とし当該入力形態素列に対して、上記フレーズテーブルと上記未知語テーブルを参照して上記入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築部と、
上記フレーズラティスの最尤フレーズ対列を上記パラメータテーブルを参照して探索する最尤フレーズ対探索部と、
上記最尤フレーズ対列から変換先形態素を取り出して出力する出力形態素列作成部と、
を具備し、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記ラティス構造構築部は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するものであることを特徴とする形態素列変換装置。
訓練コーパスを一文ずつ形態素解析して第１の形態素解析結果を出力する第１形態素解析器と、
上記第１形態素解析器と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第２形態素結果を出力する第２形態素解析器と、
上記第１形態素解析結果と上記第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成するフレーズアライメント部と、
上記正解フレーズ対列を記録するフレーズアライメント済み訓練コーパスと、
上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第１形態素解析結果と上記第２形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成部と、
上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成部と、
上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定部と、
を具備し、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記パラメータ推定部は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するラティス構造構築部を含むことを特徴とする形態素変換学習装置。
ラティス構造構築部が、入力形態素列に対して、訓練コーパスを一文ずつ形態素解析した第１形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、上記正解フレーズ対列から変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルを、参照して変換元形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築過程と、
最尤フレーズ対列探索部が、上記フレーズラティスの最尤フレーズ対列を上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルを参照して探索する最尤フレーズ対列探索過程と、
出力形態素列作成部が、上記最尤フレーズ対から変換先形態素を取り出して出力する出力形態素列作成過程と、
を備え、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記ラティス構造構築過程は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程であることを特徴とする形態素列変換方法。
第１形態素解析器が、訓練コーパスを一文ずつ形態素解析して第１の形態素解析結果を出力する第１形態素解析過程と、
第２形態素解析器が、上記第１形態素解析過程と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第２形態素結果を出力する第２形態素解析過程と、
フレーズアライメント部が、上記第１形態素解析結果と上記第２形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成し、フレーズアライメント済み訓練コーパスを作成するフレーズアライメント過程と、
フレーズテーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第１形態素解析結果と上記第２形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成過程と、
未知語テーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成過程と、
パラメータ推定部が、上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定過程と、
を備え、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記パラメータ推定過程は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程を含むものであることを特徴とする形態素変換学習方法。
請求項１に記載した形態素列変換装置としてコンピュータを機能させるためのプログラム。
請求項２に記載した形態素変換学習装置としてコンピュータを機能させるためのプログラム。