JP5553779B2 - 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム - Google Patents

形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム Download PDF

Info

Publication number
JP5553779B2
JP5553779B2 JP2011002940A JP2011002940A JP5553779B2 JP 5553779 B2 JP5553779 B2 JP 5553779B2 JP 2011002940 A JP2011002940 A JP 2011002940A JP 2011002940 A JP2011002940 A JP 2011002940A JP 5553779 B2 JP5553779 B2 JP 5553779B2
Authority
JP
Japan
Prior art keywords
phrase
morpheme
conversion
pair
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011002940A
Other languages
English (en)
Other versions
JP2012146059A (ja
Inventor
賢治 今村
朋子 泉
九月 貞光
邦子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011002940A priority Critical patent/JP5553779B2/ja
Publication of JP2012146059A publication Critical patent/JP2012146059A/ja
Application granted granted Critical
Publication of JP5553779B2 publication Critical patent/JP5553779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、一つの形態素解析器で解析した結果を、他の形態素解析器の解析結果に変換するための形態素列変換装置と形態素変換学習装置と、それらの方法とプログラムに関する。
日本語、中国語など、単語区切りを陽に指定しない言語では、形態素は単語区切りと品詞・見出し語同定が同時に行われる。この単語区切りと品詞の体系は、文法設計者によって一貫性を保つ形で定義されている。そのため、形態素システムが異なると、一般的に単語区切りと品詞は異なる。
図12に、2つの主要な日本語形態素解析器であるMeCab(非特許文献1)とJUMAN(非特許文献2と3)で、同一の文「ローマ帝国は征服された地域を奪い返した。」を解析した結果を示す。MeCabの品詞体系は4階層、JUMANは2階層であるので、品詞が異なるのはもちろんであるが、単語区切りに関しても、両者は一致していない。また、図示していないが、一対一に対応付けられた形態素であっても、MeCabのある形態素が、JUMANでは数種類の形態素に対応し、文脈によって使い分けなければならない場合もある。また、この他にも、Unidicという形態素辞書体系(非特許文献4)も知られている。
「ipadic version 2.7.0 ユーザーズマニュアル」http://sourceforge.jp/projects/ipadic/releases/24435/ 黒橋禎夫、河原大輔、「日本語形態素解析システムJUMAN version 6.0」 http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html 黒橋禎夫、居蔵由子、坂口昌子、「形態素・構文タグ付きコーパス作成の作業基準」http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/syn_guideline.pdf 伝康晴、山田篤、峰松信明、内元清貴、小磯花絵、小木曽智信、「多様な目的に適した形態素解析システム用電子化辞書の開発」 http://www.tokuteicorpus.jp/result/pdf/2006_017.pdf
例えば、JUMANで形態素解析された文に対して、MeCab体系で構築された辞書(例えば対訳辞書)を適用して処理を行う場合、形態素体系が異なると辞書エントリも異なっているため、JUMANの形態素にそのままMeCabの辞書を適用しても、一致するものがないため処理できない。言語処理用の辞書は、特定の形態素体系に基づいて作成するので、一度完成した辞書を他の形態素体系に変更することは容易ではない。
この課題を解決する方法としては、ある形態素体系に基づいて解析された文の形態素表記を接続して文を再現し、辞書の形態素体系に基づく解析器で再度、形態素解析を行うことが考えられる。つまり、形態素体系の異なる2つの形態素解析システムが必要になる。
しかし、言語には常に新しい表現が出現しており、2つの形態素解析器を併用した場合、両方の解析器を新しい言語表現に追従させる必要が生じる。例えば、新語が出現した場合、形態素解析器が解析可能になるように、その新語を登録する必要があり、両方の解析器を頻繁にメンテナンスしなければならないことになる。
この発明は、このような課題に鑑みてなされたものであり、変換元と変換先の両方の解析器をメンテナンスする必要がない形態素列変換装置と、形態素変換学習装置とそれらの方法とプログラムを提供することを目的とする。
この発明の形態素列変換装置は、フレーズテーブルと、未知語テーブルと、正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルと、ラティス構造構築部と、最尤フレーズ対列探索部と、出力形態素列作成部と、を具備する。フレーズテーブルと未知部テーブルとパラメータテーブルは、下記する形態素変換学習装置が作成したものである。ラティス構造構築部は、変換元形態素列を入力形態素列とし当該入力形態素列に対して、フレーズテーブルと未知語テーブルを参照して上記入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築する。最尤フレーズ対列探索部は、フレーズラティスの最尤フレーズ対列をパラメータテーブルを参照して探索する。出力形態素列作成部は、最尤フレーズ対列から変換先形態素を取り出して出力する。上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、上記ラティス構造構築部は、入力形態素列中にフレーズテーブルに含まれない入力形態素があった場合に、未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するものである。
また、この発明の形態素変換学習装置は、第1形態素解析器と、第2形態素解析器と、フレーズアライメント部と、フレーズアライメント済み訓練コーパスと、フレーズテーブル作成部と、未知語テーブル作成部と、パラメータ推定部と、フレーズテーブルと、未知語テーブルと、パラメータテーブルと、を具備する。第1形態素解析器は、訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する。第2の形態素解析器は、第1形態素解析器と異なる品詞体系に基づいて訓練コーパスを一文ずつ形態素解析して第2形態素結果を出力する。フレーズアライメント部は、第1形態素解析結果と第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させたフレーズ対の列を生成する。これを正解フレーズ対列と呼ぶ。フレーズアライメント済み訓練コーパスは、その正解フレーズ対列を記録する。フレーズテーブル作成部は、フレーズアライメント済み訓練コーパスを参照して対応付けられた第1形態素解析結果と第2形態素解析結果とを集約してフレーズテーブルを作成する。未知語テーブル作成部は、フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する。パラメータ推定部は、フレーズテーブルと未知語テーブルを参照して正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成する。上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、上記パラメータ推定部は、入力形態素列中にフレーズテーブルに含まれない入力形態素があった場合に、未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するラティス構造構築部を含むものである。
この発明の形態素列変換装置は、形態素解析器を用いることなく、変換元の形態素列を変換先の形態素列に変換することができる。そのため、新しい表現が出現した場合でも、入力形態素列を生成するための変換元の形態素解析器のみに新しい表現を登録すれば良い。変換先の形態素解析器に新しい表現が存在しなくても、未知語テーブルによって自動的に作成された新語が変換先の形態素列に含まれるため、変換先の形態素解析器をメンテナンスする必要がない。また、この発明の形態素変換学習装置は、この発明の形態素列変換装置が用いるフレーズテーブルと未知語テーブルとパラメータテーブルを作成する。
この発明の形態素変換学習装置100の機能構成例を示す図。 その動作フローを示す図。 フレーズテーブル17の一部の例を示す図。 未知語テーブル18の一部の例を示す図。 パラメータ推定部16のより具体的な機能構成例を示す図。 パラメータ推定部16の動作フローを示す図。 フレーズラティスの一例を示す図。 素性テンプレートの例を示す図。 素性テンプレートのイメージ(形象)を示す図。 フレーズ対「れた」に対して図8に示した素性テンプレートを用いて素性選択を行って作成した素性の例を示す図。 この発明の形態素列変換装置200の機能構成例を示す図。 MeCabとJUMANで、同一の文「ローマ帝国は征服された地域を奪い返した。」を形態素解析した結果得られる正解フレーズ対列を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔形態素変換学習装置〕
図1に、この発明の形態素変換学習装置100の機能構成例を示す。その動作フローを図2に示す。形態素変換学習装置100は、第1形態素解析器10と、第2形態素解析器11と、フレーズアライメント部12と、フレーズアライメント済み訓練コーパス13と、フレーズテーブル作成部14と、未知語テーブル作成部15と、パラメータ推定部16と、フレーズテーブル17と、未知語テーブル18と、パラメータテーブル19と、を具備する。形態素変換学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
第1形態素解析器10は、大量の文(平文)を集めた訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する(ステップS10)。第1形態素解析器10は、2つの主要な日本語形態素変換器の一方の例えばMeCabであり、変換元の形態素列を出力する。
第2形態素解析器11は、上記した同じ訓練コーパスを上記第1形態素解析器10と異なる品詞体系に基づいて一文ずつ形態素解析して第2形態素結果を出力する(ステップS11)。第2形態素解析器は、第1形態素解析器10のMeCabと異なる例えばJUMANであり、変換先の形態素列を出力する。なお、本実施例では、変換すべき形態素情報として、表記と品詞のみを対象とするが、標準表記や活用型、活用形を含んでもよい。
フレーズアライメント部12は、第1形態素解析結果と第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させたフレーズ対の列を生成する(ステップS12)。これを正解フレーズ対列と呼ぶ。異なる形態素解析器で解析された結果であっても、文字単位に表記を比べた場合、必ず形態素区切りが一致する箇所が存在する。図12に、形態素を破線で結んで正解フレーズ対列を示す。図12は、同一の文「ローマ帝国は征服された地域を奪い返した。」を、第1形態素解析器10と第2形態素解析器11で形態素解析した結果得られた正解フレーズ対列である。
MeCabによる解析結果の形態素「ローマ帝国」は、JUMANの解析結果では2つの形態素「ローマ」と「帝国」に対応する。また、MeCabの解析結果では2つの形態素に分かれる「れ」と「た」は、JUMANの1つの形態素「れた」に対応する。このフレーズアライメントを、訓練コーパス中の全文に対して行うことで、フレーズアライメント済み訓練コーパスが作成される。
フレーズテーブル作成部14は、フレーズアライメント済み訓練コーパス13の正解フレーズ対列を参照して、対応付けられた第1形態素解析結果と第2形態素解析結果を集約してフレーズテーブルを作成する(ステップS14)。具体的には、フレーズアライメント済み訓練コーパス13の全ての正解フレーズ対を集約し、第1形態素解析結果または第2形態素解析結果が異なるフレーズ対をフレーズテーブル17に格納する。図3に、フレーズテーブル17の一部を示す。変換元フレーズと変換先フレーズとが一対一に対応する。
未知語テーブル作成部15は、フレーズアライメント済み訓練コーパス13を参照して、変換元および変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の変換元、変換先双方の表記を特定の文字列に置換する。そして、置換の結果、異なるフレーズ対のみを未知語テーブル18に格納する(ステップS15)。図4に、未知語テーブル18の例を示す。変換元のフレーズが〈れ、動詞―接尾〉で、変換先のフレーズが〈れ、接尾辞−動詞性接尾辞〉である場合、表記部分を「_SURF_」に置換し、変換元を〈_SURF_,動詞−接尾〉、変換先を〈_SURF_,接尾辞−動詞性接尾辞〉というフレーズ対を作成する。未知語テーブル18の1レコードは、変換元の形態素品詞がどのような変換先の品詞に変化されるかを示している。なお、変換すべき形態素情報として、標準表記を含む場合は、標準表記部分を表記部分とは異なる別の特定文字列に置換する。
パラメータ推定部16は、フレーズテーブル17と未知語テーブル19を参照してフレーズアライメント済み訓練コーパス13に格納された正解フレーズ対列を正解とした識別学習を行い、素性に対する重みパラメータを推定してパラメータテーブルを作成する(ステップS16)。ここで、素性とは、何を特徴として識別学習するかを決める対象のことであり、機械学習の分野で用いられる常套句である。
図5に、パラメータ推定部16のより具体的な機能構成例を示す。その動作フローを図6に示す。パラメータ推定部16は、ラティス構造構築部160と、最尤フレーズ対列探索部161と、素性選択部162と、差分抽出部163と、パラメータ更新部164と、を備える。この実施例では、パーセプトロン学習を用いる。
先ず、パラメータ更新部164内のパラメータテーブル初期化手段1640は、全ての素性の重みが0のパラメータテーブルを作成する(ステップS1640)。存在しない素性の重みは0であるので、空のパラメータテーブルを作成してもよい。
ラティス構造構築部160は、変換元形態素列を入力としてその形態素列に変換元が一致するフレーズ対をフレーズテーブル17から取得(ステップS1600)してラティス構造を構築する(ステップS160)。構築したラティス構造を、フレーズラティスと称する。図7に、フレーズラティスの一例を示す。図7のフレーズラティスは、変換元形態素列「征服」、「さ」、「れ」、「た」、「地域」、から生成可能な変換先形態素の全てのフレーズ対列を一つにまとめたものである。なお、変換元形態素を含むフレーズが全くなく、ラティスが途切れる場合は、変換元形態素の表記部分を、特定の文字列(例えば_SURF_)に置換し、未知語テーブル18を探索する。そして、一致した未知語形態素の特定文字列部分(変換元、変換先双方)に、変換元形態素の表記を代入することにより、新たなフレーズ対を作成し、フレーズラティスに挿入する。この工夫により、必ず変換元形態素列をカバーするフレーズ対が、フレーズラティスに含まれることになる。
最尤フレーズ対列探索部161は、フレーズラティスの最尤フレーズ対列をパラメータテーブル19を参照して探索する(ステップS161)。形態素変換は、変換元と変換先の形態素の間で、その出現順序は変更されないため、式(1)を満たす最尤フレーズ対列^Pは、動的計画法を用いて探索することができる。
Figure 0005553779
ここで、Pはフレーズ対列、f(P)はフレーズ対列Pが与えられた時のk番目の素性、wは素性f(P)に対応する重みであり、パラメータテーブル19を検索することで取得される。なお、パラメータテーブルに素性が存在しない場合、その重みを0とする。最尤フレーズ対列^Pは、素性選択部162に出力される。
素性選択部162は、例えば図8に示した素性テンプレートを用いて素性選択を行う(ステップS162)。素性選択最尤パス探索で用いる素性は、最尤フレーズ対列^Pから決定する。これには、変換元のフレーズを変換先のフレーズに対応付けるための素性(マッピング素性)と、変換先の形態素列の素性(N−gram)がある。マッピング素性に対する重みは、変換元フレーズの変換先フレーズへの成り易さを表し、N−gram素性に対する重みは、変換先形態素列の尤もらしさを表す。
マッピング素性は、基本的には図7のSW1とSP1のようにフレーズ対に含まれる形態素情報から決定されるが、変換元に関してはフレーズの直前形態素又は直後形態素のようにフレーズの周辺形態素(図7のSW2,SP2,SW3,SP3)を用いても良い。また、この実施例では、N−gram素性として3,2,1−gramを用いているが、他のN−gramを用いても良い。
図9に、素性テンプレートのイメージ(形象)を示す。図8の横方向は、形態素の出現順を表す。実線で囲まれた部分がフレーズ対であり、破線で囲った部分が素性テンプレートを表す。素性選択部162は、例えば、図12のフレーズ対「れた」に対して図7に示した素性テンプレートを用いて素性選択を行い、図10に示す素性を作成する。この実施例の素性は、形態素(または品詞)が存在するか否かに基づく二値素性である。
ラティス構造構築部160と最尤フレーズ対列探索部161は、正解となるフレーズ対列の変換元形態素列を取り出して、現在のパラメータテーブル19を検索して最尤フレーズ対列^Pを探索する。そして、出力された最尤フレーズ対列^Pから、素性選択部162で素性選択され素性集合1が得られる(ステップS1620)。
次に、素性選択部162は、正解フレーズ対列そのものを用いて素性選択処理を行い素性集合2を得る(ステップS1621)。もし、現在のパラメータテーブルが正しいとすると、最尤フレーズ対列^Pと正解フレーズ対列は一致するので、素性集合も同一となる。
差分抽出部163は、最尤フレーズ対列^Pと正解フレーズ対列が異なると、素性集合1と2で異なる素性が使われるため、異なる素性のみを抽出する(ステップS163)。パラメータ更新部164は、素性集合1のみで使用された素性の重みを−1し、素性集合2のみで使用された素性の重みを+1して、パラメータテーブル19を更新する(ステップS164)。このパラメータの更新処理は、フレーズアライメント済み訓練コーパス13中の全文に対して行っても(ステップS165のYes)パラメータテーブル19の重みに変化が無くなるまで繰り返される(ステップS166のNo)。
以上のようにして作成されたフレーズテーブル17と未知語テーブル18とパラメータテーブル19を用いることで、変換先の形態素解析器をメンテナンスする必要がない形態素列変換装置を実現することが可能になる。
なお、パラメータ推定方法にパーセプトロン学習を用いた例で説明したが、平均化パーセプトロン(参考文献:Michael Collins. 2002. Discriminative training methods for hidden markov models Theory and experiments with perceptron algorithms. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1-8, Philadelphia, July. Association for Computational Linguistics.)を用いても良い。
〔形態素列変換装置〕
図11に、この発明の形態素列変換装置200の機能構成例を示す。形態素列変換装置200は、フレーズテーブル17と、未知語テーブル18と、パラメータテーブル19と、ラティス構造構築部160と、最尤フレーズ対列探索部161と、出力形態素列作成部201と、を具備する。
フレーズテーブル17は、訓練コーパスを一文ずつ形態素解析した第1形態素解析結果と、その形態素解析と異なる品詞体系に基づいて訓練コーパスを一文ずつ形態素解析した第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したものである。未知語テーブル18は、フレーズアライメント済み訓練コーパスから変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録したものである。パラメータテーブル19は、正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したものである。
フレーズテーブル17と未知語テーブル18とパラメータテーブル19は、形態素変換学習装置100で説明したものと同じである。また、ラティス構造構築部160と最尤フレーズ対列探索部161も、形態素変換学習装置100で説明したものと同じである。
ラティス構造構築部160は、変換元形態素列に対して、フレーズテーブル17と未知語テーブル18を参照して入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築する。最尤フレーズ対列探索部161は、フレーズラティスの最尤フレーズ対列をパラメータテーブル19を参照して探索する。
出力形態素列作成部201は、最尤フレーズ対列から変換先形態素のみを取り出して出力する。
このように、この発明の形態素列変換装置200は、形態素解析器を用いることなく、変換元の形態素列を変換先の形態素列に変換する。そのため、新たな語が出現した場合でも、その新たな語を変換元の形態素解析器のみに登録すれば良い。変換先の形態素解析器に新語が存在しなくとも、未知語テーブル18によって自動的に作成された語が変換先の形態素列に含まれる。
以上述べたように、この発明の形態素列変換装置200は、2つの形態素変換器をメンテナンスすることなく形態素列の変換を可能にする。なお、変換元の形態素解析器をMeCab、変換先の形態素解析器をJUMANの例で説明したが、この関係を逆転させても良い。その場合は、形態素変換学習装置100の第1形態素解析器10をJUMAN、第2形態素解析器11をMeCabにして、フレーズテーブル17と未知語テーブル18とパラメータテーブル19を作成する。そして、それらのテーブルを用いた形態素列変換装置に、JUMANで形態素解析した変換元形態素列を入力すれば良い。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 訓練コーパスを一文ずつ形態素解析した第1形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、
    上記正解フレーズ対列から、変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルと、
    上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルと、
    変換元形態素列を入力形態素列とし当該入力形態素列に対して、上記フレーズテーブルと上記未知語テーブルを参照して上記入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築部と、
    上記フレーズラティスの最尤フレーズ対列を上記パラメータテーブルを参照して探索する最尤フレーズ対探索部と、
    上記最尤フレーズ対列から変換先形態素を取り出して出力する出力形態素列作成部と、
    を具備し、
    上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
    上記ラティス構造構築部は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するものであることを特徴とする形態素列変換装置。
  2. 訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する第1形態素解析器と、
    上記第1形態素解析器と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第2形態素結果を出力する第2形態素解析器と、
    上記第1形態素解析結果と上記第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成するフレーズアライメント部と、
    上記正解フレーズ対列を記録するフレーズアライメント済み訓練コーパスと、
    上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第1形態素解析結果と上記第2形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成部と、
    上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成部と、
    上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定部と、
    を具備し、
    上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
    上記パラメータ推定部は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するラティス構造構築部を含むことを特徴とする形態素変換学習装置。
  3. ラティス構造構築部が、入力形態素列に対して、訓練コーパスを一文ずつ形態素解析した第1形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、上記正解フレーズ対列から変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルを、参照して変換元形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築過程と、
    最尤フレーズ対列探索部が、上記フレーズラティスの最尤フレーズ対列を上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルを参照して探索する最尤フレーズ対列探索過程と、
    出力形態素列作成部が、上記最尤フレーズ対から変換先形態素を取り出して出力する出力形態素列作成過程と、
    を備え、
    上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
    上記ラティス構造構築過程は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程であることを特徴とする形態素列変換方法。
  4. 第1形態素解析器が、訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する第1形態素解析過程と、
    第2形態素解析器が、上記第1形態素解析過程と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第2形態素結果を出力する第2形態素解析過程と、
    フレーズアライメント部が、上記第1形態素解析結果と上記第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成し、フレーズアライメント済み訓練コーパスを作成するフレーズアライメント過程と、
    フレーズテーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第1形態素解析結果と上記第2形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成過程と、
    未知語テーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成過程と、
    パラメータ推定部が、上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定過程と、
    を備え、
    上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
    上記パラメータ推定過程は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程を含むものであることを特徴とする形態素変換学習方法。
  5. 請求項1に記載した形態素列変換装置としてコンピュータを機能させるためのプログラム。
  6. 請求項2に記載した形態素変換学習装置としてコンピュータを機能させるためのプログラム。
JP2011002940A 2011-01-11 2011-01-11 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム Active JP5553779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011002940A JP5553779B2 (ja) 2011-01-11 2011-01-11 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011002940A JP5553779B2 (ja) 2011-01-11 2011-01-11 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Publications (2)

Publication Number Publication Date
JP2012146059A JP2012146059A (ja) 2012-08-02
JP5553779B2 true JP5553779B2 (ja) 2014-07-16

Family

ID=46789573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011002940A Active JP5553779B2 (ja) 2011-01-11 2011-01-11 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム

Country Status (1)

Country Link
JP (1) JP5553779B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123511A (ja) * 2000-10-13 2002-04-26 Atr Onsei Gengo Tsushin Kenkyusho:Kk 形態素変換規則生成装置及び形態素列変換装置
JP5377889B2 (ja) * 2008-06-05 2013-12-25 日本放送協会 言語処理装置およびプログラム

Also Published As

Publication number Publication date
JP2012146059A (ja) 2012-08-02

Similar Documents

Publication Publication Date Title
JP4058057B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US8713037B2 (en) Translation system adapted for query translation via a reranking framework
US8543563B1 (en) Domain adaptation for query translation
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
WO2003056450A1 (fr) Procede et appareil d'analyse syntaxique
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006268375A (ja) 翻訳メモリシステム
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP5656353B2 (ja) マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置
US20140156258A1 (en) Foreign language writing support apparatus and method
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
US8135573B2 (en) Apparatus, method, and computer program product for creating data for learning word translation
JP5193798B2 (ja) 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP5553779B2 (ja) 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP5150277B2 (ja) 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体
Tambouratzis et al. Machine Translation with Minimal Reliance on Parallel Resources
JP2008140204A (ja) データ検索システム及びプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
KR20200041113A (ko) 외국어 문장을 한국어로 번역하는 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140527

R150 Certificate of patent or registration of utility model

Ref document number: 5553779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150