JP2014021863A

JP2014021863A - 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム

Info

Publication number: JP2014021863A
Application number: JP2012161994A
Authority: JP
Inventors: Katsuto Sudo; 克仁須藤; Masaaki Nagata; 昌明永田; Shinsuke Mori; 信介森
Original assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Current assignee: Kyoto University; Nippon Telegraph and Telephone Corp
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2014-02-03
Anticipated expiration: 2032-07-20
Also published as: JP5825639B2

Abstract

【課題】記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができるようにする。
【解決手段】パラメータ初期化部２２３によって、全ての記号列組データにおいて共起する、第１の体系の記号と、第２の体系の０個以上の連続する記号の先頭及び末尾の各々に記号を追加した部分記号列のうちの対応する記号バイグラムとの対応付けの各々に対して、記号バイグラム確率を定義して初期値を設定する。期待値計算部２２３によって、記号バイグラム確率に基づいて、記号バイグラムとの対応付けの各々に対する期待値を計算し、パラメータ更新部２２４によって、各記号バイグラム確率を更新する。停止条件判定部２２５によって停止条件が満たされたと判定されるまで、期待値計算部２２３及びパラメータ更新部２２４を繰り返す。記号列対応付け処理部２２６によって、記号バイグラム確率に基づいて、記号間の対応付けを行う。
【選択図】図１

Description

本発明は、記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに係り、特に、異なる体系の記号列の組における記号の対応付けを行う記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムに関する。

ある言語から別の言語への翻訳を機械的に実現する機械翻訳や、ある言語の音韻体系で表記された語句を別の言語の音韻体系での表記に変換する機械翻字を、統計モデルとして表現するために、互いが対応する文や語句の組を統計モデルの学習のためのデータとして利用して、文を構成する語句同士や、語句を構成する文字同士の対応関係を推定することが広く行われている(例えば、非特許文献1、非特許文献2、非特許文献3)。こうした記号間の対応関係の推定方法の多くは、期待値最大化(EM)アルゴリズムに基づいており、記号間の対応関係を明に与えることなく、対応する記号列の組から個々の記号の対応を学習可能である。

非特許文献1および非特許文献2は機械翻訳のための単語対応付けを目的としており、翻訳における単語の順序の入れ替えを含めた多対1の単語対応付け方法について記している。また、非特許文献3は英語の音韻表現と日本語におけるカタカナ語のローマ字化された表記との間での音韻記号-ローマ字間の1対多の対応付け方法について記している。さらに、非特許文献4は英語の文字と音韻表記との多対多の対応付けについて記している。

特開2011-175500号公報

Peter F. Brown他, "The Mathematics of Statistical Machine Translation: Parameter Estimation", Computational Linguistics, Volume 19, Number 2, pp. 263-311, 1993 Stephen Vogel他, "HMM-Based Word Alignment in Statistical Translation", Proceedings of The 16th International Conference on Computational Linguistics, pp.836-841, 1996. Kevin Knight and Jonathan Graehl, "Machine Transliteration", Computational Linguistics, Volume 24, Number 4, pp.599-612, 1998. Sittichai Jiampojamarn他, "Applying Many-to-Many Alignments and Hidden Markov Models to Letter-to-Phoneme Conversion", Proceedings of NAACL HLT 2007, pp 372-379, 2007.

本発明ではこうした記号間の対応付けのうち、機械翻字のように対応する記号間で順序の並べ替えが起こらない場合の対応付けにおける課題を解決する。通常機械翻訳においては語順の入れ替えが必要であるため、本発明の扱う問題とは異なるが、特許文献1に記載のような方法によって翻訳言語対のどちらかの語順をもう一方の言語の語順と同等になるように並べ替えることによって、並べ替えが必要ない問題に帰着することも可能である。記号の並べ替えが必要なくなることによって、記号の連接関係などの制約をより強くしたモデルを利用することができる。

上記の非特許文献1や非特許文献2は、記号の順序入れ替えを考慮していたため、ある記号間の変換を制約するために、その記号間の位置に依存しない変換確率と、記号の並べ替え距離を利用している。このため、記号の連接関係は直接考慮されておらず、十分な制約を与えることが難しい。

一方、非特許文献3や非特許文献4では、多対1、あるいは多対多の記号対応付けのすべての可能性を考慮し、期待値最大化（EM）アルゴリズムによって最適な対応付けを推定している。これらの技術では部分記号列同士の対応付けを行うことができる一方で、“an”と“ann”のような共通部分を持つ部分記号列を全く別の記号として区別してしまうため、制約が過剰になり、学習時に十分な統計量が得られない可能性がある。

本発明は、上記の事情を鑑みてなされたもので、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る記号列対応付け装置は、異なる第１の体系及び第２の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け装置であって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第１の体系の記号と、前記第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第１の体系の記号と対応する前記第２の体系の部分記号列のうちのＮグラム（Ｎは２以上の整数）との対応付けの各々に対して、前記対応付けの確率を表わすＮグラム確率の初期値を設定する初期値設定手段と、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するＮグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するＮグラム確率を更新するパラメータ更新手段と、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、前記記号列組の各々に対して、前記Ｎグラム確率の各々に基づいて、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け手段と、を含んで構成されている。

本発明に係る記号列対応付け方法は、異なる第１の体系及び第２の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け装置であって、初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第１の体系の記号と、前記第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第１の体系の記号と対応する前記第２の体系の部分記号列のうちのＮグラム（Ｎは２以上の整数）との対応付けの各々に対して、前記対応付けの確率を表わすＮグラム確率の初期値を設定し、期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するＮグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するＮグラム確率を更新し、停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、記号列対応付け手段によって、前記記号列組の各々に対して、前記Ｎグラム確率の各々に基づいて、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける。

本発明に係る記号列対応付け装置及び記号列対応付け方法によれば、第１の体系の記号と、第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、第１の体系の記号と対応する第２の体系の部分記号列のうちのＮグラムとの対応付けの各々に対するＮグラム確率を、期待値を最大化するように、繰り返し更新して、Ｎグラム確率に基づいて、第１の体系の記号と第２の体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる。

本発明に係る記号列変換モデル学習装置は、上記の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第１の体系の記号列と前記第２の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段を含んで構成されている。

本発明に係る記号列変換モデル学習方法は、学習手段によって、上記の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第１の体系の記号列と前記第２の体系の記号列との間の変換を行うための記号列変換モデルを学習する。

本発明に係る記号列変換モデル学習装置及び記号列変換モデル学習方法によれば、精度よく対応付けられた記号列組に基づいて、第１の体系の記号列と第２の体系の記号列との間の変換を精度よく行うための記号列変換モデルを得ることができる。

本発明に係る記号列変換装置は、上記の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第１の体系及び前記第２の体系の何れか一方の記号列を、前期第１の体系及び前記第２の体系の何れか他方の記号列に変換する記号列変換手段を含んで構成されている。

本発明に係る記号列変換方法は、記号列変換手段によって、上記の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第１の体系及び前記第２の体系の何れか一方の記号列を、前期第１の体系及び前記第２の体系の何れか他方の記号列に変換する。

本発明に係る記号列変換装置及び記号列変換方法によれば、第１の体系の記号列と第２の体系の記号列との間の変換を精度よく行うことができる。

本発明に係るプログラムは、コンピュータを、上記の記号列対応付け装置、記号列変換モデル学習装置、又は記号列変換装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の記号列対応付け装置、方法、及びプログラムによれば、第１の体系の記号と、第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、第１の体系の記号と対応する第２の体系の部分記号列のうちのＮグラムとの対応付けの各々に対するＮグラム確率を、期待値を最大化するように、繰り返し更新して、Ｎグラム確率に基づいて、第１の体系の記号と第２の体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる体系の記号列の組における記号の対応付けを精度よく行うことができる、という効果が得られる。

本発明の記号列変換モデル学習装置、方法、及びプログラムによれば、精度よく対応付けられた記号列組に基づいて、第１の体系の記号列と第２の体系の記号列との間の変換を精度よく行うための記号列変換モデルを得ることができる、という効果が得られる。

本発明の記号列変換装置、方法、及びプログラムによれば、第１の体系の記号列と第２の体系の記号列との間の変換を精度よく行うことができる、という効果が得られる。

本発明の第１の実施の形態に係る記号列変換装置の構成を示す概略図である。記号列組データの例を示す図である。英語とカタカナの多対１の対応付け結果の例を示す図である。本発明の第１の実施の形態に係る記号列変換装置における記号対応付け処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係る記号列変換装置の構成を示す概略図である。本発明の第２の実施の形態に係る記号列変換装置における記号対応付け処理ルーチンの内容を示すフローチャートである。英語とカタカナの１対多の対応付け結果の例を示す図である。多対多の対応付け結果の例を示す図である。記号対応付記号列組データの例を示す図である。記号列変換ＷＦＳＴの状態遷移記述の例を示す図である。記号列変換の入力例を示す図である。記号列変換の出力例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

〔第１の実施の形態〕
＜発明の概要＞
第1の体系の記号列E=e₁,e₂,...,e_Iから第2の体系の記号列F=f₁;,f₂,...,f_Jへの変換確率は、第2の体系の記号が対応付けられる第1の体系の記号の位置を表すA={a_j|1≦j≦J,0≦a_j≦ I}（ただしa_j=0はf_jに対応する第1の体系の記号が存在しないことを表す)を用いて以下の式で表現される。

ただし、A^*はE,Fに対するすべての可能な対応付けの集合であるが、すべての対応付けを考慮した計算を行うことは困難であるため、一般的には確率が最大となる対応付けAを用いて以下の（２）式のように近似する。

p(a_j｜a_j-1,I)は第2の体系の記号f_jに対応する第1の体系の記号e_ajが、一つ前のf_j-1が対応する第1の体系の記号e_aj-1に制約されることを示しており、非特許文献2では(a_j-a_j-1)、すなわちf_jとf_j-1が対応する第1の体系の記号間の(並べ替え)距離の関数として表現される。ここで、各a_jは同一の値を取り得るが、一つの値しか持たないことから、第1の体系の記号と第2の体系の記号は１対多の対応を持つことが仮定されていることが分かる(例えばa₁=a₂=1であれば、第1の体系の記号e₁が第2の体系の記号f₁、f₂と対応することを示す)。また、このモデルは前向き後向き(forward-backward)法を利用した期待値最大化アルゴリズムによって効率的に学習できることが知られている。このモデルはあるe_iに対応するf_jの相互依存性が前記並べ替え距離の関数のみで記述されていることから、例えば“マカ”と“maca”の対応付けにおいて「“マ”と“ma”が対応し、“カ”が“ca”と対応する」確率と「“マ”と“m”が対応し、“カ”が“aca”と対応する」確率とが等しくなってしまうような問題がある。非特許文献1では繁殖確率(fertility)と呼ばれる、1つの記号が何個の記号と対応するかを記述する確率分布を導入しているが、期待値最大化アルゴリズムによる効率的な解法が利用できなくなるという問題点が知られている。

本発明では、記号の並べ替えを考慮しなくてよいことから、第1の体系の記号e_i(0≦i≦I、なお、i=0は第2の体系の記号に対応する第1の体系の記号が存在しないことを示す)には、「1個以上の“連続する”第2の体系の記号が対応する」「対応する第2の体系の記号が存在しない」の場合のみを考慮し、さらに連続する第2の体系の記号の連接関係を記号バイグラムモデルで制約する。ここで、e_iに対応する第2の体系の連続するn_i個(0≦n_i≦J)の部分記号列fⁱ ₁,...,fⁱ _niに対して、e_iに対応する第2の体系の記号の先頭と末尾を表す記号f₀、f_ni+1の存在を仮定すると、n+2個の部分記号列^fⁱ=fⁱ ₀,fⁱ ₁,...,fⁱ _ni,fⁱ _ni+1がe_iに対応すると考えることができる。これにより、e_iに対応する第2の体系の記号の先頭と末尾に対して制約を加えることができ、前記の“マカ”から“maca”への対応付けにおいて、“マ”が子音文字“m”と母音文字“a”、“カ”が子音文字“c”と母音文字“a”に対応する可能性が高い、というような関係を自然に表現することができる。またそれと同時に、n=0、すなわち「対応する第2の体系の記号が存在しない」場合を自然に表現することができる。以上より、本発明の対応付けに基づくEからFへの変換確率は以下の（３）式で表現される。

パラメータは、上記(3)式で用いている記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)の各々であり、記号列組データにおいて共起する全てのf_j ⁱ, f_j-1 ⁱ, e_i の組み合わせに対して定義される。

本発明のモデルもHMMモデルと同様に前向き後向き法を利用した期待値最大化アルゴリズムによって効率的に学習することが可能である。また、期待値最大化アルゴリズムは得られる解が開始時のパラメータ初期値に強く依存することが広く知られており、複雑度の低いモデルを期待値最大化アルゴリズムによって学習した後、その値を複雑度の高いモデルの初期値として利用することが行われることが多い。本発明においても上記(3)式のモデルの学習に先立って、例えば非特許文献1のモデル1、通称IBMモデル1を先に学習して、学習結果をパラメータ初期値として利用することができる。

＜システム構成＞
本発明の第１の実施の形態に係る記号列変換装置１００は、第１の言語体系の記号列（単語）と第２の言語体系の記号列(単語)との対訳である記号列組データが入力され、記号列変換モデルを学習する。また、記号列変換装置１００は、学習した記号列変換モデルを用いて、入力された第１の言語体系の入力記号列を第２の言語体系の記号列へ変換（翻訳）する。この記号列変換装置１００は、ＣＰＵと、ＲＡＭと、後述する記号対応付け処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１に示すように、記号列変換装置１００は、入力部１０と、演算部２０と、出力部３０とを備えている。

入力部１０は、キーボードなどの入力装置から入力された記号列組データとして、相互が対訳となっている記号列組の集合を受け付ける。また、入力部１０は、キーボードなどの入力装置から、変換元（翻訳元）の第１の言語体系の入力記号列を受け付ける。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

記号列組データは対訳記号列対が自明な構造のファイルである。本実施の形態においては、図２に示すように、英語(第１の言語体系)の記号列と日本語(第２の言語体系)の記号列とが、１行に1単語ずつ記載され、かつ同じ行数に対応する英語の記号列、日本語の記号列語は対訳として対応がとれている。例えば、記号列組同士はタブ文字によって分割されており、各記号（アルファベットおよびカタカナ）は1文字ずつ空白文字によって分割されている。

演算部２０は、記号列組データベース２１、記号対応付け部２２、記号対応付記号列組データベース２３、記号列変換モデル学習部２４、記号列変換モデル記憶部２５、及び記号列変換部２６を備えている。

記号列組データベース２１は、入力部１０により受け付けた記号列組データを記憶する。各記号列組は１個以上の第1の言語体系の記号からなる記号列と１個以上の第２の言語体系の記号からなる記号列であって、記号間の対応は全く不明でもよいし、一部に1対1、多対1、1対多、あるいは多対多の対応が与えられていてもよい。対応が与えられている場合は、その対応を以後の計算における制約条件として課すことで、与えられた対応を満足するような対応付けモデルの学習及び対応付けを行うことが可能である。制約の付加については、制約を満足しない対応付けについて対応付け確率を0と設定することで自然に表現することが可能である。なお、記号列組データベース２１は、外部に設けられ、記号列変換装置１００とネットワークで接続されていてもよい。

記号対応付け部２２は、記号列変換で入力となる第１の言語体系の記号列と、当該第１の言語体系の記号列と対応する、出力となる第２の言語体系の記号列との組からなる記号列組データにおける記号間の対応付けを行う。

記号対応付け部２２は、記号列組データ読み込み部２２１、パラメータ初期化部２２２、期待値計算部２２３、パラメータ更新部２２４、停止判定部２２５、記号列対応付け処理部２２６、及び記号対応付記号列組データ出力部２２７を備えている。

記号列組データ読み込み部２２１は、記号列組データベース２１から全ての記号列組データを読み込む。

パラメータ初期化部２２２は、読み込んだ記号列組データにおいて共起する全てのf_j ⁱ , f_j-1 ⁱ, e_iの組み合わせに対して定義される記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)の各々に対して、初期値を与える。各パラメータp(f_j ⁱ|f_j-1 ⁱ,e_i)の初期値は一様分布として設定してもよいが、前述の通り、期待値最大化アルゴリズムでは初期値によって収束に必要な繰り返し回数やモデル精度が変化するため、本実施の形態では、IBMモデル1などの計算がより簡便なモデルを利用して初期値を設定する。IBMモデル1は第1の言語体系の記号e_iが第2の言語体系の記号f_jに対応する確率pIBM1(f_j|e_i)を持つため、すべてのf_j-1 ⁱに対してp(f_j ⁱ|f_j-1 ⁱ,e_i) = pIBM1(f_j|e_i)となるように初期値の設定を行えばよい。

また、パラメータ初期化部２２２は、読み込んだ記号列組データにおいて共起する全てのf_j ⁱ , f_j-1 ⁱ, e_iの組み合わせを求める場合には、第2の言語体系の記号列Ｆにおいて、第１の言語体系の記号e_iに対応する可能性がある、０個以上の連続する記号からなる部分記号列の全てのパターンに対して先頭と末尾を表す記号を付加し、第１の言語体系の記号e_iと、対応する第２の言語体系の部分記号列（記号を付加したもの）との組み合わせを求め、当該組み合わせ毎に、当該組み合わせにおける第１の言語体系の記号e_iと第２の言語体系の部分記号列のうちの記号バイグラムの各々との対応付けの各々について、記号バイグラム確率を定義する。

例えば、記号列「マット」と記号列「mat」との組に対して、以下のような対応する記号と部分記号列との組み合わせ毎に、当該組み合わせにおける記号バイグラムとの対応付けの各々について、記号バイグラム確率を定義する。

マ → <s> m a </s>
ッ → <s> </s> （「ッ」に対応する英語の記号は存在しない。）
ト → <s> t </s>

ただし、<s>は部分記号列の先頭を表す記号であり、 </s>は、部分記号列の末尾を表す記号である。

期待値計算部２２３は、期待値最大化アルゴリズムで利用する各記号間の対応付けの期待値の計算を行う（期待値最大化アルゴリズムにおけるいわゆる「Ｅステップ」）。記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)に対応するバイグラム期待値E_p(f_j ⁱ,f_j-1 ⁱ,e_i)は、現在のパラメータを利用した場合に、第1の言語体系の記号e_i に第2の言語体系の記号fⁱ _j-1 が対応しているという条件の下でf_j ⁱ がf _j-1 ⁱ に続く第2の言語体系の記号としてe_i に対応するという事象の期待生起回数(条件付き期待値)であると解釈できる。連続するf _j-1 ⁱとf_j ⁱがe_i に対応するという事象の(条件付きでない)期待生起回数(期待値)をE_p(f_j ⁱ,f_j-1 ⁱ,e_i)とすると、条件付き期待値であるバイグラム期待値は以下の（４）式のように計算される．

V_fは記号列組データ中に現れた第2の言語体系の記号の集合である。期待値E_p(f_j ⁱ,f_j-1 ⁱ,e_i) は単純には以下の（５）式のように、「連続するf _j-1 ⁱ とf_j ⁱ がe_i に対応するという事象」を含む対応付け確率の総和として表現される。

ただしA′ は「連続するf _j-1 ⁱ とf_j ⁱ がe_i に対応する」ような対応付けである。この値を可能な対応付けすべてに対して計算することは非常に計算量が多く困難であるが、当該技術分野において広く知られている前向き後向き法と呼ばれる動的計画法によって効率的に計算することも可能である。

この期待値の計算において、一部の記号列組データで記号間の対応が与えられている場合には、前述の通り当該対応付けと矛盾する対応付けについて対応付け確率を0として計算することで、強制的に与えられた対応付けと合致する対応付け結果を得ることができる。

パラメータ更新部２２４は、期待値最大化アルゴリズムに従ってパラメータである上記(3)式の記号バイグラム確率を更新する(期待値最大化アルゴリズムにおけるいわゆる「Mステップ」)。更新式は以下の（６）式の通りである。パラメータの更新はすべてのパラメータ（すべてのf_b, f_a, e_i の組み合わせ）に対して行う。

p⁺はパラメータの更新結果であることを示す。

停止判定部２２５は、設定した停止条件を満足したかどうかを判断し、停止条件を満足した場合は次の記号列対応付け処理部２２６の処理へ進み、満足しない場合は期待値計算部２２３へ戻る。このように、期待値最大化アルゴリズムにおいては、期待値計算部２２３とパラメータ更新部２２４の処理が繰り返し実行される。停止条件としては、「記号列組データにおける尤度(記号列組を与えたときの上記(3)式の確率値)変化量が閾値を下回る」、「一定の繰り返し回数を経過した」などが利用可能である。

記号列対応付け処理部２２６は、最終的に確定したパラメータ（記号バイグラム確率）を用い、最適な記号対応付けを計算により求める。最適な記号対応付けの探索には公知のビタビ(Viterbi)アルゴリズム等を利用することができる。

例えば、図３に示すような、英語とカタカナの多対1の対応付け結果が得られる。なお、図３の表記は機械翻訳の分野で広く利用されているプログラムGIZA++ の出力と互換であり、「記号列の情報（記号数、対応付けスコア）」「第1の言語体系の記号列」「各第2の言語体系の記号に対応する第1の言語体系の記号の位置」を各行に順番に記載している。

記号対応付記号列組データ出力部２２７は、記号列対応付け処理部２２６により求められた記号間の対応付けを記号列組データに付与したものを、記号対応付記号列組データベース２３に格納する。

記号対応付記号列組データベース２３は、記号間の対応付けが与えられた記号対応付記号列組データを記憶している。

記号列変換モデル学習部２４は、記号対応付記号列組データベース２３から読み込んだ記号対応付記号列組データを入力として、記号間の変換を行うための統計モデルである記号列変換モデルの学習を行う。この記号列変換モデルとしては、記号組のNグラムモデル(特許第４２６６２２２号公報を参照)を利用することができる。

具体的には、記号対応付記号列組データベース２３に記憶されたデータを参照して、同時生起確率を、記号列組を構成する第１の言語体系の記号列（ソース単語）および第２の言語体系の記号列（ターゲット単語）において、ソース単語の文字とターゲット単語の文字との文字組の出現順序の確率（出現順序の頻度）として計算し、記号列変換モデルを作成する。ここで、出現順序の確率とは、着目するソース単語の文字またはターゲット単語の文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、あるソース単語の文字の出現と、当該ソース単語の文字の変換結果（翻字結果）であるターゲット単語の文字の出現とが同時に生起する確率として、あるソース単語の文字の直前（Ｎ−１）個の文字の履歴と、当該ターゲット単語の文字の直前（Ｎ−１）個の文字の履歴とを用いて、記号列変換モデルを作成する。なお、Ｎは、Ｎグラム言語モデルにおける「Ｎ」を示す数値である。

なお、記号列変換モデルとして、統計的機械翻訳において利用されている句翻訳モデル(非特許文献5)を利用することもできる。

非特許文献5：Philipp Koehn他, “Statistical Phrase-Based Translation”, Proceedings of HLT-NAACL 2003, pp.48-54, 2003

記号列変換モデル記憶部２５１は、記号列変換モデル学習部２４によって学習された記号列変換モデルを記憶する。

記号列変換部２６は、記号列変換モデル学習部２４で学習された記号列変換モデルを利用して、入力される第1の言語体系の記号列を第２の言語体系の文字列に変換して出力する。変換方法については、記号列変換モデルに対応する形で、特許第４２６６２２２号公報や非特許文献5に記載の方法を利用することができる。

具体的には、記号列変換部２６は、記号列変換確率モデルに基づき、記号列組を構成する第１の言語体系の記号列と第２の言語体系の記号列をそれぞれ構成するソース文字およびターゲット文字に関して、文字（記号）の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベースを予め作成する。そして、記号列変換部２６は、状態遷移情報データベースが予め作成された状態で、入力された第１の言語体系の文字列を受け付ける。続いて、記号列変換部２６は、予め作成された状態遷移情報データベースに基づいて、入力された第１の言語体系の文字列に対応する第２の言語体系の文字列を探索する。続いて、探索された第２の言語体系の文字列が、出力部３０により出力される。

＜記号列変換装置の作用＞
次に、第１の実施の形態に係る記号列変換装置１００の作用について説明する。まず、対訳となっている第１の言語体系の記号列及び第２の言語体系の記号列の組である記号列組データが、記号列変換装置１００に複数入力されると、記号列変換装置１００によって、入力された複数の記号列組データが、記号列組データベース２１に格納される。そして、記号列変換装置１００によって、図４に示す記号対応付け処理ルーチンが実行される。

まず、ステップＳ１０１において、記号列組データベース２１から、全ての記号列組データを読み込む。そして、ステップＳ１０２において、上記ステップＳ１０１で取得した記号列組データにおいて共起する全てのf_j ⁱ , f_j-1 ⁱ, e_i の組み合わせに対して定義される記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)の各々に対する初期値を、IBMモデル1などの計算がより簡便なモデルを利用して計算する。

次のステップＳ１０３では、上記ステップＳ１０２で計算され、又は後述するステップＳ１０４で前回更新された記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)に基づいて、上記（４）式、（５）式に従って、共起する全てのf_j ⁱ , f_j-1 ⁱ, e_i の組み合わせに対するバイグラム期待値の各々を計算する。

ステップＳ１０４では、上記ステップＳ１０３で計算されたバイグラム期待値に基づいて、上記（６）式に従って、共起する全てのf_j ⁱ , f_j-1 ⁱ, e_i の組み合わせに対して定義される記号バイグラム確率p(f_j ⁱ|f_j-1 ⁱ,e_i)の各々を更新する。

そして、ステップＳ１０５において、停止条件（例えば、繰り返し回数が所定回数に到達すること）を満たすか否かを判定する。停止条件を満たさない場合には、上記ステップＳ１０３へ戻る。一方、停止条件を満たす場合には、ステップＳ１０６において、上記ステップＳ１０４で最終的に更新された記号バイグラム確率に基づいて、記号列組データの各々において、記号間の対応付けを探索し、第１の言語体系の記号列と第２の言語体系の記号列とにおける記号間の最適な対応付けを求める。

そして、ステップＳ１０７において、記号列組データの各々に対して、上記ステップＳ１０６で求めた記号間の対応付けを付与して、記号対応付記号列組データベース２３に格納し、記号対応付け処理ルーチンを終了する。

そして、記号列変換装置１００は、記号対応付記号列組データベース２３に格納されたデータに基づいて、記号列組の各記号列（第１の言語体系の単語および第２の言語体系の単語）において、記号の同時生起確率を、履歴を条件とする条件付き確率として計算し、記号列変換モデルを作成し、記号列変換モデルを、記号列変換モデル記憶部２５１に格納する。

そして、記号列変換装置１００は、記号列変換モデルに基づき、記号列組を構成する第１の言語体系（変換元）の記号列と第２の言語体系（変換先）の記号列をそれぞれ構成する記号に関して、記号の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベースを予め作成する。

そして、変換元となる第１の言語体系の記号列が、記号列変換装置１００に入力されると、記号列変換装置１００は、予め作成しておいた状態遷移情報データベースに基づいて、入力された第１の言語体系の記号列に対応する第２の言語体系の記号列を探索する。探索された第２の言語体系の記号列が、記号列変換結果として出力部３０による出力される。

以上説明したように、本発明の第１の実施の形態に係る記号列変換装置によれば、第１の言語体系の記号と、第２の言語体系の０個以上の連続する部分記号列の先頭及び末尾の各々に記号を追加した部分記号列とから得られる、第１の言語体系の記号と対応する第２の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第１の言語体系の記号と第２の言語体系の記号とを対応付けることにより、記号の連接関係を考慮して、異なる言語体系の記号列の組における記号間の対応付けを精度よく行うことができる。

また、精度よく対応付けられた記号列組に基づいて、第１の言語体系の記号列から第２の言語体系の記号列への変換を精度よく行うための記号列変換モデルを学習することができる。また、学習された記号列変換モデルを用いて、第１の言語体系の記号列から第２の言語体系の記号列への変換を精度よく行うことができる。

また、第1の言語体系の記号と第2の言語体系の記号の多対1の対応付けにおいて、第2の言語体系の記号に対応する複数の第1の言語体系の記号の連接関係や、対応する第1の言語体系の記号が存在しない第2の言語体系の記号の存在を自然に統計モデルとして表現でき、高い精度で記号の対応付けやそれに基づく記号列変換が実現できる。

〔第２の実施の形態〕
＜システム構成＞
次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、第１の言語体系の記号列と第２の言語体系の記号列とにおいて多対多の記号間の対応付けを求めている点が、第１の実施の形態と異なっている。

図５に示すように、第２の実施の形態に係る記号列変換装置２００の演算部２２０は、記号列組データベース２１、記号対応付け部２２、記号対応付記号列組データベース２３、記号列変換モデル学習部２４、記号列変換モデル記憶部２５、及び記号列変換部２６を備えている。

ここで、上記の第１の実施の形態で説明した記号間の対応付け方法は、第1の言語体系の複数の記号と第2の言語体系の1個の記号との多対1の対応関係を求めるものであって、一般的な多対多の対応関係を直接求めることができない。しかし、上記の非特許文献５記載の方法のように、第1の言語体系の記号と第2の言語体系の記号の多対1の関係に加え、第1の言語体系と第2の言語体系を反転させて多対１の記号対応付けを行うことで得られる1対多の関係を利用することで多対多の対応関係を推定する方法が知られており、本発明においても利用することが可能である。

そこで、本実施の形態では、記号対応付け部２２は、記号列組データ読み込み部２２１、パラメータ初期化部２２２、期待値計算部２２３、パラメータ更新部２２４、停止判定部２２５、記号列対応付け処理部２２６、パラメータ初期化部３２２、期待値計算部３２３、パラメータ更新部３２４、停止判定部３２５、記号対応付け処理部３２６、多対多対応推定部３２７、及び記号対応付記号列組データ出力部２２７を備えている。

パラメータ初期化部３２２は、読み込んだ記号列組データにおいて共起する全てのe_j ⁱ , e_j-1 ⁱ, f_iの組み合わせに対して定義される記号バイグラム確率p(e_j ⁱ|e_j-1 ⁱ,f_i)の各々に対して、パラメータ初期化部２２２と同様に、初期値を与える。

期待値計算部３２３は、期待値計算部２２３と同様に、記号バイグラム確率p(e_j ⁱ|e_j-1 ⁱ,f_i)に対応するバイグラム期待値E_p(e_j ⁱ,e_j-1 ⁱ,f_i)を、上記（４）式、（５）式と同様の式に従って、それぞれ計算する。

パラメータ更新部３２４は、パラメータ更新部２２４と同様に、上記（６）式と同様の式に従って、記号バイグラム確率の更新を、すべてのパラメータ（すべてのf_b, f_a, e_i の組み合わせ）に対して行う。

停止判定部３２５は、設定した停止条件を満足したかどうかを判断し、停止条件を満足した場合は次の記号対応付け処理部３２６の処理へ進み、満足しない場合は期待値計算部３２３へ戻る。

記号対応付け処理部３２６は、最終的に確定したパラメータ（記号バイグラム確率）を用い、最適な記号対応付けを計算により求める。最適な記号対応付けの探索には公知のビタビ(Viterbi)アルゴリズム等を利用することができる。

多対多対応推定部３２７は、記号列対応付け処理部２２６によって求められた記号間の対応付けと、記号対応付け処理部３２６によって求められた記号間の対応付けとに基づいて、第１の言語体系の記号列と第２の言語体系の記号列とにおける多対多の記号間の対応付けを推定する。

記号対応付記号列組データ出力部２２７は、多対多対応推定部３２７により求められた記号間の対応付けを記号列組データに付与し、記号対応付記号列組データベース２３に格納する。

＜記号列変換装置の作用＞
次に、第２の実施の形態に係る記号列変換装置２００の作用について説明する。なお、第１の実施の形態と同様の処理については、同一符号を付して説明を省略する。

まず、対訳となっている第１の言語体系の記号列及び第２の言語体系の記号列の組である記号列組データが、記号列変換装置２００に複数入力されると、記号列変換装置２００によって、入力された複数の記号列組データが、記号列組データベース２１に格納される。そして、記号列変換装置２００によって、図６に示す記号対応付け処理ルーチンが実行される。

ステップＳ１０１において、記号列組データベース２１から、全ての記号列組データを読み込む。そして、ステップＳ２０２において、記号列組データの各々の第１の言語体系の記号列と第２の言語体系の記号列とにおける１対多の記号間の対応付けを求める。具体的には、上記の第１の実施の形態で説明した記号対応付け処理ルーチンのステップＳ１０２〜ステップＳ１０８によって実現される。

次のステップＳ２０３では、記号列組データの各々の第１の言語体系の記号列と第２の言語体系の記号列とにおける多対１の記号間の対応付けを求める。具体的には、上記の第１の実施の形態で説明した記号対応付け処理ルーチンのステップＳ１０２〜ステップＳ１０８の処理において、第１の言語体系と第２の言語体系との入れ替えた処理によって実現される。

そして、ステップＳ２０４において、上記ステップＳ２０２で求めた１対多の記号間の対応付けと、上記ステップＳ２０３で求めた多対１の記号間の対応付けとに基づいて、記号列組データの各々について、第１の言語体系の記号列と第２の言語体系の記号列とにおける多対多の記号間の対応付けを推定する。

そして、ステップＳ１０７において、記号列組データの各々に対して、上記ステップＳ２０４で求めた多対多の記号間の対応付けを付与して、記号対応付記号列組データベース２３に格納し、記号対応付け処理ルーチンを終了する。

なお、第２の実施の形態に係る記号列変換装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る記号列変換装置によれば、第１の言語体系の記号と対応する第２の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第１の言語体系の記号と第２の言語体系の記号とを多対１で対応付けると共に、第２の言語体系の記号と対応する第１の言語体系の部分記号列のうちの記号バイグラムとの対応付けの各々に対する記号バイグラム確率を、期待値最大化アルゴリズムに従って繰り返し更新して、記号バイグラム確率に基づいて、第１の言語体系の記号と第２の言語体系の記号とを１対多で対応付けて、多対多の対応付けを推定する。これによって、記号の連接関係を考慮して、異なる言語体系の記号列の組における記号間の多対多の対応付けを精度よく行うことができる。

＜実施例＞

次に本発明を実施した例について示す。本実施例では第1の言語体系の記号として英語、第2の言語体系の記号としてカタカナ表記を利用した。上記図２は、英語とカタカナの記号列組データを抜粋したものである。この記号列組データを利用して記号対応付け部２２の機能(記号列組データ読み込み部２２１、パラメータ初期化部２２２、期待値計算部２２３、パラメータ更新部２２４、停止判定部２２５、記号列対応付け処理部２２６、パラメータ初期化部３２２、期待値計算部３２３、パラメータ更新部３２４、停止判定部３２５、記号対応付け処理部３２６、及び多対多対応推定部３２７)を実現したコンピュータプログラムを動作させた。パラメータ初期化部２２２では、IBMモデル1を用いた期待値計算処理、パラメータ更新処理を５回繰り返した。また、停止判定部２２５、３２６における停止条件で用いる、期待値計算部２２３とパラメータ更新部２２４の繰り返し回数、及び期待値計算部３２３とパラメータ更新部３２４の繰り返し回数は、それぞれ10回とした。

上記図3は英語とカタカナの多対1対応付けの結果を抜粋したものである。さらに、第1と第2の言語体系の記号の順序を入れ替えて同様の処理を行うことによって、図７に抜粋したような、英語とカタカナの1対多対応付けを得た。

上記図３および図７に記載の記号対応付け結果を用いて、多対多対応の推定を、上記非特許文献５に記載の方法を実現したプログラムsymalを使用して行った。symalは複数の方式で多対多対応の推定を行うことができるが、本実施例では機械翻訳の分野で多く用いられている、grow-diag-final-andと呼ばれる方式を利用した。多対多対応付けの結果を図８に示す。図８の各行は各記号列組データに対応し、各行は「英語の記号の0から始まる位置」と「カタカナの0から始まる位置」の組を順に記している。この多対多対応付けの結果から、記号対応付記号列組データを作成する。多対多対応された記号列組から記号組列に変換するために、本実施例では多対多対応している英語部分文字列とカタカナ部分文字列を部分文字列組とし、その部分文字列組の列を、記号対応付記号列組データとした。その例を図９に示す。

記号対応付記号列組データからの記号列変換モデルの学習には、上記の特許４２６６２２２号公報に記載の記号組のNグラムモデル(N=3)を利用した。記号列からの3グラムモデルの学習には公知の統計的言語モデル学習プログラムSRILMを利用し、さらに3グラムモデルを、重み付き有限状態トランスデューサ（WFST）と呼ばれる形式に等価変換した。このＷＦＳＴは各状態遷移で記号（英語記号列E′=e₁′,...,e_I′とカタカナ記号列F′=f₁′,...,f_J′の組）を受理し、同じ記号を出力する有限状態機械であるので、記号列変換モデルとして利用するために、各状態遷移を、e₁′,...,e_I′を受理し何も出力しない状態遷移と、何も入力せずにf₁′,...,f_J′を出力する状態遷移の列に分解する。図１０はＷＦＳＴの状態遷移を記述したファイルの抜粋であり、先頭の“T”は状態遷移の記述であること、続く2つの数字は遷移元状態番号と遷移先状態番号、続く2つの記号は入力記号と出力記号を表し、記号“,”は空記号(入力記号なしもしくは出力記号なし)を表す。末尾の数値は遷移時の重み(確率の対数の符号反転値)である。例では英語の記号列“boo”がカタカナ列“ボー”、“borlau”が“ボーロー”、“borough”が“バロ”にそれぞれ重み10.4096で変換され、状態1からそれぞれ状態275、276、277へ遷移することを表している。

そして、このＷＦＳＴを記号列変換モデルとして、公知のＷＦＳＴデコーダKyfdを利用して図１１に示した英語記号列を変換した結果、図１２に示したカタカナ列に変換された。図１２は先頭および末尾を表す記号<s>、</s>のついた変換後のカタカナ列および変換確率の対数値が記されている。

また、上記の実施例に基づく記号列変換の実験では、4000個の英語記号列のカタカナ列への変換において、上記の非特許文献2のHMMモデルに基づく方法の正解率が40.6%であったのに対し、本発明の方法での正解率は44.3%であった。

また、上記の特許４２６６２２２号公報に記載の、複数の記号列変換結果候補から最適な記号列変換結果を得る方法を利用した実験においては、約40,000個のカタカナ列集合から正しいカタカナ列を選択できた割合が、非特許文献2のHMMモデルに基づく方法で90.0%であったのに対し、本発明の方法では92.1%となった。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、第１の言語体系の記号に対応する第２の言語体系の部分記号列の先頭及び末尾に記号＜ｓ＞、＜／ｓ＞を追加する場合を例に説明したが、これに限定されるものではなく、第１の言語体系の記号に対応する第２の言語体系の部分記号列の先頭及び末尾に明示的に記号を追加しなくてもよい。この場合には、第１の言語体系の記号に対応する第２の言語体系の部分記号列に対して、先頭、末尾に追加される記号の存在を仮定して、記号バイグラム確率を定義すればよい。

また、異なる言語体系の記号列の変換を行う場合を例に説明したが、これに限定されるものではなく、言語体系以外の体系の記号列の変換に、本発明を適用してもよい。

また、記号バイグラム確率を用いる場合を例に説明したが、これに限定されるものではなく、記号Ｎグラム確率（Ｎは３以上の整数）を用いても良い。

また、第１の言語体系の記号列から第２の言語体系の記号列に変換するための記号列変換モデルを学習し、入力された第１の言語体系の記号列から第２の言語体系の記号列へ変換する場合を例に説明したが、これに限定されるものではなく、第２の言語体系の記号列から第１の言語体系の記号列に変換するための記号列変換モデルを学習し、入力された第２の言語体系の記号列から第１の言語体系の記号列へ変換するようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０、２２０演算部
２１記号列組データベース
２２記号対応付け部
２３記号対応付記号列組データベース
２４記号列変換モデル学習部
２５記号列変換モデル記憶部
２６記号列変換部
１００、２００記号列変換装置
２２２、３２２パラメータ初期化部
２２３、３２３期待値計算部
２２４、３２４パラメータ更新部
２２５、３２５停止判定部
２２６、３２６記号列対応付け処理部
２２７記号対応付記号列組データ出力部
２５１記号列変換モデル記憶部
３２７多対多対応推定部

Claims

異なる第１の体系及び第２の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け装置であって、
前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第１の体系の記号と、前記第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第１の体系の記号と対応する前記第２の体系の部分記号列のうちのＮグラム（Ｎは２以上の整数）との対応付けの各々に対して、前記対応付けの確率を表わすＮグラム確率の初期値を設定する初期値設定手段と、
前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するＮグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、
前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するＮグラム確率を更新するパラメータ更新手段と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、
前記記号列組の各々に対して、前記Ｎグラム確率の各々に基づいて、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け手段と、
を含む記号列対応付け装置。
請求項１記載の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第１の体系の記号列と前記第２の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段
を含む記号列変換モデル学習装置。
請求項２記載の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第１の体系及び前記第２の体系の何れか一方の記号列を、前期第１の体系及び前記第２の体系の何れか他方の記号列に変換する記号列変換手段
を含む記号列変換装置。
異なる第１の体系及び第２の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け装置であって、
初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第１の体系の記号と、前記第２の体系の０個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第１の体系の記号と対応する前記第２の体系の部分記号列のうちのＮグラム（Ｎは２以上の整数）との対応付けの各々に対して、前記対応付けの確率を表わすＮグラム確率の初期値を設定し、
期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するＮグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、
パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するＮグラム確率を更新し、
停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、
記号列対応付け手段によって、前記記号列組の各々に対して、前記Ｎグラム確率の各々に基づいて、前記第１の体系の記号列の１つの記号の各々と、前記第２の体系の０個以上の連続する記号とを対応付ける
記号列対応付け方法。
学習手段によって、請求項４記載の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第１の体系の記号列と前記第２の体系の記号列との間の変換を行うための記号列変換モデルを学習する
記号列変換モデル学習方法。
記号列変換手段によって、請求項５記載の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第１の体系及び前記第２の体系の何れか一方の記号列を、前期第１の体系及び前記第２の体系の何れか他方の記号列に変換する
記号列変換方法。
コンピュータを、請求項１記載の記号列対応付け装置の各手段、請求項２記載の記号列変換モデル学習装置の各手段、又は請求項３記載の記号列変換装置の各手段として機能させるためのプログラム。