JP6705318B2

JP6705318B2 - 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム

Info

Publication number: JP6705318B2
Application number: JP2016139356A
Authority: JP
Inventors: 育昌鄭; 片江　伸之; 伸之片江; 友樹長瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2020-06-03
Anticipated expiration: 2036-07-14
Also published as: JP2018010514A; US20180018317A1; US10380243B2

Description

本発明は、対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラムに関する。

近年、グローバル企業や母国語が異なる人物が集まるコミュニティー等、専門用語や社内用語を含む技術文書や業務文書を複数種の言語に翻訳して提供する機会が増えている。専門用語等を含む文書を正確に翻訳するには、それら専門用語等の対訳を含む対訳辞書の整備が必要となる。

専門用語等の対訳を含む対訳辞書を作成する方法の１つとして、内容の主旨が対応する複数種の言語の文書を含む多言語文書群を用いて複数言語間の対訳語句を抽出する方法が知られている。この種の作成方法では、例えば、予め用意した大規模シード辞書を用い、文脈と構文とから各単語の単語ベクトルを求め、言語間の単語ベクトルの距離が近い単語ペアを対訳語句として抽出する（例えば、非特許文献１を参照）。

また、多言語文書群を用いて複数言語間の対訳語句を抽出する別の方法として、単語のトピック（意味分類）に基づいて対訳語句を抽出する方法が知られている（例えば、非特許文献２を参照）。この種の抽出方法では、文書内の単語は潜在的なトピックを持ち、同じトピックを持つ単語は同じ文書に出現しやすいことを利用する。すなわち、文書内における単語の並び順を無視して文書内での出現頻度のみを考慮することで単語のトピックをモデル化し、同じトピックを持つ複数言語間の単語ペアから対訳語句を抽出する。

Andrade, Daniel, Matsuzaki, Takuya, & Tsujii, Jun’ichi, "Effective Use of Dependency Structure for Bilingual Lexicon Creation.", In Alexander Gelbukh (Ed.), Computational Linguistics and Intelligent Text Processing: 12th International Conference, CICLing 2011, Tokyo, Japan, February 20-26, 2011. Proceedings, Part II (pp. 80-92). Berlin, Heidelberg: Springer Berlin Heidelberg. Liu, Xiaodong, Duh, Kevin, & Matsumoto, Yuji, "Multilingual Topic Models for Bilingual Dictionary Extraction.", ACM Transactions on Asian and Low-Resource Language Information Processing , Volume 14 Issue 3, June 2015, Article No. 11.

大規模シード辞書を用いて対訳辞書を作成する場合、当該大規模シード辞書の作成に手間がかかる上、計算量が膨大となり、対訳辞書の作成に関するコストが増大する。また、単語のトピックに基づいて対訳辞書を作成する場合、対応関係にある文書間で文章の内容や記載順序に差異があると、実際には対訳関係にある複数言語間の単語ペアにおける各単語のトピックが一致しないことがあり、対訳語句の抽出精度が低下することがある。

１つの側面において、本発明は、内容の主旨が対応する多言語文書群から低コストで精度良く対訳語句を抽出することを目的とする。

１つの態様において、対訳辞書作成装置は、形態素解析部と、推定部と、保持部と、更新部と、制御部と、辞書作成部と、を備える。形態素解析部は、複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い複数の文書のそれぞれから単語を抽出する。推定部は、複数の文書のそれぞれに対し、抽出した単語の意味分類を推定する。保持部は、単語についての意味分類の推定結果を保持する。更新部は、対訳語句リストに予め登録されている単語ペアであって、複数種の言語のうちの２つの言語間における対訳関係が予め確定している単語ペアが、複数の文書のうちの２つの文書であって当該２つの言語で記載されており内容の主旨が対応する当該２つの文書の各々から抽出した単語にそれぞれ存在する場合に、２つの文書のうちの一方の文書から抽出した単語のうちの、単語ペアのうちの一方の単語と、意味分類の推定結果が当該一方の単語と同じである単語とについての意味分類の推定結果を、単語ペアのうちの他方の単語である、当該２つの文書のうちの他方の文書から抽出した単語についての意味分類の推定結果に更新する。制御部は、推定部による意味分類の推定及び更新部による意味分類の推定結果の更新を制御する。辞書作成部は、推定部による意味分類の推定及び更新部による意味分類の推定結果の更新により得た、抽出した単語についての意味分類の推定結果に基づいて、当該同じである単語についての対訳関係を含む複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する。

上述の態様によれば、内容の主旨が対応する多言語文書群から低コストで精度良く対訳語句を抽出することが可能となる。

第１の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。第１の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。意味分類推定処理の内容を説明するフローチャートである。推定結果更新処理の内容を説明するフローチャート（その１）である。推定結果更新処理の内容を説明するフローチャート（その２）である。推定結果更新処理を行わない場合の意味分類の推定処理を説明する図である。第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その１）である。第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その２）である。第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その３）である。第１の実施形態に係る意味分類推定処理の処理結果を説明する図である。多言語文書群の例を示す図である。形態素解析により抽出された単語を示す図である。推定結果更新処理を行わない場合の意味分類の推定結果の例を示す図である。推定結果更新処理を行わなかった場合の意味分類対応コーパスの例を示す図である。第１の実施形態に係る意味分類推定処理による意味分類の推定結果の例を示す図である。第１の実施形態に係る意味分類推定処理の結果に基づく意味分類対応コーパスの例を示す図である。第１の実施形態に係る意味分類推定処理の結果に基づく単語ペアの対応確率の例と対訳語句らしさを表すスコアの例とを示す図である。第２の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。第２の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。対訳語句リスト作成処理の内容を説明するフローチャートである。既存対訳辞書の例と作成された対訳語句リストの例とを示す図である。第３の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。第３の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。対訳語句の能動学習の様子を説明する図（その１）である。対訳語句の能動学習の様子を説明する図（その２）である。第４の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。第４の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。複合名詞を抽出して１単語化する処理の例を説明する図（その１）である。複合名詞を抽出して１単語化する処理の例を説明する図（その２）である。第５の実施形態に係る翻訳システムの構成例を示す図である。コンピュータのハードウェア構成を示す図である。

［第１の実施形態］
図１は、第１の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。

図１に示すように、本実施形態に係る対訳辞書作成装置１は、入力受付部１０１と、形態素解析部１０２と、単語分類部１０３と、コーパス分割部１０４と、対応確率算出部１０５と、評価部１０６と、を備える。また、本実施形態に係る対訳辞書作成装置１は、意味分類対応コーパス１１１と、対訳辞書１１２とを含む各種データを記憶する記憶部（図示せず）を備える。

入力部は、対訳辞書の作成に用いる多言語文書群２の入力を受け付ける。多言語文書群２は、内容の主旨が対応する複数種の言語で記載された文書データ（以下、単に「文書」という）の組を１組、或いは複数組含む。図１に示した多言語文書群２は、３個の日本語の文書２０１〜２０３と、３個の英語の文書２１１〜２１３とを含む。３個の日本語の文書２０１〜２０３は、それぞれ、３個の英語の文書２１１〜２１３のいずれかと内容の主旨が対応している。例えば、日本語の文書２０１は、英語の文書２１１と内容の主旨が対応している。

形態素解析部１０２は、それぞれの文書に含まれる文章に対する形態素解析を行い、文章中の単語を抽出する。

単語分類部１０３は、形態素解析の結果に基づいて、文書毎に各単語（形態素）の意味分類を推定する。単語分類部１０３は、意味分類推定部１０３Ａと、推定結果保持部１０３Ｂと、推定結果更新部１０３Ｃと、対訳語句リスト１０３Ｄと、制御部１０３Ｅと、を含む。

コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、単語分類部１０３における各単語の意味分類の推定結果に基づいて、複数種の言語間における単語の対訳関係を登録した対訳辞書１１２を作成する辞書作成部１１０として機能する。コーパス分割部１０４は、単語分類部１０３による単語の意味分類の推定結果に基づいて、各文書から抽出した単語を意味分類毎に集約した意味分類対応コーパス１１１を作成する。対応確率算出部１０５は、意味分類対応コーパスにおける意味分類毎に、複数言語間での単語ペアの対応確率を算出する。評価部１０６は、単語ペアの対応確率に基づいて、単語ペア毎に対訳語句らしさを表すスコアを算出し、当該スコアが閾値を超えた単語ペアを対訳語句として対訳辞書１１２に登録する。

本実施形態に係る対訳辞書作成装置１における単語分類部１０３は、上記のように、意味分類推定部１０３Ａと、推定結果保持部１０３Ｂと、推定結果更新部１０３Ｃと、対訳語句リスト１０３Ｄと、制御部１０３Ｅと、を含む。

意味分類推定部１０３Ａは、文書内の単語の意味分類を推定し、意味分類の推定結果を推定結果保持部１０３Ｂに保持させる。推定結果保持部１０３Ｂが意味分類の推定結果を保持している場合、意味分類推定部１０３Ａは、推定結果保持部１０３Ｂが保持している意味分類の推定結果を参照して、文書データ内の各単語の意味分類を推定する。

推定結果保持部１０３Ｂは、意味分類の推定結果を保持する。
推定結果更新部１０３Ｃは、意味分類推定部１０３Ａによる意味分類の推定結果と、対訳語句リスト１０３Ｄに登録された対訳語句とに基づいて、推定結果保持部１０３Ｂで保持している意味分類の推定結果を更新する。

対訳語句リスト１０３Ｄは、複数言語間における対訳が確定している１組以上の対訳語句を登録したリストである。

制御部１０３Ｅは、単語分類部１０３が行う処理（言い換えると、意味分類推定部１０３Ａと、推定結果更新部１０３Ｃとが行う処理）を制御する。

本実施形態に係る対訳辞書作成装置１は、例えば、オペレータが多言語文書群を入力し対訳辞書の作成開始の命令を入力すると、図２に示す処理を行う。

図２は、第１の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。

図２に示すように、本実施形態の対訳辞書作成装置１は、まず、入力された多言語文書群２に含まれる文書のそれぞれに対し、形態素解析を行う（ステップＳ１）。ステップＳ１の処理は、形態素解析部１０２が行う。対訳辞書作成装置１は、入力受付部１０１により多言語文書群２の各文書の入力を受け付け、入力された文書を形態素解析部１０２に渡す。形態素解析部１０２は、文書に対する既知の形態素解析方法に従って、各文書の文章を形態素（単語）に分割する。

次に、対訳辞書作成装置１は、ステップＳ１の処理結果に基づいて、文書データ内の単語（形態素）の意味分類を推定する意味分類推定処理（ステップＳ２）を行う。ステップＳ２の処理は、単語分類部１０３が行う。単語分類部１０３は、１個の文書内の各単語の意味分類を推定する処理を、多言語文書群に含まれる全ての文書に対して行う。単語分類部１０３は、単語の意味分類を推定する処理として、単語毎に、複数の意味分類のそれぞれについての確率分布を算出する処理を行う。また、単語分類部１０３は、単語の意味分類の推定結果に基づいて、対応他言語文書における対応単語についての意味分類の推定結果を更新する。ここで、対応他言語文書は、単語の意味分類を推定している文書と内容の主旨が対応する他の言語の文書である。対応単語は、単語の意味分類を推定している文書における単語と対応する、対応他言語文書の単語である。

次に、対訳辞書作成装置１は、ステップＳ２の処理結果に基づいて、文書内の単語を意味分類毎に集約した意味分類対応コーパス１１１を作成する（ステップＳ３）。ステップＳ３の処理は、コーパス分割部１０４が行う。

次に、対訳辞書作成装置１は、ステップＳ３で作成した意味分類対応コーパス１１１に基づいて、複数言語間での単語ペアの対応確率を算出する（ステップＳ４）。ステップＳ４の処理は、対応確率算出部１０５が行う。対応確率算出部１０５は、例えば、既知の確率算出方法に従って、各単語ペアの対応確率を算出する。

次に、対訳辞書作成装置１は、ステップＳ４で算出した単語ペアの対応確率に基づいて、単語ペアの対訳語句らしさを表すスコアを算出する（ステップＳ５）。ステップＳ５の処理は、評価部１０６が行う。評価部１０６は、既知の算出方法に従って、単語ペアの対訳語句らしさを表すスコア（言い換えると単語ペアが正しい対訳語句であることの確度を表すスコア）を算出する。

次に、対訳辞書作成装置１は、ステップＳ５で算出したスコアに基づいて、対訳語句を選出し対訳辞書に登録する（ステップＳ６）。ステップＳ６の処理は、評価部１０６が行う。評価部１０６は、例えば、ステップＳ５で算出したスコアが閾値以上である単語ペア、或いは算出したスコアが高い所定個数の単語ペアを選出し、当該単語ペアを対訳辞書に登録する。

本実施形態に係る対訳辞書作成装置１が行う上記の処理における意味分類推定処理（ステップＳ２）は、単語分類部１０３が行う。単語分類部１０３は、ステップＳ２の処理として、例えば、図３、図４Ａ及び図４Ｂに示す処理を行う。

図３は、意味分類推定処理の内容を説明するフローチャートである。
意味分類推定処理（ステップＳ２）では、多言語文書群に含まれる全ての文書における全ての単語についての意味分類を推定する処理を複数回繰り返す。すなわち、意味分類推定処理では、図３に示すように、多言語文書群に含まれる全ての文書における全ての単語についての意味分類を推定する処理をＮ回繰り返すと終了する第１のループ処理（ステップＳ２０１〜Ｓ２１０）を行う。

第１のループ処理は、単語分類部１０３の制御部１０３Ｅが制御する。制御部１０３Ｅは、例えば、変数ｎの初期値を１とし、多言語文書データ群に含まれる全ての文書データにおける全ての単語に対するステップＳ２０２〜Ｓ２０９の処理（第２のループ処理）が１回終わる毎に変数ｎをｎ＝ｎ＋１に更新する。そして、更新した変数ｎが所定の回数Ｎよりも大きくなった場合、単語分類部１０３の制御部１０３Ｅは、第１のループ処理を終了する。

なお、第１のループ処理の終了条件とする処理の回数Ｎは適宜設定すればよく、予め定めておく固定値であってもよいし、例えば、対訳辞書の作成処理の開始時等にオペレータが設定してもよい。

第１のループ処理では、上記のように、多言語文書群に含まれる文書の言語毎に同一言語の全ての文書における全ての単語についての意味分類を推定する処理を、全ての言語に対して繰り返すと終了する第２のループ処理（ステップＳ２０２〜Ｓ２０９）を行う。

第２のループ処理は、単語分類部１０３の制御部１０３Ｅが制御する。制御部１０３Ｅは、例えば、変数ｍの値により処理対象の言語を指定し、変数ｍと対応付けられた言語の全ての文書における全ての単語に対するステップＳ２０３〜Ｓ２０８の処理（第３のループ処理）が終了する毎に、変数ｍを未選択の値に更新する。変数ｍ（言語を識別する値）は、例えば、１から始まる整数値であってもよいし、各言語の略称等の文字列であってもよい。変数ｍを更新する際に未選択の値（言語）がない場合、単語分類部１０３の制御部１０３Ｅは、第２のループ処理を終了する。

第２のループ処理では、上記のように、選択した言語の文書毎に一文書の全ての単語についての意味分類を推定する処理を、選択した言語の全ての文書に対して繰り返すと終了する第３のループ処理（ステップＳ２０３〜Ｓ２０８）を行う。

第３のループ処理は、単語分類部１０３の制御部１０３Ｅが制御する。制御部１０３Ｅは、例えば、変数ｊの値により処理対象の文書を指定し、変数ｊと対応付けられた文書における全ての単語に対するステップＳ２０４〜Ｓ２０８の処理（第４のループ処理）が終わる毎に変数ｊをｊ＝ｊ＋１に更新する。変数ｊ（文書を識別する値）は、例えば、１から始まる整数値とする。制御部１０３Ｅは、例えば、変数ｊの初期値を１とし、変数ｊで指定された文書における全ての単語に対するステップＳ２０４〜Ｓ２０７の処理（第４のループ処理）が終わる毎に、変数ｊをｊ＝ｊ＋１に更新する。そして、更新した変数ｊが、選択された言語の文書の数Ｊよりも大きくなった場合、単語分類部１０３の制御部１０３Ｅは、第３のループ処理を終了する。

第３のループ処理では、上記のように、変数ｊで指定された文書の単語毎に意味分類を推定する処理を、指定された文書の全ての単語に対して繰り返すと終了する第４のループ処理（ステップＳ２０４〜Ｓ２０７）を行う。

第４のループ処理は、単語分類部１０３の制御部１０３Ｅが制御する。制御部１０３Ｅは、例えば、変数ｉの値により処理対象の単語を指定する。変数ｉ（単語を識別する値）は、例えば、１から始まる整数値とする。そして、制御部１０３Ｅは、指定された文書における全ての単語に対するステップＳ２０５及びＳ２０６の処理が終わる毎に変数ｉをｉ＝ｉ＋１に更新する。更新した変数ｉが、選択された文書の単語数Ｉよりも大きくなった場合、単語分類部１０３の制御部１０３Ｅは、第４のループ処理を終了する。

第４のループ処理では、現在処理対象である文書データｄ^ｍ _ｊの各単語ｗ^ｍ _ｉ，ｊに対し、ステップＳ２０５及びＳ２０６の処理を行う。

第４のループ処理では、変数ｉにより処理対象の単語ｗ^ｍ _ｉ，ｊを指定した後、指定した単語ｗ^ｍ _ｉ，ｊの意味分類ｋｗ^ｍ _ｉ，ｊを推定し、推定した意味分類ｋｗ^ｍ _ｉ，ｊを推定結果保持部１０３Ｂに格納する（ステップＳ２０５）。ステップＳ２０５の処理は、単語分類部１０３の意味分類推定部１０３Ａが行う。意味分類推定部１０３Ａは、例えば、ギブスサンプリング等の既知の統計処理手法に従い、単語ｗ^ｍ _ｉ，ｊの意味分類ｋｗ^ｍ _ｉ，ｊを推定する。

次に、単語分類部１０３は、現在処理対象となっている文書ｄ^ｍ _ｊについての対応他言語文書ｄ^−ｍ _ｊに存在する、単語ｗ^ｍ _ｉ，ｊと対応する単語ｗ^−ｍ _ｉ’，ｊの意味分類の推定結果（意味分類ｋｗ^ｍ _ｉ，ｊ）を更新する推定結果更新処理（ステップＳ２０６）を行う。ステップＳ２０６の処理は、推定結果更新部１０３Ｃが行う。推定結果更新部１０３Ｃは、ステップＳ２０６の処理として、図４Ａ及び図４Ｂに示す処理を行う。

図４Ａは、推定結果更新処理の内容を説明するフローチャート（その１）である。図４Ｂは、推定結果更新処理の内容を説明するフローチャート（その２）である。

推定結果更新処理において、推定結果更新部１０３Ｃは、まず、図４Ａに示すように、配列ＷＬＨを初期化し、配列ＷＬＨ内の要素の数を表す値CountWLHを「０」に初期化する（ステップＳ２０６Ａ）。

次に、推定結果更新部１０３Ｃは、現在の処理対象である単語ｗ^ｍ _ｉ，ｊを検索キーとして対訳語句リスト１０３Ｄを検索し（ステップＳ２０６Ｂ）、単語ｗ^ｍ _ｉ，ｊが対訳語句リスト１０３Ｄに登録されているか否かを判定する（ステップＳ２０６Ｃ）。単語ｗ^ｍ _ｉ，ｊが対訳語句リスト１０３Ｄに登録されていない場合（ステップＳ２０６Ｃ；Ｎｏ）、推定結果更新部１０３Ｃは、図４Ｂに示すように、推定結果更新処理を終了する。

一方、単語ｗ^ｍ _ｉ，ｊが対訳語句リスト１０３Ｄに登録されている場合（ステップＳ２０６Ｃ；Ｙｅｓ）、推定結果更新部１０３Ｃは、次に、第５のループ処理（ステップＳ２０６Ｄ〜Ｓ２０６Ｊ）を行う。第５のループ処理は、対応他言語文書から単語ｗ^ｍ _ｉ，ｊの対応単語ｗ^−ｍ _ｈを抽出する処理（ステップＳ２０６Ｅ〜Ｓ２０６Ｈ）を、全ての対応単語に対して行うと終了する。

第５のループ処理は、推定結果更新部１０３Ｃが制御する。推定結果更新部１０３Ｃは、例えば、変数ｈにより単語ｗ^ｍ _ｉ，ｊの対応単語ｗ^−ｍ _ｈを指定する。変数ｈ（対応単語ｗ^−ｍ _ｈを識別する値）は、例えば、１から始まる整数値とする。推定結果更新部１０３Ｃは、対応他言語文書から単語ｗ^ｍ _ｉ，ｊの対応単語ｗ^−ｍ _ｈを抽出する処理が終わる毎に変数ｈをｈ＋１に更新する。そして、更新した変数ｈが対応単語ｗ^−ｍ _ｈの数Ｈよりも大きくなった場合、推定結果更新部１０３Ｃは、第５のループ処理を終了する。

第５のループ処理において、推定結果更新部１０３Ｃは、まず、変数ｈにより指定した対応単語ｗ^−ｍ _ｈを検索キーとして対応他言語文書ｄ^−ｍ _ｊの単語を検索する（ステップＳ２０６Ｅ）。検索した後、推定結果更新部１０３Ｃは、対応他言語文書ｄ^−ｍ _ｊに対応単語ｗ^−ｍ _ｈがあるか否かを判定する（ステップＳ２０６Ｆ）。

対応他言語文書ｄ^−ｍ _ｊに対応単語ｗ^−ｍ _ｈがある場合（ステップＳ２０６Ｆ；Ｙｅｓ）、推定結果更新部１０３Ｃは、対応他言語文書ｄ^−ｍ _ｊにおける対応単語ｗ^−ｍ _ｈの出現箇所（すなわち単語ｗ^−ｍ _ｉ’，ｊ）を表す情報を配列ＷＬＨに格納（ステップＳ２０６Ｇ）。続けて、推定結果更新部１０３Ｃは、配列ＷＬＨの要素（単語ｗ^−ｍ _ｉ’，ｊ）の数を表す値CountWLHをCountWLH＋１に更新する（ステップＳ２０６Ｈ）。

ステップＳ２０６Ｈの後、推定結果更新部１０３Ｃは、対応単語ｗ^−ｍ _ｈを指定する変数ｈを更新し、ｈ≦Ｈであれば第５のループ処理を続ける。そして、ステップＳ２０６Ｈの後で更新した変数ｈがｈ＞Ｈとなった場合、推定結果更新部１０３Ｃは、第５のループ処理を終了する。

一方、対応他言語文書ｄ^−ｍ _ｊに対応単語ｗ^−ｍ _ｈがない場合（ステップＳ２０６Ｆ；Ｎｏ）、推定結果更新部１０３Ｃは、ステップＳ２０６Ｇ及びＳ２０６Ｆをスキップして、対応単語ｗ^−ｍ _ｈを指定する変数ｈを更新する。その後、制御部１０３Ｅは、更新した変数ｈがｈ≦Ｈであれば第５のループ処理を続け、更新した変数ｈがｈ＞Ｈであれば第５のループ処理を終了する。

第５のループ処理を終えると、推定結果更新部１０３Ｃは、次に、図４Ｂに示すように、配列ＷＬＨ内の要素の数を表す値CountWLHを読み出し、CountWLH＝１であるか否かを判定する（ステップＳ２０６Ｋ）。CountWLH≠１である場合（ステップＳ２０６Ｋ；Ｎｏ）、推定結果更新部１０３Ｃは、推定結果更新処理を終了する。

一方、CountWLH＝１である場合（ステップＳ２０６Ｋ；Ｙｅｓ）、推定結果更新部１０３Ｃは、推定結果保持部１０３Ｂにアクセスし、配列ＷＬＨに保存した単語ｗ^−ｍ _ｉ’，ｊについての意味分類ｋｗ^−ｍ _ｉ’，ｊを更新する（ステップＳ２０６Ｌ）。ステップＳ２０６Ｌにおいて、推定結果更新部１０３Ｃは、単語ｗ^−ｍ _ｉ’，ｊについての意味分類ｋｗ^−ｍ _ｉ’，ｊを、現在の処理対象である単語ｗ^ｍ _ｉ，ｊの意味分類ｋｗ^ｍ _ｉ，ｊと同じ値に更新する。ステップＳ２０６Ｌの処理を終えると、推定結果更新部１０３Ｃは、現在の処理対象である単語ｗ^ｍ _ｉ，ｊに対する推定結果更新処理を終了する。

推定結果更新処理が終了すると、単語分類部１０３の制御部１０３Ｅが、第４のループ処理を終了するか否かを判定する処理を行う（図３のステップＳ２０７）。単語分類部１０３の制御部１０３Ｅは、選択された文書ｄ^ｍ _ｊにおける処理対象の単語ｗ^ｍ _ｉ，ｊを指定する変数ｉを更新する。制御部１０３Ｅは、更新した変数ｉがｉ≦Ｉであれば第４のループ処理を続け、更新した変数ｉがｉ＞Ｉであれば第４のループ処理を終了する。

第４のループ処理が終了すると、単語分類部１０３の制御部１０３Ｅが、第３のループ処理を終了するか否かを判定する処理を行う（図３のステップＳ２０８）。単語分類部１０３の制御部１０３Ｅは、選択された言語の文書から処理対象の文書ｄ^ｍ _ｊを指定する変数ｊを更新する。制御部１０３Ｅは、更新した変数ｊがｊ≦Ｊであれば第３のループ処理を続け、更新した変数ｊがｊ＞Ｊであれば第３のループ処理を終了する。

第３のループ処理が終了すると、単語分類部１０３の制御部１０３Ｅが、第２のループ処理を終了するか否かを判定する処理を行う（図３のステップＳ２０９）。単語分類部１０３の制御部１０３Ｅは、文書の言語を指定する変数ｍを更新する。制御部１０３Ｅは、未処理の言語を表す値に変数ｍを更新できた場合には第２のループ処理を続け、更新できなかった場合には第２のループ処理を終了する。

第２のループ処理が終了すると、単語分類部１０３の制御部１０３Ｅが、第１のループ処理を終了するか否かを判定する処理を行う（図３のステップＳ２１０）。単語分類部１０３の制御部１０３Ｅは、第２のループ処理を行った回数を表す変数ｎを更新する。更新した変数ｎがｎ≦Ｎであれば第１のループ処理を続け、更新した変数ｎがｎ＞Ｎであれば第１のループ処理を終了する。

第１のループ処理が終了すると、単語分類部１０３の制御部１０３Ｅは、推定結果保持部１０３Ｂが保持している各単語の意味分類の推定結果をコーパス分割部１０４に渡し、コーパス分割部１０４にステップＳ３の処理を行わせる。

本実施形態に係る意味分類推定処理では、上記のように、現在処理対象である単語の意味分類を推定した後、当該単語の対応単語についての意味分類を更新する推定結果更新処理を行う。推定結果更新処理を行わない場合と推定結果更新処理を行った場合とで意味分類の推定結果に生じる差異を説明するため、まず、図５を参照して推定結果更新処理を行わない場合の意味分類の推定処理について説明する。

図５は、推定結果更新処理を行わない場合の意味分類の推定処理を説明する図である。
単語の意味分類を推定する処理では、一文書中の各単語は潜在的な意味分類（トピック）を持ち、同じ意味分類を持つ単語は同一文書に出現しやすいということを利用する。この際、単語間の意味分類の類似性（距離）は、文書の文脈での共起頻度の統計で表す。

図５の（ａ）には、日本語の一文書中の３個の単語についての共起頻度の例を示している。図５の（ａ）において、ブロック３０１は日本語の「白王」という単語Ｗ１１を表し、ブロック３０２は日本語の「モンゴル」という単語Ｗ１２を表している。また、図５の（ａ）において、ブロック３０３は、日本語の「アメリカ」という単語Ｗ１３を表している。なお、単語Ｗ１１の「白王（はくおう）」は、架空のモンゴル出身力士の名前である。

ここで、一文書中における単語Ｗ１１と単語Ｗ１２との共起頻度、及び単語Ｗ１２と単語Ｗ１３との共起頻度がそれぞれ５０回であるとすると、単語Ｗ１２の意味分類は、単語Ｗ１１と同じ意味分類になる確率と、単語Ｗ１３と同じ意味分類になる確率とが１：１となる。したがって、１個の文書における単語Ｗ１１，Ｗ１２，Ｗ１３の意味分類を推定する処理を複数回繰り返すと、図５の（ｂ）に示したテーブル４０１のような推定結果が得られる。なお、テーブル４０１におけるＴ１〜Ｔ６は、それぞれ、異なる意味分類（トピック）を表している。また、テーブル４０１には「Ｔ１（相撲）」、「Ｔ２（政治）」等、各意味分類の具体的な意味を示しているが、これら具体的な意味は、テーブル４０１の処理結果から推測される意味分類Ｔ１〜Ｔ６の意味である。

推定結果更新処理を行わない場合、文書中の単語の意味分類を推定する処理は、複数種の言語毎に独立した処理となる。そのため、単語Ｗ１１の意味分類の推定結果は、図５の（ｂ）に示したように、各回の処理でまちまちの結果となる。よって、単語Ｗ１１の推定結果の影響を５０％の確率で受ける単語Ｗ１２の意味分類の推定結果も、各回の処理でまちまちの結果となる。

したがって、テーブル４０１の処理結果に基づいて単語Ｗ１１，Ｗ１２，Ｗ１３のそれぞれにおける意味分類の確率分布を算出すると、図５の（ｃ）に示したテーブル４０２のような結果となる。すなわち、意味分類を推定する処理を複数回行った場合の単語Ｗ１１の意味分類及び単語Ｗ１３の意味分類の推定結果に揺らぎがあるため、単語Ｗ１２に対する意味分類の推定結果及び確率分布にも揺らぎが生じる。

次に、図６Ａ〜図６Ｃ、及び図７を参照して、第１の実施形態に係る意味分類の推定方法及び更新方法を説明する。

図６Ａは、第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その１）である。図６Ｂは、第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その２）である。図６Ｃは、第１の実施形態に係る意味分類の推定方法及び更新方法を説明する図（その３）である。図７は、第１の実施形態に係る意味分類推定処理の処理結果を説明する図である。

図６Ａの（ａ）には、１個の日本語文書と１個の英語文書との組に対し、本実施形態に係る意味分類推定処理を行っている途中の意味分類の推定結果を表すテーブル４０３，４０４と、対訳語句リスト１０３Ｄとを示している。

テーブル４０３は、日本語文書における３個の単語Ｗ１１，Ｗ１２，Ｗ１３に対する意味分類の推定結果を示している。単語Ｗ１１，Ｗ１２，Ｗ１３の共起頻度には、図５の（ａ）に示した関係があるとする。

テーブル４０４は、英語文書における３個の単語Ｗ２１，Ｗ２２，Ｗ２３に対する意味分類の推定結果を示している。英語文書の単語Ｗ２１は、日本語文書の単語Ｗ１１と対応する単語である。英語文書の単語Ｗ２２は、日本語文書の単語Ｗ１２と対応する単語である。英語文書の単語Ｗ２３は、日本語文書の単語Ｗ１３と対応する単語である。単語Ｗ２１，Ｗ２２，Ｗ２３の共起頻度は、図５の（ａ）に示した関係と同等の関係、すなわち一文書中における単語Ｗ１１と単語Ｗ１２との共起頻度、及び単語Ｗ１２と単語Ｗ１３との共起頻度が同数であるとする。

更に、対訳語句リスト１０３Ｄには、対訳語句として、単語Ｗ１１と、単語Ｗ２１との組が登録されているとする。

図６Ａの（ａ）には、２回目の第２のループ処理（ステップＳ２０２〜Ｓ２０９）の途中、より具体的には日本語文書に対する第３のループ処理（ステップＳ２０３〜Ｓ２０８）が終了した時点での意味分類の推定結果を示している。ここで、テーブル４０３を見ると、各単語Ｗ１１、Ｗ１２，Ｗ１３の２回目の推定結果は、１回目の推定結果とは異なる意味分類となっている。更に、単語Ｗ１２の意味分類は、１回目の推定結果では単語Ｗ１１と同じ意味分類になっているが、２回目の推定結果では単語Ｗ１３と同じ意味分類になっている。

この後、英語文書に対する第３のループ処理（ステップＳ２０３〜Ｓ２０８）を行うと、英語文書の単語Ｗ２１に対する２回目の意味分類の推定結果は、例えば、図６の（ｂ）のテーブル４０５のようになる。すなわち、単語Ｗ２１は、意味分類Ｔ１と推定される。

英語文書に対する第３のループ処理（ステップＳ２０３〜Ｓ２０８）では、単語毎にステップＳ２０５及びステップＳ２０６の処理を行う。したがって、例えば、ステップＳ２０５で英語文書の単語Ｗ２１の意味分類を推定した後、対訳辞書作成装置１（意味分類部）は、その推定結果に基づいてステップＳ２０６の推定結果更新処理を行う。ステップＳ２０６の推定結果更新処理は、推定結果更新部１０３Ｃが行う。推定結果更新部１０３Ｃは、ステップＳ２０６の処理として、図４Ａ及び図４Ｂに示した処理を行う。

ステップＳ２０６では、まず、推定結果更新部１０３Ｃが対訳語句リスト１０３Ｄを検索し、英語の単語Ｗ２１が登録されているか否かを判定する（ステップＳ２０６Ｂ，Ｓ２０６Ｃ）。図６の（ｂ）に示したように、単語Ｗ２１は対訳語句リスト１０３Ｄに登録されている。このため、推定結果更新部１０３Ｃは、対訳語句リスト１０３Ｄにおいて単語Ｗ２１の対訳語句に指定されている日本語の単語Ｗ１１が、対応他言語文書内（すなわち日本語文書内）にあるか否かを判定する（ステップＳ２０６Ｅ，Ｓ２０６Ｆ）。図６の（ｂ）のテーブル４０３に示されているように、日本語文書内には単語Ｗ１１がある。よって、推定結果更新部１０３Ｃは、日本語文書に対する２回目の意味分類の推定処理における単語Ｗ１１についての意味分類の推定結果の格納場所を表す情報を配列ＷＬＨに格納し、値CountWLHを更新する（ステップＳ２０６Ｇ，Ｓ２０６Ｈ）。

その後、図４Ａに示した処理では、対訳語句リスト１０３Ｄに登録された単語Ｗ２１の全対応単語を対象としてステップＳ２０６Ｅ〜Ｓ２０６Ｈの処理を繰り返している。しかしながら、対訳語句リスト１０３Ｄに登録されているのは、日本語の単語Ｗ１１と英語の単語Ｗ２１との関係のみである。したがって、推定結果更新部１０３Ｃは、第５のループ処理を終了し、図４Ｂに示したステップＳ２０６Ｌの処理を行う。すなわち、推定結果更新部１０３Ｃは、英語文書の単語Ｗ２１と対応する日本語文書の単語Ｗ１１についての２回目の意味分類の推定結果の値Ｔ３を、単語Ｗ２１の２回目の意味分類の推定結果の値Ｔ１に更新する。このため、２回目の第２のループ処理（ステップＳ２０２〜Ｓ２０９）を終えたときの日本語文書の単語及び英語文書の単語についての意味分類の推定結果は、それぞれ、図６Ｂの（ｃ）に示すテーブル４０６及びテーブル４０７のように更新される。

その後、３回目の第２のループ処理（ステップＳ２０２〜Ｓ２０９）を行う。ここで、英語文書の単語２１の意味分類を推定する処理（ステップＳ２０５）が終わると、意味分類の推定結果は、例えば、図６Ｂの（ｄ）に示したような状態となる。すなわち、日本語文書の単語については、テーブル４０８のように、単語Ｗ１１及び単語Ｗ１２の意味分類が「Ｔ５」となり、単語Ｗ１３の意味分類が「Ｔ４」となる。これに対し、英語文書の単語Ｗ２１については、テーブル４０９のように、意味分類が「Ｔ１」となる。

ここで再び、英語文書の単語Ｗ２１を処理対象としてステップＳ２０６の推定結果更新処理を行うと、推定結果更新部１０３Ｃは、日本語文書の単語Ｗ１１の意味分類を「Ｔ５」から英語の単語Ｗ２１の意味分類と同じ値「Ｔ１」に更新する。更に、推定結果更新部１０３Ｃは、日本語文書に対する３回目の意味分類の推定結果において単語Ｗ１１と意味分類が同じ値であった単語Ｗ１２の意味分類も、「Ｔ５」から英語の単語Ｗ２２の意味分類と同じ値「Ｔ１」に更新する。その後、推定結果更新部１０３Ｃは、英語文書の単語Ｗ２２，Ｗ２３の意味分類を推定するが、単語Ｗ２２，Ｗ２３は、対訳語句リスト１０３Ｄに登録されていない。よって、３回目の第２のループ処理（ステップＳ２０２〜Ｓ２０９）を終えたときの日本語文書の単語の意味分類の推定結果、及び英語文書の単語の意味分類の推定結果は、それぞれ、図６Ｃの（ｅ）に示すテーブル４１０，及びテーブル４１１のようになる。

このように、日本語文書の単語Ｗ１１と英語文書の単語Ｗ２１との組が対訳語句リスト１０３Ｄに登録されている場合、英語文書の単語Ｗ２１の意味分類を推定する毎に、推定結果更新部１０３Ｃが推定結果に基づいて日本語文書の単語Ｗ１１等の意味分類を更新する。よって、第１のループ処理（ステップＳ２０１〜Ｓ２１０）を終了したときの日本語文書の単語Ｗ１１，Ｗ１２，Ｗ１３についての意味分類の推定結果は、例えば、図７の（ａ）に示すテーブル４１２のようになる。すなわち、推定結果更新処理の影響により、単語Ｗ１１の意味分類の推定結果は「Ｔ１」となる回数が多くなり、意味分類の揺らぎが非常に小さくなる。更に、単語Ｗ１１の意味分類の推定結果の揺らぎが小さくなることで、単語Ｗ１２の意味分類の推定結果の揺らぎも小さくなる。したがって、第１のループ処理（ステップＳ２０１〜Ｓ２１０）を終了したときの日本語文書の単語Ｗ１１，Ｗ１２，Ｗ１３の意味分類の確率分布は、例えば、図７の（ｂ）に示すテーブル４１２のようになる。推定結果更新処理を行った場合の確率分布（テーブル４１２）における単語Ｗ１２の確率分布は、推定結果更新処理を行わない場合の確率分布（図５のテーブル４１１）とは異なり、意味分類Ｔ１の値が最も大きくなる。そのため、テーブル４１２の確率分布に基づいて意味分類対応コーパス１１１を作成すると、単語Ｗ１１，Ｗ１２は同じ意味分類Ｔ１の単語として集約される。

次に、図８〜図１４を参照し、推定結果更新処理を行わない場合と推定結果更新処理を行った場合との処理結果の差異について、より具体的に説明する。

図８は、多言語文書群の例を示す図である。
図８には、多言語文書群の例として、３組の文書対２１，２２，２３を含む多言語文書群を示している。１個の文書対は、内容の主旨が対応する日本語の文書と英語の文書とを含む。ここで、１個の文書対における日本語の文書と、英語の文書とは、内容の主旨が対応していれば、各文の内容、各文の記載順等が異なっていてもよい。例えば、第１の文書対２１の日本語文書２０１と、英語文書２１１とは、いずれも、ラリー・クラプトン氏と春賀富士とがアメリカ相撲協会の設立についての会談を行った、という主旨の文章が記載されている。また、第２の文書対２２の日本語文書２０２と、英語文書２１２とは、いずれも、アメリカの議会に招待されたため春賀富士が秋場所を欠場した、という主旨の文章が記載されている。更に、第３の文書対２３の日本語文書２０３と、英語文書２１３とは、いずれも、春賀富士等の力士を輩出したモンゴルの議会で次期駐日大使の人選を承認した、という主旨の文章が記載されている。すなわち、図８に示した多言語文書群に含まれる文書２０１〜２０３，２１１〜２１３は、いずれも相撲に関連した文章が記載されている。なお、図８に示した日本語文書２０１〜２０３、及び英語文書２１１〜２１３は、本願発明者が作成した文書であり、各文書の記載内容は架空のものである。図８の日本語文書２０１における「ラリー・クラプトン氏」は架空のアメリカ人である。また、図８の日本語文書２０１〜２０３における「白王」、「春賀富士」、及び「朝雄龍」は、それぞれ架空のモンゴル出身力士の名前である。更に、図８の英語文書２１２，２１３における「Harukafuji」は、日本語文書２０２，２０３の「春賀富士（はるかふじ）」の英語表記（すなわち対訳）である。

図８に示した３組の文書対２１，２２，２３を含む多言語文書群を本実施形態に係る対訳辞書作成装置１に入力し、対訳辞書の作成処理を開始すると、対訳辞書作成装置１は、各文書２０１〜２０３，２１１〜２１３に対し形態素解析を行う（ステップＳ１）。ステップＳ１の処理の結果、各文書２０１〜２０３，２１１〜２１３からは、それぞれ、例えば、図９に示すような単語が抽出される。

図９は、形態素解析により抽出された単語を示す図である。
図９には、図８に示した６個の文書２０１〜２０３，２１１〜２１３のそれぞれから抽出された単語（形態素）を文書毎にまとめたテーブル４２０を示している。テーブル４２０において、文書対番号１の日本語文書の単語及び英語文書の単語は、それぞれ、第１の文書対２１の日本語文書２０１及び英語文書２１１に対する形態素解析で抽出された単語である。テーブル４２０において、文書対番号２の日本語文書の単語及び英語文書の単語は、それぞれ、第２の文書対２２の日本語文書２０２及び英語文書２１２に対する形態素解析で抽出された単語である。テーブル４２０において、文書対番号３の日本語文書の単語及び英語文書の単語は、それぞれ、第３の文書対２３の日本語文書２０３及び英語文書２１３に対する形態素解析で抽出された単語である。

なお、図９のテーブル４２０では、１個の文書から抽出された全ての単語のうちの一部の単語のみを、順不同で示している。日本語文書と英語文書とでは、内容が同一の文であっても、一文内で対訳関係にある単語の出現位置が異なる。また、日本語文書と英語文書とが内容の主旨が対応する文書である場合、各文の記載順序等が異なる。このため、各文書に対して形態素解析を行った場合、文書対となる日本語文書の単語の出現順序と英語文書の単語の出現順序とは必ずしも一致しない。

図９に示した形態素解析の結果に基づいて、推定結果更新処理を行わずに全ての単語の意味分類を推定すると、例えば、図１０に示したような結果が得られる。

図１０は、推定結果更新処理を行わない場合の意味分類の推定結果の例を示す図である。

図１０には、意味分類推定処理（ステップＳ２）において推定結果更新処理（ステップＳ２０６）を行わなかった場合の、単語毎の意味分類の確率分布と意味分類の推定結果とを文書毎にまとめたテーブル４２１を示している。テーブル４２１において、文書対番号１の日本語文書及び英語文書は、それぞれ、第１の文書対２１の日本語文書２０１及び英語文書２１１である。テーブル４２１において、文書対番号２の日本語文書及び英語文書は、それぞれ、第２の文書対２２の日本語文書２０２及び英語文書２１２である。テーブル４２１において、文書対番号３の日本語文書及び英語文書は、それぞれ、第３の文書対２３の日本語文書２０３及び英語文書２１３である。

上記のように、単語の意味分類は、ギブスサンプリング等の既知の統計処理手法に従って推定する。この際、意味分類推定部１０３Ａは、例えば、１文書内の単語は独立に出現しているわけではなく、潜在的なトピック（意味分類）を持ち、同じトピックを持つ単語は同じ文書に出現しやすい、という傾向を利用する。すなわち、意味分類推定部１０３Ａは、単語の出現順を無視し、文書内における単語の出現頻度と、トピック数とに基づいて単語のトピックをモデル化する。

例えば、トピック数を２個とした場合、意味分類推定部１０３Ａは、単語毎に、第１のトピックＴ１及び第２のトピックＴ２についての確率分布（Ｐ_Ｔ１，Ｐ_Ｔ２）を算出する。確率分布（Ｐ_Ｔ１，Ｐ_Ｔ２）は、例えば、図３に示したように、多言語文書群に含まれる全ての文書の全ての単語についての意味分類を推定する処理をＮ回行ったときの各意味分類の出現回数に基づいて算出する。なお、図１０に示した確率分布（Ｐ_Ｔ１，Ｐ_Ｔ２）を算出する際には、単語の意味分類の推定のみを行っており、本実施形態に係る推定結果更新処理は行っていない。

単語毎の意味分類の確率分布を算出した後、意味分類推定部１０３Ａは、単語毎に、確率分布の値が最も大きい意味分類（トピック）をその単語の意味分類と推定する。このため、各単語の意味分類の確率分布（Ｐ_Ｔ１，Ｐ_Ｔ２）から、各単語の意味分類は、図１０に示すようになる。なお、図１０の推定結果では、各単語の後ろに付している（Ｔ１）及び（Ｔ２）により、各単語の意味分類の推定結果を示している。

図１０に示した意味分類の確率分布（Ｐ_Ｔ１，Ｐ_Ｔ２）及び推定結果を見ると、例えば、文書対番号１，２の文書対においては、日本語文書の単語の意味分類と英語文書の単語の意味分類が一致している。ところが、文書対番号３の文書対では、日本語文書の「モンゴル」という単語の意味分類の推定結果が「Ｔ１」であるのに対し、英語文書の「Mongolia」という単語の意味分類の推定結果は「Ｔ２」となっている。

意味分類推定部１０３Ａにおいて図１０に示した意味分類の推定結果が得られた場合、コーパス分割部１０４は、当該推定結果に基づいて、各文書の単語を意味分類（トピック）毎に集約して意味分類対応コーパス１１１を作成する。

図１１は、推定結果更新処理を行わなかった場合の意味分類対応コーパスの例を示す図である。

図１１には、意味分類対応コーパス１１１の例として、図１０のテーブル４２１における意味分類の推定結果に基づいて各単語を意味分類Ｔ１の単語と意味分類Ｔ２の単語とに集約したテーブル形式の意味分類対応コーパス１１１を示している。意味分類対応コーパス１１１において、文書対番号１の日本語文書の単語及び英語文書の単語は、それぞれ、第１の文書対２１の日本語文書２０１及び英語文書２１１に対する形態素解析で抽出された単語である。意味分類対応コーパス１１１において、文書対番号２の日本語文書の単語及び英語文書の単語は、それぞれ、第２の文書対２２の日本語文書２０２及び英語文書２１２に対する形態素解析で抽出された単語である。意味分類対応コーパス１１１において、文書対番号３の日本語文書の単語及び英語文書の単語は、それぞれ、第３の文書対２３の日本語文書２０３及び英語文書２１３に対する形態素解析で抽出された単語である。

図１１の意味分類対応コーパス１１１を見ると、例えば、日本語の「白王」の意味分類の推定結果は第１の意味分類Ｔ１となっている。また、日本語の「白王」と対応する英語の「Hakuoh」の意味分類の結果も第１の意味分類Ｔ１となっている。更に、第１の意味分類Ｔ１に集約された単語は、いずれも相撲を連想させる単語となっている。これに対し、図１１の意味分類対応コーパス１１１において第２の意味分類Ｔ２に集約された単語は、相撲以外のトピック（例えば政治）を連想させる選挙や議会等の単語となっている。

図１１のような意味分類対応コーパス１１１に基づいて単語ペアの対応確率を求める場合、対応確率算出部１０５は、意味分類毎に、集約された日本語文書の単語と英語文書の単語との単語ペアに対する対応確率算出する。意味分類対応コーパス１１１の第１の意味分類Ｔ１における第１の文書対の文書の単語には、日本語の「白王」と、英語の「Hakuoh」とが含まれる。この場合、対応確率算出部１０５は、日本語文書の「白王」と、英語文書の「Hakuoh」との単語ペアについての単語対応確率を算出する。そのため、日本語文書の単語「白王」と英語文書の単語「Hakuoh」との単語ペアを対訳語句として抽出することが可能となる。

しかしながら、図１０のテーブル４２１の第３の文書対についての意味分類の推定結果では、日本語の「モンゴル」は第１の意味分類Ｔ１となり、日本語の「モンゴル」と対応する英語の「Mongolia」は第２の意味分類Ｔ２となっている。そのため、コーパス分割部１０４で作成した意味分類対応コーパス１１１では、第３の文書対における日本語の「モンゴル」は第１の意味分類Ｔ１に集約され、対応する英語の「Mongolia」は第２の意味分類に集約されている。この場合、ステップＳ４の処理において日本語の「モンゴル」と、英語の「Mongolia」との単語ペアについての単語対応確率は算出されないので、日本語の「モンゴル」と英語の「Mongolia」との単語ペアが対訳語句として抽出されることはない。

一方、本実施形態においては、上記の意味分類の推定結果を更新する推定結果更新処理を行う。推定結果更新処理においては、上記の通り、意味分類を推定した単語が対訳語句リスト１０３Ｄに登録されている場合に、当該単語の対応単語に対する意味分類の推定結果を更新する。図９に示した形態素解析の結果に基づいて、推定結果更新処理を行いながら全ての単語の意味分類を推定すると、例えば、図１２に示したような結果が得られる。

図１２は、第１の実施形態に係る意味分類推定処理による意味分類の推定結果の例を示す図である。

図１２には、意味分類推定処理（ステップＳ２）において推定結果更新処理（ステップＳ２０６）を行った場合の、単語毎の意味分類の確率分布と意味分類の推定結果とを文書毎にまとめたテーブル４２２を示している。テーブル４２２において、文書対番号１の日本語文書及び英語文書は、それぞれ、第１の文書対２１の日本語文書２０１及び英語文書２１１である。テーブル４２２において、文書対番号２の日本語文書及び英語文書は、それぞれ、第２の文書対２２の日本語文書２０２及び英語文書２１２である。テーブル４２２において、文書対番号３の日本語文書及び英語文書は、それぞれ、第３の文書対２３の日本語文書２０３及び英語文書２１３である。

推定結果更新処理を行った場合、図６Ａ〜図６Ｃ、及び図７に示したように、ある言語の文書における単語の意味分類の推定結果と、対訳語句リスト１０３Ｄとに基づいて、対応他言語文書における対応単語の意味分類の推定結果を更新する。これにより、ある言語の文書における単語の意味分類の推定結果と、対訳語句リスト１０３Ｄにおいて当該単語と対応付けられた対応単語の意味分類の推定結果とが同じ値（意味分類）になる。また、対応他言語文書における対応単語の意味分類の推定結果を更新する際には、当該対応単語と意味分類の推定結果が同じ単語の推定結果も更新される。そのため、推定結果更新処理を行った場合、図１２に示した意味分類の推定結果のように、文書対番号３における日本語の「モンゴル」の推定結果と英語の「Mongolia」の推定結果とが、ともに第１の意味分類Ｔ１となる可能性が非常に高くなる。

意味分類推定部１０３Ａにおいて図１２に示した意味分類の推定結果が得られた場合、コーパス分割部１０４は、各文書の単語を意味分類（トピック）毎に集約し、図１３に示したような意味分類対応コーパス１１１を作成する。

図１３は、第１の実施形態に係る意味分類推定処理の結果に基づく意味分類対応コーパスの例を示す図である。

図１３には、意味分類対応コーパス１１１の例として、図１２に示したテーブル４２３における意味分類の推定結果に基づいて各単語を意味分類Ｔ１の単語と意味分類Ｔ２の単語とに集約したテーブル形式の意味分類対応コーパス１１１を示している。意味分類対応コーパス１１１において、文書対番号１の日本語文書の単語及び英語文書の単語は、それぞれ、第１の文書対２１の日本語文書２０１及び英語文書２１１に対する形態素解析で抽出された単語である。意味分類対応コーパス１１１において、文書対番号２の日本語文書の単語及び英語文書の単語は、それぞれ、第２の文書対２２の日本語文書２０２及び英語文書２１２に対する形態素解析で抽出された単語である。意味分類対応コーパス１１１において、文書対番号３の日本語文書の単語及び英語文書の単語は、それぞれ、第３の文書対２３の日本語文書２０３及び英語文書２１３に対する形態素解析で抽出された単語である。

図１３の意味分類対応コーパス１１１を見ると、例えば、日本語の「白王」の意味分類の推定結果は第１の意味分類Ｔ１となっている。また、日本語の「白王」と対応する英語の「Hakuoh」の意味分類の結果も第１の意味分類Ｔ１となっている。更に、第１の意味分類Ｔ１に集約された単語は、いずれも相撲を連想させる単語となっている。これに対し、図１３の意味分類対応コーパス１１１において第２の意味分類Ｔ２に集約された単語は、相撲以外のトピック（例えば政治）を連想させる選挙や議会等の単語となっている。

図１３の意味分類対応コーパス１１１に基づいて単語ペアの対応確率を求める場合、対応確率算出部１０５は、意味分類毎に、集約された日本語文書の単語と英語文書の単語との単語ペアに対する対応確率算出する。意味分類対応コーパス１１１の第１の意味分類Ｔ１における第１の文書対の文書の単語には、日本語の「白王」と、英語の「Hakuoh」とが含まれる。この場合、対応確率算出部１０５は、日本語文書の「白王」と、英語文書の「Hakuoh」との単語ペアについての単語対応確率を算出するので、日本語文書の単語「白王」と英語文書の単語「Hakuoh」とを対訳語句として抽出することが可能となる。

また、推定結果更新処理を行った場合、意味分類対応コーパス１１１の第１の意味分類Ｔ１における第３の文書対の文書の単語には、日本語の「モンゴル」と、英語の「Mongolia」とが含まれる。この場合、対応確率算出部１０５は、日本語文書の「モンゴル」と、英語文書の「Mongolia」との単語ペアについての単語対応確率を算出する。そのため、日本語文書の単語「モンゴル」と英語文書の単語「Mongolia」との単語ペアを対訳語句として抽出することが可能となる。

図１４は、第１の実施形態に係る意味分類推定処理の結果に基づく単語ペアの対応確率の例と対訳語句らしさを表すスコアの例とを示す図である。

図１４の（ａ）には、対応確率算出部１０５において、図１３の意味分類対応コーパス１１１に基づいて算出した、意味分類毎の単語ペアの対応確率のテーブル４２５を示している。単語ペアの対応確率は、既知の対応確率の算出方法に従って算出する。図１４の（ａ）のテーブル４２５では、日本語文書の単語「モンゴル」と英語文書の単語「Mongolia」との単語ペアについての対応確率が算出されている。そのため、テーブル４２５の対応確率に基づいて算出する日本語文書の単語「モンゴル」と英語文書の単語「Mongolia」との単語ペアの対訳語句らしさを表すスコアが高ければ、「モンゴル」と「Mongolia」との単語ペアは対訳辞書に登録される。

単語ペアの対訳語句らしさを表すスコアは、評価部１０６が、各単語ペアについての対応確率に基づいて算出する。対訳語句らしさを表すスコアは、例えば、非特許文献２等に記載された既知の算出式を用いて算出する。

図１４の（ａ）に示したテーブル４２５の各単語ペアについて対訳語句らしさを表すスコアを算出し、スコアが高い順に単語ペアをソートすると、例えば、図１４の（ｂ）に示すテーブル４２６のような結果が得られる。この結果に基づいて、評価部１０６は、対訳語句として対訳辞書に登録する単語ペアを決定する。対訳辞書に登録する単語ペアは、例えば、スコアが所定の閾値以上である単語ペアとしてもよいし、スコアが高い所定個数の単語ペアとしてもよい。

このように、本実施形態に係る対訳辞書作成装置１では、ある文書における単語の意味分類を推定した際に、対訳語句リスト１０３Ｄを参照して当該単語との対訳関係が確定している対応単語の有無を判定する。そして、意味分類を推定した単語の対応単語が対訳語句リスト１０３Ｄに登録されている場合、意味分類を推定した単語を含む文書についての対応他言語文書に含まれる対応単語の意味分類の推定結果を、現在の処理において意味分類を推定した単語の意味分類に更新する。すなわち、本実施形態に係る意味分類推定処理では、対訳語句リスト１０３Ｄに登録された対訳関係が確定した単語ペアの意味分類を一致させることを制約条件として、対応他言語文書の対応単語の意味分類を更新する。更に、本実施形態に係る対訳辞書作成装置１では、対応他言語文書において意味分類の推定結果が対応単語と同じである単語についても、対応単語と同様に意味分類の推定結果を更新する。すなわち、本実施形態に係る意味分類推定処理では、対応他言語文書において同一の意味分類となる単語同士の意味分類の距離（類似性）を維持した状態で、意味分類の推定結果を更新する。これにより、対訳辞書の作成に用いる多言語文書群において内容に対応関係のある複数言語の文書が、内容の主旨が対応する文書の組である場合に、対訳可能な単語ペアの意味分類の推定結果が一致する可能性を高めることが可能となる。したがって、本実施形態によれば、対訳可能な単語ペアが対訳語句として抽出される可能性が高くなり、対訳語句の抽出精度が向上する。

更に、本実施形態に係る対訳辞書の作成処理においては、単語の潜在的なトピックを利用し、文書内における各単語の出現頻度のみを考慮した統計処理により推定した各単語のトピック（意味分類）に基づいて、対訳語句を抽出する。このため、大規模な対訳辞書（シード辞書）を参照して、内容の主旨が対応する複数の文書を含む多言語文書群から対訳語句を抽出する場合に比べて、対訳語句を抽出するまでの計算量を少なくすることが可能となる。加えて、本実施形態に係る意味分類推定処理で参照する対訳語句リスト１０３Ｄは、多言語文書群に含まれる単語についての１組以上の対訳語句が登録されていればよい。よって、本実施形態によれば、内容の主旨が対応する複数の文書を含む多言語文書群から対訳語句を抽出する際の各種コスト（例えば、計算量や、シード辞書等の言語リソース）を低減させることが可能となる。

なお、図２、図３、図４Ａ及び図４Ｂのフローチャートは、本実施形態に係る対訳辞書作成装置１が行う処理を説明するフローチャートの一例に過ぎない。本実施形態に係る対訳辞書作成装置１が行う処理は、上記の処理に限らず、例えば、意味分類推定処理（ステップＳ２）における一部の処理の内容を変更する等、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

［第２の実施形態］
図１５は、第２の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。

図１５に示すように、本実施形態に係る対訳辞書作成装置１は、入力受付部１０１と、形態素解析部１０２と、単語分類部１０３と、コーパス分割部１０４と、対応確率算出部１０５と、評価部１０６と、リスト作成部１０７と、を備える。また、本実施形態に係る対訳辞書作成装置１は、意味分類対応コーパス１１１と、対訳辞書１１２と、既存対訳辞書１１３と、多言語文書群２の文書と、を含む各種データを記憶する記憶部（図示せず）を備える。

入力受付部１０１、形態素解析部１０２、コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、それぞれ、第１の実施形態で説明した機能を持つ。コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、単語分類部１０３における各単語の意味分類の推定結果に基づいて、複数種の言語間における単語の対訳関係を登録した対訳辞書１１２を作成する辞書作成部１１０として機能する。

単語分類部１０３は、第１の実施形態で説明した機能を持つ。単語分類部１０３は、例えば、図３，図４Ａ及び図４Ｂのフローチャートに従って、単語の意味分類を推定する処理と、対応他言語文書の対応単語の意味分類を更新する処理とを行う。

本実施形態の対訳辞書作成装置１における単語分類部１０３は、第１の実施形態に係る単語分類部１０３と同様、意味分類推定部１０３Ａと、推定結果保持部１０３Ｂと、推定結果更新部１０３Ｃと、対訳語句リスト１０３Ｄと、制御部１０３Ｅと、を含む。本実施形態の対訳辞書作成装置１における単語分類部１０３の各部１０３Ａ〜１０３Ｃ，１０３Ｅは、それぞれ、第１の実施形態で説明した機能を持つ。

本実施形態の対訳辞書作成装置１におけるリスト作成部１０７は、多言語文書群２と、既存対訳辞書１１３とに基づいて、推定結果更新部１０３Ｃが参照する対訳語句リスト１０３Ｄを作成する。既存対訳辞書１１３は、入力された多言語文書群２に基づいて作成する対訳辞書１１２とは別の、予め用意された対訳辞書である。すなわち、本実施形態では、入力された多言語文書群２に基づいて対訳辞書１１２を作成する際に、入力された多言語文書群２と、既存対訳辞書１１３とに基づいて対訳語句リスト１０３Ｄを作成する。

本実施形態に係る対訳辞書作成装置１は、例えば、オペレータが多言語文書群を入力し対訳辞書の作成開始の命令を入力すると、図１６に示す処理を行う。

図１６は、第２の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。

図１６に示すように、本実施形態の対訳辞書作成装置１は、まず、入力された多言語文書群２に含まれる文書のそれぞれに対し、形態素解析を行う（ステップＳ１）。ステップＳ１の処理は、形態素解析部１０２が行う。対訳辞書作成装置１は、入力受付部１０１により多言語文書群２の各文書の入力を受け付け、入力された文書を形態素解析部１０２に渡す。形態素解析部１０２は、文書に対する既知の形態素解析方法に従って、各文書の文章を形態素（単語）に分割する。

次に、対訳辞書作成装置１は、ステップＳ１の処理結果と、既存対訳辞書１１３とに基づいて、対訳語句リスト１０３Ｄを作成する対訳語句リスト作成処理（ステップＳ１２）を行う。ステップＳ１２の処理は、リスト作成部１０７が行う。リスト作成部１０７は、既存対訳辞書１１３の対訳語句毎に、多言語文書群における統計量と、対訳のあいまい性とを考慮した登録スコアを算出する。登録スコアを算出した後、リスト作成部１０７は、登録スコアの高い対訳語句を対訳語句リスト１０３Ｄに登録する。

次に、対訳辞書作成装置１は、ステップＳ１及びＳ１２の処理結果に基づいて、文書内の単語（形態素）の意味分類を推定する意味分類推定処理（ステップＳ２）を行う。ステップＳ２の処理は、単語分類部１０３が行う。単語分類部１０３は、１個の文書内の各単語の意味分類を推定する処理を、多言語文書群に含まれる全ての文書に対して行う。単語分類部１０３は、単語の意味分類を推定する処理として、単語毎に、複数の意味分類のそれぞれについての確率分布を算出する処理を行う。また、単語分類部１０３は、単語の意味分類の推定結果に基づいて、対応他言語文書における対応単語についての意味分類の推定結果を更新する。ここで、対応他言語文書は、単語の意味分類を推定している文書と内容の主旨が対応する他の言語の文書である。対応単語は、単語の意味分類を推定している文書における単語と対応する、対応他言語文書の単語である。

本実施形態に係る対訳辞書作成装置１が行う上記の処理における意味分類推定処理（ステップＳ２）は、単語分類部１０３が行う。単語分類部１０３は、ステップＳ２の処理として、例えば、図３、図４Ａ及び図４Ｂに示した処理を行う。

本実施形態に係る対訳辞書作成装置１が行う上記の処理における対訳語句リスト作成処理（ステップＳ１２）は、リスト作成部１０７が行う。リスト作成部１０７は、ステップＳ１２の処理として、例えば、図１７に示す処理を行う。

図１７は、対訳語句リスト作成処理の内容を説明するフローチャートである。
対訳語句リスト作成処理（ステップＳ１２）では、既存対訳辞書１１３の対訳語句毎に、多言語文書群２における統計量と、対訳のあいまい性とを考慮した登録スコアを算出する。対訳語句リスト作成処理において、リスト作成部１０７は、図１７に示すように、まず、既存対訳辞書１１３の対訳語句を読み出す（ステップＳ１２０１）。

次に、リスト作成部１０７は、読み出した対訳語句毎に、多言語文書群２における統計量と、対訳のあいまい性とを考慮した登録スコアを算出する（ステップＳ１２０２）。ここで、多言語文書群２における統計量は、例えば、単語の出現頻度（Term Frequency: tf）と、逆文書頻度（Inverse Document Frequency: idf）との二つの指標に基づいて算出されるtf-idf値である。ステップＳ１２０２において、リスト作成部１０７は、例えば、下記式（１）により、既存対訳辞書１１３に登録された対訳語句ｔ_ｉの登録スコアＳ_ｉを算出する。

式（１）において、ｎ^ｌ _ｉ，ｊ／Σ_ｋｎ^ｌ _ｋ，ｊは、文書対ｄ_ｊの対訳語句ｔ^ｌ _ｉのについてのｔｆ値である。ｎ^ｌ _ｉ，ｊは、文書対ｄ_ｊにおける対訳語句ｔ^ｌ _ｉの出現回数であり、Σ_ｋｎ^ｌ _ｋ，ｊは、文書対ｄ_ｊにおける全ての単語の出現回数の和である。また、式（１）におけるlog（｜Ｄ｜／｜｛ｄ：ｄ∋ｔ^ｌ _ｉ｝｜）は、文書対ｄ_ｊの対訳語句ｔ^ｌ _ｉのについてのｉｄｆ値である。｜Ｄ｜は文書対の総数であり、｜｛ｄ：ｄ∋ｔ^ｌ _ｉ｝｜は単語ｔ^ｌ _ｉを含む文書の数である。更に、式（１）におけるｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）は、文書ｄ_ｊにおける対訳語句（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ）のあいまい性を表す値である。あいまい性がある場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝０とし、あいまい性がある場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝１とする。

登録スコアを算出した後、リスト作成部１０７は、登録スコアの大きい順に対訳語句をソートし（ステップＳ１２０３）、登録スコアが大きい上位Ｕ個の対訳語句又は登録スコアが閾値以上の対訳語句を対訳語句リスト１０３Ｄに登録する（ステップＳ１２０４）。

ステップＳ１２０４の処理を終えると、リスト作成部１０７は、対訳語句リスト作成処理を終了し、単語分類部１０３の制御部１０３Ｅに対して対訳語句リスト１０３Ｄの作成が終了したことを通知する。リスト作成部１０７からの通知を受けた単語分類部１０３は、例えば、図３、図４Ａ及び図４Ｂに示した意味分類推定処理を行う。

図１８は、既存対訳辞書の例と作成された対訳語句リストの例とを示す図である。
図１８の（ａ）には、対訳関係にある日本語文書における単語と、英語文書における単語との組が登録された既存対訳辞書１１３を示している。図１８の（ａ）に示した既存対訳辞書１１３では、例えば、英語の「adult」という単語と対訳関係にある日本語の単語として、「成人」、「大人」、及び「成年」の３個の単語が登録されている。また、英語の「tank」という単語と対訳関係にある日本語の単語として、「（容器としての）タンク」、「戦車」、及び「槽」の３個の単語が登録されている。このように、本実施形態に係る既存対訳辞書１１３における対訳語句は、１組の対訳語句における日本語の単語と、英語の単語とが１対１になっていなくてもよい。なお、図１８の（ａ）の既存対訳辞書１１３には示していないが、１組の対訳語句は、１個の日本語の単語と、複数個の英語の単語との組であってもよい。

リスト作成部１０７は、例えば、式（１）により、既存対訳辞書１１３に登録された対訳語句ｔ_ｉの登録スコアＳ_ｉを算出する。上記のように、式（１）におけるｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）は、文書ｄ_ｊにおける対訳語句（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ）のあいまい性を表す値である。対訳語句（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ）のあいまい性は、１文書における１つの単語に複数通りの対訳関係があるか否かに基づいて判定する。リスト作成部１０７は、対訳語句ｔ_ｉにあいまい性がある場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝０とし、対訳語句ｔ_ｉにあいまい性がない場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝１とする。

例えば、「XXX type of tank is supplied with the tank of 100L.」という英文における２個の「tank」という単語のうち、一方は日本語の「戦車」という意味であり、他方は容器としての「タンク」という意味である。このため、上記の英文「XXX type of tank is supplied with the tank of 100L.」を含む英語文書においては、英語の「tank」と対訳関係にある日本語の単語を一意に決めることができない。よって、リスト作成部１０７は、上記の英文における英語の「tank」の対訳関係にはあいまい性があると判定し、ｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝０として、登録スコアＳ_ｉを算出する。これに対し、１個の英語文書における「tank」と対訳関係にある日本語の単語が「タンク」、「戦車」、及び「槽」のいずれか１個のみに特定される場合、リスト作成部１０７は、上記の英文における英語の「tank」の対訳関係にはあいまい性がないと判定する。英語の「tank」の対訳関係にあいまい性がない場合、リスト作成部１０７は、ｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝１として、登録スコアＳ_ｉを算出する。

このように、既存対訳辞書１１３の対訳語句毎に、多言語文書群における統計量と、対訳のあいまい性とを考慮して登録スコアを算出し、登録スコアが上位の対訳語句を抽出すると、例えば、図１８の（ｂ）に示すような対訳語句リスト１０３Ｄが生成される。登録スコアＳ_ｉを算出する式（１）では、対訳語句（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ）にあいまい性がある場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝０とし、対訳語句（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ）にあいまい性がない場合にはｇ（ｔ^Ｊ _ｉ，ｔ^Ｅ _ｉ，ｄ_ｊ）＝１とする。そのため、対訳語句にあいまい性のない文書が多いほど、式（１）により算出される登録スコアＳ_ｉが大きくなる。よって、登録スコアＳ_ｉが大きい対訳語句のみが登録された対訳語句リスト１０３Ｄを参照して多言語文書群の各単語の意味分類を推定することで、１個の単語に対する意味分類の推定結果の揺らぎを抑制することが可能となる。

なお、図１６、及び図１７のフローチャートは、本実施形態に係る対訳辞書作成装置１が行う処理を説明するフローチャートの一例に過ぎない。本実施形態に係る対訳辞書作成装置１が行う処理は、上記の処理に限らず、例えば、意味分類推定処理（ステップＳ２）や対訳語句リスト作成処理における一部の処理の内容を変更する等、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

［第３の実施形態］
図１９は、第３の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。

図１９に示すように、本実施形態に係る対訳辞書作成装置１は、入力受付部１０１と、形態素解析部１０２と、単語分類部１０３と、コーパス分割部１０４と、対応確率算出部１０５と、評価部１０６と、リスト作成部１０７と、を備える。また、本実施形態に係る対訳辞書作成装置１は、意味分類対応コーパス１１１と、対訳辞書１１２と、多言語文書群２の文書と、を含む各種データを記憶する記憶部（図示せず）を備える。

入力受付部１０１、形態素解析部１０２、コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、それぞれ、第１の実施形態で説明した機能を持つ。コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、単語分類部１０３における各単語の意味分類の推定結果に基づいて、複数種の言語間における単語の対訳関係を登録した対訳辞書１１２を作成する辞書作成部１１０として機能する。なお、本実施形態に係る評価部１０６は、単語ペアの対応確率に基づいて算出した単語ペアの対訳語句らしさを表すスコアに基づいて対訳語句を対訳辞書１１２に登録するとともに、算出したスコアをリスト作成部１０７に出力する。

本実施形態の対訳辞書作成装置１における単語分類部１０３は、第１の実施形態に係る単語分類部１０３と同様、意味分類推定部１０３Ａと、推定結果保持部１０３Ｂと、推定結果更新部１０３Ｃと、対訳語句リスト１０３Ｄと、制御部１０３Ｅと、を含む。本実施形態の対訳辞書作成装置１における単語分類部１０３の各部１０３Ａ〜１０３Ｃは、それぞれ、第１の実施形態で説明した機能を持つ。これに対し、本実施形態に係る制御部１０３Ｅは、第１の実施形態で説明した第１のループ処理等の制御に加え、対訳語句リスト１０３Ｄについての能動学習の制御を行う。

本実施形態の対訳辞書作成装置１におけるリスト作成部１０７は、多言語文書群２と、評価部１０６の評価結果とに基づいて、単語分類部１０３の推定結果更新部１０３Ｃが参照する対訳語句リスト１０３Ｄを作成する。本実施形態に係る評価部１０６は、単語ペアの対応確率に基づいて算出した単語ペアの対訳語句らしさを表すスコアをリスト作成部１０７に出力する。リスト作成部１０７は、評価部１０６から受け取った単語ペアの対訳語句らしさを表すスコアに基づいて、スコアが上位の単語ペアを、対訳語句リスト１０３Ｄに登録する。

本実施形態に係る対訳辞書作成装置１は、例えば、オペレータが多言語文書群２を入力し対訳辞書の作成開始の命令を入力すると、図２０に示す処理を行う。

図２０は、第３の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。

図２０に示すように、本実施形態の対訳辞書作成装置１は、まず、入力された多言語文書群２に含まれる文書のそれぞれに対し、形態素解析を行う（ステップＳ１）。ステップＳ１の処理は、形態素解析部１０２が行う。対訳辞書作成装置１は、入力受付部１０１により多言語文書群２の各文書の入力を受け付け、入力された文書を形態素解析部１０２に渡す。形態素解析部１０２は、文書に対する既知の形態素解析方法に従って、各文書の文章を形態素（単語）に分割する。

次に、対訳辞書作成装置１は、単語の意味分類を推定して対訳語句らしさを表すスコアを算出し、スコアが上位の単語ペアを対訳語句リスト１０３Ｄに登録する処理を所定回数繰り返すと終了する第６のループ処理（ステップＳ２１〜Ｓ２３）を行う。

第６のループ処理は、単語分類部１０３の制御部１０３Ｅが制御する。制御部１０３Ｅは、単語の意味分類を推定して対訳語句らしさを表すスコアを算出し、スコアが上位の単語ペアを対訳語句リスト１０３Ｄに登録するまでの一連の処理（ステップＳ２〜Ｓ５，及びＳ２２）が終わる毎に処理回数を表す変数に１を加算する。そして、変数の値が所定の値（回数）よりも大きくなった場合、制御部１０３Ｅは、第６のループ処理を終了する。なお、第６のループ処理の終了条件とする処理の回数は適宜設定すればよく、予め定めておく固定値であってもよいし、例えば、対訳辞書の作成処理の開始時等にオペレータが設定してもよい。

第６のループ処理では、上記のように、単語の意味分類を推定して対訳語句らしさを表すスコアを算出し、スコアが上位の単語ペアを対訳語句リスト１０３Ｄに登録するまでの一連の処理（ステップＳ２〜Ｓ５，及びＳ２２）を、所定の回数だけ繰り返す。

第６のループ処理における１回（１ループ）の処理では、まず、ステップＳ１の処理結果と、対訳語句リスト１０３Ｄとに基づいて、文書内の単語（形態素）の意味分類を推定する意味分類推定処理を行う（ステップＳ２）。ステップＳ２の処理は、単語分類部１０３が行う。単語分類部１０３は、１個の文書内の各単語の意味分類を推定する処理を、多言語文書群２に含まれる全ての文書に対して行う。単語分類部１０３は、単語の意味分類を推定する処理として、単語毎に、複数の意味分類のそれぞれについての確率分布を算出する処理を行う。また、単語分類部１０３は、単語の意味分類の推定結果に基づいて、対応他言語文書における対応単語についての意味分類の推定結果を更新する。ここで、対応他言語文書は、単語の意味分類を推定している文書と、内容の主旨が対応する他の言語の文書である。対応単語は、単語の意味分類を推定している文書における単語と対応する、対応他言語文書の単語である。

次に、対訳辞書作成装置１は、ステップＳ５で算出したスコアに基づいて、スコアが上位の単語ペアを対応語句リストに登録する（ステップＳ２２）。ステップＳ２２の処理は、リスト作成部１０７が行う。リスト作成部１０７は、例えば、対訳語句リスト１０３Ｄに登録されていない単語ペアのうち、対訳語句らしさを表すスコアが最大である単語ペアを対訳語句リスト１０３Ｄに登録する。

単語ペアを対応語句リストに登録する処理が終了すると、単語分類部１０３の制御部１０３Ｅは、ステップＳ２〜Ｓ６，及びＳ２２の一連の処理を行った回数を更新する。そして、行った処理の回数が所定の回数よりも少なければ第６のループ処理を続け、行った処理の回数が所定の回数に到達すると第６のループ処理を終了する。

第６のループ処理を終了すると、対訳辞書作成装置１は、ステップＳ５で算出したスコアに基づいて、対訳語句を選出し対訳辞書に登録する（ステップＳ６）。ステップＳ６の処理は、評価部１０６が行う。評価部１０６は、例えば、ステップＳ５で算出したスコアが閾値以上である単語ペア、或いは算出したスコアが高い所定個数の単語ペアを選出し、当該単語ペアを対訳辞書に登録する。

このように、本実施形態に係る対訳辞書作成装置１は、多言語文書群２の文書の単語に対する意味分類の推定処理の結果から算出した単語ペアの対訳語句らしさを表すスコアに基づいて、対訳語句リスト１０３Ｄに登録する単語ペア（対訳語句）を決定する。更に、本実施形態に係る対訳辞書作成装置１は、意味分類を推定する処理から、単語ペアを対訳語句リスト１０３Ｄに登録する処理までの一連の処理を複数回繰り返した後、対訳辞書に登録する単語ペアを決定する。すなわち、本実施形態に係る対訳辞書作成装置１は、多言語文書群２の文書の単語に対する意味分類の推定処理の結果に基づいて選出した単語ペアを対訳辞書に登録する過程で、対訳語句リスト１０３Ｄの対訳語句（単語ペア）を能動学習する。

図２１Ａは、対訳語句の能動学習の様子を説明する図（その１）である。図２１Ｂは、対訳語句の能動学習の様子を説明する図（その２）である。

図２１Ａの（ａ）には、本実施形態に係る対訳辞書の作成処理を開始する時点での対訳語句リスト１０３Ｄの例を示している。すなわち、本実施形態に係る対訳辞書の作成処理は、対訳語句リスト１０３Ｄに対訳語句が登録されていない状態で開始することが可能である。対訳語句リスト１０３Ｄに対訳語句が登録されていない状態で対訳辞書の作成処理を開始した場合、１回目の意味分類推定処理（ステップＳ２）で行う推定結果更新処理（ステップＳ２０６）では、全ての単語に対するステップＳ２０６Ｃの判定結果が「Ｎｏ」となる。すなわち、１回目の意味分類推定処理（ステップＳ２）では、推定結果更新処理が行われない。

１回目の意味分類推定処理を終了した後、処理結果に基づいてステップＳ３〜Ｓ５の処理を行うと、各単語ペアの対訳語句らしさを表すスコアとして、例えば、図２１Ａの（ｂ）に示すテーブル４３１のような結果が得られる。なお、テーブル４３１では、対訳語句らしさを表すスコアが高い順に単語ペアをソートしてある。

ステップＳ５の処理が終了すると、評価部１０６は、各単語ペアの対訳語句らしさを表すスコア（テーブル４３１）をリスト作成部１０７に渡す。リスト作成部１０７は、各単語ペアの対訳語句らしさを表すスコア（テーブル４３１）を受け取ると、対訳語句リスト１０３Ｄに登録されていない単語ペアのうちのスコアが最大である単語ペアを対訳語句リスト１０３Ｄに登録する（ステップＳ２２）。１回目のステップＳ２２の処理を行う時点での対訳語句リスト１０３Ｄは、図２１Ａの（ａ）に示したように、対訳語句が登録されていない。このため、１回目のステップＳ２２の処理では、テーブル４３１における全ての単語ペアのうちのスコアが最大の単語ペアが、対訳語句リスト１０３Ｄへの登録対象となる。よって、１回目のステップＳ２２の処理では、図２１Ａの（ｃ）に示すように、日本語の「白王」と英語の「Hakuoh」との単語ペアが対訳語句リスト１０３Ｄに登録される。

１回目のステップＳ２２の処理が終了すると、対訳辞書作成装置１の単語分類部１０３は、２回目の単語意味推定処理を行う。２回目の単語意味推定処理における推定結果更新処理では、単語分類部１０３の推定結果更新部１０３Ｃは、図２１Ａの（ｃ）に示した、日本語の「白王」と英語の「Hakuoh」との単語ペアが登録された対訳語句リスト１０３Ｄを参照する。このため、多言語文書群２が「白王」という単語を含む日本語文書と「Hakuoh」という単語を含む英語文書との文書対を含む場合、推定結果更新処理において意味分類が更新される。

２回目の意味分類推定処理を終了した後、処理結果に基づいてステップＳ３〜Ｓ５の処理を行うと、各単語ペアの対訳語句らしさを表すスコアとして、例えば、図２１Ｂの（ｄ）に示すテーブル４３２のような結果が得られる。なお、テーブル４３２では、対訳語句らしさを表すスコアが高い順に単語ペアをソートしてある。

２回目のステップＳ５の処理が終了すると、評価部１０６は、各単語ペアの対訳語句らしさを表すスコア（テーブル４３２）をリスト作成部１０７に渡す。リスト作成部１０７は、各単語ペアの対訳語句らしさを表すスコア（テーブル４３２）を受け取ると、対訳語句リスト１０３Ｄに登録されていない単語ペアのうちの、スコアが最大である単語ペアを対訳語句リスト１０３Ｄに登録する（ステップＳ２２）。２回目のステップＳ２２の処理を行う時点での対訳語句リスト１０３Ｄは、図２１Ａの（ｃ）に示したように、日本語の「白王」と英語の「Hakuoh」との単語ペアが対訳語句リスト１０３Ｄに登録されている。このため、２回目のステップＳ２２の処理では、テーブル４３２における全ての単語ペアのうちの日本語の「白王」と英語の「Hakuoh」との単語ペアが対訳語句リスト１０３Ｄへの登録対象から除外される。テーブル４３２では日本語の「白王」と英語の「Hakuoh」との単語ペアのスコアが最大値となっているが、当該単語ペアはすでに対訳語句リスト１０３Ｄに登録されている。そのため、２回目のステップＳ２２の処理において、リスト作成部１０７は、テーブル４３２における日本語の「白王」と英語の「Hakuoh」との単語ペアを、対訳語句リスト１０３Ｄへの登録対象から除外する。よって、２回目のステップＳ２２の処理において、リスト作成部１０７は、図２１Ｂの（ｅ）に示すように、テーブル４３２においてスコアが２番目に大きい、日本語の「春賀富士」と英語の「Harukafuji」との単語ペアを対訳語句リスト１０３Ｄに登録する。

２回目のステップＳ２２の処理を終えた後、対訳辞書作成装置１は、ステップＳ２〜Ｓ５，Ｓ２２の一連の処理を所定回数に到達するまで繰り返す。この間、対訳語句リスト１０３Ｄには、ステップＳ２２の処理を終える毎に、新たな対訳語句（単語ペア）が１個追加される。そして、ステップＳ２〜Ｓ５，Ｓ２２の一連の処理を所定回数繰り返すと、対訳辞書作成装置１の評価部１０６は、最新のステップＳ５の処理結果に基づいて、スコアが上位の単語ペアを対訳辞書に登録する。

このように、本実施形態に係る対訳辞書作成装置１は、多言語文書群２の文書の単語に対する意味分類の推定処理の結果に基づいて選出した単語ペアを対訳辞書に登録する過程で、対訳語句リスト１０３Ｄの対訳語句（単語ペア）を能動学習する。すなわち、本実施形態によれば、既存対訳辞書１１３を用いることなく、対訳語句リスト１０３Ｄに基づいた意味分類の推定処理及び更新処理を行うことが可能となる。更に、多言語文書群２の文書の単語に対する意味分類の推定処理の結果に基づいて対訳語句リスト１０３Ｄの対訳語句を能動学習するので、リスト作成部１０７は、多言語文書群２の文書における文脈や対応単語の対訳関係の特性を反映した対訳語句リスト１０３Ｄを作成することが可能となる。よって、本実施形態によれば、多言語文書群２の文書の内容に応じた、より適切な対訳関係の対訳語句（単語ペア）が登録された対訳辞書１１２を作成することが可能となる。

なお、図２０のフローチャートは、本実施形態に係る対訳辞書作成装置１が行う処理を説明するフローチャートの一例に過ぎない。本実施形態に係る対訳辞書作成装置１が行う処理は、上記の処理に限らず、例えば、意味分類推定処理（ステップＳ２）や単語ペアを対訳語句リスト１０３Ｄに登録する処理の内容を一部変更する等、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

また、本実施形態では、１回のステップＳ２２の処理において１組の単語ペアを対訳語句リスト１０３Ｄに登録する例を挙げたが、これに限らず、１回のステップＳ２２の処理において２組以上の単語ペアを対訳語句リスト１０３Ｄに登録してもよい。更に、ステップＳ２２の処理では、対訳語句リスト１０３Ｄに登録する条件に、例えば、スコアが閾値以上であることを付加してもよい。

［第４の実施形態］
図２２は、第４の実施形態に係る対訳辞書作成装置の機能的構成を示す図である。

図２２に示すように、本実施形態に係る対訳辞書作成装置１は、入力受付部１０１と、形態素解析部１０２と、単語分類部１０３と、コーパス分割部１０４と、対応確率算出部１０５と、評価部１０６と、リスト作成部１０７と、を備える。また、本実施形態に係る対訳辞書作成装置１は、意味分類対応コーパス１１１と、対訳辞書１１２と、既存対訳辞書１１３と、多言語文書群２の文書と、を含む各種データを記憶する記憶部（図示せず）を備える。更に、本実施形態に係る対訳辞書作成装置１は、複合名詞抽出部１０８を備える。

入力受付部１０１、形態素解析部１０２、コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、それぞれ、第１の実施形態で説明した機能を持つ。コーパス分割部１０４、対応確率算出部１０５、及び評価部１０６は、単語分類部１０３における各単語の意味分類の推定結果に基づいて、複数種の言語間における単語の対訳関係を登録した対訳辞書１１２を作成する辞書作成部１１０として機能する。また、リスト作成部１０７は、第２の実施形態で説明したように、多言語文書群２の各文書に対する形態素解析で抽出した単語（形態素）と、既存対訳辞書１１３とに基づいて、対訳語句リスト１０３Ｄを作成する。

本実施形態の対訳辞書作成装置１における複合名詞抽出部１０８は、多言語文書群２の各文書に対する形態素解析の結果に基づいて、文書内の複合名詞を抽出する。複合名詞抽出部１０８は、例えば、複数の連続する単語（形態素）の品詞の関係や、文の意味構造に基づいて、複合名詞に該当する複数の連続する単語を一単語化する。すなわち、本実施形態では、文書中の複合名詞に該当する複数の連続する単語を一個の単語として扱い、対訳語句リスト１０３Ｄの作成や意味分類の推定等を行う。

本実施形態に係る対訳辞書作成装置１は、例えば、オペレータが多言語文書群２を入力し対訳辞書の作成開始の命令を入力すると、図２３に示す処理を行う。

図２３は、第４の実施形態に係る対訳辞書作成装置が行う処理を説明するフローチャートである。

図２３に示すように、本実施形態の対訳辞書作成装置１は、まず、入力された多言語文書群２に含まれる文書のそれぞれに対し、形態素解析を行う（ステップＳ１）。ステップＳ１の処理は、形態素解析部１０２が行う。対訳辞書作成装置１は、入力受付部１０１により多言語文書群２の各文書の入力を受け付け、入力された文書を形態素解析部１０２に渡す。形態素解析部１０２は、文書に対する既知の形態素解析方法に従って、各文書の文章を形態素（単語）に分割する。

次に、対訳辞書作成装置１は、ステップＳ１における全文書の形態素解析の結果に基づいて複合名詞を抽出する（ステップＳ１０）。ステップＳ１０の処理は、複合名詞抽出部１０８が行う。複合名詞抽出部１０８は、既知の抽出方法に従って、複合名詞の条件を満たす複数の連続した単語（形態素）の組を抽出する。

ステップＳ１０の後、複合名詞抽出部１０８は、全文書における、抽出した複合名詞と対応する複数の単語を１単語化する（ステップＳ１１）。ステップＳ１１において、複合名詞抽出部１０８は、文書中の複合名詞に該当する複数の単語（形態素）を１つの単語（形態素）に結合する。

ステップＳ１０，Ｓ１１の処理を終えると、対訳辞書作成装置１は、ステップＳ１１の処理結果と、既存対訳辞書１１３とに基づいて、対訳語句リスト作成処理（ステップＳ１２）を行う。ステップＳ１２の処理は、リスト作成部１０７が行う。リスト作成部１０７は、ステップＳ１２の処理として、例えば、図１７に示した処理を行う。なお、本実施形態に係るステップＳ１２の処理において、リスト作成部１０７は、複合名詞の条件を満たす複数の連続した単語の組を１個の単語（複合名詞）として扱う。

次に、対訳辞書作成装置１は、ステップＳ１１及びＳ１２の処理結果に基づいて、文書内の単語（形態素）の意味分類を推定する意味分類推定処理（ステップＳ２）を行う。ステップＳ２の処理は、単語分類部１０３が行う。単語分類部１０３は、ステップＳ２の処理として、例えば、図３、図４Ａ及び図４Ｂに示した処理を行う。なお、本実施形態に係るステップＳ２の処理において、単語分類部１０３は、複合名詞の条件を満たす複数の連続した単語の組を１個の単語（複合名詞）として扱う。

ステップＳ２の処理の後、対訳辞書作成装置１は、第１の実施形態で説明したステップＳ３〜Ｓ６の処理を行う。ステップＳ３の処理は、コーパス分割部１０４が行う。ステップＳ４の処理は、対応確率算出部１０５が行う。ステップＳ５及びＳ６の処理は、評価部１０６が行う。

図２４Ａは、複合名詞を抽出して１単語化する処理の例を説明する図（その１）である。図２４Ｂは、複合名詞を抽出して１単語化する処理の例を説明する図（その２）である。

図２４Ａの（ａ）には、多言語文書群２に含まれる文書の１つである日本語文書２０１を示している。この日本語文書２０１に対し形態素解析を行うと、例えば、図２４Ａの（ｂ）に示す第１の解析結果４５１が得られる。第１の解析結果４５１における「 / 」は、形態素（単語）の区切りを表す。

ステップＳ１０の処理において第１の解析結果４５１から複合名詞を抽出する場合、複合名詞抽出部１０８は、例えば、品詞が名詞である単語が複数個連続している箇所等を、複合名詞の条件を満たす単語群として抽出する（ステップＳ１０）。よって、第１の解析結果４５１からは、例えば、図２４Ａの（ｃ）に示すテーブル４５２のように、「次期 / 大統領 / 立候補」、「両国 / 国技館」、及び「アメリカ / 相撲 / 協会」の３組が、複合名詞の条件を満たす単語群として抽出される。

複合名詞の条件を満たす単語群を抽出した後、複合名詞抽出部１０８は、文書中の、抽出した単語群と対応する箇所を、複数の単語（形態素）から１個の単語に変更する（ステップＳ１１）。テーブル４５２に基づいて第１の解析結果４５１に対する変更処理を行うと、図２４Ａの（ｄ）に示す第２の解析結果４５３が得られる。第２の解析結果４５３では、複合名詞の条件を満たす「次期 / 大統領 / 立候補」、「両国 / 国技館」、及び「アメリカ / 相撲 / 協会」の３箇所が、それぞれ、「次期大統領立候補」、「両国国技館」、及び「アメリカ相撲協会」に変更されている。

ステップＳ１１の次に行うステップＳ１２の処理では、リスト作成部１０７は、第２の解析結果４５３に基づいて対訳語句リスト１０３Ｄを作成する。本実施形態のように文書中の複合名詞を抽出する場合、リスト作成部１０７が参照する既存対訳辞書１１３は、複合名詞についての対訳語句（単語ペア）を含む辞書であることが好ましい。ステップＳ１２の処理において、リスト作成部１０７は、例えば、図１７に示したステップＳ１２０１〜Ｓ１２０４の処理を行う。第２の解析結果４５３及び既存対訳辞書１１３に基づいて作成された対訳語句リスト１０３Ｄは、例えば、図２４Ｂの（ｅ）に示したようになる。

ステップＳ１２の処理の後、ステップＳ２〜Ｓ５の処理を行い、単語ペアの対訳語句らしさを表すスコアを算出すると、例えば、図２４Ｂの（ｆ）に示すテーブル４５４のような結果が得られる。よって、複合名詞の単語ペアのスコアが高い場合、当該複合名詞の単語ペアが対訳辞書に登録される。

このように、本実施形態では、多言語文書群２の文書における複合名詞の条件を満たす複数の連続した単語群を１単語化（複合名詞化）して単語の意味分類を推定し、推定結果に基づいて対訳辞書を作成する。このため、多言語文書群２に含まれる文書が特定の技術分野や業種の文書である場合に、当該技術分野や業種で使用される複合名詞を対訳語句として抽出し対訳辞書に登録することが可能となる。

なお、図２３のフローチャートは、本実施形態に係る対訳辞書作成装置１が行う処理を説明するフローチャートの一例に過ぎない。本実施形態に係る対訳辞書作成装置１が行う処理は、上記の処理に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

［第５の実施形態］
図２５は、第５の実施形態に係る翻訳システムの構成例を示す図である。

図２５に示すように、本実施形態に係る翻訳システム６は、対訳辞書作成装置１と、文書サーバ７と、辞書サーバ８と、翻訳サーバ９とを含む。

文書サーバ７は、分野毎に用意された多言語文書群２Ａ，２Ｂを格納するサーバ装置である。辞書サーバ８は、対訳辞書作成装置１で作成した分野毎の対訳辞書１１２Ａ，１１２Ｂを格納するサーバ装置である。翻訳サーバ９は、辞書サーバ８の対訳辞書を用いて第１の言語の文書を第２の言語の文書に翻訳するサーバ装置である。

文書サーバ７及び対訳辞書作成装置１は、インターネット等の通信ネットワーク１１を介して、端末装置１０Ａ，１０Ｂ等と通信可能に接続される。例えば、端末１０Ａ，１０Ｂは、翻訳システム６の管理やメンテナンスを行うオペレータが操作する端末装置である。オペレータは、端末１０Ａ，１０Ｂを操作して文書サーバ７の多言語文書群２Ａ，２Ｂの更新、新たな多言語文書群の追加、不要となった多言語文書群の削除等を行う。また、オペレータが操作する端末装置１０Ａ，１０Ｂは、通信ネットワーク１１を介して対訳辞書作成装置１と通信可能に接続される。オペレータが端末１０Ａ，１０Ｂを操作し、多言語文書群を指定する情報及び対訳辞書の作成処理の開始命令を対訳辞書作成装置１に送信すると、対訳辞書作成装置１は、第１の実施形態〜第４の実施形態のいずれかで説明した処理を行い、対訳辞書を作成する。その後、対訳辞書作成装置１は、作成した対訳辞書を辞書サーバ８に格納する
図２５では省略しているが、辞書サーバ８は、通信ネットワーク１１を介して端末装置１０Ａ，１０Ｂ等と通信可能に接続される。オペレータは、端末１０Ａ，１０Ｂを操作して辞書サーバ８の対訳辞書１１２Ａ，１１２Ｂのメンテナンス、不要となった対訳辞書の削除等を行う。

翻訳サーバ９は、通信ネットワーク１１を介して、端末１０Ｚ等と通信可能に接続される。端末１０Ｚのユーザは、例えば、端末１０Ｚを操作して翻訳したい文書や当該文書の分野等の情報を翻訳サーバ９に送信する。端末１０Ｚからの文書を受信した翻訳サーバ９は、文書の分野の情報に従って辞書サーバ８の対訳辞書を選択して文書を翻訳する。翻訳が完了すると、翻訳サーバ９は、翻訳後の文書を端末１０Ｚに送信する。なお、端末１０Ａ，１０Ｂも翻訳サーバ９に接続可能であることはもちろんである。

本実施形態に係る翻訳システム６は、例えば、企業内の各部署のオペレータや、各種ネットワーク・コミュニティの参加者が端末１０Ａ，１０Ｂを利用して対訳辞書を随時更新することが可能である。また、本実施形態に係る翻訳システム６は、第１の実施形態〜第４の実施形態で説明した対訳辞書作成装置１により対訳辞書を作成する。そのため、翻訳システム６は、特定の分野で用いられる専門用語の対訳が登録された対訳辞書を低コストで作成し、更新することが可能となる。

なお、図２５の翻訳システム６は、本実施形態に係る翻訳システムの一例に過ぎない。本実施形態に係る翻訳システム６は、例えば、多言語文書群と辞書データとを１台のサーバ装置に格納する等、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

上記の各実施形態で説明した処理を行う対訳辞書作成装置１は、例えば、コンピュータと、当該コンピュータに実行させるプログラムとにより実現可能である。以下、図２６を参照して、コンピュータとプログラムとを用いて実現される対訳辞書作成装置１について説明する。

図２６は、コンピュータのハードウェア構成を示す図である。
図２６に示すように、コンピュータ１５は、プロセッサ１５０１と、主記憶装置１５０２と、補助記憶装置１５０３と、入力装置１５０４と、出力装置１５０５と、入出力インタフェース１５０６と、通信制御装置１５０７と、媒体駆動装置１５０８と、を備える。コンピュータ１５におけるこれらの要素１５０１〜１５０８は、バス１５１０により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

プロセッサ１５０１は、Central Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ）等である。プロセッサ１５０１は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ１５の全体の動作を制御する。また、プロセッサ１５０１は、例えば、図２，図３，図４Ａ及び図４Ｂに示した各処理を行う。

主記憶装置１５０２は、図示しないRead Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む。主記憶装置１５０２のＲＯＭには、例えば、コンピュータ１５の起動時にプロセッサ１５０１が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置１５０２のＲＡＭは、プロセッサ１５０１が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置１５０２のＲＡＭは、例えば、多言語文書群２、意味分類の推定結果、意味分類対応コーパス１１１等の記憶に利用可能である。

補助記憶装置１５０３は、例えば、Hard Disk Drive（ＨＤＤ）や、フラッシュメモリ等の不揮発性メモリ（Solid State Drive（ＳＳＤ）を含む）等、主記憶装置１５０２のＲＡＭと比べて容量の大きい記憶装置である。補助記憶装置１５０３は、プロセッサ１５０１によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置１５０３は、例えば、例えば、図２，図３，図４Ａ及び図４Ｂに示した各処理をプロセッサ１５０１に実行させるプログラムの記憶に利用可能である。また、補助記憶装置９０３は、例えば、多言語文書群２、意味分類の推定結果、意味分類対応コーパス１１１、対訳辞書１１２等の記憶に利用可能である。

入力装置１５０４は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ１５のオペレータ（利用者）が入力装置１５０４に対して所定の操作を行うと、入力装置１５０４は、その操作内容に対応付けられている入力情報をプロセッサ１５０１に送信する。入力装置１５０４は、例えば、図３、図１６、図２０、及び図２３に示した処理のいずれかを開始させる命令の入力、多言語文書群の選択等に利用可能である。

出力装置１５０５は、例えば、液晶表示装置等のディスプレイ装置を含む。出力装置１５０５は、例えば、多言語文書群２の文書の表示、作成した対訳辞書の表示等に利用可能である。

入出力インタフェース１５０６は、コンピュータ１５と、他の電子機器とを接続する。入出力インタフェース１５０６は、例えば、Universal Serial Bus（ＵＳＢ）規格のコネクタ等を備える。

通信制御装置１５０７は、コンピュータ１５を通信ネットワークに接続し、通信ネットワークを介したコンピュータ１５と他の電子機器との各種通信を制御する装置である。

媒体駆動装置１５０８は、可搬型記憶媒体１６に記録されているプログラムやデータの読み出し、補助記憶装置１５０３に記憶されたデータ等の可搬型記憶媒体１６への書き込みを行う。媒体駆動装置１５０８には、例えば、光ディスクドライブを利用可能である。媒体駆動装置１５０８として光ディスクドライブを用いる場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体１６として利用可能である。可搬型記録媒体１６として利用可能な光ディスクには、例えば、Compact Disc（ＣＤ）、Digital Versatile Disc（ＤＶＤ）、Blu-ray Disc（Blu-rayは登録商標）等がある。また、媒体駆動装置１５０８には、例えば、１種類又は複数種類の規格に対応したメモリカード用リーダ／ライタが利用可能である。媒体駆動装置１５０８としてメモリカード用リーダ／ライタを用いる場合、可搬型記憶媒体１６としては、メモリカード用リーダ／ライタが対応している規格、例えば、Secure Digital（ＳＤ）規格のメモリカード（フラッシュメモリ）等を利用可能である。また、可搬型記録媒体１６としては、例えば、ＵＳＢ規格のコネクタを備えたフラッシュメモリが利用可能である。可搬型記録媒体１６は、上記の各実施形態で説明した処理を含むプログラム、多言語文書群、作成した対訳辞書等の記録に利用可能である。

図３、図１６、図２０、及び図２３に示した処理のいずれかを開始する命令をコンピュータ１５に入力すると、プロセッサ１５０１が、補助記憶装置１５０３等の非一時的な記録媒体に記憶させたプログラムを読み出して実行する。これらの処理において、プロセッサ１５０１は、音声要約作成支援装置１における形態素解析部１０２、意味分類推定部１０３Ａ、推定結果更新部１０３Ｃ、制御部１０３Ｅ、コーパス分割部１０４、対応確率算出部１０５、評価部１０６として機能する（動作する）。また、図１６或いは図２０の処理を実行する場合、プロセッサ１５０１は、上記の各部に加え、リスト作成部１０７としても機能する（動作する）。更に、図２３の処理を実行する場合、プロセッサ１５０１は、複合名詞抽出部１０８としても機能する（動作する）。また、主記憶装置１５０２のＲＡＭや補助記憶装置１５０３等は、対訳辞書作成装置１における対訳語句リスト１０３Ｄ、意味分類対応コーパス１１１、対訳辞書１１２等を記憶する記憶部、推定結果保持部１０３Ｂとして機能する。

なお、対訳辞書作成装置１として動作させるコンピュータ１５は、図２６に示した全ての要素１５０１〜１５０８を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ１５は、媒体駆動装置１５０８が省略されたものであってもよい。

以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出する形態素解析部と、
前記複数の文書のそれぞれに対し、抽出した前記単語の意味分類を推定する推定部と、
推定した前記単語の意味分類を保持する保持部と、
現在処理対象である文書における前記単語の意味分類の推定結果と、対訳語句リストに登録された、前記複数種の言語間における対訳関係が確定した１組以上の単語ペアとに基づいて、現在処理対象である前記文書と内容の主旨が対応する他言語の文書において前記意味分類を推定した前記単語と対応する対応単語の意味分類を、前記単語の意味分類に更新する更新部と、
前記推定部による意味分類の推定及び前記更新部による意味分類の更新を制御する制御部と、
前記推定部による意味分類の推定及び前記更新部による意味分類の更新により得た前記単語の意味分類に基づいて、前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する辞書作成部と、
を備えることを特徴とする対訳辞書作成装置。
（付記２）
前記更新部は、現在処理対象である前記文書と内容の主旨が対応する前記他言語の文書において前記意味分類を推定した前記単語と対応する対応単語の意味分類に加え、前記他言語の文書において意味分類が前記対応単語と同じ単語の意味分類を、現在処理対象である前記文書の前記単語の意味分類に更新する、
ことを特徴とする付記１に記載の対訳辞書作成装置。
（付記３）
前記辞書作成部により作成する前記対訳辞書とは異なる、前記複数種の言語間における単語の対訳関係が登録された既存対訳辞書と、
前記既存対訳辞書に登録された対訳語句についての前記複数の文書における出現頻度を含む統計量と、前記対訳語句のあいまい性とに基づいて、前記既存対訳辞書から抽出した前記対訳語句を含む前記対訳語句リストを作成するリスト作成部と、
を更に備えることを特徴とする付記１に記載の対訳辞書作成装置。
（付記４）
前記辞書作成部は、前記複数の文書から抽出した前記単語についての意味分類の推定結果に基づいて、複数言語間で対訳関係を持つ単語ペアについての対訳語句らしさを表す値を算出し、当該対訳語句らしさを表す値が高い単語ペアを前記対訳辞書に登録する、
ことを特徴とする付記１に記載の対訳辞書作成装置。
（付記５）
前記対訳語句らしさを表す値が大きい前記単語ペアを登録した前記対訳語句リストを作成するリスト作成部、
を更に備えることを特徴とする付記４に記載の対訳辞書作成装置。
（付記６）
前記制御部による制御が、前記推定部による意味分類の推定及び前記更新部による意味分類の更新、前記辞書作成部による前記対訳語句らしさを表す値の算出、並びに前記リスト作成部による前記対訳語句リストの作成を所定回数繰り返す制御を含む、
ことを特徴とする付記５に記載の対訳辞書作成装置。
（付記７）
１個の前記文書から抽出した複数の前記単語の並び順に基づいて、複合名詞の条件を満たす連続する複数の前記単語の組を抽出し、当該複数の前記単語の組を１個の単語にする複合名詞抽出部、
を更に備えることを特徴とする付記１に記載の対訳辞書作成装置。
（付記８）
コンピュータが、
複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出し、
前記複数の文書のそれぞれに対し、抽出した前記単語の意味分類を推定して保持するとともに、現在処理対象である文書における前記単語の意味分類の推定結果と、対訳語句リストに登録された、前記複数種の言語間における対訳関係が確定した１組以上の単語ペアとに基づいて、現在処理対象である前記文書と内容の主旨が対応する他言語の文書において前記意味分類を推定した前記単語と対応する対応単語の意味分類を、前記単語の意味分類に更新する処理、を複数回繰り返し、
前記単語の前記意味分類の推定する処理及び前記意味分類を更新する処理により得た前記単語の意味分類に基づいて、前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する、
処理を実行することを特徴とする対訳辞書作成方法。
（付記９）
前記単語の意味分類を更新する処理において、前記コンピュータは、
現在処理対象である前記文書と内容の主旨が対応する前記他言語の文書において前記意味分類を推定した前記単語と対応する対応単語の意味分類に加え、前記他言語の文書において意味分類が前記対応単語と同じ単語の意味分類を、現在処理対象である前記文書の前記単語の意味分類に更新する、
ことを特徴とする付記８に記載の対訳辞書作成方法。
（付記１０）
前記コンピュータは、更に、
前記対訳辞書とは異なる、前記複数種の言語間における単語の対訳関係が登録された既存対訳辞書を参照し、
前記既存対訳辞書に登録された対訳語句についての前記複数の文書における出現頻度を含む統計量と、前記対訳語句のあいまい性とに基づいて、前記既存対訳辞書から抽出した前記対訳語句を含む前記対訳語句リストを作成する、
処理を実行することを特徴とする付記８に記載の対訳辞書作成方法。
（付記１１）
前記対訳辞書を作成する処理において、前記コンピュータは、
前記複数の文書から抽出した前記単語についての意味分類の推定結果に基づいて、複数言語間で対訳関係を持つ単語ペアについての対訳語句らしさを表す値を算出し、当該対訳語句らしさを表す値が高い単語ペアを前記対訳辞書に登録する、
ことを特徴とする付記８に記載の対訳辞書作成方法。
（付記１２）
前記コンピュータが、更に、
前記対訳語句らしさを表す値が大きい前記単語ペアを登録した前記対訳語句リストを作成する、
処理を実行することを特徴とする付記１１に記載の対訳辞書作成方法。
（付記１３）
前記コンピュータが、
前記意味分類を推定する処理及び前記意味分類を更新する処理、前記対訳語句らしさを表す値を算出する処理、並びに前記対訳語句リストを作成する処理を含む一連の処理を所定回数繰り返す、
ことを特徴とする付記１２に記載の対訳辞書作成方法。
（付記１４）
前記コンピュータが、更に、
１個の前記文書から抽出した複数の前記単語の並び順に基づいて、複合名詞の条件を満たす連続する複数の前記単語の組を抽出し、当該複数の前記単語の組を１個の単語にする、
を実行することを特徴とする付記８に記載の対訳辞書作成方法。
（付記１５）
複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出し、
前記複数の文書のそれぞれに対し、抽出した前記単語の意味分類を推定して保持するとともに、現在処理対象である文書における前記単語の意味分類の推定結果と、対訳語句リストに登録された、前記複数種の言語間における対訳関係が確定した１組以上の単語ペアとに基づいて、現在処理対象である前記文書と内容の主旨が対応する他言語の文書において前記意味分類を推定した前記単語と対応する対応単語の意味分類を、前記単語の意味分類に更新する処理、を複数回繰り返し、
前記単語の前記意味分類の推定する処理及び前記意味分類を更新する処理により得た前記単語の意味分類に基づいて、前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する、
処理をコンピュータに実行させる対訳辞書作成プログラム。

１対訳辞書作成装置
２，２Ａ，２Ｂ多言語文書群
６翻訳システム
７文書サーバ
８辞書サーバ
９翻訳サーバ
１５コンピュータ
１６可搬型記録媒体
１０１入力受付部
１０２形態素解析部
１０３単語分類部
１０３Ａ意味分類推定部
１０３Ｂ推定結果保持部
１０３Ｃ推定結果更新部
１０３Ｄ対訳語句リスト
１０３Ｅ制御部
１０４コーパス分割部
１０５対応確率算出部
１０６評価部
１０７リスト作成部
１０８複合名詞抽出部
１１１意味分類対応コーパス
１１２，１１２Ａ，１１２Ｂ対訳辞書
１１３既存対訳辞書
２０１〜２０３日本語文書
２１１〜２１３英語文書

Claims

複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出する形態素解析部と、
前記複数の文書のそれぞれに対し、抽出した前記単語の意味分類を推定する推定部と、
前記単語についての前記意味分類の推定結果を保持する保持部と、
対訳語句リストに予め登録されている単語ペアであって、前記複数種の言語のうちの２つの言語間における対訳関係が予め確定している前記単語ペアが、前記複数の文書のうちの２つの文書であって前記２つの言語で記載されており内容の主旨が対応する前記２つの文書の各々から抽出した単語にそれぞれ存在する場合に、前記２つの文書のうちの一方の文書から抽出した単語のうちの、前記単語ペアのうちの一方の単語と、前記意味分類の推定結果が前記一方の単語と同じである単語とについての前記意味分類の推定結果を、前記単語ペアのうちの他方の単語である、前記２つの文書のうちの他方の文書から抽出した単語についての前記意味分類の推定結果に更新する更新部と、
前記推定部による前記意味分類の推定及び前記更新部による前記意味分類の推定結果の更新を制御する制御部と、
前記推定部による前記意味分類の推定及び前記更新部による意味分類の推定結果の更新により得た、抽出した前記単語についての前記意味分類の推定結果に基づいて、前記同じである単語についての対訳関係を含む前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する辞書作成部と、
を備えることを特徴とする対訳辞書作成装置。
前記辞書作成部により作成する前記対訳辞書とは異なる、前記複数種の言語間における単語の対訳関係が登録された既存対訳辞書と、
前記既存対訳辞書に登録された対訳語句についての前記複数の文書における出現頻度及び逆文書頻度と、前記複数の文書の各々において１つの単語に複数通りの対訳関係があるか否かを表す前記対訳語句のあいまい性とを用いて算出される前記対訳語句についての登録スコアであって、前記対訳語句のあいまい性のない文書が前記複数の文書に多いほど値が大きくなる前記登録スコアに基づいて、前記既存対訳辞書から前記対訳語句を抽出し、抽出した前記対訳語句を含む前記対訳語句リストを作成するリスト作成部と、
を更に備えることを特徴とする請求項１に記載の対訳辞書作成装置。
前記辞書作成部は、抽出した前記単語についての意味分類の推定結果に基づいて、抽出した前記単語を意味分類毎に集約し、集約した前記意味分類毎に、複数言語間で対訳関係を持つ単語ペアについての単語対応確率を算出し、算出した前記単語対応確率に基づいて、該単語ペアについての対訳語句らしさを表す値を該単語ペア毎に算出し、当該対訳語句らしさを表す値が高い単語ペアを前記対訳辞書に登録する、
ことを特徴とする請求項１に記載の対訳辞書作成装置。
前記対訳語句らしさを表す値が大きい前記単語ペアを登録した前記対訳語句リストを作成するリスト作成部、
を更に備えることを特徴とする請求項３に記載の対訳辞書作成装置。
前記制御部による制御が、前記推定部による前記意味分類の推定及び前記更新部による前記意味分類の推定結果の更新、前記辞書作成部による前記対訳語句らしさを表す値の算出、並びに前記リスト作成部による前記対訳語句リストの作成を、所定回数繰り返す制御を含む、
ことを特徴とする請求項４に記載の対訳辞書作成装置。
１個の前記文書から抽出した複数の前記単語の並び順に基づいて、複合名詞の条件を満たす連続する複数の前記単語の組を抽出し、当該複数の前記単語の組を１個の単語にする複合名詞抽出部、
を更に備えることを特徴とする請求項１に記載の対訳辞書作成装置
コンピュータが、
複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出し、
前記複数の文書のそれぞれに対し、抽出した前記単語についての意味分類を推定して前記意味分類についての推定結果を保持するとともに、対訳語句リストに予め登録されている単語ペアであって、前記複数種の言語のうちの２つの言語間における対訳関係が予め確定している前記単語ペアが、前記複数の文書のうちの２つの文書であって前記２つの言語で記載されており内容の主旨が対応する前記２つの文書の各々から抽出した単語にそれぞれ存在する場合に、前記２つの文書のうちの一方の文書から抽出した単語のうちの、前記単語ペアのうちの一方の単語と、前記意味分類の推定結果が前記一方の単語と同じである単語とについての前記意味分類の推定結果を、前記単語ペアのうちの他方の単語である、前記２つの文書のうちの他方の文書から抽出した単語についての前記意味分類の推定結果に更新する処理、を複数回繰り返し、
前記単語の前記意味分類を推定する処理及び前記意味分類の推定結果を更新する処理により得た、抽出した前記単語についての前記意味分類の推定結果に基づいて、前記同じである単語についての対訳関係を含む前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する、
処理を実行することを特徴とする対訳辞書作成方法。
複数種の言語で記載された内容の主旨が対応する複数の文書のそれぞれに対して形態素解析を行い前記複数の文書のそれぞれから単語を抽出し、
前記複数の文書のそれぞれに対し、抽出した前記単語についての意味分類を推定して前記意味分類についての推定結果を保持するとともに、対訳語句リストに予め登録されている単語ペアであって、前記複数種の言語のうちの２つの言語間における対訳関係が予め確定している前記単語ペアが、前記複数の文書のうちの２つの文書であって前記２つの言語で記載されており内容の主旨が対応する前記２つの文書の各々から抽出した単語にそれぞれ存在する場合に、前記２つの文書のうちの一方の文書から抽出した単語のうちの、前記単語ペアのうちの一方の単語と、前記意味分類の推定結果が前記一方の単語と同じである単語とについての前記意味分類の推定結果を、前記単語ペアのうちの他方の単語である、前記２つの文書のうちの他方の文書から抽出した単語についての前記意味分類の推定結果に更新する処理、を複数回繰り返し、
前記単語の前記意味分類を推定する処理及び前記意味分類の推定結果を更新する処理により得た、抽出した前記単語についての前記意味分類の推定結果に基づいて、前記同じである単語についての対訳関係を含む前記複数種の言語間における単語の対訳関係を登録した対訳辞書を作成する、
処理をコンピュータに実行させる対訳辞書作成プログラム。