JP2006031511A

JP2006031511A - 翻訳モデル生成装置および方法

Info

Publication number: JP2006031511A
Application number: JP2004211175A
Authority: JP
Inventors: Takaaki Tanaka; 貴秋田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-07-20
Filing date: 2004-07-20
Publication date: 2006-02-02

Abstract

【課題】第２自然言語内での単語及び構造の自然な並びと、第１自然言語と第２自然言語の適切な組み合わせとを考慮したスコア付けを行う。
【解決手段】形態素解析部１００は、翻訳学習データの第１自然言語表現と第２自然言語表現を形態素解析し、構造解析部１１０は、構造情報を出力する。目的言語特徴量取得部１２０は、第２自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパス２００から取得する。翻訳特徴量取得部１３０は、第１自然言語表現が第２自然言語表現に翻訳される確率を対訳辞書２２０から求める。対訳共起特徴量取得部１４０は、第１自然言語表現の単語と第２自然言語表現の単語の組み合わせが、対訳辞書２２０又は対訳コーパス２１０の中で対訳として出現する確率を求める。翻訳モデル学習部１５０は、機械学習により翻訳モデル２３０を生成する。
【選択図】図１

Description

本発明は、原言語である第１自然言語表現を入力として、対応する目的言語である第２自然言語表現を出力する機械翻訳に係り、特に機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置および方法に関するものである。

多くの機械翻訳システムでは、第１自然言語と第２自然言語とを対応付けた対訳辞書と翻訳ルールとを使って複数の翻訳候補を生成し、翻訳ルール中に記述された方法に基づいてスコアを計算し、スコアの最も高い翻訳候補を最終的な翻訳結果として出力するようにしている。

しかしながら、第１自然言語の表現に対して訳語となる第２自然言語の侯補が豊富に考えられる場合、さまざまな入力を考慮して最適な翻訳結果が得られるようにスコアを決定することは容易ではない。また、同じ第１自然言語表現であっても、文章の内容が属している分野によって翻訳として異なった第２自然言語表現を選択しなければならないが、分野によってスコア付けを適切にするためにルールを変更することは容易ではない。

例えば非特許文献１では、第１自然言語表現を第２自然言語表現に変換するスコアとして、シソーラスに基づく単語間の意味距離計算を用いているが、第２自然言語表現内での単語あるいは構造の並びの自然さを考慮したスコア付けがなされていないため、第２自然言語表現としてより適切な候補を優先して出力させることは難しい。また、固定したシソーラスに基づくスコアのために、翻訳する分野によって適切な語を出力するようにスコア付けを変更することは容易ではない。

なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
古瀬蔵，隅田英一郎，飯田仁，「経験的知識を活用する変換主導型機械翻訳」，１９９４年情報処理学会論文誌，情報処理学会，１９９４年３月，第３５巻，第３号，ｐ．４１５−４２５

以上のように従来の機械翻訳システムでは、第２自然言語表現内での単語及び構造の並びの自然さを考慮したスコア付けがなされていないため、第１自然言語表現に対する第２自然言語表現としてより適切な翻訳候補を優先して出力することが難しいという問題点があり、また翻訳する分野に応じて適切な第２自然言語表現を出力することが難しいという問題点があった。

本発明は、上記課題を解決するためになされたもので、第２自然言語内での単語及び構造の自然な並びと、第１自然言語と第２自然言語の適切な組み合わせとを考慮したスコア付けを行うことができ、かつ翻訳対象とする分野に適応したスコア付けを行うことができる翻訳モデル生成装置および方法を提供することを目的とする。

本発明は、原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせ、及び第１自然言語表現とその不適切な翻訳結果である第２自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、この形態素解析手段の出力に基づいて、前記分割された各単語間の依存関係を前記第１自然言語表現と第２自然言語表現の各々について同定し、前記依存関係を表す構造情報を出力する構造解析手段と、この構造解析手段から受け取った第２自然言語表現の構造情報に基づいて、この第２自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、前記構造解析手段から受け取った構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第２自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、前記構造解析手段から受け取った第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有するものである。本発明では、翻訳として適切な第１自然言語表現と第２自然言語表現の組を正例の学習データ、翻訳として不適切な第１自然言語表現と第２自然言語表現の組を負例の学習データとして入力すると、目的言語コーパス、対訳辞書、対訳コーパスから統計量を取得して、機械学習の手法によって，機械翻訳装置が適切な翻訳候補を選択するための翻訳モデルを生成する。

また、本発明の翻訳モデル生成装置は、第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、この形態素解析手段の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第１自然言語表現に対する第２自然言語の翻訳侯補を適切な例と不適切な例の両方について生成すると共に、前記第１自然言語表現の構造情報と前記翻訳候補の構造情報を出力する翻訳侯補生成手段と、この翻訳侯補生成手段から受け取った翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、前記翻訳侯補生成手段から受け取った構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、前記翻訳侯補生成手段から受け取った第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有するものである。一般に機械学習を行うためには、学習データとして負例を用意する必要があるが、本発明では、正例から対訳辞書や対訳テンプレートを用いて自動的に負例を生成する。

また、本発明は、原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせ、及び第１自然言語表現とその不適切な翻訳結果である第２自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、前記メモリに格納された形態素解析手順の出力に基づいて、前記分割された各単語間の依存関係を前記第１自然言語表現と第２自然言語表現の各々について同定し、前記依存関係を表す構造情報をメモリに格納する構造解析手順と、前記メモリに格納された第２自然言語表現の構造情報に基づいて、この第２自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、前記メモリに格納された構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第２自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、前記構造解析手順でメモリに格納された第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得手順と、前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有するものである。

また、本発明の翻訳モデル生成方法は、第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、この形態素解析手順の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第１自然言語表現に対する第２自然言語の翻訳侯補を適切な例と不適切な例の両方について生成してメモリに格納すると共に、前記第１自然言語表現の構造情報と前記翻訳候補の構造情報をメモリに格納する翻訳侯補生成手順と、前記メモリに格納された翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、前記メモリに格納された構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、前記翻訳侯補生成手順でメモリに格納された第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得部と、前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有するものである。

本発明によれば、翻訳学習データとして第１自然言語表現とその翻訳侯補である第２自然言語表現を与えると、目的言語特徴量取得手段が目的言語コーパスから第２自然言語表現と同じ構造を持つ表現の統計量を算出し、翻訳特徴量取得手段が第１自然言語表現に含まれる構造が第２自然言語表現に含まれる構造に変換される確率を対訳辞書から算出し、対訳共起特徴量取得手段が第１自然言語表現に含まれる単語と第２自然言語表現に含まれる単語が共起する確率を対訳辞書と対訳コーパスから算出し、算出された統計量と確率を特徴量として、機械学習の手法によって学習を行うことによって、第１自然言語表現から第２自然言語表現への翻訳侯補を選択するための翻訳モデルを生成することが可能となる。このモデルにより、第２自然言語内での単語及び構造の自然な並びと、第１自然言語から第２自然言語への変換として適切な組み合わせとを考慮したスコア付けを行うことができる。また、使用する辞書とコーパスを変更することによって、翻訳対象とする分野に適応したスコア付けを行うことが容易に可能である。その結果、本発明によれば、適切な翻訳結果を出力することが可能となる。

また、一般に機械学習を行うためには、翻訳学習データとして不適切な翻訳結果（負例）を用意する必要があるが、翻訳侯補生成手段が対訳辞書や対訳テンプレートを用いて適切な翻訳結果（正例）から負例を自動的に生成するため、正例のみを対訳表現データとして用意すればよい。

［第１の実施の形態］
以下、本発明による１実施の形態を図面とともに説明する。図１は、本発明の第１の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図１の自然言語翻訳装置は、後述する機械翻訳装置が翻訳候補を選択するための翻訳モデルを生成する翻訳モデル生成装置１と、機械翻訳装置２と、機械翻訳装置２が出力した翻訳結果を表示する表示装置とから構成される。翻訳モデル生成装置１は、形態素解析部１００と、構造解析部１１０と、目的言語特徴量取得部１２０と、翻訳特徴量取得部１３０と、対訳共起特徴量取得部１４０と、翻訳モデル学習部１５０と、目的言語コーパス２００と、対訳コーパス２１０と、対訳辞書２２０とを有する。

自然言語翻訳装置の使用者は、第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせ、及び第１自然言語表現とその不適切な翻訳結果である第２自然言語表現の組み合わせを翻訳学習データとして翻訳モデル生成装置１の形態素解析部１００に入力する。このとき、第１自然言語表現と第２自然言語表現の組み合わせには、適切な翻訳結果（正例）であることを示す属性情報、または不適切な翻訳結果（負例）であることを示す属性情報が付加されている。

形態素解析部１００は、入力された翻訳学習データの第１自然言語表現と第２自然言語表現とをそれぞれ形態素解析して、単語に分割し、分割した各単語に品詞情報を付加する。この第１自然言語表現と第２自然言語表現の形態素解析結果は、構造解析部１１０に送られる。

構造解析部１１０は、形態素解析部１００の出力に基づいて、分割された各単語間の依存関係を第１自然言語表現と第２自然言語表現の各々について同定し、依存関係を表す構造情報を目的言語特徴量取得部１２０、翻訳特徴量取得部１３０および対訳共起特徴量取得部１４０に送る。

目的言語特徴量取得部１２０は、構造解析部１１０から受け取った第２自然言語表現の構造情報に基づいて、この第２自然言語表現の１部あるいは全ての単語を含み、かつ同じ構造を持つ表現を、第２自然言語のデータベースである目的言語コーパス２００から抽出して、この表現に関する統計量を求めて翻訳モデル学習部１５０に出力する。

翻訳特徴量取得部１３０は、構造解析部１１０から受け取った構造情報に基づいて、第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、第２自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を、第１自然言語の単語と第２自然言語の単語とを対応付けたデータベースである対訳辞書２２０から求めて翻訳モデル学習部１５０に出力する。

対訳共起特徴量取得部１４０は、構造解析部１１０から受け取った第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、第１自然言語の文章と第２自然言語の文章とを対応付けたデータベースである対訳コーパス２１０あるいは対訳辞書２２０の中に対訳として出現する確率を求めて翻訳モデル学習部１５０に出力する。
翻訳モデル学習部１５０は、目的言語特徴量取得部１２０、翻訳特徴量取得部１３０および対訳共起特徴量取得部１４０から受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル２３０として出力する。

機械翻訳装置２は、使用者が入力した第１自然言語表現に対する適切な翻訳結果である第２自然言語表現を、翻訳モデル生成装置１が生成した翻訳モデル２３０を用いて選択する。表示装置３は、機械翻訳装置２が選択出力した翻訳結果を表示する。
以上の翻訳モデル生成装置１と機械翻訳装置２は、ＣＰＵ、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。

以下、図１の自然言語翻訳装置について詳細に説明する。以下の説明では、第１自然言語が日本語、第２自然言語が英語の場合について説明する。図２は、自然言語翻訳装置の形態素解析部１００に入力される翻訳学習データの１例を示す図である。図２の例３０１では、第１自然言語表現「関係改善」に対する翻訳候補である第２自然言語表現が「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」であり、翻訳が適切であることを示す「正例」という属性情報が付加されている。また、図２の別の例では、同じく「関係改善」に対する第２自然言語表現が「ｒｅｆｏｒｍｉｎｒｅｌａｔｉｏｎ」であり、翻訳が不適切であることを示す「負例」という属性情報が付加されている。以下では、図２の例３０１が翻訳学習データとして入力された場合を例にとって説明する。

形態素解析部１００は、翻訳学習データを受け取り、第１自然言語表現「関係改善」と第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」の形態素解析を行って、この第１自然言語表現と第２自然言語表現をそれぞれ単語に分割し、分割した各単語に品詞情報を付加する。図３は、図２の例３０１の翻訳学習データを形態素解析した結果の１例を示す図である。図３の４０１は第１自然言語表現「関係改善」を形態素解析した結果の例、４０２は第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」を形態素解析した結果の例である。

例４０１では、第１自然言語表現「関係改善」が、「関係」と「改善」という２つの単語から構成され、これらの単語にそれぞれ名詞であることを示す品詞情報「／Ｎ」が付加されている。例４０２では、第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」が、「ｉｍｐｒｏｖｅｍｅｎｔ」と「ｏｆ」と「ｒｅｌａｔｉｏｎ」という３つの単語から構成され、「ｉｍｐｒｏｖｅｍｅｎｔ」と「ｒｅｌａｔｉｏｎ」にそれぞれ品詞情報「／Ｎ」が付加され、また「ｏｆ」に前置詞であることを示す品詞情報「／Ｐ」が付加されている。形態素解析部１００は、第１自然言語表現および第２自然言語表現を形態素解析した結果得られた単語と品詞情報を、翻訳学習データに含まれる属性情報と共に構造解析部１１０に送る。

構造解析部１１０は、形態素解析部１００から受け取った各単語間の依存関係を第１自然言語表現と第２自然言語表現の各々について同定し、第１自然言語表現と第２自然言語表現の各々について主辞（ｈｅａｄ）と修飾要素（ｍｏｄ）と構文（ｃｏｎｓｔ）を分析する。図４は、図３に示した形態素解析部１００の出力を構文解析した結果の１例を示す図である。図４の５０１は第１自然言語表現の単語を構造解析した結果の例、５０２は第２自然言語表現の単語を構造解析した結果の例である。

例５０１では、主辞が「改善」で、修飾要素が「関係」であり、これら２つの名詞が他の機能語なしに接続されることにより（＿ＮＮ）、第１自然言語表現が構成されていることを示している。また、例５０２では、主辞が「ｉｍｐｒｏｖｅｍｅｎｔ」で、修飾要素が「ｒｅｌａｔｉｏｎ」であり、これら２つの名詞が前置詞「ｏｆ」で接続されることにより（ｏｆＮＮ）、第２自然言語表現が構成されていることを示している。構造解析部１１０は、構造解析した結果得られた第１自然言語表現と第２自然言語表現の構造情報を、形態素解析部１００から受け取った属性情報と共に目的言語特徴量取得部１２０、翻訳特徴量取得部１３０および対訳共起特徴量取得部１４０に送る。

目的言語特徴量取得部１２０は、構造解析部１１０から受け取った第２自然言語表現の構造情報に基づいて、この第２自然言語表現と同じ構造を持つ表現に関する統計量（頻度）を目的言語コーパス２００から取得する。この統計量は、目的言語コーパス２００をあらかじめ構文解析器で構文解析しておいた結果を使うことで容易に計算することができる。構文解析器としては、例えば文献「Ted Briscoe and John Carroll著，“Robust accurate statistical annotation of general text”，LREC2002，pp.1499-1504」に記載されているＲＡＳＰなどがある。

図５は、目的言語コーパス２００から取得した統計量の１例を示す図である。図５において、ｆｒｅｑは統計量であり、「＊」印はあらゆる語あるいは構造が当てはまることを示す。例えば例６０１では、主辞である名詞「ｉｍｐｒｏｖｅｍｅｎｔ」と修飾要素である任意の名詞「＊」とが前置詞「ｏｆ」で接続されている表現が、目的言語コーパス２００中に４６４回出現していることを表している。

第２自然言語表現の主辞の単語をｗ_2h、修飾要素の単語をｗ_2m、構文をｃ₂ 、これらの主辞、修飾要素および構文が目的言語コーパス２００の中に現れる頻度をｆ（ｗ_2h，ｗ_2m，ｃ₂ ）とすると、目的言語特徴量取得部１２０が取得する統計量は以下のように表される。
ｆ（ｗ_2h，ｗ_2m，ｃ₂ ）・・・（１）
ｆ（ｗ_2h，＊，ｃ₂ ）・・・（２）
ｆ（＊，ｗ_2m，ｃ₂ ）・・・（３）
ｆ（ｗ_2h，＊，＊）・・・（４）
ｆ（＊，ｗ_2m，＊）・・・（５）
ｆ（＊，＊，ｃ₂ ）・・・（６）

式（１）〜式（６）の値は、図５から求めることができる。例えば、式（２）のｆ（ｉｍｐｒｏｖｅｍｅｎｔ，＊，ｏｆＮＮ）の値は図５の例６０１から４６４である。目的言語特徴量取得部１２０は、取得した統計量を、構造解析部１１０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

翻訳特徴量取得部１３０は、構造解析部１１０から受け取った第１自然言語表現および第２自然言語表現の構造情報に基づいて、第１自然言語表現の構造と第２自然言語表現の構造を比較し、第１自然言語表現の単語および構造が第２自然言語表現の単語および構造に変換される確率を対訳辞書２２０から推定する。図６は、第１自然言語表現の単語および構造が第２自然言語表現の単語および構造に変換される頻度を対訳辞書２２０から求めた結果の１例を示す図である。

図６の例７０１では、主辞「改善」と修飾要素「＊」とが他の機能語なしに接続されている第１自然言語表現が、主辞「ｉｍｐｒｏｖｅｍｅｎｔ」と修飾要素「＊」とが前置詞「ｏｆ」で接続されている第２自然言語表現に変換される頻度は、対訳辞書２２０によれば６回であることを表している。また、例７０２では、主辞「改善」と修飾要素「＊」とが他の機能語なしに接続されている第１自然言語表現が、主辞「＊」と修飾要素「＊」とが前置詞「＊」で接続されている表現に変換される頻度は、１０回であることを表している。

第１自然言語表現の主辞の単語をｗ_1h、修飾要素の単語をｗ_1m、構文をｃ₁ とし、第２自然言語表現の主辞の単語をｗ_2h、修飾要素の単語をｗ_2m、構造をｃ₂ とすると、第１自然言語の構造（ｗ_1h，ｗ_1m，ｃ₁ ）が第２自然言語の構造（ｗ_2h，ｗ_2m，ｃ₂ ）に変換される確率ｐ（ｗ_2h，ｗ_2m，ｃ₂｜ｗ_1h，ｗ_1m，ｃ₁）、第１自然言語の構造（ｗ_1h，＊，ｃ₁ ）が第２自然言語の構造（ｗ_2h，＊，ｃ₂ ）に変換される確率ｐ（ｗ_2h，＊，ｃ₂｜ｗ_1h，＊，ｃ₁）、第１自然言語の構造（＊，ｗ_1m，ｃ₁ ）が第２自然言語の構造（ｗ_2h，ｗ_2m，ｃ₂ ）に変換される確率ｐ（＊，ｗ_2m，ｃ₂｜＊，ｗ_1m，ｃ₁）は、以下のように推定される。

ｐ（ｗ_2h，ｗ_2m，ｃ₂｜ｗ_1h，ｗ_1m，ｃ₁）
＝ｆ（ｗ_2h，ｗ_2m，ｃ₂，ｗ_1h，ｗ_1m，ｃ₁）
／ｆ（ｗ_1h，ｗ_1m，ｃ₁）・・・（７）
ｐ（ｗ_2h，＊，ｃ₂｜ｗ_1h，＊，ｃ₁）
＝ｆ（ｗ_2h，＊，ｃ₂，ｗ_1h，＊，ｃ₁）
／ｆ（ｗ_1h，＊，ｃ₁）・・・（８）
ｐ（＊，ｗ_2m，ｃ₂｜＊，ｗ_1m，ｃ₁）
＝ｆ（＊，ｗ_2m，ｃ₂，＊，ｗ_1m，ｃ₁）
／ｆ（＊，ｗ_1m，ｃ₁）・・・（９）

式（７）〜式（９）において、ｆ（）は（）中の構造が対訳辞書２２０に現れる頻度を表す。ただし、ｆ（ｗ_2h，ｗ_2m，ｃ₂，ｗ_1h，ｗ_1m，ｃ₁）は、構造（ｗ_1h，ｗ_1m，ｃ₁ ）と（ｗ_2h，ｗ_2m，ｃ₂ ）が対訳辞書２２０に同時に現れる頻度、ｆ（ｗ_2h，＊，ｃ₂，ｗ_1h，＊，ｃ₁）は構造（ｗ_1h，＊，ｃ₁ ）と（ｗ_2h，＊，ｃ₂ ）が同時に現れる頻度、ｆ（＊，ｗ_2m，ｃ₂，＊，ｗ_1m，ｃ₁）は構造（＊，ｗ_1m，ｃ₁ ）と（＊，ｗ_2m，ｃ₂ ）が同時に現れる頻度である。

式（７）〜式（９）の値は、図６の値から求めることができる。ここでは、ｗ_1h＝「改善」、ｃ１＝「＿ＮＮ」、ｗ_2h＝「ｉｍｐｒｏｖｅｍｅｎｔ」、ｃ２＝「ｏｆＮＮ」であり、式（８）の確率ｐ（ｉｍｐｒｏｖｅｍｅｎｔ，＊，ｏｆＮＮ｜改善，＊，＿ＮＮ）の値は、図６の例７０１，７０２から６／１０＝０．６となる。翻訳特徴量取得部１３０は、推定した確率の情報を、構造解析部１１０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

対訳共起特徴量取得部１４０は、構造解析部１１０から受け取った第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、対訳辞書２２０あるいは対訳コーパス２１０の中で対訳として出現する確率である対訳共起確率を求める。対訳共起確率は、対訳辞書２２０中あるいは対訳コーパス２１０中の対訳から推定する。

第１自然言語表現の単語ｗ₁ と第２自然言語表現の単語ｗ₂ とが対訳中で同時に出現する頻度をｆ（ｗ₁，ｗ₂）とし、単語ｗ₁，ｗ₂が対訳中で出現する頻度をそれぞれｆ（ｗ₁ ），ｆ（ｗ₂ ）とすると、対訳共起確率ｐ（ｗ₁，ｗ₂｜ｗ₁），ｐ（ｗ₁，ｗ₂｜ｗ₂）は以下のように推定される。
ｐ（ｗ₁，ｗ₂｜ｗ₁）＝ｆ（ｗ₁，ｗ₂）／ｆ（ｗ₁）・・・（１０）
ｐ（ｗ₁，ｗ₂｜ｗ₂）＝ｆ（ｗ₁，ｗ₂）／ｆ（ｗ₂）・・・（１１）
対訳共起特徴量取得部１４０は、推定した対訳共起確率の情報を、構造解析部１１０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

翻訳モデル学習部１５０は、目的言語特徴量取得部１２０と翻訳特徴量取得部１３０と対訳共起特徴量取得部１４０からの統計量を受け取り、これらを素性として機械学習を行う。機械学習の手法としては、文献「Vladimir N.Vapnik著，“The Statistical Learning Theory”，Springer，1998」に記載されているＳＶＭ（Support Vector Machine）などが使用できる。ＳＶＭは、以下のような素性ベクトルを、入力される学習データとして扱う。

（ｘ₁，ｙ₁），・・・・，（ｘ_u，ｙ_u），ｘ_j∈Ｒⁿ，ｙ_j∈｛＋１，−１｝
・・・（１２）
式（１２）において、ｘ_j は事例ｊを表すｎ次元特徴ベクトル、ｙ_j は、事例ｊが正例であるときに＋１、負例であるときに−１をとる教師信号である。Ｒⁿ はｎ次元ベクトル空間を表す。

ここで、事例ｊにおける式（１）から式（１１）の値をａ_j1，・・・・，ａ_j11 とすれば、事例ｊに対する学習データとして、素性ベクトル（ａ_j1，・・・・，ａ_j11，ｙ_j）を入力とする。ＳＶＭは、これらの学習データから、未知の事例の素性ベクトルｘに対する分類ｙを求める以下のような判別関数を決定する。α_i は、学習事例ｊに対して与えられる係数である。
ｙ＝（ｓｇｎ（ｆ（ｘ））・・・（１３）

ここで、Ｋ（ｘ_i，ｘ_j）は、カーネル関数と呼ばれ、以下の式を満たし、２つの素性ベクトルに対してそれぞれの高次元空間における写像Φの内積を与える関数である。
Ｋ（ｘ_i，ｘ_j）＝Φ（ｘ_i）Φ（ｘ_j）・・・（１５）
翻訳モデル学習部１５０は、適切な翻訳を判別する判別式（１３）を翻訳モデル２３０として出力する。判別式（１３）は、適切な翻訳候補に対してｙ＝＋１、不適切な翻訳侯補に対してｙ＝−１を出力する。

以上に説明したように、本実施の形態では、翻訳学習データとして第１自然言語表現とその翻訳侯補である第２自然言語表現を与えると、第２自然言語表現と同じ構造を持つ表現の統計量を目的言語コーパス２００から算出し、第１自然言語表現に含まれる構造が第２自然言語表現に含まれる構造に変換される確率を対訳辞書２２０から算出し、第１自然言語表現に含まれる単語と第２自然言語表現に含まれる単語が共起する確率を対訳辞書２２０と対訳コーパス２１０とから算出し、算出した統計量と確率を特徴量として、機械学習の手法によって学習を行うことによって、第１自然言語表現から第２自然言語表現への翻訳侯補を選択するための翻訳モデルを生成することが可能となる。

［第２の実施の形態］
図７は、本発明の第２の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図７の自然言語翻訳装置は、翻訳モデル生成装置１ａと、機械翻訳装置２と、表示装置３とから構成される。翻訳モデル生成装置１ａは、形態素解析部１００ａと、目的言語特徴量取得部１２０ａと、翻訳特徴量取得部１３０ａと、対訳共起特徴量取得部１４０ａと、翻訳モデル学習部１５０と、翻訳候補生成部１９０と、目的言語コーパス２００と、対訳コーパス２１０と、対訳辞書２２０と、対訳テンプレート２４０とを有している。

自然言語翻訳装置の使用者は、第１自然言語表現とその適切な翻訳結果（正例）である第２自然言語表現の組み合わせを対訳表現データとして翻訳モデル生成装置１ａの形態素解析部１００ａに入力する。
形態素解析部１００ａは、入力された対訳表現データの第１自然言語表現と第２自然言語表現とをそれぞれ形態素解析して、単語に分割し、分割した各単語に品詞情報を付加する。この第１自然言語表現と第２自然言語表現の形態素解析結果は、翻訳候補生成部１９０に送られる。

翻訳候補生成部１９０は、形態素解析部１００ａの出力と、対訳辞書２２０と、第１自然言語表現の構造と第２自然言語表現の構造とを対応付けたデータベースである対訳テンプレート２４０とを用いて、対訳表現データの第１自然言語表現に対する第２自然言語の新たな翻訳侯補を正例と負例の両方について生成すると共に、第１自然言語表現と翻訳候補の構造情報を出力する。翻訳候補生成部１９０は、形態素解析部１００ａから受け取った第２自然言語表現を第１自然言語表現に対する正例の翻訳候補とすると共に、生成した翻訳候補のうち形態素解析部１００ａから受け取った第２自然言語表現と異なる表現を負例の翻訳候補とする。

目的言語特徴量取得部１２０ａは、翻訳候補生成部１９０から受け取った翻訳候補の構造情報に基づいて、この翻訳候補の１部あるいは全ての単語を含み、かつ同じ構造を持つ表現を目的言語コーパス２００から抽出して、この表現に関する統計量を求めて翻訳モデル学習部１５０に出力する。

翻訳特徴量取得部１３０ａは、翻訳候補生成部１９０から受け取った構造情報に基づいて、第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書２２０から求めて翻訳モデル学習部１５０に出力する。

対訳共起特徴量取得部１４０ａは、翻訳候補生成部１９０から受け取った第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳コーパス２１０あるいは対訳辞書２２０の中に対訳として出現する確率を求めて翻訳モデル学習部１５０に出力する。
翻訳モデル学習部１５０は、目的言語特徴量取得部１２０ａ、翻訳特徴量取得部１３０ａおよび対訳共起特徴量取得部１４０ａから受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル２３０として出力する。

機械翻訳装置２は、使用者が入力した第１自然言語表現に対する適切な翻訳結果である第２自然言語表現を、翻訳モデル生成装置１ａが生成した翻訳モデル２３０を用いて選択する。表示装置３は、機械翻訳装置２が選択出力した翻訳結果を表示する。
以上の翻訳モデル生成装置１ａと機械翻訳装置２は、ＣＰＵ、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。

以下、図７の自然言語翻訳装置について詳細に説明する。以下の説明では、第１自然言語表現が「関係改善」であり、これに対する第２自然言語表現が「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」である正例の対訳表現データが使用者によって入力され、複合名詞の翻訳モデルを生成する場合を例にとって説明する。

形態素解析部１００ａは、対訳表現データを受け取り、第１自然言語表現「関係改善」と第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」の形態素解析を行って、この第１自然言語表現と第２自然言語表現をそれぞれ単語に分割し、分割した各単語に品詞情報を付加する。この対訳表現データを形態素解析した結果は図３に示したとおりである。

例４０１では、第１自然言語表現「関係改善」が、「関係」と「改善」という２つの単語から構成され、これらの単語にそれぞれ名詞であることを示す品詞情報「／Ｎ」が付加されている。例４０２では、第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」が、「ｉｍｐｒｏｖｅｍｅｎｔ」と「ｏｆ」と「ｒｅｌａｔｉｏｎ」という３つの単語から構成され、「ｉｍｐｒｏｖｅｍｅｎｔ」と「ｒｅｌａｔｉｏｎ」にそれぞれ品詞情報「／Ｎ」が付加され、また「ｏｆ」に前置詞であることを示す品詞情報「／Ｐ」が付加されている。形態素解析部１００ａは、第１自然言語表現および第２自然言語表現を形態素解析した結果得られた単語と品詞情報を翻訳候補生成部１９０に送る。

翻訳侯補生成部１９０は、形態素解析部１００ａから受け取った単語の情報と対訳テンプレート２４０と対訳辞書２２０とを使って、対訳表現データの第１自然言語表現に対する第２自然言語の翻訳侯補を生成し、生成した翻訳候補に正例または負例の属性情報を付加する。図８は、対訳テンプレート２４０の１例を示す図である。例８０１では、第１自然言語表現が２つの名詞「Ｎｓ１」と「Ｎｓ２」で構成されるとき、２つの名詞「Ｎｔ１」と「Ｎｔ２」で構成される第２自然言語表現が翻訳侯補として生成されることを示している。ただし、「Ｎｔ１」，「Ｎｔ２」は、それぞれ「Ｎｓ１」，「Ｎｓ２」を対訳辞書２２０により変換した語を示す。

図９は、対訳辞書２２０の１例を示す図である。例９０１では、第１自然言語表現の名詞（Ｎ）である「関係」に対応する第２自然言語表現の名詞が「ｒｅｌａｔｉｏｎ」であることを示している。

図１０は、図８の対訳テンプレート２４０と図９の対訳辞書２２０を使って翻訳侯補生成部１９０が生成した翻訳侯補の１例を示す図である。ここでは、入力された第２自然言語表現「ｉｍｐｒｏｖｅｍｅｎｔｏｆｒｅｌａｔｉｏｎ」と全く同一の翻訳侯補を正例とし、残りの翻訳侯補を全て負例としているが、対訳辞書２２０中に同一の翻訳侯補が存在した場合にその候補を正例としてもよい。

翻訳侯補生成部１９０は、生成した翻訳侯補を属性情報と共に目的言語特徴量取得部１２０ａ、翻訳特徴量取得部１３０ａおよび対訳共起特徴量取得部１４０ａに送る。また、翻訳侯補生成部１９０は、翻訳候補を生成する際に、第１の実施の形態の構造解析部１１０と同様の構造解析を行っており、対訳表現データの第１自然言語表現の構造情報と、これに対応する翻訳候補の構造情報とを目的言語特徴量取得部１２０ａ、翻訳特徴量取得部１３０ａおよび対訳共起特徴量取得部１４０ａに送る。

目的言語特徴量取得部１２０ａは、翻訳侯補生成部１９０から受け取った翻訳候補（第２自然言語表現）の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量（頻度）を目的言語コーパス２００から取得する。この目的言語特徴量取得部１２０ａの動作は、目的言語特徴量取得部１２０と同様である。そして、目的言語特徴量取得部１２０ａは、取得した統計量を、翻訳侯補生成部１９０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

翻訳特徴量取得部１３０ａは、翻訳侯補生成部１９０から受け取った第１自然言語表現および翻訳候補の構造情報に基づいて、第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、翻訳候補の構造及び単語の少なくとも一部を備える表現に変換される確率を対訳辞書２２０から推定する。この翻訳特徴量取得部１３０ａの動作は、翻訳特徴量取得部１３０と同様である。そして、翻訳特徴量取得部１３０ａは、推定した確率の情報を、翻訳侯補生成部１９０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

対訳共起特徴量取得部１４０ａは、翻訳侯補生成部１９０から受け取った第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書２２０あるいは対訳コーパス２１０の中で対訳として出現する確率である対訳共起確率を求める。この対訳共起特徴量取得部１４０ａの動作は、対訳共起特徴量取得部１４０と同様である。そして、対訳共起特徴量取得部１４０は、推定した対訳共起確率の情報を、翻訳侯補生成部１９０から受け取った属性情報と共に翻訳モデル学習部１５０に送る。

翻訳モデル学習部１５０の動作は、第１の実施の形態と同じである。一般に機械学習を行うためには、翻訳学習データとして負例を用意する必要があるが、本実施の形態では、翻訳候補生成部１９０が対訳辞書２２０や対訳テンプレート２４０を用いて正例から負例を自動的に生成するため、正例のみを対訳表現データとして用意すればよい。

なお、第１、第２の実施の形態では、第１自然言語が日本語、第２自然言語が英語である場合で説明したが、逆に第１自然言語が英語で、第２自然言語が日本語である場合や、第１自然言語、第２自然言語が他の言語である場合にも同様に本発明を適用可能である。また、第１、第２の実施の形態では、複合名詞の翻訳の例で説明しているが、動詞句など他の表現や文の翻訳にも同様に適用可能である。

本発明は、原言語である第１自然言語表現を入力として、対応する目的言語である第２自然言語表現を出力する機械翻訳に適用することができる。

本発明の第１の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。本発明の第１の実施の形態における自然言語翻訳装置の形態素解析部に入力される翻訳学習データの１例を示す図である。本発明の第１の実施の形態において翻訳学習データを形態素解析した結果の１例を示す図である。本発明の第１の実施の形態において形態素解析部の出力を構文解析した結果の１例を示す図である。本発明の第１の実施の形態において目的言語コーパスから取得した統計量の１例を示す図である。第１自然言語表現の単語および構造が第２自然言語表現の単語および構造に変換される頻度を対訳辞書から求めた結果の１例を示す図である。本発明の第２の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。本発明の第２の実施の形態における自然言語翻訳装置の対訳テンプレートの１例を示す図である。本発明の第２の実施の形態における自然言語翻訳装置の対訳辞書の１例を示す図である。本発明の第２の実施の形態における自然言語翻訳装置の翻訳侯補生成部が生成した翻訳侯補の１例を示す図である。

符号の説明

１、１ａ…翻訳モデル生成装置、２…機械翻訳装置、３…表示装置、１００、１００ａ…形態素解析部、１１０…構造解析部、１２０、１２０ａ…目的言語特徴量取得部、１３０、１３０ａ…翻訳特徴量取得部、１４０、１４０ａ…対訳共起特徴量取得部、１５０…翻訳モデル学習部、１９０…翻訳候補生成部、２００…目的言語コーパス、２１０…対訳コーパス、２２０…対訳辞書、２３０…翻訳モデル、２４０…対訳テンプレート。

Claims

原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、
第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせ、及び第１自然言語表現とその不適切な翻訳結果である第２自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、
この形態素解析手段の出力に基づいて、前記分割された各単語間の依存関係を前記第１自然言語表現と第２自然言語表現の各々について同定し、前記依存関係を表す構造情報を出力する構造解析手段と、
この構造解析手段から受け取った第２自然言語表現の構造情報に基づいて、この第２自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、
前記構造解析手段から受け取った構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第２自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、
前記構造解析手段から受け取った第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、
前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有することを特徴とする翻訳モデル生成装置。
原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、
第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、
この形態素解析手段の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第１自然言語表現に対する第２自然言語の翻訳侯補を適切な例と不適切な例の両方について生成すると共に、前記第１自然言語表現の構造情報と前記翻訳候補の構造情報を出力する翻訳侯補生成手段と、
この翻訳侯補生成手段から受け取った翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、
前記翻訳侯補生成手段から受け取った構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、
前記翻訳侯補生成手段から受け取った第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、
前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有することを特徴とする翻訳モデル生成装置。
原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、
第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせ、及び第１自然言語表現とその不適切な翻訳結果である第２自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、
前記メモリに格納された形態素解析手順の出力に基づいて、前記分割された各単語間の依存関係を前記第１自然言語表現と第２自然言語表現の各々について同定し、前記依存関係を表す構造情報をメモリに格納する構造解析手順と、
前記メモリに格納された第２自然言語表現の構造情報に基づいて、この第２自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、
前記メモリに格納された構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第２自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、
前記構造解析手順でメモリに格納された第１自然言語表現の単語と第２自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得手順と、
前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有することを特徴とする翻訳モデル生成方法。
原言語である第１自然言語の表現を目的言語である第２自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、
第１自然言語表現とその適切な翻訳結果である第２自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第１自然言語表現と第２自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、
この形態素解析手順の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第１自然言語表現に対する第２自然言語の翻訳侯補を適切な例と不適切な例の両方について生成してメモリに格納すると共に、前記第１自然言語表現の構造情報と前記翻訳候補の構造情報をメモリに格納する翻訳侯補生成手順と、
前記メモリに格納された翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、
前記メモリに格納された構造情報に基づいて、前記第１自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、
前記翻訳侯補生成手順でメモリに格納された第１自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得部と、
前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有することを特徴とする翻訳モデル生成方法。