JP2006031511A - 翻訳モデル生成装置および方法 - Google Patents
翻訳モデル生成装置および方法 Download PDFInfo
- Publication number
- JP2006031511A JP2006031511A JP2004211175A JP2004211175A JP2006031511A JP 2006031511 A JP2006031511 A JP 2006031511A JP 2004211175 A JP2004211175 A JP 2004211175A JP 2004211175 A JP2004211175 A JP 2004211175A JP 2006031511 A JP2006031511 A JP 2006031511A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- natural language
- expression
- language expression
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】第2自然言語内での単語及び構造の自然な並びと、第1自然言語と第2自然言語の適切な組み合わせとを考慮したスコア付けを行う。
【解決手段】形態素解析部100は、翻訳学習データの第1自然言語表現と第2自然言語表現を形態素解析し、構造解析部110は、構造情報を出力する。目的言語特徴量取得部120は、第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパス200から取得する。翻訳特徴量取得部130は、第1自然言語表現が第2自然言語表現に翻訳される確率を対訳辞書220から求める。対訳共起特徴量取得部140は、第1自然言語表現の単語と第2自然言語表現の単語の組み合わせが、対訳辞書220又は対訳コーパス210の中で対訳として出現する確率を求める。翻訳モデル学習部150は、機械学習により翻訳モデル230を生成する。
【選択図】 図1
【解決手段】形態素解析部100は、翻訳学習データの第1自然言語表現と第2自然言語表現を形態素解析し、構造解析部110は、構造情報を出力する。目的言語特徴量取得部120は、第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパス200から取得する。翻訳特徴量取得部130は、第1自然言語表現が第2自然言語表現に翻訳される確率を対訳辞書220から求める。対訳共起特徴量取得部140は、第1自然言語表現の単語と第2自然言語表現の単語の組み合わせが、対訳辞書220又は対訳コーパス210の中で対訳として出現する確率を求める。翻訳モデル学習部150は、機械学習により翻訳モデル230を生成する。
【選択図】 図1
Description
本発明は、原言語である第1自然言語表現を入力として、対応する目的言語である第2自然言語表現を出力する機械翻訳に係り、特に機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置および方法に関するものである。
多くの機械翻訳システムでは、第1自然言語と第2自然言語とを対応付けた対訳辞書と翻訳ルールとを使って複数の翻訳候補を生成し、翻訳ルール中に記述された方法に基づいてスコアを計算し、スコアの最も高い翻訳候補を最終的な翻訳結果として出力するようにしている。
しかしながら、第1自然言語の表現に対して訳語となる第2自然言語の侯補が豊富に考えられる場合、さまざまな入力を考慮して最適な翻訳結果が得られるようにスコアを決定することは容易ではない。また、同じ第1自然言語表現であっても、文章の内容が属している分野によって翻訳として異なった第2自然言語表現を選択しなければならないが、分野によってスコア付けを適切にするためにルールを変更することは容易ではない。
例えば非特許文献1では、第1自然言語表現を第2自然言語表現に変換するスコアとして、シソーラスに基づく単語間の意味距離計算を用いているが、第2自然言語表現内での単語あるいは構造の並びの自然さを考慮したスコア付けがなされていないため、第2自然言語表現としてより適切な候補を優先して出力させることは難しい。また、固定したシソーラスに基づくスコアのために、翻訳する分野によって適切な語を出力するようにスコア付けを変更することは容易ではない。
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
古瀬 蔵,隅田 英一郎,飯田 仁,「経験的知識を活用する変換主導型機械翻訳」,1994年情報処理学会論文誌,情報処理学会,1994年3月,第35巻,第3号,p.415−425
古瀬 蔵,隅田 英一郎,飯田 仁,「経験的知識を活用する変換主導型機械翻訳」,1994年情報処理学会論文誌,情報処理学会,1994年3月,第35巻,第3号,p.415−425
以上のように従来の機械翻訳システムでは、第2自然言語表現内での単語及び構造の並びの自然さを考慮したスコア付けがなされていないため、第1自然言語表現に対する第2自然言語表現としてより適切な翻訳候補を優先して出力することが難しいという問題点があり、また翻訳する分野に応じて適切な第2自然言語表現を出力することが難しいという問題点があった。
本発明は、上記課題を解決するためになされたもので、第2自然言語内での単語及び構造の自然な並びと、第1自然言語と第2自然言語の適切な組み合わせとを考慮したスコア付けを行うことができ、かつ翻訳対象とする分野に適応したスコア付けを行うことができる翻訳モデル生成装置および方法を提供することを目的とする。
本発明は、原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせ、及び第1自然言語表現とその不適切な翻訳結果である第2自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、この形態素解析手段の出力に基づいて、前記分割された各単語間の依存関係を前記第1自然言語表現と第2自然言語表現の各々について同定し、前記依存関係を表す構造情報を出力する構造解析手段と、この構造解析手段から受け取った第2自然言語表現の構造情報に基づいて、この第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、前記構造解析手段から受け取った構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第2自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、前記構造解析手段から受け取った第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有するものである。本発明では、翻訳として適切な第1自然言語表現と第2自然言語表現の組を正例の学習データ、翻訳として不適切な第1自然言語表現と第2自然言語表現の組を負例の学習データとして入力すると、目的言語コーパス、対訳辞書、対訳コーパスから統計量を取得して、機械学習の手法によって,機械翻訳装置が適切な翻訳候補を選択するための翻訳モデルを生成する。
また、本発明の翻訳モデル生成装置は、第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、この形態素解析手段の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第1自然言語表現に対する第2自然言語の翻訳侯補を適切な例と不適切な例の両方について生成すると共に、前記第1自然言語表現の構造情報と前記翻訳候補の構造情報を出力する翻訳侯補生成手段と、この翻訳侯補生成手段から受け取った翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、前記翻訳侯補生成手段から受け取った構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、前記翻訳侯補生成手段から受け取った第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有するものである。一般に機械学習を行うためには、学習データとして負例を用意する必要があるが、本発明では、正例から対訳辞書や対訳テンプレートを用いて自動的に負例を生成する。
また、本発明は、原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせ、及び第1自然言語表現とその不適切な翻訳結果である第2自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、前記メモリに格納された形態素解析手順の出力に基づいて、前記分割された各単語間の依存関係を前記第1自然言語表現と第2自然言語表現の各々について同定し、前記依存関係を表す構造情報をメモリに格納する構造解析手順と、前記メモリに格納された第2自然言語表現の構造情報に基づいて、この第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、前記メモリに格納された構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第2自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、前記構造解析手順でメモリに格納された第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得手順と、前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有するものである。
また、本発明の翻訳モデル生成方法は、第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、この形態素解析手順の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第1自然言語表現に対する第2自然言語の翻訳侯補を適切な例と不適切な例の両方について生成してメモリに格納すると共に、前記第1自然言語表現の構造情報と前記翻訳候補の構造情報をメモリに格納する翻訳侯補生成手順と、前記メモリに格納された翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、前記メモリに格納された構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、前記翻訳侯補生成手順でメモリに格納された第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得部と、前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有するものである。
本発明によれば、翻訳学習データとして第1自然言語表現とその翻訳侯補である第2自然言語表現を与えると、目的言語特徴量取得手段が目的言語コーパスから第2自然言語表現と同じ構造を持つ表現の統計量を算出し、翻訳特徴量取得手段が第1自然言語表現に含まれる構造が第2自然言語表現に含まれる構造に変換される確率を対訳辞書から算出し、対訳共起特徴量取得手段が第1自然言語表現に含まれる単語と第2自然言語表現に含まれる単語が共起する確率を対訳辞書と対訳コーパスから算出し、算出された統計量と確率を特徴量として、機械学習の手法によって学習を行うことによって、第1自然言語表現から第2自然言語表現への翻訳侯補を選択するための翻訳モデルを生成することが可能となる。このモデルにより、第2自然言語内での単語及び構造の自然な並びと、第1自然言語から第2自然言語への変換として適切な組み合わせとを考慮したスコア付けを行うことができる。また、使用する辞書とコーパスを変更することによって、翻訳対象とする分野に適応したスコア付けを行うことが容易に可能である。その結果、本発明によれば、適切な翻訳結果を出力することが可能となる。
また、一般に機械学習を行うためには、翻訳学習データとして不適切な翻訳結果(負例)を用意する必要があるが、翻訳侯補生成手段が対訳辞書や対訳テンプレートを用いて適切な翻訳結果(正例)から負例を自動的に生成するため、正例のみを対訳表現データとして用意すればよい。
[第1の実施の形態]
以下、本発明による1実施の形態を図面とともに説明する。図1は、本発明の第1の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図1の自然言語翻訳装置は、後述する機械翻訳装置が翻訳候補を選択するための翻訳モデルを生成する翻訳モデル生成装置1と、機械翻訳装置2と、機械翻訳装置2が出力した翻訳結果を表示する表示装置とから構成される。翻訳モデル生成装置1は、形態素解析部100と、構造解析部110と、目的言語特徴量取得部120と、翻訳特徴量取得部130と、対訳共起特徴量取得部140と、翻訳モデル学習部150と、目的言語コーパス200と、対訳コーパス210と、対訳辞書220とを有する。
以下、本発明による1実施の形態を図面とともに説明する。図1は、本発明の第1の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図1の自然言語翻訳装置は、後述する機械翻訳装置が翻訳候補を選択するための翻訳モデルを生成する翻訳モデル生成装置1と、機械翻訳装置2と、機械翻訳装置2が出力した翻訳結果を表示する表示装置とから構成される。翻訳モデル生成装置1は、形態素解析部100と、構造解析部110と、目的言語特徴量取得部120と、翻訳特徴量取得部130と、対訳共起特徴量取得部140と、翻訳モデル学習部150と、目的言語コーパス200と、対訳コーパス210と、対訳辞書220とを有する。
自然言語翻訳装置の使用者は、第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせ、及び第1自然言語表現とその不適切な翻訳結果である第2自然言語表現の組み合わせを翻訳学習データとして翻訳モデル生成装置1の形態素解析部100に入力する。このとき、第1自然言語表現と第2自然言語表現の組み合わせには、適切な翻訳結果(正例)であることを示す属性情報、または不適切な翻訳結果(負例)であることを示す属性情報が付加されている。
形態素解析部100は、入力された翻訳学習データの第1自然言語表現と第2自然言語表現とをそれぞれ形態素解析して、単語に分割し、分割した各単語に品詞情報を付加する。この第1自然言語表現と第2自然言語表現の形態素解析結果は、構造解析部110に送られる。
構造解析部110は、形態素解析部100の出力に基づいて、分割された各単語間の依存関係を第1自然言語表現と第2自然言語表現の各々について同定し、依存関係を表す構造情報を目的言語特徴量取得部120、翻訳特徴量取得部130および対訳共起特徴量取得部140に送る。
目的言語特徴量取得部120は、構造解析部110から受け取った第2自然言語表現の構造情報に基づいて、この第2自然言語表現の1部あるいは全ての単語を含み、かつ同じ構造を持つ表現を、第2自然言語のデータベースである目的言語コーパス200から抽出して、この表現に関する統計量を求めて翻訳モデル学習部150に出力する。
翻訳特徴量取得部130は、構造解析部110から受け取った構造情報に基づいて、第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、第2自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を、第1自然言語の単語と第2自然言語の単語とを対応付けたデータベースである対訳辞書220から求めて翻訳モデル学習部150に出力する。
対訳共起特徴量取得部140は、構造解析部110から受け取った第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、第1自然言語の文章と第2自然言語の文章とを対応付けたデータベースである対訳コーパス210あるいは対訳辞書220の中に対訳として出現する確率を求めて翻訳モデル学習部150に出力する。
翻訳モデル学習部150は、目的言語特徴量取得部120、翻訳特徴量取得部130および対訳共起特徴量取得部140から受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル230として出力する。
翻訳モデル学習部150は、目的言語特徴量取得部120、翻訳特徴量取得部130および対訳共起特徴量取得部140から受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル230として出力する。
機械翻訳装置2は、使用者が入力した第1自然言語表現に対する適切な翻訳結果である第2自然言語表現を、翻訳モデル生成装置1が生成した翻訳モデル230を用いて選択する。表示装置3は、機械翻訳装置2が選択出力した翻訳結果を表示する。
以上の翻訳モデル生成装置1と機械翻訳装置2は、CPU、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。
以上の翻訳モデル生成装置1と機械翻訳装置2は、CPU、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。
以下、図1の自然言語翻訳装置について詳細に説明する。以下の説明では、第1自然言語が日本語、第2自然言語が英語の場合について説明する。図2は、自然言語翻訳装置の形態素解析部100に入力される翻訳学習データの1例を示す図である。図2の例301では、第1自然言語表現「関係改善」に対する翻訳候補である第2自然言語表現が「improvement of relation」であり、翻訳が適切であることを示す「正例」という属性情報が付加されている。また、図2の別の例では、同じく「関係改善」に対する第2自然言語表現が「reform in relation」であり、翻訳が不適切であることを示す「負例」という属性情報が付加されている。以下では、図2の例301が翻訳学習データとして入力された場合を例にとって説明する。
形態素解析部100は、翻訳学習データを受け取り、第1自然言語表現「関係改善」と第2自然言語表現「improvement of relation」の形態素解析を行って、この第1自然言語表現と第2自然言語表現をそれぞれ単語に分割し、分割した各単語に品詞情報を付加する。図3は、図2の例301の翻訳学習データを形態素解析した結果の1例を示す図である。図3の401は第1自然言語表現「関係改善」を形態素解析した結果の例、402は第2自然言語表現「improvement of relation」を形態素解析した結果の例である。
例401では、第1自然言語表現「関係改善」が、「関係」と「改善」という2つの単語から構成され、これらの単語にそれぞれ名詞であることを示す品詞情報「/N」が付加されている。例402では、第2自然言語表現「improvement of relation」が、「improvement」と「of」と「relation」という3つの単語から構成され、「improvement」と「relation」にそれぞれ品詞情報「/N」が付加され、また「of」に前置詞であることを示す品詞情報「/P」が付加されている。形態素解析部100は、第1自然言語表現および第2自然言語表現を形態素解析した結果得られた単語と品詞情報を、翻訳学習データに含まれる属性情報と共に構造解析部110に送る。
構造解析部110は、形態素解析部100から受け取った各単語間の依存関係を第1自然言語表現と第2自然言語表現の各々について同定し、第1自然言語表現と第2自然言語表現の各々について主辞(head)と修飾要素(mod)と構文(const)を分析する。図4は、図3に示した形態素解析部100の出力を構文解析した結果の1例を示す図である。図4の501は第1自然言語表現の単語を構造解析した結果の例、502は第2自然言語表現の単語を構造解析した結果の例である。
例501では、主辞が「改善」で、修飾要素が「関係」であり、これら2つの名詞が他の機能語なしに接続されることにより(_NN)、第1自然言語表現が構成されていることを示している。また、例502では、主辞が「improvement」で、修飾要素が「relation」であり、これら2つの名詞が前置詞「of」で接続されることにより(ofNN)、第2自然言語表現が構成されていることを示している。構造解析部110は、構造解析した結果得られた第1自然言語表現と第2自然言語表現の構造情報を、形態素解析部100から受け取った属性情報と共に目的言語特徴量取得部120、翻訳特徴量取得部130および対訳共起特徴量取得部140に送る。
目的言語特徴量取得部120は、構造解析部110から受け取った第2自然言語表現の構造情報に基づいて、この第2自然言語表現と同じ構造を持つ表現に関する統計量(頻度)を目的言語コーパス200から取得する。この統計量は、目的言語コーパス200をあらかじめ構文解析器で構文解析しておいた結果を使うことで容易に計算することができる。構文解析器としては、例えば文献「Ted Briscoe and John Carroll著,“Robust accurate statistical annotation of general text”,LREC2002,pp.1499-1504」に記載されているRASPなどがある。
図5は、目的言語コーパス200から取得した統計量の1例を示す図である。図5において、freqは統計量であり、「*」印はあらゆる語あるいは構造が当てはまることを示す。例えば例601では、主辞である名詞「improvement」と修飾要素である任意の名詞「*」とが前置詞「of」で接続されている表現が、目的言語コーパス200中に464回出現していることを表している。
第2自然言語表現の主辞の単語をw2h、修飾要素の単語をw2m、構文をc2 、これらの主辞、修飾要素および構文が目的言語コーパス200の中に現れる頻度をf(w2h,w2m,c2 )とすると、目的言語特徴量取得部120が取得する統計量は以下のように表される。
f(w2h,w2m,c2 ) ・・・(1)
f(w2h,*,c2 ) ・・・(2)
f(*,w2m,c2 ) ・・・(3)
f(w2h,*,*) ・・・(4)
f(*,w2m,*) ・・・(5)
f(*,*,c2 ) ・・・(6)
f(w2h,w2m,c2 ) ・・・(1)
f(w2h,*,c2 ) ・・・(2)
f(*,w2m,c2 ) ・・・(3)
f(w2h,*,*) ・・・(4)
f(*,w2m,*) ・・・(5)
f(*,*,c2 ) ・・・(6)
式(1)〜式(6)の値は、図5から求めることができる。例えば、式(2)のf(improvement,*,ofNN)の値は図5の例601から464である。目的言語特徴量取得部120は、取得した統計量を、構造解析部110から受け取った属性情報と共に翻訳モデル学習部150に送る。
翻訳特徴量取得部130は、構造解析部110から受け取った第1自然言語表現および第2自然言語表現の構造情報に基づいて、第1自然言語表現の構造と第2自然言語表現の構造を比較し、第1自然言語表現の単語および構造が第2自然言語表現の単語および構造に変換される確率を対訳辞書220から推定する。図6は、第1自然言語表現の単語および構造が第2自然言語表現の単語および構造に変換される頻度を対訳辞書220から求めた結果の1例を示す図である。
図6の例701では、主辞「改善」と修飾要素「*」とが他の機能語なしに接続されている第1自然言語表現が、主辞「improvement」と修飾要素「*」とが前置詞「of」で接続されている第2自然言語表現に変換される頻度は、対訳辞書220によれば6回であることを表している。また、例702では、主辞「改善」と修飾要素「*」とが他の機能語なしに接続されている第1自然言語表現が、主辞「*」と修飾要素「*」とが前置詞「*」で接続されている表現に変換される頻度は、10回であることを表している。
第1自然言語表現の主辞の単語をw1h、修飾要素の単語をw1m、構文をc1 とし、第2自然言語表現の主辞の単語をw2h、修飾要素の単語をw2m、構造をc2 とすると、第1自然言語の構造(w1h,w1m,c1 )が第2自然言語の構造(w2h,w2m,c2 )に変換される確率p(w2h,w2m,c2|w1h,w1m,c1)、第1自然言語の構造(w1h,*,c1 )が第2自然言語の構造(w2h,*,c2 )に変換される確率p(w2h,*,c2|w1h,*,c1)、第1自然言語の構造(*,w1m,c1 )が第2自然言語の構造(w2h,w2m,c2 )に変換される確率p(*,w2m,c2|*,w1m,c1)は、以下のように推定される。
p(w2h,w2m,c2|w1h,w1m,c1)
=f(w2h,w2m,c2,w1h,w1m,c1)
/f(w1h,w1m,c1) ・・・(7)
p(w2h,*,c2|w1h,*,c1)
=f(w2h,*,c2,w1h,*,c1)
/f(w1h,*,c1) ・・・(8)
p(*,w2m,c2|*,w1m,c1)
=f(*,w2m,c2,*,w1m,c1)
/f(*,w1m,c1) ・・・(9)
=f(w2h,w2m,c2,w1h,w1m,c1)
/f(w1h,w1m,c1) ・・・(7)
p(w2h,*,c2|w1h,*,c1)
=f(w2h,*,c2,w1h,*,c1)
/f(w1h,*,c1) ・・・(8)
p(*,w2m,c2|*,w1m,c1)
=f(*,w2m,c2,*,w1m,c1)
/f(*,w1m,c1) ・・・(9)
式(7)〜式(9)において、f()は()中の構造が対訳辞書220に現れる頻度を表す。ただし、f(w2h,w2m,c2,w1h,w1m,c1)は、構造(w1h,w1m,c1 )と(w2h,w2m,c2 )が対訳辞書220に同時に現れる頻度、f(w2h,*,c2,w1h,*,c1)は構造(w1h,*,c1 )と(w2h,*,c2 )が同時に現れる頻度、f(*,w2m,c2,*,w1m,c1)は構造(*,w1m,c1 )と(*,w2m,c2 )が同時に現れる頻度である。
式(7)〜式(9)の値は、図6の値から求めることができる。ここでは、w1h=「改善」、c1=「_NN」、w2h=「improvement」、c2=「ofNN」であり、式(8)の確率p(improvement,*,ofNN|改善,*,_NN)の値は、図6の例701,702から6/10=0.6となる。翻訳特徴量取得部130は、推定した確率の情報を、構造解析部110から受け取った属性情報と共に翻訳モデル学習部150に送る。
対訳共起特徴量取得部140は、構造解析部110から受け取った第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、対訳辞書220あるいは対訳コーパス210の中で対訳として出現する確率である対訳共起確率を求める。対訳共起確率は、対訳辞書220中あるいは対訳コーパス210中の対訳から推定する。
第1自然言語表現の単語w1 と第2自然言語表現の単語w2 とが対訳中で同時に出現する頻度をf(w1,w2)とし、単語w1,w2が対訳中で出現する頻度をそれぞれf(w1 ),f(w2 )とすると、対訳共起確率p(w1,w2|w1),p(w1,w2|w2)は以下のように推定される。
p(w1,w2|w1)=f(w1,w2)/f(w1) ・・・(10)
p(w1,w2|w2)=f(w1,w2)/f(w2) ・・・(11)
対訳共起特徴量取得部140は、推定した対訳共起確率の情報を、構造解析部110から受け取った属性情報と共に翻訳モデル学習部150に送る。
p(w1,w2|w1)=f(w1,w2)/f(w1) ・・・(10)
p(w1,w2|w2)=f(w1,w2)/f(w2) ・・・(11)
対訳共起特徴量取得部140は、推定した対訳共起確率の情報を、構造解析部110から受け取った属性情報と共に翻訳モデル学習部150に送る。
翻訳モデル学習部150は、目的言語特徴量取得部120と翻訳特徴量取得部130と対訳共起特徴量取得部140からの統計量を受け取り、これらを素性として機械学習を行う。機械学習の手法としては、文献「Vladimir N.Vapnik著,“The Statistical Learning Theory”,Springer,1998」に記載されているSVM(Support Vector Machine)などが使用できる。SVMは、以下のような素性ベクトルを、入力される学習データとして扱う。
(x1,y1),・・・・,(xu,yu),xj∈Rn,yj∈{+1,−1}
・・・(12)
式(12)において、xj は事例jを表すn次元特徴ベクトル、yj は、事例jが正例であるときに+1、負例であるときに−1をとる教師信号である。Rn はn次元ベクトル空間を表す。
・・・(12)
式(12)において、xj は事例jを表すn次元特徴ベクトル、yj は、事例jが正例であるときに+1、負例であるときに−1をとる教師信号である。Rn はn次元ベクトル空間を表す。
ここで、事例jにおける式(1)から式(11)の値をaj1,・・・・,aj11 とすれば、事例jに対する学習データとして、素性ベクトル(aj1,・・・・,aj11,yj)を入力とする。SVMは、これらの学習データから、未知の事例の素性ベクトルxに対する分類yを求める以下のような判別関数を決定する。αi は、学習事例jに対して与えられる係数である。
y=(sgn(f(x)) ・・・(13)
y=(sgn(f(x)) ・・・(13)
ここで、K(xi,xj)は、カーネル関数と呼ばれ、以下の式を満たし、2つの素性ベクトルに対してそれぞれの高次元空間における写像Φの内積を与える関数である。
K(xi,xj)=Φ(xi)Φ(xj) ・・・(15)
翻訳モデル学習部150は、適切な翻訳を判別する判別式(13)を翻訳モデル230として出力する。判別式(13)は、適切な翻訳候補に対してy=+1、不適切な翻訳侯補に対してy=−1を出力する。
K(xi,xj)=Φ(xi)Φ(xj) ・・・(15)
翻訳モデル学習部150は、適切な翻訳を判別する判別式(13)を翻訳モデル230として出力する。判別式(13)は、適切な翻訳候補に対してy=+1、不適切な翻訳侯補に対してy=−1を出力する。
以上に説明したように、本実施の形態では、翻訳学習データとして第1自然言語表現とその翻訳侯補である第2自然言語表現を与えると、第2自然言語表現と同じ構造を持つ表現の統計量を目的言語コーパス200から算出し、第1自然言語表現に含まれる構造が第2自然言語表現に含まれる構造に変換される確率を対訳辞書220から算出し、第1自然言語表現に含まれる単語と第2自然言語表現に含まれる単語が共起する確率を対訳辞書220と対訳コーパス210とから算出し、算出した統計量と確率を特徴量として、機械学習の手法によって学習を行うことによって、第1自然言語表現から第2自然言語表現への翻訳侯補を選択するための翻訳モデルを生成することが可能となる。
[第2の実施の形態]
図7は、本発明の第2の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図7の自然言語翻訳装置は、翻訳モデル生成装置1aと、機械翻訳装置2と、表示装置3とから構成される。翻訳モデル生成装置1aは、形態素解析部100aと、目的言語特徴量取得部120aと、翻訳特徴量取得部130aと、対訳共起特徴量取得部140aと、翻訳モデル学習部150と、翻訳候補生成部190と、目的言語コーパス200と、対訳コーパス210と、対訳辞書220と、対訳テンプレート240とを有している。
図7は、本発明の第2の実施の形態に係る自然言語翻訳装置の概略構成を示すブロック図である。図7の自然言語翻訳装置は、翻訳モデル生成装置1aと、機械翻訳装置2と、表示装置3とから構成される。翻訳モデル生成装置1aは、形態素解析部100aと、目的言語特徴量取得部120aと、翻訳特徴量取得部130aと、対訳共起特徴量取得部140aと、翻訳モデル学習部150と、翻訳候補生成部190と、目的言語コーパス200と、対訳コーパス210と、対訳辞書220と、対訳テンプレート240とを有している。
自然言語翻訳装置の使用者は、第1自然言語表現とその適切な翻訳結果(正例)である第2自然言語表現の組み合わせを対訳表現データとして翻訳モデル生成装置1aの形態素解析部100aに入力する。
形態素解析部100aは、入力された対訳表現データの第1自然言語表現と第2自然言語表現とをそれぞれ形態素解析して、単語に分割し、分割した各単語に品詞情報を付加する。この第1自然言語表現と第2自然言語表現の形態素解析結果は、翻訳候補生成部190に送られる。
形態素解析部100aは、入力された対訳表現データの第1自然言語表現と第2自然言語表現とをそれぞれ形態素解析して、単語に分割し、分割した各単語に品詞情報を付加する。この第1自然言語表現と第2自然言語表現の形態素解析結果は、翻訳候補生成部190に送られる。
翻訳候補生成部190は、形態素解析部100aの出力と、対訳辞書220と、第1自然言語表現の構造と第2自然言語表現の構造とを対応付けたデータベースである対訳テンプレート240とを用いて、対訳表現データの第1自然言語表現に対する第2自然言語の新たな翻訳侯補を正例と負例の両方について生成すると共に、第1自然言語表現と翻訳候補の構造情報を出力する。翻訳候補生成部190は、形態素解析部100aから受け取った第2自然言語表現を第1自然言語表現に対する正例の翻訳候補とすると共に、生成した翻訳候補のうち形態素解析部100aから受け取った第2自然言語表現と異なる表現を負例の翻訳候補とする。
目的言語特徴量取得部120aは、翻訳候補生成部190から受け取った翻訳候補の構造情報に基づいて、この翻訳候補の1部あるいは全ての単語を含み、かつ同じ構造を持つ表現を目的言語コーパス200から抽出して、この表現に関する統計量を求めて翻訳モデル学習部150に出力する。
翻訳特徴量取得部130aは、翻訳候補生成部190から受け取った構造情報に基づいて、第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書220から求めて翻訳モデル学習部150に出力する。
対訳共起特徴量取得部140aは、翻訳候補生成部190から受け取った第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳コーパス210あるいは対訳辞書220の中に対訳として出現する確率を求めて翻訳モデル学習部150に出力する。
翻訳モデル学習部150は、目的言語特徴量取得部120a、翻訳特徴量取得部130aおよび対訳共起特徴量取得部140aから受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル230として出力する。
翻訳モデル学習部150は、目的言語特徴量取得部120a、翻訳特徴量取得部130aおよび対訳共起特徴量取得部140aから受け取った統計量を学習データの特徴量として、機械学習器に入力し、学習した結果を翻訳モデル230として出力する。
機械翻訳装置2は、使用者が入力した第1自然言語表現に対する適切な翻訳結果である第2自然言語表現を、翻訳モデル生成装置1aが生成した翻訳モデル230を用いて選択する。表示装置3は、機械翻訳装置2が選択出力した翻訳結果を表示する。
以上の翻訳モデル生成装置1aと機械翻訳装置2は、CPU、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。
以上の翻訳モデル生成装置1aと機械翻訳装置2は、CPU、メモリおよびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。
以下、図7の自然言語翻訳装置について詳細に説明する。以下の説明では、第1自然言語表現が「関係改善」であり、これに対する第2自然言語表現が「improvement of relation」である正例の対訳表現データが使用者によって入力され、複合名詞の翻訳モデルを生成する場合を例にとって説明する。
形態素解析部100aは、対訳表現データを受け取り、第1自然言語表現「関係改善」と第2自然言語表現「improvement of relation」の形態素解析を行って、この第1自然言語表現と第2自然言語表現をそれぞれ単語に分割し、分割した各単語に品詞情報を付加する。この対訳表現データを形態素解析した結果は図3に示したとおりである。
例401では、第1自然言語表現「関係改善」が、「関係」と「改善」という2つの単語から構成され、これらの単語にそれぞれ名詞であることを示す品詞情報「/N」が付加されている。例402では、第2自然言語表現「improvement of relation」が、「improvement」と「of」と「relation」という3つの単語から構成され、「improvement」と「relation」にそれぞれ品詞情報「/N」が付加され、また「of」に前置詞であることを示す品詞情報「/P」が付加されている。形態素解析部100aは、第1自然言語表現および第2自然言語表現を形態素解析した結果得られた単語と品詞情報を翻訳候補生成部190に送る。
翻訳侯補生成部190は、形態素解析部100aから受け取った単語の情報と対訳テンプレート240と対訳辞書220とを使って、対訳表現データの第1自然言語表現に対する第2自然言語の翻訳侯補を生成し、生成した翻訳候補に正例または負例の属性情報を付加する。図8は、対訳テンプレート240の1例を示す図である。例801では、第1自然言語表現が2つの名詞「Ns1」と「Ns2」で構成されるとき、2つの名詞「Nt1」と「Nt2」で構成される第2自然言語表現が翻訳侯補として生成されることを示している。ただし、「Nt1」,「Nt2」は、それぞれ「Ns1」,「Ns2」を対訳辞書220により変換した語を示す。
図9は、対訳辞書220の1例を示す図である。例901では、第1自然言語表現の名詞(N)である「関係」に対応する第2自然言語表現の名詞が「relation」であることを示している。
図10は、図8の対訳テンプレート240と図9の対訳辞書220を使って翻訳侯補生成部190が生成した翻訳侯補の1例を示す図である。ここでは、入力された第2自然言語表現「improvement of relation」と全く同一の翻訳侯補を正例とし、残りの翻訳侯補を全て負例としているが、対訳辞書220中に同一の翻訳侯補が存在した場合にその候補を正例としてもよい。
翻訳侯補生成部190は、生成した翻訳侯補を属性情報と共に目的言語特徴量取得部120a、翻訳特徴量取得部130aおよび対訳共起特徴量取得部140aに送る。また、翻訳侯補生成部190は、翻訳候補を生成する際に、第1の実施の形態の構造解析部110と同様の構造解析を行っており、対訳表現データの第1自然言語表現の構造情報と、これに対応する翻訳候補の構造情報とを目的言語特徴量取得部120a、翻訳特徴量取得部130aおよび対訳共起特徴量取得部140aに送る。
目的言語特徴量取得部120aは、翻訳侯補生成部190から受け取った翻訳候補(第2自然言語表現)の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量(頻度)を目的言語コーパス200から取得する。この目的言語特徴量取得部120aの動作は、目的言語特徴量取得部120と同様である。そして、目的言語特徴量取得部120aは、取得した統計量を、翻訳侯補生成部190から受け取った属性情報と共に翻訳モデル学習部150に送る。
翻訳特徴量取得部130aは、翻訳侯補生成部190から受け取った第1自然言語表現および翻訳候補の構造情報に基づいて、第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、翻訳候補の構造及び単語の少なくとも一部を備える表現に変換される確率を対訳辞書220から推定する。この翻訳特徴量取得部130aの動作は、翻訳特徴量取得部130と同様である。そして、翻訳特徴量取得部130aは、推定した確率の情報を、翻訳侯補生成部190から受け取った属性情報と共に翻訳モデル学習部150に送る。
対訳共起特徴量取得部140aは、翻訳侯補生成部190から受け取った第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書220あるいは対訳コーパス210の中で対訳として出現する確率である対訳共起確率を求める。この対訳共起特徴量取得部140aの動作は、対訳共起特徴量取得部140と同様である。そして、対訳共起特徴量取得部140は、推定した対訳共起確率の情報を、翻訳侯補生成部190から受け取った属性情報と共に翻訳モデル学習部150に送る。
翻訳モデル学習部150の動作は、第1の実施の形態と同じである。一般に機械学習を行うためには、翻訳学習データとして負例を用意する必要があるが、本実施の形態では、翻訳候補生成部190が対訳辞書220や対訳テンプレート240を用いて正例から負例を自動的に生成するため、正例のみを対訳表現データとして用意すればよい。
なお、第1、第2の実施の形態では、第1自然言語が日本語、第2自然言語が英語である場合で説明したが、逆に第1自然言語が英語で、第2自然言語が日本語である場合や、第1自然言語、第2自然言語が他の言語である場合にも同様に本発明を適用可能である。また、第1、第2の実施の形態では、複合名詞の翻訳の例で説明しているが、動詞句など他の表現や文の翻訳にも同様に適用可能である。
本発明は、原言語である第1自然言語表現を入力として、対応する目的言語である第2自然言語表現を出力する機械翻訳に適用することができる。
1、1a…翻訳モデル生成装置、2…機械翻訳装置、3…表示装置、100、100a…形態素解析部、110…構造解析部、120、120a…目的言語特徴量取得部、130、130a…翻訳特徴量取得部、140、140a…対訳共起特徴量取得部、150…翻訳モデル学習部、190…翻訳候補生成部、200…目的言語コーパス、210…対訳コーパス、220…対訳辞書、230…翻訳モデル、240…対訳テンプレート。
Claims (4)
- 原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、
第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせ、及び第1自然言語表現とその不適切な翻訳結果である第2自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、
この形態素解析手段の出力に基づいて、前記分割された各単語間の依存関係を前記第1自然言語表現と第2自然言語表現の各々について同定し、前記依存関係を表す構造情報を出力する構造解析手段と、
この構造解析手段から受け取った第2自然言語表現の構造情報に基づいて、この第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、
前記構造解析手段から受け取った構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第2自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、
前記構造解析手段から受け取った第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、
前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有することを特徴とする翻訳モデル生成装置。 - 原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成装置であって、
第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加して出力する形態素解析手段と、
この形態素解析手段の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第1自然言語表現に対する第2自然言語の翻訳侯補を適切な例と不適切な例の両方について生成すると共に、前記第1自然言語表現の構造情報と前記翻訳候補の構造情報を出力する翻訳侯補生成手段と、
この翻訳侯補生成手段から受け取った翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得する目的言語特徴量取得手段と、
前記翻訳侯補生成手段から受け取った構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求める翻訳特徴量取得手段と、
前記翻訳侯補生成手段から受け取った第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求める対訳共起特徴量取得手段と、
前記目的言語特徴量取得手段と翻訳特徴量取得手段と対訳共起特徴量取得手段の各出力を入力として、機械学習により翻訳モデルを生成する翻訳モデル学習手段とを有することを特徴とする翻訳モデル生成装置。 - 原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、
第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせ、及び第1自然言語表現とその不適切な翻訳結果である第2自然言語表現の組み合わせが翻訳学習データとして外部から入力されたとき、これらの第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、
前記メモリに格納された形態素解析手順の出力に基づいて、前記分割された各単語間の依存関係を前記第1自然言語表現と第2自然言語表現の各々について同定し、前記依存関係を表す構造情報をメモリに格納する構造解析手順と、
前記メモリに格納された第2自然言語表現の構造情報に基づいて、この第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、
前記メモリに格納された構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記第2自然言語表現の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、
前記構造解析手順でメモリに格納された第1自然言語表現の単語と第2自然言語表現の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得手順と、
前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有することを特徴とする翻訳モデル生成方法。 - 原言語である第1自然言語の表現を目的言語である第2自然言語の表現に変換する機械翻訳装置が翻訳侯補を選択するための翻訳モデルを生成する翻訳モデル生成方法であって、
第1自然言語表現とその適切な翻訳結果である第2自然言語表現の組み合わせが対訳表現データとして外部から入力されたとき、この第1自然言語表現と第2自然言語表現を形態素解析して単語に分割し、各単語に品詞情報を付加してメモリに格納する形態素解析手順と、
この形態素解析手順の出力と対訳テンプレートと対訳辞書を用いて、前記対訳表現データの第1自然言語表現に対する第2自然言語の翻訳侯補を適切な例と不適切な例の両方について生成してメモリに格納すると共に、前記第1自然言語表現の構造情報と前記翻訳候補の構造情報をメモリに格納する翻訳侯補生成手順と、
前記メモリに格納された翻訳候補の構造情報に基づいて、この翻訳候補と同じ構造を持つ表現に関する統計量を目的言語コーパスから取得してメモリに格納する目的言語特徴量取得手順と、
前記メモリに格納された構造情報に基づいて、前記第1自然言語表現の構造及び単語の少なくとも一部を備える表現が、前記翻訳候補の構造及び単語の少なくとも一部を備える表現に翻訳される確率を対訳辞書から求めてメモリに格納する翻訳特徴量取得手順と、
前記翻訳侯補生成手順でメモリに格納された第1自然言語表現の単語と翻訳候補の単語との組み合わせが、対訳辞書あるいは対訳コーパスの中で対訳として出現する確率を求めてメモリに格納する対訳共起特徴量取得部と、
前記目的言語特徴量取得手順と翻訳特徴量取得手順と対訳共起特徴量取得手順の各出力を入力として、機械学習により翻訳モデルを生成してメモリに格納する翻訳モデル学習手順とを有することを特徴とする翻訳モデル生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004211175A JP2006031511A (ja) | 2004-07-20 | 2004-07-20 | 翻訳モデル生成装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004211175A JP2006031511A (ja) | 2004-07-20 | 2004-07-20 | 翻訳モデル生成装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031511A true JP2006031511A (ja) | 2006-02-02 |
Family
ID=35897758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004211175A Pending JP2006031511A (ja) | 2004-07-20 | 2004-07-20 | 翻訳モデル生成装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006031511A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173810A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
US10067939B2 (en) | 2016-08-16 | 2018-09-04 | Samsung Electronics Co., Ltd. | Machine translation method and apparatus |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
-
2004
- 2004-07-20 JP JP2004211175A patent/JP2006031511A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173810A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 主題抽出装置、方法、及びプログラム |
US10067939B2 (en) | 2016-08-16 | 2018-09-04 | Samsung Electronics Co., Ltd. | Machine translation method and apparatus |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
CN113343672B (zh) * | 2021-06-21 | 2022-12-16 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4559950B2 (ja) | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム | |
JP6618735B2 (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
US8131536B2 (en) | Extraction-empowered machine translation | |
JP3790825B2 (ja) | 他言語のテキスト生成装置 | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
US20090204401A1 (en) | Speech processing system, speech processing method, and speech processing program | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
Hou et al. | Classification of regional and genre varieties of Chinese: A correspondence analysis approach based on comparable balanced corpora | |
CN110555091A (zh) | 一种基于词向量的联想词生成方法及装置 | |
KR20170008357A (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP2006031511A (ja) | 翻訳モデル生成装置および方法 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
KR950013128B1 (ko) | 기계번역장치 및 방법 | |
JP2000305930A (ja) | 言語変換規則作成装置、言語変換装置及びプログラム記録媒体 | |
Zeng et al. | Lexicon expansion for latent variable grammars | |
JP2003330926A (ja) | 翻訳方法、翻訳装置及び翻訳プログラム | |
Anto et al. | Text to speech synthesis system for English to Malayalam translation | |
JP5150277B2 (ja) | 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体 | |
JP2007133905A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP4812811B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム |