JP2015082204A - 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 - Google Patents

機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 Download PDF

Info

Publication number
JP2015082204A
JP2015082204A JP2013219656A JP2013219656A JP2015082204A JP 2015082204 A JP2015082204 A JP 2015082204A JP 2013219656 A JP2013219656 A JP 2013219656A JP 2013219656 A JP2013219656 A JP 2013219656A JP 2015082204 A JP2015082204 A JP 2015082204A
Authority
JP
Japan
Prior art keywords
language
translation
sentence
unknown word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013219656A
Other languages
English (en)
Other versions
JP6160438B2 (ja
Inventor
友樹 長瀬
Yuki Nagase
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013219656A priority Critical patent/JP6160438B2/ja
Publication of JP2015082204A publication Critical patent/JP2015082204A/ja
Application granted granted Critical
Publication of JP6160438B2 publication Critical patent/JP6160438B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】機械翻訳品質が大きく向上することが可能な機械翻訳装置、機械翻訳プログラム及び機械翻訳方法を提供すること。【解決手段】第1言語から第2言語への機械翻訳時に生じる未知語について形態素解析した上で複数の単語に分割し、分割したそれぞれの単語を対訳辞書が豊富な、第1言語及び第2言語とは異なる第3言語に翻訳し、第3言語への翻訳結果の逆翻訳結果から未知語に対応する翻訳対象の第1言語の候補を生成し、第2言語への翻訳を行なう。【選択図】図3

Description

本発明は、第一言語の文章を第二言語の文章へ機械翻訳する機械翻訳装置、機械翻訳プログラム及び機械翻訳方法に関する。
従来、翻訳対象の第一言語の文章をこれとは異なる翻訳目的の第二言語の文章へ翻訳する機械翻訳装置や機械翻訳ソフトが知られている。これらの機械翻訳装置や機械翻訳ソフトは、第一言語と第二言語の対訳辞書を用いて、第一言語の文章を第二言語の文章へ翻訳している。
ところが、対訳辞書に十分な数の単語が登録されていない場合、第一言語の解析工程において未知語(未登録語)の発生頻度が高まり、全体として高い翻訳精度を得ることができない。よって、機械翻訳の翻訳品質を向上させるためには、対訳辞書を充実させる必要がある。未登録語を無くすことを目的として、機械翻訳を適用しようとする分野の文書から未登録語を抽出する技術が多数開示されている。例えば、日本語テキストのひらがな部分に未登録語が含まれると、ひらがな一文字が単語として切り出されることに着眼して、ひらがな未知語を単語の単位で抽出する技術が開示されている(例えば、特許文献1参照。)。
しかしながら、未知語抽出技術によって未知語を多数切り出すことができたとしても、それだけで機械翻訳の精度を上げることはできない。例えば、日本語から英語の機械翻訳の場合では、未知語抽出技術で切り出された未知語のリスト(日本語)それぞれについて、人間によって訳語(英語)を登録していかなければならない。この訳語を登録する作業には日本語と英語の両方の言語に流暢であるだけでなく、しばしば当該分野の専門知識が必要とされ、人材確保の点からも工数の点からもコストが高くついてしまう。また、対訳辞書の整備は言語対毎に必要であり、多言語間の対訳辞書の整備作業にはさらに多大な工数が必要とされる。
また、人手による対訳辞書の整備を軽減して未知語による訳文品質低下を抑えるための技術として、第一言語と第三言語の対訳辞書を用いて第一言語と第二言語の対訳辞書を拡充する技術が開示されている(例えば、特許文献2参照。)。
図1は、第一言語と第三言語の対訳辞書を用いて第一言語と第二言語の対訳辞書を拡充する技術を説明するための図である。
図1において、第一言語(日本語)と第二言語(中国語)の対訳辞書(日中辞書)には、日本語「低下」−中国語「降低」のみが存在する。そして、第一言語と第三言語(英語)の対訳辞書(日英辞書)には、日本語「低下」−英語「drop」、日本語「降下」−「drop」、日本語「低落」−「drop」、日本語「ドロップ」−「drop」が存在する。このような場合、「低下」から日英辞書を用いて「drop」を検索し、さらに「drop」から「降下」、「低落」、「ドロップ」を検索することで、「低下」の同義語を求める。このようにして検索した同義語「降下」、「低落」、「ドロップ」を中国語「降低」に対応付けて登録することによって、日中辞書には含まれていなかった「降下」−「降低」を補うことができる。このように対訳辞書が拡充されることにより、第一言語(日本語)から第二言語(中国語)への翻訳が不可能であった「降下」を「降低」と翻訳することが可能となる。
特開平1−220067号公報 特開2007−26420号公報
しかしながら、第一言語と第三言語の対訳辞書を用いて第一言語と第二言語の対訳辞書を拡充しようとしても、第一言語と第三言語の対訳辞書において、対訳が1つしか存在しない場合又は1つも存在しない場合には、第一言語と第二言語の対訳辞書を拡充することができず、全体として高い翻訳精度を得ることができない。
1つの側面では、本発明は、第一言語と第三言語の対訳辞書において、対訳が1つしか存在しない場合又は1つも存在しない場合であっても、全体として高い翻訳精度を得ることが可能な機械翻訳装置、機械翻訳プログラム及び機械翻訳方法を提供することを目的とする。
本発明は、上記課題を解決するため、下記のような構成を採用した。
1つの案では、機械翻訳装置は、翻訳対象の第一言語の文章を入力する入力手段と、前記第一言語の少なくとも1つの表現に対して少なくとも1つの第二言語の表現が対応付けて登録されている第一言語第二言語対訳辞書と、前記入力手段で入力された前記第一言語の文章を形態素解析し、前記第一言語第二言語対訳辞書を参照して、前記第一言語とは異なる翻訳目的の第二言語の文章に翻訳する第一言語第二言語翻訳手段と、前記第一言語第二言語翻訳手段による翻訳結果と形態素解析結果に基づいて、前記第一言語第二言語対訳辞書に前記第二言語の表現が登録されていない未知語を認識する未知語認識手段と、前記第一言語の少なくとも1つの表現に対して前記第一言語及び前記第二言語とは異なる少なくとも1つの第三言語の表現が対応付けて登録されている第一言語第三言語対訳辞書と、前記入力手段で入力された前記第一言語の文章を形態素解析し、前記第一言語第三言語対訳辞書を参照して、前記第三言語の文章に翻訳する第一言語第三言語翻訳手段と、前記第一言語第三言語翻訳手段によって翻訳された前記第三言語の文章のうち、前記未知語認識手段によって認識された未知語に対応する第三言語を切り出す未知語第三言語切り出し手段と、前記未知語第三言語切り出し手段によって切り出された前記第三言語を複数の形態素に分割する第三言語形態素解析手段と、前記第一言語第三言語対訳辞書を参照して、前記分割された形態素に対応する前記第一言語の単語を検索する第三言語第一言語辞書引き手段と、前記第三言語第一言語辞書引き手段を用いて、前記分割された複数の形態素に対応する前記第一言語の複数の単語を組み合わせることにより、前記未知語認識手段によって認識した前記未知語の代替表記を生成する代替表記生成手段と、前記入力手段で入力された前記第一言語の文章のうち、前記未知語認識手段によって認識した未知語を、前記代替表記生成手段によって生成された前記代替表記に置き換えることにより、前記入力された前記第一言語の文章を修正する入力文修正手段とを備え、前記第一言語第二言語翻訳手段は、前記入力文修正手段によって修正された第一言語の文章を第二言語の文章に翻訳することを特徴とする。
本発明によれば、対訳辞書に登録されていないために対訳できない未知語の代替表記を作成することにより、機械翻訳品質が大きく向上する、という効果を奏する。
第一言語と第三言語の対訳辞書を用いて第一言語と第二言語の対訳辞書を拡充する技術を説明するための図である。 機械翻訳処理の概要を説明するための図である。 第1の実施の形態の機械翻訳装置1の構成を示す図である。 第一言語第二言語対訳辞書13の例を示す図である。 第一言語第三言語対訳辞書16の例を示す図である。 未知語第三言語切り出し処理の流れを示すフローチャートである。 機械翻訳処理(その1)の動作例を説明するための図である。 未知語リスト800の例を示す図である。 第一言語形態素リスト900の例を示す図である。 代替表記生成処理の流れを示すフローチャートである。 入力文修正処理の流れを示すフローチャートである。 機械翻訳処理(その2)の動作例を説明するための図である。 第一言語形態素リスト1300の例を示す図である。 第2の実施の形態の機械翻訳装置2の構成を示す図である。 第3の実施の形態の機械翻訳装置3の構成を示す図である。 第4の実施の形態の構成を示す図である。 第5の実施の形態の構成を示す図である。 第6の実施の形態の機械翻訳装置4の構成を示す図である。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
図2乃至図13を用いて、第1の実施の形態を説明する。
まず、図2を用いて本実施の形態における機械翻訳処理の概要を説明する。
図2は、機械翻訳処理の概要を説明するための図である。
図2に示す例は、翻訳対象の第一言語、例えば日本語の文章中に「オブジェクトオリエンテッド」という単語が含まれる場合を示している。そして、この第一言語とは異なる翻訳目的の第二言語、例えば中国語の文章へ翻訳する際、対訳辞書中に日本語の「オブジェクトオリエンテッド」に対応する中国語が登録されていないことがある。
このような場合、本実施の形態における機械翻訳処理は、第一言語及び第二言語とは異なる第三言語、例えば英語への翻訳を実行する。すると、日本語「オブジェクトオリエンテッド」に対応する英語「object oriented」が検索される。そして、英語「object oriented」を「object」と「oriented」の2単語に分割する。
次に、英日の対訳辞書を用いて、これら分割した「object」及び「oriented」に対応する日本語を検索する。例えば、英語「object」に対応する日本語は、「対象」「物体」「目的」の3つが検索される。また、英語「oriented」に対しては日本語「指向の」が検索される。
次に、日中の対訳辞書を用いて、これら検索された日本語「対象」「物体」「目的」及び「指向の」に対応する中国語を検索する。その結果、日本語「対象」に対応する中国語
Figure 2015082204
が検索され、日本語「指向の」に対応する中国語「面向的」が検索される。なお、日本語「物体」「目的」に対応する中国語は、日中の対訳辞書に登録されておらず、検索されない。
そして、日本語「対象」に対応する中国語
Figure 2015082204
と、日本語「指向の」に対応する中国語「面向的」を組み合わせて、日本語「オブジェクトオリエンテッド」に対応する中国語として、
Figure 2015082204
が出力される。
図3は、第1の実施の形態の機械翻訳装置1の構成を示す図である。図4は、第一言語第二言語対訳辞書13の例を示す図である。図5は、第一言語第三言語対訳辞書16の例を示す図である。
図3において、機械翻訳装置1は、入力部11、第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、未知語認識部14、第一言語第三言語翻訳部15、第一言語第三言語対訳辞書16、第三言語形態素解析部17、未知語第三言語切り出し部18、第三言語第一言語辞書引き部19、代替表記生成部20、入力文修正部21、及び出力部22を備える。
入力部11は、翻訳対象の第一言語(例えば、日本語。以下、単に「日」と表記することもある。)の文章を入力する。
第一言語第二言語翻訳部12は、入力部11で入力された第一言語(日)の文章を、形態素解析し、図4に示すような第一言語第二言語対訳辞書13を参照して、第一言語とは異なる翻訳目的の第二言語(例えば、中国語。以下、単に「中」と表記することもある。)の文章に翻訳する。
第一言語第二言語対訳辞書13は、第一言語(日)の少なくとも1つの表現に対して、少なくとも1つの第二言語(中)の表現が対応付けて登録されている。
未知語認識部14は、第一言語第二言語翻訳部12によって実行された翻訳結果と形態素解析の結果に基づいて、第一言語第二言語対訳辞書13に第二言語(中)の表現が登録されていない第一言語(日)の表現を「未知語」として認識する。
第一言語第三言語翻訳部15は、入力部11で入力された第一言語(日)の文章を、形態素解析し、図5に示すような第一言語第三言語対訳辞書16を参照して、第一言語(日)及び第二言語(中)とは異なる第三言語(例えば、英語。以下、単に「英」と表記することもある。)の文章に翻訳する。
第一言語第三言語対訳辞書16は、第一言語(日)の少なくとも1つの表現に対して、第一言語(日)及び第二言語(中)とは異なる少なくとも1つの第三言語(英)の表現が対応付けて登録されている。
第三言語形態素解析部17は、第三言語(英)の文章を複数の形態素に分割する。
未知語第三言語切り出し部18は、第一言語第三言語翻訳部15によって翻訳された第三言語(英)の文章のうち、未知語認識部14によって認識された未知語に対応する第三言語(英)を切り出す。そして、未知語第三言語切り出し部18は、第三言語形態素解析部17を用いて、切り出した第三言語(英)を複数の形態素に分割する。
第三言語第一言語辞書引き部19は、第一言語第三言語対訳辞書16を参照して、分割された第三言語(英)の形態素に対応する第一言語(日)の単語を検索する。
代替表記生成部20は、第三言語第一言語辞書引き部19を用いて、未知語第三言語切り出し部18によって分割された複数の形態素、すなわち第三言語(英)の複数の単語それぞれに対応する第一言語(日)の単語を検索する。そして、代替表記生成部20は、検索された複数の単語を組み合わせることにより、未知語認識部14によって認識した未知語の代替表記を生成する。
入力文修正部21は、入力部11で入力された第一言語(日)の文章のうち、未知語認識部14によって認識した未知語を、代替表記生成部20によって生成された代替表記に置き換えることにより、入力された第一言語(日)の文章を修正する。
出力部22は、入力文修正部21によって修正された第一言語(日)の文章を出力する。出力された修正後の第一言語(日)の文章は、第一言語第二言語翻訳部12によって、より精度の高い翻訳が可能となる。
なお、上記では、翻訳対象の第一言語を日本語、翻訳目標の第二言語を中国語、そして、第三言語を英語の場合について説明したが、第一言語、第二言語及び第三言語の組み合わせに制約はない。
未知語は、例えば、固有名詞、専門用語、普通名詞などに分類される。機械、道具、アプリケーションソフトなどの使用マニュアルなどの技術文書は、専門用語の未知語が多い。手紙など一般文では固有名詞や普通名詞の未知語が多い。また、日本語では新しい外来語をカタカナにする習慣があり、辞書に登録されていなければそのカタカナ語が未知語である。広義には複合語も未知語の一種である。例えば、「機械翻訳」は1単語であるが、「機械」と「翻訳」の単語があれば意味の通る訳文がつくれる。
図6乃至図13を用いて、機械翻訳装置1が実行する機械翻訳処理を詳細に説明する。機械翻訳処理は、後述する「未知語第三言語切り出し処理」「代替表記生成処理」「入力文修正処理」を含む。
図6は、未知語第三言語切り出し処理の流れを示すフローチャートである。図7は、機械翻訳処理(その1)の動作例を説明するための図である。図8は、未知語リスト800の例を示す図である。図9は、第一言語形態素リスト900の例を示す図である。
図6のステップS601において、入力部11によって入力された第一言語(日)の文章、例えば、図7の原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」を、第一言語第二言語翻訳部12が翻訳する。翻訳結果は、日中翻訳文702
Figure 2015082204
となる。また、翻訳の過程で実行される形態素解析の結果として、原文形態素703「/彼/は/オブジェクトオリエンテッド/ランゲージ/を/勉強/し/て/いる/。/」を取得する。
ステップS602において、未知語認識部14が、翻訳した日中翻訳文702
Figure 2015082204
と、取得した原文形態素703「/彼/は/オブジェクトオリエンテッド/ランゲージ/を/勉強/し/て/いる/。/」に基づいて、第一言語第二言語対訳辞書13に登録されていない第一言語(日)の表現、未知語704「オブジェクトオリエンテッド」を「未知語」として認識する。そして、認識した未知語を、図8に示すような未知語リスト800に作成する。
ステップS603において、ステップS601で第一言語を第二言語に翻訳した文章と同一の第一言語(日)の文章を、第一言語第三言語翻訳部15で翻訳し、形態素解析結果を取得する。すなわち、入力部11によって入力された第一言語(日)の文章、原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」を、第一言語第三言語翻訳部15が翻訳する。翻訳結果は、日英翻訳文705「He is studying object oriented language.」となる。また、翻訳の過程で実行される形態素解析の結果として、原文形態素703「/彼/は/オブジェクトオリエンテッド/ランゲージ/を/勉強/し/て/いる/。/」を取得する。
ステップS604において、ステップS601で第一言語第二言語翻訳部12が実行した形態素解析の結果、原文形態素703「/彼/は/オブジェクトオリエンテッド/ランゲージ/を/勉強/し/て/いる/。/」に基づいて、図9に示すような第一言語形態素リスト900を作成する。
そして、未知語リスト800に登録された未知語を順にステップS606以降の処理の対象とするため、ステップS605において、ステップS602で作成した未知語リスト800の終わりか否かを判断する。
未知語リスト800の終わりであると判断された場合(ステップS605:Yes)、未知語第三言語切り出し処理を終了する。他方、未知語リスト800の終わりでないと判断された場合(ステップS605:No)、未知語リスト800に登録されている順に、ステップS606以降を繰り返す。
ステップS606において、ステップS604で作成した第一言語形態素リスト900の終わりか否かを判断する。この判断ステップは、第一言語形態素リスト900に登録された第一言語形態素を順にステップS607以降の処理の対象とするためである。
第一言語形態素リスト900の終わりであると判断された場合(ステップS606:Yes)、ステップS605に戻り、未知語リスト800に登録された次の未知語をステップS606以降の処理の対象とする。他方、第一言語形態素リスト900の終わりでないと判断された場合(ステップS606:No)、第一言語形態素リスト900に登録されている順に、ステップS607以降を繰り返す。
ステップS607において、未知語リスト800の未知語と、第一言語形態素リスト900の第一言語形態素が同一か否かを判断する。
同一でないと判断された場合(ステップS607:No)、ステップS608に進む。
ステップS608において、未知語が第一言語形態素に包含されているか否かを判断し、包含されていないと判断された場合(ステップS608:No)、第一言語形態素リスト900中の次の第一言語形態素を処理対象としてステップS606に戻る。すなわち、同一でもなく(ステップS607:No)、包含されてもいない(ステップS608:)ということは、未知語と第一言語形態素が全く異なる場合である。他方、ステップS608で、包含されていると判断された場合(ステップS608:Yes)、図12を用いて後述するステップS610に進む。
他方、ステップS607で、同一であると判断された場合(ステップS607:Yes)、ステップS609において、第一言語形態素に対応する第三言語表記を未知語に対応する第三言語表記として、第三言語表記リストに格納する。そして、第一言語形態素リスト900に登録された次の第一言語形態素をステップS605以降の処理の対象とする。
ここで、以上のステップS605乃至ステップS609の流れを、より具体的に説明する。
ステップS605では、未知語リスト800の終わりか否かを判断する。未知語リスト800には、図8に示すように、1個の未知語704「オブジェクトオリエンテッド」が格納されている。最初のステップS605では、未知語リスト800の1番目の未知語704「オブジェクトオリエンテッド」が処理の対象となっている。未知語リスト800の終わりではないと判断される。よって、ステップS606へ進む(ステップS605:No)。
ステップS606では、第一言語形態素リスト900の終わりか否かを判断する。第一言語形態素リスト900には、図9に示すように、10個の第一言語形態素901「彼」、902「は」、706「オブジェクトオリエンテッド」、903「ランゲージ」、904「を」、905「勉強」、906「し」、907「て」、908「いる」、909「。」が格納されている。最初のステップS606では、第一言語形態素リスト900の1番目の第一言語形態素901「彼」が処理の対象となっている。第一言語形態素リスト900の終わりではないと判断される。よって、ステップS607へ進む(ステップS606:No)。
ステップS607では、未知語リスト800の未知語704「オブジェクトオリエンテッド」と、第一言語形態素リスト900の第一言語形態素901「彼」が同一か否かを判断する。同一表記ではないので、ステップS608へ進む(ステップS607:No)。
ステップS608では、未知語704「オブジェクトオリエンテッド」が第一言語形態素901「彼」に包含されているか否かを判断する。包含されていないので、第一言語形態素リスト900中の次の第一言語形態素902「は」を処理対象としてステップS606に戻る。
第一言語形態素901「彼」と同様に、第一言語形態素902「は」についてステップS606以降の処理を実行する。そして、第一言語形態素リスト900中の3番目の未知語形態素706「オブジェクトオリエンテッド」を処理対象としてステップS606に戻る。
同様に、ステップS606からステップ607へ進む。
ステップS607では、未知語リスト800の未知語704「オブジェクトオリエンテッド」と、第一言語形態素リスト900の未知語形態素706「オブジェクトオリエンテッド」が同一であるので、ステップS609へ進む(ステップS607:Yes)。
ステップS609では、未知語第三言語切り出し部18が、第一言語第三言語翻訳部15によって翻訳された日英翻訳文705「He is studying object oriented language.」のうち、未知語認識部14によって認識された未知語704「オブジェクトオリエンテッド」に対応する未知語対応英語707「object oriented」を切り出す。そして、未知語形態素706「オブジェクトオリエンテッド」に対応する第三言語表記を、未知語704「オブジェクトオリエンテッド」に対応する未知語対応英語707「object oriented」とする。この未知語対応英語707「object oriented」は、第三言語表記リストに格納される。この時点で、第三言語表記リストには、1つの未知語対応英語707「object oriented」が格納される。
そして、ステップS606に戻り、第一言語形態素903「ランゲージ」、904「を」、905「勉強」、906「し」、907「て」、908「いる」、909「。」について、同様にステップS606以降の処理を実行する。第一言語形態素909「。」について、同様の処理を実行した後、ステップS606に戻ると、第一言語形態素リスト900の終わりであると判断される。よって、ステップS605へ戻る(ステップS606:Yes)。
そして、ステップS605では、未知語リスト800に登録されているレコードは、未知語704「オブジェクトオリエンテッド」のみであるので、未知語リスト800の終わりであると判断される(ステップS605:Yes)。よって、未知語第三言語切り出し処理は終了する。なお、ステップS610及びステップS611については、図12を用いて後述する。
図10は、代替表記生成処理の流れを示すフローチャートである。
第三言語表記リストに登録された第三言語表記を順にステップS1002以降の処理の対象とするため、ステップS1001において、未知語に対応する第三言語表記リストの終わりか否かを判断する。未知語に対応する第三言語表記リストは、図6のステップS609で作成されたものである。例えば、図6の説明に用いた上述の例では、第三言語表記リストには、1つの未知語対応英語707「object oriented」が格納されている。
第三言語表記リストの終わりであると判断された場合(ステップS1001:Yes)、代替表記生成処理を終了する。他方、第三言語表記リストの終わりでないと判断された場合(ステップS1001:No)、ステップS1002において、第三言語表記に対応する未知語を第三言語表記リストから順に取得する。図7に示した例では、未知語対応英語707「object oriented」に対応する未知語704「オブジェクトオリエンテッド」を取得する。
ステップS1003において、第三言語形態素解析部17を用いて、第三言語表記を複数の形態素に分割し、第三言語表記形態素リストを作成する。図7に示した例では、未知語対応英語707「object oriented」を未知語対応英語形態素708「/object/oriented/」に分割し、2つの第三言語形態素「object」と「oriented」が第三言語表記形態素リストに格納される。
第三言語表記形態素リストに登録された第三言語形態素を順にステップS1005以降の処理の対象とするため、ステップS1004において、ステップS1003で作成した第三言語表記形態素リストの終わりか否かを判断する。
第三言語表記形態素リストの終わりであると判断された場合(ステップS1004:Yes)、後述するステップS1010に進む。他方、第三言語表記形態素リストの終わりでないと判断された場合(ステップS1004:No)、ステップS1005において、各形態素に分割された第三言語の単語で第一言語第三言語対訳辞書16を検索し、検索された第一言語表記で第一言語表記リストを作成する。第一言語表記リストは、第一言語第三言語対訳辞書16に登録されている順番、通常は頻度順にしたがって作成される。図7に示した例では、第三言語形態素「object」で第一言語第三言語対訳辞書16を検索し、検索された第一言語表記である英語形態素対応日本語709「対象,物体,目的」で第一言語表記リストが作成される。
第一言語表記リストに登録された第一言語表記を順にステップS1007以降の処理の対象とするため、ステップS1006において、ステップS1005で作成した第一言語表記リストの終わりか否かを判断する。
第一言語表記リストの終わりであると判断された場合(ステップS1006:Yes)、ステップS1004に戻る。他方、第一言語表記リストの終わりでないと判断された場合(ステップS1006:No)、ステップS1007において、第一言語表記で第一言語第二言語対訳辞書13を検索し、検索された第二言語表記で第二言語表記リストを作成する。図7に示した例では、英語形態素対応日本語709「対象,物体,目的」で検索し、検索された
Figure 2015082204
で第二言語表記リストを作成する。
第二言語表記リストに登録された第二言語表記を順にステップS1009の処理対象とするため、ステップS1008において、第二言語表記リストが空リストか否かを判断する。
空リストであると判断された場合(ステップS1008:Yes)、ステップS1006に戻り、空リストでないと判断された場合(ステップS1008:No)、ステップS1009において、第一言語表記を代替語バッファに追加し、ステップS1004に戻る。図7に示した例では、第二言語表記リストの最初には、
Figure 2015082204
が格納されているので、空リストではない。そして、代替語バッファには、
Figure 2015082204
に対応する第一言語表記「対象」を追加する。
そして、2度目のステップS1004において、第三言語表記形態素リストの終わりでないと判断され(ステップS1004:No)、2度目のステップS1005において、第三言語形態素「oriented」で第一言語第三言語対訳辞書16を検索し、検索された第一言語表記である英語形態素対応日本語710「指向の」で第一言語表記リストが作成される。
2度目のステップS1006において、第一言語表記リストの終わりでないと判断され(ステップS1006:No)、2度目のステップS1007において、第一言語表記で第一言語第二言語対訳辞書13を検索し、検索された第二言語表記で第二言語表記リストを作成する。図7に示した例では、英語形態素対応日本語710「指向の」で検索し、検索された「面向的」で第二言語表記リストを作成する。
2度目のステップS1008において、第二言語表記リストの最初には、「面向的」が格納されているので、空リストではない。そして、代替語バッファには、「面向的」に対応する第一言語表記「指向の」を追加する。この時点(2度目のステップS1009)で、代替語バッファには、「対象指向の」が格納されている。
そして、3度目のステップS1004では、第三言語表記形態素リストの終わりであると判断され(ステップS1004:Yes)、ステップS1010において、ステップS1002で取得した未知語の代替表記として、ステップS1009で追加された代替語バッファ中の第一言語表記を、表記置換えテーブルに出力する。図7に示した例では、未知語704「オブジェクトオリエンテッド」の代替表記として、代替語バッファ中の代替表記711「対象指向の」を、表記置換えテーブルに出力する。
ステップS1011において、代替語バッファをクリアしてステップS1001に戻る。
図11は、入力文修正処理の流れを示すフローチャートである。
図10のステップS1010で作成された表記置換えテーブルに登録された代替表記を順にステップS1102以降の処理の対象とするため、ステップS1101において、表記置換えテーブルの終わりか否かを判断する。
表記置換えテーブルの終わりであると判断された場合(ステップS1101:Yes)、入力文修正処理を終了する。他方、表記置換えテーブルの終わりでないと判断された場合(ステップS1101:No)、ステップS1102において、置換え元表記である未知語で入力部11によって入力された第一言語(日)の文章を検索する。図7に示した例では、未知語704「オブジェクトオリエンテッド」で原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」を検索する。
ステップS1103において、ヒットした表記部分を代替表記で置換する。図7に示した例では、原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」のうち、未知語704「オブジェクトオリエンテッド」に対応する部分を、代替表記711「対象指向の」で置換する。置換した結果は、修正後原文712「彼は対象指向のランゲージを勉強している。」となる。
以上の図6、図10及び図11で説明したような処理を実行すると、原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」は、修正後原文712「彼は対象指向のランゲージを勉強している。」と修正される。そして、第一言語第三言語翻訳部15が、この修正後の修正後原文712「彼は対象指向のランゲージを勉強している。」を翻訳すると、修正後日中翻訳文713
Figure 2015082204
と翻訳される。
次に、図6、図12及び図13を用いて、図6のステップS610及びステップS611に進む場合の例を説明する。
図6のステップS601において、図12の原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」を、第一言語第二言語翻訳部12が翻訳する。翻訳結果は、日中翻訳文702
Figure 2015082204
となる。また、翻訳の過程で実行される形態素解析の結果として、原文形態素1201「/彼/は/オブジェクトオリエンテッドランゲージ/を/勉強/し/て/いる/。/」を取得する。図7に示した原文形態素703「/彼/は/オブジェクトオリエンテッド/ランゲージ/を/勉強/し/て/いる/。/」とは、「オブジェクトオリエンテッドランゲージ」を1つの形態素と判断するか2つの形態素と判断するかの違いである。この違いは、第一言語第三言語翻訳部15の処理能力に起因する。
ステップS602において、未知語認識部14が、翻訳した日中翻訳文702
Figure 2015082204
と、取得した原文形態素1201「/彼/は/オブジェクトオリエンテッドランゲージ/を/勉強/し/て/いる/。/」に基づいて、第一言語第二言語対訳辞書13に登録されていない第一言語(日)の表現、未知語704「オブジェクトオリエンテッド」を「未知語」として認識する。そして、認識した未知語を、図8に示すような未知語リスト800に作成する。
ステップS603において、ステップS601で第一言語を第二言語に翻訳した文章と同一の第一言語(日)の文章を、第一言語第三言語翻訳部15で翻訳し、形態素解析結果を取得する。すなわち、入力部11によって入力された第一言語(日)の文章、原文701「彼はオブジェクトオリエンテッドランゲージを勉強している。」を、第一言語第三言語翻訳部15が翻訳する。翻訳結果は、日英翻訳文705「He is studying object oriented language.」となる。また、翻訳の過程で実行される形態素解析の結果として、原文形態素1201「/彼/は/オブジェクトオリエンテッドランゲージ/を/勉強/し/て/いる/。/」を取得する。
ステップS604において、ステップS601で第一言語第二言語翻訳部12が実行した形態素解析の結果、原文形態素1201「/彼/は/オブジェクトオリエンテッドランゲージ/を/勉強/し/て/いる/。/」に基づいて、図13に示すような第一言語形態素リスト1300を作成する。
そして、未知語リスト800に登録された未知語を順にステップS606以降の処理の対象とするため、ステップS605において、未知語リスト800の終わりか否かを判断する。未知語リスト800には、図8に示すように、1個の未知語704「オブジェクトオリエンテッド」が格納されている。最初のステップS605において、未知語リスト800の1番目の未知語704「オブジェクトオリエンテッド」が処理の対象となっている。未知語リスト800の終わりではないと判断される。よって、ステップS606へ進む(ステップS605:No)。
ステップS606において、第一言語形態素リスト1300の終わりか否かを判断する。第一言語形態素リスト1300には、図13に示すように、9個の第一言語形態素1301「彼」、1302「は」、1202「オブジェクトオリエンテッドランゲージ」、1303「を」、1304「勉強」、1305「し」、1306「て」、1307「いる」、1308「。」が格納されている。最初のステップS606において、第一言語形態素リスト1300の1番目の第一言語形態素1301「彼」が処理の対象となっている。第一言語形態素リスト1300の終わりではないと判断される。よって、ステップS607へ進む(ステップS606:No)。
ステップS607において、未知語リスト800の未知語704「オブジェクトオリエンテッド」と、第一言語形態素リスト1300の第一言語形態素1301「彼」が同一か否かを判断する。同一表記ではないので、ステップS608へ進む(ステップS607:No)。
ステップS608において、未知語704「オブジェクトオリエンテッド」が第一言語形態素1301「彼」に包含されているか否かを判断する。包含されていないので、第一言語形態素リスト1300中の次の第一言語形態素1302「は」を処理対象としてステップS606に戻る。
第一言語形態素1301「彼」と同様に、第一言語形態素1302「は」についてステップS606以降の処理を実行する。そして、第一言語形態素リスト1300中の3番目の未知語形態素1202「オブジェクトオリエンテッドランゲージ」を処理対象としてステップS606に戻る。
同様に、ステップS606からステップ607へ進む。
ステップS607において、未知語リスト800の未知語704「オブジェクトオリエンテッド」と、第一言語形態素リスト1300の未知語形態素1202「オブジェクトオリエンテッドランゲージ」は同一でないので、ステップS608へ進む(ステップS607:No)。
ステップS608において、未知語が形態素に包含されているか否かを判断する。未知語704「オブジェクトオリエンテッド」は、未知語形態素1202「オブジェクトオリエンテッドランゲージ」に包含されている。すなわち、未知語704「オブジェクトオリエンテッド」と未知語形態素1202「オブジェクトオリエンテッドランゲージ」が同一ではなく(ステップS607:No)、未知語704「オブジェクトオリエンテッド」が未知語形態素1202「オブジェクトオリエンテッドランゲージ」に包含されているので(ステップS608:Yes)、ステップS610において、包含部分以外で対応する第三言語(英)を検索する。包含されているのは「オブジェクトオリエンテッド」であるので、包含部分以外は「ランゲージ」であり、対応する第三言語(英)「language」が検索される。
ステップS611において、未知語形態素1202「オブジェクトオリエンテッドランゲージ」に対応する未知語形態素対応英語1203「object oriented language」から、ステップS610で検索した検索部分の第三言語(英)「language」を除去し、残りの未知語対応英語1204「object oriented」を未知語704「オブジェクトオリエンテッド」に対応する第三言語表記とする。この未知語対応英語1204「object oriented」は、第三言語表記リストに格納される。この時点で、第三言語表記リストには、1つの未知語対応英語1204「object oriented」が格納される。
そして、ステップS606に戻り、第一言語形態素1303「を」、1304「勉強」、1305「し」、1306「て」、1307「いる」、1308「。」について、同様にステップS606以降の処理を実行する。第一言語形態素1308「。」について、同様の処理を実行した後、ステップS606に戻ると、第一言語形態素リスト1300の終わりであると判断される。よって、ステップS605へ戻る(ステップS606:Yes)。
そして、ステップS605では、未知語リスト800に登録されているレコードは、未知語704「オブジェクトオリエンテッド」のみであるので、未知語リスト800の終わりであると判断される(ステップS605:Yes)。よって、未知語第三言語切り出し処理は終了する。
機械翻訳にとって未知語の存在は翻訳品質を著しく低下させる主要因である。特に、辞書登録語数の少ないマイナー言語間の翻訳システムでの未知語の問題は深刻である。上記機械翻訳処理により、未知語の発生頻度を低減することが可能となり、機械翻訳品質が大きく向上する。
次に、図14を用いて、第2の実施の形態を説明する。
図14は、第2の実施の形態の機械翻訳装置2の構成を示す図である。
図14において、機械翻訳装置2は、第1の実施の形態における機械翻訳装置1が備える入力部11、第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、未知語認識部14、第一言語第三言語翻訳部15、第一言語第三言語対訳辞書16、第三言語形態素解析部17、未知語第三言語切り出し部18、第三言語第一言語辞書引き部19、代替表記生成部20、入力文修正部21、及び出力部22に加え、候補ランキング部141を備える。
候補ランキング部141は、代替表記生成部20が生成した未知語の代替表記を、所定の優先度にしたがってランク付けする。例えば、使用頻度の高い代替表記の優先度を高くし、使用頻度の低い代替表記の優先度を低くする。また、インターネットなどの外部ネットワークを介して接続されるワールドワイドウェブ(World Wide Web)等の大規模コーパスを代替表記で検索し、そのヒット件数でランク付けを行ってもよい。
そして、入力文修正部21は、入力部11で入力された第一言語(日)の文章のうち、未知語認識部14によって認識した未知語を、候補ランキング部141によってランク付けされた代替表記のうち優先度の高い代替表記に置き換えることにより、入力された第一言語(日)の文章を修正する。
これにより、代替表記生成部20が生成した代替表記の候補が、滅多に読み書きしない表現になる場合であっても、珍しい表現よりも日常的に多用される表現が優先され、翻訳結果も一般語に近くなることで翻訳品質が高まる。
次に、図15を用いて、第3の実施の形態を説明する。
図15は、第3の実施の形態の機械翻訳装置3の構成を示す図である。
図15において、機械翻訳装置3は、入力部11、第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、未知語認識部14、複数の第一言語第三言語翻訳部15A乃至15C、複数の第一言語第三言語対訳辞書16A乃至16C、複数の第三言語形態素解析部17A乃至17C、未知語第三言語切り出し部18、複数の第三言語第一言語辞書引き部19A乃至19C、代替表記生成部20、入力文修正部21、及び出力部22備える。
入力部11、第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、未知語認識部14、未知語第三言語切り出し部18、代替表記生成部20、入力文修正部21、及び出力部22は、第1の実施の形態における機械翻訳装置1が備える入力部11等と同様である。
複数の第一言語第三言語翻訳部15A乃至15Cは、入力部11で入力された第一言語(日)の文章を、形態素解析し、第一言語第三言語対訳辞書16A乃至16Cの何れかを参照して、第一言語(日)及び第二言語(中)とは異なる第三言語(英)の文章に翻訳するが、形態素解析の手法又は翻訳の手法がそれぞれ異なる。
複数の第一言語第三言語対訳辞書16A乃至16Cは、第一言語(日)の少なくとも1つの表現に対して、少なくとも1つの第三言語(英)の表現が対応付けて登録されているが、コンテンツがそれぞれ異なる。
複数の第三言語形態素解析部17A乃至17Cは、第三言語(英)の文章を複数の形態素に分割するが、形態素解析の手法がそれぞれ異なる。
複数の第三言語第一言語辞書引き部19A乃至19Cは、第一言語第三言語対訳辞書16A乃至16Cの何れかを参照して、第三言語(英)の単語に対応する第一言語(日)の単語を検索するが、翻訳の手法がそれぞれ異なる。
これにより、未知語の発生頻度を更に低減することが可能となり、機械翻訳品質が更に大きく向上する。
次に、図16を用いて、第4の実施の形態を説明する。
図16は、第4の実施の形態の構成を示す図である。
図16において、機械翻訳装置1は、インターネット等の通信ネットワーク1600を介して端末装置1601A及び端末装置1601Bと接続されている。
このように構成されることにより、翻訳対象の第一言語の文章は、通信ネットワーク1600を介した端末装置1601A又は端末装置1601Bから、機械翻訳装置1が備える入力部11に入力される。そして、機械翻訳装置1が備える第一言語第二言語翻訳部12によって翻訳された第二言語の文章は、通信ネットワーク1600を介して端末装置1601A又は端末装置1601Bに出力される。
これにより、インターネット等の通信ネットワーク1600を介して、誰でも機械翻訳装置1を使用することができる。
なお、機械翻訳装置1の代わりに、機械翻訳装置2又は機械翻訳装置3が、インターネット等の通信ネットワーク1600を介して端末装置1601A及び端末装置1601Bと接続されている構成でもよい。
次に、図17を用いて、第5の実施の形態を説明する。
図17は、第5の実施の形態の構成を示す図である。
図17において、機械翻訳装置1が備える第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、第一言語第三言語翻訳部15、第一言語第三言語対訳辞書16、第三言語形態素解析部17、又は第三言語第一言語辞書引き部19は、インターネット等の通信ネットワーク1600を介して外部から組み込まれる。
次に、図18を用いて、第6の実施の形態を説明する。
図18は、第6の実施の形態の機械翻訳装置4の構成を示す図である。
図18において、機械翻訳装置4は、内部で備える第一言語第二言語翻訳部12、第一言語第二言語対訳辞書13、第一言語第三言語翻訳部15、第一言語第三言語対訳辞書16、第三言語形態素解析部17、又は第三言語第一言語辞書引き部19の代わりに、インターネット等の通信ネットワーク1600で接続された外部に設置されているものを使用する。
以上、本発明の実施の形態を説明してきたが、上述の機械翻訳装置1、2、3、4は、通常の情報処理装置(コンピュータ)を使用して実現することができる。すなわち、機械翻訳装置1、2、3、4は、CPU、RAMやROM等のメモリ、入力装置、出力装置、外部記録装置、媒体駆動装置、及びネットワーク接続装置を備える。また、これらはバスにより互いに接続されている。
メモリは、機械翻訳装置1、2、3、4に用いられるプログラム及びデータを格納する。CPUは、メモリを利用してプログラムを実行することにより、上述の機械翻訳処理を実行する。
入力装置は、例えば、キーボード、ポインティングデバイス等であり、ユーザからの指示や情報の入力に用いられる。出力装置は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。
外部記録装置は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。この外部記録装置には、ハードディスクドライブも含まれる。機械翻訳装置1、2、3、4は、この外部記録装置にプログラム及びデータを格納しておき、それらをメモリにロードして使用することができる。
媒体駆動装置は、可搬型記録媒体を駆動し、その記録内容にアクセスする。可搬型記録媒体は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。この可搬型記録媒体には、CD−ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等も含まれる。ユーザは、この可搬型記録媒体にプログラム及びデータを格納しておき、それらをメモリにロードして使用することができる。
このように、機械翻訳処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体には、メモリ、外部記録装置、及び可搬型記録媒体のような、物理的な(非一時的な)記録媒体が含まれる。
ネットワーク接続装置は、LAN(Local Area Network)等の有線または無線の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。機械翻訳装置1、2、3、4は、プログラム及びデータを外部の装置からネットワーク接続装置を介して受け取り、それらをメモリにロードして使用することができる。
例えば、外部記録装置に格納したプログラムやデータは、機械翻訳装置1、2、3、4のメモリにロードされる。また、ネットワーク接続装置を介して接続可能な外部装置は、プログラムやデータを搬送する搬送信号を生成し、通信ネットワーク上の任意の伝送媒体を介して機械翻訳装置1、2、3、4に送信する。
開示した実施の形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができる。
1、2、3、4 機械翻訳装置
11 入力部
12 第一言語第二言語翻訳部
13 第一言語第二言語対訳辞書
14 未知語認識部
15、15A、15B、15C 第一言語第三言語翻訳部
16、16A、16B、16C 第一言語第三言語対訳辞書
17、17A、17B、17C 第三言語形態素解析部
18 未知語第三言語切り出し部
19、19A、19B、19C 第三言語第一言語辞書引き部
20 代替表記生成部
21 入力文修正部
22 出力部
141 候補ランキング部
701 原文
702 日中翻訳文
703、1201 原文形態素
704 未知語
705 日英翻訳文
706、1202 未知語形態素
707、1204 未知語対応英語
708 未知語対応英語形態素
709、710 英語形態素対応日本語
711 代替表記
712 修正後原文
713 修正後日中翻訳文
800 未知語リスト
900、1300 第一言語形態素リスト
901、902、903、904、905、906、907、908、909、1301、1302、1303、1304、1305、1306、1307、1308 第一言語形態素
1203 未知語形態素対応英語
1600 通信ネットワーク
1601A、1601B 端末装置

Claims (8)

  1. 翻訳対象の第一言語の文章を入力する入力手段と、
    前記第一言語の少なくとも1つの表現に対して少なくとも1つの第二言語の表現が対応付けて登録されている第一言語第二言語対訳辞書と、
    前記入力手段で入力された前記第一言語の文章を形態素解析し、前記第一言語第二言語対訳辞書を参照して、前記第一言語とは異なる翻訳目的の第二言語の文章に翻訳する第一言語第二言語翻訳手段と、
    前記第一言語第二言語翻訳手段による翻訳結果と形態素解析結果に基づいて、前記第一言語第二言語対訳辞書に前記第二言語の表現が登録されていない未知語を認識する未知語認識手段と、
    前記第一言語の少なくとも1つの表現に対して前記第一言語及び前記第二言語とは異なる少なくとも1つの第三言語の表現が対応付けて登録されている第一言語第三言語対訳辞書と、
    前記入力手段で入力された前記第一言語の文章を形態素解析し、前記第一言語第三言語対訳辞書を参照して、前記第三言語の文章に翻訳する第一言語第三言語翻訳手段と、
    前記第一言語第三言語翻訳手段によって翻訳された前記第三言語の文章のうち、前記未知語認識手段によって認識された未知語に対応する第三言語を切り出す未知語第三言語切り出し手段と、
    前記未知語第三言語切り出し手段によって切り出された前記第三言語を複数の形態素に分割する第三言語形態素解析手段と、
    前記第一言語第三言語対訳辞書を参照して、前記分割された形態素に対応する前記第一言語の単語を検索する第三言語第一言語辞書引き手段と、
    前記第三言語第一言語辞書引き手段を用いて、前記分割された複数の形態素に対応する前記第一言語の複数の単語を組み合わせることにより、前記未知語認識手段によって認識した前記未知語の代替表記を生成する代替表記生成手段と、
    前記入力手段で入力された前記第一言語の文章のうち、前記未知語認識手段によって認識した未知語を、前記代替表記生成手段によって生成した前記代替表記に置き換えることにより、前記入力された前記第一言語の文章を修正する入力文修正手段と、
    を備え、
    前記第一言語第二言語翻訳手段は、前記入力文修正手段によって修正された第一言語の文章を第二言語の文章に翻訳することを特徴とする機械翻訳装置。
  2. 前記代替表記生成手段が生成した前記未知語の代替表記を、所定の優先度にしたがってランク付けする候補ランキング手段、を備え、
    前記入力文修正手段は、前記入力手段によって入力された前記第一言語の文章のうち、前記未知語認識手段によって認識した前記未知語を、前記候補ランキング手段によってランク付けされた代替表記のうち優先度の高い代替表記に置き換えることにより、前記入力手段によって入力された第一言語の文章を修正することを特徴とする請求項1に記載の機械翻訳装置。
  3. 前記第一言語第三言語対訳辞書は、複数の辞書で構成されていることを特徴とする請求項1又は2に記載の機械翻訳装置。
  4. 通信ネットワークを介した端末装置から、前記第一言語の文章を前記入力手段に入力し、
    前記第一言語第二言語翻訳手段によって翻訳された前記第二言語の文章を、前記通信ネットワークを介して前記端末装置に出力する、
    ことを特徴とする請求項1乃至3の何れか1項に記載の機械翻訳装置。
  5. 前記第一言語第二言語翻訳手段、前記第一言語第二言語対訳辞書、前記第一言語第三言語翻訳手段、前記第一言語第三言語対訳辞書、前記第三言語形態素解析手段、又は前記第三言語第一言語辞書引き手段は、通信ネットワークを介して外部から組み込まれることを特徴とする請求項1乃至4の何れか1項に記載の機械翻訳装置。
  6. 前記第一言語第二言語翻訳手段、前記第一言語第二言語対訳辞書、前記第一言語第三言語翻訳手段、前記第一言語第三言語対訳辞書、前記第三言語形態素解析手段、又は前記第三言語第一言語辞書引き手段は、通信ネットワークで接続された外部に設置されていることを特徴とする請求項1乃至4の何れか1項に記載の機械翻訳装置。
  7. 機械翻訳装置のコンピュータに、
    翻訳対象の第一言語の文章を入力させ、
    前記入力された前記第一言語の文章を形態素解析し、前記第一言語の少なくとも1つの表現に対して少なくとも1つの第二言語の表現が対応付けて登録されている第一言語第二言語対訳辞書を参照して、前記第一言語とは異なる翻訳目的の第二言語の文章に翻訳させ、
    前記第一言語から前記第二言語翻訳への翻訳結果と形態素解析結果に基づいて、前記第一言語第二言語対訳辞書に前記第二言語の表現が登録されていない未知語を認識させ、
    前記入力された前記第一言語の文章を形態素解析し、前記第一言語の少なくとも1つの表現に対して前記第一言語及び前記第二言語とは異なる少なくとも1つの第三言語の表現が対応付けて登録されている第一言語第三言語対訳辞書を参照して、前記第三言語の文章に翻訳させ、
    前記第一言語から前記第三言語への翻訳によって翻訳された前記第三言語の文章のうち、前記認識された未知語に対応する第三言語を切り出させ、
    前記切り出された前記第三言語を複数の形態素に分割させ、
    前記第一言語第三言語対訳辞書を参照して、前記分割された形態素に対応する前記第一言語の単語を検索させ、
    前記分割された複数の形態素に対応する前記第一言語の複数の単語を組み合わせることにより、前記認識した前記未知語の代替表記を生成させ、
    前記入力された前記第一言語の文章のうち、前記認識した未知語を前記生成した前記代替表記に置き換えることにより、前記入力された前記第一言語の文章を修正させ、
    前記修正された第一言語の文章を第二言語の文章に翻訳させる、
    ことを特徴とする機械翻訳プログラム。
  8. 機械翻訳方法において、
    機械翻訳装置が、
    翻訳対象の第一言語の文章を入力し、
    前記入力された前記第一言語の文章を形態素解析し、前記第一言語の少なくとも1つの表現に対して少なくとも1つの第二言語の表現が対応付けて登録されている第一言語第二言語対訳辞書を参照して、前記第一言語とは異なる翻訳目的の第二言語の文章に翻訳し、
    前記第一言語から前記第二言語翻訳への翻訳結果と形態素解析結果に基づいて、前記第一言語第二言語対訳辞書に前記第二言語の表現が登録されていない未知語を認識し、
    前記入力された前記第一言語の文章を形態素解析し、前記第一言語の少なくとも1つの表現に対して前記第一言語及び前記第二言語とは異なる少なくとも1つの第三言語の表現が対応付けて登録されている第一言語第三言語対訳辞書を参照して、前記第三言語の文章に翻訳し、
    前記第一言語から前記第三言語への翻訳によって翻訳された前記第三言語の文章のうち、前記認識された未知語に対応する第三言語を切り出し、
    前記切り出された前記第三言語を複数の形態素に分割し、
    前記第一言語第三言語対訳辞書を参照して、前記分割された形態素に対応する前記第一言語の単語を検索し、
    前記分割された複数の形態素に対応する前記第一言語の複数の単語を組み合わせることにより、前記認識した前記未知語の代替表記を生成し、
    前記入力された前記第一言語の文章のうち、前記認識した未知語を前記生成した前記代替表記に置き換えることにより、前記入力された前記第一言語の文章を修正し、
    前記修正された第一言語の文章を第二言語の文章に翻訳する、
    ことを特徴とする機械翻訳方法。
JP2013219656A 2013-10-22 2013-10-22 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 Active JP6160438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013219656A JP6160438B2 (ja) 2013-10-22 2013-10-22 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013219656A JP6160438B2 (ja) 2013-10-22 2013-10-22 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Publications (2)

Publication Number Publication Date
JP2015082204A true JP2015082204A (ja) 2015-04-27
JP6160438B2 JP6160438B2 (ja) 2017-07-12

Family

ID=53012774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013219656A Active JP6160438B2 (ja) 2013-10-22 2013-10-22 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法

Country Status (1)

Country Link
JP (1) JP6160438B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069000A (zh) * 2015-08-24 2015-11-18 中译语通科技(北京)有限公司 一种交互式预测输入法
JP5981616B1 (ja) * 2015-07-28 2016-08-31 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム
WO2020255553A1 (ja) * 2019-06-17 2020-12-24 株式会社Nttドコモ 生成装置、及び正規化モデル

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102516363B1 (ko) 2018-01-26 2023-03-31 삼성전자주식회사 기계 번역 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018350A (ja) * 2003-06-25 2005-01-20 Toshiba Corp 翻訳処理システム、翻訳処理方法及びプログラム
JP2007052700A (ja) * 2005-08-19 2007-03-01 Toshiba Corp 機械翻訳装置および機械翻訳プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018350A (ja) * 2003-06-25 2005-01-20 Toshiba Corp 翻訳処理システム、翻訳処理方法及びプログラム
JP2007052700A (ja) * 2005-08-19 2007-03-01 Toshiba Corp 機械翻訳装置および機械翻訳プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981616B1 (ja) * 2015-07-28 2016-08-31 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム
WO2017018410A1 (ja) * 2015-07-28 2017-02-02 株式会社富士通ビー・エス・シー 料理内容提供方法、情報処理装置および料理内容提供プログラム
CN105069000A (zh) * 2015-08-24 2015-11-18 中译语通科技(北京)有限公司 一种交互式预测输入法
WO2020255553A1 (ja) * 2019-06-17 2020-12-24 株式会社Nttドコモ 生成装置、及び正規化モデル
JP7447114B2 (ja) 2019-06-17 2024-03-11 株式会社Nttドコモ 生成装置、及び正規化モデル

Also Published As

Publication number Publication date
JP6160438B2 (ja) 2017-07-12

Similar Documents

Publication Publication Date Title
JP5235344B2 (ja) 機械翻訳を行う装置、方法およびプログラム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006268375A (ja) 翻訳メモリシステム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
CN100454294C (zh) 用于将日文翻译成中文的设备
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
Jamro Sindhi language processing: A survey
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP4875040B2 (ja) 機械翻訳システム及び機械翻訳プログラム
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JP4845921B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP2016189154A (ja) 翻訳方法、装置、及びプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP2007004446A (ja) 機械翻訳装置、その方法およびプログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP3982726B2 (ja) 翻訳知識学習装置及び機械翻訳装置
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP2011186507A (ja) 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
KR20180054236A (ko) 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6160438

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150