JP6620934B2 - 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム - Google Patents

翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム Download PDF

Info

Publication number
JP6620934B2
JP6620934B2 JP2016016025A JP2016016025A JP6620934B2 JP 6620934 B2 JP6620934 B2 JP 6620934B2 JP 2016016025 A JP2016016025 A JP 2016016025A JP 2016016025 A JP2016016025 A JP 2016016025A JP 6620934 B2 JP6620934 B2 JP 6620934B2
Authority
JP
Japan
Prior art keywords
phrase
translation
score
pair
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016016025A
Other languages
English (en)
Other versions
JP2017134754A (ja
Inventor
山内 真樹
真樹 山内
菜々美 藤原
菜々美 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016016025A priority Critical patent/JP6620934B2/ja
Priority to CN201611195288.8A priority patent/CN107066452B/zh
Priority to US15/391,354 priority patent/US10055404B2/en
Publication of JP2017134754A publication Critical patent/JP2017134754A/ja
Application granted granted Critical
Publication of JP6620934B2 publication Critical patent/JP6620934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Description

本発明は、フレーズテーブルを用いる機械翻訳を支援する技術に関する。
機械翻訳の一種として、統計的機械翻訳がある。例えば、特許文献1は、入力文中の句に対して予め構築されたフレーズテーブルによりファジーマッチングを行うステップを具備することを特徴とするフレーズベースの統計的機械翻訳方法を開示している。
特開2010−61645号公報
しかしながら、上記特許文献1の技術に対して、翻訳精度に関し、更なる改善が望まれる。
上記課題を解決するために、本発明の一態様である翻訳支援方法は、第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援する方法であって、前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶ステップを備える。
上記態様により、さらなる改善が実現できる。
本発明に係る一形態に適用される統計的機械翻訳システムを説明するブロック図である。 フレーズテーブルの具体例を説明する説明図である。 原文と三つ翻訳候補文とを説明する説明図である。 本実施形態に係る翻訳システムの機能ブロック図である。 本実施形態に係る翻訳システムの動作を説明するフローチャートである。 形態素に分解された原文の一例を説明する説明図である。 機械翻訳部によって生成されたデータ構造の一例を説明する説明図である。 翻訳結果情報の一例を説明する説明図である。 五つの翻訳候補文のそれぞれの形態素解析の結果を説明する説明図である。 形態素の評価結果を説明する説明図である。 評価部によって探索されたフレーズペアの組み合わせを説明する説明図である。 フレーズペアの評価結果を説明する説明図である。
以下で説明する実施の形態は、本発明の一具体例を示すものである。以下の実施の形態で示される数値、構成要素、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(本発明に至った知見)
図1は、本発明に係る一形態に適用される統計的機械翻訳システム1を説明するブロック図である。統計的機械翻訳システム1は、対訳コーパス2、単言語コーパス3、翻訳モデル4、言語モデル5及びデコーダ6を備える。対訳コーパス2は、領域別、言語ペア別にそれぞれ用意されている。領域とは、例えば、旅行領域、医療領域である。言語ペアとは、例えば、日本語と英語とのペア、日本語と中国語とのペアである。
統計的機械翻訳システム1は、事前に、対訳コーパス2を学習して翻訳モデル4を生成し、かつ、単言語コーパス3を学習して言語モデル5を生成する。デコーダ6は、入力文(原文)に対して、翻訳モデル4と言語モデル5との組み合わせの中から確率が最大となる翻訳候補文を探索し、これを出力文(翻訳文)とする。ビタビ(Viterbi)やビーム探索を用いた最尤推定により、翻訳候補文が探索される。
翻訳モデル4は、フレーズテーブルによって管理される。フレーズテーブルには、フレーズペア、及び、各フレーズペアのスコアが各フレーズペアに対応付けて格納されている。フレーズペアは、第1言語のフレーズと第2言語のフレーズとの対である。スコアは、フレーズペアの出現確率に関する情報である。第1言語が日本語、第2言語が英語とし、この場合のフレーズテーブルの具体例を説明する。図2は、これを説明する説明図である。フレーズテーブル7において、欄1には、日本語フレーズが示され、欄2には、英語フレーズが示され、欄3には、フレーズの英日翻訳確率が示され、欄4には、単語の英日翻訳確率の積が示され、欄5には、フレーズの日英翻訳確率が示され、欄6には、単語の日英翻訳確率の積が示されている。欄3〜欄6に示される値は、それぞれ、スコアと称される。同じ行に位置する日本語フレーズと英語フレーズとがフレーズペアである。図2では、フレーズペア1〜16が示されている。
スコアのうち、フレーズの英日翻訳確率(欄3)を用いて実施形態を説明するので、フレーズの英日翻訳確率(欄3)は、値が示されているが、単語の英日翻訳確率の積(欄4)、フレーズの日英翻訳確率(欄5)、単語の日英翻訳確率の積(欄6)は、値が省略されている。
フレーズの英日翻訳確率(欄3)とは、具体的に説明すると、例えば、日本語フレーズJF1(「あれは」を意味する日本語)が、英語フレーズEF1に翻訳される確率が0.1であり、英語フレーズEF2に翻訳される確率が0.7であり、英語フレーズEF3に翻訳される確率が0.2となる。これらの確率が加算された値は、1となる。
統計的機械翻訳システム1が、原文を翻訳するときに生成した複数の翻訳候補文をユーザーに提示し、複数の翻訳候補文の中から最適な翻訳候補文をユーザーに選択させ、それを基にして学習する態様が考えられる。具体的に説明すると、図3は、原文OSと三つの翻訳候補文TS1,TS2,TS3との関係を説明する説明図である。原文OS(「あれは、ペンです」を意味する日本語)に対する翻訳候補文として、翻訳候補文TS1,TS2,TS3が生成されたとする。
ユーザーが翻訳候補文TS2を選択したとき、統計的機械翻訳システム1は、翻訳候補文TS1において、文節C1を悪い文節、文節C2を良い文節と学習し、翻訳候補文TS3において、文節C3を悪い文節、文節C4を良い文節、文節C5を悪い文節と学習する。
上記学習の結果が、フレーズテーブル7のスコアに反映されれば、統計的機械翻訳システム1の翻訳精度が向上する。
しかし、統計的機械翻訳システム1が、原文を翻訳した場合、翻訳候補文(例えば、翻訳候補文TS1を構成するフレーズペアの組み合わせが、複数発生する。例えば、フレーズペア1,8,11,16の組み合わせや、フレーズペア1,7,15の組み合わせがある。このため、翻訳候補文だけでは、どのフレーズペアの組み合わせによって、その翻訳候補文が生成されたのか分からないので、学習の結果を、フレーズテーブル7のスコアに反映することができない。
そこで、どのフレーズペアの組み合わせによって、翻訳候補文が生成されたのかを特定できるようにするために、以下の改善策を検討した。
翻訳支援方法の一態様は、第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援する方法であって、前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶ステップを備える。
翻訳支援方法の一態様は、翻訳文の候補となる複数の翻訳候補文のそれぞれについて、フレーズテーブルに格納されているフレーズペアの中で、翻訳候補文を生成するのに用いられたフレーズペアの組み合わせを特定する組み合わせ情報を記憶する。よって、翻訳支援方法の一態様によれば、翻訳候補文を生成するのに用いられたフレーズペアの組み合わせを特定することができる。
上記構成において、前記記憶ステップは、複数の前記翻訳候補文のそれぞれを生成するのに用いられた前記フレーズペアの組み合わせに関するデータ構造、及び、前記データ構造において、複数の前記翻訳候補文のそれぞれを生成するのに用いられた前記フレーズペアの組み合わせを得ることができるパスを、前記組み合わせ情報として記憶する。
この構成は、組み合わせ情報の一例である。
上記構成において、前記フレーズテーブルには、前記フレーズペアの出現確率に関する情報であるスコアが、前記フレーズテーブルに格納されている前記フレーズペアのそれぞれに対応付けて格納されており、前記翻訳支援方法は、複数の前記翻訳候補文の中から最適な前記翻訳候補文を、ユーザーに選択させる選択ステップと、前記選択ステップで選択されなかった前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを、前記記憶ステップで記憶された前記組み合わせ情報を用いて特定する特定ステップと、前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記スコアを調節するための評価をする評価ステップと、をさらに備える。
この構成は、スコアを調節するための前提として、選択ステップで選択されなかった翻訳候補文を生成するのに用いられたフレーズペアのそれぞれに対して、スコアを調節するための評価をする。
上記構成において、前記評価ステップは、前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記選択ステップで選択された前記翻訳候補文に含まれる要素と比較することにより、所定の基準を用いて、前記スコアを上げるべき前記フレーズペアについては、前記スコアを上げるべき評価をし、前記スコアを下げるべき前記フレーズペアについては、前記スコアを下げるべき評価をする。
この構成は、評価ステップの一態様である。翻訳候補文が、例えば、形態素解析によって分解されたとき、形態素が要素となる。また、翻訳候補文が、例えば、構文解析によって分解されたとき、主語、述語、補語、目的語等が要素となる。スコアを上げるべき評価をする場合の基準、及び、スコアを下げるべき評価をする場合の基準としては、様々な基準が考えられる。これらの基準を考えることは当業者であれば容易なので、所定の基準としている。実施形態では、所定の基準として、後で説明する(1)〜(7)の基準を例示している。
上記構成において、前記スコアを上げるべき評価がされた前記フレーズペアに対応づけられた前記スコアを上げる第1の処理、及び、前記スコアを下げるべき評価がされた前記フレーズペアに対応づけられた前記スコアを下げる第2の処理のうち、少なくとも一方の処理をするスコア調節ステップを、さらに備える。
この構成によれば、評価ステップでの評価に基づいて、選択ステップで選択されなかった翻訳候補文を生成するのに用いられたフレーズペアのスコアを調節するので、機械翻訳の翻訳精度を向上させることができる。スコアを上げる第1の処理及びスコアを下げる第2の処理のうち、少なくとも一方の処理としたのは、両方の処理がされても、機械翻訳の精度が向上するし、片方の処理だけでも機械翻訳の精度が向上するからである。
上記構成において、前記スコア調節ステップが前記第1の処理をする場合、前記第1の処理がされる前記フレーズペアの前記スコアと、前記第1の処理がされる前記フレーズペアと前記第1言語が同じである他のフレーズペアの前記スコアとのばらつきに応じて、前記第1の処理に用いられる第1の所定値を設定する第1の設定ステップを、さらに備え、前記スコア調節ステップは、前記第1の設定ステップで設定された前記第1の所定値を用いて、前記第1の処理をする。
この構成によれば、第1の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきに応じて、第1の処理に用いられる第1の所定値を変えることができる。このため、第1の処理に用いられる第1の所定値が固定値の態様と比べて、翻訳精度を向上させることが可能となる。
第1の所定値の設定について詳しく説明する。第1の設定ステップは、第1の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきが比較的大きいとき、第1の処理がされるフレーズペアのスコアが比較的大きく変化するように第1の所定値を設定し、このばらつきが比較的小さいとき、第1の処理がされるフレーズペアのスコアが比較的小さく変化するように第1の所定値を設定する。この逆でもよい。すなわち、第1の設定ステップは、第1の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきが比較的大きいとき、第1の処理がされるフレーズペアのスコアが比較的小さく変化するように第1の所定値を設定し、このばらつきが比較的小さいとき、第1の処理がされるフレーズペアのスコアが比較的大きく変化するように第1の所定値を設定する。
上記構成において、前記スコア調節ステップが前記第2の処理をする場合、前記第2の処理がされる前記フレーズペアの前記スコアと、前記第2の処理がされる前記フレーズペアと前記第1言語が同じである他のフレーズペアの前記スコアとのばらつきに応じて、前記第2の処理に用いられる第2の所定値を設定する第2の設定ステップを、さらに備え、前記スコア調節ステップは、前記第2の設定ステップで設定された前記第2の所定値を用いて、前記第2の処理をする。
この構成によれば、第2の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきに応じて、第2の処理に用いられる第2の所定値を変えることができる。このため、第2の処理に用いられる第2の所定値が固定値の態様と比べて、翻訳精度を向上させることが可能となる。
第2の所定値の設定について詳しく説明する。第2の設定ステップは、第2の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきが比較的大きいとき、第2の処理がされるフレーズペアのスコアが比較的大きく変化するように第2の所定値を設定し、このばらつきが比較的小さいとき、第2の処理がされるフレーズペアのスコアが比較的小さく変化するように第2の所定値を設定する。この逆でもよい。すなわち、第2の設定ステップは、第2の処理がされるフレーズペアのスコアと、このフレーズペアと第1言語が同じである他のフレーズペアのスコアとのばらつきが比較的大きいとき、第2の処理がされるフレーズペアのスコアが比較的小さく変化するように第2の所定値を設定し、このばらつきが比較的小さいとき、第2の処理がされるフレーズペアのスコアが比較的大きく変化するように第2の所定値を設定する。
上記構成において、前記記憶ステップは、複数の前記翻訳候補文のそれぞれについて、前記スコアを基にして算出した翻訳結果に関する数値情報を記憶し、前記翻訳支援方法は、前記スコア調節ステップ後の前記フレーズテーブルを用いて、前記原文を再翻訳することにより、前記翻訳文の候補となる複数の前記翻訳候補文を再び生成し、再び生成した複数の前記翻訳候補文のそれぞれについて、前記スコア調節ステップ後の前記フレーズテーブルの前記スコアを基にして算出した前記数値情報を生成する再翻訳ステップと、前記記憶ステップで記憶された前記数値情報と、前記再翻訳ステップで生成された前記数値情報とを比較し、予め定められた基準を満たすか否かを判定する比較ステップと、前記予め定められた基準を満たすと判定されたとき、前記スコア調節ステップを再び実行する再実行ステップと、をさらに備える。
翻訳結果に関する数値情報とは、例えば、n−best順位である。予め定められた基準を満たす場合とは、例えば、記憶ステップで記憶されたn−best順位と、再翻訳ステップで生成されたn−best順位とを比較して、順位に変化がない場合である。この構成によれば、記憶ステップで記憶された数値情報と、再翻訳ステップで生成された数値情報とを比較し、予め定められた基準を満たすと判定したとき、スコア調節ステップを再び実行する。従って、翻訳精度を向上させることができる。
翻訳支援装置の一態様は、第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援する装置であって、前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶部を備える。
翻訳支援装置の一態様は、翻訳支援方法の一態様と同様の作用効果を有する。
翻訳装置の一態様は、第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルと、前記フレーズテーブルを用いて、前記第1言語の原文から前記第2言語の翻訳文を生成するために、前記翻訳文の候補となる複数の翻訳候補文を生成する機械翻訳部と、前記機械翻訳部が生成した複数の前記翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶部と、を備える。
翻訳装置の一態様は、翻訳支援方法の一態様と同様の作用効果を有する。
翻訳支援プログラムの一態様は、第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援するプログラムであって、前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶ステップを、コンピュータに実行させる。
翻訳支援プログラムの一態様は、翻訳支援方法の一態様と同様の作用効果を有する。
(実施の形態)
以下、図面に基づいて本発明の実施の形態を詳細に説明する。第1言語が日本語、第2言語が英語の組み合わせで説明するが、第1言語と第2言語との組み合わせは、これに限定されない。図4は、本実施形態に係る翻訳システム10の機能ブロック図である。翻訳システム10は、統計的機械翻訳を用いて翻訳をする。翻訳システム10は、ユーザー端末11及びサーバー12により構成される。翻訳システム10は、機能ブロックとして、原文入力部13、機械翻訳部14、翻訳候補文出力部15、選択部16、翻訳モデル17、翻訳情報記憶部18、評価部19、スコア調節部20、言語処理部21、再翻訳部22、翻訳結果比較部23、スコア再調節決定部24及び重み設定部25を備える。
原文入力部13、機械翻訳部14、翻訳候補文出力部15及び選択部16は、ユーザー端末11に備えられる。ユーザー端末11は、例えば、ディスクトップパソコン、ノートパソコン、スマートフォン、タブレット端末である。
翻訳モデル17、翻訳情報記憶部18、評価部19、スコア調節部20、言語処理部21、再翻訳部22、翻訳結果比較部23、スコア再調節決定部24及び重み設定部25は、サーバー12に備えられる。サーバー12は、ユーザー端末11と通信可能であり、翻訳支援装置の一例である。なお、これらの機能ブロックの一部(例えば、翻訳モデル17)が、ユーザー端末11に備えられる態様でもよい。また、翻訳システム10を構成する全ての機能ブロックが、ユーザー端末11に備えられる態様でもよい。後者の態様では、サーバー12が不要となり、ユーザー端末11のみで成立するので、翻訳支援装置を含む翻訳装置となる。
ユーザー端末11に備えられる機能ブロックを説明する。原文入力部13には、ユーザーによって原文が入力される。原文が文字で入力される場合、例えば、キーボード、タッチパネルが原文入力部13となる。原文が音声で入力される場合、マイク及びマイクから入力された音声を認識する音声認識装置が、原文入力部13となる。
機械翻訳部14は、原文入力部13に入力された第1言語の原文を第2言語の翻訳文の候補となる複数の翻訳候補文を生成する。複数の翻訳候補文は、図1で説明した統計的機械翻訳によって生成される。機械翻訳部14は、図1に示すデコーダ6であり、CPU(Central Processing Unit)、RAM(Random Access Memory)及びROM(Read Only Memory)等のハードウェア、並びに、機械翻訳を実行するための各種のソフトウェア等により実現される。
翻訳候補文出力部15は、機械翻訳部14で生成された複数の翻訳候補文を出力する。翻訳候補文が文字で出力される場合、ディスプレイが翻訳候補文出力部15となる。翻訳候補文が音声で出力される場合、スピーカが翻訳候補文出力部15となる。
ユーザーは、選択部16を用いて、翻訳候補文出力部15から出力された複数の翻訳候補文の中から最適な翻訳候補文を選択する。例えば、キーボード、タッチパネルが選択部16となる。最適な翻訳候補文が音声で選択される場合、マイク及びマイクから入力された音声を認識する音声認識装置が選択部16となる。
サーバー12に備えられる機能ブロックを説明する。これらの機能ブロックは、CPU、RAM及びROM等のハードウェア、並びに、機械翻訳を支援するための各種のソフトウェア等により実現される。
翻訳モデル17は、図1に示す翻訳モデル4と対応しており、図2に示すようなフレーズテーブル7によって管理される。機械翻訳部14は、翻訳モデル17を用いて統計的機械翻訳をする。なお、実際の統計的機械翻訳では、翻訳モデル17に加えて図1に示す言語モデル5が必要となるが、本実施形態では、翻訳システム10の説明を簡単にするために、言語モデル5については省略している。
翻訳情報記憶部18は、翻訳情報を記憶する。翻訳情報には、翻訳結果情報及び組み合わせ情報が含まれる。翻訳結果情報は、原文入力部13に入力された原文、機械翻訳部14が生成した複数の翻訳候補文等である。組み合わせ情報は、複数の翻訳候補文のそれぞれについて、フレーズテーブル7に格納されているフレーズペアの中で、翻訳候補文を生成するのに用いられたフレーズペアの組み合わせを特定する情報である。翻訳結果情報及び組み合わせ情報については、後で詳細に説明する。
スコア調節部20は、選択部16で選択された翻訳候補文(すなわち、ユーザーによって判断された最適な翻訳候補文)を基にして、翻訳モデル17を管理するフレーズテーブル7のスコアを調節する。
残りの機能ブロックについては、次に説明する翻訳システム10の動作において、それらの説明をする。
図4及び図5を主に参照して、本実施形態に係る翻訳システム10の動作を説明する。図5は、この動作を説明するフローチャートである。
ユーザーが原文入力部13に原文を入力する(ステップS1)。原文として、図3の原文OSを例にして説明する。
機械翻訳部14は、原文入力部13に入力された原文に対して統計的機械翻訳をする(ステップS2)。詳しく説明すると、ステップS1で原文入力部13に入力された原文を所定の方法で分解する。所定の方法として、形態素解析、構文解析等がある。ここでは、形態素解析を例にして説明する。
機械翻訳部14が、原文を形態素解析することにより、原文は、図6に示す4つの形態素50に分解される。機械翻訳部14は、これら4つの形態素50、及び、翻訳モデル17を管理する図2に示すようなフレーズテーブル7を用いて、原文の翻訳文の候補となる全ての翻訳候補文を得ることができる、図7に示すデータ構造30を生成する。図7は、機械翻訳部14によって生成されたデータ構造30の一例を説明する説明図である。
データ構造30は、木構造を有している。ノードは、フレーズペアである。ここでのフレーズペアは、図2に示すフレーズテーブル7に格納されるフレーズペアの中で、翻訳候補文を生成するのに用いられたフレーズペアである。フレーズペアには、日本語フレーズ、英語フレーズ、スコアが、それぞれ示されている。スコアは、図2の欄3に示す値である。
データ構造30において、翻訳候補文を生成するのに用いられたフレーズペアの組み合わせとして、組み合わせ1〜10が示されている。例えば、組み合わせ1は、フレーズペア1,7,11,16をこの順番に並べた組み合わせである。組み合わせ1による翻訳候補文は、図8に示す翻訳候補文TS4となる。
機械翻訳部14は、データ構造30で示される全ての組み合わせのそれぞれについて、累積確率を計算し、n−best順位を決定する。
機械翻訳部14は、以上を基にして、翻訳結果情報を生成する。図8は、翻訳結果情報40の一例を説明する説明図である。翻訳結果情報40は、原文、並びに、組み合わせのそれぞれについて、累積確率、n−best順位及び翻訳候補文を示す情報である。
累積確率とは、翻訳候補文を生成するのに用いられたフレーズペアのそれぞれのスコア(図2の欄3で示す英日翻訳確率)を掛け算した値である。例えば、組み合わせ1の場合、図7及び図8を参照して、0.112(=0.2×0.8×0.7×1)が累積確率となる。
n−best順位とは、一番大きい累積確率を有する組み合わせからn番目に大きい累積確率を有する組み合わせまでの順位を示す。n−best順位のnは、ここでは、5で説明するが、これに限定されない。機械翻訳部14は、累積確率が高い順に、1番から5番までの順位を確定する。ここでは、組み合わせ7が1番であり、組み合わせ9が2番であり、組み合わせ10が3番であり、組み合わせ2が4番であり、組み合わせ5が5番である。
本実施形態では、n−best順位及び累積確率を、翻訳結果に関する数値情報として説明する。なお、n−best順位のみを翻訳結果に関する数値情報としてもよい。
機械翻訳部14は、翻訳情報を翻訳情報記憶部18に記憶させる(ステップS3)。翻訳情報は、組み合わせ情報及び図8に示す翻訳結果情報40から構成される。組み合わせ情報とは、図7に示すデータ構造30及びパス31である。パス31とは、データ構造30において、n−best順位の1番からn番(ここでは5番)のそれぞれの組み合わせを得ることができるパスである(ここでは、組み合わせ2のパス31、組み合わせ5のパス31、組み合わせ7のパス31、組み合わせ9のパス31、組み合わせ10のパス31)。翻訳結果情報40には、上述した翻訳結果に関する数値情報(累積確率、n−best順位)が含まれる。
翻訳候補文出力部15は、n−best順位の1番からn番(ここでは5番)のそれぞれの組み合わせについて、翻訳候補文を出力する(ステップS4)。ここでは、図8に示す翻訳候補文TS5、翻訳候補文TS6、翻訳候補文TS7、翻訳候補文TS8、翻訳候補文TS9が出力される。翻訳候補文出力部15が、例えば、ユーザー端末11のディスプレイの場合、このディスプレイに、これらの翻訳候補文が表示される。
ユーザーは、選択部16を用いて、ステップS4で出力された五つの翻訳候補文の中で、ステップS1で入力した原文の翻訳文として、最適な翻訳候補文を選択する(ステップS5)。ここでは、図8に示す組み合わせ9で構成される翻訳候補文TS8が選択されたとする。
言語処理部21は、ステップS4で出力された五つの翻訳候補文のそれぞれについて、所定の解析をして、翻訳候補文を複数の要素で分解する(ステップS6)。所定の解析として、形態素解析、構文解析等がある。ここでは、形態素解析を例にして説明する。形態素解析の場合、要素は、形態素となる。図9は、五つの翻訳候補文のそれぞれの形態素解析の結果を説明する説明図である。例えば、組み合わせ7で構成される翻訳候補文TS7は、形態素50a、形態素50b、形態素50c、形態素50dの4つの形態素(要素)に分解される。
評価部19は、ステップS6で分解した形態素のそれぞれについて評価する(ステップS7)。詳しく説明すると、評価部19は、ステップS5で選択されなかった翻訳候補文の形態素について、ステップS5で選択された翻訳候補文TS8の形態素50e、形態素50f、形態素50g、形態素50hと同じ形態素を、良い形態素と評価し、異なる形態素を、悪い形態素と評価し、良い形態素とも悪い形態素とも評価できない形態素を、中立の形態素と評価する。
図10は、形態素の評価結果を説明する説明図である。良い形態素は、○で示し、悪い形態素は、×で示し、中立の形態素は、△で示している。例えば、組み合わせ7で構成される翻訳候補文TS7の形態素のうち、形態素50aは良い形態素と評価され、形態素50bは悪い形態素と評価され、形態素50cは良い形態素と評価され、形態素50dは悪い形態素と評価されている。
評価部19は、ステップS5で選択されなかった翻訳候補文について、翻訳候補文を生成するのに用いられたフレーズペアの組み合わせを特定する(ステップS8)。この特定には、ステップS3で記憶した翻訳情報に含まれる組み合わせ情報が用いられる。組み合わせ情報とは、上述したように、図7に示すデータ構造30、及び、データ構造30において、n−best順位の1番から5番のそれぞれの組み合わせを得ることができるパス31である。
評価部19は、組み合わせ7を得ることができるパス31を用いて、データ構造30を探索する。これにより、フレーズペア2,9,16が得られる。評価部19は、組み合わせ10を得ることができるパス31を用いて、データ構造30を探索する。これにより、フレーズペア4,14が得られる。評価部19は、組み合わせ2を得ることができるパス31を用いて、データ構造30を探索する。これにより、フレーズペア2,7,11,16が得られる。評価部19は、組み合わせ5を得ることができるパス31を用いて、データ構造30を探索する。これにより、フレーズペア2,7,14が得られる。
図11は、評価部19によって探索されたフレーズペアの組み合わせを説明する説明図である。組み合わせ7は、フレーズペア2,9,16の組み合わせである。組み合わせ10は、フレーズペア4,14の組み合わせである。組み合わせ2は、フレーズペア2,7,11,16の組み合わせである。組み合わせ5は、フレーズペア2,7,14の組み合わせである。
評価部19は、図11に示すフレーズペアのそれぞれについて、スコア(例えば、フレーズペア2のスコアは、0.8)を調節するための評価をする(ステップS9)。具体的には、以下のようにして、フレーズペアは評価される。評価部19は、図11に示すフレーズペアのそれぞれについて(すなわち、ステップS8で特定された組み合わせを構成するフレーズペアのそれぞれについて)、ステップS5で選択された翻訳候補文に含まれる形態素(要素)と比較することにより、スコアを上げるべきフレーズペアについては、スコアを上げるべき評価をし、スコアを下げるべきフレーズペアについては、スコアを下げるべき評価をする。
本実施形態では、スコアを上げるべき評価がされたフレーズペアを良いフレーズペア、スコアを下げるべき評価がされたフレーズペアを悪いフレーズペアとし、いずれの評価もできないフレーズペアを中立のフレーズペアとする。良いフレーズ、悪いフレーズ、中立のフレーズに評価される基準は、例えば、以下の通りである。
(1)フレーズペアの英語フレーズが良い形態素のみによって構成されているとき、そのフレーズペアは、良いフレーズペアと評価される。
(2)フレーズペアの英語フレーズが悪い形態素のみによって構成されているとき、そのフレーズペアは、悪いフレーズペアと評価される。
(3)フレーズペアの英語フレーズが無いとき(例えば、図11に示すフレーズペア16)、そのフレーズペアは、中立のフレーズペアと評価される。
(4)フレーズペアの英語フレーズが良い形態素及び中立の形態素によって構成されているとき、そのフレーズペアは、良いフレーズペアと評価される。なお、中立のフレーズペアと評価してもよい。
(5)フレーズペアの英語フレーズが悪い形態素及び中立の形態素によって構成されているとき、そのフレーズペアは、悪いフレーズペアと評価される。なお、中立のフレーズペアと評価してもよい。
(6)フレーズペアの英語フレーズが良い形態素及び悪い形態素によって構成されているとき、又は、フレーズペアの英語フレーズが良い形態素、悪い形態素及び中立の形態素によって構成されているとき、そのフレーズペアは、悪いフレーズペアと評価される。なお、良いフレーズペアと評価してもよい。また、良い形態素の数が悪い形態素の数より多いとき、良いフレーズペアと評価してもよいし、悪い形態素の数が良い形態素の数より多いとき、悪いフレーズペアと評価してもよい。
(7)フレーズペアの英語フレーズが中立の形態素のみによって構成されているとき、そのフレーズペアは、中立のフレーズペアと評価される。
組み合わせ7を例にして具体的に説明する。評価部19は、組み合わせ7について、図10に示す形態素の評価を参照して、図11に示すフレーズペア2,9,16のそれぞれを評価する。フレーズペア2の英語フレーズEF4は、良い形態素のみによって構成されているので、良いフレーズペアと評価される。フレーズペア9の英語フレーズEF5は、悪い形態素50b,50dを含むので、悪いフレーズペアと評価される。フレーズペア16は英語フレーズがないので、中立のフレーズペアと評価される。
図12は、フレーズペアの評価結果を説明する説明図である。良いフレーズペアは、○で示し、悪いフレーズペアは、×で示し、中立のフレーズペアは、△で示している。
なお、ステップS5で選択された翻訳候補文を生成するのに用いられたフレーズペアのそれぞれを、上記と同様にして評価してもよい。この場合、全てのフレーズペアが良いフレーズペアと評価される。
良いフレーズペア、悪いフレーズペア、中立のフレーズペアのスコアに対する処理として、例えば、以下の処理がある。
〈1〉スコア調節部20は、良いフレーズペアのスコアに所定の重みを掛けて、スコアを大きくする。なお、スコア調節部20は、良いフレーズペアのスコアに所定値を足して、スコアを大きくしてもよい。
〈2〉スコア調節部20は、悪いフレーズペアのスコアに所定の重みを掛けて、スコアを小さくする。なお、スコア調節部20は、悪いフレーズペアのスコアから所定値を引いて、スコアを小さくしてもよい。
〈3〉スコア調節部20は、中立のフレーズペアのスコアを維持する。
〈4〉スコア調節部20は、中立のフレーズペアのスコアを、〈1〉と同様にして、大きくする。
〈5〉スコア調節部20は、中立のフレーズペアのスコアを、〈2〉と同様にして、小さくする。
〈6〉スコア調節部20は、〈1〉によって、良いフレーズペアのスコアを大きくしたとき、このフレーズペアの日本語フレーズと同じ日本語フレーズを含むフレーズペアのスコアを小さくして、これらのスコアを足した値を1にする。具体的に説明すると、図2を参照して、スコア調節部20は、例えば、フレーズペア2のスコアを0.9にしたとき、フレーズペア1のスコアを0.1にする。
〈7〉スコア調節部20は、〈2〉によって、悪いフレーズペアのスコアを小さくしたとき、このフレーズペアの日本語フレーズと同じ日本語フレーズを含むフレーズペアのスコアを大きくして、これらのスコアを足した値を1にする。具体的に説明すると、図2を参照して、スコア調節部20は、例えば、フレーズペア9のスコアを0.55にしたとき、フレーズペア10のスコアを0.45にする。
スコア調節部20は、〈1〉〜〈7〉を単独又は組み合わせて、図12に示すフレーズペアのそれぞれについて、スコアを調節する(ステップS10)。これは、一種の翻訳モデル17の学習である。スコア調節部20は、例えば、〈1〉、〈2〉及び〈3〉を用いて、スコアを調節してもよいし、〈1〉のみを用いて、スコアを調節してもよいし、〈2〉のみを用いて、スコアを調節してもよいし、〈1〉及び〈2〉を用いて、スコアを調節してもよいし、〈1〉及び〈4〉を用いて、スコアを調節してもよいし、〈2〉及び〈5〉を用いて、スコアを調節してもよい。
以下では、〈1〉、〈2〉及び〈3〉を用いたスコアの調節について詳しく説明する。良いフレーズペアに対する所定の重みが、例えば、1.2であり、悪いフレーズペアに対する所定の重みが、例えば、0.8とする。図12を参照して、スコア調節部20は、まず、組み合わせ7を構成するフレーズペア2,9,16のスコアを調節する。
スコア調節部20は、フレーズペア2が良いフレーズペアなので、図2に示すフレーズテーブル7において、フレーズペア2のスコアを、0.8から0.96(=0.8×1.2)に上げる。スコア調節部20は、フレーズペア9が悪いフレーズペアなので、フレーズテーブル7において、フレーズペア9のスコアを、0.65から0.52(=0.65×0.8)に下げる。スコア調節部20は、フレーズペア16が中立のフレーズペアなので、フレーズテーブル7において、フレーズペア16のスコアを1に維持する。組み合わせ7を構成するフレーズペア2,9,16のスコア調節後の累積確率は、0.4992(=0.96×0.52×1)となり、図8に示す当初の累積確率(0.520)より小さくなっている。
なお、スコア調節後の累積確率が、ユーザーが選択した翻訳候補文を構成するフレーズペアの累積確率よりも、依然、大きいとき、再度、ステップS10の処理をしてもよい。すなわち、スコア調節部20は、組み合わせ7を構成するフレーズペア2,9,16のスコア調節後の累積確率(0.4992)を、ステップS5で選択された翻訳候補文を構成するフレーズペアのスコアの累積確率(すなわち、図8に示す組み合わせ9を構成するフレーズペアのスコアの累積確率0.490)と比較し、前者が後者より大きいとき、組み合わせ7を構成するフレーズペア2,9,16に対して、再度、ステップS10の処理をする。
スコア調節部20は、残りの組み合わせ(組み合わせ10,2,5)についても、組み合わせ7と同様にして、スコアを調節する。
ステップS10後、再翻訳部22は、ステップS3で記憶された翻訳情報に含まれる原文(すなわち、ステップS1で入力された原文)について、ステップS2と同様の方法を用いて、再翻訳する(ステップS11)。再翻訳では、スコア調節後のフレーズテーブル7が用いられる。この再翻訳において、再翻訳部22は、再び生成した複数の翻訳候補文について、再翻訳結果情報(不図示)を生成する。スコア調節後のフレーズテーブル7を用いて再翻訳されるので、再翻訳結果情報が、図8に示す翻訳結果情報40と異なる可能性があるのは、翻訳結果に関する数値情報(n−best順位、累積確率)である。
なお、機械翻訳部14がステップS11の処理をしてもよい。この場合、翻訳システム10には、再翻訳部22が備えられていない。
翻訳結果比較部23は、図8に示す翻訳結果情報40に含まれるn−best順位と、上記再翻訳結果情報に含まれるn−best順位とを比較し、n−best順位に変化がないか否かを判定する(ステップS12)。n−best順位に変化がない場合は、予め定められた基準を満たす場合の一例である。この替わりに、図8に示す組み合わせ9のn−best順位(すなわち、ステップS5でユーザーによって選択された翻訳候補文のn−best順位)が、再翻訳結果情報に含まれるn−best順位において、1位でない場合や、組み合わせ9のn−best順位が、再翻訳結果情報に含まれるn−best順位において、1位であるが、n−best順位が1位の累積確率と2位の累積確率との差が所定値以下(すなわち、差が僅か)である場合を、予め定められた基準を満たす場合にしてもよい。
翻訳結果比較部23が、n−best順位に変化がないと判定したとき(ステップS12でYes)、スコア再調節決定部24は、スコア調節を再実行する決定をし(ステップS13)、ステップS10に戻る。
翻訳結果比較部23が、n−best順位に変化があると判定したとき(ステップS12でNo)、翻訳システム10の動作が終了する。なお、本実施形態では、ステップS11〜ステップS13を実行したが、ステップS10で翻訳システム10の動作を終了してもよい。
以上説明したように、本実施形態に係る翻訳システム10によれば、機械翻訳部14が生成した複数の翻訳候補文のそれぞれについて、翻訳候補文を生成するのに用いられたフレーズペアを特定できる。従って、複数の翻訳候補文の中から、ユーザーが選択した翻訳候補文を基にして、残りの翻訳候補文を生成するのに用いられたフレーズペアのスコアを調節することができる。
ステップS6で構文解析が用いられた場合について簡単に説明する。言語処理部21は、ステップS4で出力された五つの翻訳候補文のそれぞれについて、構文解析をして、翻訳候補文を複数の要素で分解する。構文解析の場合、例えば、構文を木構造で表現した場合の各ノード(簡単のため、例えば、主語S、述語V、補語C、目的語O等とする)が要素となる。例えば、ステップS5で選択された翻訳候補文TS8(組み合わせ9)は、「that=S」、「is=V」、「a pen=C」に分解される。他の翻訳候補文、例えば、組み合わせ7は、「that=S」、「was=V」、「a pencil=C」に分解される。
ステップS7では、構文解析で得られた要素が評価される。組み合わせ7を例にして説明すると、評価部19は、「that=S」を良い要素、「was=V」を悪い要素、「a pencil=C」を悪い要素と評価する。
評価部19は、形態素解析の場合と同様にして、図11に示すフレーズペアのそれぞれについて、スコアを調節するための評価をする(ステップS9)。組み合わせ7を例にして説明すると、評価部19は、フレーズペア2を良いフレーズペアと評価し、フレーズペア9を悪いフレーズペアと評価し、フレーズペア16を中立のフレーズペアと評価する。
スコア調節部20は、形態素解析の場合と同様にして、ステップS9で評価したフレーズペアのそれぞれについて、スコアを調節する(ステップS10)。このとき、スコア調節部20は、悪いフレーズペアと評価したフレーズペアについて、比較した要素の種類が異なる場合(例えば、「a pen=C」と「a pencil=O」)のスコアを、比較した要素の種類が同じ場合(例えば、「a pen=C」と「a pencil=C」)のスコアよりも大きく変化させる。これにより、構文構造の誤りに対する学習効果を高めることができる。
本実施形態の変形例を説明する。本実施形態では、スコアの調節(ステップS10)で用いられた所定の重みを、固定値にしているが、変形例では、所定の重みを可変値にする。重み設定部25は、良いフレーズペア(例えば、図2のフレーズペア2)のスコアを上げる第1の処理(上記〈1〉)がされる場合、良いフレーズペアのスコアと、このフレーズペアと日本語(第1言語)が同じである他のフレーズペア(図2のフレーズペア1)のスコアとのばらつきに応じて、第1の処理に用いられる所定の重み(第1の所定値)を設定する。ばらつきとは、例えば、分散である。そして、スコア調節部20は、重み設定部25が設定した所定の重みを用いて、良いフレーズペアのスコアを大きくする。
重み設定部25は、上記ばらつきが比較的大きいとき、良いフレーズペアのスコアが比較的大きく変化するように所定の重みを設定し、上記ばらつきが比較的小さいとき、良いフレーズペアのスコアが比較的小さく変化するように所定の重みを設定する。この逆でもよい。すなわち、重み設定部25は、上記ばらつきが比較的大きいとき、良いフレーズペアのスコアが比較的小さく変化するように所定の重みを設定し、上記ばらつきが比較的小さいとき、良いフレーズペアのスコアが比較的大きく変化するように所定の重みを設定する。
重み設定部25は、悪いフレーズペア(例えば、図2のフレーズペア9)のスコアを下げる第2の処理(上記〈2〉)がされる場合、悪いフレーズペアのスコアと、このフレーズペアと日本語(第1言語)が同じである他のフレーズペア(図2のフレーズペア10)のスコアとのばらつきに応じて、第2の処理に用いられる所定の重み(第2の所定値)を設定する。ばらつきとは、例えば、分散である。そして、スコア調節部20は、設定した所定の重みを用いて、悪いフレーズペアのスコアを小さくする。
重み設定部25は、上記ばらつきが比較的大きいとき、悪いフレーズペアのスコアが比較的大きく変化するように所定の重みを設定し、上記ばらつきが比較的小さいとき、悪いフレーズペアのスコアが比較的小さく変化するように所定の重みを設定する。この逆でもよい。すなわち、重み設定部25は、上記ばらつきが比較的大きいとき、悪いフレーズペアのスコアが比較的小さく変化するように所定の重みを設定し、上記ばらつきが比較的小さいとき、悪いフレーズペアのスコアが比較的大きく変化するように所定の重みを設定する。
本発明は、例えば、統計的機械翻訳に利用することができる。
1 統計的機械翻訳システム
2 対訳コーパス
3 単言語コーパス
4 翻訳モデル
5 言語モデル
6 デコーダ
7 フレーズテーブル
10 翻訳システム
11 ユーザー端末
12 サーバー(翻訳支援装置の一例)
13 原文入力部
14 機械翻訳部
15 翻訳候補文出力部
16 選択部
17 翻訳モデル
18 翻訳情報記憶部
19 評価部
20 スコア調節部
21 言語処理部
22 再翻訳部
23 翻訳結果比較部
24 スコア再調節決定部
25 重み設定部
30 データ構造
31 パス
40 翻訳結果情報
50,50a〜50h 形態素

Claims (9)

  1. 第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援する方法であって、
    前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶ステップを備え
    前記フレーズテーブルには、前記フレーズペアの出現確率に関する情報であるスコアが、前記フレーズテーブルに格納されている前記フレーズペアのそれぞれに対応付けて格納されており、
    前記方法は、
    複数の前記翻訳候補文の中から最適な前記翻訳候補文を、ユーザーに選択させる選択ステップと
    前記選択ステップで選択されなかった前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを、前記記憶ステップで記憶された前記組み合わせ情報を用いて特定する特定ステップと、
    前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記スコアを調節するための評価をする評価ステップと、をさらに備え、
    前記評価ステップは、前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記選択ステップで選択された前記翻訳候補文に含まれる要素と比較することにより、所定の基準を用いて、前記スコアを上げるべき前記フレーズペアについては、前記スコアを上げるべき評価をし、前記スコアを下げるべき前記フレーズペアについては、前記スコアを下げるべき評価をする翻訳支援方法。
  2. 前記記憶ステップは、複数の前記翻訳候補文のそれぞれを生成するのに用いられた前記フレーズペアの組み合わせに関するデータ構造、及び、前記データ構造において、複数の前記翻訳候補文のそれぞれを生成するのに用いられた前記フレーズペアの組み合わせを得ることができるパスを、前記組み合わせ情報として記憶する請求項1に記載の翻訳支援方法。
  3. 前記スコアを上げるべき評価がされた前記フレーズペアに対応づけられた前記スコアを上げる第1の処理、及び、前記スコアを下げるべき評価がされた前記フレーズペアに対応づけられた前記スコアを下げる第2の処理のうち、少なくとも一方の処理をするスコア調節ステップを、さらに備える請求項1又は2に記載の翻訳支援方法。
  4. 前記スコア調節ステップが前記第1の処理をする場合、前記第1の処理がされる前記フレーズペアの前記スコアと、前記第1の処理がされる前記フレーズペアと前記第1言語が同じである他のフレーズペアの前記スコアとのばらつきに応じて、前記第1の処理に用いられる第1の所定値を設定する第1の設定ステップを、さらに備え、
    前記スコア調節ステップは、前記第1の設定ステップで設定された前記第1の所定値を用いて、前記第1の処理をする請求項に記載の翻訳支援方法。
  5. 前記スコア調節ステップが前記第2の処理をする場合、前記第2の処理がされる前記フレーズペアの前記スコアと、前記第2の処理がされる前記フレーズペアと前記第1言語が同じである他のフレーズペアの前記スコアとのばらつきに応じて、前記第2の処理に用いられる第2の所定値を設定する第2の設定ステップを、さらに備え、
    前記スコア調節ステップは、前記第2の設定ステップで設定された前記第2の所定値を用いて、前記第2の処理をする請求項3又は4に記載の翻訳支援方法。
  6. 前記記憶ステップは、複数の前記翻訳候補文のそれぞれについて、前記スコアを基にして算出した翻訳結果に関する数値情報を記憶し、
    前記翻訳支援方法は、
    前記スコア調節ステップ後の前記フレーズテーブルを用いて、前記原文を再翻訳することにより、前記翻訳文の候補となる複数の前記翻訳候補文を再び生成し、再び生成した複数の前記翻訳候補文のそれぞれについて、前記スコア調節ステップ後の前記フレーズテーブルの前記スコアを基にして算出した前記数値情報を生成する再翻訳ステップと、
    前記記憶ステップで記憶された前記数値情報と、前記再翻訳ステップで生成された前記数値情報とを比較し、予め定められた基準を満たすか否かを判定する比較ステップと、
    前記予め定められた基準を満たすと判定されたとき、前記スコア調節ステップを再び実行する再実行ステップと、をさらに備える請求項3〜5のいずれか一項に記載の翻訳支援方法。
  7. 第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援する装置であって、
    前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶部を備え
    前記フレーズテーブルには、前記フレーズペアの出現確率に関する情報であるスコアが、前記フレーズテーブルに格納されている前記フレーズペアのそれぞれに対応付けて格納されており、
    前記装置は、
    複数の前記翻訳候補文の中から最適な前記翻訳候補文を、ユーザーに選択させる選択部と
    前記選択部で選択されなかった前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを、前記記憶部に記憶された前記組み合わせ情報を用いて特定し、前記特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記スコアを調節するための評価をする評価部と、をさらに備え、
    前記評価部は、前記特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記選択部で選択された前記翻訳候補文に含まれる要素と比較することにより、所定の基準を用いて、前記スコアを上げるべき前記フレーズペアについては、前記スコアを上げるべき評価をし、前記スコアを下げるべき前記フレーズペアについては、前記スコアを下げるべき評価をする翻訳支援装置。
  8. 第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルと、
    前記フレーズテーブルを用いて、前記第1言語の原文から前記第2言語の翻訳文を生成するために、前記翻訳文の候補となる複数の翻訳候補文を生成する機械翻訳部と、
    前記機械翻訳部が生成した複数の前記翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶部と、を備える翻訳装置であって、
    前記フレーズテーブルには、前記フレーズペアの出現確率に関する情報であるスコアが、前記フレーズテーブルに格納されている前記フレーズペアのそれぞれに対応付けて格納されており、
    前記翻訳装置は、
    複数の前記翻訳候補文の中から最適な前記翻訳候補文を、ユーザーに選択させる選択部と
    前記選択部で選択されなかった前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを、前記記憶部に記憶された前記組み合わせ情報を用いて特定し、前記特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記スコアを調節するための評価をする評価部と、をさらに備え、
    前記評価部は、前記特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記選択部で選択された前記翻訳候補文に含まれる要素と比較することにより、所定の基準を用いて、前記スコアを上げるべき前記フレーズペアについては、前記スコアを上げるべき評価をし、前記スコアを下げるべき前記フレーズペアについては、前記スコアを下げるべき評価をする翻訳装置。
  9. 第1言語のフレーズと第2言語のフレーズとの対であるフレーズペアが格納されたフレーズテーブルを用いて、前記第1言語の原文を前記第2言語の翻訳文に翻訳する機械翻訳を支援するプログラムであって、
    前記翻訳文の候補となる複数の翻訳候補文のそれぞれについて、前記フレーズテーブルに格納されている前記フレーズペアの中で、前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを特定する組み合わせ情報を記憶する記憶ステップを、コンピュータに実行させ
    前記フレーズテーブルには、前記フレーズペアの出現確率に関する情報であるスコアが、前記フレーズテーブルに格納されている前記フレーズペアのそれぞれに対応付けて格納されており、
    前記プログラムは、
    複数の前記翻訳候補文の中から最適な前記翻訳候補文を、ユーザーに選択させる選択ステップと
    前記選択ステップで選択されなかった前記翻訳候補文を生成するのに用いられた前記フレーズペアの組み合わせを、前記記憶ステップで記憶された前記組み合わせ情報を用いて特定する特定ステップと、
    前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記スコアを調節するための評価をする評価ステップと、をさらに、前記コンピュータに実行させ、
    前記評価ステップは、前記特定ステップで特定された前記組み合わせを構成する前記フレーズペアのそれぞれについて、前記選択ステップで選択された前記翻訳候補文に含まれる要素と比較することにより、所定の基準を用いて、前記スコアを上げるべき前記フレーズペアについては、前記スコアを上げるべき評価をし、前記スコアを下げるべき前記フレーズペアについては、前記スコアを下げるべき評価をする翻訳支援プログラム。
JP2016016025A 2016-01-29 2016-01-29 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム Active JP6620934B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016016025A JP6620934B2 (ja) 2016-01-29 2016-01-29 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム
CN201611195288.8A CN107066452B (zh) 2016-01-29 2016-12-22 翻译辅助方法、翻译辅助装置、翻译装置以及记录介质
US15/391,354 US10055404B2 (en) 2016-01-29 2016-12-27 Translation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016016025A JP6620934B2 (ja) 2016-01-29 2016-01-29 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム

Publications (2)

Publication Number Publication Date
JP2017134754A JP2017134754A (ja) 2017-08-03
JP6620934B2 true JP6620934B2 (ja) 2019-12-18

Family

ID=59386735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016016025A Active JP6620934B2 (ja) 2016-01-29 2016-01-29 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム

Country Status (3)

Country Link
US (1) US10055404B2 (ja)
JP (1) JP6620934B2 (ja)
CN (1) CN107066452B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407743A (zh) * 2016-04-08 2021-09-17 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
US10394965B2 (en) * 2017-01-13 2019-08-27 Sap Se Concept recommendation based on multilingual user interaction
US10769386B2 (en) * 2017-12-05 2020-09-08 Sap Se Terminology proposal engine for determining target language equivalents
US11216617B2 (en) * 2018-12-18 2022-01-04 King Fahd University Of Petroleum And Minerals Methods, computer readable media, and systems for machine translation between Arabic and Arabic sign language

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US8296123B2 (en) * 2006-02-17 2012-10-23 Google Inc. Encoding and adaptive, scalable accessing of distributed models
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
US20090326917A1 (en) * 2006-07-17 2009-12-31 Erich Steven Hegenberger Computer-Implemented Translation Tool
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
WO2010003117A2 (en) * 2008-07-03 2010-01-07 Google Inc. Optimizing parameters for machine translation
CN101667176A (zh) 2008-09-01 2010-03-10 株式会社东芝 基于短语的统计机器翻译方法和系统
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
US20110131033A1 (en) * 2009-12-02 2011-06-02 Tatu Ylonen Oy Ltd Weight-Ordered Enumeration of Referents and Cutting Off Lengthy Enumerations
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US9043285B2 (en) * 2011-10-28 2015-05-26 Linkedin Corporation Phrase-based data classification system
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
US9465797B2 (en) * 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
CN102945232B (zh) * 2012-11-16 2015-01-21 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
US9152622B2 (en) * 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9183198B2 (en) * 2013-03-19 2015-11-10 International Business Machines Corporation Customizable and low-latency interactive computer-aided translation
US10025778B2 (en) * 2013-06-09 2018-07-17 Microsoft Technology Licensing, Llc Training markov random field-based translation models using gradient ascent
US9582499B2 (en) * 2014-04-14 2017-02-28 Xerox Corporation Retrieval of domain relevant phrase tables
US9606988B2 (en) * 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9933177B2 (en) * 2014-11-04 2018-04-03 Google Llc Enhanced automated environmental control system scheduling using a preference function
US9721004B2 (en) * 2014-11-12 2017-08-01 International Business Machines Corporation Answering questions via a persona-based natural language processing (NLP) system
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US9519643B1 (en) * 2015-06-15 2016-12-13 Microsoft Technology Licensing, Llc Machine map label translation
US10223742B2 (en) * 2015-08-26 2019-03-05 Google Llc Systems and methods for selecting third party content based on feedback
US10169797B2 (en) * 2015-12-15 2019-01-01 Costar Realty Information, Inc. Identification of entities based on deviations in value

Also Published As

Publication number Publication date
US20170220562A1 (en) 2017-08-03
US10055404B2 (en) 2018-08-21
CN107066452B (zh) 2021-11-05
CN107066452A (zh) 2017-08-18
JP2017134754A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6620934B2 (ja) 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム
US9836457B2 (en) Machine translation method for performing translation between languages
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
Green et al. Human effort and machine learnability in computer aided translation
US8010342B2 (en) Word usage analyzer
US8612206B2 (en) Transliterating semitic languages including diacritics
US5214583A (en) Machine language translation system which produces consistent translated words
US10679014B2 (en) Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus
US10872207B2 (en) Determining translation similarity of reverse translations for a plurality of languages
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
WO2021260554A1 (en) Domain-specific grammar correction system, server and method for academic text
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
US20210312144A1 (en) Translation device, translation method, and program
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP5039114B2 (ja) 機械翻訳装置及びプログラム
RU2817524C1 (ru) Способ и система генерации текста
KR102523767B1 (ko) Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JPH04305769A (ja) 機械翻訳装置
JP2005258637A (ja) 対訳語抽出装置、及び対訳語抽出プログラム
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2000010974A (ja) 機械翻訳装置および機械翻訳方法ならびに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191106

R151 Written notification of patent or utility model registration

Ref document number: 6620934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151