JP2014235740A

JP2014235740A - 改善された翻訳のためのソーステキストの確信度駆動型書き換え

Info

Publication number: JP2014235740A
Application number: JP2014108795A
Authority: JP
Inventors: シャハー・マーキン; Mirkin Shachar; スリラム・ベンカタパシー; Sriram Venkatapathy; マーク・ダイメトマン; Dymetman Marc
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2013-06-03
Filing date: 2014-05-27
Publication date: 2014-12-15
Also published as: EP2811414A3; EP2811414A2; US20140358519A1

Abstract

【課題】翻訳品質を向上する方法
【解決手段】ソーステキスト文字列は、第２自然言語における第１ターゲットテキスト文字列を生成するために、機械翻訳システムで翻訳される。第１ターゲットテキスト文字列に基づいて、ソーステキスト文字列に対する翻訳確信度が計算される。ソース文字列を自動的に書き換えることによって、第１自然言語において、可能であれば、少なくとも１つの代替テキスト文字列が生成される。各代替文字列は、第２自然言語における第２ターゲットテキスト文字列を生成するために翻訳される。第２ターゲット文字列に基づいて、翻訳確信度が、代替テキスト文字列に対して計算される。計算された翻訳確信度に基づいて、代替テキスト文字列の１つが、ソーステキスト文字列に対する置き換え候補として選択され、かつグラフィカル・ユーザー・インターフェース上で、ユーザーに対して提案されてもよい。
【選択図】図４

Description

典型的な実施形態は機械翻訳に関し、改善された翻訳品質のためのソーステキストを準備するためのシステムおよび方法に関連して、特定の応用が見出される。

自動翻訳の品質は絶えず改善している一方で、機械翻訳（ＭＴ）エラーは、依然として一般的である。翻訳の品質は、多くの要因に影響される。１つの要因は、ソース言語とターゲット言語との間で翻訳することの難しさである。例えば、フランス語から日本語への翻訳は、言語間のより大きな違いにより、フランス語からイタリア語への翻訳よりも難しいかもしれない。他の要因として、翻訳モデル（統計的機械翻訳、ＳＭＴの場合における）および翻訳のためのテキストの分野を訓練するために利用可能なデータ量（および訓練データとの違い）が含まれる。別な要因は特定のソーステキスト自体に関するが、その理由は、いくつかのテキストは他のテキストよりも複雑だからである。

テキストはいくつかの言語に翻訳される可能性があるので、それらは、一般により翻訳可能であるように書かれてもよい。しかしながら、各ＭＴモデルの動作はしばしば、よく理解されていないので、このことは、ある場合には、質の低い翻訳文に結びつき得る。

ソーステキストを前編集するためのコンピュータ履行型システムおよび方法に対する必要性が残っており、このことは改善された翻訳品質に帰着する。

典型的な実施形態の一態様に従えば、ソーステキストを書き換えるための方法は、第１自然言語における少なくとも１つのソーステキスト文字列を備えるソーステキストを受け取るステップを含む。本方法は、第２自然言語における第１ターゲットテキスト文字列を生成するために、プロセッサによって、各ソーステキスト文字列を機械翻訳システムで翻訳するステップを含む。第１翻訳確信度は、ソーステキスト文字列の少なくとも１つおよび第１ターゲットテキスト文字列に基づく少なくとも１つの特徴に基づいて、ソーステキスト文字列に対して計算される。第１自然言語における少なくとも１つの代替テキスト文字列を生成するステップに対して準備がなされ、これは、ソーステキスト文字列を自動的に書き換えるステップを含む。各代替テキスト文字列は、第２自然言語においてそれぞれの第２ターゲットテキスト文字列を生成するために、機械翻訳システムで翻訳される。第２翻訳確信度は、代替テキスト文字列の少なくとも１つ、および第２ターゲットテキスト文字列に基づく少なくとも１つの特徴に基づいて、代替テキスト文字列に対して計算される。本方法は、計算された第１および第２翻訳確信度に基づいて、ソーステキストにおけるソーステキスト文字列に対する置き換えとして、代替テキスト文字列の１つを選択するステップに対して準備するステップをさらに含む。

典型的な実施形態の別の態様に従えば、ソーステキストを書き換えるためのシステムは、第１自然言語におけるソーステキスト文字列を備えるソーステキストを受け取り、かつソーステキスト文字列を書き換えることによって、第１自然言語における少なくとも１つの代替テキスト文字列を生成するように構成された書き換え構成部を含む。翻訳要請器は、ソーステキスト文字列の第１機械翻訳および代替テキスト文字列の第２機械翻訳を要請するように構成される。確信度推定器は、ソーステキスト文字列および代替テキスト文字列に対して翻訳確信度を推定する。選択構成部は、ソーステキスト文字列に対する置き換えとして、代替テキスト文字列を選択し、または翻訳確信度に基づいて、ソーステキスト文字列の置き換えのための候補を選択する。プロセッサは、翻訳要請器、確信度推定器および選択構成部の少なくとも１つを履行する。

典型的な実施形態の別の態様に従えば、対話型の翻訳方法は、第１自然言語における少なくとも１つのソーステキスト文字列を含むソーステキストを受け取るステップと、プロセッサによって、少なくとも１つのソーステキスト文字列の各々に対して、第２自然言語における第１ターゲットテキスト文字列を生成するために、機械翻訳システムでソーステキスト文字列を翻訳するステップとを含む。第１翻訳確信度は、ソーステキスト文字列に対して計算される。ソーステキストにおけるソーステキスト文字列を保持するための準備がなされ、そこでは第１翻訳確信度は確信度閾値を満足し、かつソーステキスト文字列に基づいて第１自然言語における少なくとも１つの代替テキスト文字列を生成するための準備がなされ、そこでは第１翻訳確信度は、その閾値を満足しない。少なくとも１つの代替テキスト文字列の各々は、第２自然言語における第２ターゲットテキスト文字列を生成するために、機械翻訳システムによって翻訳され、かつ第２翻訳確信度は、代替テキスト文字列に対して計算される。ソーステキストにおいてソーステキスト文字列を保持するための準備がなされ、そこでは第１翻訳確信度は、少なくとも１つの代替テキスト文字列の各々の第２翻訳確信度を少なくとも満足し、そうでなければ、少なくとも１つの代替テキスト文字列の少なくとも１つを、ソーステキストにおけるソース文字列の置き換えのための候補として、ユーザーに提示するための準備がなされる。ソーステキストの翻訳文が出力されるが、この出力は、保持されてきたソーステキスト文字列および、それぞれのソース文字列の置き換えのためにユーザーによって選択されてきた、提示された代替ソース文字列に基づいてなされる。

図１は、典型的なシステムおよび方法の態様を例示する模式図である。図２は、典型的な実施形態の一態様に従って、テキストを書き換えるためのシステムの機能的ブロック図である。図３は、テキストを書き換えるためのユーザー・インターフェース例のスクリーンショットである。図４は、典型的な実施形態の別の態様に従って、テキストを書き換えるための方法を例示するフローチャートである。図５は、テキストを書き換えるための方法を例示する、より詳細なフローチャートである。

図１を参照すると、ソース書き換えツール１０は、関連する機械翻訳（ＭＴ）構成部１２によって、より高い翻訳品質を得ることを促進する。簡単に言えば、翻訳するべき入力文書１４が与えられると、各ソース文は、ターゲットテキスト１８の対応するターゲット文を生成するために、ＭＴ構成部１２によって翻訳され、かつ各翻訳文の確信度が評価される。確信度評価に基づいて、翻訳文が低い品質であると予想されるソース文は、修正されるべき候補としてマークされる。典型的な書き換えシステムは対話型モードを有し、対話型モードにおいて書き換えシステムは、より高い確信度でＭＴシステムによって翻訳され得る、対応するソース文の代替的書き換えを、ユーザーに対して提案する。ユーザーはその後、提案され、書き換えられた文の中から、実際に翻訳されることになる文を選択することができる。代わりに、ユーザーは、提案された文をさらに編集することを決定し、かつそれがシステムによって再評価されることを要請してもよく、または未修正のソース文を選択してもよい。これは、書き換えられた文が、（意味の点から、および文書全体の文脈において）ソースの適切な置き換えであることを保証するのに役立つ。

本明細書で「テキスト文字列」として用いられているのは、複数のワードを備えるテキストシーケンスであり、かつこれは、ピリオドまたは同様の終端句読点記号で終わる文か、または、文の節または句のような、より短い（またはより長い）テキスト文字列であり得る。文に対して特別な言及がなされる一方で、そのような他のテキスト文字列もまた熟慮されることは、正しく認識されるはずである。

例えば、図１に示されるように、入力文書は、フランス語のような第１自然言語におけるソーステキストを含み、これは、Ｓ１、Ｓ２、Ｓ３およびＳ４で表される文のような４つのソース文字列を含む。ソース言語文は、書き換えツール１０によって受け取られ、かつ、１つの例として、英語のような第１自然言語とは異なる第２自然言語におけるテキスト１８に翻訳するために、ＭＴ構成部１２に送られる。各ソース文字列は、したがって、Ｔ１、Ｔ２、Ｔ３、Ｔ４で表された、対応するターゲット文字列へと翻訳される。ターゲットテキスト文字列は書き換えツール１０によって分析され、書き換えツール１０は、各ソース文（ｃ（Ｓ１）、ｃ（Ｓ２）、ｃ（Ｓ３）、ｃ（Ｓ４））に対して翻訳確信度尺度２０を計算するが、これは、対応するターゲット文字列上の少なくとも一部分に基づくことができる。翻訳文が確信度閾値γにあるか、またはそれを超える値にあると予想されるソース文字列に対しては、元のソーステキストが保持される（例におけるＳ１およびＳ４）。確信度閾値がγ未満にある翻訳文に対しては、書き換えツール１０が元のソース文字列（Ｓ２およびＳ３）を修正して、（例えば、Ｓ２からＳ２Ａ、Ｓ２ＢおよびＳ２Ｃを、かつＳ３からＳ３Ａを生成することによって）修正されたソース文字列を備える書き換えられたソーステキスト２２を発生させる。書き換えられたソース文（Ｓ２Ａ、Ｓ２Ｂ、Ｓ２Ｃ、Ｓ３Ａ）は翻訳され、かつもとのソース文については、その確信度が計算される。書き換えられたソース文に対して、より高い確信度が得られる場合、元のソース文よりも高い確信度を有する文の少なくともいくつかは、例えばグラフィカル・ユーザー・インターフェース２４上で、ユーザーに対して提示される。２つ以上が提案される場合、ユーザーは、提示された２つ以上の代替ソース文字列（Ｓ２Ａ、Ｓ２Ｂ、Ｓ２Ｃ）の１つを受け入れることを決定してもよい。または、例示されるように、新しいソース文字列（Ｓ２Ａ１）を生成するために、それらの１つ（Ｓ２Ａ）がユーザーによって修正されてもよい。ユーザーはまた、もとのソース文を修正する選択肢、または提案され、書き換えられたソース文を拒否する選択肢を有する。ユーザーの選択および／または修正を組み込んだ、改定されたソーステキスト２６は、書き換えツールへ戻されてもよく、かつ仮に改定されたソーステキスト２６が、元のソーステキスト１４と異なる場合、新しい翻訳文がＭＴ構成部１２によって生成される。

書き換えられたソース文を生成するために、様々な方法を使用することができる。それらの中で、いくつかは文の意味を完全に保存するが（すなわち、それを言い換える）、その一方で、いくつかは、より翻訳しやすいテキストを達成するために、それを一般化するか、または単純化してもよい。もし提案があれば、提案された代替文の中のどれが適切であるかを決定するための管理は、ユーザーの手に残っている。

上で説明された対話型モードは、書き換えツール１０を用いるための１つの方法である。動作の別モード（自動化されたモード）においては、書き換えプロセスは、高精度の書き換え技術を用いて、自動的に行うことができる。これによって、新しい言語に対して翻訳文が必要である場合はいつでも、またはＭＴモデルが更新される場合はいつでも、翻訳のためのテキストを準備することが可能になる。典型的なツールは、これらのモードの１つだけにおいてか、またはこれらのモードの両方において動作するように構成することができる。

典型的な書き換えツール１０およびそれを用いた方法は、特有のＭＴ構成部１２の文レベル翻訳確信度および、ＭＴ構成部１２が用いる特有のＭＴモデル２８に基づいた翻訳のために、ソーステキストの準備を支援する。したがって、典型的な実施形態においては、ツールはモデルに特有である。本方法は、翻訳確信度を計算する上で、ソース文および／またはその翻訳文の特徴を考慮してもよい。書き換えツール１０によって、ターゲット言語を話さないユーザーは、翻訳の前にソーステキスト１４に対してなされる変更を完全に管理する立場に留まることが可能になるが、その一方で、基になるＭＴ構成部１２の翻訳確信度について、実時間で情報が与えられる。自動書き換え方法は以下に説明されるが、それらは流暢なソーステキストを維持しながら、ソーステキストの元の意味をあまり変えることなく、確信度を改善することに向けられる。これらの書き換え技術は、ある場合には、それからいくつかの情報を除去することによって、ソーステキストを一般化するか、または単純化する。そのツールは、ソフトウェアまたはハードウェア、もしくはそれらの組み合わせにおいて履行することができる。

図２は、ソーステキストを書き換えるための、典型的なコンピュータ履行型システム３０を例示し、これは典型的なツール１０を含む。システム３０は、サーバー、ラップトップ、デスクトップ、タブレット、スマートフォン、これらの組み合わせなどのような、１つ以上の計算装置３２において履行される。コンピュータ３２は、典型的な方法を履行するための命令３６を格納するメモリ３４と、命令を履行するための、メモリ３４と通信可能なプロセッサ３８とを含む。入力装置４０は、翻訳されるべきソーステキスト１４を受け取る。出力装置４２は、ローカルエリアネットワークまたはインターネットのような広域ネットワークなどの、例えば有線か無線のリンク４４を介して、ユーザー・インターフェース２４とリンクされる。典型的な実施形態において、ユーザー・インターフェース２４は、インターネットのような有線かまたは無線のネットワークによってシステム３０に通信でリンク可能なクライアント装置４６によってホストされる。システム３０のハードウェア構成部３４、３８、４０、４２は、データ／制御バス４８によって、通信でリンクされる。

クライアント装置４６は、サーバー３２と同様に構成されてもよく、かつ、いくつかの実施形態では、ＬＣＤスクリーンのような関連した表示装置５０上に、グラフィカル・ユーザー・インターフェース２４を生成するための命令のいくつかを含んでもよい。代替ソース文字列の選択および／または修正のような、ユーザーからの入力は、プロセッサ３８へ伝達されてもよく、かつ、キーボード、キーパッド、タッチスクリーンなどのような、ユーザー入力装置５２を介して、クライアント装置で受け取られてもよい。

ソース書き換えツール１０に加えて、典型的なメモリ３４は、統計的機械翻訳（ＳＭＴ）システムのような機械翻訳構成部１２を格納する。１つの典型的な実施形態において、翻訳構成部１２は、本質的にはブラックボックスとして取り扱われる。いくつかの実施形態において、機械翻訳構成部１２は遠隔コンピュータ上に位置し、かつ翻訳のために呼び出されてもよい。

翻訳されるべきテキスト１４は、クライアント装置４６、ウェブページ、携帯または遠隔のメモリ格納装置、音声からテキストへの変換器のような、任意の適切なソースから受け取られてもよく、またはコンピュータ３２自体の上で生成されてもよい。

例示されたツール１０はプリプロセッサ６０を含み、プリプロセッサ６０は、第１言語における入力ソーステキスト１４を受取り、かつそのテキストを、文Ｓ１、Ｓ２、Ｓ３などのようなテキスト文字列のセットに分け、かつ文の各々をワード（および他のトークン）に分割する。スキャンされた文書またはＰＤＦファイルの場合、ＯＣＲ処理のような他の前処理が実行されてもよい。

翻訳要請器６２は、各文を順番に翻訳するために、翻訳構成部１２を呼び出す。例えばＳＭＴシステム１２の場合、ＳＭＴシステムは、一組の双句（ｂｉｐｈｒａｓｅ）を格納する双句テーブル６４（例えばメモリ３６に格納される）にアクセスする復号器を含む。各双句は、ソース言語における１つ以上のワードのソース句と、ターゲット言語における１つ以上のワードのターゲット句とを含むが、ターゲット句は、ソース言語およびターゲット言語における並列文のコーパスから引き出された可能性のあるソース句を翻訳したものである。復号器は、各々がソース文の１つ以上のワードを含む双句を引き出す。一組の双句（これらはソース文を共同で含む）は、重み付けされた特徴の組み合わせである対数線形モデルのような機械翻訳モデル２８によって得点が与えられる。モデル２８による最高得点の翻訳文（またはある場合には、１つ以上の高得点翻訳文）が出力され、かつソース書き換えツール１０に戻される。

確信度推定器６６は、翻訳確信度尺度ｃ（Ｓ１）、ｃ（Ｓ２）、ｃ（Ｓ３）などを計算することにより、ソーステキストにおける各文に対して、翻訳確信度を推定する。翻訳確信度は、それぞれの翻訳された文、ソース文および翻訳プロセスの特徴の１つ以上に基づいてもよい。例えば確信度閾値γ未満である、低く計算された翻訳確信度を有するソース文に対しては、ソース文は、１つ以上の書き換えられた（代替の）ソース文を生成する書き換え構成部６８に入力される。仮に書き換えられた文に対して（元のソース文に対するのと同じ方法で計算された）翻訳確信度尺度が、元のソース文に対するものよりも高い場合、書き換えられた文は、元のソース文の置き換えに対する候補として、ユーザーに提案されてもよい。

典型的な書き換え構成部６８は、テキスト単純化構成部７０およびテキスト含意構成部７２の１つまたは両方を含むが、これらは、入力ソース文が与えられると、ソース言語において書き換えられた文を生成するために、別々にまたは共同で動作してもよい。典型的なテキスト単純化構成部７０は、（翻訳モデルと同様な）単純化モデル７４を使用してもよいが、単純化モデル７４は、以下でさらに詳しく説明されるように、ソース言語文のコーパスおよびソース言語文の単純化版を並列訓練することから学習されてきた。テキスト単純化構成部７０は、付加的にまたは代替的に同義語語彙集７６を使用してもよいが、同義語語彙集７６は、ソース言語ワードおよびソース言語ワードの単純化された（より翻訳しやすい）同義語、またはワードネット（ＷｏｒｄＮｅｔ）のような他の同義語リソースを含む。

選択構成部７８は、元の文を置き換えるための代替ソース文（複数可）を選択する。自動モードにおいては、選択された代替ソース文（複数可）は、見直しすることなく、ソーステキストの中に組み込まれてもよい。対話型モードにおいては、選択構成部は、ユーザー選択のための候補として提示されるべき代替ソース文を自動的に選択する。自動選択は、計算された翻訳確信度に基づく。ツール１０によって生成されたいくつかの代替ソース文があるところでは、選択構成部は、元のソース文に対するものよりも少なくとも高い翻訳確信度を有しないものを除去するために、代替ソース文をフィルターにかけてもよく、かつ、例えばそれらの計算された翻訳確信度に基づいて、残る代替ソース文を順位付けし、順位付けの順番で提示してもよい。正しく理解されるであろうが、選択構成部７８は、書き換えツールの一部であってもよい。

ＧＵＩ生成器８０は、ソース書き換えツール１０および選択構成部の出力に基づいて、ユーザー・インターフェース上で表示するために、ＧＵＩ２６を生成する。典型的なＧＵＩ２６が図３に示されており、かつ以下でさらに詳しく説明される。

メモリ３４は、ランダムアクセスメモリ（ＲＡＭ），読み取り専用メモリ（ＲＯＭ），磁気ディスクまたは磁気テープ、光ディスク、フラッシュメモリまたはホログラフィックメモリのような、任意のタイプの非一時的なコンピュータ可読媒体を表してもよい。ネットワーク・インターフェース４０および／または４２は、変調器／復調器（ＭＯＤＥＭ）、ルーター、ケーブルおよび／またはイーサーネット・ポートを備えてもよい。

デジタル・プロセッサ３８は、シングルコア・プロセッサ、デュアルコア・プロセッサ（または、より一般的にはマルチコア・プロセッサによる）、デジタル・プロセッサおよび協力的数値演算コプロセッサ、デジタル・コントローラなどのようなものによって、様々に具現化することができる。

図４は、ソース書き換え方法の概略を与える。

本方法は、Ｓ１００で開始する。

Ｓ１０２では、ソーステキスト１４が受け取られるが、これはソース言語から、選択された単一のターゲット言語または複数のターゲット言語へ翻訳されるべき文書のようなものである。

Ｓ１０４では、仮にソーステキストが、（そのソーステキストに対する計算された翻訳確信度に基づいて）翻訳可能であると決定される場合、その翻訳文はＳ１０６で保持され、そうでなければ、本方法はＳ１０８へ進むが、その場合、入力ソース文に対する翻訳可能な代替文が生成される（すなわち、この代替文は、ソーステキストよりも大きな、計算された翻訳確信度尺度を有する）。

対話型モードにおいては、これらは順位付けされ、かつＳ１１０で表示される。

自動化モードにおいては、最も高い順位付けの翻訳可能な代替文がＳ１１２で選択される。本方法は、Ｓ１１４で終了する。

図５は、複数のソース文を含む文書に対して、対話型モードにおけるソース書き換えのための典型的な方法をより詳細に例示している。正しく理解されることであろうが、本方法はまた、図４におけるように、自動化モードに適合することができる。

本方法は、Ｓ２００で開始する。

Ｓ２０２では、ソーステキスト１４が受け取られるが、これはソース言語から、選択されたターゲット言語（複数可）へ翻訳されるべき文書のようなものである。

Ｓ２０４では、確信度閾値γが確定されてもよい。確信度閾値は、ユーザーによって、初期値設定などで、設定されてもよい。異なる確信度閾値は、異なる言語、分野（例えば話題）などに対して確定されてもよい。一般に、閾値の設定は、一組の訓練文書にわたって平均化される場合、ソース文字列の少なくとも１つが翻訳確信度閾値を満足しないであろうという有限の確率があり（０＜確率＜１）、かつソース文字列の少なくとも１つが翻訳確信度閾値を満足するであろうという有限の確率がある（０＜確率＜１）、という具合になされる。

Ｓ２０６では、文のようなソーステキスト文字列を識別するために、ソーステキストは、プリプロセッサ６０によって前処理される。

Ｓ２０８では、（最初の）文ｓが翻訳される。具体的には、翻訳要請器６２が、文を選択されたターゲット言語に翻訳するように、機械翻訳システム１２に要請し、かつ機械翻訳システム１２が、確信度推定器６６に対して、翻訳されたターゲット文ｔを出力する。

Ｓ２１０では、文ｓを翻訳する場合の確信度ｃ（ｓ）が、確信度推定器６６によって計算される。テキストにおける各文に対する翻訳確信度、またはその図的表現は、例えばＧＵＩを介して、ユーザーに表示されてもよい。

仮にＳ２１２で、計算された翻訳確信度ｃ（ｓ）が閾値γであるか、これを超える場合、本方法はＳ２１４に進んでもよく、そこではｓに対応するターゲット文ｔが保持される。

仮にＳ２１２で、計算された翻訳確信度ｃ（ｓ）が閾値γ未満である場合、本方法はＳ２１６に進み、そこでは図１における文Ｓ２Ａ、Ｓ２Ｂ、Ｓ２Ｃのような、（可能であれば）ソース文ｓに対して少なくとも１つの、または一般的に複数の代替文ｓ_ｉが、書き換え構成部６８によって生成される。正しく理解されることであろうが、ある場合には、書き換え構成部６８は任意の代替文ｓ_ｉを生成できないかもしれず、その場合には文ｓおよびその翻訳文が保持され、かつ本方法は、次の文の処理のためにＳ２３２に進む。

Ｓ２１８では、代替文ｓ_ｉの各々が翻訳される。具体的には、翻訳要請器６２が、各代替文を選択されたターゲット言語に翻訳するように、機械翻訳システム１２に要請し、かつ機械翻訳システム１２が、それぞれの翻訳されたターゲット文ｔ_ｉを確信度推定器６６へ出力する。

Ｓ２２０では、各代替ソース文字列ｓ_ｉに対して、文ｓ_ｉを翻訳する場合の翻訳確信度ｃ（ｓ_ｉ）が、例えばｓ_ｉおよびｔ_ｉに基づいて、確信度推定器６６によって計算される。

Ｓ２２２では、代替文ｓ_ｉはフィルターにかけられ、計算された確信度ｃ（ｓ_ｉ）が、元の文ｓに対する確信度ｃ（ｓ）よりも大きい文だけが保持される（または、少なくとも計算された確信度ｃ（ｓ_ｉ）が確信度ｃ（ｓ）よりも大きくない文は除去される）。仮にフィルターにかけた後に残っている代替文がない場合、元の文ｓが保持され、かつ本方法はＳ２１４に進むか、そうでなければ、Ｓ２２４に進む。

Ｓ２２４では、仮にフィルターにかけた後に１つ超が残る場合、残っている代替ソース文字列ｓ_ｉが順位付けされてもよい。順位付けは、それぞれの計算された翻訳確信度尺度ｃ（ｓ_ｉ）および／またはソース文からの意味的距離のような他の順位付け尺度に基づいてもよい。

Ｓ２２６では、計算された確信度に基づいて、好みに応じて順位付けされた代替文字列ｓ_ｉの少なくとも１つを（自動または手動で）選択するための準備がなされる。例えば、１つ以上の代替文字列が、元の文字列ｓを置き換えるための候補（複数可）として、ＧＵＩ生成器８０によってＧＵＩ２４上で、ユーザーに対して表示されてもよい。代替ソース文字列（複数可）の表示は、確信度閾値未満であると決定されたすべての元のソース文、およびソース文字列の確信度を超える確信度を有する代替文字列がある場合に対して、自動的に実行されてもよい。代わりに、ユーザーが、低い翻訳確信度を有するものとして示された文を選択する場合にのみ、代替文が表示されてもよい。ユーザーが、代替ソース文字列の１つを選択する、かつ／または編集するための準備、またはＧＵＩを介して元の文を保持する、かつ／または編集するための準備がなされる。この動作を実行し、かつ翻訳における確信度を評価する上で、ユーザーを支援するための適切な命令が表示される。例えば、各ソース文および各代替ソース文に関連する翻訳確信度尺度が表示される。

Ｓ２２８では、元のソース文字列の（ユーザーによって好みに応じて編集される）ユーザーの選択または置き換えのための代替候補の１つが、ツールの選択構成部７８によって受け取られる。

Ｓ２３０では、仮にユーザーが選択した文の翻訳文が未だ生成されていない場合、例えばユーザーが元の文または代替文を既に編集した場合、Ｓ２２８で受け取られたユーザーの選択が翻訳される。

Ｓ２３２では、仮に処理されるべきより多くの文がある場合、本方法はＳ２０８に戻り、そうでなければ、本方法はＳ２３４へ進み、そこではターゲット言語の中に集められた翻訳文が、ターゲットテキストとして出力される。本方法は、Ｓ２３６で終了する。

別の実施形態においては、Ｓ２０４で確信度閾値γが設定されない（またはあまりに高く設定されるので、どの文も確信度閾値γを満足しない確率が高い）。この実施形態においては、すべての文に対して、本方法はＳ２１０からＳ２１６に進んでもよく、例えば、計算された翻訳確信度を閾値と比較する必要がない。

正しく理解されることであろうが、本方法のステップは、例示されている順番通りに進む必要は全くない。例えば、すべての文は、ユーザーに計算された翻訳確信度尺度が示され、かつ／または代替文から選択することを問われる前に、進んでもよい。

アルゴリズム１は、対話型モードで使用される場合、１つの特定の実施形態に従って、典型的な書き換え方法のための疑似コードを提供する。

別の実施形態において、自動モードが使用される場合、全体的な確信度閾値γを好みに応じて設定する以外は、人間との任意の対話なしに、ソース文が再定式化される。典型的な書き換えツール１０は、ソースを根本的に変更しない再定式化を生成し、かつその確信度が全体的な閾値を超える再定式化を選ぶように設計される。しかしながら、対話型モードによって提供される人間の監督は、多くの事例において有益である。

図４および／または図５に例示される方法は、ディスク、ハードドライブのようなコンピュータ上で実行され得るコンピュータ・プログラム製品において、または、制御プログラムがデータ信号として具現化された伝達可能な搬送波のような一時的媒体において履行されてもよい。

翻訳確信度推定（Ｓ１０４、Ｓ２１０）
機械翻訳システムは、通常、ソース言語およびターゲット言語に通じている人間の翻訳者によって作り出される翻訳文のような参照翻訳文と、出力文とを比較することに基づいて評価される。本応用に対して、参照翻訳文は、一般に利用可能ではない。典型的な実施形態において、確信度は、与えられたソース文字列の高品質翻訳文を作り出すための、翻訳構成部の能力の尺度である。確信度の推定は、参照翻訳文に依存することなく、自動翻訳の品質を推定することによって実行される。典型的な実施形態において、確信度推定は、ソース文字列、翻訳文および翻訳プロセス自体の１つ以上から抽出された特徴に依存する。そのような特徴の例は以下の、Ｂｌａｔｚｅｔ．ａｌ，“Ｃｏｎｆｉｄｅｎｃｅｅｓｔｉｍａｔｉｏｎｆｏｒｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ”，Ｐｒｏｃ．２０ｔｈＩｎｔｅｒｎ’ｌＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ）ＡＣＬ（２００４）、および、Ｓｐｅｃｉａｅｔａｌ．，”Ｅｓｔｉｍａｔｉｎｇｔｈｅｓｅｎｔｅｎｃｅ−ｌｅｖｅｌｑｕａｌｉｔｙｏｆｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｓ”，Ｐｒｏｃ．ＥＡＭＴ，ＰＰ．２８−３５（２００９）（以下では「Ｓｐｅｃｉａら」と略記）、に説明されている。そのような方法は、例えば、専門的な翻訳者によって見直してもらうために、下手に翻訳されたと疑われる文をフィルターにかけて取り除くために使用されてきたが、しかし本方法に適合可能である。

特に、確信度推定器６６はソース文／翻訳文ペアから特徴を抽出し、かつ抽出された特徴に基づいて、ソース文に対する翻訳確信度を計算するために、学習された確信度推定関数を使用する。元のソース文（およびさらに代替ソース文）の翻訳確信度を計算するための関数において使用され得る特徴例は、以下から選択することができる（これらのいくつかは、Ｓｐｅｃｉａらの特徴に基づく）。

ソース文に基づく特徴：
１．ソース文におけるトークン（例えば、句読点を無視したワード、またはワードと句読点の両方）の数。

２．文字の数におけるソース・トークンの平均長（例えば、平均ワード長）。

３．ソース文の言語モデル（ＬＭ）確率（または対数確率）。このモデルは、ソース文字列の流暢さを測定し、かつソース言語文書から引き出される。特に、文における各ワード（またはｎグラム、ここでｎは２以上）に対して、ソース文書において次に来るワードと結合するワードを見る確率が、データ構造から引き出される。引き出された確率は共に掛け合わされ、かつ結果は、文におけるワード（またはｎグラム）の数を説明するために正規化される。

４．文におけるソースワードあたりの翻訳文の平均数。これは、各ソースワードに対して、異なるターゲットワードの数を識別することによって計算されてもよく、異なるターゲットワードは、少なくとも閾値確率を有するソースワードに対する翻訳文として並列コーパスの中に見られる。一例として、ＩＢＭ−１テーブルは、ｐｒｏｂ（ｔ｜ｓ）＞０．２であるように閾値が設けられてもよく、かつ閾値が設けられたテーブルは、異なる翻訳文を識別するために用いられる。翻訳文のワードあたりの平均数は、その後、全体として文に対して計算される。

５．ソース・コーパスにおいて各ワードの逆頻度によって重み付けされる文におけるソースワードあたりの翻訳文の平均数。翻訳文の平均数は特徴４について計算されてもよく、そこでは閾値は同じでもあり得るし、異なることもあり得る。一例として、翻訳文は、ｐｒｏｂ（ｔ｜ｓ）＞０．０１であるように閾値が設けられたＩＢＭ−１テーブルによって与えられてもよい。ソースワードの逆頻度（ソース・コーパスにおけるソースワードの発生回数によって除算されたソース・コーパスにおけるワードの数）は、その後、閾値が設けられたテーブルの中で識別された異なる翻訳文の数によって掛け合わされる。

６．ソース言語のコーパスにおいてより低い頻度のワードである、ソース文中のユニグラム（単一のワード）の百分率。例えば、頻度の第１四分位数の中にある、ＳＭＴモデルを訓練するために使用されるコーパスに現れるワード。

７．ソース言語のコーパスにおいてより高い頻度のワードである、ソース文中のユニグラムの百分率。例えば、頻度の第４四分位数の中にあるＳＭＴ訓練コーパスの中にあるそれらのワード。

８．ソース言語における低い頻度のバイグラムの百分率。例えば特徴６と類似であるが、ソース言語のコーパスにおいて頻度の第１四分位数の中にあるソースワードのペア。

９．ソース文における高い頻度のバイグラムの百分率。例えば特徴７と類似であるが、ソース言語のコーパスにおいて頻度の第４四分位数の中にあるソースワードのペア。

１０．ソース文における低い頻度のトリグラム（または他のｎグラム、ここでｎ＞３）の百分率。例えば特徴６と類似であるが、ソース言語のコーパスにおいて頻度の第１四分位数の中にあるソースワード・トリプレット。

１１．ソース文における高い頻度のトリグラム（または他のｎグラム、ここでｎ＞３）の百分率。例えば特徴７と類似であるが、ソース言語のコーパスにおいて頻度の第４四分位数の中にあるソースワード・トリプレット。

１２．コーパスにおいて見られるソース文中のユニグラムの百分率（例えば、ＳＭＴ訓練コーパス）。

１３．ソース文における句読点記号の数。

ターゲット文に基づく特徴：
１４．機械翻訳モデル２８でソース文を翻訳することによって作り出されたターゲット文中のトークン（例えば、句読点を無視したワード、またはワードと句読点の両方）の数。この特徴は、一般に、より長い翻訳文を有するものよりも、より短い翻訳文を有するソース文に恩恵を与える。

１５．ターゲット文の言語モデル確率（または対数確率）。このモデルは、ターゲット文字列の流暢さを測定し、かつ、したがって、ターゲット言語文書から引き出され、しかもソース文に対するＬＭ確率と同様な方法で計算される。

１６．ターゲット文の中の各ターゲットワードの発生回数（文タイプ／トークン比率においてすべてのワードに対して平均化された）。

１７．ターゲット文における句読点記号の数。この特徴は、一般に、多数の句読点記号を含む翻訳文を有するソース文には恩恵を与えない。

１８．ＳＭＴモデル得点。各翻訳文に対して、システムは得点を出力し、これは通常、翻訳文を順位付けするのに用いられるが、しかし本明細書では、ターゲット文の特徴として用いられる。

正しく理解されることであろうが、用いられる特徴のいくつかは、より短いソースワード、より短いソース／ターゲット文、およびより頻繁に使用されるソースワードのような、一般に翻訳を容易にする文およびワードに恩恵を与える傾向があってもよい。恩恵が与えられてもよい他の特徴として、より少ない句読点記号、より少ない語彙から外れたワード、およびより少ない可能な翻訳文を有するソースワードが含まれる。しかしながら、これらの特徴の各々に置かれた重要性は、確信度関数におけるそれぞれの特徴の重みとして学習され、かつ組み込まれ、しかも、したがって、期待通りである必要はない。

一実施形態において、少なくとも１つのソース文に基づく特徴、および少なくとも１つのターゲット文に基づく特徴が、確信度関数の中に組み込まれる。確信度関数は、全体的な翻訳確信度尺度を出力するために、異なる特徴を集める。例えば、確信度関数は、選択された異なる特徴の各々に対する重みを含む。重みは、ソース文、それらの機械翻訳文、および機械翻訳の品質を人間の検閲者が行った評価を示すラベルからなる訓練セットを用いて学習することができる。例えば一組の参加者（例えば二人以上、三人の参加者のような）は、例えば一組の、または一範囲の可能な得点から選択された得点を各翻訳文に与えることによって、一組の与えられたソース文字列の各々の自動翻訳の品質を推定することを問われてもよい。品質推定は、後編集に対する翻訳の迅速さを参加者が評価することに関連してもよい。一例として、１から５の範囲にある得点が割り当てられてもよく、そこでは、１は「ＭＴ出力は理解不可能であり、正確な情報がほとんど、または全く転送されない。それは編集することができず、ゼロから翻訳される必要がある。」に対応し、そして５は「ＭＴ出力は、完全に明瞭で、分かりやすい。それは必ずしも完全な翻訳ではないが、しかし編集をほとんど、または全く必要としない。」に対応する。そのような評価は、統計的機械翻訳に関するワークショップ２０１２によって提出されたタスクの中で用いられた。タスクのために提供されたデータは、英語で書かれた約１８００のソース文と、モーゼズ（Ｍｏｓｅｓ）翻訳システム（Ｋｏｅｈｎ，Ｐ．ｅｔａｌ．，“Ｍｏｓｅｓ：Ｏｐｅｎｓｏｕｒｃｅｔｏｏｌｋｉｔｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，”ｉｎＰｒｏｃ．４５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓＣｏｍｐａｎｉｏｎＶｏｌｕｍｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＤｅｍｏａｎｄＰｏｓｔｅｒＳｅｓｓｉｏｎｓ，ｐａｇｅｓ１７７−１８０（２００７）．を参照のこと）によるそれらのスペイン語への翻訳部からなる訓練セットを含んでいた。その翻訳に対して、３審判の各々によって得点が与えられた。主催者はまた、ソースおよびターゲットの長さ、文の言語モデル対数確率、および文の中のソースワードあたりの可能な翻訳文の平均数のような、ソースおよびターゲット翻訳から品質推定特徴を抽出するための基線システムを提供した。そのタスクのより完全な記述に対しては、Ｃａｌｌｉｓｏｎ−Ｂｕｒｃｈ，ｅｔａｌ．，“Ｆｉｎｄｉｎｇｓｏｆｔｈｅ２０１２ｗｏｒｋｓｈｏｐｏｎｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，”ｉｎＰｒｏｃｅｅｄｉｎｄｇｓｏｆｔｈｅＳｅｖｅｎｔｈＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ，ｐｐ．１０−５１，ＡＣＬ（２０１２）、を参照されたい。一実施形態において、Ｃａｌｌｉｓｏｎ−Ｂｕｒｃｈ基線システムの特徴は、典型的な方法で使用されてもよい（上で挙げた最初の１７の特徴に対応する）。しかしながら、そのような設定においてラベルを与えるために使用され得る、異なる測定基準もまた熟慮される。

一実施形態において、選択された特徴は、翻訳モデルへのアクセスに依存する１つ以上の特徴、および翻訳モデルへのアクセスに依存しない１つ以上の特徴を含む。一例として、特徴は２０１２タスクの特徴抽出基線モジュールによって抽出されてもよく、このモジュールは、（ｉ）ソース文の長さおよびターゲット文に対するターゲット言語モデル確率のような、翻訳システムへのアクセスを仮定しないブラックボックス特徴と、（ｉｉ）ソースワードあたりの翻訳文の平均数およびＳＭＴモデル得点のような、翻訳モデルから抽出されるガラスボックス特徴とを含む。

確信度関数における重みは、線形回帰、サポート・ベクトル・マシン（ＳＶＭ）回帰、スパース・ロジスティック回帰、または任意の他の適切な機械学習法のような、任意の適切な学習アルゴリズムを用いて学習することができる。一実施形態において、訓練データは、Ｊｏａｃｈｉｍｓ，Ｔ．の方法によるＳＶＭ^{ｌｉｇｈｔ}を用いたＳＶＭ回帰モデルを訓練するために用いられるが、Ｊｏａｃｈｉｍｓ，Ｔ．の方法については、“Ｍａｋｉｎｇｌａｒｇｅ−ｓｃａｌｅＳＶＭｌｅａｒｎｉｎｇｐａｒａｃｔｉｃａｌ”ｉｎＳｃｈｏｌｋｏｐｆ，Ｂ．，Ｂｕｒｇｅｓ，Ｃ．，ａｎｄＳｍｏｌａ，Ａ．，ｅｄｉｔｏｒｓ，ＡｄｖａｎｃｅｓｉｎＫｅｒｎｅｌＭｅｔｈｏｄｓ−ＳｕｐｐｏｒｔＶｅｃｔｏｒＬｅａｒｎｉｎｇ，ｃｈａｐｔｅｒ１１，ｐｐ．１６９−１８４，ＭＩＴＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ，ＭＡ（１９９９）．、を参照されたい。このアルゴリズムはパラメータ（イプシロン）を含むが、これは回帰のための管の幅であり、小さな訓練エラーに罰則を課さないように選択され、その訓練エラーはイプシロンよりも小さい（ここでε＞０）。一実施形態において、管のイプシロン幅は、訓練データの一部分に関する実験に基づいて経験的に設定することができ、かつ、例えば０．００００１から０．２で変動することができる。一実施形態において、０．０００１のイプシロン幅が、Ｊｏａｃｈｉｍｓによって記述された方法で使用されている。

確信度推定関数は、次の一般形式であり得る。

ここでｗは、それぞれの特徴値ｘに対する重みのセットを表し、これはラベルの付けられた訓練データに関して学習することができ、好みに応じて、訓練データにおけるｘの各値がエラーεを持つことを可能にし、かつｂは、調整パラメータ（定数）である。

正しく理解されることであろうが、本方法はこの形式の確信度推定関数に限定されず、かつ他の学習アルゴリズムで学習することが可能である。

一たび確信度推定関数のパラメータ（重みｗおよび調整パラメータｂのような）が学習されたなら、関数は、ソース文における確信度を推定するために、典型的な方法において生成される新しいソース文／翻訳文ペアに適用することができる。

いくつかの場合において、ＳＭＴシステム１２は、各ソース文に対して１つ超の翻訳文を出力してもよく、この場合、複数のソース文／翻訳文ペアの各々に対して確信度が計算される。

ソース書き換え（Ｓ１０８、Ｓ２１６）
書き換え構成部６８は、生成されたテキストと元のテキストとの間の意味的関係の点から、ソース文書き換え（代替ソース文を生成すること）のための様々な方法を使用することができる。

書き換えられたソーステキストは、結果として生じたテキストと元のテキストとの間の意味的関係によって区別することができる。元のテキストと比較されると、書き換えられたテキストは、より少ない（または、より多い）ワード、異なるワード、再配列されたワード、句読点に対する修正、これらの組み合わせなどを含んでもよい。いくつかの書き換え方法においては、ソーステキストは代替文を生成するために言い換えられ、すなわち、その意味は異なる方法で表現される。いくつかの書き換え方法においては、ソーステキストは、その詳細のいくつかを省くことによって、一般化する、または単純化することができる。書き換え方法はまた、これらのアプローチの組み合わせを用いることができる。

言い換えは、しばしば良い書き換え方法であるが、その理由は、この操作がソース文の正確な意味を保存するからであり、その一方で、他のタイプの修正は、これを保存しない。しかしながら、ある場合には、特に同化目的のために、より少ない詳細でより正確な翻訳をする方が、元のソーステキストの正確な意味を下手に翻訳するよりも有利である。このことは、Ｍｉｒｋｉｎらにおける人間の翻訳者で経験的に示されてきたが、詳しくは、“Ｓｏｕｒｃｅ−ｌａｎｇｕａｇｅｅｎｔａｉｌｍｅｎｔｍｏｄｅｌｉｎｇｆｏｒｔｒａｎｓｌａｔｉｎｇｕｎｋｎｏｗｎｔｅｒｍｓ，”ｉｎＰｒｏｃ．ＪｏｉｎｔＣｏｎｆ．４７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡＣＬａｎｄｔｈｅ４ｔｈＩｎｔｅｒｎ’ｌＪｏｉｎｔＣｏｎｆ．ｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｏｆｔｈｅＡＦＮＬＰ，ｐａｇｅｓ７９１−７９９，ＡＣＬ（２００９）（以下では、「Ｍｉｒｋｉｎ２００９」と略す）、および、Ａｚｉｚｅｔａｌ．，“Ｌｅａｒｎｉｎｇａｎｅｘｐｅｒｔｆｒｏｍｈｕｍａｎａｎｎｏｔａｔｉｏｎｓｉｎｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：ｔｈｅｃａｓｅｏｆｏｕｔ−ｏｆ−ｖｏｃａｂｕｌａｒｙｗｏｒｄｓ”ｉｎＰｒｏｃ．１４ｔｈＡｎｎａｕｌＭｅｅｔｉｎｇｏｆｔｈｅＥｕｒｏｐｅａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ（ＥＡＭＴ）２０１０．、を参照されたい。加えて、ソーステキストにおける未知ワードの場合、ソーステキストの推論版の生成を許可することは、それの正確な言い換えよりもむしろ有利であり得る。

ソーステキストを書き換えるための、本明細書で有用な典型的な書き換え方法は、テキスト単純化および原文含意技術に基づく書き換え方法を含む。

１．テキスト単純化
自動的なテキスト単純化は、読みやすいテキストを提供したいという欲求によって動機付けられる。テキスト単純化の方法は、読むことを学ぶ者、または新しい言語を学ぶ者のためのテキストを準備する目的で用いられてきた。同様な単純化操作は、本明細書で有用である。これらは、ワードをより単純なワードによって置き換えること、複雑な構文構造を除去すること、文を短くすること、およびテキストの中心的な考えを理解するためには、必要でない詳細を除去することを含んでもよい。正しく理解されることであろうが、単純化は必ずしも情報消失に帰着するとは限らず、かつ正確な意味を保存するが、しかし意味がより単純に表現される可能性がある。単純化技術は、例えば、Ｆｅｎｇ，Ｌ．，“ＴｅｘｔＳｉｍｐｌｉｆｉｃａｔｉｏｎ：Ａｓｕｒｖｅｙ，”Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ，ＣＵＮＹ（２００８）．、で説明されている。

一例として、ウィキペディア（Ｗｉｋｉｐｅｄｉａ）による用語「火山」の定義は、正規（複雑な）の形式と単純化された形式で見つけられる。最初の文は、以下のように読める。
ａ．（複雑な形式）
火山は、惑星の表面または地殻における穴、または破裂であり、これは、熱いマグマ、火山灰およびガスが地表の下から漏れ出ることを可能にする。
ｂ．（単純化された形式）
火山は、溶岩（熱い液体の岩）が地下のマグマだまりから出てくる山である。

ユーロパール（Ｅｕｒｏｐａｒｌ）に基づく翻訳モデルで訓練されたモーゼズ（Ｍｏｓｅｓ）を用いた翻訳構成部による、これらの定義のスペイン語への翻訳は、以下の通りである（ｈｔｔｐ：／／ｗｗｗ．ｓｔａｔｍｔ．ｏｒｇ／ｍｏｓｅｓ／ＲＥＬＥＡＳＥ−１．０／ｍｏｄｅｌ／を参照）。
ａ．ｕｎｖｏｌｃａｎｅｓｕｎａａｐｅｒｔｕｒａ，ｏｒｕｐｔｕｒａ，ｅｎｕｎｐｌａｎｅｔａ’ｓｓｕｐｅｒｆｉｃｉｅｏｃｒｕｓｔ，ｑｕｅｐｅｒｍｉｔｅｍａｇｍａｃａｌｉｅｎｔｅ，ｌａｓｃｅｎｉｚａｓｖｏｌｃａｎｉｃａｓｙｇａｓｅｓｄｅｅｓｃａｐｅｄｅｐｏｒｄｅｂａｊｏｄｅｌａｓｕｐｅｒｆｉｃｉｅ．
ｂ．ｕｎｖｏｌｃａｎｅｓｕｎａｍａｎｔａｎａｄｏｎｄｅｌａｖａ，ｌｉｑｕｉｄｏｓ（ｃａｌｉｅｎｔｅｒｏｃａ）ｖｉｅｎｅｄｅｕｎｍａｇｍａｃａｍａｒａｂａｊｏｅｌｔｅｒｒｅｎｏ．

第２の文がより良く翻訳されており、かつ多くの目的のためには十分であろうということは、両方の言語に通じた人にとって明らかである。単純化のレベルは、タスクに依存して調節することができる。詳細の保存を要求するタスクにとっては、より保守的な書き換えアプローチが望ましい。

本システムでは、単純化のための規則が組み込まれており、それによれば、単純化された文を自動的に生成することが可能になる。本明細書での有用な２つの典型的な書き換え方法は、テキスト単純化技術に基づいている。これらは、文レベル（または機械翻訳に基づく）テキスト単純化および語彙（または同義語）単純化と呼ばれ、これらはまた、ＳＭＴに基づくことができる。

Ａ．文レベル（ＭＴに基づく）テキスト単純化
この文レベル書き換え方法では、テキスト単純化は、機械翻訳タスクとしてモデル化される。しかしながら、機械翻訳は、１つの言語から別の言語へと文を翻訳するのには用いられず、しかし同じ言語における単純化版へと文を翻訳するのに用いられる。この技術は、例えばＳｐｅｃｉａの方法による統計的機械翻訳を用いて実行することができる（Ｓｐｅｃｉａ、Ｌ．，“Ｔｒａｎｓｌａｔｉｎｇｆｒｏｍｃｏｍｐｌｅｘｔｏｓｉｍｐｌｉｆｉｅｄｓｅｎｔｅｎｃｅｓ”Ｉｎｔｅｒｎ’ｌＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＰｒｏｃｅｓｓｉｎｇｏｆｔｈｅＰｏｒｔｕｇｕｅｓｅＬａｎｇｕａｇｅ（ＰＲＯＰＯＲ），ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ．６００１，Ｓｐｒｉｎｇｅｒ，ｐｐ．３０−３９（２０１０）、を参照のこと。以下では「Ｓｐｅｃｉａ２０１０」と略す）。

典型的な方法においては、ＳＭＴ単純化モデル７４は、テキストの並列コーパスおよび同じ言語におけるそれらの単純化版から学習される。例えば、ＳＭＴ単純化モデル７４は、例えばウィキペディアのようなオンライン・リソースまたは他のデータベースから得られる並列ソース文のコーパスを用いて、ソース言語から単純化されたソース言語への（例えば、英語から単純化された英語への）単純化のために訓練されてもよい。並列ソース文の各ペアは、「複雑な」ソース文と、通常は経験ある人によって生成されたそれの「単純化」版とを含む。一例として、ＰＷＫＰ並列コーパスとして知られるそのような並列コーパスは、Ｚｈｕ等によって生成された（Ｚｈｕ，ｅｔａｌ．，“Ａｍｏｎｏｌｉｎｇｕａｌｔｒｅｅ−ｂａｓｅｄｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｆｏｒｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎ，” ｉｎＰｒｏｃ．２３ｒｄＩｎｔｅｒｎ’ｌＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（Ｃｏｌｉｎｇ２０１０），ｐｐ．１３５３−１３６１（２０１０）、を参照）。典型的な方法においては、そのような並列コーパスはフィルターにかけられ、複雑なソース（例えば英語）文だけを選択し、これらは単一の単純なソース（英語）文に整列される。その訓練方法は、コーパスから（ソース、単純化されたソース）句ペアを抽出することを必然的に伴う。各句ペアは、したがって、複雑な句からその単純化された等価句への対応付けを含む。そのようなペアのいくつかは、以下に例として示される。
ａ．伝統的な語源→その名前
ｂ．進行中のその場所のために→それは進行中であったので
ｃ．第１に乾いていて第２に冷たい→冷たいと乾いているの両方
ｄ．意味のある形に形成され、そして慣れて→慣れて
ｅ．山岳アルプス→アルプス

識別された（ソース、単純化されたソース）句ペアは、双句テーブル６４と類似するが、コーパス上で計算された関連統計を有する句テーブルとしてメモリに格納される。

ＳＭＴシステムのためのＳＭＴモデル７４の学習は、それが、対数線形得点関数、または他の得点関数のそれぞれの特徴に対する重みを識別することにおいて、ＳＭＴモデル２８の学習と類似であり得る。得点関数は、句テーブルから引き出された（ソース、単純化されたソース）句ペアを用いて、複雑な入力ソース文から生成された単純化された候補文に得点を与える。得点は、複雑なソース文および／または単純化された（ターゲット）文および学習された特徴の重みから抽出された特徴に基づく。得点関数は、言語モデルに対する特徴の重みを含んでもよい。この場合、ＭＴに基づく書き換えに使用される言語モデルは、単純化されたソース言語モデルであってもよく、例えばより単純な文の生成を促進するために、（複雑な、単純な文の）並列コーパスからの、または単純化された文の一カ国語だけのコーパスからの、単純な英語文だけによって訓練される。特に、単純化されたソース文の各ワード（またはｎグラム、ここでｎは２以上）に対して、単純化されたソース文書において次に来るワードと結合するワードを見る確率は、データ構造から引き出される。引き出された確率は共に掛け合わされ、かつその結果は、単純化されたソース文におけるワード（またはｎグラム）の数を説明するために正規化される。言語モデルは、したがって、単純化されたソース文の流暢さを計算する。

Ｂ．語彙単純化
テキスト単純化に対する別の操作は、語彙置換を含む。複雑なソーステキストから単純化されたソーステキストに翻訳するために、機械翻訳システムを訓練するというよりはむしろ、このアプローチは語彙単純化に直接取り組む。例えば、関連する同義語は、複雑なソース（例えば複雑な英語）から簡単化されたソース（例えば英語）への単純化のために、訓練されたＳＭＴモデルの句テーブルから抽出されてもよい。上で説明された単純化モデル７４のための句テーブルは、この目的のために使用されてもよい。抽出された同義語は、それらがより高い確信度の翻訳文を産み出すであろうという仮定の下で、新しい文を単純化するための置換として使用される。一実施形態において、すべての単一トークンの対応付けは、句読点、数およびストップワードの対応を除去して、訓練された単純化モデル７４の句テーブルから抽出される。残っているソースワードとターゲットワードのペアは、見出し項目が付けられ、かつそれらが、ワードネット（ＷｏｒｄＮｅｔ）のような適切なリソースにおいて認識された同義語であるかを確認するためにチェックされる。ワードネットの議論に対しては、Ｆｅｌｌｂａｕｍ，Ｃ．，ｅｄｉｔｏｒ，ＷｏｒｄＮｅｔ：ＡｎＥｌｅｃｔｒｏｎｉｃＬｅｘｉｃａｌＤａｔａｂａｓｅ（Ｌａｎｇｕａｇｅ，Ｓｐｅｅｃｈ，ａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎ），ＴｈｅＭＩＴＰｒｅｓｓ（１９９８）、を参照されたい。仮にこの情報が、ＳＭＴ単純化モデル７４の句テーブルにおいて利用可能でない場合そのようなリソースはまた、ワードに対する品詞タグを識別するために用いることができる。認められた同義語であるそれらのワード・ペアは、妥当な置換ペアとしてラベルが付けられ、かつ同義語語彙集７６における複雑−単純ワード・ペアとしてメモリ３４に格納されるが、そうでない場合、それらは廃棄される。他の複雑−単純ワード・ペアは、ワードネットのような、以前に生成されたリソースから得てもよい（Ｓｐｅｃｉａ２０１０におけるテーブル２を参照）。

例えば、Ｓ２１６で、ソース文の中で複雑なソースワードの一致が見つかると、元のワードの語形変化に合わせるように適切に語形変化された後（例えば、より単純な同義度が置換される複雑なワードに合わせるために、性、格、数などを変えることによって）、それはより単純な同義語で置き換えられる。

ソース文字列に対してこのアプローチを用いた書き換えの例は、以下の通りである。
ａ．なぜガリレオ研究計画は、ライバルの計画を置き換えたか。
ｂ．なぜガリレオ研究計画は、競争相手の計画を置き換えたか。

正しく理解されることであろうが、多数の書き換えられた文は、語彙（同義語）方法によって、単一のソース文から生成されてもよい。これは次の式と等価であり、ここでｗは、リスト７６中の同義語が見つけられる文におけるワードであり、かつ｜ｓｙｎ（ｗ）｜は、ｗ自体を含めて、リスト上のｗに対する同義語の数である。

−１の理由は、ソースが、この組み合わせのセットの中に含まれるからである。あまりにも多くの選択肢がある場合、これは問題を引き起こすかもしれず、かつ、したがって、典型的な方法は、書き換えられた文の数を減らすために（例えば、最も頻出する同義語ペアだけを選択するか、ワードが１つ超の同義語を持つ場合を選択することによって）フィルターをかける方法を使用するか、または必要に応じて漸増的にそれらを計算してもよい。

例として、次のソース文字列が与えられる。
なぜガリレオ研究計画は、ライバルの計画に取って代わったか。

システムは、「取って代わった（置き換えた）」および「ライバル（競争相手）」に対して、リスト７６中に一致を見つけてもよい。各々は１つの同義語を有し、次のように、書き換えられた文字列に対して３つの選択肢を提供する。
ａ．なぜガリレオ研究計画は、ライバルの計画を置き換えたか。
ｂ．なぜガリレオ研究計画は、競争相手の計画に取って代わったか。
ｃ．なぜガリレオ研究計画は、競争相手の計画を置き換えたか。

システムは、これらのすべてを考慮してもよく、または最も高い翻訳確信度を有する選択肢が、ユーザーに提示されるべきであることを見出す。

２．含意に基づく書き換え
原文含意（ＴＥ）は、共通のタスクに推論を適用する必要性を減らすことによって、様々な自然言語処理（ＮＬＰ）応用に対して適用されてきた原文推論のための枠組みであり、１つのテキスト（Ｈと表される）の意味を、別のテキスト（Ｔと表される）から推論することができるか、というものである。そのような関係が保たれる場合、その場合には、ＴはＨを原文含意すると言われる（Ｄａｇａｎ，ｅｔａｌ．，“Ｒｅｃｏｇｎｉｚｉｎｇｔｅｘｔｕａｌｅｎｔａｉｌｍｅｎｔ：Ｒａｔｉｏｎａｌｅ，ｅｖａｌｕａｔｉｏｎａｎｄａｐｐｒｏａｃｈｅｓ，”ＮａｔｕｒａｌＬａｎｇｕａｇｅＥｎｇｉｎｅｅｒｉｎｇ，１５（４）：１−１７（２００９）、を参照のこと）。言い換えは、それゆえに、含意関係の特別な場合であり、そこでは２つのテキストが共に、お互いを含意する。単純化および一般化の概念もまたＴＥの範囲内で捉えることができ、そこでは単純化されたまたは一般化されたテキストの意味は、元のテキストの意味によって含意される（Ｍｉｒｋｉｎ，Ｓ．，ＰｈＤｔｈｅｓｉｓ，“ＣｏｎｔｅｘｔａｎｄＤｉｓｃｏｕｒｓｅｉｎＴｅｘｔｕａｌＥｎｔａｉｌｍｅｎｔＩｎｆｅｒｅｎｃｅ，”Ｂａｒ−ＩｌａｎＵｎｉｖｅｒｓｉｔｙ（２０１１）．、を参照のこと）。本事例では、言い換え（これは意味を保存する）操作と単純化または一般化（これは中心の意味を保存するが、しかしある情報を失うかもしれない）操作の両方を、含意に基づく方法によって提供するために、ＴＥを使用することができる。

典型的な含意構成部７２は、含意認識のために用いられる任意の従来型原文含意システムに基づくことができる。しかしながら、目標はいくぶん異なる。原文含意においては、システムは２つのソース文字列を考慮し、すなわち、ＴおよびＨが与えられると、システムは、ＴがＨを含意するかどうかを評価する。含意の認識に対しては、大きなセットの含意規則が用いられており、この規則は、同義性（例えば「買う ⇔ 取得する」および上位性の関係（ｈｙｐｅｒｎｙｍｙ）（「プードル → 犬」のような関係）に対応する語彙規則と、述語文法項タプルのペア間での関係を捉える語彙構文規則と、構文構造体上で働く構文規則とを含む。

本応用は、含意認識というよりはむしろ、含意生成を含む。現存のＴＥシステムは、ソース文から含意されたテキストを生成するために、ＴＥシステムの含意規則を適用するこの目的に適合し得る。したがって、Ｈが存在せず、Ｔだけが存在する本方法においては、従来のシステムにおいて含意を認識するために用いられる規則が、代わりに、含意された（書き換えられた）ソース文Ｈを生成するために使用される。原文含意書き換えは、ソーステキスト文字列によって含意される代替ソース文字列を生成するために構成される一組の含意タイプ書き換え規則の少なくとも１つを適用するステップを含む。

そのような規則が生成されてもよい現存のＴＥシステムの例は、オープン・ソース・バール−イラン（Ｂａｒ−Ｉｌａｎ）大学原文含意エンジン（ＢＩＵＴＥＥ）であり、これはＳｔｅｒｎとＤａｇａｎの、“ＢＩＵＴＥＥ：Ａｍｏｄｕｌａｒｏｐｅｎ−ｓｏｕｒｃｅｓｙｓｔｅｍｆｏｒｒｅｃｏｇｎｉｚｉｎｇｔｅｘｔｕａｌｅｎｔａｉｌｍｅｎｔ，” Ｐｒｏｃ．ＡＣＬ２０１２ＳｙｓｔｅｍＤｅｍｏｎｓｔｒａｔｉｏｎｓ，ｐｐ．７３−７８，ＡＣＬ２０１２（ｗｗｗ．ｃｓ．ｂｉｕ．ａｃ．ｉｌ／〜ｎｌｐ／ｄｏｗｎｌｏａｄｓ／ｂｉｕｔｅｅで利用可能）、で説明されている。現存の含意システムのすべての含意規則が、本応用に適用可能であってもよいというわけではない。次の３つの条件のいくつか、またはすべてを満足するために、適切なＴＥ規則が選択されてもよい。
（ｉ）規則は流暢さを維持する。
（ｉｉ）規則はかなり保守的である、すなわち、テキストからあまり多くの情報を省略しない。
（ｉｉｉ）規則は、単純化のような、本明細書で有用な種類の操作に従い、かつ常識推論には従わない（例えば、「その母親は公園で授乳していた → その母親は彼女の赤ん坊と一緒に公園にいた」のような推論は一般に回避される）。従来のＴＥシステムの規則は、したがって、最も適切であるものを識別するために、手動でフィルターにかけられてもよい。これらの基準に従う含意規則を、自動的にまたは半自動的に選択することもまた、熟慮される。規則を生成するＴＥもまた、手動的に工夫されてもよい。ＴＥ規則は、従属性解析木の上で働いてもよい。例えば、Ｌｏｔａｎによって手動的に工夫されたものを参照されたい（Ｌｏｔａｎ，Ａ．，Ｍａｓｔｅｒ’ｓｔｈｅｓｉｓ，“Ａｓｙｎｔａｘ−ｂａｓｅｄｒｕｌｅ−ｂａｓｅｆｏｒｔｅｘｔｕａｌｅｎｔａｉｌｍｅｎｔａｎｄａｓｅｍａｎｔｉｃｔｒｕｔｈｖａｌｕｅａｎｎｏｔａｔｏｒ，”ＴｅｌＡｖｉｖＵｎｉｖｅｒｓｉｔｙ２０１２、を参照のこと）。

典型的な書き換えツールに統合されてもよい、ＴＥに基づく書き換えの例は以下の通りであり、ここで（ｂ）は、より複雑な文である（ａ）から変換され、書き換えられた文を示す。
（ａ）静かに、そして言葉もなく、彼は部屋を去った
（ｂ）言葉もなく、彼は部屋を去った

この規則によれば、副詞は除去される。

潜在的な原文含意規則に対する他の例は、以下のとおりである。

ａ．受動態を能動態に、またはその逆に変換すること。例えば、「ＸはＹを買った」は、「ＹはＸによって買われた（または、その逆）」に置き換えられる。

ｂ．接合詞のペア間で位置を交換すること。例えば、「ルイーズとテルマ」は「テルマとルイーズ」に置き換えられる。

ｃ．関係代名詞の挿入と削除（例えば、ｗｈｉｃｈ／ｔｈａｔ／ｗｈｏｍおよびｂｅのそれぞれの形式の除去／追加）。例えば、
“Ｔｈｅｃａｒｗｈｉｃｈｗａｓｄｒｉｖｅｎｐａｓｔｔｈｅｅｘｉｔｃｒａｓｈｅｄ”は、”Ｔｈｅｃａｒｄｒｉｖｅｎｐａｓｔｔｈｅｅｘｉｔｃｒａｓｈｅｄ”に置き換えられる。

ｄ．連結詞に対する同格。これらは、しばしば説明として見なされる句切り（例えば、コンマ）によって区切られた句であり、これらは、逆さまにすることができるか、または、いくつかの場合、除去されるか、または分割される、例えば、
「少年、彼の息子、早く着いた」は、
「少年は早く着いた」または、
「少年は彼の息子である。少年は早く着いた」によって置換えられる。

書き換えツールによって使用される他の規則は、同格または節の除去、文への分割、または受動態から能動態への変換を扱ってもよい。

原文含意規則は、言い換えにおけるように、同じ意味を維持することを狙いとする必要はないが、しかしソースを一般化してもよい。

他の書き換え規則は、語彙または句の置換、再整理、語彙−構文的修正（変更は、ワードと構文構造の両方に影響を与える）、構文変更（例えば、受動態から能動態へ）などを実行するために用いられてもよい。そのような規則は自動的に学習されてもよいが、しかし、ワードネットのような、規則を得るための多くの利用可能リソースもまた存在する。

いくつかの規則は他のものよりも効果的なので、規則は組み入れの前にテストされてもよい。新しい規則はまた、現存するものから自動的に創り出されてもよい。例えば、テンプレート書き換え規則は、次のような形式であると仮定する、すなわち、ＸはＹを買う ⇔ ＸはＹを所有する、ここで「買う」は、買うことの任意の動詞形を表し、かつＸとＹは実体（または普通名詞とさえも）と呼ばれる。検索は、「ＸがＹを買う」のようなテンプレートの部分の発生に対する（ウェブのような）コーパスから成り、これによって、例えば「ＸｅｒｏｘがＡＣＳを買った」、「ＮｕａｎｃｅがＳｗｙｐｅを買う」が引き出されるかもしれない。変数の具体化は、新しい検索テンプレートである、ＸｅｒｏｘＺＡＣＳ、を創り出すために用いることができる。コーパスはその後、「ＸｅｒｏｘがＡＣＳを取得した」を得るために、新しいテンプレートで検索される。これは、言い換え（書き換え規則）、ＸがＹを買う ⇔ ＸがＹを取得する、を生成する規則を生成するために用いることができる。

書き換えのために使用され得る別の方法は、ソース言語からピボット言語への、かつその後、ピボット言語からソース言語へ戻る機械翻訳（例えば、ＳＭＴ）を含む。ピボット言語はソース言語とは異なる任意の言語であることが可能であり、かつＳＭＴシステム１２がソーステキストを翻訳する先の言語と異なることも可能である。

正しく理解されることであろうが、上で議論した方法との間で何らかの重複がある。例えば、単純化は、言い換えと原文含意の両方に属する技術を用いてもよく、例えばワード置換と言い換えは、その関係が双方向である１つのタイプの原文含意である。

書き換えツール・インターフェース
書き換えツール１０は、ウェブ応用として履行することができる。典型的なインターフェース２４のスナップショットが、図３に示される。このインターフェースによって、ユーザーは、文書選択器９０を用いて、翻訳したい文書１４をアップロードすることができる。選択されたソーステキスト１４は、一組のソース文として表示される。各ソース文（または、少なくともそれらのいくつか）は、その文の計算された翻訳確信度の指示器９２と関係している。一実施形態において、これらの指示器は文の隣に表示され、かつ翻訳確信度の推定を表すために、カラーコード化される。例えば、カラーコードは、最も高い確信度を表すための緑、中位の確信度を表すためのオレンジ、および最も低い確信度を表すための赤を含むことができる。確信度値が緑としてコード化された文は、よい翻訳を作り出すために、通常は書き換えを必要とせず、その一方で、赤でマークされた文は、低い品質で翻訳されたと推定され、したがって、ユーザーからの注意を最も要求することが予想される。実際の翻訳確信度の得点がさらに提示されてもよい（典型的な指示器９２内に示される数は、単に代表的なものであり、かつシステムによって出力された実際の値を反映することは、意図されていない）。システムが翻訳できないテキスト文字列は、異なる色でカラーコード化されてもよい。

典型的な実施形態において、ユーザーは、元の文より高い確信度得点を有する代替文を単に見直すことができる。システム３０が、１つ以上の書き換えられた文をより高い翻訳確信度を有するものと認定したそれらの文については、それらの隣に「意見提案」アイコン９４（例えば、拡大鏡）が表示される。クリックするかまたは別の方法でこれらのアイコンの１つを作動させると、インターフェース２４によって、最も高い翻訳確信度を有する、１つ以上の対応する書き換えられた文が表示される。例えば、ユーザーが４番目の文９６に対してアイコン９４をクリックすると、これによって、この文に対する２つの最も確信度の高い代替文９８および１００が、スクリーンの別領域に表示される。これらの代替文の書き換え提案は、元のソース文に対するのと同じ方法でカラーコード化される、関連付けられた翻訳確信度指示器９２を有する。最も高い確信度得点を有する代替文９８は、代替文のリストの一番上に表示されてもよい。元の文９６もまた、編集されることが可能であるように、かつ違いを眺めるのがより簡単となるように、このリストの中に表示されてもよい。ユーザーは２つの選択肢を有する。すなわち、彼は提案された代替文９８、１００の１つを選択することができる、または、彼はソース文９６または代替９８、１００の１つのいずれかを編集することを選択できる。

第１代替文の場合、提案は単にワード「捕捉した」をワード「捕まえた」で置き換えることであり、書き換えは、文の翻訳を改善すると推定される。インターフェースは、例えば目立たせることによって、色を変えることによって、または他の方法で、行われた修正を強調することによって、行われた変更を示す。ユーザーは、編集するべき文の１つをクリックしてもよい。編集のために、例えば、その文自体または関連する編集アイコン（双方向矢印）をクリックすることによって選ばれた代替文は、目立たせてもよく、または修正が示された異なる色で見せてもよい。ユーザーは、表示された文の１つを（例えば、チェックマーク・アイコンで）確認してもよい。ユーザーの確認後、文書の表示は、ユーザーの選択に基づいてアップデートされ、これにはアップデートされた確信度推定が含まれる。いつでも、ユーザーは、ソース文または代替文の翻訳が表示されることを要請するために、翻訳アイコン（星印）をクリックすることができる。例えば、ユーザーは代替文１００を選択してもよく、代替文１００は、翻訳を改善すると予想されるが、しかし最も高い確信度を有するものでなくてもよい。翻訳が行われると、ユーザーは、編集されたテキストおよび／またはその翻訳文を保存することができる。正しく理解されることであろうが、インターフェース２４の設計は、図３に示されたものに限定されない。

典型的なインターフェース２４は、対話型の作業を可能とするために、迅速な応答時間を提供するように設計される。一実施形態においては、文書がロードされると、文に対する代替文および確信度得点が一度に計算される。これは並列であり得、したがって、迅速なロード時間を保証する。最初のローディング後、文書中の任意の文に対する代替文およびそれらの確信度得点は、その後は必要な時に、直ちに取り出すことができる。その後は、仮にユーザーが手動で文を編集する場合にのみ、この文の翻訳に対して、確信度が急いで評価される。編集および選択は、あらゆるユーザー操作の後、自動的に保存される。したがって、仮に後でユーザーが作業を再開したい場合、作業の以前の状態に、遅滞なくアクセスすることができる。

典型的なインターフェース２４は、対話型モードでの使用に対して示されており、そこではユーザーは、元のソース文よりも高い翻訳確信度を有するソース代替文のリストを受け取る。彼はそれらの中から１つを選び、元の文を置き換えるか、または、元の文または代替文のいずれかを編集する。ツールもまた自動モードで用いることができ、その中でシステムは、低い確信度入力の文の各々を反復して書き換え、かつ適度に高い確信度の翻訳が達成されるまで、それを翻訳する。例えば、各反復において、ソース文をさらに変形し、したがって、ある程度まで意味を薄めるような、より損失のある操作を加えることによって、ソース文は再公式化される。そのような操作の例には、修飾語の除去、または文からの節単位の除去が含まれる。

典型的な書き換え提案は、少なくとも部分的には、使用されるＳＭＴモデル２８に依存する。別個の書き換えツール１０またはその適切な部分を、したがって、１つの言語におけるソーステキストが翻訳されるべき先の各言語に対して提供することができる。翻訳のためのソースを準備するプロセスは、したがって、すべてのターゲット言語に対して別々に繰り返されてもよい。仮に自動モードが使用される場合、このことは問題ではないが、その一方で、対話型モデルでの使用に対しては、それは時間がかかるかもしれない。一実施形態において、ソース言語と複数のターゲット言語が与えられると、単一ツール１００は、要求される言語ペアのセットの各々に対して翻訳確信度を計算し、かつそれらのすべてを満足する代替ソース文を選択してもよく、すなわち、これによって、すべてのターゲット言語に対して、元のソース文よりも高い翻訳確信度が提供される。これは、特定のＳＭＴモデル２８に対する書き換えと比較して最適解を提供しなくてもよく、その一方で、それは実際的な解を提供することができ、実際的な解は、ユーザーがソーステキストを一度しか見直す必要がないので、書き換え時間を低減する。

いくつかの書き換え規則は文脈に敏感であるが、その理由は、同じワードに対する異なる意味が、異なる文脈においては適用可能なためである。この種の事例に対して適切な文脈整合は、Ｍｉｒｋｉｎ２００９および次の文献である、Ｍｉｒｋｉｎｅｔａｌ．，”Ｃｌａｓｓｉｆｉｃａｔｉｏｎ−ｂａｓｅｄｃｏｎｔｅｘｕａｌｐｒｅｆｅｒｅｎｃｅｓ，”Ｐｒｏｃ．ＴｅｘｔＩｎｆｅｒ２０１１ＷｏｒｋｓｈｏｐｏｎＴｅｘｔｕａｌＥｎｔａｉｌｍｅｎｔ，ｐａｇｅｓ２０−２９，ＡＣＬ２０１１、で扱われている。

代替文の順位付けは、単に翻訳確信度に基づいてもよい。しかしながら、ソースからの意味的なずれの程度のような、他の要因が順位付けで考慮されてもよい。ずれは、ソース文字列と書き換え文字列との間の編集距離として計算されてもよく、または用いられる規則に基づいてもよい（例えば、あまり保守的でない規則は、より低い重みが与えられ、その結果、より低く順位付けされる傾向にある）。特にあまり保守的でないか、より損失のある書き換え技術が使用される場合、これらの要因（翻訳確信度およびソースからのずれの程度）の両方に基づく順位付けは、有用かもしれない。

典型的なシステムおよび方法は、一般的に自動翻訳の品質を改善するために用いることができ、かつ翻訳サービスにおけるさらなる自動化を促進し、かつコストを低減する可能性がある。一例として、システム３０はサービス機関（例えば、コール・センター）で使用されてもよく、これによって、ターゲット言語に通じていない係員が、自分自身の言語でクライアントに応答することが可能になる。係員は、クライアントのメッセージをターゲット言語から、係員が用いるソース言語に翻訳するために、従来のＳＭＴシステムを使用してもよく、そこでは翻訳の品質は、係員がクライアントのメッセージを理解することができる程度であれば、それ以上に高すぎる必要はない。係員はその際、システム３０を使用して、十分に翻訳され、改善された確信度を有するソース言語において応答の準備をし、かつＳＭＴシステム１２によって、その応答をクライアントの言語に翻訳する。これによって、サービス機関は１つの環境を維持し、そこでは係員は、分野の専門家であると共に異なる言語に通じている必要は全くなく、このことは、その機関が論ずる必要のある問題である。

本システムおよび方法はまた、他のビジネス状況において応用を見出すが、そこでは例えば、異なる言語での操作マニュアルの生成、学術論文の翻訳などにおけるように、その分野で専門性があると共にターゲット言語に能力のある人が不足しているため、後編集のコストが高い。後編集はその際、最も困難な場合のために、確保することができる。典型的なシステムは、すべての翻訳文の精度を完全には保証することはできないが、一方でそれは、後編集を通過する必要がある文の数、およびこのタスクの全体的なコストを削減することができる。

プロトタイプ・システム３０は、２００８年ニュース解説データからの９６０文を用いた、英語からスペイン語への翻訳設定において、本方法の初期評価で用いられた。英語−スペイン語翻訳文を得るために、英語−スペイン語ユーロパール（Ｅｕｒｏｐａｒｌ）訓練モデルのモーゼズ・リリース１．０が使用された（ｈｔｔｐ：／／ｗｗｗ．ｓｔａｔｍｔ．ｏｒｇから利用可能）。

英語を話すが、しかしスペイン語を話さない２人の注釈者が、英語のテキストを書き換えるために、典型的な書き換えツールを用いた。注釈者らは、提案され、書き換えられた文を見直し、かつ信頼度推定器６６の「判断を信頼する」ように指示された。すなわち、最も確信があるものから最も確信がないものまでの提案を見直し、注釈者らは、流暢であり、かつ全体的としてソース文書の意味を保存している第１の書き換えられた文を受入れた。元の文および選択された代替文は、その後、共にスペイン語に翻訳され、かつ競争相手として、２人のスペイン語の母国語話者に提示された。文はコーパスのスペイン語側から取られ、元の文書におけるそれらの文脈の中に置かれた。２つの競争相手の提示の順番はランダムであった。スペイン語を話す注釈者は、与えられた文脈の中にあることを踏まえて、２つの文のどちらを好むか、または仮に他方よりも一方を選ぶことができない場合には、「明確な勝者なし」を選ぶように依頼された。

実施例１：ソース側分析
評価のこの部分に対しては、９６０の英語文がツールに提供された。語彙単純化方法はそれらの７０％に対して書き換えを提示したが、その一方で、文レベル単純化方法は、１１６（１２％）の他の文に対するのと同様に、これらの半分超に対して異なる書き換えを提案した（すなわち、２つの方法が同じ提案を生む場合を除いて）。構造によって、文レベル方法は、すべての文に対して少なくとも１つの書き換えを生成する（この評価では、単一の最良訳が用いられた）。さらに、この方法は英語から英語への翻訳であるため、時々、生成された書き換えは、元の文と同一である。したがって、文の１８％に対しては、書き換えは行われなかった。提案された書き換えについて、文の５７％はより高い確信度提案を有した。これらは、文レベル方法と語彙方法とによって、ほぼ等しく分割された。表１は、２つの方法の各々によって提案された、いくつかの書き換えを示す。語彙方法は、文の中で１つまたは２つのワードを、それらの同義語によって置き換えた。文レベル方法は同様にそれを行ったが、しかしまた、複数語の同義語置換、およびいくつかの他の単純な言い換えを含めて、他の書き換えタイプを生成した。

例（１）は文レベル方法による書き換え例を示し、そこでは（ａ）は元の文の一セグメントであり、（ｂ）はその対応する書き換えである。
例（１）
ａ．国民投票で確実に投票するであろうと言う人々の割合だけを見ると、我々は・・・を見つける
ｂ．確実に投票するであろうという人々の割合だけを見ると、我々は・・・を見つける

そのような単純化が妥当であるかどうかは、文脈に依存する。仮に文脈によって、「投票するであろう」が「国民投票で投票するであろう」を表すことが明らかであるなら、その際は、より良い翻訳が期待されていると仮定すれば、これは望ましい種類の書き換えである。確かに、文脈を考慮すれば、そのいくつかは以下に示されるが、修飾語の除去は、ここでは妥当であると見ることができる。
国民投票における興味について質問される場合、サンプルの６０％は、確実に国民投票で投票するであろう・・・と言った。投票する現在の決心を仮定すれば、国民投票は確かに妥当であるべきだ・・・。
［国民投票で］確実に投票するであろうと言う人々の割合だけをみれば、我々は・・・を見つける。

別の場合において、文レベル方法による修飾語除去は、例（２）に示されるように、妥当ではない書き換えに帰着する。
例（２）
ａ．アメリカ連邦準備銀行、ヨーロッパ中央銀行・・・。
ｂ．アメリカ準備銀行、ヨーロッパ中央銀行・・・。

この書き換えは、英語を話す注釈者によって誤って受け入れられた。その理由は、ユーザーに提示されたインターフェースにあるかもしれず、このインターフェースは、追加または置換を構成する違いを目立たせるが、しかしユーザーに削除を見抜くための簡単な手段を提供しなかったからである。これは、例えば削除を目立たせるための取消し線を用いた、インターフェースに対する修正によって、容易に対処することができる。

また、不正確な同義語が、ワードの置き換えとして時々提案された（例えば、クリスマス雰囲気に対してクリスマス空気）。選択器の選択を、確信度において少なくとも最小の改善に関連付けられた、これらの書き換えられたソース文字列にのみ制限することによって、「明確な勝者なし」のような事例は低減されるかもしれず、かつ特に完全に自動化された場合において、ツールに関する導入エラーの可能性は低減されるかもしれない。対話型の場合、ユーザーは恐らく、ツールが下手に書き換えられたソース文字列を作り出す場合を見抜くことができ、かつその後、元の文字列を選択し、書き換えられた文字列を編集し、または、仮にあるとした場合、別の代替文字列を選択することができるであろう。しかしながら、翻訳確信度における閾値の改善を要求することは、ユーザーの作業負荷を軽減するために、対話型の場合には依然として有用であるかもしれない。

しかしながら、一般に文レベルの方法はうまく働くことが認められたが、これは、標準ＳＭＴシステムがそうであるように、単一文のレベルで処理される場合である。したがって、修飾語「国民投票で」の除去は、文脈を考慮して行われたのではなく、しかし訓練セットから学習された規則に基づくものである。ユーザーの評価を有することは、適切な書き換えを決定する上で助けとなる。ユーザーは、文脈が与えられると、落とされたテキスト・セグメントが必要かどうかを判断することができる。しかしながら、特に自動化されたツールの場合、文脈情報は、より広い文脈を考慮する書き換え方法を用いるか、またはソース文から大きく外れすぎる書き換えをフィルターをかけて除くかのいずれかによって、ツールの中に統合することができる。

（実施例２）
翻訳への影響
スペイン語への翻訳のために、４４０の文が用いられた。これらの内のほぼ４分の１は、より高い確信度提案を有し、提案は、英語を話す注釈者によって受け入れられた。それらの１５％は、元の文と同一の翻訳を産み出した。これらのほとんどは、語彙方法に由来し、そこでは２つのソース同義語が、同じターゲットワードに翻訳された。例えば、文の中で「スタートする（ｓｔａｒｔ）」によって置き換えられたワード「始まる（ｂｅｇｉｎ）」は同様な確信度に帰着したが、その理由は、両方がスペイン語のワード”ｃｏｍｅｎｚａｒａ”に翻訳されるからである。前編集の努力を節約するためには、そのような代替をユーザーに示すことは、省略することができる。

この評価の結果は、事例の２０．６％において、元の文の翻訳が、書き換えられたものよりも好ましいことを示している。事例の３０．４％において、書き換えられた文の翻訳が好ましく、かつ事例の４９％において、どちらが好ましいとうことはなかった。小さなサンプルサイズのために、これらの百分率は統計的に有意ではないかもしれない。

２つの方法の中で、文レベル書き換えに由来する翻訳は、注釈者によってしばしば好ましいものとされた。改善は、より良い読みやすさ、文法性、または翻訳からの不明ワードの除去において明示された。

正しく理解されるべきことであるが、プロトタイプ・ツール１０は、限られたセットの書き換え規則を使用し、かつより良い結果を達成するために、洗練され得るであろう。しかしながら、プロトタイプ・ツールに関してさえも、書き換えは、翻訳品質を改善する傾向にあるという結果が示される。さらに、評価においては、すべての文が書き換えられた。その例において、同一の（例えば、２つのソース同義語が同じターゲットワードに翻訳される場合）、またはほぼ同一の翻訳がしばしば生成されるが、この場合、確信度における極めて小さな違いだけがある。

仮に確信度における実質的な改善に関連付けられる書き換えのみが表示される場合、ユーザーの認識努力は低減されるであろう。

評価で用いられた方法は、新しい書き換え技術を評価するために使用することができる。例えば、仮に新しく追加された書き換え方法が、書き換えられた文字列の翻訳が好ましいとされる事例の百分率を改善しない場合、それらは、書き換え構成部に対して有用な付加ではない可能性がある。現存の規則はまた、異なるセットの規則に対する結果を比較することによって、評価することができる。

Claims

ソーステキストを書き換えるための方法であって、
第１自然言語における少なくとも１つのソーステキスト文字列を備えるソーステキストを受け取るステップと、
プロセッサで、少なくとも１つのソーステキスト文字列の各々に対して、
第２自然言語における第１ターゲットテキスト文字列を生成するために、機械翻訳システムで前記ソーステキスト文字列を翻訳するステップと、
前記ソーステキスト文字列の少なくとも１つと前記第１ターゲットテキスト文字列とに基づく、少なくとも１つの特徴に基づく前記ソーステキスト文字列に対して、第１翻訳確信度を計算するステップと、
前記第１自然言語における少なくとも１つの代替テキスト文字列を生成するステップに対して準備するステップであって、前記生成するステップが前記ソーステキスト文字列を自動的に書き換えるステップを備える、ステップと、
前記少なくとも１つの代替テキスト文字列の各々に対して、
前記第２自然言語における第２ターゲットテキスト文字列を生成するために、前記機械翻訳システムで前記代替テキスト文字列を翻訳するステップと、
前記代替テキスト文字列の少なくとも１つと前記第２ターゲットテキスト文字列とに基づく、少なくとも１つの特徴に基づく前記代替テキスト文字列に対して第２翻訳確信度を計算するステップと、
前記計算された第１および第２翻訳確信度に基づいて、前記ソーステキストにおける前記ソーステキスト文字列に対する置き換えとして、前記少なくとも１つの代替テキスト文字列の１つを選択するステップに対して準備するステップと、
を備える、方法。
請求項１に記載の方法であって、修正されたソーステキストの少なくとも１つを出力するステップに対して準備するステップをさらに備える方法であって、修正されたテキストが、前記選択された代替テキスト文字列と前記修正されたソーステキストの翻訳とを備える、方法。
請求項１に記載の方法であって、前記ソーステキストにおける前記ソーステキスト文字列に対する置き換えとして、前記代替テキスト文字列を選択するステップに対して前記準備するステップが、グラフィカル・ユーザー・インターフェース上で前記代替テキスト文字列を表示するステップに対して、かつ前記代替テキスト文字列のユーザーの選択を受け取るステップに対して準備するステップを備える、方法。
請求項１に記載の方法であって、前記第１翻訳確信度と前記第２翻訳確信度とを比較するステップをさらに備え、かつ、少なくとも１つの代替テキスト文字列の少なくとも１つを選択するステップに対して前記準備するステップが、前記少なくとも１つの代替テキスト文字列の少なくとも１つの選択に対して準備するステップを備え、前記少なくとも１つの代替テキスト文字列に対しては、前記第２翻訳確信度が前記第１翻訳確信度よりも少なくとも高い、方法。
請求項１に記載の方法であって、少なくとも１つの代替テキスト文字列を前記生成するステップが、複数の代替テキスト文字列を生成するステップを備え、かつ、前記ソーステキスト文字列に対する置き換えとして、前記複数の代替テキスト文字列の１つを選択するステップに対して前記準備するステップが、
前記複数の代替テキスト文字列をフィルターにかけるステップであって、これによって、前記第２の計算された翻訳確信度が、前記第１の計算された翻訳確信度を超えないような代替テキスト文字列を除去する、ステップと、
前記複数の代替テキスト文字列の少なくともいくつかを順位付けするステップであって、この順位付けが前記複数の代替テキスト文字列のそれぞれの計算された第２翻訳確信度に基づく、ステップと、
の少なくとも１つを備える、方法。
請求項１に記載の方法であって、前記計算された第１翻訳確信度が、前記第１ターゲット文字列に基づく少なくとも１つの特徴に基づき、かつ前記計算された第２翻訳確信度が、前記第２ターゲットテキスト文字列に基づく少なくとも１つの特徴に基づき、かつ好みに応じて、
前記ソーステキスト文字列に対する前記計算された第１翻訳確信度が、前記ソーステキスト文字列に基づく少なくとも１つの特徴に基づき、かつ前記ソーステキスト文字列に対する前記計算された第２翻訳確信度が、前記代替テキスト文字列に基づく少なくとも１つの特徴に基づく、方法。
請求項１に記載の方法であって、前記計算された第１および第２翻訳確信度が、１つのグループから選択された少なくとも１つの特徴に基づき、このグループが、
ａ．前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるトークンの数と、
ｂ．前記第１ターゲットテキスト文字列と前記第２ターゲットテキスト文字列のそれぞれにおけるトークンの数と、
ｃ．前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるトークンの平均長と、
ｄ．前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれに対して計算された言語モデル確率と、
ｅ．前記第１ターゲットテキスト文字列と前記第２ターゲット文字列のそれぞれに対して計算された言語モデル確率と、
ｆ．前記第１ターゲットテキスト文字列と前記第２ターゲット文字列のそれぞれの中での各ターゲットワードの発生数と、
ｇ．前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるソースワードあたりの翻訳の平均数と、
ｈ．ソース言語コーパスにおける各ワードの逆頻度によって重み付けされる、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおける、ソースワードあたりの翻訳の平均数と、
ｉ．前記ソース言語のコーパスにおいてより低い頻度のワードであると決定される、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるｎグラムの百分率であって、ｎが少なくとも１である数とした、百分率と、
ｊ．前記ソース言語の前記コーパスにおいてより高い頻度のワードであると決定される、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるｎグラムの百分率であって、ｎが少なくとも１である数とした、百分率と、
ｋ．ソース言語コーパスにおいて観察される前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるユニグラムの百分率と、
ｌ．前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおける句読点記号の数と、
ｍ．前記第１ターゲットテキスト文字列と前記第２ターゲットテキスト文字列のそれぞれにおける句読点記号の数と、
ｎ．前記ターゲットテキスト文字列に対するＳＭＴモデルの得点と、
から成る、方法。
請求項１に記載された方法であって、前記第１自然言語における少なくとも１つの代替テキスト文字列を前記生成するステップが、テキスト単純化と原文含意書き換えとから成るグループから選択された少なくとも１つの書き換え方法を適用するステップを備え、かつ好ましくは、
以下のテキスト単純化方法および原文含意書き換えの少なくとも１つを適用するステップを備え、
ａ）前記テキスト単純化方法が、
複雑なソーステキスト文字列と、前記第１自然言語において対応する単純化されたソーステキスト文字列との並列コーパス上で訓練されてきた翻訳モデルを用いて、前記ソーステキスト文字列を前記第１自然言語における単純化されたソーステキスト文字列に翻訳する文レベル書き換え方法と、
前記ソーステキスト文字列におけるソースワードに対応する単純化されたソースワードを識別するために、複雑なソースワードの語彙集およびそれぞれの単純化されたソースワードがアクセスされる語彙単純化と、
から選択され、
ｂ）前記原文含意書き換えが、前記ソーステキスト文字列を含意するか、または前記ソーステキスト文字列に含意される代替ソーステキスト文字列を生成するように構成される一組の書き換え規則の少なくとも１つを適用するステップを備える、方法。
ソーステキストを書き換えるためのシステムであって、
第１自然言語におけるソーステキスト文字列を備えるソーステキストを受け入れるように、かつ前記ソーステキスト文字列を書き換えることによって、前記第１自然言語において少なくとも１つの代替テキスト文字列を生成するように構成された書き換え構成部と、
前記ソーステキスト文字列の第１機械翻訳および前記代替テキスト文字列の第２機械翻訳を要請するように構成された翻訳要請器と、
前記ソーステキスト文字列および前記代替テキスト文字列に対する翻訳確信度を推定するための確信度推定器と、
前記翻訳確信度に基づいて、ソーステキスト文字列に対する置き換えとして代替テキスト文字列を選択するための、またはソーステキスト文字列の置き換えのための候補を選択するための選択構成部と、
翻訳要請器、確信度推定器および選択構成部の少なくとも１つを履行するプロセッサと、
を備える、システム。