JP2014235740A - 改善された翻訳のためのソーステキストの確信度駆動型書き換え - Google Patents

改善された翻訳のためのソーステキストの確信度駆動型書き換え Download PDF

Info

Publication number
JP2014235740A
JP2014235740A JP2014108795A JP2014108795A JP2014235740A JP 2014235740 A JP2014235740 A JP 2014235740A JP 2014108795 A JP2014108795 A JP 2014108795A JP 2014108795 A JP2014108795 A JP 2014108795A JP 2014235740 A JP2014235740 A JP 2014235740A
Authority
JP
Japan
Prior art keywords
source
text string
translation
alternative
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014108795A
Other languages
English (en)
Inventor
シャハー・マーキン
Mirkin Shachar
スリラム・ベンカタパシー
Sriram Venkatapathy
マーク・ダイメトマン
Dymetman Marc
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2014235740A publication Critical patent/JP2014235740A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】翻訳品質を向上する方法
【解決手段】ソーステキスト文字列は、第2自然言語における第1ターゲットテキスト文字列を生成するために、機械翻訳システムで翻訳される。第1ターゲットテキスト文字列に基づいて、ソーステキスト文字列に対する翻訳確信度が計算される。ソース文字列を自動的に書き換えることによって、第1自然言語において、可能であれば、少なくとも1つの代替テキスト文字列が生成される。各代替文字列は、第2自然言語における第2ターゲットテキスト文字列を生成するために翻訳される。第2ターゲット文字列に基づいて、翻訳確信度が、代替テキスト文字列に対して計算される。計算された翻訳確信度に基づいて、代替テキスト文字列の1つが、ソーステキスト文字列に対する置き換え候補として選択され、かつグラフィカル・ユーザー・インターフェース上で、ユーザーに対して提案されてもよい。
【選択図】図4

Description

典型的な実施形態は機械翻訳に関し、改善された翻訳品質のためのソーステキストを準備するためのシステムおよび方法に関連して、特定の応用が見出される。
自動翻訳の品質は絶えず改善している一方で、機械翻訳(MT)エラーは、依然として一般的である。翻訳の品質は、多くの要因に影響される。1つの要因は、ソース言語とターゲット言語との間で翻訳することの難しさである。例えば、フランス語から日本語への翻訳は、言語間のより大きな違いにより、フランス語からイタリア語への翻訳よりも難しいかもしれない。他の要因として、翻訳モデル(統計的機械翻訳、SMTの場合における)および翻訳のためのテキストの分野を訓練するために利用可能なデータ量(および訓練データとの違い)が含まれる。別な要因は特定のソーステキスト自体に関するが、その理由は、いくつかのテキストは他のテキストよりも複雑だからである。
テキストはいくつかの言語に翻訳される可能性があるので、それらは、一般により翻訳可能であるように書かれてもよい。しかしながら、各MTモデルの動作はしばしば、よく理解されていないので、このことは、ある場合には、質の低い翻訳文に結びつき得る。
ソーステキストを前編集するためのコンピュータ履行型システムおよび方法に対する必要性が残っており、このことは改善された翻訳品質に帰着する。
典型的な実施形態の一態様に従えば、ソーステキストを書き換えるための方法は、第1自然言語における少なくとも1つのソーステキスト文字列を備えるソーステキストを受け取るステップを含む。本方法は、第2自然言語における第1ターゲットテキスト文字列を生成するために、プロセッサによって、各ソーステキスト文字列を機械翻訳システムで翻訳するステップを含む。第1翻訳確信度は、ソーステキスト文字列の少なくとも1つおよび第1ターゲットテキスト文字列に基づく少なくとも1つの特徴に基づいて、ソーステキスト文字列に対して計算される。第1自然言語における少なくとも1つの代替テキスト文字列を生成するステップに対して準備がなされ、これは、ソーステキスト文字列を自動的に書き換えるステップを含む。各代替テキスト文字列は、第2自然言語においてそれぞれの第2ターゲットテキスト文字列を生成するために、機械翻訳システムで翻訳される。第2翻訳確信度は、代替テキスト文字列の少なくとも1つ、および第2ターゲットテキスト文字列に基づく少なくとも1つの特徴に基づいて、代替テキスト文字列に対して計算される。本方法は、計算された第1および第2翻訳確信度に基づいて、ソーステキストにおけるソーステキスト文字列に対する置き換えとして、代替テキスト文字列の1つを選択するステップに対して準備するステップをさらに含む。
典型的な実施形態の別の態様に従えば、ソーステキストを書き換えるためのシステムは、第1自然言語におけるソーステキスト文字列を備えるソーステキストを受け取り、かつソーステキスト文字列を書き換えることによって、第1自然言語における少なくとも1つの代替テキスト文字列を生成するように構成された書き換え構成部を含む。翻訳要請器は、ソーステキスト文字列の第1機械翻訳および代替テキスト文字列の第2機械翻訳を要請するように構成される。確信度推定器は、ソーステキスト文字列および代替テキスト文字列に対して翻訳確信度を推定する。選択構成部は、ソーステキスト文字列に対する置き換えとして、代替テキスト文字列を選択し、または翻訳確信度に基づいて、ソーステキスト文字列の置き換えのための候補を選択する。プロセッサは、翻訳要請器、確信度推定器および選択構成部の少なくとも1つを履行する。
典型的な実施形態の別の態様に従えば、対話型の翻訳方法は、第1自然言語における少なくとも1つのソーステキスト文字列を含むソーステキストを受け取るステップと、プロセッサによって、少なくとも1つのソーステキスト文字列の各々に対して、第2自然言語における第1ターゲットテキスト文字列を生成するために、機械翻訳システムでソーステキスト文字列を翻訳するステップとを含む。第1翻訳確信度は、ソーステキスト文字列に対して計算される。ソーステキストにおけるソーステキスト文字列を保持するための準備がなされ、そこでは第1翻訳確信度は確信度閾値を満足し、かつソーステキスト文字列に基づいて第1自然言語における少なくとも1つの代替テキスト文字列を生成するための準備がなされ、そこでは第1翻訳確信度は、その閾値を満足しない。少なくとも1つの代替テキスト文字列の各々は、第2自然言語における第2ターゲットテキスト文字列を生成するために、機械翻訳システムによって翻訳され、かつ第2翻訳確信度は、代替テキスト文字列に対して計算される。ソーステキストにおいてソーステキスト文字列を保持するための準備がなされ、そこでは第1翻訳確信度は、少なくとも1つの代替テキスト文字列の各々の第2翻訳確信度を少なくとも満足し、そうでなければ、少なくとも1つの代替テキスト文字列の少なくとも1つを、ソーステキストにおけるソース文字列の置き換えのための候補として、ユーザーに提示するための準備がなされる。ソーステキストの翻訳文が出力されるが、この出力は、保持されてきたソーステキスト文字列および、それぞれのソース文字列の置き換えのためにユーザーによって選択されてきた、提示された代替ソース文字列に基づいてなされる。
図1は、典型的なシステムおよび方法の態様を例示する模式図である。 図2は、典型的な実施形態の一態様に従って、テキストを書き換えるためのシステムの機能的ブロック図である。 図3は、テキストを書き換えるためのユーザー・インターフェース例のスクリーンショットである。 図4は、典型的な実施形態の別の態様に従って、テキストを書き換えるための方法を例示するフローチャートである。 図5は、テキストを書き換えるための方法を例示する、より詳細なフローチャートである。
図1を参照すると、ソース書き換えツール10は、関連する機械翻訳(MT)構成部12によって、より高い翻訳品質を得ることを促進する。簡単に言えば、翻訳するべき入力文書14が与えられると、各ソース文は、ターゲットテキスト18の対応するターゲット文を生成するために、MT構成部12によって翻訳され、かつ各翻訳文の確信度が評価される。確信度評価に基づいて、翻訳文が低い品質であると予想されるソース文は、修正されるべき候補としてマークされる。典型的な書き換えシステムは対話型モードを有し、対話型モードにおいて書き換えシステムは、より高い確信度でMTシステムによって翻訳され得る、対応するソース文の代替的書き換えを、ユーザーに対して提案する。ユーザーはその後、提案され、書き換えられた文の中から、実際に翻訳されることになる文を選択することができる。代わりに、ユーザーは、提案された文をさらに編集することを決定し、かつそれがシステムによって再評価されることを要請してもよく、または未修正のソース文を選択してもよい。これは、書き換えられた文が、(意味の点から、および文書全体の文脈において)ソースの適切な置き換えであることを保証するのに役立つ。
本明細書で「テキスト文字列」として用いられているのは、複数のワードを備えるテキストシーケンスであり、かつこれは、ピリオドまたは同様の終端句読点記号で終わる文か、または、文の節または句のような、より短い(またはより長い)テキスト文字列であり得る。文に対して特別な言及がなされる一方で、そのような他のテキスト文字列もまた熟慮されることは、正しく認識されるはずである。
例えば、図1に示されるように、入力文書は、フランス語のような第1自然言語におけるソーステキストを含み、これは、S1、S2、S3およびS4で表される文のような4つのソース文字列を含む。ソース言語文は、書き換えツール10によって受け取られ、かつ、1つの例として、英語のような第1自然言語とは異なる第2自然言語におけるテキスト18に翻訳するために、MT構成部12に送られる。各ソース文字列は、したがって、T1、T2、T3、T4で表された、対応するターゲット文字列へと翻訳される。ターゲットテキスト文字列は書き換えツール10によって分析され、書き換えツール10は、各ソース文(c(S1)、c(S2)、c(S3)、c(S4))に対して翻訳確信度尺度20を計算するが、これは、対応するターゲット文字列上の少なくとも一部分に基づくことができる。翻訳文が確信度閾値γにあるか、またはそれを超える値にあると予想されるソース文字列に対しては、元のソーステキストが保持される(例におけるS1およびS4)。確信度閾値がγ未満にある翻訳文に対しては、書き換えツール10が元のソース文字列(S2およびS3)を修正して、(例えば、S2からS2A、S2BおよびS2Cを、かつS3からS3Aを生成することによって)修正されたソース文字列を備える書き換えられたソーステキスト22を発生させる。書き換えられたソース文(S2A、S2B、S2C、S3A)は翻訳され、かつもとのソース文については、その確信度が計算される。書き換えられたソース文に対して、より高い確信度が得られる場合、元のソース文よりも高い確信度を有する文の少なくともいくつかは、例えばグラフィカル・ユーザー・インターフェース24上で、ユーザーに対して提示される。2つ以上が提案される場合、ユーザーは、提示された2つ以上の代替ソース文字列(S2A、S2B、S2C)の1つを受け入れることを決定してもよい。または、例示されるように、新しいソース文字列(S2A1)を生成するために、それらの1つ(S2A)がユーザーによって修正されてもよい。ユーザーはまた、もとのソース文を修正する選択肢、または提案され、書き換えられたソース文を拒否する選択肢を有する。ユーザーの選択および/または修正を組み込んだ、改定されたソーステキスト26は、書き換えツールへ戻されてもよく、かつ仮に改定されたソーステキスト26が、元のソーステキスト14と異なる場合、新しい翻訳文がMT構成部12によって生成される。
書き換えられたソース文を生成するために、様々な方法を使用することができる。それらの中で、いくつかは文の意味を完全に保存するが(すなわち、それを言い換える)、その一方で、いくつかは、より翻訳しやすいテキストを達成するために、それを一般化するか、または単純化してもよい。もし提案があれば、提案された代替文の中のどれが適切であるかを決定するための管理は、ユーザーの手に残っている。
上で説明された対話型モードは、書き換えツール10を用いるための1つの方法である。動作の別モード(自動化されたモード)においては、書き換えプロセスは、高精度の書き換え技術を用いて、自動的に行うことができる。これによって、新しい言語に対して翻訳文が必要である場合はいつでも、またはMTモデルが更新される場合はいつでも、翻訳のためのテキストを準備することが可能になる。典型的なツールは、これらのモードの1つだけにおいてか、またはこれらのモードの両方において動作するように構成することができる。
典型的な書き換えツール10およびそれを用いた方法は、特有のMT構成部12の文レベル翻訳確信度および、MT構成部12が用いる特有のMTモデル28に基づいた翻訳のために、ソーステキストの準備を支援する。したがって、典型的な実施形態においては、ツールはモデルに特有である。本方法は、翻訳確信度を計算する上で、ソース文および/またはその翻訳文の特徴を考慮してもよい。書き換えツール10によって、ターゲット言語を話さないユーザーは、翻訳の前にソーステキスト14に対してなされる変更を完全に管理する立場に留まることが可能になるが、その一方で、基になるMT構成部12の翻訳確信度について、実時間で情報が与えられる。自動書き換え方法は以下に説明されるが、それらは流暢なソーステキストを維持しながら、ソーステキストの元の意味をあまり変えることなく、確信度を改善することに向けられる。これらの書き換え技術は、ある場合には、それからいくつかの情報を除去することによって、ソーステキストを一般化するか、または単純化する。そのツールは、ソフトウェアまたはハードウェア、もしくはそれらの組み合わせにおいて履行することができる。
図2は、ソーステキストを書き換えるための、典型的なコンピュータ履行型システム30を例示し、これは典型的なツール10を含む。システム30は、サーバー、ラップトップ、デスクトップ、タブレット、スマートフォン、これらの組み合わせなどのような、1つ以上の計算装置32において履行される。コンピュータ32は、典型的な方法を履行するための命令36を格納するメモリ34と、命令を履行するための、メモリ34と通信可能なプロセッサ38とを含む。入力装置40は、翻訳されるべきソーステキスト14を受け取る。出力装置42は、ローカルエリアネットワークまたはインターネットのような広域ネットワークなどの、例えば有線か無線のリンク44を介して、ユーザー・インターフェース24とリンクされる。典型的な実施形態において、ユーザー・インターフェース24は、インターネットのような有線かまたは無線のネットワークによってシステム30に通信でリンク可能なクライアント装置46によってホストされる。システム30のハードウェア構成部34、38、40、42は、データ/制御バス48によって、通信でリンクされる。
クライアント装置46は、サーバー32と同様に構成されてもよく、かつ、いくつかの実施形態では、LCDスクリーンのような関連した表示装置50上に、グラフィカル・ユーザー・インターフェース24を生成するための命令のいくつかを含んでもよい。代替ソース文字列の選択および/または修正のような、ユーザーからの入力は、プロセッサ38へ伝達されてもよく、かつ、キーボード、キーパッド、タッチスクリーンなどのような、ユーザー入力装置52を介して、クライアント装置で受け取られてもよい。
ソース書き換えツール10に加えて、典型的なメモリ34は、統計的機械翻訳(SMT)システムのような機械翻訳構成部12を格納する。1つの典型的な実施形態において、翻訳構成部12は、本質的にはブラックボックスとして取り扱われる。いくつかの実施形態において、機械翻訳構成部12は遠隔コンピュータ上に位置し、かつ翻訳のために呼び出されてもよい。
翻訳されるべきテキスト14は、クライアント装置46、ウェブページ、携帯または遠隔のメモリ格納装置、音声からテキストへの変換器のような、任意の適切なソースから受け取られてもよく、またはコンピュータ32自体の上で生成されてもよい。
例示されたツール10はプリプロセッサ60を含み、プリプロセッサ60は、第1言語における入力ソーステキスト14を受取り、かつそのテキストを、文S1、S2、S3などのようなテキスト文字列のセットに分け、かつ文の各々をワード(および他のトークン)に分割する。スキャンされた文書またはPDFファイルの場合、OCR処理のような他の前処理が実行されてもよい。
翻訳要請器62は、各文を順番に翻訳するために、翻訳構成部12を呼び出す。例えばSMTシステム12の場合、SMTシステムは、一組の双句(biphrase)を格納する双句テーブル64(例えばメモリ36に格納される)にアクセスする復号器を含む。各双句は、ソース言語における1つ以上のワードのソース句と、ターゲット言語における1つ以上のワードのターゲット句とを含むが、ターゲット句は、ソース言語およびターゲット言語における並列文のコーパスから引き出された可能性のあるソース句を翻訳したものである。復号器は、各々がソース文の1つ以上のワードを含む双句を引き出す。一組の双句(これらはソース文を共同で含む)は、重み付けされた特徴の組み合わせである対数線形モデルのような機械翻訳モデル28によって得点が与えられる。モデル28による最高得点の翻訳文(またはある場合には、1つ以上の高得点翻訳文)が出力され、かつソース書き換えツール10に戻される。
確信度推定器66は、翻訳確信度尺度c(S1)、c(S2)、c(S3)などを計算することにより、ソーステキストにおける各文に対して、翻訳確信度を推定する。翻訳確信度は、それぞれの翻訳された文、ソース文および翻訳プロセスの特徴の1つ以上に基づいてもよい。例えば確信度閾値γ未満である、低く計算された翻訳確信度を有するソース文に対しては、ソース文は、1つ以上の書き換えられた(代替の)ソース文を生成する書き換え構成部68に入力される。仮に書き換えられた文に対して(元のソース文に対するのと同じ方法で計算された)翻訳確信度尺度が、元のソース文に対するものよりも高い場合、書き換えられた文は、元のソース文の置き換えに対する候補として、ユーザーに提案されてもよい。
典型的な書き換え構成部68は、テキスト単純化構成部70およびテキスト含意構成部72の1つまたは両方を含むが、これらは、入力ソース文が与えられると、ソース言語において書き換えられた文を生成するために、別々にまたは共同で動作してもよい。典型的なテキスト単純化構成部70は、(翻訳モデルと同様な)単純化モデル74を使用してもよいが、単純化モデル74は、以下でさらに詳しく説明されるように、ソース言語文のコーパスおよびソース言語文の単純化版を並列訓練することから学習されてきた。テキスト単純化構成部70は、付加的にまたは代替的に同義語語彙集76を使用してもよいが、同義語語彙集76は、ソース言語ワードおよびソース言語ワードの単純化された(より翻訳しやすい)同義語、またはワードネット(WordNet)のような他の同義語リソースを含む。
選択構成部78は、元の文を置き換えるための代替ソース文(複数可)を選択する。自動モードにおいては、選択された代替ソース文(複数可)は、見直しすることなく、ソーステキストの中に組み込まれてもよい。対話型モードにおいては、選択構成部は、ユーザー選択のための候補として提示されるべき代替ソース文を自動的に選択する。自動選択は、計算された翻訳確信度に基づく。ツール10によって生成されたいくつかの代替ソース文があるところでは、選択構成部は、元のソース文に対するものよりも少なくとも高い翻訳確信度を有しないものを除去するために、代替ソース文をフィルターにかけてもよく、かつ、例えばそれらの計算された翻訳確信度に基づいて、残る代替ソース文を順位付けし、順位付けの順番で提示してもよい。正しく理解されるであろうが、選択構成部78は、書き換えツールの一部であってもよい。
GUI生成器80は、ソース書き換えツール10および選択構成部の出力に基づいて、ユーザー・インターフェース上で表示するために、GUI26を生成する。典型的なGUI26が図3に示されており、かつ以下でさらに詳しく説明される。
メモリ34は、ランダムアクセスメモリ(RAM),読み取り専用メモリ(ROM),磁気ディスクまたは磁気テープ、光ディスク、フラッシュメモリまたはホログラフィックメモリのような、任意のタイプの非一時的なコンピュータ可読媒体を表してもよい。ネットワーク・インターフェース40および/または42は、変調器/復調器(MODEM)、ルーター、ケーブルおよび/またはイーサーネット・ポートを備えてもよい。
デジタル・プロセッサ38は、シングルコア・プロセッサ、デュアルコア・プロセッサ(または、より一般的にはマルチコア・プロセッサによる)、デジタル・プロセッサおよび協力的数値演算コプロセッサ、デジタル・コントローラなどのようなものによって、様々に具現化することができる。
図4は、ソース書き換え方法の概略を与える。
本方法は、S100で開始する。
S102では、ソーステキスト14が受け取られるが、これはソース言語から、選択された単一のターゲット言語または複数のターゲット言語へ翻訳されるべき文書のようなものである。
S104では、仮にソーステキストが、(そのソーステキストに対する計算された翻訳確信度に基づいて)翻訳可能であると決定される場合、その翻訳文はS106で保持され、そうでなければ、本方法はS108へ進むが、その場合、入力ソース文に対する翻訳可能な代替文が生成される(すなわち、この代替文は、ソーステキストよりも大きな、計算された翻訳確信度尺度を有する)。
対話型モードにおいては、これらは順位付けされ、かつS110で表示される。
自動化モードにおいては、最も高い順位付けの翻訳可能な代替文がS112で選択される。本方法は、S114で終了する。
図5は、複数のソース文を含む文書に対して、対話型モードにおけるソース書き換えのための典型的な方法をより詳細に例示している。正しく理解されることであろうが、本方法はまた、図4におけるように、自動化モードに適合することができる。
本方法は、S200で開始する。
S202では、ソーステキスト14が受け取られるが、これはソース言語から、選択されたターゲット言語(複数可)へ翻訳されるべき文書のようなものである。
S204では、確信度閾値γが確定されてもよい。確信度閾値は、ユーザーによって、初期値設定などで、設定されてもよい。異なる確信度閾値は、異なる言語、分野(例えば話題)などに対して確定されてもよい。一般に、閾値の設定は、一組の訓練文書にわたって平均化される場合、ソース文字列の少なくとも1つが翻訳確信度閾値を満足しないであろうという有限の確率があり(0<確率<1)、かつソース文字列の少なくとも1つが翻訳確信度閾値を満足するであろうという有限の確率がある(0<確率<1)、という具合になされる。
S206では、文のようなソーステキスト文字列を識別するために、ソーステキストは、プリプロセッサ60によって前処理される。
S208では、(最初の)文sが翻訳される。具体的には、翻訳要請器62が、文を選択されたターゲット言語に翻訳するように、機械翻訳システム12に要請し、かつ機械翻訳システム12が、確信度推定器66に対して、翻訳されたターゲット文tを出力する。
S210では、文sを翻訳する場合の確信度c(s)が、確信度推定器66によって計算される。テキストにおける各文に対する翻訳確信度、またはその図的表現は、例えばGUIを介して、ユーザーに表示されてもよい。
仮にS212で、計算された翻訳確信度c(s)が閾値γであるか、これを超える場合、本方法はS214に進んでもよく、そこではsに対応するターゲット文tが保持される。
仮にS212で、計算された翻訳確信度c(s)が閾値γ未満である場合、本方法はS216に進み、そこでは図1における文S2A、S2B、S2Cのような、(可能であれば)ソース文sに対して少なくとも1つの、または一般的に複数の代替文sが、書き換え構成部68によって生成される。正しく理解されることであろうが、ある場合には、書き換え構成部68は任意の代替文sを生成できないかもしれず、その場合には文sおよびその翻訳文が保持され、かつ本方法は、次の文の処理のためにS232に進む。
S218では、代替文sの各々が翻訳される。具体的には、翻訳要請器62が、各代替文を選択されたターゲット言語に翻訳するように、機械翻訳システム12に要請し、かつ機械翻訳システム12が、それぞれの翻訳されたターゲット文tを確信度推定器66へ出力する。
S220では、各代替ソース文字列sに対して、文sを翻訳する場合の翻訳確信度c(s)が、例えばsおよびtに基づいて、確信度推定器66によって計算される。
S222では、代替文sはフィルターにかけられ、計算された確信度c(s)が、元の文sに対する確信度c(s)よりも大きい文だけが保持される(または、少なくとも計算された確信度c(s)が確信度c(s)よりも大きくない文は除去される)。仮にフィルターにかけた後に残っている代替文がない場合、元の文sが保持され、かつ本方法はS214に進むか、そうでなければ、S224に進む。
S224では、仮にフィルターにかけた後に1つ超が残る場合、残っている代替ソース文字列sが順位付けされてもよい。順位付けは、それぞれの計算された翻訳確信度尺度c(s)および/またはソース文からの意味的距離のような他の順位付け尺度に基づいてもよい。
S226では、計算された確信度に基づいて、好みに応じて順位付けされた代替文字列sの少なくとも1つを(自動または手動で)選択するための準備がなされる。例えば、1つ以上の代替文字列が、元の文字列sを置き換えるための候補(複数可)として、GUI生成器80によってGUI24上で、ユーザーに対して表示されてもよい。代替ソース文字列(複数可)の表示は、確信度閾値未満であると決定されたすべての元のソース文、およびソース文字列の確信度を超える確信度を有する代替文字列がある場合に対して、自動的に実行されてもよい。代わりに、ユーザーが、低い翻訳確信度を有するものとして示された文を選択する場合にのみ、代替文が表示されてもよい。ユーザーが、代替ソース文字列の1つを選択する、かつ/または編集するための準備、またはGUIを介して元の文を保持する、かつ/または編集するための準備がなされる。この動作を実行し、かつ翻訳における確信度を評価する上で、ユーザーを支援するための適切な命令が表示される。例えば、各ソース文および各代替ソース文に関連する翻訳確信度尺度が表示される。
S228では、元のソース文字列の(ユーザーによって好みに応じて編集される)ユーザーの選択または置き換えのための代替候補の1つが、ツールの選択構成部78によって受け取られる。
S230では、仮にユーザーが選択した文の翻訳文が未だ生成されていない場合、例えばユーザーが元の文または代替文を既に編集した場合、S228で受け取られたユーザーの選択が翻訳される。
S232では、仮に処理されるべきより多くの文がある場合、本方法はS208に戻り、そうでなければ、本方法はS234へ進み、そこではターゲット言語の中に集められた翻訳文が、ターゲットテキストとして出力される。本方法は、S236で終了する。
別の実施形態においては、S204で確信度閾値γが設定されない(またはあまりに高く設定されるので、どの文も確信度閾値γを満足しない確率が高い)。この実施形態においては、すべての文に対して、本方法はS210からS216に進んでもよく、例えば、計算された翻訳確信度を閾値と比較する必要がない。
正しく理解されることであろうが、本方法のステップは、例示されている順番通りに進む必要は全くない。例えば、すべての文は、ユーザーに計算された翻訳確信度尺度が示され、かつ/または代替文から選択することを問われる前に、進んでもよい。
アルゴリズム1は、対話型モードで使用される場合、1つの特定の実施形態に従って、典型的な書き換え方法のための疑似コードを提供する。
Figure 2014235740
別の実施形態において、自動モードが使用される場合、全体的な確信度閾値γを好みに応じて設定する以外は、人間との任意の対話なしに、ソース文が再定式化される。典型的な書き換えツール10は、ソースを根本的に変更しない再定式化を生成し、かつその確信度が全体的な閾値を超える再定式化を選ぶように設計される。しかしながら、対話型モードによって提供される人間の監督は、多くの事例において有益である。
図4および/または図5に例示される方法は、ディスク、ハードドライブのようなコンピュータ上で実行され得るコンピュータ・プログラム製品において、または、制御プログラムがデータ信号として具現化された伝達可能な搬送波のような一時的媒体において履行されてもよい。
翻訳確信度推定(S104、S210)
機械翻訳システムは、通常、ソース言語およびターゲット言語に通じている人間の翻訳者によって作り出される翻訳文のような参照翻訳文と、出力文とを比較することに基づいて評価される。本応用に対して、参照翻訳文は、一般に利用可能ではない。典型的な実施形態において、確信度は、与えられたソース文字列の高品質翻訳文を作り出すための、翻訳構成部の能力の尺度である。確信度の推定は、参照翻訳文に依存することなく、自動翻訳の品質を推定することによって実行される。典型的な実施形態において、確信度推定は、ソース文字列、翻訳文および翻訳プロセス自体の1つ以上から抽出された特徴に依存する。そのような特徴の例は以下の、Blatz et.al,“Confidence estimation for machine translation”,Proc.20th Intern’l Conf.on Computational Linguistics(COLING)ACL(2004)、および、Specia et al.,”Estimating the sentence−level quality of machine translation systems”, Proc.EAMT,PP.28−35(2009)(以下では「Speciaら」と略記)、に説明されている。そのような方法は、例えば、専門的な翻訳者によって見直してもらうために、下手に翻訳されたと疑われる文をフィルターにかけて取り除くために使用されてきたが、しかし本方法に適合可能である。
特に、確信度推定器66はソース文/翻訳文ペアから特徴を抽出し、かつ抽出された特徴に基づいて、ソース文に対する翻訳確信度を計算するために、学習された確信度推定関数を使用する。元のソース文(およびさらに代替ソース文)の翻訳確信度を計算するための関数において使用され得る特徴例は、以下から選択することができる(これらのいくつかは、Speciaらの特徴に基づく)。
ソース文に基づく特徴:
1.ソース文におけるトークン(例えば、句読点を無視したワード、またはワードと句読点の両方)の数。
2.文字の数におけるソース・トークンの平均長(例えば、平均ワード長)。
3.ソース文の言語モデル(LM)確率(または対数確率)。このモデルは、ソース文字列の流暢さを測定し、かつソース言語文書から引き出される。特に、文における各ワード(またはnグラム、ここでnは2以上)に対して、ソース文書において次に来るワードと結合するワードを見る確率が、データ構造から引き出される。引き出された確率は共に掛け合わされ、かつ結果は、文におけるワード(またはnグラム)の数を説明するために正規化される。
4.文におけるソースワードあたりの翻訳文の平均数。これは、各ソースワードに対して、異なるターゲットワードの数を識別することによって計算されてもよく、異なるターゲットワードは、少なくとも閾値確率を有するソースワードに対する翻訳文として並列コーパスの中に見られる。一例として、IBM−1テーブルは、prob(t|s)>0.2であるように閾値が設けられてもよく、かつ閾値が設けられたテーブルは、異なる翻訳文を識別するために用いられる。翻訳文のワードあたりの平均数は、その後、全体として文に対して計算される。
5.ソース・コーパスにおいて各ワードの逆頻度によって重み付けされる文におけるソースワードあたりの翻訳文の平均数。翻訳文の平均数は特徴4について計算されてもよく、そこでは閾値は同じでもあり得るし、異なることもあり得る。一例として、翻訳文は、prob(t|s)>0.01であるように閾値が設けられたIBM−1テーブルによって与えられてもよい。ソースワードの逆頻度(ソース・コーパスにおけるソースワードの発生回数によって除算されたソース・コーパスにおけるワードの数)は、その後、閾値が設けられたテーブルの中で識別された異なる翻訳文の数によって掛け合わされる。
6.ソース言語のコーパスにおいてより低い頻度のワードである、ソース文中のユニグラム(単一のワード)の百分率。例えば、頻度の第1四分位数の中にある、SMTモデルを訓練するために使用されるコーパスに現れるワード。
7.ソース言語のコーパスにおいてより高い頻度のワードである、ソース文中のユニグラムの百分率。例えば、頻度の第4四分位数の中にあるSMT訓練コーパスの中にあるそれらのワード。
8.ソース言語における低い頻度のバイグラムの百分率。例えば特徴6と類似であるが、ソース言語のコーパスにおいて頻度の第1四分位数の中にあるソースワードのペア。
9.ソース文における高い頻度のバイグラムの百分率。例えば特徴7と類似であるが、ソース言語のコーパスにおいて頻度の第4四分位数の中にあるソースワードのペア。
10.ソース文における低い頻度のトリグラム(または他のnグラム、ここでn>3)の百分率。例えば特徴6と類似であるが、ソース言語のコーパスにおいて頻度の第1四分位数の中にあるソースワード・トリプレット。
11.ソース文における高い頻度のトリグラム(または他のnグラム、ここでn>3)の百分率。例えば特徴7と類似であるが、ソース言語のコーパスにおいて頻度の第4四分位数の中にあるソースワード・トリプレット。
12.コーパスにおいて見られるソース文中のユニグラムの百分率(例えば、SMT訓練コーパス)。
13.ソース文における句読点記号の数。
ターゲット文に基づく特徴:
14.機械翻訳モデル28でソース文を翻訳することによって作り出されたターゲット文中のトークン(例えば、句読点を無視したワード、またはワードと句読点の両方)の数。この特徴は、一般に、より長い翻訳文を有するものよりも、より短い翻訳文を有するソース文に恩恵を与える。
15.ターゲット文の言語モデル確率(または対数確率)。このモデルは、ターゲット文字列の流暢さを測定し、かつ、したがって、ターゲット言語文書から引き出され、しかもソース文に対するLM確率と同様な方法で計算される。
16.ターゲット文の中の各ターゲットワードの発生回数(文タイプ/トークン比率においてすべてのワードに対して平均化された)。
17.ターゲット文における句読点記号の数。この特徴は、一般に、多数の句読点記号を含む翻訳文を有するソース文には恩恵を与えない。
18.SMTモデル得点。各翻訳文に対して、システムは得点を出力し、これは通常、翻訳文を順位付けするのに用いられるが、しかし本明細書では、ターゲット文の特徴として用いられる。
正しく理解されることであろうが、用いられる特徴のいくつかは、より短いソースワード、より短いソース/ターゲット文、およびより頻繁に使用されるソースワードのような、一般に翻訳を容易にする文およびワードに恩恵を与える傾向があってもよい。恩恵が与えられてもよい他の特徴として、より少ない句読点記号、より少ない語彙から外れたワード、およびより少ない可能な翻訳文を有するソースワードが含まれる。しかしながら、これらの特徴の各々に置かれた重要性は、確信度関数におけるそれぞれの特徴の重みとして学習され、かつ組み込まれ、しかも、したがって、期待通りである必要はない。
一実施形態において、少なくとも1つのソース文に基づく特徴、および少なくとも1つのターゲット文に基づく特徴が、確信度関数の中に組み込まれる。確信度関数は、全体的な翻訳確信度尺度を出力するために、異なる特徴を集める。例えば、確信度関数は、選択された異なる特徴の各々に対する重みを含む。重みは、ソース文、それらの機械翻訳文、および機械翻訳の品質を人間の検閲者が行った評価を示すラベルからなる訓練セットを用いて学習することができる。例えば一組の参加者(例えば二人以上、三人の参加者のような)は、例えば一組の、または一範囲の可能な得点から選択された得点を各翻訳文に与えることによって、一組の与えられたソース文字列の各々の自動翻訳の品質を推定することを問われてもよい。品質推定は、後編集に対する翻訳の迅速さを参加者が評価することに関連してもよい。一例として、1から5の範囲にある得点が割り当てられてもよく、そこでは、1は「MT出力は理解不可能であり、正確な情報がほとんど、または全く転送されない。それは編集することができず、ゼロから翻訳される必要がある。」に対応し、そして5は「MT出力は、完全に明瞭で、分かりやすい。それは必ずしも完全な翻訳ではないが、しかし編集をほとんど、または全く必要としない。」に対応する。そのような評価は、統計的機械翻訳に関するワークショップ2012によって提出されたタスクの中で用いられた。タスクのために提供されたデータは、英語で書かれた約1800のソース文と、モーゼズ(Moses)翻訳システム(Koehn,P.et al.,“Moses:Open source toolkit for statistical machine translation,”in Proc.45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions,pages 177−180(2007).を参照のこと)によるそれらのスペイン語への翻訳部からなる訓練セットを含んでいた。その翻訳に対して、3審判の各々によって得点が与えられた。主催者はまた、ソースおよびターゲットの長さ、文の言語モデル対数確率、および文の中のソースワードあたりの可能な翻訳文の平均数のような、ソースおよびターゲット翻訳から品質推定特徴を抽出するための基線システムを提供した。そのタスクのより完全な記述に対しては、Callison−Burch,et al.,“Findings of the 2012 workshop on statistical machine translation,”in Proceedindgs of the Seventh Workshop on Statistical Machine Translation,pp.10−51,ACL(2012)、を参照されたい。一実施形態において、Callison−Burch基線システムの特徴は、典型的な方法で使用されてもよい(上で挙げた最初の17の特徴に対応する)。しかしながら、そのような設定においてラベルを与えるために使用され得る、異なる測定基準もまた熟慮される。
一実施形態において、選択された特徴は、翻訳モデルへのアクセスに依存する1つ以上の特徴、および翻訳モデルへのアクセスに依存しない1つ以上の特徴を含む。一例として、特徴は2012タスクの特徴抽出基線モジュールによって抽出されてもよく、このモジュールは、(i)ソース文の長さおよびターゲット文に対するターゲット言語モデル確率のような、翻訳システムへのアクセスを仮定しないブラックボックス特徴と、(ii)ソースワードあたりの翻訳文の平均数およびSMTモデル得点のような、翻訳モデルから抽出されるガラスボックス特徴とを含む。
確信度関数における重みは、線形回帰、サポート・ベクトル・マシン(SVM)回帰、スパース・ロジスティック回帰、または任意の他の適切な機械学習法のような、任意の適切な学習アルゴリズムを用いて学習することができる。一実施形態において、訓練データは、Joachims,T.の方法によるSVMlightを用いたSVM回帰モデルを訓練するために用いられるが、Joachims,T.の方法については、“Making large−scale SVM learning paractical”in Scholkopf,B.,Burges,C.,and Smola,A.,editors,Advances in Kernel Methods−Support Vector Learning,chapter 11,pp.169−184,MIT Press,Cambridge,MA(1999).、を参照されたい。このアルゴリズムはパラメータ(イプシロン)を含むが、これは回帰のための管の幅であり、小さな訓練エラーに罰則を課さないように選択され、その訓練エラーはイプシロンよりも小さい(ここでε>0)。一実施形態において、管のイプシロン幅は、訓練データの一部分に関する実験に基づいて経験的に設定することができ、かつ、例えば0.00001から0.2で変動することができる。一実施形態において、0.0001のイプシロン幅が、Joachimsによって記述された方法で使用されている。
確信度推定関数は、次の一般形式であり得る。
Figure 2014235740
ここでwは、それぞれの特徴値xに対する重みのセットを表し、これはラベルの付けられた訓練データに関して学習することができ、好みに応じて、訓練データにおけるxの各値がエラーεを持つことを可能にし、かつbは、調整パラメータ(定数)である。
正しく理解されることであろうが、本方法はこの形式の確信度推定関数に限定されず、かつ他の学習アルゴリズムで学習することが可能である。
一たび確信度推定関数のパラメータ(重みwおよび調整パラメータbのような)が学習されたなら、関数は、ソース文における確信度を推定するために、典型的な方法において生成される新しいソース文/翻訳文ペアに適用することができる。
いくつかの場合において、SMTシステム12は、各ソース文に対して1つ超の翻訳文を出力してもよく、この場合、複数のソース文/翻訳文ペアの各々に対して確信度が計算される。
ソース書き換え(S108、S216)
書き換え構成部68は、生成されたテキストと元のテキストとの間の意味的関係の点から、ソース文書き換え(代替ソース文を生成すること)のための様々な方法を使用することができる。
書き換えられたソーステキストは、結果として生じたテキストと元のテキストとの間の意味的関係によって区別することができる。元のテキストと比較されると、書き換えられたテキストは、より少ない(または、より多い)ワード、異なるワード、再配列されたワード、句読点に対する修正、これらの組み合わせなどを含んでもよい。いくつかの書き換え方法においては、ソーステキストは代替文を生成するために言い換えられ、すなわち、その意味は異なる方法で表現される。いくつかの書き換え方法においては、ソーステキストは、その詳細のいくつかを省くことによって、一般化する、または単純化することができる。書き換え方法はまた、これらのアプローチの組み合わせを用いることができる。
言い換えは、しばしば良い書き換え方法であるが、その理由は、この操作がソース文の正確な意味を保存するからであり、その一方で、他のタイプの修正は、これを保存しない。しかしながら、ある場合には、特に同化目的のために、より少ない詳細でより正確な翻訳をする方が、元のソーステキストの正確な意味を下手に翻訳するよりも有利である。このことは、Mirkinらにおける人間の翻訳者で経験的に示されてきたが、詳しくは、“Source−language entailment modeling for translating unknown terms,”in Proc.Joint Conf.47th Annual Meeting of the ACL and the 4th Intern’l Joint Conf.on Natural Language Processing of the AFNLP,pages 791−799,ACL(2009)(以下では、「Mirkin 2009」と略す)、および、Aziz et al.,“Learning an expert from human annotations in statistical machine translation:the case of out−of−vocabulary words”in Proc.14th Annaul Meeting of the European Association for Machine Translation(EAMT)2010.、を参照されたい。加えて、ソーステキストにおける未知ワードの場合、ソーステキストの推論版の生成を許可することは、それの正確な言い換えよりもむしろ有利であり得る。
ソーステキストを書き換えるための、本明細書で有用な典型的な書き換え方法は、テキスト単純化および原文含意技術に基づく書き換え方法を含む。
1.テキスト単純化
自動的なテキスト単純化は、読みやすいテキストを提供したいという欲求によって動機付けられる。テキスト単純化の方法は、読むことを学ぶ者、または新しい言語を学ぶ者のためのテキストを準備する目的で用いられてきた。同様な単純化操作は、本明細書で有用である。これらは、ワードをより単純なワードによって置き換えること、複雑な構文構造を除去すること、文を短くすること、およびテキストの中心的な考えを理解するためには、必要でない詳細を除去することを含んでもよい。正しく理解されることであろうが、単純化は必ずしも情報消失に帰着するとは限らず、かつ正確な意味を保存するが、しかし意味がより単純に表現される可能性がある。単純化技術は、例えば、Feng,L.,“Text Simplification:A survey,”Technical report,CUNY(2008).、で説明されている。
一例として、ウィキペディア(Wikipedia)による用語「火山」の定義は、正規(複雑な)の形式と単純化された形式で見つけられる。最初の文は、以下のように読める。
a.(複雑な形式)
火山は、惑星の表面または地殻における穴、または破裂であり、これは、熱いマグマ、 火山灰およびガスが地表の下から漏れ出ることを可能にする。
b.(単純化された形式)
火山は、溶岩(熱い液体の岩)が地下のマグマだまりから出てくる山である。
ユーロパール(Europarl)に基づく翻訳モデルで訓練されたモーゼズ(Moses)を用いた翻訳構成部による、これらの定義のスペイン語への翻訳は、以下の通りである(http://www.statmt.org/moses/RELEASE−1.0/model/を参照)。
a. un volcan es una apertura, o ruptura,en un planeta’s superficie o crust,que permite magma caliente,las cenizas volcanicas y gases de escape de por debajo de la superficie.
b. un volcan es una mantana donde lava, liquidos (caliente roca) viene de un magma camara bajo el terreno.
第2の文がより良く翻訳されており、かつ多くの目的のためには十分であろうということは、両方の言語に通じた人にとって明らかである。単純化のレベルは、タスクに依存して調節することができる。詳細の保存を要求するタスクにとっては、より保守的な書き換えアプローチが望ましい。
本システムでは、単純化のための規則が組み込まれており、それによれば、単純化された文を自動的に生成することが可能になる。本明細書での有用な2つの典型的な書き換え方法は、テキスト単純化技術に基づいている。これらは、文レベル(または機械翻訳に基づく)テキスト単純化および語彙(または同義語)単純化と呼ばれ、これらはまた、SMTに基づくことができる。
A.文レベル(MTに基づく)テキスト単純化
この文レベル書き換え方法では、テキスト単純化は、機械翻訳タスクとしてモデル化される。しかしながら、機械翻訳は、1つの言語から別の言語へと文を翻訳するのには用いられず、しかし同じ言語における単純化版へと文を翻訳するのに用いられる。この技術は、例えばSpeciaの方法による統計的機械翻訳を用いて実行することができる(Specia、L.,“Translating from complex to simplified sentences”Intern’l Conf.on Computational Processing of the Portuguese Language(PROPOR),Lecture Notes in Artificial Intelligence,Vol.6001,Springer,pp.30−39(2010)、を参照のこと。以下では「Specia 2010」と略す)。
典型的な方法においては、SMT単純化モデル74は、テキストの並列コーパスおよび同じ言語におけるそれらの単純化版から学習される。例えば、SMT単純化モデル74は、例えばウィキペディアのようなオンライン・リソースまたは他のデータベースから得られる並列ソース文のコーパスを用いて、ソース言語から単純化されたソース言語への(例えば、英語から単純化された英語への)単純化のために訓練されてもよい。並列ソース文の各ペアは、「複雑な」ソース文と、通常は経験ある人によって生成されたそれの「単純化」版とを含む。一例として、PWKP並列コーパスとして知られるそのような並列コーパスは、Zhu等によって生成された(Zhu,et al.,“A monolingual tree−based translation model for sentence simplification,” in Proc.23rd Intern’l Conf.on Computational Linguistics(Coling 2010),pp.1353−1361(2010)、を参照)。典型的な方法においては、そのような並列コーパスはフィルターにかけられ、複雑なソース(例えば英語)文だけを選択し、これらは単一の単純なソース(英語)文に整列される。その訓練方法は、コーパスから(ソース、単純化されたソース)句ペアを抽出することを必然的に伴う。各句ペアは、したがって、複雑な句からその単純化された等価句への対応付けを含む。そのようなペアのいくつかは、以下に例として示される。
a.伝統的な語源→その名前
b.進行中のその場所のために→それは進行中であったので
c.第1に乾いていて第2に冷たい→冷たいと乾いているの両方
d.意味のある形に形成され、そして慣れて→慣れて
e.山岳アルプス→アルプス
識別された(ソース、単純化されたソース)句ペアは、双句テーブル64と類似するが、コーパス上で計算された関連統計を有する句テーブルとしてメモリに格納される。
SMTシステムのためのSMTモデル74の学習は、それが、対数線形得点関数、または他の得点関数のそれぞれの特徴に対する重みを識別することにおいて、SMTモデル28の学習と類似であり得る。得点関数は、句テーブルから引き出された(ソース、単純化されたソース)句ペアを用いて、複雑な入力ソース文から生成された単純化された候補文に得点を与える。得点は、複雑なソース文および/または単純化された(ターゲット)文および学習された特徴の重みから抽出された特徴に基づく。得点関数は、言語モデルに対する特徴の重みを含んでもよい。この場合、MTに基づく書き換えに使用される言語モデルは、単純化されたソース言語モデルであってもよく、例えばより単純な文の生成を促進するために、(複雑な、単純な文の)並列コーパスからの、または単純化された文の一カ国語だけのコーパスからの、単純な英語文だけによって訓練される。特に、単純化されたソース文の各ワード(またはnグラム、ここでnは2以上)に対して、単純化されたソース文書において次に来るワードと結合するワードを見る確率は、データ構造から引き出される。引き出された確率は共に掛け合わされ、かつその結果は、単純化されたソース文におけるワード(またはnグラム)の数を説明するために正規化される。言語モデルは、したがって、単純化されたソース文の流暢さを計算する。
B.語彙単純化
テキスト単純化に対する別の操作は、語彙置換を含む。複雑なソーステキストから単純化されたソーステキストに翻訳するために、機械翻訳システムを訓練するというよりはむしろ、このアプローチは語彙単純化に直接取り組む。例えば、関連する同義語は、複雑なソース(例えば複雑な英語)から簡単化されたソース(例えば英語)への単純化のために、訓練されたSMTモデルの句テーブルから抽出されてもよい。上で説明された単純化モデル74のための句テーブルは、この目的のために使用されてもよい。抽出された同義語は、それらがより高い確信度の翻訳文を産み出すであろうという仮定の下で、新しい文を単純化するための置換として使用される。一実施形態において、すべての単一トークンの対応付けは、句読点、数およびストップワードの対応を除去して、訓練された単純化モデル74の句テーブルから抽出される。残っているソースワードとターゲットワードのペアは、見出し項目が付けられ、かつそれらが、ワードネット(WordNet)のような適切なリソースにおいて認識された同義語であるかを確認するためにチェックされる。ワードネットの議論に対しては、Fellbaum,C.,editor,WordNet:An Electronic Lexical Database(Language,Speech,and Communication),The MIT Press(1998)、を参照されたい。仮にこの情報が、SMT単純化モデル74の句テーブルにおいて利用可能でない場合 そのようなリソースはまた、ワードに対する品詞タグを識別するために用いることができる。認められた同義語であるそれらのワード・ペアは、妥当な置換ペアとしてラベルが付けられ、かつ同義語語彙集76における複雑−単純ワード・ペアとしてメモリ34に格納されるが、そうでない場合、それらは廃棄される。他の複雑−単純ワード・ペアは、ワードネットのような、以前に生成されたリソースから得てもよい(Specia 2010におけるテーブル2を参照)。
例えば、S216で、ソース文の中で複雑なソースワードの一致が見つかると、元のワードの語形変化に合わせるように適切に語形変化された後(例えば、より単純な同義度が置換される複雑なワードに合わせるために、性、格、数などを変えることによって)、それはより単純な同義語で置き換えられる。
ソース文字列に対してこのアプローチを用いた書き換えの例は、以下の通りである。
a.なぜガリレオ研究計画は、ライバルの計画を置き換えたか。
b.なぜガリレオ研究計画は、競争相手の計画を置き換えたか。
正しく理解されることであろうが、多数の書き換えられた文は、語彙(同義語)方法によって、単一のソース文から生成されてもよい。これは次の式と等価であり、ここでwは、リスト76中の同義語が見つけられる文におけるワードであり、かつ|syn(w)|は、w自体を含めて、リスト上のwに対する同義語の数である。
Figure 2014235740
−1の理由は、ソースが、この組み合わせのセットの中に含まれるからである。あまりにも多くの選択肢がある場合、これは問題を引き起こすかもしれず、かつ、したがって、典型的な方法は、書き換えられた文の数を減らすために(例えば、最も頻出する同義語ペアだけを選択するか、ワードが1つ超の同義語を持つ場合を選択することによって)フィルターをかける方法を使用するか、または必要に応じて漸増的にそれらを計算してもよい。
例として、次のソース文字列が与えられる。
なぜガリレオ研究計画は、ライバルの計画に取って代わったか。
システムは、「取って代わった(置き換えた)」および「ライバル(競争相手)」に対して、リスト76中に一致を見つけてもよい。各々は1つの同義語を有し、次のように、書き換えられた文字列に対して3つの選択肢を提供する。
a.なぜガリレオ研究計画は、ライバルの計画を置き換えたか。
b.なぜガリレオ研究計画は、競争相手の計画に取って代わったか。
c.なぜガリレオ研究計画は、競争相手の計画を置き換えたか。
システムは、これらのすべてを考慮してもよく、または最も高い翻訳確信度を有する選択肢が、ユーザーに提示されるべきであることを見出す。
2.含意に基づく書き換え
原文含意(TE)は、共通のタスクに推論を適用する必要性を減らすことによって、様々な自然言語処理(NLP)応用に対して適用されてきた原文推論のための枠組みであり、1つのテキスト(Hと表される)の意味を、別のテキスト(Tと表される)から推論することができるか、というものである。そのような関係が保たれる場合、その場合には、TはHを原文含意すると言われる(Dagan,et al.,“Recognizing textual entailment:Rationale,evaluation and approaches,”Natural Language Engineering,15(4):1−17(2009)、を参照のこと)。言い換えは、それゆえに、含意関係の特別な場合であり、そこでは2つのテキストが共に、お互いを含意する。単純化および一般化の概念もまたTEの範囲内で捉えることができ、そこでは単純化されたまたは一般化されたテキストの意味は、元のテキストの意味によって含意される(Mirkin,S.,PhD thesis,“Context and Discourse in Textual Entailment Inference,”Bar−Ilan University(2011).、を参照のこと)。本事例では、言い換え(これは意味を保存する)操作と単純化または一般化(これは中心の意味を保存するが、しかしある情報を失うかもしれない)操作の両方を、含意に基づく方法によって提供するために、TEを使用することができる。
典型的な含意構成部72は、含意認識のために用いられる任意の従来型原文含意システムに基づくことができる。しかしながら、目標はいくぶん異なる。原文含意においては、システムは2つのソース文字列を考慮し、すなわち、TおよびHが与えられると、システムは、TがHを含意するかどうかを評価する。含意の認識に対しては、大きなセットの含意規則が用いられており、この規則は、同義性(例えば「買う ⇔ 取得する」および上位性の関係(hypernymy)(「プードル → 犬」のような関係)に対応する語彙規則と、述語文法項タプルのペア間での関係を捉える語彙構文規則と、構文構造体上で働く構文規則とを含む。
本応用は、含意認識というよりはむしろ、含意生成を含む。現存のTEシステムは、ソース文から含意されたテキストを生成するために、TEシステムの含意規則を適用するこの目的に適合し得る。したがって、Hが存在せず、Tだけが存在する本方法においては、従来のシステムにおいて含意を認識するために用いられる規則が、代わりに、含意された(書き換えられた)ソース文Hを生成するために使用される。原文含意書き換えは、ソーステキスト文字列によって含意される代替ソース文字列を生成するために構成される一組の含意タイプ書き換え規則の少なくとも1つを適用するステップを含む。
そのような規則が生成されてもよい現存のTEシステムの例は、オープン・ソース・バール−イラン(Bar−Ilan)大学原文含意エンジン(BIUTEE)であり、これはSternとDaganの、“BIUTEE:A modular open−source system for recognizing textual entailment,” Proc.ACL 2012 System Demonstrations,pp.73−78,ACL 2012(www.cs.biu.ac.il/〜nlp/downloads/biuteeで利用可能)、で説明されている。現存の含意システムのすべての含意規則が、本応用に適用可能であってもよいというわけではない。次の3つの条件のいくつか、またはすべてを満足するために、適切なTE規則が選択されてもよい。
(i)規則は流暢さを維持する。
(ii)規則はかなり保守的である、すなわち、テキストからあまり多くの情報を省略しない。
(iii)規則は、単純化のような、本明細書で有用な種類の操作に従い、かつ常識推論には従わない(例えば、「その母親は公園で授乳していた → その母親は彼女の赤ん坊と一緒に公園にいた」のような推論は一般に回避される)。従来のTEシステムの規則は、したがって、最も適切であるものを識別するために、手動でフィルターにかけられてもよい。これらの基準に従う含意規則を、自動的にまたは半自動的に選択することもまた、熟慮される。規則を生成するTEもまた、手動的に工夫されてもよい。TE規則は、従属性解析木の上で働いてもよい。例えば、Lotanによって手動的に工夫されたものを参照されたい(Lotan,A.,Master’s thesis,“A syntax−based rule−base for textual entailment and a semantic truth value annotator,”Tel Aviv University 2012、を参照のこと)。
典型的な書き換えツールに統合されてもよい、TEに基づく書き換えの例は以下の通りであり、ここで(b)は、より複雑な文である(a)から変換され、書き換えられた文を示す。
(a)静かに、そして言葉もなく、彼は部屋を去った
(b)言葉もなく、彼は部屋を去った
この規則によれば、副詞は除去される。
潜在的な原文含意規則に対する他の例は、以下のとおりである。
a.受動態を能動態に、またはその逆に変換すること。例えば、「XはYを買った」は、「YはXによって買われた(または、その逆)」に置き換えられる。
b.接合詞のペア間で位置を交換すること。例えば、「ルイーズとテルマ」は「テルマとルイーズ」に置き換えられる。
c.関係代名詞の挿入と削除(例えば、which/that/whomおよびbeのそれぞれの形式の除去/追加)。例えば、
“The car which was driven past the exit crashed”は、”The car driven past the exit crashed”に置き換えられる。
d.連結詞に対する同格。これらは、しばしば説明として見なされる句切り(例えば、コンマ)によって区切られた句であり、これらは、逆さまにすることができるか、または、いくつかの場合、除去されるか、または分割される、例えば、
「少年、彼の息子、早く着いた」は、
「少年は早く着いた」または、
「少年は彼の息子である。少年は早く着いた」によって置換えられる。
書き換えツールによって使用される他の規則は、同格または節の除去、文への分割、または受動態から能動態への変換を扱ってもよい。
原文含意規則は、言い換えにおけるように、同じ意味を維持することを狙いとする必要はないが、しかしソースを一般化してもよい。
他の書き換え規則は、語彙または句の置換、再整理、語彙−構文的修正(変更は、ワードと構文構造の両方に影響を与える)、構文変更(例えば、受動態から能動態へ)などを実行するために用いられてもよい。そのような規則は自動的に学習されてもよいが、しかし、ワードネットのような、規則を得るための多くの利用可能リソースもまた存在する。
いくつかの規則は他のものよりも効果的なので、規則は組み入れの前にテストされてもよい。新しい規則はまた、現存するものから自動的に創り出されてもよい。例えば、テンプレート書き換え規則は、次のような形式であると仮定する、すなわち、XはYを買う ⇔ XはYを所有する、ここで「買う」は、買うことの任意の動詞形を表し、かつXとYは実体(または普通名詞とさえも)と呼ばれる。検索は、「XがYを買う」のようなテンプレートの部分の発生に対する(ウェブのような)コーパスから成り、これによって、例えば「XeroxがACSを買った」、「NuanceがSwypeを買う」が引き出されるかもしれない。変数の具体化は、新しい検索テンプレートである、Xerox Z ACS、を創り出すために用いることができる。コーパスはその後、「XeroxがACSを取得した」を得るために、新しいテンプレートで検索される。これは、言い換え(書き換え規則)、XがYを買う ⇔ XがYを取得する、を生成する規則を生成するために用いることができる。
書き換えのために使用され得る別の方法は、ソース言語からピボット言語への、かつその後、ピボット言語からソース言語へ戻る機械翻訳(例えば、SMT)を含む。ピボット言語はソース言語とは異なる任意の言語であることが可能であり、かつSMTシステム12がソーステキストを翻訳する先の言語と異なることも可能である。
正しく理解されることであろうが、上で議論した方法との間で何らかの重複がある。例えば、単純化は、言い換えと原文含意の両方に属する技術を用いてもよく、例えばワード置換と言い換えは、その関係が双方向である1つのタイプの原文含意である。
書き換えツール・インターフェース
書き換えツール10は、ウェブ応用として履行することができる。典型的なインターフェース24のスナップショットが、図3に示される。このインターフェースによって、ユーザーは、文書選択器90を用いて、翻訳したい文書14をアップロードすることができる。選択されたソーステキスト14は、一組のソース文として表示される。各ソース文(または、少なくともそれらのいくつか)は、その文の計算された翻訳確信度の指示器92と関係している。一実施形態において、これらの指示器は文の隣に表示され、かつ翻訳確信度の推定を表すために、カラーコード化される。例えば、カラーコードは、最も高い確信度を表すための緑、中位の確信度を表すためのオレンジ、および最も低い確信度を表すための赤を含むことができる。確信度値が緑としてコード化された文は、よい翻訳を作り出すために、通常は書き換えを必要とせず、その一方で、赤でマークされた文は、低い品質で翻訳されたと推定され、したがって、ユーザーからの注意を最も要求することが予想される。実際の翻訳確信度の得点がさらに提示されてもよい(典型的な指示器92内に示される数は、単に代表的なものであり、かつシステムによって出力された実際の値を反映することは、意図されていない)。システムが翻訳できないテキスト文字列は、異なる色でカラーコード化されてもよい。
典型的な実施形態において、ユーザーは、元の文より高い確信度得点を有する代替文を単に見直すことができる。システム30が、1つ以上の書き換えられた文をより高い翻訳確信度を有するものと認定したそれらの文については、それらの隣に「意見提案」アイコン94(例えば、拡大鏡)が表示される。クリックするかまたは別の方法でこれらのアイコンの1つを作動させると、インターフェース24によって、最も高い翻訳確信度を有する、1つ以上の対応する書き換えられた文が表示される。例えば、ユーザーが4番目の文96に対してアイコン94をクリックすると、これによって、この文に対する2つの最も確信度の高い代替文98および100が、スクリーンの別領域に表示される。これらの代替文の書き換え提案は、元のソース文に対するのと同じ方法でカラーコード化される、関連付けられた翻訳確信度指示器92を有する。最も高い確信度得点を有する代替文98は、代替文のリストの一番上に表示されてもよい。元の文96もまた、編集されることが可能であるように、かつ違いを眺めるのがより簡単となるように、このリストの中に表示されてもよい。ユーザーは2つの選択肢を有する。すなわち、彼は提案された代替文98、100の1つを選択することができる、または、彼はソース文96または代替98、100の1つのいずれかを編集することを選択できる。
第1代替文の場合、提案は単にワード「捕捉した」をワード「捕まえた」で置き換えることであり、書き換えは、文の翻訳を改善すると推定される。インターフェースは、例えば目立たせることによって、色を変えることによって、または他の方法で、行われた修正を強調することによって、行われた変更を示す。ユーザーは、編集するべき文の1つをクリックしてもよい。編集のために、例えば、その文自体または関連する編集アイコン(双方向矢印)をクリックすることによって選ばれた代替文は、目立たせてもよく、または修正が示された異なる色で見せてもよい。ユーザーは、表示された文の1つを(例えば、チェックマーク・アイコンで)確認してもよい。ユーザーの確認後、文書の表示は、ユーザーの選択に基づいてアップデートされ、これにはアップデートされた確信度推定が含まれる。いつでも、ユーザーは、ソース文または代替文の翻訳が表示されることを要請するために、翻訳アイコン(星印)をクリックすることができる。例えば、ユーザーは代替文100を選択してもよく、代替文100は、翻訳を改善すると予想されるが、しかし最も高い確信度を有するものでなくてもよい。翻訳が行われると、ユーザーは、編集されたテキストおよび/またはその翻訳文を保存することができる。正しく理解されることであろうが、インターフェース24の設計は、図3に示されたものに限定されない。
典型的なインターフェース24は、対話型の作業を可能とするために、迅速な応答時間を提供するように設計される。一実施形態においては、文書がロードされると、文に対する代替文および確信度得点が一度に計算される。これは並列であり得、したがって、迅速なロード時間を保証する。最初のローディング後、文書中の任意の文に対する代替文およびそれらの確信度得点は、その後は必要な時に、直ちに取り出すことができる。その後は、仮にユーザーが手動で文を編集する場合にのみ、この文の翻訳に対して、確信度が急いで評価される。編集および選択は、あらゆるユーザー操作の後、自動的に保存される。したがって、仮に後でユーザーが作業を再開したい場合、作業の以前の状態に、遅滞なくアクセスすることができる。
典型的なインターフェース24は、対話型モードでの使用に対して示されており、そこではユーザーは、元のソース文よりも高い翻訳確信度を有するソース代替文のリストを受け取る。彼はそれらの中から1つを選び、元の文を置き換えるか、または、元の文または代替文のいずれかを編集する。ツールもまた自動モードで用いることができ、その中でシステムは、低い確信度入力の文の各々を反復して書き換え、かつ適度に高い確信度の翻訳が達成されるまで、それを翻訳する。例えば、各反復において、ソース文をさらに変形し、したがって、ある程度まで意味を薄めるような、より損失のある操作を加えることによって、ソース文は再公式化される。そのような操作の例には、修飾語の除去、または文からの節単位の除去が含まれる。
典型的な書き換え提案は、少なくとも部分的には、使用されるSMTモデル28に依存する。別個の書き換えツール10またはその適切な部分を、したがって、1つの言語におけるソーステキストが翻訳されるべき先の各言語に対して提供することができる。翻訳のためのソースを準備するプロセスは、したがって、すべてのターゲット言語に対して別々に繰り返されてもよい。仮に自動モードが使用される場合、このことは問題ではないが、その一方で、対話型モデルでの使用に対しては、それは時間がかかるかもしれない。一実施形態において、ソース言語と複数のターゲット言語が与えられると、単一ツール100は、要求される言語ペアのセットの各々に対して翻訳確信度を計算し、かつそれらのすべてを満足する代替ソース文を選択してもよく、すなわち、これによって、すべてのターゲット言語に対して、元のソース文よりも高い翻訳確信度が提供される。これは、特定のSMTモデル28に対する書き換えと比較して最適解を提供しなくてもよく、その一方で、それは実際的な解を提供することができ、実際的な解は、ユーザーがソーステキストを一度しか見直す必要がないので、書き換え時間を低減する。
いくつかの書き換え規則は文脈に敏感であるが、その理由は、同じワードに対する異なる意味が、異なる文脈においては適用可能なためである。この種の事例に対して適切な文脈整合は、Mirkin 2009および次の文献である、Mirkin et al.,”Classification−based contexual preferences,”Proc. TextInfer 2011 Workshop on Textual Entailment,pages 20−29,ACL 2011、で扱われている。
代替文の順位付けは、単に翻訳確信度に基づいてもよい。しかしながら、ソースからの意味的なずれの程度のような、他の要因が順位付けで考慮されてもよい。ずれは、ソース文字列と書き換え文字列との間の編集距離として計算されてもよく、または用いられる規則に基づいてもよい(例えば、あまり保守的でない規則は、より低い重みが与えられ、その結果、より低く順位付けされる傾向にある)。特にあまり保守的でないか、より損失のある書き換え技術が使用される場合、これらの要因(翻訳確信度およびソースからのずれの程度)の両方に基づく順位付けは、有用かもしれない。
典型的なシステムおよび方法は、一般的に自動翻訳の品質を改善するために用いることができ、かつ翻訳サービスにおけるさらなる自動化を促進し、かつコストを低減する可能性がある。一例として、システム30はサービス機関(例えば、コール・センター)で使用されてもよく、これによって、ターゲット言語に通じていない係員が、自分自身の言語でクライアントに応答することが可能になる。係員は、クライアントのメッセージをターゲット言語から、係員が用いるソース言語に翻訳するために、従来のSMTシステムを使用してもよく、そこでは翻訳の品質は、係員がクライアントのメッセージを理解することができる程度であれば、それ以上に高すぎる必要はない。係員はその際、システム30を使用して、十分に翻訳され、改善された確信度を有するソース言語において応答の準備をし、かつSMTシステム12によって、その応答をクライアントの言語に翻訳する。これによって、サービス機関は1つの環境を維持し、そこでは係員は、分野の専門家であると共に異なる言語に通じている必要は全くなく、このことは、その機関が論ずる必要のある問題である。
本システムおよび方法はまた、他のビジネス状況において応用を見出すが、そこでは例えば、異なる言語での操作マニュアルの生成、学術論文の翻訳などにおけるように、その分野で専門性があると共にターゲット言語に能力のある人が不足しているため、後編集のコストが高い。後編集はその際、最も困難な場合のために、確保することができる。典型的なシステムは、すべての翻訳文の精度を完全には保証することはできないが、一方でそれは、後編集を通過する必要がある文の数、およびこのタスクの全体的なコストを削減することができる。
プロトタイプ・システム30は、2008年ニュース解説データからの960文を用いた、英語からスペイン語への翻訳設定において、本方法の初期評価で用いられた。英語−スペイン語翻訳文を得るために、英語−スペイン語ユーロパール(Europarl)訓練モデルのモーゼズ・リリース1.0が使用された(http://www.statmt.orgから利用可能)。
英語を話すが、しかしスペイン語を話さない2人の注釈者が、英語のテキストを書き換えるために、典型的な書き換えツールを用いた。注釈者らは、提案され、書き換えられた文を見直し、かつ信頼度推定器66の「判断を信頼する」ように指示された。すなわち、最も確信があるものから最も確信がないものまでの提案を見直し、注釈者らは、流暢であり、かつ全体的としてソース文書の意味を保存している第1の書き換えられた文を受入れた。元の文および選択された代替文は、その後、共にスペイン語に翻訳され、かつ競争相手として、2人のスペイン語の母国語話者に提示された。文はコーパスのスペイン語側から取られ、元の文書におけるそれらの文脈の中に置かれた。2つの競争相手の提示の順番はランダムであった。スペイン語を話す注釈者は、与えられた文脈の中にあることを踏まえて、2つの文のどちらを好むか、または仮に他方よりも一方を選ぶことができない場合には、「明確な勝者なし」を選ぶように依頼された。
実施例1:ソース側分析
評価のこの部分に対しては、960の英語文がツールに提供された。語彙単純化方法はそれらの70%に対して書き換えを提示したが、その一方で、文レベル単純化方法は、116(12%)の他の文に対するのと同様に、これらの半分超に対して異なる書き換えを提案した(すなわち、2つの方法が同じ提案を生む場合を除いて)。構造によって、文レベル方法は、すべての文に対して少なくとも1つの書き換えを生成する(この評価では、単一の最良訳が用いられた)。さらに、この方法は英語から英語への翻訳であるため、時々、生成された書き換えは、元の文と同一である。したがって、文の18%に対しては、書き換えは行われなかった。提案された書き換えについて、文の57%はより高い確信度提案を有した。これらは、文レベル方法と語彙方法とによって、ほぼ等しく分割された。表1は、2つの方法の各々によって提案された、いくつかの書き換えを示す。語彙方法は、文の中で1つまたは2つのワードを、それらの同義語によって置き換えた。文レベル方法は同様にそれを行ったが、しかしまた、複数語の同義語置換、およびいくつかの他の単純な言い換えを含めて、他の書き換えタイプを生成した。
Figure 2014235740
例(1)は文レベル方法による書き換え例を示し、そこでは(a)は元の文の一セグメントであり、(b)はその対応する書き換えである。
例(1)
a.国民投票で確実に投票するであろうと言う人々の割合だけを見ると、我々は・・・を見つける
b.確実に投票するであろうという人々の割合だけを見ると、我々は・・・を見つける
そのような単純化が妥当であるかどうかは、文脈に依存する。仮に文脈によって、「投票するであろう」が「国民投票で投票するであろう」を表すことが明らかであるなら、その際は、より良い翻訳が期待されていると仮定すれば、これは望ましい種類の書き換えである。確かに、文脈を考慮すれば、そのいくつかは以下に示されるが、修飾語の除去は、ここでは妥当であると見ることができる。
国民投票における興味について質問される場合、サンプルの60%は、確実に国民投票 で投票するであろう・・・と言った。投票する現在の決心を仮定すれば、国民投票は確 かに妥当であるべきだ・・・。
[国民投票で]確実に投票するであろうと言う人々の割合だけをみれば、我々は・・・ を見つける。
別の場合において、文レベル方法による修飾語除去は、例(2)に示されるように、妥当ではない書き換えに帰着する。
例(2)
a.アメリカ連邦準備銀行、ヨーロッパ中央銀行・・・。
b.アメリカ準備銀行、ヨーロッパ中央銀行・・・。
この書き換えは、英語を話す注釈者によって誤って受け入れられた。その理由は、ユーザーに提示されたインターフェースにあるかもしれず、このインターフェースは、追加または置換を構成する違いを目立たせるが、しかしユーザーに削除を見抜くための簡単な手段を提供しなかったからである。これは、例えば削除を目立たせるための取消し線を用いた、インターフェースに対する修正によって、容易に対処することができる。
また、不正確な同義語が、ワードの置き換えとして時々提案された(例えば、クリスマス雰囲気に対してクリスマス空気)。選択器の選択を、確信度において少なくとも最小の改善に関連付けられた、これらの書き換えられたソース文字列にのみ制限することによって、「明確な勝者なし」のような事例は低減されるかもしれず、かつ特に完全に自動化された場合において、ツールに関する導入エラーの可能性は低減されるかもしれない。対話型の場合、ユーザーは恐らく、ツールが下手に書き換えられたソース文字列を作り出す場合を見抜くことができ、かつその後、元の文字列を選択し、書き換えられた文字列を編集し、または、仮にあるとした場合、別の代替文字列を選択することができるであろう。しかしながら、翻訳確信度における閾値の改善を要求することは、ユーザーの作業負荷を軽減するために、対話型の場合には依然として有用であるかもしれない。
しかしながら、一般に文レベルの方法はうまく働くことが認められたが、これは、標準SMTシステムがそうであるように、単一文のレベルで処理される場合である。したがって、修飾語「国民投票で」の除去は、文脈を考慮して行われたのではなく、しかし訓練セットから学習された規則に基づくものである。ユーザーの評価を有することは、適切な書き換えを決定する上で助けとなる。ユーザーは、文脈が与えられると、落とされたテキスト・セグメントが必要かどうかを判断することができる。しかしながら、特に自動化されたツールの場合、文脈情報は、より広い文脈を考慮する書き換え方法を用いるか、またはソース文から大きく外れすぎる書き換えをフィルターをかけて除くかのいずれかによって、ツールの中に統合することができる。
(実施例2)
翻訳への影響
スペイン語への翻訳のために、440の文が用いられた。これらの内のほぼ4分の1は、より高い確信度提案を有し、提案は、英語を話す注釈者によって受け入れられた。それらの15%は、元の文と同一の翻訳を産み出した。これらのほとんどは、語彙方法に由来し、そこでは2つのソース同義語が、同じターゲットワードに翻訳された。例えば、文の中で「スタートする(start)」によって置き換えられたワード「始まる(begin)」は同様な確信度に帰着したが、その理由は、両方がスペイン語のワード”comenzara”に翻訳されるからである。前編集の努力を節約するためには、そのような代替をユーザーに示すことは、省略することができる。
この評価の結果は、事例の20.6%において、元の文の翻訳が、書き換えられたものよりも好ましいことを示している。事例の30.4%において、書き換えられた文の翻訳が好ましく、かつ事例の49%において、どちらが好ましいとうことはなかった。小さなサンプルサイズのために、これらの百分率は統計的に有意ではないかもしれない。
2つの方法の中で、文レベル書き換えに由来する翻訳は、注釈者によってしばしば好ましいものとされた。改善は、より良い読みやすさ、文法性、または翻訳からの不明ワードの除去において明示された。
正しく理解されるべきことであるが、プロトタイプ・ツール10は、限られたセットの書き換え規則を使用し、かつより良い結果を達成するために、洗練され得るであろう。しかしながら、プロトタイプ・ツールに関してさえも、書き換えは、翻訳品質を改善する傾向にあるという結果が示される。さらに、評価においては、すべての文が書き換えられた。その例において、同一の(例えば、2つのソース同義語が同じターゲットワードに翻訳される場合)、またはほぼ同一の翻訳がしばしば生成されるが、この場合、確信度における極めて小さな違いだけがある。
仮に確信度における実質的な改善に関連付けられる書き換えのみが表示される場合、ユーザーの認識努力は低減されるであろう。
評価で用いられた方法は、新しい書き換え技術を評価するために使用することができる。例えば、仮に新しく追加された書き換え方法が、書き換えられた文字列の翻訳が好ましいとされる事例の百分率を改善しない場合、それらは、書き換え構成部に対して有用な付加ではない可能性がある。現存の規則はまた、異なるセットの規則に対する結果を比較することによって、評価することができる。

Claims (9)

  1. ソーステキストを書き換えるための方法であって、
    第1自然言語における少なくとも1つのソーステキスト文字列を備えるソーステキストを受け取るステップと、
    プロセッサで、少なくとも1つのソーステキスト文字列の各々に対して、
    第2自然言語における第1ターゲットテキスト文字列を生成するために、機械翻訳システムで前記ソーステキスト文字列を翻訳するステップと、
    前記ソーステキスト文字列の少なくとも1つと前記第1ターゲットテキスト文字列とに基づく、少なくとも1つの特徴に基づく前記ソーステキスト文字列に対して、第1翻訳確信度を計算するステップと、
    前記第1自然言語における少なくとも1つの代替テキスト文字列を生成するステップに対して準備するステップであって、前記生成するステップが前記ソーステキスト文字列を自動的に書き換えるステップを備える、ステップと、
    前記少なくとも1つの代替テキスト文字列の各々に対して、
    前記第2自然言語における第2ターゲットテキスト文字列を生成するために、前記機械翻訳システムで前記代替テキスト文字列を翻訳するステップと、
    前記代替テキスト文字列の少なくとも1つと前記第2ターゲットテキスト文字列とに基づく、少なくとも1つの特徴に基づく前記代替テキスト文字列に対して第2翻訳確信度を計算するステップと、
    前記計算された第1および第2翻訳確信度に基づいて、前記ソーステキストにおける前記ソーステキスト文字列に対する置き換えとして、前記少なくとも1つの代替テキスト文字列の1つを選択するステップに対して準備するステップと、
    を備える、方法。
  2. 請求項1に記載の方法であって、修正されたソーステキストの少なくとも1つを出力するステップに対して準備するステップをさらに備える方法であって、修正されたテキストが、前記選択された代替テキスト文字列と前記修正されたソーステキストの翻訳とを備える、方法。
  3. 請求項1に記載の方法であって、前記ソーステキストにおける前記ソーステキスト文字列に対する置き換えとして、前記代替テキスト文字列を選択するステップに対して前記準備するステップが、グラフィカル・ユーザー・インターフェース上で前記代替テキスト文字列を表示するステップに対して、かつ前記代替テキスト文字列のユーザーの選択を受け取るステップに対して準備するステップを備える、方法。
  4. 請求項1に記載の方法であって、前記第1翻訳確信度と前記第2翻訳確信度とを比較するステップをさらに備え、かつ、少なくとも1つの代替テキスト文字列の少なくとも1つを選択するステップに対して前記準備するステップが、前記少なくとも1つの代替テキスト文字列の少なくとも1つの選択に対して準備するステップを備え、前記少なくとも1つの代替テキスト文字列に対しては、前記第2翻訳確信度が前記第1翻訳確信度よりも少なくとも高い、方法。
  5. 請求項1に記載の方法であって、少なくとも1つの代替テキスト文字列を前記生成するステップが、複数の代替テキスト文字列を生成するステップを備え、かつ、前記ソーステキスト文字列に対する置き換えとして、前記複数の代替テキスト文字列の1つを選択するステップに対して前記準備するステップが、
    前記複数の代替テキスト文字列をフィルターにかけるステップであって、これによって、前記第2の計算された翻訳確信度が、前記第1の計算された翻訳確信度を超えないような代替テキスト文字列を除去する、ステップと、
    前記複数の代替テキスト文字列の少なくともいくつかを順位付けするステップであって、この順位付けが前記複数の代替テキスト文字列のそれぞれの計算された第2翻訳確信度に基づく、ステップと、
    の少なくとも1つを備える、方法。
  6. 請求項1に記載の方法であって、前記計算された第1翻訳確信度が、前記第1ターゲット文字列に基づく少なくとも1つの特徴に基づき、かつ前記計算された第2翻訳確信度が、前記第2ターゲットテキスト文字列に基づく少なくとも1つの特徴に基づき、かつ好みに応じて、
    前記ソーステキスト文字列に対する前記計算された第1翻訳確信度が、前記ソーステキスト文字列に基づく少なくとも1つの特徴に基づき、かつ前記ソーステキスト文字列に対する前記計算された第2翻訳確信度が、前記代替テキスト文字列に基づく少なくとも1つの特徴に基づく、方法。
  7. 請求項1に記載の方法であって、前記計算された第1および第2翻訳確信度が、1つのグループから選択された少なくとも1つの特徴に基づき、このグループが、
    a.前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるトークンの数と、
    b.前記第1ターゲットテキスト文字列と前記第2ターゲットテキスト文字列のそれぞれにおけるトークンの数と、
    c.前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるトークンの平均長と、
    d.前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれに対して計算された言語モデル確率と、
    e.前記第1ターゲットテキスト文字列と前記第2ターゲット文字列のそれぞれに対して計算された言語モデル確率と、
    f.前記第1ターゲットテキスト文字列と前記第2ターゲット文字列のそれぞれの中での各ターゲットワードの発生数と、
    g.前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるソースワードあたりの翻訳の平均数と、
    h.ソース言語コーパスにおける各ワードの逆頻度によって重み付けされる、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおける、ソースワードあたりの翻訳の平均数と、
    i.前記ソース言語のコーパスにおいてより低い頻度のワードであると決定される、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるnグラムの百分率であって、nが少なくとも1である数とした、百分率と、
    j.前記ソース言語の前記コーパスにおいてより高い頻度のワードであると決定される、前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるnグラムの百分率であって、nが少なくとも1である数とした、百分率と、
    k.ソース言語コーパスにおいて観察される前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおけるユニグラムの百分率と、
    l.前記ソーステキスト文字列と前記代替テキスト文字列のそれぞれにおける句読点記号の数と、
    m.前記第1ターゲットテキスト文字列と前記第2ターゲットテキスト文字列のそれぞれにおける句読点記号の数と、
    n.前記ターゲットテキスト文字列に対するSMTモデルの得点と、
    から成る、方法。
  8. 請求項1に記載された方法であって、前記第1自然言語における少なくとも1つの代替テキスト文字列を前記生成するステップが、テキスト単純化と原文含意書き換えとから成るグループから選択された少なくとも1つの書き換え方法を適用するステップを備え、かつ好ましくは、
    以下のテキスト単純化方法および原文含意書き換えの少なくとも1つを適用するステップを備え、
    a)前記テキスト単純化方法が、
    複雑なソーステキスト文字列と、前記第1自然言語において対応する単純化されたソーステキスト文字列との並列コーパス上で訓練されてきた翻訳モデルを用いて、前記ソーステキスト文字列を前記第1自然言語における単純化されたソーステキスト文字列に翻訳する文レベル書き換え方法と、
    前記ソーステキスト文字列におけるソースワードに対応する単純化されたソースワードを識別するために、複雑なソースワードの語彙集およびそれぞれの単純化されたソースワードがアクセスされる語彙単純化と、
    から選択され、
    b)前記原文含意書き換えが、前記ソーステキスト文字列を含意するか、または前記ソーステキスト文字列に含意される代替ソーステキスト文字列を生成するように構成される一組の書き換え規則の少なくとも1つを適用するステップを備える、方法。
  9. ソーステキストを書き換えるためのシステムであって、
    第1自然言語におけるソーステキスト文字列を備えるソーステキストを受け入れるように、かつ前記ソーステキスト文字列を書き換えることによって、前記第1自然言語において少なくとも1つの代替テキスト文字列を生成するように構成された書き換え構成部と、
    前記ソーステキスト文字列の第1機械翻訳および前記代替テキスト文字列の第2機械翻訳を要請するように構成された翻訳要請器と、
    前記ソーステキスト文字列および前記代替テキスト文字列に対する翻訳確信度を推定するための確信度推定器と、
    前記翻訳確信度に基づいて、ソーステキスト文字列に対する置き換えとして代替テキスト文字列を選択するための、またはソーステキスト文字列の置き換えのための候補を選択するための選択構成部と、
    翻訳要請器、確信度推定器および選択構成部の少なくとも1つを履行するプロセッサと、
    を備える、システム。
JP2014108795A 2013-06-03 2014-05-27 改善された翻訳のためのソーステキストの確信度駆動型書き換え Pending JP2014235740A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/908,157 US20140358519A1 (en) 2013-06-03 2013-06-03 Confidence-driven rewriting of source texts for improved translation
US13/908,157 2013-06-03

Publications (1)

Publication Number Publication Date
JP2014235740A true JP2014235740A (ja) 2014-12-15

Family

ID=51032906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014108795A Pending JP2014235740A (ja) 2013-06-03 2014-05-27 改善された翻訳のためのソーステキストの確信度駆動型書き換え

Country Status (3)

Country Link
US (1) US20140358519A1 (ja)
EP (1) EP2811414A3 (ja)
JP (1) JP2014235740A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
KR20200092446A (ko) * 2019-01-04 2020-08-04 네이버 주식회사 어체 변환이 가능한 기계 번역 방법 및 시스템
JPWO2020026360A1 (ja) * 2018-07-31 2021-08-19 株式会社オプティム コンピュータシステム、画面共有方法及びプログラム

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US9582499B2 (en) * 2014-04-14 2017-02-28 Xerox Corporation Retrieval of domain relevant phrase tables
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) * 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) * 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9805028B1 (en) 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9367541B1 (en) * 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
JP6327195B2 (ja) * 2015-04-27 2018-05-23 株式会社デンソー 制御装置
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10048842B2 (en) 2015-06-15 2018-08-14 Google Llc Selection biasing
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10545920B2 (en) 2015-08-04 2020-01-28 International Business Machines Corporation Deduplication by phrase substitution within chunks of substantially similar content
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9734142B2 (en) * 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
CN106547743B (zh) 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US11068660B2 (en) * 2016-01-26 2021-07-20 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105975558B (zh) * 2016-04-29 2018-08-10 百度在线网络技术(北京)有限公司 建立语句编辑模型的方法、语句自动编辑方法及对应装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10380263B2 (en) * 2016-11-15 2019-08-13 International Business Machines Corporation Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain
US10248651B1 (en) * 2016-11-23 2019-04-02 Amazon Technologies, Inc. Separating translation correction post-edits from content improvement post-edits in machine translated content
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
US10180935B2 (en) 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6404511B2 (ja) * 2017-03-09 2018-10-10 楽天株式会社 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10552547B2 (en) * 2017-10-10 2020-02-04 International Business Machines Corporation Real-time translation evaluation services for integrated development environments
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10733389B2 (en) 2018-09-05 2020-08-04 International Business Machines Corporation Computer aided input segmentation for machine translation
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10977430B1 (en) * 2018-11-19 2021-04-13 Intuit Inc. System and method for correction of acquired transaction text fields
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10970488B2 (en) * 2019-02-27 2021-04-06 International Business Machines Corporation Finding of asymmetric relation between words
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11449205B2 (en) * 2019-04-01 2022-09-20 Microsoft Technology Licensing, Llc Status-based reading and authoring assistance
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11537789B2 (en) 2019-05-23 2022-12-27 Microsoft Technology Licensing, Llc Systems and methods for seamless application of autocorrection and provision of review insights through adapted user interface
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11887585B2 (en) 2019-05-31 2024-01-30 Apple Inc. Global re-ranker
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111401038B (zh) * 2020-02-26 2023-10-27 支付宝(杭州)信息技术有限公司 文本处理方法、装置、电子设备及存储介质
CN111401032B (zh) * 2020-03-09 2023-10-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
US11501088B1 (en) * 2020-03-11 2022-11-15 Yseop Sa Techniques for generating natural language text customized to linguistic preferences of a user
US11775764B2 (en) * 2020-04-20 2023-10-03 International Business Machines Corporation Estimating output confidence for black-box API
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11775271B1 (en) * 2020-05-15 2023-10-03 Google Llc Annotations for developers
FR3110740A1 (fr) 2020-05-20 2021-11-26 Seed-Up Procédé de conversion automatique de fichiers numériques
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220366154A1 (en) * 2021-05-12 2022-11-17 Google Llc Interactive graphical interfaces for efficient localization of natural language generation responses, resulting in natural and grammatical target language output
CN114880436A (zh) * 2022-03-16 2022-08-09 北京金山数字娱乐科技有限公司 文本处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2136038C1 (ru) * 1992-09-04 1999-08-27 Катерпиллар Инк. Компьютерная система и способ подготовки текста на исходном языке и перевода на иностранные языки
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JPWO2020026360A1 (ja) * 2018-07-31 2021-08-19 株式会社オプティム コンピュータシステム、画面共有方法及びプログラム
JP7058052B2 (ja) 2018-07-31 2022-04-21 株式会社オプティム コンピュータシステム、画面共有方法及びプログラム
KR20200092446A (ko) * 2019-01-04 2020-08-04 네이버 주식회사 어체 변환이 가능한 기계 번역 방법 및 시스템
KR102188564B1 (ko) 2019-01-04 2020-12-09 네이버 주식회사 어체 변환이 가능한 기계 번역 방법 및 시스템

Also Published As

Publication number Publication date
EP2811414A3 (en) 2015-06-17
EP2811414A2 (en) 2014-12-10
US20140358519A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
JP2014235740A (ja) 改善された翻訳のためのソーステキストの確信度駆動型書き換え
Moorkens et al. Assessing user interface needs of post-editors of machine translation
US9613026B2 (en) System and method for interactive automatic translation
US11250841B2 (en) Natural language generation, a hybrid sequence-to-sequence approach
US9390087B1 (en) System and method for response generation using linguistic information
US20200243076A1 (en) Multi-Dimensional Parsing Method and System for Natural Language Processing
Koehn A process study of computer-aided translation
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US9619464B2 (en) Networked language translation system and method
US10496756B2 (en) Sentence creation system
JP2005535007A (ja) 文書検索システム用の知識抽出のための自己学習システムの合成方法
WO2005073874A1 (ja) 他言語のテキスト生成方法及びテキスト生成装置
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
WO2020229889A1 (en) Natural language text generation using semantic objects
Mateo Mendaza The Old English exponent for the semantic prime MOVE
Sitender et al. Sansunl: a Sanskrit to UNL enconverter system
Sebastian Malayalam natural language processing: challenges in building a phrase-based statistical machine translation system
Sridhar et al. English to Tamil machine translation system using universal networking language
Asscher The explanatory power of descriptive translation studies in the machine translation era
Darbari Computer assisted translation system–an Indian perspective
Kumar et al. Pattern-based syntactic simplification of compound and complex sentences
WO2020026229A2 (en) Proposition identification in natural language and usage thereof
Lim et al. A Conceptual Framework For Malay-English Mixed-language Question Answering System
Salam et al. Improve example-based machine translation quality for low-resource language using ontology
Sun et al. An effective hybrid automated Chinese scoring system for medical education