JP6607902B2 - フレーズに基づく辞書抽出及び翻訳品質評価 - Google Patents

フレーズに基づく辞書抽出及び翻訳品質評価 Download PDF

Info

Publication number
JP6607902B2
JP6607902B2 JP2017214779A JP2017214779A JP6607902B2 JP 6607902 B2 JP6607902 B2 JP 6607902B2 JP 2017214779 A JP2017214779 A JP 2017214779A JP 2017214779 A JP2017214779 A JP 2017214779A JP 6607902 B2 JP6607902 B2 JP 6607902B2
Authority
JP
Japan
Prior art keywords
source
target
translation
phrase
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017214779A
Other languages
English (en)
Other versions
JP2018037095A (ja
Inventor
ウー,エンユエン
ソク オー,ボム
マイケル,アラン
オドネル,ケヴィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2018037095A publication Critical patent/JP2018037095A/ja
Application granted granted Critical
Publication of JP6607902B2 publication Critical patent/JP6607902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

人である翻訳者は、第1の言語から第2の言語への翻訳を実行してよい。代替的に、ソフトウェアアプリケーションが、そのような翻訳を実行するよう翻訳辞書を適用してよい。翻訳の成功又は失敗は、独立した監査役によって決定されてよい。独立した監査役は、第2の、人である翻訳者、又は翻訳監査プログラムであってよい。
この概要は、詳細な説明において以下で更に記載される簡略化された形で選り抜きの概念を紹介するために設けられている。この概要は、請求される対象の重要な特徴又は必須の特徴を特定するよう意図されず、請求される対象の適用範囲を制限するために使用されるよう意図されない。
以下で論じられる実施形態は、マッピングチャートにより翻訳を評価することに係る。データインタフェースは、ソース言語をターゲット言語とマッチングする翻訳辞書にアクセスしてよい。プロセッサは、翻訳辞書を用いて、言語レベルで、ソース言語におけるソースセンテンスと、ターゲット言語におけるターゲットセンテンスとを有するセンテンス対を自動的にマッピングしてよい。ユーザ出力装置は、センテンス対の翻訳品質リポートを表示してよい。
上記及び他の利点及び特徴が取得され得る様態を記載するために、より詳しい説明が示され、添付の図面で表されるその具体的な実施形態を参照して提供される。それらの図面が典型的な実施形態を表し、従って、その適用範囲の制限であると見なされるべきでないと理解すると、実施は、添付の図面の使用を通じて更なる特定及び詳細により記載及び説明される。
コンピュータ装置の一実施形態をブロック図において表す。
マッチングユニットの一実施形態をブロック図において表す。
マッピングチャートの一実施形態をブロック図において表す。
複合ワードマッピングの一実施形態をブロック図において表す。
ファジー複合ワードマッピングの一実施形態をブロック図において表す。
混合ワード−フレーズリストを作成する方法の一実施形態をフローチャートにおいて表す。
翻訳辞書を作成する方法の一実施形態をフローチャートにおいて表す。
翻訳品質リポートを生成する方法の一実施形態をフローチャートにおいて表す。
マッピングチャートを作成する方法の一実施形態をフローチャートにおいて表す。
実施形態は、以下で詳細に論じられる。具体的な実施が論じられる一方、これは、説明目的で行われる。当業者は、他のコンポーネント及び構成が、本開示の態様の趣旨及び適用範囲から外れることなしに使用されてよいと認識するであろう。実施は、機械により実施される方法、少なくとも1つのプロセッサのための方法を詳述する命令の組を記憶した有形なコンピュータ可読媒体、又は翻訳品質保証システムであってよい。
翻訳品質保証ツールは、セグメントレベルのチェック、一貫性、句読点、数及び日付、用語、タグ、並びにソフトウェア固有の構成概念のように、翻訳の品質を決定する際に多くの異なったメトリクスを使用してよい。翻訳品質保証システムの正確さは、バイリンガルのセンテンス対の間でワード及びフレーズをマッピングするために翻訳辞書を使用することで、改善され得る。“フレーズ(phrase)”又は“セグメント(segment)”は、意味的な及び文法的な正確さを無視して途切れなく互いに隣接する1又はそれ以上の連続したワードの組である。この文脈におけるセンテンスは、1又はそれ以上のワードの連なりであり、必ずしも文法的なセンテンスではない。センテンスは、完全なセンテンス又は不完全なセンテンスであってよい。翻訳品質保証システムは、2つの並列なテキストファイルから翻訳辞書を抽出し、ソースセンテンスをターゲットセンテンスへマッピングし、結果として得られた統計値を翻訳品質リポートにまとめてよい。
最初に、翻訳品質保証システムは、統計的な機械翻訳モデルとともに、一体化された、長さを調整可能な、且つ自動プルーニングするフレーズに基づく比較を用いて、並列なバイリンガルセンテンス対のトレーニングデータセットから翻訳辞書を構築してよい。現在、フレーズに基づく統計的な機械翻訳モデルは、最初のワード対ワードのアライメント、すなわち、“翻訳辞書”を構築し、更なるモデル及び計算を用いてフレーズを抽出してよい。ワードレベルの翻訳辞書はノイズを有することがあるので、並列なセンテンス対における“ワードマッピング”及び最終のフレーズ抽出は更なるノイズを導入することがある。よって、取り出された翻訳辞書は、高いレベルのノイズを有し、既存の統計的な機械翻訳モデルにおいて付加的な計算ステップを課せられることがある。
翻訳品質保証システムは、ソースセンテンス及びターゲットセンテンスの両方を、8といった、ワードの上限数を有するワード及びフレーズに分けてよい。翻訳品質保証システムは、アライメントを決定するよう混合ワード−フレーズリストを統計的な機械翻訳モデルに供給してよい。翻訳品質保証システムは、混合ワード−フレーズリストから、翻訳を有さないか又は翻訳確率が低いフレーズをプルーニングしてよい。翻訳品質保証システムは、単ワードレベルに達するまでルーピングを続けてよい。
具体的に、翻訳品質保証システムは、8といった、フレーズ内の多数のワードから開始してよい。翻訳品質保証システムは、ソース言語におけるセンテンスをワード及びフレーズの混合リストに分け、同じプロセスをターゲット言語について繰り返してよい。翻訳品質保証システムは、両方の混合リストを、バイリンガルセンテンス対とともに、統計的な機械翻訳モデルへの入力として使用してよい。バイリンガルセンテンス対をルーピングすることによって、統計的な機械翻訳モデルは、確率を計算することで夫々の翻訳の確からしさを決定してよい。
翻訳品質保証システムは、1回目の翻訳確率テーブル又は翻訳辞書を生成してよい。次いで、翻訳品質保証システムは、そのフレーズ長さにおいて信頼できるフレーズを残しながら、翻訳を有さないか又は翻訳確率が低いレベルにあるあらゆるフレーズを除去するよう、混合ワード−フレーズリストをプルーニングしてよい。次のステップで、翻訳品質保証システムは、フレーズにおいて許されるワードの最大数を1だけ減らし、プロセスを繰り返してよい。この分割、トレーニング、及びプルーニングプロセスは、単ワードフレーズ長さに達するまで続いてよい。非対称性の統計的な機械翻訳モデルを用いる場合は、翻訳品質保証システムは、ソース及び翻訳を反転し、プロセスを繰り返し、そして結果をオーバーレイしてよい。非対称性の統計的な機械翻訳は、どの言語がソース言語と見なされるかに基づき異なる言語の対の間の結果を有する。
翻訳品質保証システムは、翻訳対における夫々の言語について混合ワード−フレーズリストを作成してよい。翻訳品質保証システムは、夫々のワードを、トレーニングデータ全体においてワードが現れる頻度とともにワードリストに加えながら、ソースセンテンス又はターゲットセンテンスをワードに分けてよい。次いで、翻訳品質保証システムは、8といった、フレーズにおけるワードの数に関する上限に達するまでプロセスを繰り返しながら、連続した2つのワードを2ワードフレーズリストに加えてよい。翻訳品質保証システムは、5回の出現といった、出現についての所定の閾値に対して、夫々のフレーズの頻度を確認してよい。より多くのワードをフレーズリストに加える場合に、翻訳品質保証システムは、基礎をなすより短いフレーズが有効であることを確かにしてよい。最後に、翻訳品質保証システムは、全ての長さのワード及びフレーズを、辞書抽出プロセスのための初期入力として使用されるべき単一の混合ワード−フレーズリストへとまとめてよい。
ソース言語及びターゲット言語の両方のための混合ワード−フレーズリストに分けられたトレーニングデータにおけるセンテンスによれば、翻訳品質保証システムは、何らかの統計的な機械翻訳モデルを用いて、最初の翻訳確率テーブルを計算してよい。1回目の統計的な機械翻訳トレーニングが完了すると、翻訳品質保証システムは、翻訳を有さないか又は翻訳確率が低いフレーズを混合ワード−フレーズリストから除去してよい。選択されたフレーズが最初の混合ワード−フレーズリストから除去された後、翻訳品質保証システムは、センテンスを再分割し、翻訳確率テーブルを再計算してよい。このように、分割、トレーニング、及びプルーニングプロセスは、単ワードレベルに達するまで続いてよい。翻訳品質保証システムは、非対称性の統計的な機械翻訳の辞書抽出において翻訳確率テーブルをオーバーレイしてよい。
分割、トレーニング、及びプルーニングの繰り返しの後、翻訳品質保証システムは、バイリンガルのフレーズ辞書を生成してよい。通常、0.5よりも大きい翻訳確率を有する辞書エントリは、信頼できると見なされてよく、0.25から0.5の間の翻訳確率を有する辞書エントリは、辛うじて使用可能であると見なされてよく、一方、0.25を下回る翻訳確率を有する辞書エントリは、信頼できないと見なされてよい。より詳細なパラメータ調整、より多くの繰り返し、及びより大きいサイズのトレーニングデータによれば、結果は改善することができる。
この領域特化型の抽出されたバイリンガル辞書を用いて、翻訳品質保証システムは、翻訳の品質を確かめるよう、所与のバイリンガルセンテンス対において、ソースセンテンスをターゲットセンテンスへマッピングしてよい。翻訳品質保証システムは、テキストファイルセグメントをワードリストに分けることから始めてよい。ソース言語についてのワードリスト内の夫々のワードに関し、翻訳品質保証システムは最初に、フレーズにおけるワードの上限数から開始しながら、フレーズのリストを作成してよい。翻訳品質保証システムは、そのようなフレーズが、抽出されたバイリンガル辞書において存在するかどうかを見つけ出そうと試みてよい。存在する場合は、翻訳品質保証システムは、何らかの翻訳がターゲットセンテンスにおいて存在するかどうかを確認するよう、このフレーズについての翻訳のリストを確認してよい。存在する場合は、翻訳品質保証システムは、ターゲットセンテンスにおけるワードのいずれも一致しないかどうかを確認してよい。一致しない場合は、翻訳品質保証システムは、一致を示すようマッチング情報を更新してよい。より多くのワードを有するソースフレーズが不一致のままになる場合は、翻訳品質保証システムは、フレーズにおけるワードの数をデクリメントし、単ワードが確認されるまで繰り返してよい。
多くの言語において、特定のワードは、文法的な目的を果たし、極めて頻繁に出現することがある。それらの“ノイジーワード”は、何通りにも翻訳されるか、又は翻訳さえされないことがある。更に、それらのノイジーワードは、適切なソース−ターゲット間のセンテンスマッピングを妨げながら、1つのセンテンスにおいて複数回現れることがある。不整合を回避するよう、翻訳品質保証システムは、マッピングを延期するか又は見送ってよい。
アライメントの試みが幾つかのワードにおいて失敗をもたらす場合は、翻訳品質保証システムは、補償するためにファジーマッチングを使用してよい。多くのスペリングに基づく言語において、ワードは、容易な検出を回避しながら、何らかの言語機能を満たすよう、スペリングを変えることがある。ファジーマッチングのバージョンを用いて、翻訳品質保証システムは、より良い一致率を得ることができる。
ドイツ語、オランダ語、フィンランド語、及びアイスランド語のような幾つかの言語では、複合ワードが自然発生的に生成されることがある。複合ワードに対処するよう、翻訳品質保証システムは、センテンスマッピングより前に、順次的なマッピングされていないワードを複合ワードへと合体してよい。
複合ワードのマッピングを実行するよう、翻訳品質保証システムは、ターゲットセンテンスにおける夫々のマッピングされていないワードをルーピングし、複合ワードの接頭辞である翻訳を有する何らかのマッピングされていないソースワードを見つけてよい。そのようなソースワードが見つけられる場合は、そのソースワードは、複合ワードにおける最初のサブストリングであってよい。次いで、翻訳品質保証システムは、次のソースワードを確認してよい。ソースワードが既にマッピングされている場合は、翻訳品質保証システムは、マッピングプロセスを脱してよい。そうでない場合は、翻訳品質保証システムは、最初のサブストリングと連結することができ、依然として接頭辞であるか又は複合ワードに等しいものを見つけるよう、全てのターゲット翻訳を確認してよい。ビルドアップは、成功又は脱出のいずれかまで続いてよい。翻訳品質保証システムはまた、複合ワード一致を決定する際にファジーマッチングを使用してよい。
複数回のマッピングを用いて、翻訳品質保証システムは、複数のオプションを繰り返してよい。翻訳品質保証システムは、好適な用語辞書、領域特化型の翻訳辞書、抽出された翻訳辞書、汎用の翻訳辞書、複合ワードマッピング、ファジーマッチマッピング、及び次いでノイジーワードマッピングから開始してよい。
翻訳品質保証システムは次いで、人である翻訳者又は翻訳品質確認要員へ提供すべき翻訳品質リポートを生成してよい。翻訳品質リポートは、信頼スコアを含んでよい。信頼スコアは、ワードに基づくか、又は文字に基づいてよい。ワードに基づく信頼スコアは、マッピングされたワードの総数を、ワードの総数で割り算してよい。文字に基づく信頼スコアは、マッピングされたワードにおける文字の総数を、センテンスにおける文字の総数で割り算してよい。複合的な信頼スコアは、それら2つを平均してよい。信頼スコアは、ソースセンテンス及びターゲットセンテンスにおいて異なってよい。全体的な信頼スコアは、それら2つのうちの小さい方であってよい。
翻訳品質保証システムは、マッピングチャートにおいて視覚的にマッピングデータを表示してよい。翻訳品質保証システムは、黒といった、マッピングされていないワードを示すために使用される特別に割り当てられた色により、マッピングを示すようテキストファイルセグメントにおける夫々のフレーズ又はワードをカラーコード化してよい。マッピングチャートは、夫々のワード又は、不適切に翻訳されるワードのみについて、マッピングを示してよい。
翻訳品質保証システムは、実時間において翻訳品質リポートを提供してよい。ユーザは、不完全なデータ又はシステム内のエラーの結果である誤訳のあらゆる通知を訂正するよう、翻訳品質保証システムをアップデートしてよい。翻訳品質保証システムは、容易に識別可能な一致を有さないソースフレーズ又はターゲットフレーズの挿入を特定し、その挿入を適切又は不適切として分類してよい。そのような挿入は、ソース言語におけるワードがターゲット言語において等価物を有さない場合に翻訳者によって使用されることがある。加えて、翻訳品質保証システムは、ソースフレーズ及びターゲットフレーズが同じである場合に“翻訳し忘れ”を検出してよい。
このように、一実施形態において、翻訳機品質保証システムは、マッピングチャートを用いて翻訳を評価してよい。データインタフェースは、ソース言語をターゲット言語とマッチングする翻訳辞書にアクセスしてよい。プロセッサは、翻訳辞書を用いて、言語レベルで、ソース言語におけるソースセンテンスと、ターゲット言語におけるターゲットセンテンスとを有するセンテンス対を自動的にマッピングしてよい。ユーザ出力装置は、ターゲットセンテンスの翻訳品質リポートを表示してよい。
図1は、翻訳品質保証システムとして動作することができるコンピュータ装置100の例のブロック図を表す。コンピュータ装置100は、翻訳品質保証システムを実装するよう、ハードウェア、ソフトウェア、ファームウェア、及びシステム・オン・チップ技術のうちの1又はそれ以上を組み合わせてよい。コンピュータ装置100は、バス110、プロセッサ120、メモリ130、データストレージ140、データインタフェース150、入力装置160、出力装置170、及び通信インタフェース180を有してよい。バス110、又は他のコンポーネントインターコネクト装置は、コンピュータ装置100のコンポーネント間の通信を可能にしてよい。
プロセッサ120は、命令の組をインタープリットし実行する少なくとも1つの従来のプロセッサ又はマイクロプロセッサを有してよい。メモリ130は、プロセッサ120による実行のための情報及び命令を記憶するランダムアクセスメモリ(RAM)又は他のタイプの動的記憶装置であってよい。メモリ130は、プロセッサ120による命令の実行の間に使用される一時変数又は他の中間情報を更に記憶してよい。
データストレージ140は、例えば、デジタルビデオディスク及びその対応するドライブのような磁気又は光学記録媒体のような、あらゆるタイプの有形なコンピュータ可読媒体を有してよい。有形なコンピュータ可読媒体は、信号とは対照的に、機械により読み出し可能なコード又は命令を記憶する物理媒体である。ここで記載されるようにコンピュータ可読媒体に命令を記憶させることは、伝播が、命令を記憶しているコンピュータ可読媒体によって起こり得るような命令を記憶することに対して、命令を伝送するものとして、命令を伝播又は送信させることと区別できる。従って、別なふうに述べられない限り、この又は同じ形において、命令を記憶しているコンピュータ可読媒体との言及は、データが記憶又は保持され得る有形な媒体を参照する。データストレージ140は、1又はそれ以上のプロセッサによって実行される場合にその1又はそれ以上のプロセッサに方法を実行させる、方法を詳述する命令の組を記憶してよい。データインタフェース150は、翻訳辞書又は複数の専門の翻訳辞書の記憶又はアクセスのためのデータストレージ140、データベース、又はデータインタフェースであってよい。
入力装置160は、キーボード、マウス、音声認識装置、マイクロホン、ヘッドセット、ジェスチャ認識装置、タッチスクリーン等のような、ユーザが情報をコンピュータ装置100へ入力することを可能にする1又はそれ以上の従来メカニズムを有してよい。出力装置170は、ディスプレイ、プリンタ、1以上のスピーカ、ヘッドセット、あるいは、メモリ、又は磁気若しくは光ディスク及び対応するディスクドライブといった媒体を含む、情報をユーザへ出力する1又はそれ以上の従来メカニズムを有してよい。通信インタフェース180は、コンピュータ装置100が他の装置又はネットワークと通信することを可能にするあらゆるトランシーバのようなメカニズムを有してよい。通信インタフェース180は、ネットワークインタフェース又はトランシーバインタフェースを有してよい。通信インタフェース180は、無線、有線、又は光インタフェースであってよい。
コンピュータ装置100は、プロセッサ120が、例えば、メモリ130、磁気ディスク、又は光ディスクのようなコンピュータ可読媒体に含まれる命令のシーケンスを実行することに応答して、そのような機能を実行してよい。そのような命令は、記憶装置150のような他のコンピュータ可読媒体から、又は別の装置から通信インタフェース180を介して、メモリ130に読み込まれてよい。
翻訳品質保証システムは、ソースセンテンスをターゲットセンテンスへマッピングするのを円滑にするために、データ構造としてマッチングユニットを使用してよい。図2は、マッチングユニット200の一実施形態をブロック図において表す。マッチングユニット200は、複数回のマッピングを容易にしてよい。マッチングユニット識別子(ID)210は、ソースセンテンス又はターゲットセンテンスにおけるエレメントのインデックスを記述してよい。ターゲットマッチングユニット200又はソースマッチングユニットは、ワード、複合ワード、又は句読点であってよい。一致確率フィールド220は、センテンス対におけるワード間の一致の確率を記述してよい。確率フィールド220は、翻訳辞書からの確率値を示してよい。
マッチングユニット200における一致長さフィールド230は、ソースセンテンス又はターゲットセンテンスにおける連続するワードの数を記述してよい。一致長さフィールド230は、未だ一致を示さないゼロへ初期化されてよい。一致長さ値1は、単一のワードの一致を示し、1よりも大きい一致値は、複数のワードから成るフレーズの一致を示す。複数ワードフレーズ一致の場合に、隣接するワードは同じ一致長さ値を有してよい。一致長さフィールド230は、単一ワード一致又は複数ワードフレーズ一致を示してよい。
マッチングリストフィールド240は、バイリンガルセンテンス対のマッチングセンテンスにおけるマッチングされたワードのワードインデックスのリストを記述してよい。空のマッチングリストフィールド240は、未だワードがマッチングされていないことを示し、一致長さフィールド230は、空のマッチングリストと同期するようゼロの値を有する。単項目のマッチングリストフィールド240は、他のセンテンスからの単一のワードがこのワードとマッチングされたことを示してよい。
翻訳品質保証システムは、ユーザへ表示すべきマッピングチャートを作成してよい。図3は、マッピングチャート300の一実施形態をブロック図において表す。マッピングチャート300は、ソースセンテンス310におけるソースエレメントをターゲットセンテンス320におけるターゲットエレメントへマッピングしてよい。エレメント(element)は、センテンスにおけるワード又はフレーズを指す。例えば、ソースセンテンス310は、“Web sites spread false information”であってよい。この例において、ソース言語は英語であってよい。ターゲットセンテンス320は、“Sitios web de difundir informacion falsa”であってよい。ターゲット言語は、スペイン語であってよい。
ソースセンテンス310は、最初にソースワード312に分けられてよい。ソースワード312は、句読点及びワードに相当してよい。連続したソースワード312は、いずれかのターゲットエレメントへマッピングされるようソースフレーズ314にまとめられてよい。ソースフレーズ314の採用は、一致するターゲットエレメントを見つけることに依存してよい。ソースエレメントは、ソースワード312又はソースフレーズ314のいずれかを指してよい。夫々のソースワード312及びソースフレーズ314は、異なったソースカラーコード316を有してよい。
ターゲットセンテンス320は、ターゲットワード322に分けられてよい。ターゲットワード322は、句読点及びワードに相当してよい。連続したターゲットワード322は、いずれかのソースエレメントへマッピングされるようターゲットフレーズ324にまとめられてよい。ターゲットフレーズ324の採用は、一致するソースエレメントを見つけることに依存してよい。ターゲットエレメントは、ターゲットワード322又はターゲットフレーズ324のいずれかを指してよい。夫々のターゲットワード322及びターゲットフレーズ324は、異なったターゲットカラーコード326を有してよい。
翻訳品質保証システムは、ソースワード312をターゲットワード322又はターゲットフレーズ324とマッチングしてよい。翻訳品質保証システムは、ソースフレーズ314をターゲットワード322又はターゲットフレーズ324とマッチングしてよい。ソースエレメントは、マッチングするターゲットエレメントとは異なる順序にあってよい。ターゲットカラーコード326は、ターゲットワード322又はターゲットフレーズ324がソースワード312又はソースフレーズ314と一致することを示すようソースカラーコード316と整合してよい。例えば、ソースワード312“false”は、ソースカラーコード316として青を有してよい。ターゲットワード322“falsa”は、ターゲットカラーコード326として青を有してよく、ソースワード312“false”がターゲットワード322“falsa”と一致することを示す。カラーコード化はランダムであってよく、リフレッシング時に変更可能である。よって、同様の色を有する隣接エレメントは、マッピングをより良く見分けるようリセットされてよい。
翻訳品質保証システムは、ソースセンテンス310又はターゲットセンテンス320のいずれか一方においてあらゆるノイジーワード328を特定してよい。ノイジーワード328は、たいていは機能上の目的を果たす1言語における一般的な語である。ノイジーワード328は、他の言語では現れないことがある。例えば、ノイジーワード328“de”の事例は、動詞とともにスペイン語で現れることがあるが、同等の英単語は使用されない。加えて、長いセンテンスは、異なる言語における多くの異なるワードと一致する多くのノイジーワード328を有することがある。例えば、英語の冠詞“a”は、後に続く名詞の性別に依存してフランス語の冠詞“Un”又は“Une”に翻訳され得る。よって、“a girl”は“une fille”へ翻訳され、一方、“a boy”は“un garcon”に翻訳され得る。翻訳品質保証システムは、テキストファイルセグメントにおける他のワードがマッチングされるまで、ノイジーワード328をマッチングすることを延期してよい。マッチングされていないワードは、黒といった単色コード330を有して、そのワードが、マッチングするテキストファイルセグメントにおいてマッチングするワードを有さないことを示してよい。
ドイツ語のような幾つかの言語は、複数のワードを表す複合ワードを有することがある。図4は、複合ワードマッピング400の一実施形態をブロック図において表す。翻訳品質保証システムは、夫々のソースワード312をターゲットワード322とマッチングしてよい。翻訳品質保証システムは、複合ワード402を生成するようターゲットワード322を結合してよい。複合ワード402は、この例では、ターゲットセンテンス320において示されているが、複合ワードはソースセンテンス310にあってよい。
例えば、英語のフレーズ“web service sessions”は、ソースワード312“web”、“service”及び“sessions”に分けられてよい。ドイツ語では、翻訳されるターゲットワード322は“web”、“dienst”及び“sitzungen”であってよい。しかし、それらの単語のいずれもドイツ語のセンテンスでは現れないことがある。翻訳品質保証システムは、マッピングを達成するようそれらのターゲットワード322を複合ワード402“webdienstsitzungen”にまとめてよい。
時々、複合ワード402とソースワード312又はターゲットワード322との間の一致が存在しないことがある。図4は、ファジー複合ワードマッピング500の一実施形態をブロック図において表す。翻訳品質保証システムは、夫々のソースワード312をターゲットワード322とマッチングしてよい。翻訳品質保証システムは、ターゲットワード322に加えてファジー文字502を有する複合ワード402を生成するようターゲットワード322を結合してよい。翻訳品質保証システムは、ソースワード312がターゲット複合ワード402と一致するほど十分にターゲットワード322の単純な連結と実際のターゲット複合ワード402とが類似していることを特定するために、付加的なロジックを使用してよい。複合ワード402は、この例では、ターゲットセンテンス320において示されているが、複合ワードはソースセンテンス310にあってよい。
例えば、英語のフレーズ“health advertising program”は、ソースワード312“health”、“advertising”及び“program”に分けられてよい。ドイツ語では、翻訳されるターゲットワード322は“gesundheit”、“werbung”及び“programm”であってよい。翻訳品質保証システムは、“gesundheitswerbungprogramm”と読めるようファジー文字“s”502を有する複合ワード402へとそれらのターゲットワード322をまとめてよい。翻訳品質保証システムは、ターゲットワード322とターゲット複合ワード402との間の対応を確立するようファジーマッチングロジックを使用してよい。
翻訳品質保証システムは、独自仕様の辞書を開発するか、又は異なるソースから辞書をインポートしてよい。翻訳品質保証システムは、トレーニングデータセットを用いて、言語対における夫々の主たる言語において混合ワード−フレーズリストを作成してよい。トレーニングデータセットは、センテンス対の大きな集まりに相当するテキストファイルであり、センテンス対の各センテンスは、そのセンテンス対の他のセンテンスの信頼できる翻訳である。図6は、混合ワード−フレーズリストを作成する方法600の一実施形態をフローチャートにおいて表す。翻訳品質保証システムは、1つの言語についてのトレーニングデータセットにおいてワードリストを特定する(ブロック602)。翻訳品質保証システムは、文法上の意味又は正確さに関わらず如何なる隣接ワードもフレーズであるとして、その言語についてのトレーニングデータセットにおいてフレーズリストを構築してよい(ブロック604)。翻訳品質保証システムは、フレーズリストにおける夫々のフレーズについてトレーニングデータセットにおける出現をカウントしてよい(ブロック606)。翻訳品質保証システムは、フレーズ発生閾値に基づきフレーズリストからフレーズをプルーニングしてよい(ブロック608)。翻訳品質保証システムは、ワードリスト及びフレーズリストに基づき混合ワード−フレーズリストを作成してよい(ブロック610)。翻訳品質保証システムは、言語対における両方の言語についての混合ワード−フレーズリストを作成してよい。
混合ワード−フレーズリストを用いて、翻訳品質保証システムは、トレーニングデータセットに基づき翻訳辞書を抽出するよう統計的翻訳モデルを使用してよい。図7は、翻訳辞書を抽出する方法700の一実施形態をフローチャートにおいて表す。翻訳品質保証システムは、8といった、フレーズにおけるワードの上限を設定してよい(ブロック702)。翻訳品質保証システムは、トレーニングデータセットからソース言語のためのソース混合ワード−フレーズリストを作成してよい(ブロック704)。翻訳品質保証システムは、トレーニングデータセットからターゲット言語のためのターゲット混合ワード−フレーズリストを作成してよい(ブロック706)。翻訳品質保証システムは、ソース混合ワード−フレーズリストに基づきトレーニングソースセンテンスを分割してよい(ブロック708)。翻訳品質保証システムは、ターゲット混合ワード−フレーズリストに基づきトレーニングターゲットセンテンスを分割してよい(ブロック710)。翻訳品質保証システムは、統計的な機械翻訳(SMT;statistical machine translation)モデルを、トレーニングデータセットにおける夫々のセンテンス対とともに、ソース混合ワード−フレーズリスト及びターゲット混合ワード−フレーズリストへ適用してよい(ブロック712)。
統計的な機械翻訳モデルによるトレーニングの結果として、翻訳品質保証システムは、ソース混合ワード−フレーズリストにおける夫々のソースエレメントをターゲット混合ワード−フレーズリストにおけるいずれかのターゲットエレメントへ翻訳する可能性を詳述する翻訳確率テーブルを生成してよい(ブロック714)。翻訳確率テーブルは、“翻訳辞書”と呼ばれる。上限が1よりも大きい場合(ブロック716)は、翻訳品質保証システムは、上限に等しいワード数及び0.25未満といった低い翻訳確率を有するあらゆるソースフレーズ314を除去するよう、ソース混合ワード−フレーズリストをプルーニングしてよい(ブロック718)。翻訳品質保証システムは、上限に等しいワード数及び0.25未満といった低い翻訳確率を有するあらゆるターゲットフレーズ324を除去するよう、ターゲット混合ワード−フレーズリストをプルーニングしてよい(ブロック720)。翻訳品質保証システムは、上限をデクリメントしてよく(ブロック722)、プロセスを再開するようソーストレーニングデータセットを再分割してよい(ブロック708)。翻訳品質保証システムは、低い翻訳確率を有するフレーズを混合ワード−フレーズリスト及び翻訳辞書から除去して、上限が1に達する場合に抽出を終了してよい。
翻訳辞書を用いて、翻訳品質保証システムは、翻訳信頼スコアを計算し、センテンス対についての翻訳品質リポートを生成するよう、ソースエレメント及びターゲットエレメントをマッピングしてよい。図8は、翻訳品質を評価する方法800の一実施形態をフローチャートにおいて表す。翻訳品質保証システムは、翻訳辞書を辞書ソースからインポートしてよい(ブロック802)。代わりに、翻訳品質保証システムは、図7において記載されるように、トレーニングデータセットに基づき翻訳辞書を生成してよい。翻訳品質保証システムは、ソース言語をターゲット言語とマッチングする翻訳辞書を保持してよい(ブロック804)。翻訳品質保証システムは、何らかのニッチ文書が翻訳されている場合に専門の翻訳辞書を保持してよい(ブロック806)。
翻訳品質チェックを有する夫々のセンテンス対について、翻訳品質保証システムは、翻訳辞書を用いて、言語レベルで、ソース言語におけるソースセンテンス310と、ターゲット言語におけるターゲットセンテンスとを有するセンテンス対を自動的にマッピングしてよい(ブロック808)。言語レベルでセンテンス対をマッピングすることによって、翻訳品質保証システムは、ソースセンテンスのソースエレメントをターゲットセンテンスのターゲットエレメントとマッチングしてよい。翻訳品質保証システムは、翻訳品質リポートにおける表示のために、ターゲットセンテンス320とソースセンテンス310との間のマッピングチャート300を生成してよい(ブロック810)。翻訳品質保証システムは、どのソースワード及びソースフレーズがどのターゲットワード及びターゲットフレーズとアライメントするのかを示すよう、マッピングチャートをカラーコード化してよい(ブロック812)。翻訳品質保証システムは、翻訳品質リポートにおけるセンテンス対についての信頼スコアを計算してよい(ブロック814)。
翻訳品質保証システムは、実時間においてセンテンス対の翻訳品質リポートを生成し表示してよい(ブロック816)。翻訳品質保証システムは、実時間の翻訳品質リポートへの何らかのユーザ訂正を受け取ってよい(ブロック818)。翻訳品質保証システムは、ユーザ訂正に基づき翻訳辞書をアップデートしてよい(ブロック820)。翻訳品質保証システムは、複数の翻訳の結果を集約するユーザへのバッチリポートを提供してよい(ブロック822)。
図9は、マッピングチャート300を生成する方法900の一実施形態をフローチャートにおいて表す。翻訳品質保証システムは、抽出された辞書に基づきソースセンテンス310を分割してよい(ブロック902)。翻訳品質保証システムは、抽出された辞書に基づきターゲットセンテンス320を分割してよい(ブロック904)。翻訳品質保証システムは、延期されたマッチング、又は残りのワードがマッチングされた後のマッチングのために、ノイジーワードを特定してよい(ブロック906)。ソースセンテンス310の夫々のマッピング可能なソースフレーズ314について、翻訳品質保証システムは、ソースワード312をターゲットエレメントへマッピングするより前に、ソースセンテンス310のソースフレーズ314をターゲットセンテンス320のターゲットエレメントへマッピングしてよい(ブロック908)。ソースセンテンス310の夫々のマッピング可能なソースワード312について、翻訳品質保証システムは、ソースセンテンス310のソースワード312をターゲットセンテンス320のターゲットエレメントへマッピングしてよい(ブロック910)。翻訳品質保証システムは、ソースセンテンス310又はターゲットセンテンス320におけるマッピングされていないワード322を複合ワード402として識別してよい(ブロック912)。翻訳品質保証システムは次いで、場合によりファジーマッチングを用いて、複合ワードを何らかの一致するエレメントへマッピングしてよい。翻訳品質保証システムは、場合によりファジーマッチングを用いて、ソース複合ワード402をターゲットエレメントへマッピングしてよい(ブロック914)。翻訳品質保証システムは、場合によりファジーマッチングを用いて、ターゲット複合ワード402をソースエレメントへマッピングしてよい(ブロック916)。翻訳品質保証システムは、マッチングされていないソースエレメントをマッチングされていないターゲットエレメントへ、又はその逆のように、マッチングされていないエレメントをマッピングするためにファジーマッチングを使用してよい(ブロック918)。翻訳品質保証システムは、あらゆるノイジーワード324をマッピングしてよい(ブロック920)。
対象は、構造上の特徴及び/又は方法上の動作に特有の言語において記載されてきたが、添付の特許請求の範囲における対象は、必ずしも、上記の具体的な特徴又は動作に制限されないことが理解されるべきである。むしろ、上記の具体的な特徴及び動作は、特許請求の範囲を実施するための例として開示されている。
本発明の適用範囲内の実施形態はまた、コンピュータにより実行可能な命令又はデータ構造を搬送又は記憶する有形なコンピュータ可読記憶媒体を含んでよい。そのような有形なコンピュータ可読記憶媒体は、汎用の又は特別目的のコンピュータによってアクセスされ得るあらゆる利用可能な媒体であってよい。例として、制限なしに、そのような有形なコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD−ROM若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶装置、又はコンピュータにより実行可能な命令若しくはデータ構造の形で所望のプログラムコード手段を搬送又は記憶するために使用され得る何らかの他の有形な非一時的媒体を有することができる。それらの組み合わせもコンピュータ可読記憶媒体の適用範囲内に含まれるべきである。
実施形態はまた、通信ネットワークを通じて(ハードワイヤードリンク、無線リンク、又はそれらの組み合わせによって)リンクされている局所及び遠隔のプロセッシング装置によってタスクが実行される分散コンピューティング環境において実施されてよい。
コンピュータにより実行可能な命令は、例えば、汎用のコンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシング装置に特定の機能又は機能のグループを実行させる命令及びデータを含む。コンピュータにより実行可能な命令はまた、スタンドアローン又はネットワーク環境においてコンピュータによって実行されるプログラムモジュールを含む。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、及びデータ構造を含む。コンピュータにより実行可能な命令、関連するデータ構造、及びプログラムモジュールは、ここで開示されている方法のステップを実行するプログラムコード手段の例を表す。そのような実行可能な命令又は関連するデータ構造の特定のシーケンスは、そのようなステップにおいて記載されている機能を実施するための対応する動作の例を表す。
上記の記載は具体的な詳細を含むことがあるが、それらは、特許請求の範囲を制限すると決して解釈されるべきではない。記載される実施形態の他の構成は、本開示の適用範囲の部分である。例えば、本開示の原理は、夫々のユーザが個別にそのようなシステムを配置することができる場合に、各個別のユーザへ適用されてよい。これは、多数の可能なアプリケーションのうちのいずれか1つがここで記載される機能性を使用することができない場合でさえ、夫々のユーザが本開示の利点を利用することを可能にする。電子デバイスの多数のインスタンスは夫々、様々な可能な方法においてコンテンツを処理してよい。実施は、必ずしも、全てのエンドユーザによって使用される1つのシステムにない。然るに、添付の特許請求の範囲及びそれらの法的等価物は、与えられているあらゆる具体的な例よりむしろ、単に本発明を定義すべきである。

Claims (19)

  1. ソース言語をターゲット言語にマッチングする翻訳確率テーブルにアクセスするように構成されるデータインタフェースであって、前記翻訳確率テーブルは、統計的な機械翻訳モデルを使用して、前記ソース言語のソース混合ワード−フレーズリストと、前記ターゲット言語のターゲット混合ワード−フレーズリストの反復プルーニングを通して生成され、前記ソース混合ワード−フレーズリスト及び前記ターゲット混合ワード−フレーズリストの各々は、それぞれの言語のトレーニングデータセットから特定されるワード及びフレーズのリストを含み、前記反復プルーニングは、前記ソース混合ワード−フレーズリストのソースフレーズ内の上限のワード数及び前記ターゲット混合ワード−フレーズリストのターゲットフレーズ内の上限のワード数から開始して、反復ごとに、
    前記統計的な機械翻訳モデルに従って、翻訳確率が閾値未満のソースフレーズを除外するよう前記ソース混合ワード−フレーズリストをプルーニングし、翻訳確率が閾値未満のターゲットフレーズを除外するよう前記ターゲット混合ワード−フレーズリストをプルーニングし、
    前記上限をデクリメントすることを含む、
    前記データインタフェースと;
    プロセッサであって
    記翻訳確率テーブルを使用して、言語レベルで、前記ソース言語のソースセンテンスと前記ターゲット言語のターゲットセンテンスを有するセンテンス対を自動的にマッピングし、
    前記マッピングに基づく前記センテンス対の翻訳品質の評価を示す翻訳品質リポートを生成する、
    ように構成されるプロセッサと;
    前記センテンス対の前記翻訳品質リポートを表示するように構成されるユーザ出力デバイスと;
    を具備する、翻訳品質保証システム。
  2. 前記翻訳品質リポートは、前記マッピングから計算される前記センテンス対の翻訳信頼スコアを含む
    請求項1記載の翻訳品質保証システム。
  3. 前記翻訳品質リポートは、前記ターゲットセンテンスと前記ソースセンテンスとの間のマッピングチャートを表示する、
    請求項1記載の翻訳品質保証システム。
  4. 前記翻訳品質リポートは、前記マッピングチャートをカラーコード化する、
    請求項3記載の翻訳品質保証システム。
  5. 前記プロセッサは、前記翻訳品質リポートをリアルタイムで生成するように構成される、
    請求項1記載の翻訳品質保証システム。
  6. 前記プロセッサは、前記ソースセンテンスのソースワードを前記ターゲットセンテンスのターゲットエレメントにマップするように構成される、
    請求項1記載の翻訳品質保証システム。
  7. 前記プロセッサは、ソースワードのマッピングに先行して、前記ソースセンテンスのソースフレーズを前記ターゲットセンテンスのターゲットエレメントにマップするように構成される、
    請求項1記載の翻訳品質保証システム。
  8. 前記プロセッサは、延期されるマッチングについてのノイジーワードを識別するように構成される、
    請求項1記載の翻訳品質保証システム。
  9. 前記プロセッサは、ファジーマッチングを使用してマッチングしないエレメントをマップするように構成される、
    請求項1記載の翻訳品質保証システム。
  10. 前記データインタフェースは、ユーザ訂正に基づいて前記翻訳確率テーブルをアップデートするように構成される、
    請求項1記載の翻訳品質保証システム。
  11. 前記プロセッサは、前記ソース混合ワード−フレーズリストに基づいてトレーニングソースセンテンスを分割するように構成される、
    請求項1記載の翻訳品質保証システム。
  12. 前記プロセッサは、前記トレーニングデータセットから、前記ソース混合ワード−フレーズリスト及び前記ターゲット混合ワード−フレーズリストを作成するように構成される、
    請求項1記載の翻訳品質保証システム。
  13. 翻訳品質保証システムによって実施される方法であって:
    統計的な機械翻訳モデルに基づいて、ソース言語をターゲット言語にマッチングする翻訳確率テーブルを、前記ソース言語のソース混合ワード−フレーズリストと前記ターゲット言語のターゲット混合ワード−フレーズリストから、反復プルーニングを通して生成する生成ステップであって、前記ソース混合ワード−フレーズリスト及び前記ターゲット混合ワード−フレーズリストの各々は、それぞれの言語のトレーニングデータセットから特定されるワード及びフレーズのリストを含み、前記反復プルーニングは、前記ソース混合ワード−フレーズリストのソースフレーズ内の上限のワード数及び前記ターゲット混合ワード−フレーズリストのターゲットフレーズ内の上限のワード数から開始して、反復ごとに、
    前記統計的な機械翻訳モデルに従って、翻訳確率が閾値未満のソースフレーズを除外するよう前記ソース混合ワード−フレーズリストをプルーニングし、翻訳確率が閾値未満のターゲットフレーズを除外するよう前記ターゲット混合ワード−フレーズリストをプルーニングし、
    前記上限をデクリメントすることを含む、
    前記生成ステップと;
    前記翻訳確率テーブルを使用して、言語レベルで、前記ソース言語のソースセンテンスと前記ターゲット言語のターゲットセンテンスを有するセンテンス対を自動的にマッピングするステップと;
    前記マッピングに基づく前記センテンス対の翻訳品質の評価を示す翻訳品質リポートを自動的に生成するステップと;
    を具備する方法。
  14. 前記トレーニングデータセットから、前記ソース混合ワード−フレーズリスト及び前記ターゲット混合ワード−フレーズリストを作成するステップ、
    を更に備える、請求項13記載の方法。
  15. 前記ターゲットセンテンスと前記ソースセンテンスとの間のマッピングチャートを表示するステップ、
    を更に備える、請求項13記載の方法。
  16. 前記翻訳品質リポートをリアルタイムで生成するステップ、
    を更に備える、請求項13記載の方法。
  17. 延期されるマッチングについてのノイジーワードを識別するステップ、
    を更に備える、請求項13記載の方法。
  18. プロセッサによって実行されると、翻訳品質保証を実施する命令のセットを格納するように構成されるメモリを有するコンピューティングデバイスであって、当該コンピューティングデバイスは:
    統計的な機械翻訳モデルに基づいて、ソース言語をターゲット言語にマッチングする翻訳確率テーブルを、前記ソース言語のソース混合ワード−フレーズリストと前記ターゲット言語のターゲット混合ワード−フレーズリストから、反復プルーニングを通して生成することであって、前記ソース混合ワード−フレーズリスト及び前記ターゲット混合ワード−フレーズリストの各々は、それぞれの言語のトレーニングデータセットから特定されるワード及びフレーズのリストを含み、前記反復プルーニングは、前記ソース混合ワード−フレーズリストのソースフレーズ内の上限のワード数及び前記ターゲット混合ワード−フレーズリストのターゲットフレーズ内の上限のワード数から開始して、反復ごとに、
    前記統計的な機械翻訳モデルに従って、翻訳確率が閾値未満のソースフレーズを除外するよう前記ソース混合ワード−フレーズリストをプルーニングし、翻訳確率が閾値未満のターゲットフレーズを除外するよう前記ターゲット混合ワード−フレーズリストをプルーニングし、
    前記上限をデクリメントすることを含み
    前記翻訳確率テーブルを使用して、言語レベルで、前記ソース言語のソースセンテンスと前記ターゲット言語のターゲットセンテンスを有するセンテンス対を自動的にマッピング
    前記マッピングに基づく前記センテンス対の翻訳品質の評価を示す翻訳品質リポートを自動的に生成する;
    ように構成される、コンピューティングデバイス。
  19. 当該コンピューティングデバイスは、マッチングを延期するノイジーワードを識別するステップ、
    を更に備える、請求項18記載のコンピューティングデバイス。
JP2017214779A 2012-07-13 2017-11-07 フレーズに基づく辞書抽出及び翻訳品質評価 Active JP6607902B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/548,231 US9081762B2 (en) 2012-07-13 2012-07-13 Phrase-based dictionary extraction and translation quality evaluation
US13/548,231 2012-07-13

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015521669A Division JP6351587B2 (ja) 2012-07-13 2013-07-05 フレーズに基づく辞書抽出及び翻訳品質評価

Publications (2)

Publication Number Publication Date
JP2018037095A JP2018037095A (ja) 2018-03-08
JP6607902B2 true JP6607902B2 (ja) 2019-11-20

Family

ID=48808529

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015521669A Active JP6351587B2 (ja) 2012-07-13 2013-07-05 フレーズに基づく辞書抽出及び翻訳品質評価
JP2017214779A Active JP6607902B2 (ja) 2012-07-13 2017-11-07 フレーズに基づく辞書抽出及び翻訳品質評価

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015521669A Active JP6351587B2 (ja) 2012-07-13 2013-07-05 フレーズに基づく辞書抽出及び翻訳品質評価

Country Status (6)

Country Link
US (2) US9081762B2 (ja)
EP (1) EP2873003A2 (ja)
JP (2) JP6351587B2 (ja)
KR (1) KR102025968B1 (ja)
CN (1) CN104508658B (ja)
WO (1) WO2014011494A2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9886500B2 (en) 2013-03-13 2018-02-06 Open Text Holdings, Inc. System and method for providing technology assisted data review with optimizing features
US20150134321A1 (en) * 2013-11-08 2015-05-14 Thomas Fennell System and method for translating text
BE1022611A9 (nl) * 2014-10-19 2016-10-06 Televic Conference Nv Toestel voor audio input/output
US10347240B2 (en) * 2015-02-26 2019-07-09 Nantmobile, Llc Kernel-based verbal phrase splitting devices and methods
KR102385851B1 (ko) * 2015-05-26 2022-04-13 주식회사 케이티 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램
US20170024701A1 (en) * 2015-07-23 2017-01-26 Linkedin Corporation Providing recommendations based on job change indications
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10430522B2 (en) * 2016-03-15 2019-10-01 Qordoba, Inc. Dynamic suggestions for content translation
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
EP3655964A1 (en) * 2017-07-18 2020-05-27 Koninklijke Philips N.V. Mapping of coded medical vocabularies
TWI634439B (zh) * 2017-10-18 2018-09-01 統一數位翻譯股份有限公司 翻譯文件的媒合系統
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN107885728A (zh) * 2017-12-11 2018-04-06 中译语通科技股份有限公司 一种基于译员在线翻译的qa自动检测方法及系统
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN108427671B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111985251B (zh) * 2019-05-21 2023-11-07 南京大学 翻译质量测评方法及装置
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN111046679B (zh) * 2020-03-13 2020-07-28 腾讯科技(深圳)有限公司 翻译模型的质量信息获取方法、装置及计算机设备
US11966711B2 (en) * 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
JP3778705B2 (ja) * 1998-09-24 2006-05-24 沖電気工業株式会社 対訳文書対応付けシステム
JP2000148756A (ja) * 1998-11-12 2000-05-30 Matsushita Electric Ind Co Ltd 対訳文誤り検出装置
JP2002328920A (ja) * 2001-05-07 2002-11-15 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対訳文の単語対応付け方法
JP2003016063A (ja) 2001-06-27 2003-01-17 Machcs Co Ltd 機械翻訳辞書自動選択装置および情報記憶媒体
JP4050950B2 (ja) * 2002-07-26 2008-02-20 富士通株式会社 対訳候補表示装置および対訳候補表示プログラム
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US8050906B1 (en) * 2003-06-01 2011-11-01 Sajan, Inc. Systems and methods for translating text
US7389222B1 (en) * 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7653531B2 (en) * 2005-08-25 2010-01-26 Multiling Corporation Translation quality quantifying apparatus and method
US8700383B2 (en) 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
JP2008276517A (ja) 2007-04-27 2008-11-13 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびプログラム
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
CN102859515B (zh) * 2010-02-12 2016-01-13 谷歌公司 复合词拆分
WO2011146934A2 (en) * 2010-05-21 2011-11-24 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
WO2012174738A1 (en) * 2011-06-24 2012-12-27 Google Inc. Evaluating query translations for cross-language query suggestion

Also Published As

Publication number Publication date
US20150302005A1 (en) 2015-10-22
KR20150036041A (ko) 2015-04-07
WO2014011494A3 (en) 2014-03-20
CN104508658A (zh) 2015-04-08
US20140019113A1 (en) 2014-01-16
JP2015525928A (ja) 2015-09-07
JP2018037095A (ja) 2018-03-08
WO2014011494A2 (en) 2014-01-16
EP2873003A2 (en) 2015-05-20
US9081762B2 (en) 2015-07-14
US9652454B2 (en) 2017-05-16
KR102025968B1 (ko) 2019-09-26
CN104508658B (zh) 2018-05-15
JP6351587B2 (ja) 2018-07-04

Similar Documents

Publication Publication Date Title
JP6607902B2 (ja) フレーズに基づく辞書抽出及び翻訳品質評価
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
Song et al. AMR-to-text generation with synchronous node replacement grammar
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
TW201812619A (zh) 搜索詞糾錯方法及裝置、以及加權編輯距離計算方法及裝置
US20190205396A1 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
JP6532088B2 (ja) 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
US20120330919A1 (en) Determining cross-language query suggestion based on query translations
WO2017166626A1 (zh) 归一化方法、装置和电子设备
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
Tachicart et al. Lexical differences and similarities between Moroccan dialect and Arabic
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
JP6775202B2 (ja) 処理方法、処理装置、及び処理プログラム
CN107526742A (zh) 用于处理多语言文本的方法和设备
Kilgarriff et al. Longest–commonest Match
EP2833269A2 (en) Terminology verification systems and methods for machine translation services for domain-specific texts
Wijerathna et al. A translator from sinhala to english and english to sinhala (sees)
CN114817510A (zh) 问答方法、问答数据集生成方法及装置
JP2016057810A (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Yue et al. Blind recognition of text input on mobile devices via natural language processing
Gupta et al. Product Review Translation: Parallel Corpus Creation and Robustness towards User-Generated Noisy Text
TW201719450A (zh) 用於分析一段文本的方法和系統
US20230274088A1 (en) Sentiment parsing method, electronic device, and storage medium
WO2024004183A1 (ja) 抽出装置、生成装置、抽出方法、生成方法、及びプログラム
Bollmann Spelling normalization of historical German with sparse training data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R150 Certificate of patent or registration of utility model

Ref document number: 6607902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250