JP2003050797A - スケーラブル機械翻訳システム - Google Patents
スケーラブル機械翻訳システムInfo
- Publication number
- JP2003050797A JP2003050797A JP2002162076A JP2002162076A JP2003050797A JP 2003050797 A JP2003050797 A JP 2003050797A JP 2002162076 A JP2002162076 A JP 2002162076A JP 2002162076 A JP2002162076 A JP 2002162076A JP 2003050797 A JP2003050797 A JP 2003050797A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- transformation
- implemented method
- mappings
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
る。 【解決手段】 コンピュータは第1の入力言語の入力テ
キストを第2の言語の出力テキストに翻訳する。入力論
理形式は入力テキストに基づいて生成される。変換マッ
ピングデータベースの中の複数の変換マッピングが入力
論理形式(少なくともその一部分)に合致するとき、1
つまたはそれ以上の合致の変換マッピングがあらかじめ
定められた尺度に基づいて選択される。出力テキストは
選択された論理形式に基づいて生成される。
Description
ムに関する。より詳細には、本発明は、第1の言語の単
語および/または論理形式を第2の言語の単語および/
または論理形式に関連付ける変換マッピングを2カ国語
コーパスから自動的に抽出することに関する。
スト入力を受け取り、それを第2の言語に翻訳し、第2
の言語のテキスト出力を提供するシステムである。現在
の商用可能な機械翻訳システムはハンドコード変換コン
ポーネントに依存している。ハンドコード変換コンポー
ネントは個々のドメインをカスタマイズすることが難し
く、また、高価である。また、望ましいサイズにスケー
リングすることも大変難しい。これらのことはコストお
よびユーティリティ全体に不利益な制限となる。
ステムの基となる種々の例(文)が作成されてきた。その
ような多数のシステムは、H.Somers,Revi
ewArticle:Example−Based M
achine translation 14:11
3,157,1999に記載されている。これらの機械
翻訳リサーチシステムの基となる代表例のいくつかは約
200以上の文から作成された基本例を有している。そ
れらは多数の基本をスケーリングすることが大変難し
く、また、その困難性から生じるシステムパフォーマン
スに直面してきた。
し、入力テキストの個々の言語に基づいた基本例からの
入力を行うことが説明されている。そのような文法解析
では言語および使用される文法解析の内容に応じて文法
解析から得られる依存構造も異なってしまう。それ故、
1つの言語から他の言語へ変換する場合の依存構造を比
較することは不可能ではないにしても難しい。
ムは、また、スケーリングすることことが容易ではなか
った。例えば、文を200ぐらいにその数を増やすこと
が難しかった。これは従来システムがノイズを有する入
力データを取り扱うことが難しいという理由によるから
である。その代わりに、入力データは正確な形式(フォ
ーム)とすることが必要であるか、または、クリーンア
ップするか、さもなくば人間の手に適切な形式に置き換
える必要があった。数を著しく増すことは当然のごとく
困難があった。
能な機械翻訳システムを提供することにある。
は第1の言語の入力テキストを第2の言語の出力テキス
トに翻訳する。入力の論理形式は入力テキストに基づい
て生成される。マッピングデータベースの中の複数の変
換マッピングが入力の論理形式(または、少なくともそ
の一部分)に合致(マッチする)の変換マッピングがあ
らかじめ定められた尺度(metric,基準)に基づ
いて選択される。これらの変換マッピングは互いに1つ
の変換論理形式にまとめられる。出力テキストはその変
換論理形式に基づいて生成される。
理形式コンポーネント(フラグメント(fragmen
t))で構成される。変換論理コンポーネントは原始
(ソース)および目的(ターゲット)の論理形式(L
F)を含み、それらはトレーニングデータの学習から得
られる。ランタイム時、原始サイドのマッピングが入力
と比較される。そのようにして得られた合致のマッピン
グの中から1つが選択される。目的側のマッピングは互
いにまとめられて単一の目的LFが生成される。出力文
字列が目的LFから生成される。
集合によりカバーされた入力ノードを含む種々の形式の
中の1つを使用することができる。尺度には、入力変換
形式とマッチングする異なる変換マッピングのサイズ、
変換マッピングデータベースのトレーニング中で使用さ
れるトレーニングフェース間に、複数の変換マッピング
が生成される頻度、複数の変換マッピングがトレーニン
グの間、完全に整列してある論理形式から生成される頻
度、比較の変換マッピングがトレーニングデータの不適
合の解析結果から生成される頻度。比較の複数の変換マ
ッピングに関連し、関連する変換マッピングの信頼性を
表すスコアを含む。
実施するためのマッピングコンポーネントを含む。
に基づいた入力依存構造を生成する入力ジェネレータを
含むことができる。システムは、少なくとも10,00
0の並列に整列したトレーニング文に基づいて形成され
た変換マッピング依存構造を有する変換マッピングデー
タベースをも含む。変換マッピングデータベースは、5
0,000、100,000、180,000の、もし
くは200,000を超えるトレーニング文に基づいて
形成することができる。
レーニングの間に整列された整列論理形式から得られる
変換マッピングをフィルタリングすることにより変換マ
ッピングデータベースをトレーニングしてもよい。
明する。ただし、コンピュータ120は、好適なコンピ
ューティング環境の一例にすぎず、本発明の用途および
機能の範囲に関して制限を示唆することを意図するもの
ではない。また、コンピュータ120は、そこに例示さ
れたモジュールのいずれか1つまたは組合せに関連する
依存性または要件を有するものと解釈されるべきではな
い。
モジュールの如きコンピュータ実行可能命令の一般的状
況において、本発明を説明することができる。一般に、
プログラムモジュールは、特定のタスクを実行し、また
は特定の抽象データ型を具現化するルーチン、プログラ
ム、オブジェクト、モジュール、データ構造などを含
む。本発明は、通信ネットワークを介してリンクされる
遠隔処理デバイスによってタスクを実行する分散コンピ
ューティング環境においても実施することもできる。分
散コンピューティング環境では、記憶格納デバイスを含
む局所および遠隔のコンピュータ記憶媒体にプログラム
モジュールを配置することができる。プログラムおよび
モジュールによって実行されるタスクを、図面を用いて
以下に説明する。当業者であれば、コンピュータ可読媒
体の任意の形式で書き込むことができるプロセッサ実行
可能命令として以下の説明および図面を具現化すること
が可能である。
モジュールは、処理装置140と、システムメモリ15
0と、システムメモリを含む様々なシステムモジュール
またはコンポーネントを処理装置140に結合するシス
テムバス141とを含むことができるが、それらに限定
されない。システムバス141は、様々なバスアーキテ
クチャのいずれかを用いたメモリバスまたはメモリコン
トローラ、周辺バスおよびローカルバスを含むいくつか
の種類のバス構造のいずれかでありうる。当該アーキテ
クチャとしては、限定するのではなく例示を目的とし
て、工業規格アーキテクチャ(Industry St
andard Architecture(ISA)バ
ス、ユニバーサルシリアルバス(Universal
Serial Bus(USB)、マイクロチャネルア
ーキテクチャ(Micro Channel Arch
itecture(MCA)バス、エンハンスド(En
hanced)ISA(EISA)バス、ベザ(Vid
eo Electronics Standards
Association(VESA)ローカルバス、お
よびMezzanineバスとしても知られる周辺モジ
ュール相互接続(Peripheral Module
Interconnect)(PCI)バスなどが挙
げられる。コンピュータ120は、典型的には、様々な
コンピュータ可読媒体を含む。コンピュータ可読媒体
は、コンピュータ120によってアクセスできる任意の
利用可能媒体とすることができ、揮発性媒体および不揮
発性媒体、ならびに取外し可能媒体および取外し不能媒
体を含む。限定するのではなく例示を目的とすれば、コ
ンピュータ可読媒体は、コンピュータ記憶媒体や通信媒
体を含むことができる。コンピュータ記憶媒体は、コン
ピュータ可読命令、データ構造、プログラムモジュール
コンポーネントまたは他のデータの如き情報を記憶する
ための任意の方法または技術を用いて実装される揮発性
媒体および不揮発性媒体、ならびに取外し可能媒体およ
び取外し不能媒体を含む。コンピュータ記憶媒体として
は、RAM、ROM、EEPROM、フラッシュメモリ
または他のメモリ技術、CD−ROM、デジタルビデオ
ディスク(DVD)または他の光ディスク記憶装置、磁
気カセット、磁気テープ、磁気ディスク記憶装置または
他の磁気記憶装置、あるいは所望の情報を記憶するのに
使用することができるとともに、コンピュータ120に
よってアクセス可能な他の媒体が挙げられるが、それに
限定されるものではない。
命令、データ構造、プログラムモジュール、あるいは搬
送波または他の変換メカニズムの如き変調データ信号に
含まれる他のデータを具体化し、任意の情報配信媒体を
含む。「変調データ信号」という言葉は、その1つ以上
の特性が、信号内の情報をコード化するように設定また
は変更された信号を意味する。通信媒体としては、限定
するのではなく例示を目的として、有線ネットワークま
たは直接有線接続の如き有線媒体、ならびに音響、F
R、赤外線および他の無線媒体の如き無線媒体が挙げら
れる。上記媒体の任意の媒体の組合せもコンピュータ可
読媒体の範囲内に含まれるべきである。
および/または読取り専用メモリ(ROM)151やラ
ンダムアクセスメモリ(RAM)152の如き不揮発性
メモリの形式のコンピュータ記憶媒体を含む。起動時の
如き、コンピュータ120内の要素間で情報を変換する
のに役立つ基本ルーチンを含む基本入出力システム15
3(BIOS)は、典型的にROM151に記憶され
る。RAM152は、典型的には、すぐにアクセス可能
な、かつ/または現在処理装置140によって動作中の
データおよび/またはプログラムモジュールを含む。図
1は、限定するのではなく例示を目的として、オペレー
ティングシステム154と、アプリケーションプログラ
ム155と、他のプログラムモジュール156と、プロ
グラムデータとを示す図である。
取外し不能の揮発性/不揮発性コンピュータ記憶媒体を
含むこともできる。図1は、例示のみを目的として、取
外し不能の不揮発性磁気媒体に対して読書きを行うハー
ドディスクドライブ161と、取外し可能な不揮発性磁
気ディスク172に対して読書きを行う磁気ドライブデ
ィスク171と、CD−ROMまたは他の光媒体の如き
取外し可能な不揮発性光ディスク176に対して読書き
を行う光ディスクドライブ175とを示す図である。例
示的な動作環境で使用できる他の取外し可能/取外し不
能の揮発性/不揮発性コンピュータ記憶媒体としては、
磁気テープカセット、フラッシュメモリカード、デジタ
ルビデオディスク、ディジタルビデオテープ、ソリッド
ステートRAM、ソリッドステートROMなどが挙げら
れるが、それらに限定されるものではない。ハードディ
スクドライブ161は、典型的には、インターフェース
160の如き取外し不能メモリインターフェースを介し
てシステムバス141に接続され、磁気ディスクドライ
ブ171および光ディスクドライブ175は、典型的に
は、インターフェース170の如き取外し可能メモリイ
ンターフェースによってシステムバス141に接続され
る。
らの関連する記憶媒体は、コンピュータ可読命令、デー
タ構造、プログラムモジュール、およびコンピュータ1
20用の他のデータの記憶を行う。図1では、例えば、
オペレーティングシステム164、アプリケーションプ
ログラム165、他のプログラムモジュール166およ
びプログラムデータ167を記憶するものとして、ハー
ドディスクドライブ161が示されている。これらのモ
ジュールは、オペレーティングシステム154、アプリ
ケーションプログラム155、他のプログラムモジュー
ル156およびプログラムデータ157と同じであって
も異なっていてもよいことに留意されたい。ここでは、
オペレーティングシステム164、アプリケーションプ
ログラム165、他のプログラムモジュール166およ
びプログラムデータ167に異なる番号を付して、少な
くともそれらは異なる個体であることを示している。
ォン183、ならびにマウス、トラックボールまたはタ
ッチパッドのようなポインティングデバイス181の如
き入力デバイスを介して、コンピュータ120にコマン
ドおよび情報を入力することができる。他の入力デバイ
ス(不図示)としては、ジョイスティック、ゲームパッ
ド、サテライトディッシュ、スキャナなどを挙げること
ができる。これらおよび他の入力デバイスは、システム
バスに結合されるユーザ入力インターフェース180を
介して処理装置140にしばしば接続されるが、パラレ
ルポート、ゲームポートまたはユニバーサルシリアルバ
ス(USB)の如き他のインターフェースおよびバス構
造によって接続されてもよい。モニタ184または他の
種類のディスプレイデバイスも、ビデオインターフェー
ス185の如きインターフェースを介してシステムバス
141に接続される。モニタに加えて、コンピュータ
は、出力周辺インターフェース188を介して接続する
ことができるスピーカ187やプリンタ186の如き他
の周辺出力デバイスを含むこともできる。
ータ194の如き1つ以上のリモートコンピュータに対
する論理接続を用いて、ネットワーク化された環境で動
作することができる。リモートコンピュータ194は、
パーソナルコンピュータ、ハンドヘルドデバイス、サー
バ、ルータ、ネットワークPC、ピアデバイス(pee
r device)または他の共通ネットワークノード
であってもよく、典型的には、コンピュータ120に対
して上述した要素の多くまたはすべてを含む。図1に描
かれている論理接続は、ローカルエリアネットワーク
(LAN)191および広域ネットワーク(WAN)1
93を含むが、他のネットワークを含んでいてもよい。
当該ネットワーキング環境は、オフィス、企業規模のコ
ンピュータネットワーク、イントラネットおよびインタ
ーネットにおいて一般化されている。
きは、ネットワークインターフェースまたはアダプタ1
90を介してコンピュータ120をLAN191に接続
する。WANネットワーキング環境で使用するときは、
コンピュータ120は、典型的には、モデム192また
はインターネットの如きWAN193上での通信を確立
するための他の手段を含む。モデム192は内部にあっ
ても外部にあってもよく、それをユーザ入力インターフ
ェース180または他の適切なメカニズムを介してシス
テムバス141に接続することができる。ネットワーク
化された環境において、コンピュータ120に対して描
かれたプログラムモジュールを遠隔メモリ記憶装置に記
憶することができる。図1は、限定するのではなく例示
を目的として、リモートコンピュータ194上に存在す
る遠隔アプリケーションプログラム195を示す図であ
る。示されているネットワーク接続は例示的なものであ
って、コンピュータ間の通信リンクを確立する他の手段
も使用できることが理解されるであろう。
のコンピューティングシステム、環境または構成に対し
ても動作可能である。本発明に好適に使用できるよく知
られたコンピューティングシステム、環境および/また
は構成の例としては、(スクリーンのない)正規電話パ
ーソナルコンピュータ、サーバコンピュータ、ハンドヘ
ルドまたはラップトップデバイス、マルチプロセッサシ
ステム、マイクロプロセッサを使用したシステム、セッ
トトップボックス、プログラマブルコンシューマエレク
トロニクス(programmable consum
er electronics)、ネットワークPC、
ミニコンピュータ、主コンピュータ、上記システムまた
はデバイスのいずれかを含む分散コンピューティング環
境などが挙げられるが、それらに限定されるものではな
い。
説明するのが有益であると思われる。論理形式およびシ
ステム、ならびにそれらを生成するための方法について
の十分かつ詳細な説明は、1999年10月12日に発
行され、「METHOD AND SYSTEM FO
R COMPUTING SEMANTIC LOGI
CAL FORMS FROM SYNTAX TRE
ES」という名称の米国特許第5、966、686号
(Heidorn他)に見いだすことができる。しか
し、簡単にいうと、論理形式は、入力テキストに対する
形態学的解析を行って、文法的関係で補われた従来の句
構造解析をプロデュースすることによって生成される。
テキスト入力における内容単語間のラベル付き依存性を
記述するデータ構造である論理形式を導くために、構文
解析にさらなる処理が施される。論理形式は、特定の構
文変換(例えば能動/受動)を正規化するとともに、セ
ンテンス内照応形および長距離依存性を解決することが
できる。ここに示されるように、図4(A)の例では、
論理形式の要素を直感的に理解するのに役立つグラフと
して論理形式252を表すことができる。しかしなが
ら、当業者ならわかるであろうが、論理形式は、コンピ
ュータ可読媒体上に記憶されると、グラフを表すように
簡単に理解することができなくなる。
Subject、LogicalObject、Ind
irectObject;LogicalNomina
tive、LogicalComplement、Lo
gicalAgent;CoAgent、Benefi
ciary;Modifier、Attribute、
SentenceModifier;Preposit
ionalRelationship;Synony
m、Equivalence、Apposition;
Hypernym、Classifier、SubCl
ass;Means、Purpose;Operato
r、Modal、Aspect、DegreeModi
fier、Intensifier;Focus、To
pic;Duration、Time;Locatio
n、Property、Material、Manne
r、Measure、Color、Size;Char
acteristic、Part;Coordinat
e;User、Possessor;Source、G
oal、Cause、Result;およびDomai
nの如き方向性関連型によって接続される2つの単語か
ら構成される。
如き単一のテキスト入力を表す接続論理関係のデータ構
造である。論理形式は、1つの論理関係から構成され、
構造的関係(すなわち構文的関係および意味的関係)を
描写し、特に入力列における重要単語間の関係を補い、
かつ/または調節する。
理形式を構築する特定のコードが、機械翻訳システムが
それに対して動作する様々な原始言語および目的言語の
間で共有される。2つの言語の表面的に異なる構造はし
ばしば同様または同一の論理形式表現に分解するため、
共有されたアーキテクチャは、異なる言語からの論理形
式区分を整列させるタスクを著しく単純化する。異なる
言語における論理形式の例を図4(A)〜図4(C)に
関して以下により詳細に説明する。
よる機械翻訳システム200のアーキテクチャの構成図
である。システム200は、解析コンポーネント204
および206と、統計的単語関連学習コンポーネント2
08と、論理形式整列コンポーネント210と、字句知
識ベース構築コンポーネント212と、2カ国語辞書2
14と、辞書併合コンポーネント216と、変換マッピ
ングデータベース218と、更新2カ国語辞書220と
を含む。トレーニングおよび翻訳実行時に、システム2
00は、解析コンポーネント222、マッチングコンポ
ーネント224、変換コンポーネント226および/ま
たは生成コンポーネント228を利用する。
スを使用してシステムをトレーニングする。2カ国語コ
ーパスは、整列翻訳センテンス(例えば、英語の如き1
つの原始または目的言語におけるセンテンスが、スペイ
ン語の如き他方の原始または目的言語における人間によ
る翻訳と一対一で対応するセンテンス)を含む。トレー
ニング時に、原始センテンス230(翻訳対象センテン
ス)として、かつ目的センテンス232(原始センテン
スの翻訳)として、センテンスを整列2カ国語コーパス
からシステム200に提供する。解析204および20
6は、整列2カ国語コーパスからのセンテンスを解析し
て、原始論理形式234および目的論理形式236を生
成する。
化された単語形式(見出し語)に変換され、それを統計
的単語関連学習コンポーネント208に提供することが
できる。単一単語関連および複数単語関連を、信頼でき
る各々の集合が得られるまで、学習コンポーネント20
8によって繰り返し仮定および評価する。統計的単語関
連学習コンポーネント208は、学習された単一単語翻
訳対238、ならびに複数単語対240を出力する。
国語辞書214に追加して更新2カ国語辞書220を形
成するのに使用される辞書併合コンポーネント216に
提供される。新たな入力は、複数単語対240を表す。
形式234および目的論理形式236とともに、論理整
列コンポーネント210に提供される。簡潔に述べる
と、コンポーネント210は、最初に原始および目的論
理形式230および236におけるノード間の仮の対応
を確立する。これは、統計的単語関連学習コンポーネン
ト208からの単一および複数単語翻訳対238、24
0で補足することのできる2カ国語辞典(例えば2カ国
語辞書)からの翻訳対を用いて行われる。可能な対応を
確立した後に、整列コンポーネント210は、字句およ
び構造的考察にしたがって論理形式ノードを整列させ、
単語および/または論理形式変換マッピング242を作
成する。この態様を以下により詳細に説明する。
は、2カ国語辞書情報214、ならびに単一および複数
単語対238、240を用いて、論理形式間にリンクを
張る。変換マッピングは、それらが原始および目標論理
形式234および236に出現する頻度に基づいて随意
にフィルタリングされ、字句知識ベース構築コンポーネ
ント212に提供される。
あるが、変換マッピングがトレーニングデータ内に少な
くとも二度見いだせない場合は、任意の他の所望の頻度
をフィルタとして使用することが可能であっても、その
変換マッピングを使用して変換マッピングデータベース
218を構築することはない。出現頻度以外にも他のフ
ィルタリング技術を使用できることに留意されたい。例
えば、変換マッピングが入力センテンスの完全な解析に
より形成されているかどうか、また変換マッピングを作
成するのに使用される論理形式が完全に整列されている
かどうかに基づいて変換マッピングをフィルタリングす
ることが可能である。
語における単語および/または論理形式を第2の言語に
おける単語および/または論理形式にリンクさせる変換
マッピングを含む変換マッピングデータベース218を
構築する。このようにして変換マッピングデータベース
218が作成されると、次にシステム200がランタイ
ム翻訳に向けて構成される。
250が解析コンポーネント222に提供される。解析
コンポーネント222は、原始センテンス入力に基づい
て、原始センテンス250および原始論理形式252を
受け取る。例を挙げるとわかりやすい。本例では、原始
センテンス250は、「Haga click ene
l boton de opcion」というスペイン
語のセンテンスで、それが英語に翻訳されて、「Cli
ck the option button(オプショ
ンボタンをクリックする)」または逐語的に「Make
clickin the button of op
tion(オプションのボタンでクリックを行う)」と
なる。
により原始センテンス250に対して生成された原始論
理形式252を示す図である。原始論理形式252は、
マッチングコンポーネント224に提供される。マッチ
ングコンポーネント224は、リンクされた論理形式2
54を取得するために、原始論理形式252と、変換マ
ッピングデータベース218内の論理形式とをマッチさ
せることを目的とする。複数の変換マッピングが、原始
論理形式252の部分とマッチしうる。マッチングコン
ポーネント224は、マッチさせる見出し語、品詞、お
よび他の特徴情報を有するデータベース218における
マッチング変換マッピングの最良の集合を検索する。所
定の尺度に基づいて、最良のマッチの集合が見いだされ
る。例えば、例示的に、より大きな(より具体的な)論
理形式を有する変換マッピングのほうが、より小さな
(より一般的な)論理形式を有する変換マッピングより
も好まれるかもしれない。大きさが等しい論理形式を有
するマッピングの中では、マッチングコンポーネント2
24は、例示的に、より高頻度のマッピングを好むかも
しれない。いずれの場合も互いに矛盾することがなけれ
ば、マッピングは、原始論理形式252の重複部分とも
マッチしうる。ひとまとめになったマッピングの集合
は、代替的な集合に比べて入力センテンスのより広範囲
な部分を網羅するのであれば、例示的に、そのほうが好
まれるかもしれない。入力論理形式とデータベース21
8に見られる論理形式とをマッチさせるのに使用される
他の尺度を、表4に関して以下により詳細に説明する。
れた後に、マッチングコンポーネント224は、変換マ
ッピングによって受け取られた対応する目的単語または
論理形式区分のコピーに対して原始論理形式252内の
ノード上にリンクを作成して、リンクされた論理形式2
54を生成する。図4(B)は、本例についてのリンク
された論理形式254の例を示す図である。複数単語の
マッピングについてのリンクは、対応する区分のルート
ノード(例えばHacerとClick)をリンクさ
せ、次いでその複数単語のマッピングに関与する他の原
始ノード(例えばUstedとClic)にアスタリス
クをリンクさせることによって表現される。例示的に、
当該マッピングの対応する個々の原始ノードと目的ノー
ドの間のサブリンク(図4(B)には示されていない)
を作成して変換時に使用することもできる。
コンポーネント224から論理形式254を受け取り、
目的翻訳の基礎を形成することになる目的論理形式25
6を作成する。これは、原始論理形式252のノード上
のリンクによって指示される目的論理形式区分が統合さ
れる、リンクされた論理形式254のトップダウン横断
を実行することによって行われる。複合的な複数単語マ
ッピングに対する論理形式区分を統合したら、マッチン
グコンポーネント224によって設定された個々のノー
ド間のサブリンクを使用して、修飾成句のための正確な
結合点の判断などを行う。必要な場合は、デフォルトの
結合点を利用する。
場合は、原始論理形式252内のノードおよびそれらの
関係を単に目的論理形式256にコピーする。これらの
ノードに対する変換マッピングデータベース218の中
にまだデフォルトの単一単語翻訳を見いだし、それらを
目的論理形式256に挿入することができる。しかし、
それらは見つからない場合は、例示的に、整列時に使用
した更新2カ国語辞書220から翻訳を取得することが
可能である。
式256を示す図である。「click」から「but
ton」までの論理形式区分と「button」から
「option」までの論理形式区分をリンクされた論
理形式254から繋ぎ合わせて、目的論理形式256を
取得したことがわかる。
目的論理形式256から目的列(または出力目的センテ
ンス)にマッピングする規則ベースのアプリケーション
独立生成コンポーネントである。生成コンポーネント2
28は、例示的に、入力論理形式の原始言語に関する情
報を有さず、専ら変換コンポーネント226によってそ
こに送られる情報のみを扱う。生成コンポーネント22
8は、また例示的に、この情報を(目的言語について
の)単一言語辞書と併用して目的センテンス258を生
成する。したがって、各言語に対しては1つの包括的な
生成コンポーネント228だけで十分である。
間で論理形式がマッチしうるように、様々な言語からの
情報を解析して、共有される共通の論理形式にすること
がわかる。該システムは、変換マッピングデータベース
を構築するのに単純なフィルタリング技術を利用して、
ノイジーなデータ入力を処理することもできる。したが
って、極めて多くのセンテンス対を用いて、このシステ
ムを自動的にトレーニングすることが可能である。例示
的な一実施形態では、該センテンス対の数が10、00
0を超える。他の例示的な実施形態では、センテンス対
の数が50、000から100、000を上回り、さら
に180、000、200、000、350、000を
超え、あるいは500、000または600、000を
超える場合すらある。また、センテンス対の数は、言語
に応じて変動しうるため、これらの数に限定される必要
はない。
フラグメントの論理形式を関連付けるメソッド300を
示す図であって、該論理形式は、親/子構造で構成され
たノードを含む方法を示す図である。メソッド300
は、論理形式のノードを関連付けて、ブロック302で
指示される仮の対応を形成し、該仮の対応、および/ま
たはブロック304で指示される構造的考察の少なくと
も1つを除去することによって論理形式のノードを整列
させる。
ポーネント210は、仮の対応、典型的には論理形式間
の字句対応を形成するために、2カ国語辞書214を利
用する。2カ国語辞書214は、複数源からのデータを
併合することによって作成することが可能で、逆の目的
対原始辞書入力を使用してカバレージを向上させること
もできる。ここで用いられる2カ国語辞書214は、単
語間の対応を提供することができる任意の他の種類の資
源をも表す。統計技術を用いて獲得した翻訳対応で2カ
国語辞書214を補足することも可能である。
該統計技術を実施している。コンポーネント208から
の出力は整列コンポーネント210によって使用できる
が、それは、整列コンポーネント210の動作には必要
とされない。ただし、補足のため、コンポーネント20
8の一実施形態をここに手短に説明する。
解析される平行2カ国語トレーニングコーパスを受け取
る。単語関連性は、2カ国語コーパス内に整列されたセ
ンテンスに出現する言語L1の単語から構成される内容
単語の各対を、他方の単語が出現する言語L2のセンテ
ンスに対して評価する。一方の単語が、そのセンテンス
内のすべての単語のなかで他方の単語との関連性が最も
強い場合に、一対の単語が一対の整列センテンスにおい
て「リンクされている」と見なされる。処理および評価
がなされたトレーニングデータのなかの各対の整列セン
テンスにおいてリンクされた単語の最大の接続集合を識
別することによって、トレーニングデータにおける複合
語の出現を仮定する。これら最大の接続集合のひとつ
が、いずれかの言語または両方の言語において複数の単
語を含む限り、その言語における単語の部分集合を複合
語と仮定する。本来の入力テキストを書き換え、仮定の
複合語を単一の融合トークンに置き換える。次いで、
(融合トークンに置き換えられた)複合語、および入力
テキスト内の残留するあらゆる個別単語について、関連
性スコアを再度計算する。このとき、トレーニングコー
パスにおける特定対の整列センテンスのなかに同等の強
さを有する、またはより強い他の関連性が存在しない場
合にのみ、関連性スコアの計算に共出現を考慮すること
を除いて、関連性スコアを再び計算する。
性スコアがしきい値を上回る単語対またはトークン対と
して翻訳対を識別することが可能になる。
はそのすべての単語が大文字で始まるタイトルまたは他
の特殊な語句を意味する「カプトイド」の翻訳の識別に
も役立てられる。(カプトイドの翻訳を見いだすことに
は、フランス語やスペイン語では、当該アイテムの第1
の単語のみ大文字で始まることが慣例で定められている
ため、カプトイド翻訳の範囲を決定するのが困難である
という問題がある)。その実施形態では、(英語の如
き)原始言語において最初に複合語を識別する。これ
は、第1の単語が大文字で始まり、連続的な文字列にお
ける次のトークンが小文字で始まらないテキストの列を
見いだすことによって実施することが可能である。次
に、大文字で始まる単語を見いだし、対応する複合語の
可能な開始点としてこれにフラグ付けを行うことによ
り、目的テキストにおいて複合語を仮定する。次いで、
目的テキストを左から右に向かって走査し、原始テキス
ト内の識別された複合語における単語に最も強く関連す
る後続の単語にフラグ付けを行う一方、最も強く関連す
る単語以外の連続的な単語を、最も強く関連する単語が
それらの後に続く限り、所定の数(例えば2つ)の範囲
内で見いだす。
ト内の識別された複合語における単語に最も強く関連す
る単語以外の連続的な単語であって、該所定の数(例え
ば2つ)を超える数の単語が見いだされるまで、または
最も強く関連する単語が目的テキスト内に存在しなくな
るまで、または句読点に到達するまで継続することが可
能である。
てきたが、コンポーネント208はオプションであるこ
とに留意されたい。
一般に、論理形式間に形成される仮の対応の数を最大に
する目的で、ステップ302における仮の対応を形成す
るステップを精力的に遂行する。ステップ304で仮の
対応をさらに解析し、不正確であると判断されたものを
除去するため、ステップ302では仮の対応の精度が最
も重要な基準にはならない。
るために使用される直接的な翻訳を表す。しかし、付加
的な仮の対応を形成するために、派生的な形態を利用す
ることも可能である。例えば、ステップ302において
仮の対応を形成するのに、形態的ベースおよび派生物の
翻訳、ならびに翻訳のベースおよび派生形式を用いるこ
とも可能である。同様に、ノードの1つが他方のノード
より多くの字句要素または単語を含む論理形式のノード
間に仮の対応を形成することも可能である。例えば、一
般にそうであるように、ノードの1つが一方の言語の単
一単語を含むことができ、他方のノードが他方の言語の
少なくとも2つの単語を含む。英語やスペイン語などの
密接に関連した言語は、ファジィ論理に使用して関連性
を確認することができる単語類似性(同族性)をも有す
る。次いで、これらの関連性を使用して、仮の対応を形
成することができる。
いて考察するのが有益であると思われる。図6を参照す
ると、「En Informacion del hi
pervinculo,haga clic en l
a direccion del hipervinc
ulo」というセンテンスに対して論理形式320が生
成され、その英語訳である「Under Hyperl
ink Information,click the
hyperlink address(ハイパーリン
ク情報において、ハイパーリンクアドレスをクリックす
る)」に対して論理形式322が生成された。
た仮の対応323の各々を示す図である。本例では、ス
テップ302における仮の対応の精力的な遂行の例とし
て、「Hipervinculo」の出現の各々は、英
語の論理形式322における「Hyperlink_I
nformation」および「Hyperlink」
との異なる2つの仮の対応を含む。
形式の整列が行われる。この処理では、ステップ302
で形成された1つ以上の仮の対応を除去することがで
き、かつ/または上記処理は論理形式の構造的考察に応
じて実施することができる。一実施形態では、ステップ
304は、規則の集合に応じて、論理形式のノードを整
列させることを含む。さらなる実施形態では、該規則の
集合の各々の規則を選択した順序で論理形式に適用す
る。特に、それらの規則を整理して、最も明瞭な整列
(最良の整列)を最初に作成し、次いで、必要ならば、
後続のノード整列を明瞭化する。それらの規則を適用す
る順序は、論理形式の構造、すなわちトップダウン処理
またはボトムアップ処理に基づくものではなく、論理形
式に出現する場合は必ず最も言語学的に有意義な整列か
ら始まることに留意することが重要である。そのよう
に、規則のこの集合は、論理形式の構造に基づいて直線
的に適用されるのではなく、各々の論理形式のノードに
対して非直線的に適用されるものと見なすことができ
る。概して、それらの規則は、任意の言語に普遍的に適
用できるように、言語中立的であることを目的とする。
合の論理形式への適用を包括的に示す図である。ステッ
プ330において、論理形式の各々のノードは、「整列
ノード」ではなく「不整列ノード」と見なされる。ステ
ップ332において、該規則の集合を構造に関係なく不
整列ノードに適用して、整列ノードを形成する。したが
って、不整列ノードと整列ノードを区別するのが望まし
い。1つの技術は、すべてのノードを最初に不整列ノー
ドの集合に割り当て、それらが整列したらノードを除去
することを含む。集合体の使用は、それらがコンピュー
タ可読媒体の異なる位置にアクティブに形成されていて
も、単にノードに関連するブールのタグを用いてバーチ
ャルに形成されていても、不整列ノードと整列ノードを
区別する便利な方法を提供するものである。
各々に規則の集合を適用する。図9は、規則の集合を適
用するのに実施することのできるステップ332の態様
を概略的に示す図である。上述した一実施形態では、そ
れらの規則は指定された順序で適用される。ここで、
「N」は、どの規則が適用されているかを示すのに使用
されるカウンタである。第一弾において、ステップ33
4は、不整列ノードの各々に第1の規則を適用する。不
規則ノードのいずれかに規則を適用できない場合は、ス
テップ336および338において指示されるように、
該集合からの他の規則(ちなみに一実施形態では、言語
学的に有意義な整列であることを示す後続の規則)を適
用する。
べての規則をすべてのノードに適用したら、整列手順が
終了する。状況によっては、すべてのノードが整列され
ないことに留意されたい。
ことができれば、それらのノードは、整列して不整列ノ
ードから除去されるものと見なされ、規則の適用が続行
される。しかし、一実施形態では、一旦いくつかの規則
を適用してより言語学的に有意義な整列を取得したら、
再びそれらの規則から始めるのが有利である。したがっ
て、既に適用された規則を再度適用するのが望ましいと
いえる。このように、一実施形態では、ステップ342
において指示されているように、例えば第1の規則から
始まって該規則の集合の各々の規則が再度適用される。
的な規則の集合を以下に示す。ここに提示するノードの
集合は、ノードの言語学的に有意義な最も強い整列から
最も弱い整列に基づいて整理される。当業者なら理解す
るであろうが、ここに提示される規則の少なくともいく
つかを再編成しても、論理形式の整列の質を著しく変え
ることはできない。
ノードの集合と、他方の論理形式におけるノードまたは
ノードの集合との間に双方向に一意の翻訳が存在する場
合は、それら2つのノードまたはノードの集合を互いに
整列させる。第1のノードの集合におけるすべてのノー
ドが第2のノードの集合におけるすべてのノードとの仮
の対応を有し、他の対応をもたず、さらに第2のノード
の集合におけるすべてのノードが第1のノードの集合に
おけるすべてのノードとの仮の対応を有し、他の対応を
もたないように、一方の論理形式のノードまたはノード
の集合が、他方の論理形式におけるノードまたはノード
の集合との仮の対応を有する場合に、双方向に一意の翻
訳が存在する。
理形式からのノードである一対の親ノードを、それぞれ
の親ノードの各子ノードが他方の親ノードの子に対して
既に整列されている場合に互いに整列させる。
ドである一対の子ノードを、それらの間に仮の対応が存
在し、かつそれぞれの子ノードの親ノードが他方の子の
対応する親ノードに対して既に整列されている場合に互
いに整列させる。
ドである一対のノードを、想定される該ノードのそれぞ
れの親ノードが互いに整列され、それぞれの子ノードも
互いに整列されている場合に互いに整列させる。
形式からの動詞でない関連子ノードを、該関連子ノード
が該第2の動詞ノードに対して整列され、該第2の動詞
ノードが整列した親ノードを有していないか、または該
第1の動詞ノードおよび該第2の動詞ノードが互いに整
列された子ノードを有する場合に、他方の論理形式の動
詞である第2のノードに対して整列させる。
形式からのノードである一対のノードを、不整列の兄弟
ノードが存在せず、それぞれの親ノードが整列され、想
定されるノードの集合とそれぞれの親ノードとの言語学
的関係が同じである場合に互いに整列させる。
形式からのノードである一対のノードを、それぞれの子
ノードが互いに整列され、想定されるノードの集合とそ
れぞれの子ノードとの言語学的関係が同じである場合に
互いに整列させる。
在すればすべて整列されたそれぞれの親ノードと、存在
すればすべて整列されたそれぞれの子ノードとを含む隣
接ノードを有し、該隣接ノードの1つが、複合語を含む
他方の論理形式のノードに対して整列された非複合語で
ある場合に、該複合語を含むノードに対して不整列ノー
ドを整列させる。この場合の隣接ノードは、隣接する親
ノードおよび子ノードを含むものの、親ノードおよび子
ノードの存在を必要とするわけではないが、それらが存
在する場合にはそれらを整列させなければならないとい
うことに留意されたい。
式からのノードである一対のノードを、それぞれの親ノ
ードが互いに整列され、想定されるノードがいずれも不
整列の兄弟を有さない場合に互いに整列させる。
式からのノードである一対のノードを、名詞を含むそれ
ぞれの親ノードが互いに整列され、想定されるノードが
いずれも不整列の兄弟ノードを有さず、想定されるノー
ドの各々とそれぞれの親ノードとの言語学的関係が修飾
関係または前置詞的関係を含む場合に互いに整列させ
る。
を、該第1の動詞ノードが仮の対応を有さず、該第2の
動詞ノードに対して既に整列されている単一の関連子動
詞ノードを有する場合に、他方の論理形式の第2の動詞
ノードに対して整列させる。
および単一の各親ノードを、該第1の動詞ノードが仮の
対応を有さず、第2の動詞ノードに対して既に整列され
ている単一の親動詞ノードを有し、該単一の親動詞ノー
ドが第1の動詞ノード以外に不整列の動詞子ノードを有
さず、該第2の動詞ノードが不整列の動詞子ノードを有
さない場合に、他方の論理形式の第2の動詞ノードに対
して整列させる。
のノードを、該第1のノードの親ノードが該第2のノー
ドに対して整列され、該第2のノードが不整列子ノード
を有さない場合に、他方の論理形式の第2のノードに対
して整列させる。
および単一の各親ノードを、該第1の動詞ノードが仮の
対応を有さず、該親動詞ノードが該第2の動詞ノードに
対して整列され、該第1の動詞と該親動詞ノードの関係
が様相関係を含む場合に、他方の論理形式の第2の動詞
ノードに対して整列させる。
一つの規則(規則1)は主にステップ302で確立され
た対応に基づいており、例示された実施形態では、不明
瞭さがないため、最強の有意義な整列であると見なされ
る。規則2、3、11、12および14の如き他の規則
は、仮の対応の組合せまたは欠如、ならびに想定される
ノードおよび既に整列されたノードの構造に基づくもの
である。残りの規則は、想定されるノードと既に整列さ
れたノードの関係のみに依存する。利用可能な他の包括
的分類法は、規則が動詞、名詞および代名詞に関わるこ
とを含む。
すると、図7に示すノードを整列させるために、図5の
メソッド300にしたがって上記の規則を適用すること
が可能である。本例では、「Hipervincul
o」の2つのインスタンスが2つの不明瞭な仮の対応を
有し、「Informacion」から「Hyperl
ink_Information」への対応が一意的で
あるのに対して、その逆はそうでない。単一言語の辞典
または辞書も2カ国語の辞典または辞書もこの領域に対
してカスタマイズされていないことにも留意されたい。
例えば、「Hyperlink_Informatio
n」に対しては辞典のなかにエントリが存在しない。こ
の単位は、大文字で始まる単語のシーケンスをリンクす
る一般規則によってアセンブルされている。この要素に
対して確立された仮の字句対応は、その個々のコンポー
ネントに対して見いだされる翻訳に基づく。
成した整列マッピングを破線344として図7に示し、
それらを以下のように所得する。
つの場所において適用され、「direccion」と
「address」の間、「usted」と「you」
の間、ならびに「clic」と「click」の間の整
列マッピングを作成する。これらは、該方法がそこから
外方向に働いて構造の残りを整列させるアンカを提供す
る初期の「最良の」整列である。
則3が適用して、「address」の子である「di
reccion」対「hyperink」の子である
「hipervinculo」のインスタンスを整列さ
せる。したがって、該方法では、既に作成された整列
(「direccion」対「address」)およ
び論理形式の構造を利用して、字句レベルで存在する不
明瞭さを解決した。
用して、「Informacion」と「hiperv
inculo」対「Hyperlink_Inform
ation」との間に多対一のマッピングを作成する。
規則3の先の適用によって不明瞭な選択肢が片付けられ
たため、この規則における一意条件がここで満たされる
ことになる。
ているため、規則4は適用せず、図5を適用して、「h
acer」をその目的語の「clic」とともにロール
アップする。これにより、「hacer」と「cli
c」対「click」の多対一の整列が生成される。
のノードにも適用できなくなったときに論理形式の整列
が完了する。この時点で、コンポーネント212によっ
て変換マッピングを取得することが可能になる。
から取得しうるいくつかの変換マッピング(次のセクシ
ョンで説明する対立変換マッピングの例として含まれる
変換マッピング353以外の変換マッピング)を示す図
である。一般に、変換マッピング、または単に「マッピ
ング」は、第1の言語の単語または論理形式と、第2の
言語の対応する単語または論理形式との関連付けを示
す。第1の言語の単語または論理形式と第2の言語の対
応する単語または論理形式とをリンクする明確なポイン
タとして、それらのマッピングを任意のコンピュータ可
読媒体上に記憶することができる。同様に、それらのマ
ッピングを、個別のデータベースのなかではなく、単語
または論理正式とともに記憶することができる。当業者
なら理解するであろうが、第1の言語の単語または論理
形式と第2の言語の単語または論理形式とを関連付ける
のに他の技術を利用することができ、この情報を記録す
るために使用する具体的な技術に関係なくマッピングを
構成するのはこの関連付けである。
は、付加的なコンテキストを備えたさらなるマッピング
がその上に作成される基本構造でありうる。特に、そし
て本発明の他の態様として、情報が複数のマッピングを
含む場合には、その情報をコンピュータ可読媒体上に記
憶して、テキストを第1の言語から第2の言語に翻訳す
ることが可能である。各マッピングは、第1の言語の単
語または論理形式と第2の言語の単語または論理形式と
の関連付けを示す。しかし、さらに、第1の言語の論理
形式に対応するマッピングの少なくともいくつかでは、
いくつかの共通要素とともコンテキストが変化する。同
様に、第1の言語の論理形式に対応する第2の言語の論
理形式の少なくともいくつかでは、いくつかの共通要素
とともにコンテキストが変化しうる。すなわち、整列手
順により取得されたコアマッピングの少なくともいくつ
かを使用して、ローカルコンテキストの種類および量が
変化する他の競合マッピングを作成する。
352および354は、論理形式の要素がどのように変
化しうるかを示す。マッピング350は、さらなるマッ
ピングがその上に作成される基本またはコアマッピング
を含む。マッピング352はコアマッピング350を拡
大して、付加的な言語学的要素、ここでは単語「cli
ck」の直接目的語を含め、付加的な要素が特定の見出
し語は示さないが品詞を示す準指定ノード(「*」)を
含むように、コアマッピング350からマッピング35
4が拡大される。マッピング350と352と354、
ならびにマッピング356と358を比較することによ
って、第1の言語の論理形式が共通要素(品詞および/
または見出し語)を有し、第2の言語の論理形式も共通
要素を有することがわかる。
ッピングを記憶することによって、翻訳実行時に、言語
間の翻訳を行うための流暢さおよびマッピングの総合的
な応用性が維持される。特に、それらの言語の単語およ
びより小さい論理形式を関連付けるマッピングを有する
ことにより、トレーニングデータ内に翻訳対象となるテ
キストが見いだされなかったとしても、第1の言語から
第2の言語への翻訳が可能である。しかし、トレーニン
グデータ内により大きなコンテキストが存在するのであ
れば、より大きなコンテキストのマッピングが適用しう
る場合は、第1の言語と第2の言語の間のより流暢な翻
訳が取得できるように、これもマッピングに反映させ
る。
なコンテキストを含めるための境界を提示するのに言語
学的構造が用いられる。例えば、形容詞のためのマッピ
ングを拡大して、それが修飾する名詞を含めることが可
能である。同様に、動詞のためのマッピングを拡大し
て、コンテキストとして目的語を含めることが可能であ
る。他の例では、名詞の連語のためのマッピングが、個
別的かつ全体的に提供される。図10にさらに示される
ように、マッピングのいくつかは、品詞を指示するもの
の具体的な見出し語が提示されない準指定ノード
(「*」)を含むことができる。これらの種類のマッピ
ングは、第1の言語から第2の言語に翻訳するためのマ
ッピングの全体的な応用性を高めるばかりでなく、取得
される翻訳の流暢さを向上させるコンテキストを含む。
つかの方法で指定することができる任意の数のワイルド
カードまたは準指定ノードを有することができる。例え
ば、それらは、品詞を特定してもしなくてもよく、また
特定の構文上または意味上の特徴を指定することができ
る。例えば、あるパターンが、「ProperNam
e」または「Location」表示された特徴を備え
たワイルドカードノードであって、そのノードが同じ特
徴を有する入力ノードにマッチするときはそのパターン
のみを適用することを示すノードを有していてもよい。
これらのワールドカードは、システムが具体的なデータ
から一般化したマッピングを仮定することを可能にす
る。
グ 第1の言語と第2の言語の単語または論理形式の間のマ
ッピングに関係する情報に加えて、ランタイム翻訳時に
付加的な情報を記憶または使用することも可能である。
該付加的な情報を使用して、マッピングの適切な集合を
選択するとともに、どのマッピングを使用するかに関す
る対立、すなわち原始論理形式250に対して生成され
る原始論理形式252(またはその一部)が、変換マッ
ピングデータベース218における変換マッピングの複
数の原始側にマッチするときの対立(図2を参照)を解
決することが可能である。
18における複数の変換マッピングの原始側にマッチす
る場合は、これらのマッチング変換マッピングの部分集
合が、該部分集合におけるすべての変換マッピングが互
いに適合するように(すなわち対立しないように)、ま
た該部分集合における変換マッピングがどの程度入力セ
ンテンスを集合的に網羅するかということに応じる尺
度、ならびに個々の変換マッピングに関連する他の尺度
に基づいて選択される。いくつかの当該尺度を表1に示
す。
れた頻度。 3.完全に整列した論理形式から変換マッピングを生成
した頻度。 4.部分的に整列した論理形式から変換マッピングを生
成した頻度。 5.一定の解析により得られた論理形式から変換マッピ
ングを生成した頻度。 6.整列コンポーネントによって変換マッピングに割り
当てられた整列スコア。
択されると、該部分集合における変換マッピングは、そ
こから出力テキストが生成される変換論理形式に統合さ
れる。
合する限り、重複変換マッピングを含みうることに留意
されたい。例えば、「Click the offic
eaddress(オフィスアドレスをクリックする)
と翻訳することができるスペイン語のセンテンス、「H
aga clic en el direccion
de la oficina」に対して以下の論理形式
を生成することが可能である。 Hacer −− Dobj − click − en − direccion − de − oficina 各々の変換マッピングがこの論理形式を含むため、この
論理形式を変換マッピング350、352および354
のすべてにマッチさせることが可能である。これらの変
換マッピングは重複するが、(どれも同じものとして翻
訳できるため)対立することはない。したがって、マッ
チング変換マッピングの部分集合にすべてを含めること
ができ、そこから変換論理形式を生成することが可能で
ある。しかし、それらのなかから選択することが望まれ
る場合には、最も大きいという理由により、変換マッピ
ング352を選ぶのが最良の選択であるといえる。様々
な理由によって他のものを選択することも可能である。
と対立する変換マッピング353としてのマッチング変
換マッピングが示される。したがって、例えば、その論
理形式は、変換マッピング350、352、353およ
び354のすべてにマッチすることになる。 Hacer −− Dobj − click − en − direccion しかし、変換マッピング352および353は、(異な
って翻訳されるため)対立するため、どちらもマッチン
グ変換マッピングの選択された部分集合の一部になりえ
ない。したがって、所定の尺度に基づいて1つの変換マ
ッピングが選択される。例えば、部分集合350、35
2および354を部分集合350、353および354
と比較して、集合的に、どれが入力論理形式におけるノ
ードを最も多く網羅しているかを確認することができ
る。また、変換マッピング352および353は、どち
らも(原始側の)大きさが同じである。したがって、マ
ッチング変換マッピングの部分集合を選択する上で、そ
れらを区別するのに他の情報を利用することが可能であ
る。
トレーニング中に処理されるいくつかのセンテンスが、
スペイン語の「hacer clic en <som
ething>に対して整列された句の「click
<something>」を含んでいたとする。他のセ
ンテンスにおいて、「elegir <somethi
ng>」(逐語的には「select somethi
ng」)に対して整列されたセンテンス「click
<something>」を想定する。
成される(これらの例は英語をスペイン語に対してマッ
ピングしたものであるが、先の例はスペイン語を英語に
対してマッピングしたものであることに留意された
い): Click hacer Tobj −− * → Tobj −− clic en −− * (第1のケース) Click elegir Tobj −− * → Tobj −− * (第2のケース)適切なコンテキストにおいて、「cl
ick」の「select」への翻訳は、正当な変化で
あるといえる。しかし、場合によっては、それは、ある
問題をもたらす。例えば、両変換の原始側が同一である
として、ランタイム時に、入力論理形式がその原始側に
マッチすれば、我々は、2つの異なる目的側の間で選択
を行わなければならず、すなわちその入力を「hace
r clic...」と翻訳すべきか、または「ele
gir..」と翻訳すべきかを判断しなければならな
い。(変換の原始側を差別化することによって顕在化す
るであろう)さらなるコンテキストが存在しないなか
で、様々な頻度および評価尺度に基づいてそれらの選択
を行う。
る。ランタイム時に、所定の入力センテンスについて、
入力センテンスの異なる部分にマッチする複数のマッチ
ング変換マッピングが存在しうる。それらのうちのいく
つかを互いに繋ぎ合わせて、入力全体を網羅する変換L
Fを生成できるように、選択部分集合としてそれらを選
択することが可能である。しかし、繋ぎ合わせたこれら
の組合せは、互いに重複するものもあれば、そうでない
ものもある。重複するもののうち、互いに「適合する」
ものしか使用できない。上述したように、「重複」によ
り、入力センテンスの少なくとも1つのノードが両方の
マッピングにマッチする場合における2つのマッピング
を意味する。適合により、組合せが重複しなければそれ
らは常に適合し、組合せが重複するノードに対応する目
的側が同じであれば、重複する組合せが適合することを
意味する。
r configurationde segurid
ad」(「change the security
setting(セキュリティ設定を変更する)と翻訳
される」で、それが以下のような変換マッピングにマッ
チし、 cambiar chang e Tobj −− configuracion)→ Tobj −− setting さらに、以下のような他のマッピングをマッチさせる場
合は、 configuracion setting mod − seguridad → Mod securi ty それら2つの組合せは(「configuratio
n」に対して)重複するが、それらはともに「conf
iguration」を「setting」に翻訳する
ため適合する。したがって、それらを組み合わせて、以
下の変換LF(または目的LF)を生成することができ
る。 しかし、以下の第3のマッピングが存在したと仮定する
と、 configuracion value Mod − seguridad → Mod settin g 「configuration」において先の2つのマ
ッピングと重複するこのマッピングは、「config
uration」を「setting」ではなく、「v
alue」に翻訳するため適合しない。したがって、こ
のマッピングを先の2つのマッピングと併合することが
できないため、この変換マッピングか先の2つのマッピ
ングのいずれかを選択しなければならず、同時にその両
方を選択することはできない。
集合をさらに限定する(対立するマッチング変換マッピ
ングのなかから選択するか、または適合するマッチング
変換マッピングの部分集合を絞り込む)のに使用できる
情報の例を示す。当該情報としては、マッチング変換マ
ッピングの部分集合によって(集合的に)網羅される入
力センテンスの範囲、ならびにマッピングそのものにお
いてマッチさせる論理形式から確認できるマッピングの
大きさを挙げることができる。論理形式の大きさは、指
定ノードの数、ならびにそれらのノードの言語学的関係
の数の両方を含む。したがって、例示を目的とし、マッ
ピング350の原始側からの論理形式の大きさは2に等
しく、目的側の論理形式の大きさは1に等しい。他の例
では、マッピング354の原始側の論理形式の大きさは
4に等しく、マッピング354の目的側の論理形式の大
きさは2に等しい。
の情報としては、変換マッピングにおける論理形式がト
レーニングデータに見いだされる頻度の如き、個々の変
換マッピングに関連する情報も挙げることができる。望
まれる場合は、トレーニングデータは、他のトレーニン
グデータより信頼性が高いものと考えられる「信用」ト
レーニングデータを含むことができる。信用トレーニン
グデータに見いだされるマッピングの頻度をさらに保持
し、あるいはすべてのトレーニングデータに見いだされ
るマッピングの頻度を記憶することが可能である。
せるときにマッチング変換マッピングの部分集合を選択
する上で役立つ他の情報としては、そこから論理形式が
取得されたトレーニングデータ内の論理形式の完全整列
の範囲が挙げられる。すなわち、その整列手順は、より
大きな論理形式のノードを完全または完璧に整列させる
ことができるか、あるいはいくつかのノードが不整列の
状態を維持しうる。図7の例では、すべてのノードを整
列させたが、上述したように、常にそうであるとは限ら
ない。完全に整列した論理形式に関連するそれらのマッ
ピングは、より信頼性が高いものと考えられる。勿論、
対立を解決するための情報、または部分集合を定めるた
めの情報は、完全に整列した論理形式ならびに部分的に
整列した論理形式の両方からマッピングが生成された頻
度をも示しうる。
トレーニングデータの完全解析から、変換マッピングに
おける論理形式が発生した頻度を上げることができる。
特に、完全または一定解析からマッピングが発生した頻
度、あるいは対照的に、部分解析のみからマッピングが
発生した頻度を、その後、翻訳時にマッチさせながら対
立を解決するのに使用するために記憶することが可能で
ある。
出するのに使用される整列手順によって変換マッピング
に割り当てられるスコアまたは値を上げることができ
る。例えば、スコアは、整列ノードがどの程度「強い」
(言語学的に有意義)であるか(または、整列コンポー
ネントが変換マッピングにおいてどの程度の確度を有す
るか)に応じうる。したがって、スコアは、いつ(何回
目に)、そしてどの規則が整列を形成したかに応じう
る。整列スコアを計算するのに使用する特定の相関関係
または尺度は決定的なものではなく、任意の当該尺度を
用いて、ランタイム翻訳時に利用することのできる整列
スコアに関連する情報を生成することが可能である。
本発明を説明したが、本明細書に記載されている発明の
概念の少なくとも一部は他の依存構造にも応用可能であ
ることを理解されたい。
明したが、本発明の主旨および範囲を逸脱することな
く、形式および詳細において変更が可能であることを当
業者なら理解するであろう。
構成図である。
チャの構成図である。
チャの構成図である。
テキスト入力について生成される論理形式の例を示す図
である。(B)は原始言語でのテキスト入力についての
リンクされた論理形式を示す図である。(C)は原始言
語入力の目的言語出力(本例では英語)への翻訳を表す
目的論理形式を示す図である。
る。
である。
を示す図である。
す流れ図である。
る。
示す図である。
Claims (26)
- 【請求項1】 第1の言語の入力テキストを第2の言語
の出力テキストに翻訳するコンピュータ実施方法であっ
て、 入力テキストに基づいて入力論理形式を生成するステッ
プと、 少なくとも入力論理フォームの一部分とマッチングする
1つまたはそれ以上の変換マッピングの1組をあらかじ
め定められた尺度に基づいて選択するステップと、 前記1組の変換マッピングを目的論理形式と結合するス
テップと、 前記目的論理形式に基づいて出力テキストを生成するス
テップとを備えたことを特徴とするコンピュータ実施方
法。 - 【請求項2】 請求項1に記載のコンピュータ実施方法
において、前記入力論理形式は複数の入力ノードを含
み、前記選択するステップは前記1組の変換マッピング
を該変換マッピングにより集合的にカバーされる多数の
入力ノードに基づいて選択するステップを有することを
特徴とするコンピュータ実施方法。 - 【請求項3】 請求項1に記載のコンピュータ実施方法
において、前記選択するステップは前記複数の変換マッ
ピングのサイズに基づいて前記1組の変換マッピングを
選択するステップを有することを特徴とするコンピュー
タ実施方法。 - 【請求項4】 請求項3に記載のコンピュータ実施方法
において、前記複数の変換マッピングのサイズに基づい
て選択するステップは前記複数の変換マッピングの最も
大きいものを前記1組の変換マッピングを選択するステ
ップを有することを特徴とするコンピュータ実施方法。 - 【請求項5】 請求項1に記載のコンピュータ実施方法
において、前記選択するステップは変換マッピングデー
タベースをトレーニングする際に使用されるトレーニン
グフェースの間、複数の変換マッピングが完全整列論理
形式から生成された頻度に基づいて前記1組の変換マッ
ピングを選択するステップを有することを特徴とするコ
ンピュータ実施方法。 - 【請求項6】 請求項1に記載のコンピュータ実施方法
において、前記選択するステップは変換マッピングデー
タベースをトレーニングする際に使用されるトレーニン
グフェースの間、複数の変換マッピングが完全整列論理
形式から生成された頻度に基づいて前記1組の変換マッ
ピングを選択するステップを有することを特徴とするコ
ンピュータ実施方法。 - 【請求項7】 請求項1に記載のコンピュータ実施方法
において、前記選択するステップは変換マッピングデー
タベースをトレーニングする際に使用されるトレーニン
グフェースの間、複数の変換マッピングが部分的整列論
理形式から生成された頻度に基づいて前記1組の変換マ
ッピングを選択するステップを有することを特徴とする
コンピュータ実施方法。 - 【請求項8】 請求項1に記載のコンピュータ実施方法
において、前記選択するステップは変換マッピングデー
タベースをトレーニングする際に使用されるトレーニン
グフェースの間、複数の変換マッピングが、複数の論理
形式を生成するために使用される不適合文法解析から生
成された頻度に基づいて前記1組の変換マッピングを選
択するステップを有することを特徴とするコンピュータ
実施方法。 - 【請求項9】 請求項1に記載のコンピュータ実施方法
において、前記複数の変換マッピングの各々に関連し、
関連する変換マッピングにおける信頼性を示すスコアに
基づいて前記1組の変換マッピングを選択するステップ
を有することを特徴とするコンピュータ実施方法。 - 【請求項10】 請求項1に記載のコンピュータ実施方
法において、前記1組の変換マッピングを結合するステ
ップは、前記1組の変換マッピングに基づいて、前記入
力論理形式および前記変換マッピングデータベース中の
論理形式の間のリンクを示すリンク論理形式を生成する
ステップを有することを特徴とするコンピュータ実施方
法。 - 【請求項11】 請求項10に記載のコンピュータ実施
方法において、前記1組の変換マッピングを結合するス
テップは、さらに、前記リンク論理形式に基づいて目的
論理形式を生成するステップを有することを特徴とする
コンピュータ実施方法。 - 【請求項12】 請求項11に記載のコンピュータ実施
方法において、前記目的論理形式を生成するステップは
前記リンク論理形式中の単語に基づいて2カ国語辞書に
アクセスするステップを有することを特徴とするコンピ
ュータ実施方法。 - 【請求項13】 請求項11に記載のコンピュータ実施
方法において、前記出力テキストを生成するステップは
目的論理形式に基づいて出力テキストを生成するステッ
プを有することを特徴とするコンピュータ実施方法。 - 【請求項14】 請求項1に記載のコンピュータ実施方
法において、前記選択するステップは複数の重複する変
換マッピンを選択するステップを有することを特徴とす
るコンピュータ実施方法。 - 【請求項15】 請求項14に記載のコンピュータ実施
方法において、前記1組の変換マッピングを結合するス
テップは、複数の重複する変換マッピングを結合して前
記目的論理形成期を取得することを特徴とするコンピュ
ータ実施方法。 - 【請求項16】 第1の言語の入力テキストを第2の言
語の出力テキストに翻訳する機械翻訳システムであっ
て、 入力テキストに基づいて生成された入力論理形式と、少
なくとも入力論理形式の一部分がマッチングする、変換
マッピングデータベース中の変換マッピングとをあらか
じめ定められた尺度に基づいてマッチングするマッチン
グコンポーネントと、 選択された変換マッピングに基づいて前記出力テキスト
を生成する生成コンポーネントとを備えたことを特徴と
する機械翻訳システム。 - 【請求項17】 第1の言語の入力テキストを第2の言
語の出力テキストに翻訳する機械翻訳システムであっ
て、 前記入力テキストに基づいて入力依存構造を生成する入
力ジェネレータと、 少なくとも10,000の並列の整列トレーニング文に
基づいて形成された複数の変換マッピング依存構造を含
む変換マッピングデータベースと、 前記入力依存構造を受け取り、当該受け取った入力依存
構造を、前記変換マッピングデータベース中の少なくと
も1つまたはそれ以上の変換マッピング依存構造とマッ
チングするマッチングコンポーネントと、 前記変換マッピング依存構造に基づいて前記出力テキス
トを生成する生成コンポーネントとを備えたことを特徴
とする機械翻訳システム。 - 【請求項18】 変換マッピングデータベースをトレー
ニングするコンピュータ実施方法であって、 2つの異なる言語の、複数の並列の整列された入力文の
対を受け取るステップと、 2つの言語の入力文のための、2つの言語に共通する入
力論理形式を生成するステップと、 前記入力論理形式に基づいて前記変換マッピングデータ
ベースをトレーニングするステップとを備えたことを特
徴とするコンピュータ実施方法。 - 【請求項19】 請求項18に記載のコンピュータ実施
方法において、前記トレーニングするステップは、 入力論理形成期を整列して変換マッピングを取得するス
テップと、 前記変換マッピングに基づいて変換マッピングをトレー
ニングするステップとを有することを特徴とするコンピ
ュータ実施方法。 - 【請求項20】 請求項18に記載のコンピュータ実施
方法において、前記変換マッピングに基づいて変換マッ
ピングをトレーニングするステップは、整列の論理形式
から得られる変換マッピングだけに基づいて、少なくと
もあらかじめ定められた回数だけ変換マッピングデータ
ベースをトレーニングするステップを有することを特徴
とするコンピュータ実施方法。 - 【請求項21】 請求項20に記載のコンピュータ実施
方法において、前記あらかじめ定められた回数は2回で
あることを特徴とするコンピュータ実施方法。 - 【請求項22】 請求項18に記載のコンピュータ実施
方法において、前記入力文の対を受け取る処理では少な
くとも10,000の並列の整列されたトレーニング文
を受け取ることを特徴とするコンピュータ実施方法。 - 【請求項23】 請求項18に記載のコンピュータ実施
方法において、前記入力文の対を受け取る処理では少な
くとも50,000の並列の整列されたトレーニング文
を受け取ることを特徴とするコンピュータ実施方法。 - 【請求項24】 請求項18に記載のコンピュータ実施
方法において、前記入力文の対を受け取る処理では少な
くとも100,000の並列の整列されたトレーニング
文を受け取ることを特徴とするコンピュータ実施方法。 - 【請求項25】 請求項18に記載のコンピュータ実施
方法において、前記入力文の対を受け取る処理では少な
くとも180,000の並列の整列されたトレーニング
文を受け取ることを特徴とするコンピュータ実施方法。 - 【請求項26】 請求項18に記載のコンピュータ実施
方法において、前記入力文の対を受け取る処理では少な
くとも200,000の並列の整列されたトレーニング
文を受け取ることを特徴とするコンピュータ実施方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29533801P | 2001-06-01 | 2001-06-01 | |
US60/295,338 | 2001-06-01 | ||
US09/899,755 US7050964B2 (en) | 2001-06-01 | 2001-07-05 | Scaleable machine translation system |
US09/899,755 | 2001-07-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003050797A true JP2003050797A (ja) | 2003-02-21 |
JP4714400B2 JP4714400B2 (ja) | 2011-06-29 |
Family
ID=26969062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002162076A Expired - Fee Related JP4714400B2 (ja) | 2001-06-01 | 2002-06-03 | スケーラブル機械翻訳システム |
Country Status (3)
Country | Link |
---|---|
US (2) | US7050964B2 (ja) |
EP (1) | EP1262880A3 (ja) |
JP (1) | JP4714400B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7707026B2 (en) | 2005-03-14 | 2010-04-27 | Fuji Xerox Co., Ltd. | Multilingual translation memory, translation method, and translation program |
JP2014142975A (ja) * | 2004-11-04 | 2014-08-07 | Microsoft Corp | ツリーレット翻訳対の抽出 |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7050964B2 (en) * | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
EP1306775A1 (en) * | 2001-10-29 | 2003-05-02 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US7620538B2 (en) | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
EP1349079A1 (en) * | 2002-03-28 | 2003-10-01 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US7209875B2 (en) * | 2002-12-04 | 2007-04-24 | Microsoft Corporation | System and method for machine learning a confidence metric for machine translation |
US7356457B2 (en) * | 2003-02-28 | 2008-04-08 | Microsoft Corporation | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7584092B2 (en) * | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
CA2475001A1 (en) * | 2004-07-08 | 2006-01-08 | Bob B. Ha | Rolling hammer drill |
US8600728B2 (en) | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7552046B2 (en) * | 2004-11-15 | 2009-06-23 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7548849B2 (en) * | 2005-04-29 | 2009-06-16 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
JP4992715B2 (ja) * | 2005-08-04 | 2012-08-08 | 日本電気株式会社 | データ処理装置、データ処理方法、データ処理プログラム |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8099341B2 (en) * | 2006-01-31 | 2012-01-17 | OREM Financial Services Inc. | System and method for recreating tax documents |
US20060271451A1 (en) * | 2006-03-30 | 2006-11-30 | George Varughese | System and method for providing data to tax preparation software |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8209162B2 (en) * | 2006-05-01 | 2012-06-26 | Microsoft Corporation | Machine translation split between front end and back end processors |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
JP5235344B2 (ja) * | 2007-07-03 | 2013-07-10 | 株式会社東芝 | 機械翻訳を行う装置、方法およびプログラム |
US8046211B2 (en) | 2007-10-23 | 2011-10-25 | Microsoft Corporation | Technologies for statistical machine translation based on generated reordering knowledge |
US8209164B2 (en) * | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
CA2705133C (en) | 2007-12-05 | 2014-09-23 | Facebook, Inc. | Community translation on a social network |
US8849665B2 (en) * | 2008-01-30 | 2014-09-30 | At&T Intellectual Property I, L.P. | System and method of providing machine translation from a source language to a target language |
US8706477B1 (en) | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8856726B2 (en) | 2009-09-14 | 2014-10-07 | The Mathworks, Inc. | Verification of computer-executable code generated from a slice of a model |
US8464204B1 (en) * | 2008-10-06 | 2013-06-11 | The Mathworks, Inc. | Verification of computer-executable code generated from a model |
US8869103B2 (en) | 2008-10-06 | 2014-10-21 | The Mathworks, Inc. | Using intermediate representations to verify computer-executable code generated from a model |
US8190601B2 (en) | 2009-05-22 | 2012-05-29 | Microsoft Corporation | Identifying task groups for organizing search results |
US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
US8762131B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US20140379680A1 (en) * | 2010-09-21 | 2014-12-25 | Qiliang Chen | Generating search query suggestions |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
CN102737014A (zh) * | 2011-04-04 | 2012-10-17 | 陈本东 | 一种多语言用户在线交流方法以及系统和用户界面 |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US9164985B1 (en) * | 2011-11-29 | 2015-10-20 | Google Inc. | Techniques for detecting poor machine translations of key terms |
CN102722480B (zh) * | 2011-12-30 | 2017-09-19 | 新奥特(北京)视频技术有限公司 | 一种比赛系统中的多语言转换方法 |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9519639B2 (en) * | 2012-06-08 | 2016-12-13 | Facebook, Inc. | Community translation of user-generated content |
CN103577394B (zh) * | 2012-07-31 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 一种基于双数组搜索树的机器翻译方法和装置 |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10417350B1 (en) | 2017-08-28 | 2019-09-17 | Amazon Technologies, Inc. | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10902217B1 (en) * | 2018-07-16 | 2021-01-26 | Michael Dudley Johnson | Methods and systems for scalable machine translation |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11501067B1 (en) * | 2020-04-23 | 2022-11-15 | Wells Fargo Bank, N.A. | Systems and methods for screening data instances based on a target text of a target corpus |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4823306A (en) | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
NL8900587A (nl) | 1989-03-10 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
EP0473864A1 (en) * | 1990-09-04 | 1992-03-11 | International Business Machines Corporation | Method and apparatus for paraphrasing information contained in logical forms |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5377103A (en) * | 1992-05-15 | 1994-12-27 | International Business Machines Corporation | Constrained natural language interface for a computer that employs a browse function |
US5592661A (en) * | 1992-07-16 | 1997-01-07 | International Business Machines Corporation | Detection of independent changes via change identifiers in a versioned database management system |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
GB9320404D0 (en) * | 1993-10-04 | 1993-11-24 | Dixon Robert | Method & apparatus for data storage & retrieval |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5724594A (en) * | 1994-02-10 | 1998-03-03 | Microsoft Corporation | Method and system for automatically identifying morphological information from a machine-readable dictionary |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
JP2923552B2 (ja) * | 1995-02-13 | 1999-07-26 | 富士通株式会社 | 組織活動データベースの構築方法,それに使用する分析シートの入力方法及び組織活動管理システム |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
JP3083742B2 (ja) * | 1995-10-03 | 2000-09-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 表計算方法 |
US5995922A (en) | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5884247A (en) * | 1996-10-31 | 1999-03-16 | Dialect Corporation | Method and apparatus for automated language translation |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7734459B2 (en) | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
-
2001
- 2001-07-05 US US09/899,755 patent/US7050964B2/en not_active Expired - Fee Related
-
2002
- 2002-05-29 EP EP02011980A patent/EP1262880A3/en not_active Withdrawn
- 2002-06-03 JP JP2002162076A patent/JP4714400B2/ja not_active Expired - Fee Related
-
2005
- 2005-12-01 US US11/291,741 patent/US7206735B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014142975A (ja) * | 2004-11-04 | 2014-08-07 | Microsoft Corp | ツリーレット翻訳対の抽出 |
US7707026B2 (en) | 2005-03-14 | 2010-04-27 | Fuji Xerox Co., Ltd. | Multilingual translation memory, translation method, and translation program |
Also Published As
Publication number | Publication date |
---|---|
US20030023422A1 (en) | 2003-01-30 |
JP4714400B2 (ja) | 2011-06-29 |
US20060085180A1 (en) | 2006-04-20 |
EP1262880A2 (en) | 2002-12-04 |
EP1262880A3 (en) | 2004-01-14 |
US7206735B2 (en) | 2007-04-17 |
US7050964B2 (en) | 2006-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4714400B2 (ja) | スケーラブル機械翻訳システム | |
JP5538820B2 (ja) | 2カ国語コーパスからの変換マッピングの自動抽出プログラム | |
EP1308851B1 (en) | Method of calculating translation relationships among words of different languages | |
US7356457B2 (en) | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words | |
US7319949B2 (en) | Unilingual translator | |
AU2004201089B2 (en) | Syntax tree ordering for generating a sentence | |
US9053090B2 (en) | Translating texts between languages | |
KR20040044176A (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 및장치 | |
JP2003308320A (ja) | 文実現システム | |
JP2005507524A (ja) | 機械翻訳 | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
WO2002039318A1 (en) | User alterable weighting of translations | |
Dang | Investigations into the role of lexical semantics in word sense disambiguation | |
KR950013129B1 (ko) | 기계번역장치 및 방법 | |
Razmara | Application of tree transducers in statistical machine translation | |
Jakubíček | Rule-based parsing of morphologically rich languages | |
Vasuki et al. | English to Tamil machine translation system using parallel corpus | |
Swain et al. | Morphological analyser based on finite state transducer: a case study for Oriya language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050603 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070824 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070925 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071025 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20071025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071025 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071214 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080414 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080424 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080627 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100614 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7431 Effective date: 20101006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110328 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |