JP4554273B2 - 機械トランスレータをトレーニングする方法およびそのシステム - Google Patents

機械トランスレータをトレーニングする方法およびそのシステム Download PDF

Info

Publication number
JP4554273B2
JP4554273B2 JP2004156806A JP2004156806A JP4554273B2 JP 4554273 B2 JP4554273 B2 JP 4554273B2 JP 2004156806 A JP2004156806 A JP 2004156806A JP 2004156806 A JP2004156806 A JP 2004156806A JP 4554273 B2 JP4554273 B2 JP 4554273B2
Authority
JP
Japan
Prior art keywords
training
language
text input
translation
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004156806A
Other languages
English (en)
Other versions
JP2004355625A (ja
Inventor
ピンカム ジェシー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004355625A publication Critical patent/JP2004355625A/ja
Application granted granted Critical
Publication of JP4554273B2 publication Critical patent/JP4554273B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06BFIXED OR MOVABLE CLOSURES FOR OPENINGS IN BUILDINGS, VEHICLES, FENCES OR LIKE ENCLOSURES IN GENERAL, e.g. DOORS, WINDOWS, BLINDS, GATES
    • E06B9/00Screening or protective devices for wall or similar openings, with or without operating or securing mechanisms; Closures of similar construction
    • E06B9/24Screens or other constructions affording protection against light, especially against sunshine; Similar screens for privacy or appearance; Slat blinds
    • E06B9/26Lamellar or like blinds, e.g. venetian blinds
    • E06B9/28Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable
    • E06B9/30Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable liftable
    • E06B9/32Operating, guiding, or securing devices therefor
    • E06B9/322Details of operating devices, e.g. pulleys, brakes, spring drums, drives
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06BFIXED OR MOVABLE CLOSURES FOR OPENINGS IN BUILDINGS, VEHICLES, FENCES OR LIKE ENCLOSURES IN GENERAL, e.g. DOORS, WINDOWS, BLINDS, GATES
    • E06B9/00Screening or protective devices for wall or similar openings, with or without operating or securing mechanisms; Closures of similar construction
    • E06B9/24Screens or other constructions affording protection against light, especially against sunshine; Similar screens for privacy or appearance; Slat blinds
    • E06B9/26Lamellar or like blinds, e.g. venetian blinds
    • E06B9/28Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable
    • E06B9/30Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable liftable
    • E06B9/303Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable liftable with ladder-tape
    • E06B9/308Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable liftable with ladder-tape with coaxial tilting bar and raising shaft
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06BFIXED OR MOVABLE CLOSURES FOR OPENINGS IN BUILDINGS, VEHICLES, FENCES OR LIKE ENCLOSURES IN GENERAL, e.g. DOORS, WINDOWS, BLINDS, GATES
    • E06B9/00Screening or protective devices for wall or similar openings, with or without operating or securing mechanisms; Closures of similar construction
    • E06B9/56Operating, guiding or securing devices or arrangements for roll-type closures; Spring drums; Tape drums; Counterweighting arrangements therefor
    • E06B9/68Operating devices or mechanisms, e.g. with electric drive
    • E06B9/70Operating devices or mechanisms, e.g. with electric drive comprising an electric motor positioned outside the roller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06BFIXED OR MOVABLE CLOSURES FOR OPENINGS IN BUILDINGS, VEHICLES, FENCES OR LIKE ENCLOSURES IN GENERAL, e.g. DOORS, WINDOWS, BLINDS, GATES
    • E06B9/00Screening or protective devices for wall or similar openings, with or without operating or securing mechanisms; Closures of similar construction
    • E06B9/24Screens or other constructions affording protection against light, especially against sunshine; Similar screens for privacy or appearance; Slat blinds
    • E06B9/26Lamellar or like blinds, e.g. venetian blinds
    • E06B9/28Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable
    • E06B9/30Lamellar or like blinds, e.g. venetian blinds with horizontal lamellae, e.g. non-liftable liftable
    • E06B9/32Operating, guiding, or securing devices therefor
    • E06B9/322Details of operating devices, e.g. pulleys, brakes, spring drums, drives
    • E06B2009/3222Cordless, i.e. user interface without cords

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Structural Engineering (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Civil Engineering (AREA)
  • Architecture (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は、機械トランスレータをトレーニングする方法およびそのシステムに関し、より具体的には、語の間の学習関係に関連し二言語テキストを使用して機械トランスレータをトレーニングする、機械トランスレータをトレーニングする方法およびテキスト入力を翻訳するためのシステム並びに機械トランスレータをトレーニングするためのシステムに関する。
機械翻訳は、コンピュータソフトウェアおよびコンピュータコンポーネントを利用してテキストをドイツ語、フランス語、または日本語などの1つの言語から英語、スペイン語、またはアラビア語などの第2の言語に翻訳するプロセスである。機械翻訳は、単純明快なプロセスとはほど遠い。機械翻訳は、単に1つの語を別の語に置き換えることではなく、所与のテキストを構成する語のすべてを知り、テキスト内の1つの語がテキスト内の他の語にどのように影響を与えるかを知ることに基づく。しかし、人間の言語は複雑であり、形態構造(morphology)、構文(syntax)または文構造、意味規則(semantics)、あいまいさ、および不規則(irregularities)などのいくつかの特徴から成る。2言語間で翻訳を行うため、機械トランスレータは、その言語のそれぞれの文法構造を考慮に入れなければならない。さらに、機械トランスレータは、第1の言語(ソース)の文法構造を第2の言語(目標)に転写するのに規則および前提を使用しなければならない。
ただし、言語に関係する複雑さから、機械翻訳は、30%から65%までの範囲でしか正確でない傾向にある。多くの句および口語的言葉遣いは、容易に翻訳されない。場所の名前、人々の名前、科学用語等を翻訳すべきではない場合に、それらを翻訳しようとする試みが行われる。ある文法上の特徴に関してハードコード化された(hard−coded)規則が、その規則に多くの例外が存在していても、常に適用される可能性がある。というのは、すべての例外に関してコードを書くことは、長引いた作業となり、翻訳プロセスが遅くなるからである。したがって、現在の機械翻訳技術によって翻訳されたドキュメントは、ユーザに理解できることも、理解できないことさえもあり得、さらに悪いことに、ドキュメントのいくつかの重要な要素が誤って翻訳される可能性がある。
機械トランスレータは、システムをトレーニングするのに使用されるトレーニングデータが良好であってはじめて良好になる。機械トランスレータは、通常、人間が作成した翻訳を使用してトレーニングされる。それらの翻訳は、関連する様々な語のペアを識別するトレーニングアーキテクチャの中を通らされる。それらの語のペアは、しばしば、テキスト内の語の翻訳であるが、ときとして、それらの語は、関連する語の正確な翻訳ではない。他の機械トランスレータは、対訳辞書からのデータを使用してトレーニングされる。しかし、それらのタイプの翻訳からトレーニングを行うことは、必ずしも機械トランスレータをトレーニングする最良のやり方とは限らない。というのは、その翻訳により、所与の状況において誤った語を選択するようにトランスレータが導かれる可能性があるからである。
人間が作成した翻訳を使用して機械トランスレータをトレーニングすることの1つの問題は、翻訳が、しばしば、真の意味での翻訳ではなく、むしろテキストの解釈のようなものだということである。例えば、カナダでは、国会の討論により、機械トランスレータをトレーニングするのに使用することができる人間が作成した翻訳済みデータの既成のソースが提供される。しかし、それらの翻訳は、しばしば、真の翻訳ではない。したがって、それらの翻訳は、正確な翻訳を生成するのに必要なレベルで、トレーニングデータを機械トランスレータに提供しない。
機械翻訳が抱える正確さの問題は、簡単な例で説明することができる。現在、利用可能な機械翻訳を使用すると、ユーザが英語からフランス語に文を翻訳する場合、ある程度の不正確さが必然的に伴う。機械翻訳を使用してその文を再び英語に翻訳する際、最初の翻訳の不正確さが増幅され、文は、ほとんどの場合、最初の英語の文とは異なるものになる。例えば、カナダの討論からの以下の発言を見ることにする。
Mr.Hermanson:On a point of order,Mr.Speaker,I think you will find unanimous consent to allow the leader of the Reform Party,the hon.member for Calgary Southwest,to lead off this debate,and the hon.member for Red Deer would then speak in his normal turn in the rotation.
これは、人間の翻訳者によって以下のとおりフランス語に翻訳された。
M.Hermanson:J’invoque le Reglement,monsieur le President.Je pense que vous trouverez qu’il y a consentement unanime pour que le chef du Parti reformiste,le depute de Calgary−Sud−Ouest,engage ce debat et que le depute de Red Deer prenne ensuite la parole quand ce sera son tour.
これは、以下のとおり再び英語に翻訳される。
I call upon the requirement,Mr.President.I think that you will find that there is a unanimous consent to the proposition that the head of the reformist party,the member from Calgary−Southwest start this debate,and that the member from Red Deer makes his statement when it is his turn.
しかし、機械トランスレータを使用して再び英語に翻訳した場合、以下のとおりとなる。
I call upon the Payment,Mr.President President.I think that you will find that there is unanimous assent so that the chief of the Party reformist,the deputy of Calgary−South−West,engages this debate and that the deputy of Red Deer speaks then when it is its turn.
上記の例から見て取ることができるとおり、機械翻訳の品質は、遺憾な点が多い。人間が作成した翻訳に頼ることにより、機械トランスレータが、語の間の関係を学習する際、翻訳ではなく、解釈に依存するようになりがちである。また、トレーニングデータとして使用するのに利用できる資料の数も限られている。(例えば、聖書、二言語組織または多言語組織における討論、および二言語形式で特に作成されたその他のドキュメント。)さらに、機械トランスレータをトレーニングするのに使用するためにより多くの翻訳済みドキュメントを生成することは、依然、機械トランスレータを効果的にトレーニングするのに十分な正確さをもたらさない高価なプロセスである。
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている。機械翻訳アーキテクチャに関連して、論理形態(logical form)、ならびに論理形態を生成するためのシステムおよび方法の完全で詳細な説明を開示したものがある(例えば、特許文献1参照)。また、トレーニングコーパス内の語ペアの間の統計的な語関連度を示すスコアを提供する語関連メトリック(metric)として、対数尤度比を使用することを開示したものがある(例えば、非特許文献2参照。)。
米国特許第5,966,686号明細書 Dunning, Accurate Methods for the Statistics of Surprise and Coincidence, Computational Linguistics, 19(1):61-74(1993)
従来のシステムには上述したような種々の問題があり、したがって、機械トランスレータの正確さを保ちながら、または向上させながら、最小限の費用で大量の翻訳済みデータを使用して機械トランスレータをトレーニングすることが望ましい。
本発明は、このような課題に鑑みてなされたもので、その目的とするところは、他の機械トランスレータによって生成されたテキスト入力を使用してトレーニングされる機械トランスレータを実現する、機械トランスレータをトレーニングする方法およびそのシステムを提供することにある。
本発明は、他の機械トランスレータによって導出されたテキスト入力によってトレーニングされる機械トランスレータを対象とする。第1の言語におけるテキスト入力が、ユーザまたは他のソースによって与えられる。次に、このテキスト入力が、機械トランスレータによって翻訳され、第2の言語でそのテキスト入力の翻訳済みバージョンを生成する。この翻訳に使用される機械トランスレータは、人間が作成した整列済みの二言語コーパスを使用してトレーニングされた、または対訳辞書を使用してトレーニングされた、あるいはその両方を使用してトレーニングされた従来技術タイプの機械トランスレータである。
テキスト入力とそのテキストの翻訳済みバージョンがともに整列コンポーネントに与えられる。この整列コンポーネントは、トレーニングアーキテクチャの一部であることも、スタンドアロンコンポーネントであることも可能である。整列コンポーネントは、テキスト入力における語または句をそのテキスト入力の翻訳済みバージョン内の語および句とペアにする。次に、それらのペアが論理形態に変換される。テキスト入力に関するペアの導出に続き、ペアは、トレーニングアーキテクチャによって処理される。機械トランスレータからのテキスト入力は、人間が作成したソースまたは対訳辞書からのデータで補足することができる。
トレーニングアーキテクチャは、欠陥のある入力からさえも妥当な論理形態を生じさせる堅牢なパーサの使用を介して、機械トランスレータによって生成された不完全な翻訳から学習するように構成される。トレーニングアーキテクチャは、ソース言語における論理形態、または論理形態の部分を、第2の言語における論理形態、または論理形態の部分にリンクする転写マッピングを含む転写マッピングデータベースを構築する。転写マッピングデータベースが作成されると、結果が第2の機械トランスレータに与えられる。
第2の機械トランスレータは、トレーニングアーキテクチャによって開発された転写マッピングを使用して、テキスト入力を第1の言語から第2の言語に翻訳するように構成される。翻訳プロセス中、テキスト入力がソース言語で第2の機械トランスレータに与えられる。第2の機械トランスレータは、そのテキスト入力を受け取り、解析コンポーネントを使用してテキスト入力における各語に関するソース論理形態を生成する。
ソース論理形態の生成に続き、第2の機械トランスレータ内部のマッチングコンポーネントが、ソース論理形態を転写マッピングデータベース内の論理形態と対応させる。次に、ソース論理形態のノード上で対応する目標論理形態セグメントのコピーに対するリンクが作成される。次に、リンク済み論理形態のトップダウン(top down)のトラバーサル(traversal)を実行することによって目標論理形態が作成される。ソース論理形態ノード上のリンクによってポイントされる目標論理形態セグメントが結合される。マッピングプロセスに続き、目標論理形態が目標文にマップされ、テキスト入力の翻訳が生成されて、目標言語で第2の機械トランスレータから出力される。
以上説明したように本発明によれば、他の機械トランスレータによって生成されたテキスト入力を使用してトレーニングされる機械トランスレータを実現できる。
以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。図1は、本発明を実装することができる適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の用途または機能の範囲に関して何ら限定を示唆するものではない。また、コンピューティングシステム環境100が、例示的な動作環境であるコンピューティングシステム環境100において例示したコンポーネントのいずれか1つ、またはいずれかの組み合わせに関連する依存関係または要件を有するものと解釈してはならない。
本発明は、多数の他の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成でも機能する。本発明で使用するのに適する可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境等が含まれるが、以上には限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な状況において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等が含まれる。また、本発明は、通信ネットワークを介してリンクされたリモートの処理デバイスによってタスクが実行される分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルのコンピュータ記憶媒体とリモートのコンピュータ記憶媒体の両方の中に配置されることが可能である。
図1を参照すると、本発明を実装するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110のコンポーネントには、プロセッサ120、システムメモリ130、ならびにシステムメモリからプロセッサ120までを含む様々なシステムコンポーネントを結合するシステムバス121が含まれることが可能であるが、以上には限定されない。システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかであることが可能である。例として、限定としてではなく、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110がアクセスすることができる任意の利用可能な媒体であることが可能であり、揮発性媒体と不揮発性媒体、リムーバブル媒体とノンリムーバブル媒体がともに含まれる。例として、限定としてではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことが可能である。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の格納のために任意の方法または技術で実装された揮発性媒体と不揮発性媒体、リムーバブル媒体とノンリムーバブル媒体がともに含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM(electrically erasable programmable read-only memory)、フラッシュメモリまたは他のメモリ技術、CD(compact disc)−ROM、DVD(Digital Versatile Disc)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは所望の情報を格納するのに使用することができ、コンピュータ110がアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。通信媒体は、通常、搬送波などの変調されたデータ信号、または他のトランスポート機構でコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを具体化し、あらゆる情報配信媒体が含まれる。「変調されたデータ信号」という用語は、信号内に情報をエンコードするような仕方で特性の1つまたは複数が設定または変更されている信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、RF(radio frequencies)媒体、赤外線媒体、およびその他の無線媒体などの無線媒体が含まれる。また、前述した媒体のいずれかの組み合わせも、コンピュータ可読媒体の範囲に含まれるべきものである。
システムメモリ130は、読み取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。始動中などにコンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(Basic Input/Output System)133が、通常、ROM131の中に記憶されている。RAM132は、通常、プロセッサ120によって即時にアクセス可能であり、かつ/または現在、処理されているデータおよび/またはプログラムモジュールを含む。例として、限定としてではなく、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示している。
また、コンピュータ110は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性のコンピュータ記憶媒体も含むことが可能である。単に例として、図1は、ノンリムーバブル不揮発性の磁気媒体に対して読み取りまたは書き込みを行うハードディスクドライブ141、リムーバブル不揮発性の磁気ディスク152に対して読み取りまたは書き込みを行う磁気ディスクドライブ151、およびCD−ROMまたは他の光媒体などのリムーバブル不揮発性の光ディスク156に対して読み取りまたは書き込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができる他のリムーバブル/ノンリムーバブルな揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、DVD、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM等が含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インタフェース140のようなノンリムーバブルメモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インタフェース150のようなリムーバブルメモリインタフェースでシステムバス121に接続される。
前述し、図1に示すドライブおよび関連するコンピュータ記憶媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストレージがコンピュータ110に提供される。図1では、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納しているのを示している。以上の構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。
ユーザは、キーボード162、マイクロホン163、ならびにマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161などの入力デバイスを介して、コマンドおよび情報をコンピュータ110に入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が含まれることが可能である。以上の入力デバイス、およびその他の入力デバイスは、しばしば、システムバスに結合されたユーザ入力インタフェース160を介してプロセッサ120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインタフェースおよびバス構造で接続してもよい。また、モニタ191、または他のタイプのディスプレイデバイスも、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インタフェース195を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力デバイスも含むことが可能である。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含む。図1に描いた論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインタフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172、またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム172は、ユーザ入力インタフェース160、またはその他の適切な機構を介してシステムバス121に接続されることが可能である。ネットワーク化された環境では、コンピュータ110に関連して描いたプログラムモジュール、またはプログラムモジュールの部分は、リモートのメモリ記憶装置の中に格納されることが可能である。例として、限定としてではなく、図1は、リモートのアプリケーションプログラム185が、リモートコンピュータ180上に常駐しているのを示している。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。
論理形態は本発明に必須ではないが、図2Aに示した機械翻訳アーキテクチャに関連して説明する。したがって、そのアーキテクチャを詳細に説明するのに先立ち、論理形態の簡単な説明が役立つ。論理形態、ならびに論理形態を生成するためのシステムおよび方法の完全で詳細な説明は、1999年10月12日にHeidorn他に発行された「構文ツリーから意味論理形態を計算するための方法およびシステム(METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES)」という名称の特許文献1で見ることができる。ただし、手短に述べると、論理形態は、入力テキストに対して形態解析(morphological analysis)を実行して文法関係で強化された(augmented)従来の句構造解析を生成することによって生成される。構文解析は、テキスト入力における内容語の間におけるラベル付き依存関係を記述するグラフ構造である論理形態を導出するため、さらなる処理を経る。論理形態は、ある構文上の交代(例えば、能動/受動)を正規化し、文中の前方照応(intrasentential anaphora)と遠距離の依存関係をともに解決する。
具体的には、論理関係は、方向関係タイプ(例えば、部分、時間、上位語、論理主語、原因、分野、場所、様態、題材、手段、修飾語、所有者、目的、準上位語(Quasihypernym)、同義語、論理目的語、および使用者)によってつなげられた2つの語から成る。論理形態は、文などの単一のテキスト入力を表す接続された論理関係のグラフである。論理形態は、最低限で1つの論理関係から成る。論理形態は、構造上の関係(すなわち、構文関係および意味関係)、特に入力ストリング内の重要な語の間における論証(argument)関係および/または付加関係を描く。
機械翻訳アーキテクチャの1つの例示的な実施形態では、構文解析から論理形態を構築する特定のコードは、機械翻訳システムが操作する様々なソース言語および目標言語にわたって共用される。共用アーキテクチャにより、異なる言語からの論理形態セグメントを整列させる作業が大幅に単純化される。というのは、2つの言語における表面的に異なる構造が、しばしば、類似した論理形態表現または同一の論理形態表現に縮約されるからである。
図2Aは、本発明の一実施形態による機械トランスレータをトレーニングするための例示的なアーキテクチャを示している。図2Bは、トレーニングプロセス中に実行されるステップを示す流れ図である。図2Aおよび2Bは一緒に説明する。トレーニングシステム200は、入力テキスト210、第1の機械トランスレータ220、翻訳ペア230、トレーニングアーキテクチャ240、および第2の機械トランスレータ250を含む。オプションとして、トレーニングシステム200は、追加の機械トランスレータ222および224、人間が作成した二言語コーパス270、および対訳辞書260を含むことが可能である。機械トランスレータ250は、第1の機械トランスレータ220が通常の従来技術のトレーニング方法を使用してトレーニングされるのに対して、他の機械トランスレータからのトレーニングデータを使用してトレーニングされることを除けば、第1の機械トランスレータ220と同様である。機械トランスレータ250の動作は、図4および5に関連してより詳細に説明する。
第1の機械トランスレータ220は、一実施形態では、任意の現在、存在する機械トランスレータであることが可能である。ただし、他の機械トランスレータを第1の機械トランスレータ220として使用することもできる。第1の機械トランスレータ220が、第1の(またはソース)言語でテキスト入力210を受け取る。これをステップ290で示している。このテキスト入力210は、機械トランスレータ220に関する内部プログラミング構造に従ってソース言語から目標言語に(例えば、ドイツ語から英語に、またはスペイン語から英語に)翻訳される。これをブロック291で示している。テキスト入力210の翻訳済みバージョンが、ブロック292で翻訳済みテキスト221として機械トランスレータ220から出力される。第1の機械トランスレータ220によるテキスト入力210の翻訳に続き、テキスト入力210と出力221を互いに結合してテキスト入力に関する翻訳ペア230が導出される。これをブロック293で示している。ブロック293における翻訳ペア230を導出する方法の説明的な例を以下に説明する。ただし、翻訳ペア230を導出する他の方法を使用することもできる。さらに、一実施形態では、翻訳ペア230の生成は、トレーニングアーキテクチャ240のコンポーネントである。ただし、トレーニングアーキテクチャ240の構成およびプログラミングに応じて、翻訳ペア230の生成は、トレーニングアーキテクチャ240とは別個のコンポーネントを介して達せられることが可能である。
例示として翻訳ペア230は、一実施形態では、整列された二言語コーパスから生成される。二言語コーパスは、テキスト210および221からの整列された翻訳済みの文(例えば、ドイツ語などの他方のソース言語または目標言語における翻訳と整列された、英語などのソース言語または目標言語における文)を含む。ペアリング(pairing)中、文は、整列された二言語コーパスからトレーニングアーキテクチャ240にテキスト入力210からのソース文(翻訳されるべき文)、および翻訳済みテキスト221からの目標文(ソース文の翻訳)として送り込まれる。
整列されたコーパスは、解析されて構成語(例えば、前述した見出し語、ただし、表層形態で保持することも可能である)になる。整列されたコーパスは、解析されてソース論理形態および目標論理形態になる。ただし、本発明は、解析されて論理形態になったテキスト入力に対して操作を行うことに限定されるのではなく、単に整列されたコーパスが解析されて内容語にされるだけでよい。さらに、ある語彙的な複合語は、あたかも単独の単位であるかのように識別されることが可能である。そのような複数語表現が語彙目録に入れられた場合、それらは特定の意味または用法を有するため、あるいは固有名、場所の名前、時間表現、日付、度量表現などのいくつかの一般的なカテゴリの1つに入るため、複数語として識別される。
次に、整列された解析済みの二言語コーパス内の個々の語ペアに関する語関連度スコア(word association score)が計算される。トレーニングコーパス内の語ペアの間の統計的な語関連度を示すスコアを提供する任意の語関連メトリック(metric)を使用することができる。例えば、非特許文献1でダニング(Dunning)により説明される対数尤度比を使用することができる。
また、関連度スコアが計算される語ペアのリストを剪定する(prune)こともできる。言い換えれば、語関連度スコアを計算するプロセスにより、大型のトレーニングコーパスに関する多数の語(または見出し語)ペアの関連度スコアが生成される。したがって、1つの例示的な実施形態では、語ペアのセットは、翻訳ペア230として考慮される少なくともいくらかの可能性を有するペアにさらなる処理を限定するように剪定される。1つの例示的なヒューリスティックは、1回の同時出現(co−occurence)に加え、それぞれ別の1回の出現を有する語または見出し語のペアの関連の度合いになるようにその閾値を設定する。
次に、トレーニングデータにおける複合語の出現が仮定され、単一のトークンで置き換えられる。書き換え済みの入力テキスト(すなわち、複合語およびあらゆる残りの個々の語)に関する関連度スコアが再計算され、書き換えられる。
次に、関連度スコアが再び再計算される。ただし、今度は、整列された文において同等に強力な、またはより強力な他の関連が存在しない同時出現だけが考慮に入れられる。言い換えれば、トレーニングデータにおいて翻訳に必要とされる複合語のすべてが、単独のアイテムとして正しく識別され、再定式化(reformulate)されているものと想定すると、あたかもすべての翻訳が1対1であるかのようにトレーニングデータを扱うことができる。したがって、ランク付けされた翻訳ペアの最終セットは、所与の整列された文ペアにおいて真の翻訳ペアが常に互いに最も強力に関連しているという想定で選択される。次に、関連の最終セットが、関連の強度に従って高い順に並べ替えられる。
最後に、最終リストの中で閾値を上回る関連度スコアを有する語および/または複合語のペアが、互いの翻訳として識別される。閾値は、経験的に選択されること、または最終ペアリストの中で与えられる結果の言語解析に基づいて選択されること、または別の所望の技術を使用して選択されることが可能である。
図2Aおよび2Bを再び参照すると、テキスト入力210に関する翻訳ペア230の導出に続き、ペアは、トレーニングアーキテクチャ240によって処理される。これをブロック294で示している。一実施形態では、トレーニングアーキテクチャ240は、欠陥のある入力からさえも妥当な論理形態を生じさせる堅牢なパーサの使用を介して、機械トランスレータ220によって生成される不完全な翻訳から学習することができる。トレーニングアーキテクチャ240は、1つの言語における論理形態、または論理形態の部分を第2の言語における論理形態、または論理形態の部分にリンクすることを基本的に行う転写マッピングを含む転写マッピングデータベースを構築する。
転写マッピングデータベースが作成されると、ブロック295で結果が、機械トランスレータ250に与えられる。機械トランスレータ250をトレーニングするのに使用することができる1つの例示的なトレーニングアーキテクチャ240の簡単な説明を以下に提供し、図3に関連して説明する。ただし、機械トランスレータ250をトレーニングする他の方法も使用することができる。
図3は、本発明の1つの例示的な実施形態によるトレーニングアーキテクチャ240のブロック図である。トレーニングアーキテクチャ240は、解析コンポーネント304および306、統計的語関連度学習コンポーネント(ラーナ;learner)308、論理形態(LF;logical form)整列コンポーネント310、語彙知識ベース構築コンポーネント312、対訳辞書314、辞書結合コンポーネント316、転写マッピングデータベース(MINDNET)318、および更新済み対訳辞書320を含む。
前述したとおり、システムをトレーニングするのに二言語コーパスが使用される。二言語コーパスは、整列された翻訳済みの文(例えば、スペイン語またはフランス語などの他方のソース言語または目標言語における翻訳と整列された英語などのソース言語または目標言語における文)を含む。トレーニング中、文が、整列された二言語コーパスからトレーニングアーキテクチャ240にソース文330(翻訳されるべき文)および目標文332(ソース文の翻訳)として送り込まれる。解析コンポーネント304および306は、整列された二言語コーパスからの文を解析してソース論理形態334および目標論理形態336を生成する。解析中、文中の語は、正規化された語形態(見出し語)に変換される。本明細書で使用する「見出し語(lemma)」という用語は、内容語の語幹または語根(root word)を指す。例えば、「sleep」が、「sleep」、「sleeping」、および「slept」という表層形態(surface form)の見出し語である。トレーニングアーキテクチャを内容語の見出し語にではなく表層形態に適用することもできるが、いくぶんパフォーマンスが低下する可能性があることに留意されたい。いずれにしても、見出し語は、次に、統計的語関連度学習コンポーネント308に送り込まれる。単独語の関連度と複数語の関連度がともに、それぞれの信頼できるセットが獲得されるまで、学習コンポーネント308によって反復的に仮定され、スコアが付けられる。統計的語関連度学習コンポーネント308は、学習済みの単独語翻訳ペア338および複数語ペア340を出力する。
複数語ペア340は、追加のエントリを対訳辞書314に追加して更新済み対訳辞書320を形成するのに使用される辞書結合コンポーネント316に与えられる。新たなエントリは、複数語ペア340を表す。
単独語ペア338、ならびにソース論理形態334および目標論理形態336は、論理形態整列コンポーネント310に与えられる。コンポーネント310はまず、ソース論理形態334におけるノードと目標論理形態336におけるノードの間で試験的な語彙対応を確立する。これは、統計的語関連度学習コンポーネント308からの単独語翻訳ペア338で強化された二言語語彙目録(または対訳辞書)314からの翻訳ペアを使用して行われる。可能な対応を確立した後、整列コンポーネント310は、語彙的特徴と構造的特徴の両方に従って論理形態ノードを整列させ、論理形態転写マッピング342を生成する。
基本的に、整列コンポーネント310は、対訳辞書314の情報および単独語ペア338を使用して論理形態間のリンクを作成する。転写マッピングは、ソース論理形態334および目標論理形態336において見出される頻度に基づいてフィルタ処理され、語彙知識ベース構築コンポーネント312に与えられる。
一例では、転写マッピングは、トレーニングデータにおいて少なくとも2回、見られない場合、転写マッピングデータベース318を構築するのに使用されない。ただし、任意の他の所望の頻度をフィルタとして使用することもできる。また、出現頻度以外の他のフィルタリング技術も使用できることに留意されたい。例えば、転写マッピングは、入力文の完全な解析から形成されているかどうか、および転写マッピングを作成するのに使用された論理形態が完全に整列しているかどうかに基づいてフィルタ処理することができる。
コンポーネント312が、1つの言語における論理形態、または論理形態の部分を第2の言語における論理形態、または論理形態の部分にリンクすることを基本的に行う転写マッピングを含む転写マッピングデータベース318を構築する。
代替の実施形態では、追加の機械トランスレータの使用を介して追加の翻訳ペア230が生成されることが可能である。図2Aを再び参照すると、機械トランスレータ222および224が、その追加の機械トランスレータを表している。機械トランスレータ222および224は、第1の機械トランスレータ220とは異なる機械トランスレータである。テキスト入力212および214が、それぞれ、機械トランスレータ222および224に与えられる。テキスト入力212および214は、テキスト入力210と同一であることも、テキスト入力210とは異なることも可能である。機械トランスレータ220、222、および224のそれぞれに関して同一のテキスト入力を使用することにより、トレーニングアーキテクチャ240が、語に対する正しい翻訳を学習することができるようになる。
機械トランスレータ222および224は、テキスト入力212および214に対する翻訳を生成する。その翻訳をブロック223および225で表している。機械トランスレータ222および224は機械トランスレータ220とは異なるので、同一のテキスト入力に対して異なる翻訳結果に達する可能性がある。翻訳のこの相違は、しばしば、機械トランスレータのそれぞれが受けたトレーニングに起因する。しばしば、機械トランスレータは、別の機械トランスレータが扱うように設計されていない特定の件のテキストを扱うために生成される。
また、トレーニングアーキテクチャ240を使用して機械トランスレータ250をトレーニングする際、翻訳済みデータのオプションの追加のソースがトレーニングアーキテクチャに与えられる可能性がある。その追加のデータは、人間が作成した二言語コーパス270、および対訳辞書260を含む可能性がある。人間が作成した二言語コーパスは、機械トランスレータをトレーニングするのに使用される通常の方法である。コーパスは、一般に、国会討論などの議事録や契約書の翻訳済みバージョンであるが、任意の翻訳済みテキストであることが可能である。対訳辞書260は、一般に、ソース言語と目標言語における語の等価物(例えば、ドイツ語の「Fenster」は、英語の「Window」である)をリストする辞書である。その追加のデータが存在する場合、トレーニングアーキテクチャは、二言語コーパス270および対訳辞書260によって与えられる情報を評価し、テキスト入力210に対して生成される翻訳ペア230に関して使用されるのと同じプロセスを使用して機械トランスレータをトレーニングする。
トレーニングアーキテクチャ240を介する機械トランスレータ250のトレーニングに続き、翻訳マッピングが、オプションのトレーニング後編集コンポーネント275によって編集されることが可能である。トレーニング後編集コンポーネント275は、語彙知識ベース内の無効な語彙情報またはリンクを削除することによってマッピングを編集することができる。
図4は、図2Aに示した機械トランスレータ250を含むコンポーネントを示している。機械トランスレータ250は、解析コンポーネント410、マッチングコンポーネント420、転写コンポーネント430、および生成コンポーネント440を含む。以上のコンポーネントは、機械翻訳がテキスト入力を翻訳しているときに呼び出される。
解析コンポーネント410は、ソース文406を受け取り、そのソース文入力に基づいてソース論理形態412を作成するように構成されている。このソース論理形態412は、マッチングコンポーネント420に与えられる。
マッチングコンポーネント420は、ソース論理形態412を図3の転写マッピングデータベース318内の論理形態に対応させるように構成されている。転写マッピングデータベース318内で情報が対応付けされると、マッチングコンポーネント420は、ソース論理形態412に対するリンク済み論理形態422を獲得する。複数の転写マッピングがソース論理形態412の部分に対応する可能性がある。マッチングコンポーネント420は、対応する見出し語、品詞、および他の特徴情報を有するデータベース318内の対応する転写マッピングの最良セットを探索する。より大きい(より詳細な)転写マッピングが、例として、より小さい(より一般的な)転写マッピングより優先される可能性がある。同等サイズのマッピングの間で、マッチングコンポーネント420は、例として、より高い頻度のマッピングを優先する可能性がある。また、マッピングにより、ソース論理形態412の重なり合う部分が、全く競合しないという条件付きで対応付けされる可能性もある。
また、マッチングコンポーネント420は、転写マッピングによって受け取られた対応する目標論理形態セグメントのコピーに対するリンクをソース論理形態412のノード上で作成して、リンク済み論理形態422を生成するようにも構成される。
転写コンポーネント430は、マッチングコンポーネント420からリンク済み論理形態422を受け取るように構成される。また、転写コンポーネント430は、目標翻訳の基礎を形成する目標論理形態432を作成するようにも構成される。これは、リンク済み論理形態422のトップダウンの走査(traversal)を実行することによって行われ、このトラバーサルにおいて、ソース論理形態412ノード上のリンクによってポイントされる目標論理形態セグメントが結合される。複雑である可能性がある複数語マッピングに関して論理形態セグメントを一緒に結合する際、マッチングコンポーネント420によって設定された個々のノード間のサブリンクを使用して、修飾語等に関する正しい付着点が判定される。必要な場合、デフォルトの付着点が使用される。
適用可能な転写マッピングが見つからない場合、ソース論理形態412におけるノード、およびノードの関係が、単に目標論理形態432にコピーされる。それらのノードに対して転写マッピングデータベース318内でデフォルトの単独語翻訳がそれでも見つかり、目標論理形態432に挿入される可能性がある。ただし、何も見つからない場合、翻訳は、例として、整列中に使用された更新済み対訳辞書320から獲得される可能性がある。
生成コンポーネント440は、例として、目標論理形態432から目標ストリングにマップする(または目標文を出力する)規則ベースのアプリケーション独立の生成コンポーネントである。生成コンポーネント440は、例として、入力論理形態のソース言語に関する情報を全く有さないことが可能であり、転写コンポーネント430によってコンポーネント440に送られた情報を排他的に処理する。生成コンポーネント440は、例として、その情報を一言語(例えば、目標言語に関する)辞書と併せて使用して目標文446を生成することも行う。したがって、各言語に関して1つの汎用生成コンポーネント440だけで十分である。
図5は、翻訳のためにテキスト入力が与えられた際に機械トランスレータ250によって実行されるステップを示す流れ図である。図5は、図4のコンポーネントを参照して説明する。
テキスト入力406がシステム250に提供される。テキスト入力406は、ユーザがソース言語から目標言語に翻訳することを所望する、ドキュメントまたは他のテキストの、書かれたバージョン(written version)である。例えばテキスト入力406は、「Para obtener mas informacion acerca de WSH,consulte Windows(登録商標)Script Host」であることが可能である。以上の機械トランスレータ250にテキスト入力を与えることをブロック510で示している。
ブロック520で、機械トランスレータ250が、テキスト入力406を受け取り、テキスト入力406をスペイン語から英語に翻訳する準備をする。ただし、翻訳のために他の言語を使用することもできる。次に、解析コンポーネント410によってテキスト入力406における各語に関してソース論理形態が生成される。これをブロック530で示している。
ソース論理形態の生成に続き、マッチングコンポーネントが、ソース論理形態を転写マッピングデータベース内の論理形態と対応させる。これをブロック540で示している。対応する目標論理形態セグメントのコピーに対するリンクが、ソース論理形態のノード上で作成される。これをブロック550で示している。目標論理形態は、リンク済み論理形態のトップダウンのトラバーサルを実行することによって作成される。ソース論理形態ノード上のリンクによってポイントされる目標論理形態セグメントが結合される。これをブロック560で示している。転写マッピングが全く見つからない場合、機械トランスレータは、対訳辞書から翻訳を獲得する。これをブロック570で示している。
例えば、前述した例示的なテキスト入力の処理中、「para obtener」という語群が、「to obtain」としてリンクされる。これに対して、従来技術の機械トランスレータでは、「para」という語が「in order」としてリンクされ、「obtener」という語が「to obtain」としてリンクされる。さらに、「informacion」という語が、本発明では、「information」にリンクされ、従来の技術では、「data」にリンクされる。この2つの機械トランスレータ間における語のリンク付けおよびマッピングのこの違いは、機械トランスレータのそれぞれに関するトレーニング方法の違いに起因する。
マッピングプロセスに続き、目標論理形態が目標文446にマップされる。したがって、例示的な文は、機械トランスレータ250により、従来技術の機械トランスレータから獲得される翻訳である「In order to obtain more data about WSH,it consults Windows(登録商標)Script Host」ではなく、「To obtain more information about WSH,consult Windows(登録商標)Script Host」と翻訳される。この翻訳をブロック580に示している。翻訳は、ステップ590でユーザに出力される。
本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことが可能なことが、当業者には認識されよう。
本発明を適用できる実施形態の一環境を示すブロック図である。 本発明を適用できる実施形態のトレーニングアーキテクチャを示すブロック図である。 本発明を適用できる実施形態のトレーニングプロセス中に実行されるステップを示す流れ図である。 本発明を適用できる実施形態のトレーニングアーキテクチャを示すブロック図である。 本発明を適用できる実施形態の図2Aに示した機械トランスレータをより詳細に示すブロック図である。 本発明を適用できる実施形態の翻訳のためにテキスト入力が与えられた際に機械トランスレータによって実行されるステップを示す流れ図である。
符号の説明
210、212、214 テキスト入力
220、222、224、250 機械トランスレータ
221、223、225 翻訳済みテキスト
230 翻訳ペア
240 トレーニングアーキテクチャ
260 対訳辞書
270 人間が作成した二言語コーパス
275 トレーニング後編集コンポーネント

Claims (12)

  1. 入出力装置とメモリとプロセッサとを含むコンピュータと該コンピュータにより実行される命令を含んだコンピュータプログラムを持つ機械トランスレータをトレーニングする方法であって、
    前記入出力装置により、第1の言語における第1のテキスト入力を与えるステップと、
    前記プロセッサにより、第1の入力機械トランスレータを使用して前記第1のテキスト入力を第2の言語に翻訳するステップであって、前記第1の言語における前記第1のテキスト入力と前記第2の言語における前記第1のテキスト入力の前記翻訳とを一緒にして、第1の翻訳ペアを形成するものであるステップと、
    ペアリングコンポーネントを使用して、前記第1のテキスト入力内の語又は句を前記第1のテキスト入力の翻訳内の語又は句と整列させることにより、前記第1の翻訳ペア内の語または句を整列させるステップと、
    前記プロセッサにより、前記第1の翻訳ペアをトレーニングデータとして使用して前記機械トランスレータを前記第1の言語における入力から前記第2の言語における出力へ翻訳するためにトレーニングするステップと、
    機械翻訳の実行に使用するために、前記機械トランスレータのコンポーネントとして前記トレーニングの結果を出力するステップであって、前記第1のテキスト入力を表す言語的構造の部分を前記テキスト入力の前記翻訳を表す言語的構造の部分にマップする、転写マッピングコンポーネントを出力するステップと、
    を備えることを特徴とする方法。
  2. 前記機械トランスレータをトレーニングするステップは、
    前記第1言語のテキストと該テキストの前記第2言語の翻訳とを持つ人間が作成した二言語コーパスを与えるステップと、
    前記第1の翻訳ペアおよび前記人間が作成した二言語コーパスからの翻訳関係を学習することにより前記機械トランスレータをトレーニングするステップとをさらに含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記第1の言語における第2のテキスト入力を与えるステップと、
    第2の入力機械トランスレータを使用して前記第2のテキスト入力を第2の言語に翻訳するステップであって、前記第1の言語における前記第2のテキスト入力と前記第2の言語における前記第2のテキスト入力の前記翻訳とを一緒にして、第2の翻訳ペアを形成するステップと、
    前記第1の翻訳ペアおよび前記第2の翻訳ペアをトレーニングテータとして使用して前記機械トランスレータを前記第1の言語における入力から前記第2の言語における出力へ翻訳するためにトレーニングするステップと
    をさらに備えることを特徴とする請求項1に記載の方法。
  4. 前記機械トランスレータをトレーニングするステップは、前記第1のテキスト入力を語彙的に解析してデータ構造を示す前記第1のテキスト入力中の語又は句の間の、固有名詞、場所の名前、時間表現、日付、度量表現などのいくつかの一般的なカテゴリの1つ又は特定の意味又は使用を含んだ複合語の、語彙的依存性を表す依存関係構造を獲得するステップをさらに含む
    ことを特徴とする請求項1に記載の方法。
  5. 第1の言語から第2の言語にテキスト入力を翻訳するためのシステムであって、
    前記第1の言語におけるトレーニングテキスト入力および前記第2の言語における前記トレーニングテキスト入力の翻訳済みバージョンを受け取るように構成され、前記第1の言語の語又は句とペアを構成する前記第2の言語の前記語又は句の翻訳を有する対訳辞書コンポーネント、および、前記トレーニングテキスト入力及び前記トレーニングテキスト入力の翻訳済みのバージョンに基づいて、前記トレーニングテキスト入力を表す言語構造の部分を前記トレーニングテキスト入力の前記翻訳済みバージョンを表す言語的構造の部分へマップする転写マッピングコンポーネント、を作成するようにも構成されたトレーニングコンポーネントと、
    前記トレーニングテキスト入力における語または句をトレーニングテキスト入力の前記翻訳済みバージョンにおける語または句とペアにするように構成された整列コンポーネントであって、前記整列コンポーネントは、トレーニングテキスト入力及び前記翻訳済みバージョンから生成された論理形態にアクセスすることによって、前記トレーニングテキスト入力中の語又は句を前記翻訳済みバージョンの語又は句とペアにする前記整列コンポーネントと、
    前記第1の言語における前記テキスト入力を受け取り、前記対訳辞書コンポーネントおよび前記転写マッピングコンポーネントによって与えられる情報に基づいて前記第2の言語において前記テキスト入力の翻訳を出力するように構成された機械翻訳コンポーネントとを備え、
    前記第2の言語における前記トレーニングテキスト入力の前記翻訳済みバージョンが、前記トレーニングテキスト入力を前記第2の言語に翻訳する外部機械トランスレータによって生成される
    ことを特徴とするシステム。
  6. 前記第2の言語における語に関連する前記第1の言語における語を含み、前記トレーニングコンポーネントによりアクセスされるように構成された追加の対訳辞書
    をさらに備えたことを特徴とする請求項5に記載のシステム。
  7. 前記第2の言語における前記テキストの人間が翻訳したバージョンを有し、前記トレーニングコンポーネントによりアクセスされるように構成された、人間が作成した二言語テキスト
    をさらに備えたことを特徴とする請求項5に記載のシステム。
  8. 前記トレーニングコンポーネントは、複数の外部機械トランスレータから前記トレーニングテキスト入力の前記翻訳済みバージョンを受け取るように構成されている
    ことを特徴とする請求項5に記載のシステム。
  9. 前記機械翻訳コンポーネントは、前記トレーニングテキスト入力の語および句の、固有名詞、場所の名前、時間表現、日付、度量表現などのいくつかの一般的なカテゴリの1つ又は特定の意味又は使用を含んだ複合語の、語彙的依存性を示す論理形態を生成するように構成されていることを特徴とする請求項5に記載のシステム。
  10. 機械トランスレータをトレーニングするためのシステムであって、
    トレーニング入力を翻訳するように構成された第1の機械トランスレータと、
    前記トレーニング入力の翻訳済みバージョンおよび前記翻訳入力を受け取るように構成され、前記機械トランスレータが使用可能なコンポーネントを生成するように構成されたトレーニングアーキテクチャと、
    前記第1の翻訳ペアの中の語または句とペアにするように構成された整列コンポーネントであって、前記整列コンポーネントは、前記トレーニングアーキテクチャに整列された語または句を提供するように構成されていて、前記整列コンポーネントは前記翻訳済みバージョンと前記トレーニングテキスト入力とから生成された論理的フォームをアクセスすることにより、前記翻訳済みバージョン中の語又は句を前記トレーニングテキスト入力中の語又は句とペアにする前記整列コンポーネントと、を備え、
    前記トレーニング入力および前記トレーニング入力の前記翻訳済みバージョンは、前記コンポーネントを生成する際にトレーニングデータとして使用される第1の翻訳ペアを形成する
    ことを特徴とするシステム。
  11. 第1の言語の語及び第2の言語の語の対応する翻訳とを有する対訳辞書コンポーネントと、
    前記第1の言語のテキスト及び前記第2の言語の該テキストの人間の翻訳を有する人間が作成した二言語コーパスとをさらに備え、
    前記トレーニングアーキテクチャは、前記第1の翻訳ペア、前記対訳辞書、および前記人間が作成した二言語コーパスに基づいて前記コンポーネントを生成するようにさらに構成されている
    ことを特徴とする請求項10に記載のシステム。
  12. 前記第1の機械トランスレータは、前記トレーニング入力の別個の翻訳済みバージョンを前記トレーニングアーキテクチャにそれぞれが与える複数の機械トランスレータを含むことを特徴とする請求項10に記載のシステム。
JP2004156806A 2003-05-27 2004-05-26 機械トランスレータをトレーニングする方法およびそのシステム Expired - Fee Related JP4554273B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/445,534 US7319949B2 (en) 2003-05-27 2003-05-27 Unilingual translator

Publications (2)

Publication Number Publication Date
JP2004355625A JP2004355625A (ja) 2004-12-16
JP4554273B2 true JP4554273B2 (ja) 2010-09-29

Family

ID=33131538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156806A Expired - Fee Related JP4554273B2 (ja) 2003-05-27 2004-05-26 機械トランスレータをトレーニングする方法およびそのシステム

Country Status (6)

Country Link
US (1) US7319949B2 (ja)
EP (1) EP1482416B1 (ja)
JP (1) JP4554273B2 (ja)
KR (1) KR101099177B1 (ja)
CN (2) CN1573740A (ja)
BR (1) BRPI0401815A (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
ES2238593T3 (es) * 2001-09-12 2005-09-01 Matsushita Electric Industrial Co., Ltd. Procedimiento de descodificacion de imagenes.
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US20080281776A1 (en) * 2004-03-03 2008-11-13 Gautam Dharamdas Goradia Interactive System For Creating, Organising, and Sharing One's Own Databank of Pictures Such as Photographs, Drawings, Art, Sketch, Iconography, Illustrations, Portraits, Paintings and Images
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US20060282256A1 (en) * 2005-06-13 2006-12-14 Werner Anna F Translation method utilizing core ancient roots
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
WO2007070558A2 (en) * 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US20080262827A1 (en) * 2007-03-26 2008-10-23 Telestic Llc Real-Time Translation Of Text, Voice And Ideograms
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
KR100890404B1 (ko) * 2007-07-13 2009-03-26 한국전자통신연구원 음성 인식을 이용한 자동 번역 방법 및 장치
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8358691B1 (en) * 2009-10-30 2013-01-22 Adobe Systems Incorporated Methods and apparatus for chatter reduction in video object segmentation using a variable bandwidth search region
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN101908041B (zh) * 2010-05-06 2012-07-04 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种基于多代理机制的多词表达抽取系统及方法
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN103678270B (zh) * 2012-08-31 2016-08-24 富士通株式会社 语义单元抽取方法和语义单元抽取设备
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
KR101664258B1 (ko) 2015-06-22 2016-10-11 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
KR102577584B1 (ko) 2016-08-16 2023-09-12 삼성전자주식회사 기계 번역 방법 및 장치
US10803257B2 (en) * 2018-03-22 2020-10-13 Microsoft Technology Licensing, Llc Machine translation locking using sequence-based lock/unlock classification
WO2020079749A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 事例検索方法
CN111144137B (zh) * 2019-12-17 2023-09-05 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置
KR102427934B1 (ko) 2020-10-15 2022-08-02 한동대학교 산학협력단 신경망 기반의 고유명사 기호화를 이용한 번역 방법 및 그 시스템
CN112560510B (zh) * 2020-12-10 2023-12-01 科大讯飞股份有限公司 翻译模型训练方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH05298360A (ja) * 1992-04-17 1993-11-12 Hitachi Ltd 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置
CA2141221A1 (en) * 1992-09-04 1994-03-17 Jaime G. Carbonell Integrated authoring and translation system
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
JP2000222407A (ja) 1999-01-29 2000-08-11 Toshiba Corp 機械翻訳装置および機械翻訳方法
JP2001318917A (ja) 2000-05-12 2001-11-16 Sharp Corp 例文検索型第2言語作文支援装置
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words

Also Published As

Publication number Publication date
BRPI0401815A (pt) 2005-01-18
JP2004355625A (ja) 2004-12-16
KR20040102329A (ko) 2004-12-04
KR101099177B1 (ko) 2011-12-27
EP1482416B1 (en) 2017-11-15
US7319949B2 (en) 2008-01-15
EP1482416A2 (en) 2004-12-01
CN1573740A (zh) 2005-02-02
CN101673260A (zh) 2010-03-17
US20040243390A1 (en) 2004-12-02
EP1482416A3 (en) 2006-08-16

Similar Documents

Publication Publication Date Title
JP4554273B2 (ja) 機械トランスレータをトレーニングする方法およびそのシステム
JP4714400B2 (ja) スケーラブル機械翻訳システム
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
US7356457B2 (en) Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
JP4494706B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
KR101084786B1 (ko) 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체
EP1306775A1 (en) Machine translation
EP1351158A1 (en) Machine translation
EP1349079A1 (en) Machine translation
WO2010046782A2 (en) Hybrid machine translation
JP2008547093A (ja) モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳
JP2005507524A (ja) 機械翻訳
US20050267735A1 (en) Critiquing clitic pronoun ordering in french
Green et al. NP subject detection in verb-initial Arabic clauses
JP2000305930A (ja) 言語変換規則作成装置、言語変換装置及びプログラム記録媒体
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Prakapenka et al. Creation of a Legal Domain Corpus for the Belarusian Module in NooJ: Texts, Dictionaries, Grammars
EP1306773A1 (en) Machine translation
JP2004164672A (ja) 表現変換方法及び表現変換装置
EP1306774A1 (en) Machine translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070918

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20071218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080130

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080208

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4554273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees