JP2007157123A - 改善された中国語−英語翻訳ツール - Google Patents

改善された中国語−英語翻訳ツール Download PDF

Info

Publication number
JP2007157123A
JP2007157123A JP2006301543A JP2006301543A JP2007157123A JP 2007157123 A JP2007157123 A JP 2007157123A JP 2006301543 A JP2006301543 A JP 2006301543A JP 2006301543 A JP2006301543 A JP 2006301543A JP 2007157123 A JP2007157123 A JP 2007157123A
Authority
JP
Japan
Prior art keywords
translation
function
program
database
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006301543A
Other languages
English (en)
Other versions
JP5107556B2 (ja
Inventor
W Dunsmoir John
ジョン・ダブリュ・ダンズモワ
Chen Yanfu
イェン−フー・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007157123A publication Critical patent/JP2007157123A/ja
Application granted granted Critical
Publication of JP5107556B2 publication Critical patent/JP5107556B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 句の予め存在している翻訳の位置を発見し、固有名詞および欧米文字を別々に検索することにより一致に対する確率を増大する中国語−英語翻訳ツール(CETT)を提供すること。
【解決手段】 CETTは、拡張プログラムと、検索プログラムと、表示プログラムとを備える。CETTは、翻訳データベース、固有名詞テーブル、および一致しなかった翻訳テーブルにアクセスすることができる。翻訳データベースは、翻訳した文献の蓄積本体の中央のリポジトリである。固有名詞テーブルは、固有名詞に対する英語と中国語との間の関連を示すテーブルである。
【選択図】 図3

Description

本発明は、概して、中国語から英語へのコンピュータによる翻訳の方法、特に、節、固有名詞および文中の欧米文字の自動翻訳を改善するための方法に関する。
国際事業に対してウェブ・サービスおよびサービス指向アーキテクチャを提供している会社は、外国語を英語に翻訳するサービスを含む。自動翻訳ツールは、リアルタイムの翻訳機能を提供することができる。中国語のようなアジア系言語は、英語への自動翻訳の場合特殊な問題を抱えている。例えば、中国語から英語への現在の自動翻訳技術は、言語間の慣用語法的な違いを考慮に入れない。それ故、中国語から英語への逐語訳的自動翻訳は、通常の日常の英語に全然似ていないで、中国語の専門家による手動翻訳によらなければ正しい翻訳を行うことができない。
しかし、英語に翻訳された大量の中国文学が存在する。文学の翻訳の場合には、慣用語法を考慮に入れてきた。今日では、このように翻訳された文学はかなりの量にのぼる。これらの翻訳された文学作品は、すでに専門家により中国語から英語に英語から中国語に翻訳されている。さらに、データを高速で検索できるように、これらの翻訳をデジタル的に捕捉し、格納する技術が存在する。例えば、64ビットの計算および非常に大容量のメモリを使用することができるので、このように捕捉した翻訳を効率的に高速で検索することができる。中国文学をデジタル的フォーマットに変換するための種々の方法は、当業者とって周知のものである。
中国語は、特定の文字の順序でしっかりと構築されている言語である。中国語には、語間にスペースがないが、節を分離するためにカンマを使用し、文の終わりには終止符を使用している。語間にはスペースがなく、各文字は特定の意味を持つ。中国語のこれらの特徴のために、中国語から英語への自動翻訳のために、翻訳した文学の電子ファイルを使用できる可能性がでてくる。何故なら、大量の文学の中に一致を発生する機会が非常に高いからである。さらに、中国語は本当の意味での時制、性、格または複数を持っていないので、種々の異なる文構造の数がかなり少なくなる。
このような検索を行うことができるとしても、いくつかの問題がある。第一に、固有名詞をいくつかの方法で翻訳することができる。例えば、英語の場合、中国の大河の我々の呼び名は「Yangtze」である。しかし、中国語の場合、これはこの大河の河口に棲息する魚を意味する。実際の河自身は「Chang Jiang」と呼ばれ、文字通り「長い河」を意味する。もう1つの例は、Peking対Bei Jing、すなわち「宮殿」である。中国語は大文字を持っていないが、文の構造から固有名詞を容易に識別することができる。
第二に、現在使用されている現代中国語は、数字、名前およびウェブ・アドレスのような多くの欧米文字を文中に含んでいる。文中の欧米文字は翻訳する必要はないが、翻訳する中国語のテキスト内のその位置が分かれば、一致の可能性を低減することができる。文中の欧米文字から切り離して翻訳を行えば、この翻訳の精度を改善することができる。現代中国語は、これらのもの、特に数字を多く使用している。
現在の専門家による翻訳を利用して、中国語から英語への自動翻訳の精度を改善するツールまたは方法が求められている。さらに、このような検索への固有名詞および文中の欧米文字の影響を解決することにより、精度のさらなる改善も求められている。
上記ニーズを満たす本発明は、句の予め存在している翻訳の位置を発見し、固有名詞および欧米文字を個々に検索することにより、一致の確率を増大するための中国語−英語翻訳ツール(CETT)である。
CETTは、拡張プログラム、検索プログラムおよび表示プログラムを含む。CETTは、翻訳データベースおよび固有名詞データベースにアクセスすることができる。翻訳データベースは、翻訳した文学の蓄積した本体の中央のリポジトリである。固有名詞データベースは、固有名詞に対する英語と中国語との間の関連を示すテーブルである。
拡張プログラムは、翻訳に対する検索が漢字に全面的に焦点をあて、それにより一致に対する機会を増大するように、翻訳データベース内の翻訳した文学の蓄積した本体内の欧米文字をマーカで置き換える。拡張プログラムは、さらに、翻訳データベース内で固有名詞を識別し、固有名詞に固有名詞であることを示す他の文字でマークを付ける。固有名詞は、検索プログラムにより検索することも無視することもできる。固有名詞は、また、これら固有名詞に対する英語と中国語との間の関連を示す固有名詞テーブルにリンクしている。このテーブルは、一致が発見された後で正しい置換を示す。
検索プログラムは、翻訳した文献および辞書の蓄積した本体を含む翻訳データベースにアクセスすることができる。検索プログラムは、一致について翻訳した文献の蓄積した本体を検索する。この検索は、最初は固有名詞を除去しないで行われる。一致が発見されない場合には、固有名詞を除去するために拡張プログラムが呼び出される。一致する節が発見された場合には、表示するためにその節が選択される。翻訳が重複している場合には、表示のための両側の節も選択され、節のどのグループが最も似ている一致であるかについての判定が行われる。最もよく似ている一致であるグループからの中央の節が表示のために選択される。一致が発見できなかった場合には、逐語訳が使用され、これらのログに書き込まれる。最高レベルの学者の翻訳がこれらを正しく翻訳し、データベースが更新される。
表示プログラムは、中国語のソースおよび英語のソースの両方を並べて表示し、検索プログラムが一致していると識別するテキストを強調し、次にその翻訳を選択または確認するようにプロンプトする。表示プログラムにより、ユーザは慣用句の翻訳の一致を修正するために両側で強調したテキストを修正することができる。
CETTは、検索エンジンまたは翻訳エンジン(またはウェブ・ブラウザ)に内蔵することができるプラガブル・モジュールであってもよい。
添付の特許請求の範囲が本発明の新規であると思われる特徴を記載している。しかし、添付の図面を参照しながら、例示としての実施形態の下記の詳細な説明を読めば、本発明自身、および好適な使用モード、本発明の他の目的および利点を最もよく理解することができるだろう。
本発明の原理は、種々のコンピュータ・ハードウェアおよびソフトウェア構成に適用することができる。本明細書で使用する場合、「コンピュータ・ハードウェア」または「ハードウェア」という用語は、論理演算を受け入れ、実行することができ、データを格納し、表示することができる任意の機械または装置を意味し、プロセッサおよびメモリを非限定的に含む。「コンピュータ・ソフトウェア」または「ソフトウェア」という用語は、コンピュータ・ハードウェアにある動作を実行させるために動作することができる任意の一組の命令を意味する。本明細書で使用する場合、「コンピュータ」という用語は、任意のハードウェアおよびソフトウェアの有用な組合わせを非限定的に含み、「コンピュータ・プログラム」または「プログラム」という用語は、コンピュータ・ハードウェアに論理演算を受け入れ、実行させ、データを格納し、または表示させるために動作することができる任意のソフトウェアを非限定的に含む。コンピュータ・プログラムは、サブルーチン、モジュール、機能、方法および手順を非限定的に含む複数のもっと小さなプログラミング単位から構成することができ、多くの場合このようなプログラミング単位からなる。それ故、本発明の機能を、複数のコンピュータおよびコンピュータ・プログラム間で分散化することができる。しかし、1つまたは複数の汎用コンピュータから構成されていて、これら汎用コンピュータに本発明の新規の態様を実施させることができる1つのコンピュータ・プログラムの形で、本発明を最もうまく記述することができる。説明の便宜上、本発明のコンピュータ・プログラムを「中国語−英語翻訳ツール」(CETT)と呼ぶことにする。
さらに、図1のハードウェア・デバイスの例示としてのネットワークを参照しながら以下にCETTについて説明する。「ネットワーク」は、インターネットのような通信媒体を通して相互に結合し、通信している任意の数のハードウェア・デバイスを備える。「通信媒体」は、ハードウェアまたはソフトウェアがデータを送信することができる任意の物理的、光学的、電磁的、または他の媒体を非限定的に含む。説明の便宜上、例示としてのネットワーク100は、ワークステーション・コンピュータ105、ワークステーション・コンピュータ110、サーバ・コンピュータ115、および永続的記憶装置120を含む限られた数のノードしか有していない。ネットワーク接続125は、ネットワーク・ノード105〜120間の通信を可能にするのに必要なすべてのハードウェア、ソフトウェアおよび通信媒体を含む。下記に別段の指示がない限り、すべてのネットワーク・ノードは、ネットワーク接続125を通して相互に通信する通常入手することができるプロトコルまたはメッセージ通信サービスを使用する。
CETT200は、通常、図2のメモリ220として略図で示すメモリ内に格納される。本明細書で使用する場合、「メモリ」という用語は、コンピュータが、任意の時間の間データまたはソフトウェアを格納することができる電気回路、磁気ディスクまたは光ディスクのような任意の揮発性または永続的媒体を非限定的に含む。1つのメモリを集中的に使用することもできるし、複数の媒体に分散することもできる。それ故、図2は説明のためのものであって、メモリ220の任意の特定の物理的実施形態を必ずしも反映していない。CETT200は、拡張プログラム300、検索プログラム400および表示プログラム500を含む。さらに、メモリ220は、追加のデータおよびプログラムを含む。CETT200への特定のインポートとして、メモリ220は、翻訳データベース230、固有名詞テーブル240、および一致しなかった節のデータベース250を含む。既存の逐語訳プログラム120は、逐語訳を供給するものであり、このようなプログラムは当業者にとって周知のものである。
図3は、拡張プログラム300の論理を示す。拡張プログラム300は、開始し(ステップ302)、処理が、拡張されていない新しいデータベースに対してのものか(ステップ310)、新しいファイルを含む既存のデータベースに対してのものか(ステップ312)、更新したファイルを含む既存のデータベースに対してのものか(ステップ314)、または一致しなかった節の翻訳の更新したログを含むデータベースに対してのものか(ステップ316)について判定を行う。拡張プログラム300が、ステップ310、312、314、316のいずれかで肯定的な判定をした場合には、拡張プログラム300は、ファイルを選択し(ステップ318)、そのファイルを欧米文字を発見するために走査する(ステップ320)。拡張プログラムが、ステップ312、314および316で否定的な判定をした場合には、拡張プログラムはストップする(ステップ340)。欧米文字を発見した場合には(ステップ322)、マークが付けられ(ステップ324)、およびステップ322において否定的判定が行われるまで、ファイルが引き続き走査される(ステップ320)。欧米文字が発見されなかった場合には、またはすべての欧米文字にマークを付けた場合には、拡張プログラム300は固有名詞を発見するためにファイルを走査する(ステップ326)。固有名詞の位置を発見した場合には(ステップ336)、拡張プログラム300は、固有名詞にマークを付け(ステップ334)、固有名詞が固有名詞テーブル内の固有名詞と一致するか否かを判定する(ステップ332)。固有名詞がテーブル内の固有名詞と一致した場合には、マークを付けた固有名詞は、テーブル内の固有名詞にリンクされ(ステップ328)、ステップ336においてチェックする固有名詞がなくなるまで引き続き走査が行われる(ステップ326)。固有名詞がテーブルと一致しない場合には、ユーザはテーブルを更新するようにプロンプトされ(ステップ330)、ステップ326において走査が続行される。ステップ336において固有名詞を発見できなかった場合には、拡張プログラム300は、他のファイルがあるか否かを判定し(ステップ338)、ある場合には、ステップ320に戻り、ない場合にはストップする(ステップ340)。
図4は、検索プログラム400の論理である。検索プログラム400が呼び出された場合、開始し(ステップ402)、ユーザが翻訳のための節を識別したか否かの判定が行われる(ステップ410)。節を識別しなかった場合には、検索プログラム400はストップする(ステップ450)。節を識別した場合には、検索プログラム400は、拡張プログラム300によりマークした欧米文字を無視する(ステップ412)。データベースが検索され(ステップ414)、検索プログラム400が複数の一致があったか否かの判定を行う(ステップ416)。一致があった場合には、問題の節の直前および直後の節がチェックされて(ステップ418)データベースからの一致した節のうちの1つが最も近いものか否かを判定する(ステップ420)。最も近いものである場合には、一致が表示され(ステップ438)、そうでない場合には、拡張プログラム400は、ユーザに選択を行うようにプロンプトし(ステップ422)、選択を表示する(ステップ424)。
ステップ416において、否定的判定が行われた場合には、検索プログラム400は、1つの一致があったか否かの判定を行う(ステップ426)。一致があった場合には、一致が表示され(ステップ438)、一致がなかった場合には、拡張プログラム400は、拡張プログラム300がマークを付けたすべての固有名詞を無視し(ステップ428)、一致を発見するために検索が行われる(ステップ430)。一致が発見された場合には(ステップ432)、一致が表示される(ステップ438)。一致が発見されなかった場合には、逐語訳が使用され(ステップ434)、手動翻訳のためにログに逐語訳および節が書き込まれる(ステップ436)。検索プログラム400は、翻訳する他の識別した節があるか否かの判定を行う(ステップ440)。ある場合には、検索プログラム400はステップ412に戻り、ない場合にはストップする(ステップ450)。
図5は、表示プログラム500のための論理である。表示プログラム500が開始し(ステップ502)、逐語訳を表示する(ステップ510)。ユーザが翻訳のための節を識別した場合には(ステップ512)、検索プログラム400が呼び出され(図4参照)、識別しなかった場合には、表示プログラム500はストップする(ステップ540)。検索プログラム400を呼び出した後で、表示プログラム500は、検索から何らかの結果が得られたか否かについての判定を行う(ステップ516)。結果が得られなかった場合には、節は手動翻訳のためにログに追加される(ステップ530)。結果が得られた場合には、表示プログラム500は、ユーザの選択が必要か否かについての判定を行う(ステップ518)。節のために識別された翻訳が複数ある場合には、ユーザの選択が必要であり、ユーザは選択を行うようにプロンプトされる(図4のステップ424参照)。そうである場合には、表示プログラムは、ユーザの選択を入手し(ステップ524)、選択を表示する(ステップ526)。ユーザが選択をしなかった場合には、選択を行うように規則が適用され(ステップ522)、選択が表示される(ステップ526)。選択を表示した後で(ステップ526)、表示プログラム500は、ユーザが表示した翻訳を是認したか否かについて判定を行う(ステップ528)。是認しなかった場合には、節が手動翻訳のためにログに追加され(ステップ530)、是認した場合には、他の節が識別されたか否かについての判定が行われる(ステップ532)。他の節が識別された場合には、表示プログラム500はステップ514に戻り、そうでない場合にはストップする(ステップ540)。
上記説明に関連して、サイズ、材料、形状、形式、機能および動作方法、組立ておよび使用方法が変わってもそれにうまく対処することができるような本発明の各部の最適な寸法上の関係は、当業者であれば容易に簡単に思い付くことができること、図面に示し本明細書で説明したもののすべての等価の関係は、本発明に含まれることを理解されたい。本明細書に記載するステップのうちのいくつかの順序を変えたり、削除しても本発明の新規な精神を依然として実施することができる。本発明の精神は、添付の特許請求の範囲の正しい解釈を除いて、如何なる方法によっても制限されない。
本発明を実施するために使用するコンピュータ・ネットワークの図面である。 翻訳システムの構成要素を含むメモリの図面である。 データベース拡張プログラムのフローチャートである。 検索プログラムのフローチャートである。 表示プログラムのフローチャートである。
符号の説明
100 ネットワーク
105,110 ワークステーション・コンピュータ
115 サーバ・コンピュータ
120 永続的記憶装置
125 ネットワーク接続
200 CETT
220 メモリ
230 翻訳データベース
240 固有名詞テーブル
250 一致しなかった節のデータベース
300 拡張プログラム
400 検索プログラム
500 表示プログラム

Claims (17)

  1. 逐語訳を表示するステップと、
    前記逐語訳の節を識別するステップと、
    中国語から英語に前に翻訳した複数のテキストを含むデータベース内で一致する節を検索するステップと、
    一致する節の位置の発見に応じて、前記一致した節に対する英訳を表示するステップとを含む方法。
  2. 前記検索ステップが欧米文字を無視することができるように、すべての欧米文字にマークを付けることにより、前記データベースを拡張するステップをさらに含む、請求項1に記載の方法。
  3. 前記検索ステップが複数の固有名詞を無視することができるように、前記複数の固有名詞にマークを付けることにより前記データベースを拡張するステップをさらに含む、請求項1に記載の方法。
  4. マークを付けた固有名詞を、対応する意味を持つ固有名詞テーブルにリンクするステップをさらに含む、請求項3に記載の方法。
  5. 一致するのに失敗した場合その失敗に応じて、前記節を手動翻訳のためのファイルに書き込むステップをさらに含む、請求項1に記載の方法。
  6. 前記節の手動翻訳に応じて、前記検索ステップが前記節および前記翻訳を、一致しない節のファイルに入れるステップをさらに含む、請求項5に記載の方法。
  7. 逐語訳を表示する機能と、
    前記逐語訳内の節を識別する機能と、
    中国語から英語に前に翻訳した複数のテキストを含むデータベース内で一致する節を検索する機能と、
    一致する節の位置の発見に応じて、前記一致した節に対する英訳を表示する機能と
    をコンピュータに実現させるプログラム。
  8. 前記検索する機能が、欧米文字を無視することができるように、すべての前記欧米文字にマークを付けることにより前記データベースを拡張する機能をさらに含む、請求項7に記載のプログラム。
  9. 前記検索する機能が、複数の固有名詞を無視することができるように、前記複数の固有名詞にマークを付けることにより、前記データベースを拡張する機能をさらに含む、請求項7に記載のプログラム。
  10. マークを付けた固有名詞を、対応する意味を持つ固有名詞テーブルにリンクする機能をさらに含む、請求項9に記載のプログラム。
  11. 一致するのに失敗した場合その失敗に応じて、前記節を手動翻訳のためのファイルに書き込むための命令をさらに含む、請求項7に記載のプログラム。
  12. 前記節の手動翻訳に応じて、前記検索する機能が前記節および前記翻訳を一致しなかった節のファイル内に入れる機能をさらに含む、請求項11に記載のプログラム。
  13. 検索間の一致の確率を増大させるように翻訳データベースを修正する修正機能と、
    前記データベース内の節とユーザが識別した節との間の一致を識別する検索機能と、
    ユーザの承認を得るために並べて前記一致および前記識別した節を表示する表示機能と
    をコンピュータに実現させるプログラム。
  14. 前記修正機能が、
    検索機能により欧米文字を無視することができるように、すべての前記欧米文字にマークを付けるステップと、
    検索機能により複数の固有名詞を無視することができるように、前記複数の固有名詞にマークを付けるステップとをさらに含む、請求項13に記載のプログラム。
  15. マークを付けた固有名詞を、対応する意味を持つ固有名詞テーブルにリンクするステップをさらに含む、請求項14に記載のプログラム。
  16. 一致するのに失敗した場合その失敗に応じて、前記節を手動翻訳のためのファイルに書き込むステップをさらに含む、請求項13に記載のプログラム。
  17. 前記節の手動翻訳に応じて、前記節および前記翻訳を前記検索機能がアクセスすることができる一致しなかった節のファイル内に入れるステップをさらに含む、請求項16に記載のプログラム。
JP2006301543A 2005-12-01 2006-11-07 改善された中国語−英語翻訳ツール Expired - Fee Related JP5107556B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/291,537 US8041556B2 (en) 2005-12-01 2005-12-01 Chinese to english translation tool
US11/291537 2005-12-01

Publications (2)

Publication Number Publication Date
JP2007157123A true JP2007157123A (ja) 2007-06-21
JP5107556B2 JP5107556B2 (ja) 2012-12-26

Family

ID=38119859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006301543A Expired - Fee Related JP5107556B2 (ja) 2005-12-01 2006-11-07 改善された中国語−英語翻訳ツール

Country Status (3)

Country Link
US (1) US8041556B2 (ja)
JP (1) JP5107556B2 (ja)
CN (1) CN1975716A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8137105B2 (en) 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
US9910850B2 (en) * 2007-10-25 2018-03-06 Disney Enterprises, Inc. System and method of localizing assets using text substitutions
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US11455476B2 (en) * 2017-04-05 2022-09-27 TSTREET Pty Ltd Language translation aid
CN112766005B (zh) * 2021-01-27 2024-04-26 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160919A (ja) * 1995-12-13 1997-06-20 Brother Ind Ltd 翻訳装置
JPH10293765A (ja) * 1997-04-21 1998-11-04 Sharp Corp 対訳例文検索装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
DE69803043T2 (de) * 1997-05-28 2002-08-14 Shinar Linguistic Technologies Übersetzungssystem
US6466036B1 (en) * 1998-11-25 2002-10-15 Harald Philipp Charge transfer capacitance measurement circuit
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US6530039B1 (en) * 1999-06-14 2003-03-04 Microsoft Corporation Porting engine for testing of multi-lingual software
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7865358B2 (en) * 2000-06-26 2011-01-04 Oracle International Corporation Multi-user functionality for converting data from a first form to a second form
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US20030236658A1 (en) * 2002-06-24 2003-12-25 Lloyd Yam System, method and computer program product for translating information
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
US7415405B2 (en) * 2003-09-18 2008-08-19 International Business Machines Corporation Database script translation tool
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
CN100483399C (zh) * 2005-10-09 2009-04-29 株式会社东芝 训练音译模型、切分统计模型的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160919A (ja) * 1995-12-13 1997-06-20 Brother Ind Ltd 翻訳装置
JPH10293765A (ja) * 1997-04-21 1998-11-04 Sharp Corp 対訳例文検索装置

Also Published As

Publication number Publication date
US8041556B2 (en) 2011-10-18
US20070129932A1 (en) 2007-06-07
JP5107556B2 (ja) 2012-12-26
CN1975716A (zh) 2007-06-06

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US5612872A (en) Machine translation system
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US5895446A (en) Pattern-based translation method and system
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7574348B2 (en) Processing collocation mistakes in documents
Dellert et al. NorthEuraLex: A wide-coverage lexical database of Northern Eurasia
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20100088085A1 (en) Statistical machine translation apparatus and method
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
US20070011160A1 (en) Literacy automation software
JP2004038976A (ja) 用例ベースの機械翻訳システム
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
WO2000004459A1 (en) Proper name identification in chinese
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
US6385569B1 (en) Translator, translating method and recording medium having translating program recorded thereon
Ogrodniczuk et al. Connecting data for digital libraries: the library, the dictionary and the corpus
JP6835755B2 (ja) 日本語名詞句抽出装置、日本語名詞句抽出方法および日本語名詞句抽出プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120918

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121004

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees