JP3272288B2 - 機械翻訳装置および機械翻訳方法 - Google Patents

機械翻訳装置および機械翻訳方法

Info

Publication number
JP3272288B2
JP3272288B2 JP35438697A JP35438697A JP3272288B2 JP 3272288 B2 JP3272288 B2 JP 3272288B2 JP 35438697 A JP35438697 A JP 35438697A JP 35438697 A JP35438697 A JP 35438697A JP 3272288 B2 JP3272288 B2 JP 3272288B2
Authority
JP
Japan
Prior art keywords
dictionary
word
translation
context
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35438697A
Other languages
English (en)
Other versions
JPH11184855A (ja
Inventor
哲哉 那須川
浩一 武田
日出雄 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Japan Ltd
Original Assignee
IBM Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Japan Ltd filed Critical IBM Japan Ltd
Priority to JP35438697A priority Critical patent/JP3272288B2/ja
Priority to US09/127,429 priority patent/US6182027B1/en
Priority to EP98309840A priority patent/EP0926604A3/en
Publication of JPH11184855A publication Critical patent/JPH11184855A/ja
Application granted granted Critical
Publication of JP3272288B2 publication Critical patent/JP3272288B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本願は、高速性の要求される翻訳
装置に関し、特に処理効率を落とすことなく、機械翻訳
における訳語選択の精度を向上させる翻訳方法およびそ
の装置に関する。
【0002】
【従来の技術】インターネットにおけるWWWの普及に
伴い他言語で記述された文章を利用する機会が増えてい
る。そしてその際に、文章を母国語で斜め読みしたいと
いう欲求から、低価格の機械翻訳ソフトウェアの需要が
高まっている。しかしながら既存の機械翻訳ソフトウェ
アの訳文の質は不十分であり、誤訳が多いのが現状であ
る。
【0003】インターネット上での翻訳用の装置(シス
テム)は、インターネットに接続したままリアルタイム
で翻訳処理を起動するという使用形態から、高速性が要
求されるため、深い意味解析などの複雑な処理が実現し
難いという制約がある。そこで一般的には辞書を整備し
未知語を減らしたり斜め読み用に多少曖昧な訳語を設定
して少なくとも的外れな訳を出さないように工夫するな
どの努力が行なわれている。その際、複雑な処理を避け
るため、辞書のデータ構造は比較的単純な形式になるこ
とが多く、また、翻訳精度をあげるために、単語単位
(単単語辞書)ばかりでなく複合語の単位で訳語を登録
する(複合語辞書)ことが多い。その際、単純なデータ
構造では訳語選択機能が弱いため、複合語単位で訳語が
登録されている語がある場合には、複合語単位で登録さ
れた訳語を優先する方が結果的により良い翻訳結果につ
ながる傾向が見られる。
【0004】また、翻訳は一文単位で行なわれるのが一
般的であり、その結果、ある一つの単語が同じ文章中の
複数の箇所で繰り返し出現する場合、ある箇所では単単
語辞書中の訳語で訳されたり、別の箇所では複合語辞書
中の訳語で訳されたと、同じ語に対して、複数の訳語が
与えられる危険性が生じる。
【0005】この問題を解決するため、〔機械翻訳方式
特開平3-135666〕では、翻訳処理において、辞書を検索
した上で決定した訳語の情報を主記憶上に保存してお
き、同じ語句に対してはその情報を再利用することで、
補助記憶装置への辞書検索の処理時間を節約するととも
に、訳語の統一をはかるという工夫を行なっているが、
この手法では、最初に誤った訳語を選択した場合に、同
文章中で同じ語が繰り返される全ての箇所で誤った訳語
が選択される危険性が生じる。
【0006】また、〔複数文の処理方法特開平2-22876
5〕では、複数の文からなる文章を処理するにあたり、
まず各文の曖昧性を計算した上で、曖昧性の低い文から
処理を行ない、先に処理した文で多義解消された結果を
後の処理で利用することによって、訳語選択の精度を高
めると共に訳語の統一をはかるという工夫を行なってい
るが、この手法は文章内の全ての文を処理してから、翻
訳結果を出力することを前提としており、インターネッ
トに接続したままリアルタイムで翻訳処理を起動する場
合のように、文頭から一文ずつ逐次的に翻訳する処理に
は適用できない。
【0007】
【発明が解決しようとする課題】従って、本発明が解決
しようとする課題は、処理効率を落とすことなく、機械
翻訳における訳語選択の精度を向上させた、翻訳方法お
よびその装置を提供することである。また別の課題は、
ユーザが単に翻訳する文章を選択するだけで、複雑な処
理を行なわずに、訳語選択における優先度を自動的に学
習し、翻訳精度を向上させる、翻訳方法およびその装置
を提供することである。また別の課題は、文法的な記述
や、手続き的な処理といった複雑な機構を用いずに、文
脈に応じた単語の訳し分けを可能にする方法及び装置を
提供することである。また別の課題は、文章を翻訳した
際に文脈辞書という形で得られる訳語の優先情報を蓄積
し、個人辞書として利用することで、訳語の優先順位を
自動的に学習する仕組みを提供することである。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、文章を複合語辞書を用いて翻訳した場合、適用され
た複合語の要素単語の情報を文脈辞書に登録し、文章中
で複合語辞書に定義されていない単語を翻訳する場合、
文脈辞書を含む複数の辞書を使用して翻訳するよう構成
する。より詳細には、以下のような手段を設ける。
【0009】・文章を翻訳する際に、複合語辞書が適用
された場合、適用された複合語の要素単語の情報を文脈
辞書に登録していく。 - 文脈辞書に記述する複合語の要素単語の情報として、
要素単語とその訳語及び訳語に対する選好度を記述す
る。 - 文脈辞書に記述する複合語の要素単語の訳語を決定す
る上で、単単語辞書における要素単語の訳語候補と複合
語の訳語との文字列の比較を行ない、共通部分が最大の
訳語候補を選択する訳語選択方法。及び、訳語候補の文
字列における共通部分の割合が設定された閾値を越えな
い場合には、文脈辞書への登録を取り止める登録妥当性
判定方法を提供する。 - 要素単語の訳語に対する選好度としては、訳語候補文
字列における複合語訳語文字列との共通部分の割合と複
合語の単語長に応じた係数とを乗じた数値を用い、文脈
辞書中に同じ見出し語で同じ訳語候補が既に登録されて
いる場合には、既に付いている選好度に新たな選好度を
加算する。
【0010】・ある文を翻訳する際に、複合語辞書が適
用されない単語に対して、文脈辞書を参照し、そこに見
出しが存在すれば、登録されている訳語候補のうち、最
も高い選好度が付けられた訳語を選択する。
【0011】・文脈辞書を翻訳文章単位で作成し、ある
個人が翻訳した多様な文章に対して作成された複数の文
脈辞書をマージして自動学習個人辞書を作成する。 - 複数の文脈辞書をマージする際には、より新しい文脈
辞書中の選好度を優先するように選好度を調整する個人
用辞書の学習機能調整方法を提供する。 - ある文章を翻訳する際に、複合語辞書が適用されない
場合、まず文脈辞書を参照し、次に自動学習個人辞書を
参照する、辞書の適用方法を提供する。
【0012】・ある文章を翻訳する際に、文章中の各語
がどの訳語で訳されたかを記録しておき、文章中の全文
翻訳後に、その内容を生成された文脈辞書と比較し、文
章を再翻訳することで翻訳結果がどの程度変わるかを評
価、評価結果をユーザに提示し、ユーザの要望に応じて
再翻訳する方法を提供する。 - ある文章を翻訳する際に、文章中の各語がどの訳語で
訳されたかを記録しておく訳出結果として、見出し語
(原言語の語)と訳語、そして見出し語をその訳語で訳
出した回数(あるいは、訳出した文の文番号)を記述す
る訳出結果記録方法を提供する。 - 文章中の全文翻訳後に、文脈辞書と訳出結果を比較
し、同じ見出し語に対して、文脈辞書中で最も選好度の
高い訳語候補以外の訳語が付けられている語の総数を求
めることで、再翻訳により訳語の変わる箇所の総数を求
める、再翻訳結果変更度合評価方法を提供する。 - 再翻訳する際には、訳出結果の変わる文だけを処理す
る、再翻訳処理の効率化方法を提供する。
【0013】・特定のn 個の単語が共起したときに、そ
のうちの最低1 個の単語訳を指定することができる共起
辞書を用いた訳語選択機構を提供する。
【0014】
【発明の実施の形態】以下、より具体的に発明の実施の
形態について例を用いて説明する。 ・ある文章を翻訳する際に、複合語辞書が適用された場
合、適用された複合語の要素単語の情報を文脈辞書に登
録していく文脈辞書作成方法をとる。例えば、複合語辞
書中に『"civil trial" → 「民事裁判」』というデー
タが存在し、翻訳対象文章中の"... a book about the
civil trial with..." という文を翻訳する際に、この
データが適用されると、"civil" 及び"trial" の訳語情
報を(同文章内における訳出に反映させるため)文脈辞
書に登録する。
【0015】- 文脈辞書に記述する複合語の要素単語の
情報として、要素単語とその訳語及び訳語に対する選好
度を記述する文脈辞書記述方法を用いる。上記例におい
ては、"civil" 及び"trial" 各々の訳語と各訳語に対す
る選好度(例えば、『"trial" 「裁判」1.0』)を文脈
辞書に記述する。
【0016】- 文脈辞書に記述する複合語の要素単語の
訳語を決定する上で、単単語辞書における要素単語の訳
語候補と複合語の訳語との文字列の比較を行ない、共通
部分が最大の訳語候補を選択する訳語選択方法。及び、
訳語候補の文字列における共通部分の割合が設定された
閾値を越えない場合には、文脈辞書への登録を取り止め
る登録妥当性判定方法を用いる。上記例においては、単
単語辞書で"trial" に対する訳語の候補として、以下の
ように複数の候補がある場合、 trial 0200 N 公判N +jN +jNOCONJG trial 0201 N 裁判N +jN +jNOCONJG trial 0202 N 試しN +jN +jNOCONJG trial 0203 N 試験N +jN +jNOCONJG trial 0204 N 試行N +jN +jNOCONJG trial 0205 N 試用N +jN +jNOCONJG trial 0206 N 試練N +jN +jNOCONJG trial 0207 N 小手調べN +jN +jNOCONJG trial 0208 N 辛苦N +jN +jNOCONJG trial 0209 N 審理N +jN +jNOCONJG trial 0210 N +eABST 試みN +jN +jNOCONJG trial 0211 ADJ 試験的AP +jAN +jTYPENA 複合語"civil trial" の訳語「民事裁判」と各訳語候補
との文字列の比較を行ない、共通部分が最大の訳語候補
「裁判」を文脈辞書に登録する訳語として選択する。但
し、"civil" の訳語候補に関しては、以下のように civil 0200 ADJ 市民N +jN +jNOCONJG civil 0201 ADJ 民間N +jN +jNOCONJG civil 0202 ADJ 礼儀正しADJ +jADJ +jKEI civil 0203 ADJ 常用N +jN +jNOCONJG (複合語"civil trial" の訳語) 「民事裁判」との共通
部分を含むものが「市民」と「民間」の二種類あり、ど
ちらの訳語候補も、その文字列における共通部分の割合
が50%である。予め設定された閾値がこの値よりも低
ければ、両方の語を登録し、高い場合はどちらの語も登
録しないようにする。
【0017】- 要素単語の訳語に対する選好度として
は、訳語候補文字列における複合語訳語文字列との共通
部分の割合と複合語の単語長に応じた係数とを乗じた数
値を用い、文脈辞書中に同じ見出し語で同じ訳語候補が
既に登録されている場合には、既に付いている選好度に
新たな選好度を加算する選好度決定方法を用いる。上記
例においては、文脈辞書に登録する"trial" の訳語候補
「裁判」の選好度として、「裁判」における「民事裁
判」との共通部分(=「裁判」)の割合(=1)と複合
語の単語長("civil trial" における単語数。この場合
は2。)に応じた係数(基本的には、単語長が大きくな
るほど、大きくなるように設定する。例えば、ここでは
単語長をNとした時にN−1の平方根を取るものとす
る。)を掛け合わせた数値(この場合は1.0)を、"c
ivil trial" の適用によって得られる"trial" の訳語候
補「裁判」の選好度とする。文脈辞書中に、同じ見出し
語"trial" が既に存在し、その訳語候補「裁判」も登録
されている場合には、そこに付いている選好度に、ここ
で得られた選好度(1.0) を加える。
【0018】・ある文を翻訳する際に、複合語辞書が適
用されない単語に対しては、文脈辞書を参照し、そこに
見出しが存在すれば、登録されている訳語候補のうち、
最も高い選好度が付けられた訳語を選択する訳語決定方
法をとる。
【0019】・文脈辞書を翻訳文章単位(例えばWWW
の一ページ、一件の記事、等)で作成し、ある個人が翻
訳した多様な文章に対して作成された複数の文脈辞書を
マージして自動学習個人辞書を作成する自動学習個人辞
書作成方法をとる。
【0020】- 複数の文脈辞書をマージする際には、よ
り新しい文脈辞書中の選好度を優先するように選好度を
調整する個人用辞書の学習機能調整方法を用いる。
【0021】- ある文章を翻訳する際に、複合語辞書が
適用されない場合、まず文脈辞書を参照し、次に自動学
習個人辞書を参照する、辞書の適用方法を用いる。
【0022】・ある文章を翻訳する際に、文章中の各語
がどの訳語で訳されたかを記録しておき、文章中の全文
翻訳後に、その内容を生成された文脈辞書と比較し、文
章を再翻訳することで翻訳結果がどの程度変わるかを評
価、評価結果をユーザに提示し、ユーザの要望に応じて
再翻訳する方法をとる。
【0023】- ある文章を翻訳する際に、文章中の各語
がどの訳語で訳されたかを記録しておく訳出結果とし
て、見出し語(原言語の語)と訳語、そして見出し語を
その訳語で訳出した回数(あるいは、訳出した文の文番
号)を記述する訳出結果記録方法を用いる。
【0024】- 文章中の全文翻訳後に、文脈辞書と訳出
結果を比較し、同じ見出し語に対して、文脈辞書中で最
も選好度の高い訳語候補以外の訳語が付けられている語
の総数を求めることで、再翻訳により訳語の変わる箇所
の総数を求める、再翻訳結果変更度合評価方法を用い
る。
【0025】- 再翻訳する際には、訳出結果の変わる文
だけを処理する、再翻訳処理の効率化方法を用いる。
【0026】・特定のn 個の単語が共起したときに、そ
のうちの最低1 個の単語訳を指定することができる共起
辞書を用いた訳語選択機構を用いる。 例: House NOUN 下院; Senate NOUN 上院; bank NOUN 土手; river NOUN ; 最初の例は、House およびSenate という名詞が同じ文
脈(通常は同一文内、パラグラフやテキスト全体に拡張
してもよい) に出現するときに、両者の訳を、それぞれ
「下院」と「上院」にすることを定義しており、 2 番
目の例は、bank およびriver という名詞が共起する場
合には、前者の訳を「土手」にすることを定義してい
る。
【0027】共起関係は、反射的であるので、1つの辞
書エントリにn 語の単語が含まれていれば、最大n 個の
単語に対する訳語を決定する。1つのエントリが該当す
る時には、そのエントリに含まれるすべての単語が現れ
ているので、競合する訳語指定を考慮しなければ、これ
らの単語ごとにn 回の共起辞書の検索をする必要がな
い。
【0028】
【実施例】以下、図面を参照して本発明の実施例を説明
する。図5には、本発明において使用される翻訳装置の
ハードウェア構成の一実施例を示す概観図が示されてい
る。システム100は、中央処理装置(CPU)1とメ
モリ4とを含んでいる。CPU1とメモリ4は、バス2
を介して、補助記憶装置としてのハードディスク装置1
3(またはMO、CD−ROM23、DVD等の記憶媒
体駆動装置)とIDEコントローラ25を介して接続し
てある。同様にCPU1とメモリ4は、バス2を介し
て、辞書等を記憶する補助記憶装置としてのハードディ
スク装置30(またはMO28、CD−ROM23、D
VD等の記憶媒体駆動装置)とSCSIコントローラ2
7を介して接続してある。フロッピーディスク装置20
はフロッピーディスクコントローラ19を介してバス2
へ接続されている。
【0029】フロッピーディスク装置20には、フロッ
ピーディスクが挿入され、このフロッピーディスク等や
ハードディスク装置13(またはMO、CD−ROM、
DVD等の記憶媒体)、ROM14には、オペレーティ
ングシステムと協働してCPU等に命令を与え、本発明
を実施するためのコンピュータ・プログラムのコード若
しくはデータを記録することができ、メモリ4にロード
されることによって実行される。このコンピュータ・プ
ログラムのコードは圧縮し、または、複数に分割して、
複数の媒体に記録することもできる。
【0030】システム100は更に、ユーザ・インター
フェース・ハードウェアを備え、入力をするためのポイ
ンティング・デバイス(マウス、ジョイスティック等)
7またはキーボード6や、視覚データをユーザに提示す
るためのディスプレイ12を有することができる。ま
た、パラレルポート16を介してプリンタを接続するこ
とや、シリアルポート15を介してモデムを接続するこ
とが可能である。このシステム100は、シリアルポー
ト15およびモデムまたは通信アダプタ18(イーサネ
ットやトークンリング・カード)等を介してネットワー
クに接続し、他のコンピュータ等と通信を行うことが可
能である。またシリアルポート15若しくはパラレルポ
ート16に、遠隔送受信機器を接続して、赤外線若しく
は電波によりデータの送受信を行うことも可能である。
【0031】スピーカ23は、オーディオ・コントロー
ラ21によってD/A(デジタル/アナログ変換)変換
された音声信号を、アンプ22を介して受領し、音声と
して出力する。また、オーディオ・コントローラ21
は、マイクロフォン24から受領した音声情報をA/D
(アナログ/デジタル)変換し、システム外部の音声情
報をシステムにとり込み音声認識ソフト等と協働して翻
訳を行うことを可能にしている。
【0032】このように、本発明の翻訳装置は、通常の
パーソナルコンピュータ(PC)やワークステーショ
ン、ノートブックPC、パームトップPC、ネットワー
クコンピュータ、コンピュータを内蔵したテレビ等の各
種家電製品、通信機能を有するゲーム機、電話、FA
X、携帯電話、PHS、電子手帳、等を含む通信機能有
する通信端末、または、これらの組合せによって実施可
能であることを容易に理解できるであろう。ただし、こ
れらの構成要素は例示であり、その全ての構成要素が本
発明の必須の構成要素となるわけではない。
【0033】複数の辞書および各種バッファを全てメモ
リ4内においても構わないが、通常メモリ4内には記憶
バファとして、文脈辞書、訳出結果記録、共起辞書等を
記憶し、またハードディスク30などの2次記憶上に個
人辞書等、を記憶するのが現実的である。なお、共起辞
書には複合語を許してもよく、各単語に素性が定義され
ているときには、(例えば「単数形」) それを品詞とと
もに制約として記述してもよい。一般に、共起辞書は、
2 個以上の句表現と、その制約および訳語を含んだエン
トリから構成される。単語は大小文字の区別があるが、
表層形または語幹のいずれともマッチできるものとす
る。品詞が省略された場合は、任意の品詞の単語とマッ
チしてよいものとする。
【0034】・共起辞書の構造は以下の通りである。た
だし[]内はあってもなくてもよい(オプショナル)で
ある。 [優先度:] 共起単語1 [品詞] [訳語] ; 共起単語2 [品詞] [訳語] ; ... ・文脈辞書(文脈辞書バッファ)の構造は以下の通りで
ある。 見出し語(原言語の語):訳語候補1:選好度 訳語候補2:選好度 ... ... 訳語候補n:選好度 ・訳出結果記録バッファの構造は以下の通りである。 見出し語(原言語の語):訳語候補1:訳出文番号1〜訳出文番号m1(m) 訳語候補2:訳出文番号1〜訳出文番号m2(m2) ... ... ... 訳語候補n:訳出文番号1〜訳出文番号mn(mn) (注:m,m2,...,mnは、各々の訳語候補の出現回数) ・個人辞書の構造は文脈辞書と同様である。
【0035】図1に本発明のフローチャートを示す。ま
ずステップ110で、翻訳装置は入力文章の先頭から一文
ずつ取り出し処理していく。ステップ120では、処理対
象となる文に対して、まず文を構成する単語列に対し
て、該当する複合語を検索し、複合語に該当する単語列
が存在する場合、該当する複合語の情報(原言語の複合
語の文字列、及び、その訳となる対象言語の文字列)が
文脈辞書登録処理150に送られる。
【0036】ステップ120で、複合語に該当しない各単
語に対しては、ステップ130で単単語処理が適用され
る。文脈辞書あるいは共起辞書検索によって単語訳が決
定されれば、その単語を利用する。単語訳が決定されな
い場合は、個人辞書検索へ単語を送り、訳語が返ってく
れば、その訳語を利用する。返ってこない場合は、単単
語辞書検索に単語を送り、訳語を得る。そして対象単語
と得られた訳語を訳出結果登録処理に送る。ステップ14
0では、対象単語が訳出結果記録バッファに見出しとし
て存在しないかを調べ、存在しない場合は、対象単語の
見出しを作り、訳語と文番号及び出現回数1を訳出結果
記録バッファに登録する。存在する場合は、その中に、
登録対象の訳語が存在しないかを調べる。存在する場合
は、文番号を加え、出現回数を1増やす。存在しない場
合は、訳語と文番号及び出現回数1を出結果記録バッフ
ァに登録する。次にステップ160で、複合語に該当しな
い全ての単語を処理したら、全ての単語の訳語を渡して
翻訳処理を起動する。全ての単語を処理していない場合
は、ステップ120へ戻る。
【0037】次にステップ170で翻訳処理を行う。ここ
でいう翻訳処理とは従来の機械翻訳処理である。ステッ
プ170では形態素解析、文法解析、その他適宜、一般的
な翻訳を用いて構わない。該機械翻訳処理の内容の違い
により、本発明の本質に影響を与えることはない。ステ
ップ180で、文書中の全文を翻訳したかどうかを判断
し、全文を翻訳した場合、再翻訳効果評価処理を行う。
そして、最後にステップ195において、個人辞書登録処
理を行う。個人辞書登録処理では、文脈辞書バッファの
内容を、個人辞書に上書きしていく。但しその際、文脈
辞書バッファの選好度が優先されるように、選好度を加
算する上で値を調整する。例えば、個人辞書中の各見出
しにおいて、各訳語候補の選好度の総和が一定の値にな
るよう正規化しておき、文脈辞書バッファ中に同じ見出
しで同じ訳語候補が存在すれば、その選好度を加えた上
で、再び個人辞書中の選好度の正規化を行なうなどの処
理を行なう。なお、ステップ190の再翻訳処理及びステ
ップ195の個人辞書登録処理は必須の構成ではない。し
かしながら、これらのステップを用いた方が翻訳精度は
さらに向上するであろう。
【0038】図2に上記文脈辞書登録処理(ステップ15
0)をより詳細に図示する。まずステップ210で、送られ
てきた複合語の情報のうち、原言語の複合語の文字列を
単語に分け、各単語を単単語辞書検索に送って、各単語
の訳語候補を得る。次にステップ220で、各訳語候補の
文字列を複合語の訳である対象言語の文字列と比較し、
各訳語候補文字列と対象言語文字列の共有文字数を得
る。その共有文字数を訳語候補文字列数で割った値を複
合語訳との一致度とする。次にステップ230で、各訳語
候補の中で複合語訳との一致度が最も高いものを選択す
る。ステップ240で、その一致度が予め設定した閾値を
越えているかどうかを判断する。もし越えていれば、ス
テップ250でその訳語候補の情報を文脈辞書バッファに
登録する。訳語候補は複数でも構わない。複数存在する
場合は、以降の処理を繰り返す。
【0039】- 登録対象が残っていれば、文脈辞書に登
録する選好度を計算する。選好度としては複合語訳との
一致度と複合語の単語長に応じた係数とを乗じた数値を
算出する。例えば、 (選好度)=(複合語訳との一致度)×(複合語の単語数−1の平方根) とする。 - 登録対象が残っていれば、対象としている原言語の単
語が文脈辞書中の見出し語に含まれていないかを調べ
る。なければ、登録対象となった訳語と算出した選好度
を登録する。あれば、そこに登録されている訳語候補の
中に、ここで登録対象となった訳語がないかを調べる。
あれば、算出した選好度を登録されている選好度に加え
る。なければ、登録対象となった訳語と算出した選好度
を登録する。
【0040】ステップ260で一致度が最も高い訳語候補
が他にも残っているかどうかを判断し、残っている場合
はステップ250以降の処理を繰り返す。
【0041】図3に上記単単語処理(ステップ130)をよ
り詳細に図示する。 文脈辞書と共起辞書の優先順位に
より、次のような2 通りの処理が起動される。
【0042】文脈辞書よりも共起辞書による訳語指定を
優先する場合には、まずステップ310の判断が、yes と
なりステップ340へ進む。ステップ340では、文(あるい
は特定の文脈) に現れる単語を順に、w1; w2; . .;.wn
とするとき、w1から順に単語訳が確定していない単語を
対象として、共起辞書を検索する。共起辞書には、すべ
ての訳語指定のなされる単語を見出しとして、その共起
関係を記述したエントリの集合が対応づけられる。ある
共起辞書のエントリが適用できれば、ステップ395で、
そのエントリに含まれるすべての単語への訳語指定を記
憶しておく。1つの共起辞書エントリは、たとえ何通り
もの共起関係にマッチするとしても各単語に1 回しか適
用されないことにする。これにより、高々n 回の共起辞
書へのアクセスで、各単語への可能な訳語の指定はすべ
て処理できる。1 つの単語に競合する訳語の指定が存在
するときには、共起辞書で指定された優先度の高い訳語
あるいは最大の共起単語数をもつエントリの訳語を優先
するといった基準を適用すればよい。共起辞書に該当す
るエントリが存在しない場合は、次にステップ350で文
脈辞書検索処理を適用する。
【0043】共起辞書よりも文脈辞書による訳語指定を
優先する場合、ますステップ310での判断はno となりス
テップ320へ進む。ステップ320では、与えられた単語が
文脈辞書に見出しとして存在しないかを調べ、存在する
場合は、ステップ390でその訳語候補のうち、最も優先
度の高い訳語を返す。(複数存在する場合には、一語だ
け返す。)文脈辞書に該当するエントリが存在しない場
合は、ステップ330へ進み、共起辞書検索処理を適用す
る。
【0044】図4に上記再翻訳処理(ステップ190)をよ
り詳細に図示する。まずステップ410で、再翻訳効果の
評価値を算出する。文脈辞書中の見出しを一つずつ処理
する。各見出し語が訳出結果記録バッファに登録されて
いないかを調べ、ある場合には、その見出しに対する訳
語で優先度の最も高い訳語以外の訳語が訳出結果記録バ
ッファにないかを調べる。ある場合には、その出現回数
の総和と全ての文番号を保持し、次の見出しの処理へ移
る。文脈辞書中の全ての見出しを処理した後、保持して
いる出現回数と対象文章の文数の比率から、再翻訳効果
の大きさを評価する。ステップ420で再翻訳効果の大き
さが予め設定された閾値を越えれば、ステップ430へ処
理は進む。そうでなくれば処理は終了する。またステッ
プ420では、ユーザに再翻訳効果の大きさを示し、再翻
訳希望の意思をユーザーが表明するようにしても構わな
い。ステップ430以降は保持した全ての文番号に対する
再翻訳処理である。この再翻訳処理は、上記文脈辞書登
録処理(ステップ150)、訳出結果登録処理(ステップ140)
を除き、ステップ120、130、160、170、180と同じ処理
である。
【0045】
【発明の効果】従来は、単単語の訳語は、特別な訳し分
けの機構なしには、システム辞書の最初の訳語を用いる
か、ユーザが後編集などで選択した訳語を優先するとい
う程度の処理しか実現されていなかったが、本発明の共
起辞書によって、文法的な記述や、手続き的な処理とい
った複雑な機構を用いずに、文脈に応じた単語の訳し分
けを可能にすることができる。これは翻訳装置の開発者
にとってだけではなく、ユーザがユーザ定義辞書を補
い、より適切な単語訳を指定するためのリソースとして
も極めて有用である。また、本発明の翻訳装置により、
文章を翻訳した際に文脈辞書という形で得られる訳語の
優先情報を蓄積し、個人辞書として利用することで、訳
語の優先順位を自動的に学習する仕組みが実現可能とな
る。
【0046】
【図面の簡単な説明】
【図1】本発明の翻訳処理全体の流れ示す図である。
【図2】本発明の文脈辞書登録処理の流れを示す図であ
る。
【図3】本発明の単単語決定処理の流れを示す図であ
る。
【図4】本発明の再翻訳処理の流れを示す図である。
【図5】本発明の再翻システムのハードウェアの一実施
例を示す図である。
フロントページの続き (72)発明者 渡辺 日出雄 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (56)参考文献 特開 平5−257967(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 - 17/28 JICSTファイル(JOIS)

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】CPUと記憶装置を有するコンピュータに
    おいて、前記記憶装置に記憶された、複合語辞書と文脈
    辞書を有する複数の辞書を用いて、入力された文章の機
    械翻訳を行う機械翻訳装置であって、該装置が、 (a)翻訳の対象となる文章を取り出す手段と、 (b)前記取り出した文章が複合語辞書を用いて翻訳で
    きるか判断する手段であって、 (b−1)複合語辞書を用いて翻訳できる場合、該翻訳
    に適用された複合語の要素単語の情報を文脈辞書に登録
    する手段と、 (b−2)複合語辞書を用いて翻訳できない場合、前記
    文脈辞書含む前記複数の辞書を使用して翻訳する手段
    と、 を有する機械翻訳装置。
  2. 【請求項2】前記複数の辞書が、単単語辞書、共起辞
    書、文脈辞書、若しくは個人辞書、またはこれらの組み
    合わせからなる、請求項1記載の機械翻訳装置。
  3. 【請求項3】前記文脈辞書に登録する手段(b−1)
    が、前記要素単語の情報として前記文脈辞書に登録する
    訳語候補を選定する際、単単語辞書における要素単語の
    訳語候補と複合語の訳語との文字列の比較を行ない、共
    通部分が最大の訳語候補を選択する手段を有する、請求
    項2記載の機械翻訳装置。
  4. 【請求項4】前記共通部分の割合が設定された閾値を越
    えない場合には、文脈辞書へ訳語候補の登録を取り止め
    る手段を有する、請求項3記載の機械翻訳装置。
  5. 【請求項5】前記複数の辞書を使用して翻訳する手段
    (b−2)が、前記文脈辞書に登録されている訳語候補
    のうち、最も高い選好度が付けられた訳語を選択して翻
    訳する手段である、請求項2記載の機械翻訳装置。
  6. 【請求項6】前記選好度は、訳語候補文字列における複
    合語訳語文字列との共通部分の割合と、複合語の単語長
    から得られる係数により計算される、請求項5記載の機
    械翻訳装置。
  7. 【請求項7】前記選好度は、文脈辞書中に同じ見出し語
    で同じ訳語候補が既に登録されている場合には、既に付
    いている選好度に新たな選好度を加算する、請求項6記
    載の機械翻訳装置。
  8. 【請求項8】前記共起辞書は、特定のn 個の単語が共起
    したときに、そのうちの最低1 個の単語訳を指定する共
    起辞書である、請求項2記載の機械翻訳装置。
  9. 【請求項9】前記文脈辞書と、前記共起辞書に優先順位
    を指定して、これらの内優先順位の高い順番に翻訳に用
    いる、請求項8記載の機械翻訳装置。
  10. 【請求項10】前記機械翻訳装置が、さらに、 (c)文章を翻訳する際に、文章中の各語がどの訳語で
    訳されたかを記録する手段と、 (d)全文翻訳後に、生成された文脈辞書を含む前記複
    数の辞書を用いて、文章を再翻訳する手段を有する、 請求項2記載の機械翻訳装置
  11. 【請求項11】前記機械翻訳装置が、さらに、 (e)前記文脈辞書を翻訳文章単位で作成し、作成され
    た複数の文脈辞書をマージして自動学習個人辞書を作成
    する手段を有する、 請求項10記載の機械翻訳装置。
  12. 【請求項12】CPUと記憶装置を有するコンピュータ
    において、前記記憶装置に記憶された、複合語辞書と文
    脈辞書を有する複数の辞書を用いて、入力された文章の
    機械翻訳を行う機械翻訳方法であって、該方法が、 (a)翻訳の対象となる文章を取り出す段階と、 (b)前記取り出した文章が複合語辞書を用いて翻訳で
    きるか判断する段階であって、 (b−1)複合語辞書を用いて翻訳できる場合、該翻訳
    に適用された複合語の要素単語の情報を文脈辞書に登録
    する段階と、 (b−2)複合語辞書を用いて翻訳できない場合、前記
    文脈辞書含む前記複数の辞書を使用して翻訳する段階
    と、 を有する機械翻訳方法。
  13. 【請求項13】CPUと記憶装置を有するコンピュータ
    に、前記記憶装置に記憶された、複合語辞書と文脈辞書
    を有する複数の辞書を用いて、入力された文章の機械翻
    訳を行わせるプログラムを記録した記録媒体であって、 コンピュータに、 (a)翻訳の対象となる文章を取り出す機能と、 (b)前記取り出した文章が複合語辞書を用いて翻訳で
    きるか判断する機能であって、 (b−1)複合語辞書を用いて翻訳できる場合、該翻訳
    に適用された複合語の要素単語の情報を文脈辞書に登録
    する機能と、 (b−2)複合語辞書を用いて翻訳できない場合、前記
    文脈辞書含む前記複数の辞書を使用して翻訳する機能
    と、 を実現させるためのプログラムを記録した、コンピュー
    タ読み取り可能な記録媒体。
JP35438697A 1997-12-24 1997-12-24 機械翻訳装置および機械翻訳方法 Expired - Fee Related JP3272288B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP35438697A JP3272288B2 (ja) 1997-12-24 1997-12-24 機械翻訳装置および機械翻訳方法
US09/127,429 US6182027B1 (en) 1997-12-24 1998-07-31 Translation method and system
EP98309840A EP0926604A3 (en) 1997-12-24 1998-12-01 Translationmethod and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35438697A JP3272288B2 (ja) 1997-12-24 1997-12-24 機械翻訳装置および機械翻訳方法

Publications (2)

Publication Number Publication Date
JPH11184855A JPH11184855A (ja) 1999-07-09
JP3272288B2 true JP3272288B2 (ja) 2002-04-08

Family

ID=18437218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35438697A Expired - Fee Related JP3272288B2 (ja) 1997-12-24 1997-12-24 機械翻訳装置および機械翻訳方法

Country Status (3)

Country Link
US (1) US6182027B1 (ja)
EP (1) EP0926604A3 (ja)
JP (1) JP3272288B2 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101185A (ja) * 1999-09-24 2001-04-13 Internatl Business Mach Corp <Ibm> 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP2002108858A (ja) * 2000-09-20 2002-04-12 Internatl Business Mach Corp <Ibm> 機械翻訳方法、機械翻訳装置および記録媒体
US6996518B2 (en) 2001-01-03 2006-02-07 International Business Machines Corporation Method and apparatus for automated measurement of quality for machine translation
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US7392173B2 (en) 2001-09-06 2008-06-24 International Business Machines Corporation Method and system of presenting a document to a user
US7136803B2 (en) * 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
WO2004006210A1 (en) * 2002-07-09 2004-01-15 Vocab Ab Learning system and method
US7236923B1 (en) 2002-08-07 2007-06-26 Itt Manufacturing Enterprises, Inc. Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US7185271B2 (en) * 2002-08-20 2007-02-27 Hewlett-Packard Development Company, L.P. Methods and systems for implementing auto-complete in a web page
CN100392642C (zh) * 2002-12-18 2008-06-04 株式会社理光 翻译支持系统
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
DE202005022113U1 (de) * 2004-10-12 2014-02-05 University Of Southern California Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
JP2006276915A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳処理方法、文書翻訳装置およびプログラム
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US20060282256A1 (en) * 2005-06-13 2006-12-14 Werner Anna F Translation method utilizing core ancient roots
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP2007179276A (ja) * 2005-12-27 2007-07-12 Internatl Business Mach Corp <Ibm> 適合判定方法、装置、およびプログラム
US20070214153A1 (en) * 2006-03-10 2007-09-13 Mazzagatti Jane C Method for processing an input particle stream for creating upper levels of KStore
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
KR100837358B1 (ko) * 2006-08-25 2008-06-12 한국전자통신연구원 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
JP2008090555A (ja) * 2006-09-29 2008-04-17 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびコンピュータプログラム
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US7895030B2 (en) * 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB201016385D0 (en) 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
JP5819860B2 (ja) * 2010-02-12 2015-11-24 グーグル・インコーポレーテッド 複合語分割
GB201003628D0 (en) 2010-03-04 2010-04-21 Touchtype Ltd System and method for inputting text into electronic devices
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US20150039286A1 (en) * 2013-07-31 2015-02-05 Xerox Corporation Terminology verification systems and methods for machine translation services for domain-specific texts
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
CN105243058B (zh) * 2015-09-30 2018-04-13 北京奇虎科技有限公司 一种网页内容翻译方法及电子设备
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
EP3607463A4 (en) 2017-04-05 2020-11-25 Tstreet Pty Ltd HELP WITH THE TRANSLATION OF A LANGUAGE
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10922496B2 (en) 2018-11-07 2021-02-16 International Business Machines Corporation Modified graphical user interface-based language learning

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4890230A (en) * 1986-12-19 1989-12-26 Electric Industry Co., Ltd. Electronic dictionary
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH01314373A (ja) * 1988-06-15 1989-12-19 Hitachi Ltd 機械翻訳システムにおける訳語選択方式
EP0366142B1 (en) * 1988-10-28 1997-08-06 Kabushiki Kaisha Toshiba Method and apparatus of machine translation
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH03260764A (ja) * 1990-03-09 1991-11-20 Ricoh Co Ltd 翻訳用辞書登録方式
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
DE4135261C1 (ja) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
JPH05314166A (ja) * 1992-05-08 1993-11-26 Sharp Corp 電子化辞書および辞書検索装置
JP3258079B2 (ja) * 1992-08-14 2002-02-18 富士通株式会社 複合語辞書登録装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms
JPH07282055A (ja) * 1994-04-06 1995-10-27 Fujitsu Ltd 文解析方法および装置
JP3377290B2 (ja) * 1994-04-27 2003-02-17 シャープ株式会社 イディオム処理機能を持つ機械翻訳装置
JPH08101837A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法

Also Published As

Publication number Publication date
EP0926604A2 (en) 1999-06-30
EP0926604A3 (en) 2005-11-02
US6182027B1 (en) 2001-01-30
JPH11184855A (ja) 1999-07-09

Similar Documents

Publication Publication Date Title
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
US9223779B2 (en) Text segmentation with multiple granularity levels
US7536293B2 (en) Methods and systems for language translation
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
US7526423B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
US5418717A (en) Multiple score language processing system
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US7630880B2 (en) Japanese virtual dictionary
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
US20040186706A1 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN111859013A (zh) 数据处理方法、装置、终端和存储介质
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP3682915B2 (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JPH0561902A (ja) 機械翻訳システム
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JP3267168B2 (ja) 自然言語変換システム
CN115796194A (zh) 一种基于机器学习的英语翻译系统
JP3884001B2 (ja) 言語解析システムおよび方法
JPH10149364A (ja) 訳語選択装置と記憶媒体
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
JP2006065542A (ja) 機械翻訳方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080125

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090125

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090125

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100125

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100125

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100125

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 9

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120125

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130125

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130125

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees