JP4330285B2 - 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 - Google Patents

機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 Download PDF

Info

Publication number
JP4330285B2
JP4330285B2 JP2001116927A JP2001116927A JP4330285B2 JP 4330285 B2 JP4330285 B2 JP 4330285B2 JP 2001116927 A JP2001116927 A JP 2001116927A JP 2001116927 A JP2001116927 A JP 2001116927A JP 4330285 B2 JP4330285 B2 JP 4330285B2
Authority
JP
Japan
Prior art keywords
morpheme
sentence
dictionary
translation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001116927A
Other languages
English (en)
Other versions
JP2002312357A (ja
Inventor
美穂子 北村
稔樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001116927A priority Critical patent/JP4330285B2/ja
Priority to US10/105,394 priority patent/US6920419B2/en
Publication of JP2002312357A publication Critical patent/JP2002312357A/ja
Application granted granted Critical
Publication of JP4330285B2 publication Critical patent/JP4330285B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体に関し、例えば、翻訳パターンを利用する機械翻訳装置における翻訳パターン辞書(例えばユーザ辞書)への追加登録に適用し得るものである。
【0002】
【従来の技術】
機械翻訳装置の訳質の向上のためには、装置が有する翻訳辞書の増強、改良が必須となる。そのため、現在、特定の分野の文書を翻訳するための数多くの専門辞書等が機械翻訳装置とともに普及している。しかし、機械翻訳装置が解析できない文書固有の特別な表現を翻訳したい場合や、個人レベルの訳語の調整が必要な場合には、専門辞書の追加だけでは、ユーザは望み通りの翻訳結果を得ることができない。
【0003】
そのため、従来では、機械翻訳装置のユーザは、予め機械翻訳装置に入力する原文を機械翻訳装置が解析可能なように編集したり(前編集)、翻訳結果を修正したり(後編集)する必要があった。
【0004】
しかし、この前編集や後編集作業は、機械翻訳装置と独立に存在する場合、機械翻訳の翻訳処理に何の影響もおよぼさない。従って、同一又は同様な原文が何度も繰返し出現する文書を翻訳する場合でも、ユーザはその度に編集作業を繰り返すことになり、作業が非常に煩雑になる。
【0005】
このような点に鑑み、前編集結果や後編集結果を反映させた内容を辞書に登録する発明も提案されている(特開平6−119378号公報)。
【0006】
この公報記載の発明は、原文とその模範翻訳文、機械翻訳装置の前編集結果とその翻訳結果、又は、原文と機械翻訳装置の後編集結果を用いて、機械翻訳システムの翻訳アルゴリズムを調整する手段を提供している。例えば、後編集結果による調整であれば、機械翻訳結果と後編集結果が異なれば、後編集結果から単語辞書内容か文法規則を作成し、それを既存のものに追加するというものである。なお、ここでいう文法規則とは、左辺が、文、節などの文の特徴を示すカテゴリであり、右辺が、そのカテゴリを構成する単語列(後編集による修正文の形態素解析結果)というパターンである。
【0007】
【発明が解決しようとする課題】
しかしながら、上記公報記載の発明では、作成される単語辞書内容又は文法規則は、後編集結果そのものである。
【0008】
例えば、後編集で以下の(A)のような修正をユーザが行なった場合には、以下の(B)のようなパターンが登録される。
【0009】
原文: The class has a black board.
機械翻訳文:その教室は、黒い板を持っている。
【0010】
後編集文: その教室は、黒板を持っている。 …(A)
[文:The class has a black board.]
[文:その教室は黒板を持っている。] …(B)
その結果、上記公報記載の発明では、“The class has twoblack boards.”という入力文があった場合では、上記パターンには適合しないため、“black board”の適訳(黒板)は得ることができない。
【0011】
作成する文法規則等の汎用性を高めるため、上記公報では、原文と模範翻訳文例の組合せが複数あれば、その類似部をもとにして、一部が抽象化されたパターンを作成する発明も記載されている。
【0012】
この発明を利用すれば、
[文:The class has $1 black board.]
[文:その教室は $1 黒板を持っている。]
という文法規則を作成し、このパターンを登録することによって、以降で生じた“The class has three black boards.”の適訳を得ることができる。しかし、“black board”の前後が異なる“There is a black board in my class.”の翻訳に際しては、依然、“black board”の適訳は得ることができない。
【0013】
以上のように、原文単位の単語辞書内容や文法規則の追加は、1文単位の登録により大量の記憶容量を必要とするにも関わらず、追加分の再利用率は低く、効率の良い登録とは言えない。
【0014】
また、抽象化されたパターンの作成方法も、上記公報記載の発明では、類似する複数の原文と模範翻訳文例が必要であるため、数少ない模範翻訳例しか存在しない場合は、類似例が存在する可能性が少なく抽象化できない可能性が高い。
【0015】
そのため、登録に要する模範文が少なくても汎用性が高い辞書登録を行うことができる機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体が望まれている。
【0016】
【課題を解決するための手段】
第1の本発明の機械翻訳用辞書登録装置は、原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録するものであって、(1)上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る翻訳文形態素生成手段と、(2)上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る模範文形態素解析手段と、(3)得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する差分検出処理手段と、(4)上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る辞書引き処理手段と、(5)上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する登録内容生成手段とを有し、上記登録内容生成手段は、(5−1)上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる差分更新部と、(5−2)上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第1の自動生成部と、(5−3)上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す差分再構築部と、(5−4)上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第2の自動生成部とを有することを特徴とする。
【0017】
第2の本発明の機械翻訳装置は、第1の本発明の機械翻訳用辞書登録装置を有することを特徴とする。
【0018】
第3の本発明の機械翻訳用辞書登録方法は、原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録するものであって、(0)翻訳文形態素生成手段と、模範文形態素解析手段と、差分検出処理手段と、辞書引き処理手段と、登録内容生成手段とを備えると共に、上記登録内容生成手段が、差分更新部と、第1の自動生成部と、差分再構築部と、第2の自動生成部とを有し、(1)上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る上記翻訳文形態素生成手段が実行する翻訳文形態素生成処理と、(2)上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る上記模範文形態素生成手段が実行する模範文形態素解析処理と、(3) 得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する、上記差分検出処理手段が実行する差分検出処理と、(4)上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る、上記辞書引き処理手段が実行する辞書引き処理と、(5)上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する、上記登録内容生成手段が実行する登録内容生成処理とを含み、上記登録内容生成処理は、(5−1)上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる、上記差分更新部が実行する差分更新処理と、(5−2)上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する、上記第1の自動生成部が実行する第1の自動生成処理と、(5−3)上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す、上記差分再構築部が実行する差分再構築処理と、(5−4)上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する、第2の自動生成部が実行する第2の自動生成処理とを有することを特徴とする。
【0019】
第4の本発明の機械翻訳方法は、第3の本発明の機械翻訳用辞書登録方法を含むことを特徴とする。
【0020】
第5の本発明の記録媒体は、(0)原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録する機械翻訳用辞書登録プログラムであって、コンピュータを、(1)上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る翻訳文形態素生成手段と、(2)上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る模範文形態素解析手段と、(3)得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する差分検出処理手段と、(4)上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る辞書引き処理手段と、(5)上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する登録内容生成手段として機能させると共に、(5−0)上記登録内容生成手段として機能させるプログラム部分が、コンピュータを、(5−1)上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる差分更新部と、(5−2)上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第1の自動生成部と、(5−3)上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す差分再構築部と、(5−4)上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第2の自動生成部として機能させる部分を含む機械翻訳用辞書登録プログラムを、コンピュータが読取可能に記録していることを特徴とする。
【0021】
第6の本発明の記録媒体は、機械翻訳用辞書登録プログラムを一部に含む機械翻訳プログラムであって、上記機械翻訳用辞書登録プログラムが第5の本発明の記録媒体の記録対象であるものと同一である機械翻訳プログラムを、コンピュータが読取可能に記録していることを特徴とする。
【0022】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体を、翻訳パターンを利用して機械翻訳する機械翻訳装置等に適用した第1の実施形態を図面を参照しながら詳述する。
【0023】
なお、第1の実施形態は、原言語及び目的言語の種類は問われないが、具体例での説明部分は、原言語が英語、目的言語が日本語として行う。また、第1の実施形態は、双方向機械翻訳機能を有していることを前提としている。
【0024】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の機械翻訳装置の機能的構成を示すブロック図である。なお、実際上は、例えば、パソコンなどの情報処理装置上に、記録媒体を介して、処理プログラム(図3、図7、図11、図16、図25参照)や各種データ(図1の1.41〜1.44)などがローディングされて、第1の実施形態の機械翻訳装置が構築される。なお、図1は、第1の実施形態の機械翻訳装置の後編集機能を中心に整理したブロック図である。
【0025】
図1において、第1の実施形態の機械翻訳装置は、大きくは、入出力部1.1、翻訳処理部1.2、後編集学習部1.3及び辞書格納部1.4から構成されている。
【0026】
入出力部1.1は、翻訳対象となる原文やユーザが後編集した翻訳文(以降、修正文と呼ぶ)を受ける入力処理部1.12と、機械翻訳での翻訳結果(以降、翻訳文と呼ぶ)を出力する出力処理部1.11とに分かれている。入力処理部1.12は、キーボードやファイル読込装置等の入力装置1.02から原文や修正文を受け付ける。出力処理部1.11は、翻訳文をディスプレーやプリンタやファイル格納装置等の出力装置1.01に出力する。
【0027】
翻訳処理部1.2は、原文の形態素解析や目的言語側の形態素生成を行う形態素解析・生成部1.21と、翻訳パターンを利用した原言語の構文解析やそれに応じた目的言語での構文生成を行う構文解析・生成部1.22とからなる。なお、第1の実施形態では、翻訳処理部1.2単体には特徴はなく、翻訳パターンを利用する、既に提案されているものをそのまま適用しても良い。例えば、特開平5−290082号公報に記載のものや、特願2000−225911号明細書及び図面に記載のもの等を適用し得る。
【0028】
辞書格納部1.4は、装置が最初から持っている形態素情報が格納されている形態素辞書1.41と、原言語パターンと目的言語パターンの対からなる翻訳パターンが格納されている翻訳パターン辞書1.42と、ユーザが登録するユーザ形態素辞書1.43と、ユーザ翻訳パターン辞書1.44とからなる。
【0029】
図2は、翻訳パターン辞書1.42又は1.44の格納内容(翻訳パターン)の一部を取り出して示したものである。
【0030】
図2において、左側が英語パターンを表し、右側が日本語パターンを表し、これら英語パターン及び日本語パターンが対になっている。各言語のパターンは、
[言語名:パターン名 パターン構成要素]
からなる。
【0031】
言語名は、英語(en)か日本語(jp)かを規定する。
【0032】
言語名に続くパターン名は、例えば、VP(動詞句)、NP(名詞句)、N(名詞)等の句構造規則での標識が適用される。
【0033】
パターン構成要素は、単語、変数、又は、単語と変数の2以上の並び、からなる。変数は[任意の数字:パターン名(木構造の下位ノードに対応する)]で記述される。任意の数字部分は、対となっている原言語及び目的言語パターン間での対応関係を示すものである。構文解析においては、変数に、別のパターンが適用されることにより、パターンは入れ子構造をとることができる(変数が解消される)。また、単語及びパターン名は、符号.1aや.1bが付された部分のように、意味情報などの詳細な情報(素性情報)を持つことができる。素性情報は、例えば素性情報の種類を表す左辺とその内容を表す右辺で記述される。は、さらに、単語及びパターン名は、符号.7aが付された部分のように詳細情報を変数化して、情報を参照することもできる。
【0034】
後編集学習部1.3は、どのようなパターンを作成するかを判定する処理判定部1.31、新翻訳パターンを作成するパターン生成部1.32、翻訳文と修正文の差分をとる差分検出処理部1.33、既存翻訳パターン辞書1.42及び1.44の辞書引きを行なうパターン辞書引き部1.34、及び、翻訳処理部1.21に翻訳を命令する翻訳命令部1.35からなる。
【0035】
また、後編集学習部1.3が処理時に利用するバッファ1.3aが用意されている。バッファ1.3aとしては、翻訳文の形態素生成結果を格納するOrgMorphBuffer、修正文の形態素解析結果を格納するMorphBuffer、原文の構文解析・生成結果を格納するOrgPatternBuffer、翻訳文と修正文の差分を格納するDiffBuffer、既存の翻訳パターンや新しく作成した翻訳パターンなどを格納するSamePatternBuffer、ChildPatternBuffer、OrgEntryPatternBuffer、EntryPatternBufferなどの種類が用意されている。
【0036】
(A−2)第1の実施形態の動作
図3は、第1の実施形態の機械翻訳装置の動作を示すフローチャートであり、後編集学習処理の観点から示したものである。以下では、図4の原文9.1a、9.2aが入力された場合を例にしながら説明する。
【0037】
ユーザが、図4に示すような原文9.1a、9.2aをキーボードなどの入力装置1.02により入力すると、入力処理部1.12がその原文を受け取り、翻訳処理部1.2の形態素解析・生成部1.21に渡す(ステップ2.01)。形態素解析・生成部1.21は、形態素辞書1.41及び1.43の情報を用いて、形態素解析処理を行う(ステップ2.02)。次に、構文解析・生成部1.22は、この形態素解析結果と、翻訳パターン辞書1.42及び1.44を用いて、構文解析生成処理を行い(ステップ2.03)、得られた構文解析生成結果をOrgPatternBufferに格納する(ステップ2.04)。その後、形態素解析・生成部1.21が、形態素生成処理を行なって形態素生成結果を得、さらに翻訳文を得て(ステップ2.05)、出力装置1.01に翻訳文を出力する(ステップ2.07)。この処理の際、生成された形態素生成結果(活用変化などの処理が施されていないもの)をOrgMorphBufferに格納する(ステップ2.06)。
【0038】
図4に示す原文9.1a及び9.2aに対しては、以上のような処理により、図4に示す翻訳文9.lb、9.2bがそれぞれ出力される。図5は、OrgMorphBufferに格納された形態素生成結果を示しており、図6は、OrgPatternBufferに格納された構文解析生成結果(一部)を示している。なお、形態素生成結果や構文解析生成結果は品詞を含むものであるが、図5及び図6では、品詞を省略している。
【0039】
以降の説明において、図5の10.1、10.2に示すような翻訳文の形態素生成結果を翻訳文形態素と呼ぶ。また、図6の11.1aに示すような原文のパターンを原文パターン、それに対応する11.1bに示すような翻訳文側のパターンを翻訳文パターンと呼ぶ。
【0040】
以上の翻訳文を得るまでの動作は、図1の波線矢印で示したデータの流れに対応しており、後編集を考慮したOrgMorphBufferやOrgPatternBufferへの格納動作を除けば、従来と同様な動作である。
【0041】
次に、ユーザは、キーボードなどの入力装置1.02で翻訳文で不適切な部分を修正する(ステップ2.08)。例えば、図4に示す翻訳文9.1b、9.2bはそれぞれ、修正文9.1c、9.2cのように修正される。入力処理部1.12が修正文を受け取り、後編集学習部1.3などがその修正文と翻訳文を得る際に得た情報などから後編集学習処理を行う(ステップ2.09)。
【0042】
そして、後編集学習処理後においては、学習した内容を反映した翻訳文を表示して(ステップ2.10)、一連の処理を終了する。
【0043】
図7は、後編集学習部1.3などによる後編集学習処理(ステップ2.09)の流れを示すフローチャートである。
【0044】
入力された修正文は、形態素解析・生成部1.21によって形態素解析され(ステップ3.01)、その形態素解析結果がMorphBufferに格納される。図8は、図4の修正文9.1c、9.2cに対する形態素解析結果12.1、12.2、すなわち、MorphBufferに格納された形態素解析結果12.1、12.2を示している(品詞は省略している)。なお、以降、図8の12.1、12.2に示すような修正文の形態素解析結果を修正文形態素と呼ぶ。
【0045】
次に、処理判定部1.31が、上述したステップ2.04でOrgPatternBufferに格納された構文解析生成結果を参照し、原文に対する構文解析が成功していたか否かを調べる(ステップ3.02)。
【0046】
失敗していたら、ParserFailフラグをonにして(ステップ3.03)、後述する試し翻訳処理(ステップ3.08)に進む。なお、原文に対する翻訳処理を開始する初期時において、ParserFailフラグはoff設定されている。
【0047】
原文に対する構文解析が失敗していた場合には、後述するような当初の翻訳文を得る際の形態素生成結果(翻訳文形態素)と、修正文の形態素解析結果(修正文形態素)との差分を得ても意味がなく、修正文全体の情報をそのままユーザ登録する他なく、ParserFailフラグをonにして、そのような処理対象であることを明らかにしている。
【0048】
原文に対する構文解析が成功していたならば、差分検出処理部1.33は、翻訳文形態素と修正文形態素との差分検出処理を行ない(ステップ3.04)、その差分検出結果をDiffBufferに格納する。
【0049】
ここで、差分検出処理とは、翻訳文形態素と修正文形態素との関係を以下の3つに分類した、翻訳文形態素と修正文形態素の対応表を作成することである。
【0050】
分類Px:翻訳文形態素にあって修正文形態素にない形態素
分類Mx:修正文形態素にあって翻訳文形態素にない形態素
分類S:翻訳文形態素にも修正文形態素にも存在し、かつ、対応の交差が発生することなく両者が対応付けられる形態素
以上のような両形態素間の差分を検出する方法として、DPマッチングなどの動的計画法を利用する方法や、それに比較すると精度は下がるが、単に前から順に差を見つけていく方法を適用できる。
【0051】
図9は、上述した図6に示した翻訳文形態素と図8に示した修正文形態素間の差分検出結果を示したものである。例えば、修正文形態素「収入」(13.3)は、対応する翻訳文形態素が存在しない(13.1)ので、分類はMx(13.2)となっている。
【0052】
次に、パターン辞書引き部1.34は、DiffBuffer中、翻訳文形態素は存在するが修正文形態素は存在しない形態素(Px)を含む翻訳パターンをOrgPatternBufferから抽出し、その原文パターンの原文形態素が同じ翻訳パターンを機械翻訳装置が既にもっている翻訳パターン辞書1.42、1.44から引き、SamePatternBufferに格納する(ステップ3.05)。
【0053】
図10は、以上のような差分パターン辞書引き処理の結果、すなわち、SamePatternBufferの格納内容の例を示す説明図である。
【0054】
例1の場合、翻訳文形態素は存在するが修正文形態素は存在しない形態素(Px)は「利益」であり、この「利益」の原文パターンは[en:N profit]であるが(図6参照)、この原文パターンの原文形態素が同じ翻訳パターンが翻訳パターン辞書1.42、1.44に存在しないので、辞書引き結果は存在しない。
【0055】
例2の場合は、翻訳文形態素としては存在するが修正文形態素としては存在しない形態素(Px)は「に」及び「交換」であり、これらに対する図6に示したOrgPatternBufferに格納されている符号11.2aと11.2bの内容を参照して翻訳パターン辞書1.42、1.44を引くことにより、14.2a、14.2b1、14.2b2に示すような翻訳パターンが得られる。
【0056】
以上のステップ3.05による辞書引き処理は、ユーザ登録すべき新しい翻訳パターンを形成する基になる翻訳パターンの取出し処理になっている。
【0057】
そして、後述する図11に示すパターン作成処理を行ってユーザ登録すべき新しい翻訳パターンを作成し(ステップ3.06)、ユーザ翻訳パターン辞書1.44に登録し(ステップ3.07)、後編集学習結果の確認のために後述する図25に示す試し翻訳を行う(ステップ3.08)。なお、ユーザ翻訳パターン辞書1.44への翻訳パターンの登録時において、未知語など形態素辞書登録の必要があるものは、ユーザ形態素辞書1.43にも登録する。
【0058】
図11は、修正文を考慮して新しい翻訳パターンを作成する、上述したステップ3.06のパターン作成処理の動作の流れを示すフローチャートである。
【0059】
まず、パターン生成部1.32が、既存パターン辞書.42、1.44の格納内容を反映させた修正文形態素と翻訳文形態素との対応付け処理を行なう(ステップ4.01)。
【0060】
この処理は、翻訳文形態素と対応の付かなかった修正文形態素(Mx)が、SamePatternBufferに格納されている翻訳パターン(従って、既存パターン辞書.42、1.44に格納されている翻訳パターン)に含まれていれば、その修正文形態素と、SamePatternBufferの格納パターンに含まれている翻訳文形態素とを対応付け、DiffBufferを更新する処理である。なお、分類Mxの修正文形態素を含む格納パターンが複数の形態素要素でなる場合には、その修正文形態素を含む複数の修正文形態素が、パターンに係る複数の翻訳文形態素と対応付けられる。対応付けられた翻訳文形態素と修正文形態素の組合せは、S’として分類される。
【0061】
但し、対応付けの際、対応の交差が起こらないように前後の翻訳文形態素又は修正文形態素を組合せる。図12は、この組合せ処理の模式的な説明図である。例えば、SamePatternBufferの利用により、”B”と「う」、“C”と「い」が対応していても、交差が起こっているために、組合せを行わない場合には、対応付けられない。そのため、図12に示すように、対応の交差部分に対してはその組合せで対応付ける。すなわち、“BC”と「いう」とを対応付ける。
【0062】
図13は、上述したステップ4.01の対応付け処理の結果例を示す説明図である。
【0063】
例えば、図9に示す修正文形態素の「置換」(Mx)は、SamePattemBufferに格納されている、図10の翻訳パターン14.2b1に含まれているので、修正文形態素「置換」と翻訳文形態素「交換」とが対応付けられる。また例えば、図9に示す修正文形態素の「の」(Mx)は、SamePattemBufferに格納されている、図10の翻訳パターン14.2aに含まれているので、修正文形態素「のための」と翻訳文形態素「のために」とが対応付けられる。そして、これら新たな対応には分類S’が付与され、DiffBufferの対応表が更新される。
【0064】
なお、例1の場合であると、図10に示したように、SamePattemBufferに格納されている翻訳パターンが存在しないので、ステップ4.01の対応付け処理で新たな対応は検出されず、DiffBufferの対応表が更新されることはない(図9の対応表のままである)。
【0065】
以上のような対応表の更新処理(更新がなされない場合を含む)が終了すると、パターン生成部1.32は、DiffBufferの対応表の更新がなされたか否かを判定する(ステップ4.02)。すなわち、分類S’が付されている翻訳文形態素と修正文形態素の対応付け(組合せ)があるか否かを判定する。
【0066】
そして、分類S’が付されている対応付けがあったならば、その分類S’に係る対応付けを1個取り出し、その対応付けに係る翻訳パターンを作成する(ステップ4.03)。なお、対応付けに係る翻訳パターンの作成処理の詳細については、図16を用いて後述する。
【0067】
分類S’が付されている対応付けに係る翻訳パターンの作成は、分類S’が付されている全ての対応付けに対して繰り返し実行する(ステップ4.04)。
【0068】
なお、例1の場合には、上述したようにステップ4.01の処理を得た後も、図9に示す当初の対応表がDiffBufferに格納されているので、ステップ4.03によって、新たな翻訳パターンが作成されることはない。例2の場合には、ステップ4.01の処理を得た後には、図13に示すように、分類S’に係る対応付けが2個存在するので、ステップ4.03のパターン作成処理が2回実行される。
【0069】
DiffBufferの対応表の更新がなされなかった場合(ステップ4.02でNO)や、分類S’が付されている全ての対応付けに対する翻訳パターンの作成が終了した場合(ステップ4.04でNO)には、パターン生成部1.32は、DiffBufferの対応表に、翻訳文形態素と修正文形態素とで対応がとれていない部分があるかを判定する(ステップ4.05)。
【0070】
DiffBufferの対応表に、翻訳文形態素と修正文形態素とで対応がとれていない部分がなければ、図11に示す一連の処理を終了して、上述した図7のステップ3.07のユーザ翻訳パターン辞書1.44への登録処理に移行する。
【0071】
これに対して、DiffBufferの対応表に、翻訳文形態素と修正文形態素とで対応がとれていない部分があれば、パターン生成部1.32は、DiffBufferの差分の対応表の再構築を行う(ステップ4.06)。この再構築は、上述したステップ4.01の処理とは異なり、翻訳パターン辞書.42や1.44の格納内容(既存の翻訳パターン)を利用しないで行う。
【0072】
図14は、差分の対応表の再構築方法の説明図である。再構築方法の条件及び処理の組合せは、例えば、以下の(1)〜(4)の通りであり、図14の更新前及び更新後にそれぞれ対応している。
【0073】
(1) 条件:DiffBuffer内で、翻訳文形態素で対応の付かなかったものが存在せず、修正文形態素(Mx)が存在する場合
処理:対応の付かなかった修正文形態素(Mx)をその前後の形態素と連結し、その前後の形態素に対応する翻訳文形態素の部分も連結し、これら連結した翻訳文形態素と修正文形態素とに分類S’を付与して、DiffBufferの対応表を更新する。
【0074】
(2) 条件:DiffBuffer内で、翻訳文形態素で対応の付かなかったもの(Px)が1個であり、修正文形態素で対応の付かなかったもの(Mx)が1個、又は、連続する複数であり、その翻訳文形態素(Px)と修正文形態素(又は修正文形態素群)(Mx)とを対応付けたときに、交差が起こらない場合
処理:対応の付かなかった翻訳文形態素(Px)と、対応の付かなかった修正文形態素(又は修正文形態素群)(Mx)とを対応付け、分類S’を付与して、DiffBufferの対応表を更新する。
【0075】
(3) 条件:DiffBuffer内で、翻訳文形態素で対応の付かなかったもの(Px)が1個であり、修正文形態素で対応の付かなかったもの(Mx)が1個、又は、連続する複数であり、その翻訳文形態素(Px)と修正文形態素(又は修正文形態素群)(Mx)とを対応付けたときに交差が起こる場合、
又は、翻訳文形態素で対応の付かなかったもの(Px)が1個であり、修正文形態素で対応の付かなかったもの(Mx)が連続しない複数であった場合
処理:交差が起こらなくなるような範囲で翻訳文形態素及び修正文形態素を組合せ、分類S’を付与して、DiffBufferの対応表を更新する。
【0076】
(4) 条件:上述した(1)〜(3)の条件以外で未対応がある場合(DiffBuffer内で、翻訳文形態素で対応の付かなかったもの(Px)が複数である場合)
処理:DiffBufferにおいて、対応の付かなかった翻訳文形態素(Px)のそれぞれと、対応の付かなかった修正文形態素(Mx)とを対応付け、分類S’を付与して、DiffBufferの対応表を更新する。その際、上記(3)の交差の条件等を利用する。
【0077】
例1の場合、再構築処理前の対応表が図9に示す内容であるので、上記(2)の場合に該当し、再構築処理により、翻訳文形態素の「記録」及び「利益」と、修正文形態素の「収入」及び「記録」がまとめられる。図15は、例1について、このような再構築処理後の対応表、すなわち、DiffBufferの格納内容を示している。
【0078】
一方、例2の場合、再構築処理前の対応表が後述する図20に示す内容であるので、再構築対象の対応付けはなく、対応表の再構築は実行されない。
【0079】
以上のような再構築方法を適用して、差分の対応表を再構築すると、パターン生成部1.32は、再構築により分類S’が付された対応付けを1個取り出し、その対応付けに係る翻訳パターンを作成する(ステップ4.07)。なお、このステップ4.07による対応付けに係る翻訳パターンの作成処理も、上述したステップ4.03の作成処理と同様であり、その詳細については、図16を用いて後述する。
【0080】
分類S’が付されている対応付けに係る翻訳パターンの作成は、分類S’が付されている全ての対応付けに対して繰り返し実行される(ステップ4.08)。そして、再構築により分類S’が付された全ての対応付けに対し、翻訳パターンの作成が終了すると、図11に示す一連の処理を終了して、上述した図7のステップ3.07のユーザ翻訳パターン辞書1.44への登録処理に移行する。
【0081】
図16は、上述したステップ4.03又はステップ4.07(図11)の翻訳パターンの作成処理の詳細を示すフローチャートである。
【0082】
なお、図11では省略していたが、ステップ4.03及び4.07のパターン作成処理の実行回数を表すパラメータnが用いられている。
【0083】
翻訳パターンの作成処理ではまず、パターン生成部1.32は、分類S’の組合せの翻訳文形態素を含む翻訳パターン全てをOrgPatternBufrerから抽出し、ChildPatternBufferに格納する(ステップ5.0l)。
【0084】
次に、パターン生成部1.32は、ChildPatternBufferの全てのパターンを含有する最も小さい上位のパターンを認定し、OrgEntryPatternBuffer[n]に格納する(ステップ5.02)。なお、ChildPatternBufferに格納されているパターンが1つの場合は、そのパターン自身がOrgEntryPatternBuffer[n]に格納される。
【0085】
その後、OrgEntryPatternBuffer[n]のパターンに変数があれば、パターン生成部1.32は、OrgPatternBufferの格納内容を用いて、その変数部分を語彙化する(ステップ5.03)。変数部分を語彙化するとは、変数部分を原文形態素と翻訳文形態素とで埋めることである。
【0086】
次に、OrgEntryPatternBuffer[n]のパターン中の翻訳文形態素を修正文形態素に置き換え、その結果をEntryPatternBuffer[n]に登録する(ステップ5.04)。
【0087】
最後に、書き換えられた翻訳文形態素と修正文形態素の対応をSに分類し直し、DiffBufferの対応表を変更する(ステップ5.05)。
【0088】
以下、以上のような図16に示したパターン作成処理を具体例を用いて説明する。
【0089】
例2の場合、DiffBufferの対応表は、図13に示したようになっているので、ステップ4.03でのパターン作成処理が実行される。
【0090】
パラメータnが0(初期時)のときには、ステップ5.0lにおいて、翻訳文形態素「のため に」に係る翻訳パターンがOrgPatternBuffrerから抽出されるが、これは、図6の翻訳パターン11.2aであり、この翻訳パターン11.2aが、ChildPatternBufferに格納される。
【0091】
ChildPatternBufferに格納された翻訳パターン11.2aが1個であるので、ステップ5.02において、そのまま、OrgEntryPatternBuffer[0]に格納される。図17におけるn=0の翻訳パターンは、このときにOrgPatternBuffer[0]に格納された内容を示している。
【0092】
この翻訳パターンには、変数[1:NP]が存在するので、ステップ5.03における語彙化処理により、原文形態素“the variable”と翻訳文形態素「変数」とが翻訳パターンに挿入される。図18は、変数部を埋めた後のOrgEntryPatternBuffer[0]の格納内容である。
【0093】
次に、ステップ5.04において、OrgEntryPatternBuffer[0]のパターン中の翻訳文形態素「のため に」(図13に示す対応表の分類S’の左側)を修正文形態素「のため の」(図16に示す対応表の分類S’の右側)に置き換え、その結果をEntryPatternBuffer[0]に登録する。図19における19.2aが、図18の18.2aの翻訳文パターンに対し、翻訳文形態素「のため に」を修正文形態素「のため の」に置き換えた後の状態を示している。
【0094】
最後に、ステップ5.05において、置き換えられた翻訳文形態素と修正文形態素の対応表での分類をS’からSに分類し直し、DiffBufferを更新する。
【0095】
このような処理が終了しても、未処理の分類S’に係る対応(図13の16.2b)が残っているので、再び、パラメータnが1に更新されてステップ4.03のパターン作成処理に入ることになる。
【0096】
詳述は避けるが、この場合には、図17のn=1の既存の翻訳パターンが利用され、図19のn=1の新たな翻訳パターンが作成され、最終的には、DiffBufferの対応表は図20に示すようになる。
【0097】
この状態では、未処理の分類S’に係る対応は残っていないので、ステップ4.05の未対応があるか否かの判定処理に移行する。例2の場合であれば、未対応(Mx、Px)のものが存在しないので、ステップ4.07のパターン作成処理を実行せずに、処理が終了することになる。
【0098】
なお、例1の場合には、上述したように、ステップ4.01に移行した際のDiffBufferの差分対応表が図9に示すものであって、ステップ4.01による差分対応表の更新はなされず、ステップ4.02からステップ4.05に移行し、ステップ4.06の差分再構築処理が実行され、差分対応表が図15に示す状態になってステップ4.07のパターン作成処理に入る。パラメータnは、ステップ4.03のパターン作成処理から継続するものであるが、例1の場合には、ステップ4.03の処理が実行されていないので、ステップ4.07のパターン作成処理に入ったときは0である。
【0099】
このステップ4.07のパターン作成処理に移行したときには、パターン生成部1.32は、ステップ5.0lにおいて、分類S’の翻訳文形態素「記録 利益」を含む、図21に示す2個の翻訳パターンをOrgPatternBufrerから抽出し、ChildPatternBufferに格納する。
【0100】
次に、パターン生成部1.32は、ステップ5.02において、ChildPatternBufferの2個の翻訳パターンを含有する最も小さい上位のパターン(例えば翻訳パターン辞書1.42、1.44に格納されている)を認定し、OrgEntryPatternBuffer[0]に格納する(ステップ5.02)。図22は、この処理後のOrgEntryPatternBuffer[0]の格納内容を示すものであり、英語パターンで名詞及び名詞句が連続する翻訳パターンが格納されている。
【0101】
その後、ステップ5.03において、OrgEntryPatternBuffer[0]の翻訳パターンの変数部分が、OrgPatternBufferの格納内容(図6参照)が利用されて、語彙化される。すなわち、英語パターン及び日本語パターンの変数部分[1:N]、[2:NP]にそれぞれ、原文形態素“record”、“profit”と翻訳文形態素「記録」、「利益」とが挿入される。図23は、この変数語彙化処理後のOrgEntryPatternBuffer[0]の格納内容を示すものである。
【0102】
次に、ステップ5.04において、OrgEntryPatternBuffer[0]のパターン(日本語パターン)中の翻訳文形態素「記録 利益」を修正文形態素「収入 記録」に置き換え、その結果をEntryPatternBuffer[0]に登録する。図24は、この形態素の置き換え処理後のEntryPatternBuffer[0]の格納内容を示すものである。
【0103】
最後に、ステップ5.05において、書き換えられた翻訳文形態素と修正文形態素の対応(図15でS’が付与されていた対応)をSに分類し直し、DiffBufferの対応表を変更する。
【0104】
この分類Sへの書き換えにより、分類S’が付与されたものがなくなるので、図11に示した一連の処理を終了する。
【0105】
以上のようにして、EntryPatternBuffer[n]に登録された翻訳パターンが、ステップ3.07(図7参照)において、ユーザ翻訳パターン辞書14.4に格納され、また、形態素辞書1.41、1.43との比較によって未知語などと判明した形態素辞書登録の必要があるものは、ユーザ形態素辞書1.43にも登録される。
【0106】
そして、今回のユーザ登録内容の確認のために、翻訳命令部1.35によって、試し翻訳処理が実行される(図7のステップ3.08)。
【0107】
図25は、ステップ3.08による試し翻訳処理の流れを示すフローチャートである。
【0108】
まず、ParserFailフラグを調べ(ステップ6.01)、このフラグがonならば、全ての修正文形態素を含む翻訳パターンを作成し、それをユーザ翻訳パターン辞書1.44に登録すると共に、ParserFailフラグにendをセットする(ステップ6.02)。
【0109】
上述したように、ParserFailフラグがonになるのは、原文の構文解析を失敗したときであり(図7のステップ3.03参照)、このときは、原文と修正文の全文をそのまま翻訳パターンとして登録する。この登録は、全文に対する登録であり、英語パターン及び日本語パターンとして、以下に例示するような全文を含むものを作成すれば良いので、その詳細説明は省略する。
【0110】
[文:The class has a black board.]
[文:その教室は黒板を持っている。]
ParserFailフラグがonであって、全ての修正文形態素を含む翻訳パターンをユーザ翻訳パターン辞書1.44に登録したときには(ステップ6.02の処理を終了したときには)、又は、ParserFailフラグがonでないときには、試し翻訳する(ステップ6.03)。この試し翻訳は、原文に対して、新たな内容が反映されたユーザ辞書1.43、1.44も適用された翻訳である。
【0111】
このような試し翻訳が終了すると、ParserFailフラグがendであるか否かを判別する(ステップ6.04)。
【0112】
ParserFailフラグがendでなければ、試し翻訳結果が修正文と同一か否かを判別する(ステップ6.05)。
【0113】
試し翻訳結果が修正文と同一でないときには、上述したステップ6.02に戻って、全ての修正文形態素を含む翻訳パターンの作成を行う。
【0114】
ステップ6.04の判別によりParserFailフラグがendであるという結果を得た場合や、ステップ6.05の判別により試し翻訳結果が修正文と同一という結果を得た場合には、図25に示す一連の処理を終了する。
【0115】
このときには、図3のステップ2.10に移行し、試し翻訳結果をユーザに表示する。
【0116】
図25に示す試し翻訳処理に係る場合分けを整理すると以下の通りである。
【0117】
原文に対する当初の翻訳において、構文解析を失敗していた(ParserFailフラグがon)ときには、原文及び修正文の全体に対する翻訳パターンを作成して試し翻訳を実行し、その結果をそのままユーザに表示する。
【0118】
原文に対する当初の翻訳において構文解析が成功しており、入力された修正文を反映した翻訳パターンを作成(ステップ4.03又は4.07による作成)したときには、試し翻訳を実行し、試し翻訳結果が入力された修正文に一致するかを確認する。
【0119】
そして、一致していれば、試し翻訳結果をそのままユーザに表示する。
【0120】
一方、試し翻訳結果が修正文に一致しない場合には、原文及び修正文の全体に対する翻訳パターンを作成して試し翻訳を実行し、その結果をそのままユーザに表示する。この場合におけるステップ6.02の処理は、ステップ4.03や4.07によるパターン作成によって、適切な翻訳パターンの作成ができなかった場合であっても、今回の原文と同一の原文が入力された場合に修正文を出力させるためのものである。
【0121】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下の効果を奏することができる。
【0122】
第1の実施形態によれば、原文に対して1つの翻訳パターン(原文中の全ての形態素を含む翻訳パターン)を追加するのではなく、機械翻訳装置が既に有する翻訳パターンを利用して、原文に対する翻訳文形態素と修正文形態素とで差分があった形態素に関する翻訳パターンだけを追加することになるので、その修正文を実現するために最低限必要な辞書のみの登録となり、辞書の無駄が省け、辞書容量を抑えることができる。
【0123】
なお、差分があった形態素に関する翻訳パターンだけを追加しても、試し翻訳によって、修正文と一致しない試し翻訳結果が得られたときには、修正文全体を原文全体に対応した翻訳パターンを作成するようにしたので、今回の原文と同一の原文が入力された場合に、修正文と同一の翻訳結果を出力できることを常に保証できる。
【0124】
翻訳文形態素と修正文形態素との差分に基づいたより小さな翻訳パターンを追加することは、その追加登録した翻訳パターンの汎用性が高まることを意味する。第1の実施形態によれば、従来、問題であった“black board”を「黒板」に対応付けてユーザ登録することができる。
【0125】
このような汎用性が高い翻訳パターンを得るためにユーザが入力するのは、原文を除けば、僅かに修正文だけである。
【0126】
また、第1の実施形態で作成するユーザ翻訳パターン辞書は、システムが有する翻訳パターンと同じ仕様であるため、蓄積されたパターン辞書をシステムパターン辞書に移行することが簡単である。
【0127】
仮に、機械翻訳装置の辞書(システム辞書)が新しくなった場合でも、後編集結果を蓄積しておけば、新しい辞書を用いて再学習し、その辞書にあった新しいユーザ辞書を作成することができる。
【0128】
(B)第2の実施形態
次に、本発明による機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体を、翻訳パターンを利用して機械翻訳する機械翻訳装置等に適用した第2の実施形態を図面を参照しながら詳述する。
【0129】
(B−1)第2の実施形態の構成
図26は、第2の実施形態の翻訳パターンに基づく機械翻訳装置の構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分に、同一符号を付して示している。
【0130】
図26及び図1の比較から明らかなように、第2の実施形態の機械翻訳装置は、後編集学習部1.3内に、パターン変数化処理部1.36を有する点が第1の実施形態と異なっている。
【0131】
パターン変数化処理部1.36は、パターン生成部1.32の制御下で、修正文を反映した翻訳パターンとして、変数を含む翻訳パターンの作成に機能するものである。
【0132】
(B−2)第2の実施形態の動作
この第2の実施形態においても、第1の実施形態とほぼ同様な動作を行う。第2の実施形態が、第1の実施形態と異なる点は、ステップ4.03、4.07(図11参照)による修正文を反映した翻訳パターンの具体的な作成動作である。
【0133】
図27は、この第2の実施形態での修正文を反映した翻訳パターンの具体的な作成動作を示すフローチャートであり、第1の実施形態に係る図16との同一、対応ステップには同一符号を付して示している。
【0134】
この第2の実施形態の場合、ステップ5.04の登録パターンの作成処理を終えた後は、ステップ5.05の差分更新処理に直ちに移行するではなく、パターン変数化処理(ステップ5.06)を得た後、ステップ5.05の差分更新処理に移行するようになされている。
【0135】
パターン変数化処理は、ユーザ翻訳パターン辞書1.44に登録し得る状態となってEntryPatternBuffer[n]に格納された翻訳パターンに対して、対応が明らかな部分を再変数化する処理である。
【0136】
例えば、図19のn=0に示す翻訳パターンにおいて、“the variable”と“変数”とが対応することは、OrgPatternBufferとDiffBufferの格納内容から分かり、この部分を、カテゴリ(名詞句NP:26.2)や意味情報(抽象物:26.1)で変数化し、図28の結果を得る。
【0137】
ここで、OrgPatternBufferのパターンを直接用いない理由(図1の14.2aのような翻訳パターンを直接用いない理由)は、OrgPatternBufferの変数に依存せずに、できるだけ多くの対応部分を変数化したいためである。なお、OrgPatternBufferのパターンを活かして、修正文を反映したしかも変数部分を含む新たな翻訳パターンを作成するようにしても良い。
【0138】
変数化の際に必要なカテゴリ(26.2)や意味情報(26.1)は、OrgPatternBuffer中の変数化する形態素を含む翻訳パターンの右辺のカテゴリをみることで得られる。なお、翻訳パターン辞書1.42や1.44の意味情報などをも利用して変数化するようにしても良い。
【0139】
(B−3)第2の実施形態の効果
第2の実施形態によっても、第1の実施形態と同様な効果を得ることができ、さらに、以下の効果を奏することができる。
【0140】
修正文を反映して作成する翻訳パターンを変数化することにより、パターンの汎用性をより高めることができ、その結果、翻訳処理で利用される適用率を高くすることができる。
【0141】
また、単に変数化するのではなく、変数化部分に意味などの条件を付与することもでき、適用率だけでなく、適用正解率をも高くすることができる。
【0142】
さらに、従来では、複数の類似例文が存在しないと変数化できなかったが、第2の実施形態では、例文が1文(修正文)だけでも変数化が可能である。
【0143】
(C)他の実施形態
上記各実施形態の変形実施形態としては、以下に例示するようなものを挙げることができる。
【0144】
上記各実施形態では、1文毎に機械翻訳と後編集をする方法を示したが、1文毎でなく複数文単位の処理も可能である。すなわち、複数文を翻訳処理し、それらの構文生成結果と形態素生成結果をバッファやファイル等に蓄積しておき、後でそれらの後編集をし、後編集が全て終了した後、その全ての試し翻訳をするようにしても良い。なお、上記説明では、例1及び例2を用いたが、あくまでも1文単位の処理である。
【0145】
また、上記各実施形態では、後編集結果からの学習により、ユーザ登録する翻訳パターンを学習するものを示したが、原文と模範翻訳文から学習するようにしても良い。その場合は、例えば、原文と模範翻訳文とを入力し、まず、原文を機械翻訳し、構文解析・生成結果と形態素生成結果を格納し、翻訳文を得てから、模範翻訳文を、上記各実施形態の修正文と同様に扱って同様な処理を行なう。この場合には、作成された翻訳パターンなどをユーザ辞書ではなく、システム辞書に登録するようにしても良い。
【0146】
さらには、前編集結果からの学習も可能である。その場合は、例えば、前編集される前の原文と前編集後の原文とを入力し、まず、前編集をする前の原文を機械翻訳し、その構文解析・生成結果と形態素生成結果を格納し、それを翻訳文とし、次に、前編集後の原文を機械翻訳し、その翻訳結果を上記各実施形態の修正文(模範翻訳文)と同様に扱って同様の処理を行なう。
【0147】
上記各実施形態は、原言語が英語であって目的言語が日本語である場合を示したが、原言語及び目的言語の組み合わせがこの組み合わせに限定されないことは勿論である。
【0148】
本発明は双方向の機械翻訳を実行できるものを意図しているが、目的言語文に対する形態素解析機能を持たせたならば、一方向の機械翻訳を実行できるものにも適用することができる。
【0149】
双方向の機械翻訳を実行できる装置であれば、以下のようにして、翻訳パターンを充実させるようにしても良い。修正文を原文とし、当初の原言語での原文を修正文(模範翻訳文)として、逆方向の機械翻訳機能を使って新たな翻訳パターンを作成するようにしても良い。さらには、双方向の機械翻訳機能で作成した新たな翻訳パターンを照合して、作成した翻訳パターンの精度を向上させるようにしても良い。
【0150】
上記各実施形態では、作成した翻訳パターンの確認のために試し翻訳の結果が修正文と一致しないときには(図25のステップ6.05でNO)、直ちに、修正文全文に係る翻訳パターンを作成するものを示したが、翻訳パターンを徐々に拡大しながら、試し翻訳を繰り返し、修正文と同一の試し翻訳結果が得られたときに翻訳パターンの拡大を停止してそれを登録するようにしても良い。ここで、翻訳パターンの拡大は、例えば、既に作成した翻訳パターンに前後の形態素の情報を反映させて翻訳パターンが対象とする形態素数を増大させることをいう。
【0151】
第2の実施形態のような修正文が反映されて作成された翻訳パターンに変数化部分を設けるという技術思想は、修正文全体に係る翻訳パターンを作成する際(例えば、図25のステップ6.02)にも適用でき、以下の効果を奏することができる。
【0152】
原文:There are not many gardenerslike him left.
翻訳文:左に彼のように多くの庭師がいない。
【0153】
修正文:彼のような庭師はほとんど残っていない。
【0154】
上記のような入力に対し、
[Sentence:there[1:BE]many[2:NP]like[3:Prn]left]
[文:[3:Prn]のような[2:NP1]はほとんど残る ている[1:Jd]]
のような文の翻訳パターンも第2の実施形態と同様の処理で獲得することができる。すなわち、従来方法(特開平6−119378号公報)でいうところの単語辞書、変数化なし文法規則、変数つき文法規則を、第2の実施形態によれば、全て同じ方法で獲得することができる。因みに、従来方法では、獲得される情報の種類により獲得方法が異なっていた。
【0155】
第2の実施形態に関しては、変数化された部分は意味だけでなく別の条件(動詞句の場合ならば時制)を付与するようにしても良い。
【0156】
また、第2の実施形態に関しては、変数化時に、変数化による副作用(変数化することにより、翻訳パターンの適用範囲は広くなるので、間違って適用される可能性が増える)を考慮に入れて、変数化するか否かの判断処理を加えることもできる。変数化するか否かの判定方法としては、例えば、変数部分以外の形態素数や変数化するカテゴリ(ex.NP、VP)などをパラメータとして算出される評価値としての変数化可能度(例えば、パラメータの固定重み付けの加算処理などによる)を計算し、閾値を越えた場合だけ変数化するようにしても良い。
【0157】
なお、本発明の技術思想は、翻訳パターンを利用して機械翻訳する装置に対して有効なものであるが、翻訳パターンを利用しない機械翻訳装置における単語登録に対しても適用することができる。
【0158】
【発明の効果】
以上のように、本発明の機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体によれば、登録に要する模範文が少なくても汎用性が高い辞書登録を行うことができるようになる。
【図面の簡単な説明】
【図1】第1の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図2】翻訳パターン例を示す説明図である。
【図3】第1の実施形態の機械翻訳装置の翻訳動作を示すフローチャートである。
【図4】第1の実施形態の動作説明に用いる原文、翻訳文、修正文の例を示す説明図である。
【図5】第1の実施形態の形態素生成結果(翻訳文形態素)例を示す説明図である。
【図6】第1の実施形態の構文解析生成結果(一部)の例を示す説明図である。
【図7】第1の実施形態の後編集学習処理(ステップ2.09)を示すフローチャートである。
【図8】第1の実施形態の形態素解析結果(修正文形態素)例を示す説明図である。
【図9】第1の実施形態の翻訳文形態素及び修正文形態素間の差分検出結果の例(DiffBufferの対応表)を示す説明図である。
【図10】第1の実施形態の差分パターンの辞書引き処理結果の例を示す説明図である。
【図11】第1の実施形態のパターン作成処理(ステップ3.06)を示すフローチャートである。
【図12】第1の実施形態のDiffBufferの対応表の交差解消の説明図である。
【図13】第1の実施形態の交差解消後のDiffBufferの対応表の例を示す説明図である。
【図14】第1の実施形態のDiffBufferの対応表における差分再構築方法の説明図である。
【図15】第1の実施形態の差分再構築後のDiffBufferの対応表の例を示す説明図である。
【図16】第1の実施形態のパターン作成処理(メイン処理:ステップ4.03、4.07)を示すフローチャートである。
【図17】第1の実施形態の例2に対する既存パターン抽出処理(ステップ5.01)後のバッファ内容の説明図である。
【図18】第1の実施形態の例2に対する変数語彙化処理(ステップ5.03)後のバッファ内容の説明図である。
【図19】第1の実施形態の例2に対する登録パターン作成処理(ステップ5.04)後のバッファ内容の説明図である。
【図20】第1の実施形態の例2に対する差分更新処理(ステップ5.05)後のバッファ内容の説明図である。
【図21】第1の実施形態の例1に対する既存パターン抽出処理(ステップ5.01)後のバッファ内容の説明図である。
【図22】第1の実施形態の例1に対する最小パターン認定処理(ステップ5.02)後のバッファ内容の説明図である。
【図23】第1の実施形態の例1に対する変数語彙化処理(ステップ5.03)後のバッファ内容の説明図である。
【図24】第1の実施形態の例1に対する登録パターン作成処理(ステップ5.04)後のバッファ内容の説明図である。
【図25】第1の実施形態の試し翻訳処理(ステップ3.08)を示すフローチャートである。
【図26】第2の実施形態の機械翻訳装置の機能的構成を示すブロック図である。
【図27】第2の実施形態のパターン作成処理(メイン処理:ステップ4.03、4.07)を示すフローチャートである。
【図28】第2の実施形態の例2に対するパターン変数化処理(ステップ5.06)後のバッファ内容の説明図である。
【符号の説明】
1.1…入出力部、
1.11…出力処理部、
1.12…入力処理部、
1.2…翻訳処理部、
1.21…形態素解析・生成部、
1.22…構文解析・生成部、
1.3…後編集学習部、
1.31…処理判定部、
1.32…パターン生成部、
1.33…差分検出処理部、
1.34…パターン辞書引き部、
1.35…翻訳命令部、
1.36…パターン変数化処理部、
1.3a…バッファ、
1.4…辞書格納部、
1.41…形態素辞書(システム形態素辞書)、
1.42…翻訳パターン辞書(システムパターン辞書)、
1.43…ユーザ形態素辞書、
1.44…ユーザ翻訳パターン辞書。

Claims (14)

  1. 原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録する機械翻訳用辞書登録装置であって、
    上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る翻訳文形態素生成手段と、
    上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る模範文形態素解析手段と、
    得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する差分検出処理手段と、
    上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る辞書引き処理手段と、
    上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する登録内容生成手段とを有し、
    上記登録内容生成手段は、
    上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる差分更新部と、
    上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第1の自動生成部と、
    上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す差分再構築部と、
    上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第2の自動生成部とを有する
    ことを特徴とする機械翻訳用辞書登録装置。
  2. 上記機械翻訳用辞書が、原言語の形態素又は形態素群に対する出現パターンである原言語パターンと、それに対応する目的言語の形態素又は形態素群に対する出現パターンである目的言語パターンとを対としている翻訳パターンを格納しているものであり、
    上記登録内容生成手段が、翻訳パターンを自動生成する
    ことを特徴とする請求項1に記載の機械翻訳用辞書登録装置。
  3. 上記翻訳パターンが、「文」や「名詞句」などのカテゴリと意味などの条件で抽象化された変数部分を含むことがあるものであり、
    上記登録内容生成手段が、上記差分検出処理手段による差分検出結果と上記辞書引き処理手段による辞書引き結果とで対応が付いた部分があるか否かに基づき、変数化可能な部分を判定し、その部分を変数部分とした翻訳パターンを自動生成する
    ことを特徴とする請求項2に記載の機械翻訳用辞書登録装置。
  4. 上記原言語文が、機械翻訳に供する入力文であり、上記模範翻訳文が、上記入力文に対して得られた翻訳文に対して後編集が施された修正文であることを特徴とする請求項1〜3のいずれかに記載の機械翻訳用辞書登録装置。
  5. 上記原言語文が、前編集がなされる前の原文であり、上記模範翻訳文が、前編集が為された原文に対する翻訳文であることを特徴とする請求項1〜3のいずれかに記載の機械翻訳用辞書登録装置。
  6. 請求項1〜5のいずれかの機械翻訳用辞書登録装置を有することを特徴とする機械翻訳装置。
  7. 原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録する機械翻訳用辞書登録方法であって、
    翻訳文形態素生成手段と、模範文形態素解析手段と、差分検出処理手段と、辞書引き処理手段と、登録内容生成手段とを備えると共に、
    上記登録内容生成手段が、差分更新部と、第1の自動生成部と、差分再構築部と、第2の自動生成部とを有し、
    上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る上記翻訳文形態素生成手段が実行する翻訳文形態素生成処理と、
    上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る上記模範文形態素生成手段が実行する模範文形態素解析処理と、
    得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する、上記差分検出処理手段が実行する差分検出処理と、
    上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る、上記辞書引き処理手段が実行する辞書引き処理と、
    上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する、上記登録内容生成手段が実行する登録内容生成処理とを含み、
    上記登録内容生成処理は、
    上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる、上記差分更新部が実行する差分更新処理と、
    上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する、上記第1の自動生成部が実行する第1の自動生成処理と、
    上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す、上記差分再構築部が実行する差分再構築処理と、
    上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する、第2の自動生成部が実行する第2の自動生成処理とを有する
    ことを特徴とする機械翻訳用辞書登録方法。
  8. 上記機械翻訳用辞書が、原言語の形態素又は形態素群に対する出現パターンである原言語パターンと、それに対応する目的言語の形態素又は形態素群に対する出現パターンである目的言語パターンとを対としている翻訳パターンを格納しているものであり、
    上記登録内容生成処理が、翻訳パターンを自動生成する
    ことを特徴とする請求項7に記載の機械翻訳用辞書登録方法。
  9. 上記翻訳パターンが、「文」や「名詞句」などのカテゴリと意味などの条件で抽象化された変数部分を含むことがあるものであり、
    上記登録内容生成処理が、上記差分検出処理による差分検出結果と上記辞書引き処理による辞書引き結果とで対応が付いた部分があるか否かに基づき、変数化可能な部分を判定し、その部分を変数部分とした翻訳パターンを自動生成する
    ことを特徴とする請求項8に記載の機械翻訳用辞書登録方法。
  10. 上記原言語文が、機械翻訳に供する入力文であり、上記模範翻訳文が、上記入力文に対して得られた翻訳文に対して後編集が施された修正文であることを特徴とする請求項7〜9のいずれかに記載の機械翻訳用辞書登録方法。
  11. 上記原言語文が、前編集がなされる前の原文であり、上記模範翻訳文が、前編集が為された原文に対する翻訳文であることを特徴とする請求項7〜9のいずれかに記載の機械翻訳用辞書登録方法。
  12. 請求項7〜11のいずれかの機械翻訳用辞書登録方法を含むことを特徴とする機械翻訳方法。
  13. 原言語文と、その原言語文に対する模範翻訳文とが入力され、これら原言語文及び模範翻訳文から、機械翻訳用辞書への新規登録内容を形成して登録する機械翻訳用辞書登録プログラムであって、
    コンピュータを、
    上記原言語文に対する、目的言語での形態素生成結果を、上記機械翻訳用辞書を用いて得る翻訳文形態素生成手段と、
    上記模範翻訳文に対する形態素解析結果を、上記機械翻訳用辞書を用いて得る模範文形態素解析手段と、
    得られた目的言語での形態素生成結果と、模範翻訳文に対する形態素解析結果とを比較し、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と、目的言語での形態素生成結果及び模範翻訳文に対する形態素解析結果にある、他の形態素の対応との交差が生じていない形態素に分類する差分検出処理手段と、
    上記差分検出処理手段によって目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と分類された形態素を、目的言語の要素として含む、上記翻訳文形態素生成手段が適用した辞書内容における原言語の要素を含む他の辞書内容を、上記機械翻訳用辞書を検索して得る辞書引き処理手段と、
    上記差分検出処理手段による差分検出結果と、上記辞書引き処理手段による辞書引き結果とを用いて、新規登録する辞書内容を自動生成する登録内容生成手段と
    して機能させると共に、
    上記登録内容生成手段として機能させるプログラム部分が、コンピュータを、
    上記差分検出処理手段によって模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素と分類された形態素が、上記辞書引き処理手段の検索で得られた他の辞書内容の要素である場合には、模範翻訳文に対する形態素解析結果にある形態素若しくはそれを含む形態素列と、上記他の辞書内容を検索させるトリガとなった目的言語での形態素生成結果との形態素若しくはそれを含む形態素列とを対応付け、上記差分検出処理手段による分類を修正させる差分更新部と、
    上記差分更新部によって対応付けられたものがあれば、対応付けられた、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付けられた模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第1の自動生成部と、
    上記差分更新部の処理後においても、目的言語での形態素生成結果にあって模範翻訳文に対する形態素解析結果にない形態素と、模範翻訳文に対する形態素解析結果にあって目的言語での形態素生成結果にない形態素とに分類されているものが残っているときに、これらの分類をなくすように、予め定められているルールに従って、目的言語での形態素生成結果の形態素若しくは形態素列と、模範翻訳文に対する形態素解析結果の形態素若しくは形態素列とを対応付け直す差分再構築部と、
    上記差分再構築部によって対応付け直されたものがあれば、対応付け直された、目的言語での形態素生成結果の形態素若しくは形態素列を生成させた上記機械翻訳用辞書における辞書内容の目的言語の形態素若しくは形態素列を、対応付け直された模範翻訳文に対する形態素解析結果の形態素若しくは形態素列に置き換えて、新規登録する辞書内容を自動生成する第2の自動生成部として機能させる部分を含む
    機械翻訳用辞書登録プログラムを、
    コンピュータが読取可能に記録していることを特徴とする記録媒体。
  14. 機械翻訳用辞書登録プログラムを一部に含む機械翻訳プログラムであって、上記機械翻訳用辞書登録プログラムが請求項13に記載されているものである機械翻訳プログラムを、コンピュータが読取可能に記録していることを特徴とする記録媒体。
JP2001116927A 2001-04-16 2001-04-16 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 Expired - Fee Related JP4330285B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001116927A JP4330285B2 (ja) 2001-04-16 2001-04-16 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
US10/105,394 US6920419B2 (en) 2001-04-16 2002-03-26 Apparatus and method for adding information to a machine translation dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001116927A JP4330285B2 (ja) 2001-04-16 2001-04-16 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002312357A JP2002312357A (ja) 2002-10-25
JP4330285B2 true JP4330285B2 (ja) 2009-09-16

Family

ID=18967580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001116927A Expired - Fee Related JP4330285B2 (ja) 2001-04-16 2001-04-16 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体

Country Status (2)

Country Link
US (1) US6920419B2 (ja)
JP (1) JP4330285B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
EP1677207A4 (en) * 2003-03-14 2010-05-05 Fujitsu Ltd TRANSLATION ASSISTING DEVICE
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
US7711544B2 (en) * 2004-11-09 2010-05-04 Sony Online Entertainment Llc System and method for generating markup language text templates
US7983895B2 (en) * 2004-11-09 2011-07-19 Sony Online Entertainment Llc System and method for generating grammatically correct text strings
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP2007233486A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法
US20070282594A1 (en) * 2006-06-02 2007-12-06 Microsoft Corporation Machine translation in natural language application development
EP1881458B1 (en) * 2006-07-21 2011-06-08 Dassault Systèmes Computer-implemented process for creating a parametric surface
JP4536747B2 (ja) * 2007-04-19 2010-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 広告選択システム、方法及びプログラム
US8713029B2 (en) * 2007-11-05 2014-04-29 Verizon Patent And Licensing Inc. Method and apparatus for providing auto-completion of information
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
WO2011016078A1 (ja) * 2009-08-04 2011-02-10 株式会社 東芝 機械翻訳装置および翻訳プログラム
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
CN102591858B (zh) * 2011-11-11 2016-06-22 张生麟 一种机器翻译的方法和装置
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
EP2660782B1 (en) 2012-05-02 2019-04-10 Dassault Systèmes Designing a 3D modeled object
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
EP3038060B1 (en) 2014-12-23 2021-09-15 Dassault Systèmes 3D modeled object defined by a grid of control points
EP3051446A1 (en) 2015-02-02 2016-08-03 Dassault Systèmes Engraving a 2D image on a subdivision surface
US11270083B2 (en) * 2015-02-26 2022-03-08 Micro Focus Llc Obtaining translations utilizing test step and subject application displays
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
KR20170107808A (ko) * 2016-03-16 2017-09-26 이시용 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US10996930B1 (en) * 2019-10-29 2021-05-04 Microsoft Technology Licensing, Llc Rules generation using learned repetitive code edits

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2089177C (en) * 1990-08-09 2002-10-22 Bruce R. Baker Communication system with text message retrieval based on concepts inputted via keyboard icons
JPH04235672A (ja) * 1991-01-10 1992-08-24 Sharp Corp 翻訳装置
JP2765665B2 (ja) * 1991-08-01 1998-06-18 富士通株式会社 タイポグラフィカル情報付き文書の翻訳装置
JPH06119378A (ja) 1992-10-08 1994-04-28 Fujitsu Ltd 機械翻訳システムにおけるユーザ・チューニング機構
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system

Also Published As

Publication number Publication date
JP2002312357A (ja) 2002-10-25
US6920419B2 (en) 2005-07-19
US20020152081A1 (en) 2002-10-17

Similar Documents

Publication Publication Date Title
JP4330285B2 (ja) 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
US5895446A (en) Pattern-based translation method and system
US5999896A (en) Method and system for identifying and resolving commonly confused words in a natural language parser
US5289375A (en) Translation machine
JP3377290B2 (ja) イディオム処理機能を持つ機械翻訳装置
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
JPS62163173A (ja) 機械翻訳方法
JP2004355204A (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
Neme A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers
JP7511381B2 (ja) 文生成装置、文生成方法および文生成プログラム
JPH0351022B2 (ja)
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JP3387437B2 (ja) 機械翻訳校正装置
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
JP2704945B2 (ja) 重複表現処理装置
Diaconescu et al. General system for normal and phonetic inflection
JP2655703B2 (ja) 日本語文推敲処理方法
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JP3051747B2 (ja) 機械翻訳方法及び機械翻訳システム
JP2000029878A (ja) 翻訳知識学習方法および装置、機械翻訳方法および装置
JPH05257969A (ja) 機械翻訳方法および装置
JP2002032369A (ja) 辞書作成装置
Sayeed Developing a minimalist parser for free word order languages
JPH05342258A (ja) 自然語処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060922

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090616

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees