JPH04160473A - 事例再利用型翻訳方法および装置 - Google Patents

事例再利用型翻訳方法および装置

Info

Publication number
JPH04160473A
JPH04160473A JP2284240A JP28424090A JPH04160473A JP H04160473 A JPH04160473 A JP H04160473A JP 2284240 A JP2284240 A JP 2284240A JP 28424090 A JP28424090 A JP 28424090A JP H04160473 A JPH04160473 A JP H04160473A
Authority
JP
Japan
Prior art keywords
translation
bilingual
text
typical
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2284240A
Other languages
English (en)
Inventor
Fumiyuki Yamano
山野 文行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2284240A priority Critical patent/JPH04160473A/ja
Publication of JPH04160473A publication Critical patent/JPH04160473A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、ある言語で記述されたテキストを編集する文
書編集装置、および、第1言語で記述されたテキストを
第2言語で記述されたテキストに変換する言語間め翻訳
処理装置に関し、特に類似の文を多く含む文を効率的に
編集したり翻訳するのに好適な処理方式に関するもので
ある。
〔従来の技術〕
従来より、第1言語から第2言語への翻訳処理装置にお
いては、処理の対象を一文単位に限定し′  ており、
複数の文から構成されるテキストを翻訳するような場合
でも、テキストから一文ずつ取り出して翻訳処理を行な
い、その翻訳結果を連接して翻訳テキストを得るという
方式が一般に採られている。この種の翻訳処理に関連す
る発明としては、特開昭58−40684号([自然言
語間の自動翻訳方式」)や特開昭59−121574号
(「翻訳処理方式」)等が挙げられる。
〔発明が解決しようとする課題〕
翻訳処理装置で扱う文書は、一般に複数の文から構成さ
れるものが多い。内容的にまとまった文書であれば、類
似の文を多用することが一般的である。さらに、扱う文
書の分野や文書の種類が限定されると、同−文や類似文
が数多く含まれる傾向にある。この代表例として、マニ
ュアルを挙げることができる。
従来の翻訳処理装置では、類似の文を多く含む文書を翻
訳する場合、既に翻訳済みの文と同一または類似な文が
再度入力されても、新たに翻訳処理を駅動するものであ
る。その結果、同一の文を何度も翻訳するといった処理
時間の無駄や、類似文の翻訳結果が均一にならないとい
った問題点があった。
本発明の目的は、このような従来の問題点を改善し、類
似の文を効率よく管理し、類似文のパターンを対訳形式
で保持し、類似文に対してはパターン主体の翻訳処理方
式を適用することにより、重複した翻訳処理を回避し、
類似文の翻訳精度を均一に維持する、翻訳作業効率の高
い翻訳処理装置を提供することにある。さらには、翻訳
処理のみならず、文書を管理・維持していく上で、類似
の文を効率よく管理し、類似文のパターンを保持し、類
似文に対しては均一の表現に統一する文書編集処理装置
を提供することも本発明の目的である。
〔課題を解決するための手段〕
上記の問題点を解決するため、本発明の機械翻訳方式は
、 予め、翻訳対象文書について類似の文毎にクラスタリン
グする手段と、既に翻訳した文書に対して類似の文毎に
クラスタリングを行い、対訳形式で対訳事例ベースとし
て管理する手段と、前記の対訳事例ベースのクラスタリ
ングされた文から対訳形式の典型パターンを抽出する手
段と、入力文に対して類似の対訳典型パターンを検索し
、検索した対訳典型パターンを利用して1文中の類似し
ない要素のみ部分的に翻訳処理を行ない、交会体の訳文
を合成する手段を有することを特徴とする。
さらに、本発明の文書処理装置では、予め編集対象文書
について類似の文毎にクラスタリングする手段と、類似
文に関しては類似文毎に管理する手段と1文書中の文を
編集する際に、類似文を有する文かどうかをチェックす
る手段と、類似文を含む文を編集した場合は、類似文を
抽出・表示し、編集者に類似文の編集の必要性をチェッ
クさせる手段を有することを特徴とする。
〔作用〕
上記手段により、文発明を適用いた翻訳処理装置では、
既に翻訳した文書の対訳を利用することにより、類似文
を翻訳する場合、類似典型パターンと異なる要素の部分
のみ翻訳すればよく、翻訳処理を軽減することができる
。さらに、入力文書に対しても予め類似文毎にクラスタ
リングしておくことにより入力交会てを機械翻訳処理の
対象とする必要がなくなり、訳翻処理効率が向上する。
また、従来方式では、類似文でも構成要素が微妙に異な
っただけで入力文の構文解析結果が微妙に異なったり、
解析処理に失敗したりといった問題が発生していたが、
本発明により、類似の文の翻訳精度は均一に保てるとい
うメリットも生じる。
一方、本発明を適用した文書処理装置においては1文書
の編集操作時に、文書中の類似文を確認することが容易
になるため、マニュアルなどの編集操作において2表現
のバラツキを防止し、表現上統一された文書の校正処理
効率が向上する。
さらに、典型対訳パターンの抽出手段により、翻訳事例
からパターンの自動学習が可能となる。
すなわち、翻訳結果を再利用することにより翻訳処理の
ためのパターンデータを逐次自動的に増補していくこと
が容易に実現できるため、翻訳装置の利用者は翻訳規則
の調整を行わずとも翻訳精度を向上させることが可能と
なる。
〔実施例〕
去】111 以下、本発明を実施例を参照して詳細に説明する。−実
施例として、英語から日本語への翻訳を行なう翻訳処理
装置について述べる。
第1図は、本発明の一実施例を示すブロック図を表わす
。図中、■はデイスプレィ等の高力装置、2はキーボー
ド等の入力装置、3はプロセッサ。
4はメモリ、5は原文ファイル、6は訳文ファイル、7
は英日辞書ファイル、8は日本語辞書ファイル、9は凹
型対訳パターンファイル、10はクラスタリングファイ
ル、11は対訳事例ファイルをそれぞれ示す、プロセッ
サ3は、さらに、テキスト正規化処理部31.テキスト
比較処理部32゜テキストクラスタリング処理部33.
翻訳処理部34、パターン主導型翻訳処理部35.パタ
ーン抽出処理部36.パターン登録処理部37から構成
される。
次に1本発明による翻訳処理の流れを第2図に示すフロ
ーに従って具体的に説明する。
(201)英文ファイル5に格納されている翻訳対象英
文について、全ての英文テキスト同士の類似度を算出し
たのち、英文テキストのクラスタリングを行なう。
ここで、2つのテキストの類似度の算出方法について説
明しておく、基本的な考え方は、テキストの構成要素が
出現順序で一致するかどうかの相関を調べることにより
類似度を求める。
すなわち、第5図(a)のグラフに示すように、2つの
テキストの構成要素(英語の場合は単語。
日本語の場合は文節とすればよい)を抽出し、それぞれ
X軸、Y軸に出現順序にしたがって配置する。続いて、
X軸とY軸で構成要素が一致する座標を*でプロットす
る。プロットした点について、Y=X+α(αは変動し
てよい)の関係を満たし、プロット点をたどった場合、
右上がりの線になるような最長の線を求める。ここで、
順序関係が隣同士の構成要素にあるプロット点がn個連
続して出現する場合、連接一致距離を(n−1)と定義
する。図中、WalからWa3までは、連続一致距離が
2とぼる。この連続一致距離と、零でプロットされた点
を辿った軌跡が右上がりの線となる構成要素の一致個数
を用いて、2つのテキストの類似度を次式で算出する。
但し、テキストの末尾の句読点は、類似度算出の対象外
とする。
実際に類似度を算出した例を、第5図(b)と(c)に
示す。第5図(b)の3つの英文は、上記の算出式に従
えば、お互いに類似度が0.86になる。一方、第5図
(c)では、類似度は0.71になる。
以下、第4図に示すフローに従って、類似度の評価方法
について説明する。
(401)翻訳対象の全ての英文テキストについて、テ
キストの構成要素に分割する。ここでは、英文テキスト
が対象であるので単語間の空白や句読点をチェックする
ことにより単語毎に分割していけばよい。日本文テキス
トの場合は、日本語辞書ファイル4中の自立語や付属語
の情報を利用して文節単位に分割すればよい。日本語テ
キストからの文節抽出方法については、長尾編「言語の
機械処理J  (1984年刊三省堂発行)のp p、
61−81に記載された方法を利用することが可能であ
り、説明は省略する。
(402)テキストの構成要素を正規化する。
正規化処理とは、次のような構成要素列の置き換え、削
除を行なう。ここでは、英文テキストを対象にした正規
化処理について説明する。
(1)数字から構成される単語を、NNNNNNに置換
する。
(2)大文字で始まる単語を、固有名詞とみなして、p
pppppに置換する。
(3) NNNNNNが連続して現れる場合、1つの構
成要素に縮退させる。
(4) PPPPPPが連続して現れる場合、1つの構
成要素に縮退させる。
さらに、正規化処理の一環として、英日辞書ファイル7
を利用して形態素処理を行うことにより、活用変化語を
原形に変換することも考えられる。
形態素処理方法については、特開昭58−40684号
に開示された方法を利用することが可能であり、説明は
省略する。
(403)正規化処理を施したテキストについて順次2
つのテキストを抽出し、テキスト間の類似度を算出する
(404)類似度がある閾値(例えば、0.5)より大
きい場合には、類似文によるクラスタリング処理を行な
うべく、(405)の処理へ移行する。類似度な閾値よ
り小さければ、(406)の処理へ移行する。
(405)類似度のある2つの英文テキストの文番号を
ペアにしてメモリ4に一時退避しておく。
(406)類似度の算出を全てのテキストの組み合わせ
について行なったかどうかチェックし、未完であれば(
403)、完了であれば(407)の処理へ移行する。
(407)メモリ4中の類似の関係にある英文テキスト
の文番号の対(二項関係)を調べ、2つの二項関係から
部分的に一致する文番号があれば、同一のクラスタにセ
ットしていく。この操作を有限回繰り返すことにより、
お互いに類似関係のないクラスタが抽出できる。その結
果をクラスタリングファイル10に格納する。
ここで、第3図を用いて、クラスタリングファイル10
と他のファイルの関係を説明する。
クラスタリングファイル10には、クラスタリングされ
た英文テキストの各クラスタ単位に、クラスタリング番
号と複数個の英文テキストの文番号(原文番号)を蓄積
しておく。併せて、個々の英文テキストに対応する訳文
の文番号(訳文番号)を原文番号と対応して蓄積してい
く。原文番号。
訳文番号は、それぞれ、原文ファイル5と訳文ファイル
6に蓄積されている原文テキストと訳文テキストをアク
セスするための文番号に対応する。
さらに、クラスタ毎に、典型対訳パターンファイル9へ
のアクセス用の典型対訳パターン番号を格納しておく。
原文ファイル5には、原文テキストに対応して、文番号
と督録日時、さらに、テキストが更新された際に記入す
る更新日時と、クラスタリングファイル中の対応するク
ラスタリング番号を格納しておく。訳文ファイル6には
、原文ファイル5中の原文に対応する文番号と同一の文
番号をアクセスキーとして、訳文テキスト、更新日時、
さらに、クラスタリングファイル中の対応するクラスタ
リング番号を格納しておく。
テキスト間の類似度を利用して英文テキストのクラスタ
リング処理により、クラスタリングファイル10には、
クラスタ毎に類似の英文テキストの文番号が蓄積されて
いる。これらの類似の英文中、出現順序が最初の英文テ
キストをクラスタの典型テキストとする。
(202)原文ファイル5から翻訳対象の英文テキスト
を出現順に抽出する。
(203)英文テキストが、類似文を持つがどうかチェ
ックし、持てば(204)、持たなければ(207)の
処理へ移行する。ここで、チェック方法としては、原文
ファイル5中のクラスタリング番号がセットされている
かどうかをチェックすればよい6クラスタリング番号が
セットされていないということは、原文テキスト中に類
似の文が存在しないことを示す。類似の文が存在しない
場合は、従来通りの翻訳処理を適用すればよい。
(204)英文テキストが類似文を持つので、典型対訳
ファイル9をアクセスし、対応する典型訳文パターンが
存在するかどうかチェックする。
典型訳文パターンがセットされていれば(205)へ、
セットされていなければ(208)の処理へそれぞれ移
行する。
(205)典型対訳ファイル9に登録しである典型原文
パターンと典型訳文パターンの対応関係を利用して、パ
ターン主導型の翻訳処理を行なう。
ここで、パターン主導型の翻訳処理について。
第7図に示す処理フローに従って説明する。
(701)翻訳対象の英文テキストと典型原文パターン
の構成要素(この場合は単語とみなしてよい)を比較し
、構成要素の共通部分と異なり部分を区別する。異なり
部分をその出現順序に従って、順次、変数化部1.変数
化部2.変数化部3゜・・・変数化部n、・・・のよう
に対応付けしておく。
−例として第8図に示すような英文テキスト、”Th1
s character set has a dif
ferent mappingfrom A S CI
 I code、”を翻訳する場合、典型原文パターン
として、Th1s IN set has adiff
erens mapping  form IN co
de、”が登録されていれば、 ”character
”が変数化部1で最初のINに対応付けされ、”ASC
II”が変数化部2で2番目のINに対応付けされる。
(702)変数化部として抽出された単語列を。
順次、翻訳する。その際、原文パターン中の変数化部に
対応する要素として、名詞句であればIN、動詞句であ
れば!vPのように構文要素の識別名が付与されている
ので、変数化部に対応する構文要素となるように、あら
がしめ構文解析結果に予測して構文解析を行ない翻訳結
果の訳語を得ることができる。
第8図の例では、characterがINに対応し、
最初のINの訳は、「キャラクタ」になることがわかる
。さらに、ASCIIが2番目のINに対応し。
語がrAscIIJとなる。
(703)訳文パターン中の変数化部を(702)のス
テップで抽出した訳語で置き換える。
第8図では、訳文パターン「この!Nセットは!Nコー
ドと対応が異なる。」に対して、2つの変数化部が存在
し、最初の変数化部には「キ岑うクタ」が、2番目の変
数化部にはrAscI工」がそれぞれ対応して置き換え
られる。
第8図の例では、原文パターン中の変数化部の出現順序
と訳文パターン中の変数化部の出現順序が同じ順序で対
応付けされているが、両者の順序関係が異なる場合には
、訳文パターン中の変数化部の記述において、!(*)
N と記述することにより、原文パターン中のm番目の
変数化部+Nに対応することを明記し、変数化部の出現
順序を制御することができる。なお、!(■)Nの記述
において、(+=)が省略された場合は、原文パターン
中の出現順序と同じ順序関係で対応しているとみなす。
さらに、訳文パターン中に、原文パターン中の同一の変
数化部に対応する変数化部が複数存在してもよく、その
場合には、(■)は省略できないものとする。
(704)(701)で抽出した変数化部登すべて翻訳
処理したかどうがチェックし、未完であれば(702)
の処理へ移行し、完了であればすべての処理を終了する
以上の処理結果、翻訳対象テキストに対応する訳文テキ
ストとして、「このキャラクタセットはASCIIコー
ドと対応が異なる。」が最終的に得られることになる。
(206)パターン主導型の翻訳処理の結果、訳文の編
集が行なわれた場合、(209)の処理へ移行する。こ
れは、登録済みの典型対訳パターンが適切でなくて訳文
の修正が必要になった場合を考慮して典型対訳パターン
を補正するためである。
(207)英文テキストを、既に公知となっている翻訳
処理装置を用いて翻訳する。S駅処理装置の実現方式と
しては、例えば、特開昭58−40684  (自然言
語間の自動翻訳方式)に開示された方法を用いることが
可能であり説明す省略する。
(208)典型パターンの翻訳を行なう。
(207)と同様、英文テキストを、既に公知となって
いる翻訳処理装置を用いて翻訳する。翻訳後、対訳パタ
ーンを抽出・登録するために(209)の処理へ移行す
る。
(209)英文テキストとその翻訳結果によって得られ
た訳文テキストから対訳パターンを抽出し、抽出した対
訳パターンを典型対訳ファイル9に格納する。
ここで、対訳事例から対訳パターンを抽出する方式につ
いて説明する。対訳パターンの抽出として、新規にパタ
ーンを登録する場合と、新規登録後、訳文編集の結果を
反映してパターンを補正する場合の2つのケースがある
以下、第10図に示す処理フローに従って、それぞれの
ケースについて説明する。
(1001)典型対訳ファイル9に、対応する対訳パタ
ーンの訳文パターンが登録されているかどうかチェック
する。登録されてし)れば、(1006)の処理へ移行
し、対訳パターンを修正する。未登録テあれば、(10
02)の処理へ移行し対訳パターンを新規に登録する。
まず、(1002)〜(1005)の処理ステップによ
り、新規に対訳パターンを登録する場合について説明す
る。新規にパターンを登録するのは、典型テキストを翻
訳した直後である。テキストの類似度によりクラスタリ
ングされた結果は、類似のテキスト毎にクラスタリング
ファイル10にテキスト番号が格納されており、間接的
に類似のテキストを参照することができる。各クラスタ
の典型テキストは、出現順序が最初のテキストであり、
第6図(a)では、3つのテキストがクラスタリングさ
れており、最初の(El−1)が原文典型テキストであ
ることを示す、つまり、(El−1)の翻訳処理が終わ
った段階で、典型対訳パターンを抽出することになる。
(1002)クラスタリング中の類似文を比較し、類似
文の共通部分と、相違部分を識別する。
これは、(201)で説明したテキスト間の類似度算出
方式を利用することによって実現できる。
すなわち、クラスタリング中の任意の2文同士の類似部
分の抽出を行ない、さらに同一クラスタリング中の他の
文との類似部分の抽出を繰り返していくことにより、ク
ラスタリング中の文の共通部分と相違部分を識別できる
例えば、第6図(a)では、(El−1)。
(El−2)、(El−3)の3つの文について、網か
けした部分が相違部分として抽出できる。
(1003)(1002)で抽出した相違部分の構文要
素を原文典型テキストの翻訳処理での解析結果から決定
し、構文要素岬こ対応する構文要素記号を抽出する。第
6図(、)では、(El−1)。
(El−2)、(El−3)の3つの文について。
破線部で囲んだ構成要素が相違部分である。この部分は
、(El−1)の翻訳処理結果から名詞句として認識さ
れ、構文要素記号tNを抽出する。
<1004)原文典型テキスト中に相違部分を該当する
構文要素記号で置換し、原文パターンを抽出する。第6
図(a)の例では、”printer”を名詞句を示す
構文要素記号INで置き換えることにより、原文パター
ン(El−P)を抽出する。このようにして、原文パタ
ーン中には、変数化部として構文要素記号を持つことに
なる。
(1005)原文典型テキスト中の変数化部に対応する
訳文典型テキスト中の訳語の部分を、同じ変数化部の構
文要素記号で置き換えることにより、対訳パターンの訳
文パターンを抽出する。第6図(a)の例では、(Jl
−1)の[プリンタ」を!Nに置換することにより訳文
パターン(Jl−P)を抽出することができる。
以上のようにして、第6図(a)では、対訳パターンと
して、(El−P)と(Jl−P)が抽出できる。
つぎに、(1006)〜(1013)の処理ステップに
より、登録済みの対訳パターンを補正する場合について
説明する。第6図(b)と(C)に示すように、既に対
訳パターンが登録されている状況で、パターン主導型の
翻訳処理により翻訳した訳文を後編集した場合を具体例
として説明する。
(1006)典型訳文パターンを利用したパターン主導
型の翻訳結果の訳文(以下、−次訳と呼ぶ)を、変数化
部分に対応した訳出部分と共通部分に対応した訳出部分
に区分する。
(1007)編集した訳文と一次訳を比べて、編集箇所
を抽出し、さらに、編集箇所が共通部分と変数化部のい
ずれに該当するかを区分する。区分する方法としては、
(201)で説明したテキスト間の類似度算出方式を利
用することにより、−次訳と編集した訳文の類似部分と
相違部分を識別すればよい。
(1008)編集箇所が典型対訳パターン中の共通部分
に該当するかどうかにより、該当すれば(1009)へ
、該当しなければ(1011)へ移行する。該当しない
場合、すなわち、編集箇所が典型対訳パターン中の変数
化部に該当する場合は、変数化部分に対応する構文要素
記号を訳文パターン中に残せばよい。
(1009)編集箇所に対応する原文の構成要素が原文
パターンに包含されているかどうかをチェックし、包含
されていれば(1012)へ、包含されていなければ(
1010)へ移行する。このチェックは、編集箇所が典
型対訳パターン中の共通部分に該当する場合、編集箇所
に対応する原文の構成要素が原文パターンに包含されて
いるかどうかによって2つのケースを考慮しなければな
らないことに起因する。
例えば、第6図(b)の(J2−3−1)の編集箇所「
文字」に関して、(E2−3)は(E2−p)に包含さ
れるケースであり、編集箇所を訳文パターン中に残すだ
けでよい。一方、第6図(c)の(J3−3−1)の編
集箇所「日本語」に関して、(E3−3)は(E3−P
)に包含されないケースであり、  ”Japanes
e”が包含されない構成要素として抽出されるため、訳
文パターンと原文パターンの補正が必要になる。
(l O10)編集箇所に対応する原文中の構成要素を
抽出し、さらに原文の解析結果からその構文要素を抽出
し該当する構文要素記号を得る。第6図(c)の(E3
−3)は”Japanese”が(E3−P)に包含さ
れない構成要素であり、構成要素記号として!Nを抽出
する。
(1011)編集箇所に対応する構文要素記号を、原文
と編集した訳文のそれぞれ対応する文字列の部分と置き
換える。
(1012)すべての編集箇所について処理を終了した
ら(1013)へ、未終了であれば次の編集箇所の処理
に移るべく (1008)へ移行する。
(1013)−次訳と編集訳文を比較し、原文と編集訳
文中の変数化部分に該当する箇所で構成要素記号になっ
ていない文字列の部分を対応する構文要素記号に置換す
る。
第6図(b)では、(J2−3−1)のrJIsJに対
応する部分が変数細部分に該当するため。
(J3−3−1)と(E3−3)の対応する部分を構文
要素記号INに置換する。
以上の処理により、登録済みの対訳パターンを補正する
ことができる。
(1014)抽出ないし補正した典型対訳パタ一−ンを
典型対訳パターンファイル9へ格納する。
併せて、更新日時をセットする。
以上の処理により典型対訳パターンの抽出・登録および
補正を行なうことができる。
(210)訳文ファイル6に、訳文テキストを格納する
。併せて、更新日時をセットする。
(211)全ての英文テキストを翻訳したかどうかチェ
ックし、未完であれば(202)の処理へ移行する。完
了であれば、すべての処理を終了する。
上記の説明では1本発明による翻訳処理装置の動作につ
いて説明した6次に、利用者から見た翻訳処理装置のデ
イスプレィ装置1の表示例について説明する。
利用者は、翻訳対象となる英文テキストを指定した後、
デイスプレィ装置1上で必要に応じて翻訳結果を編集す
ることになる。上記の説明では、3つの処理ステップ(
205)と(207)と(208)の各翻訳処理の終了
後に、利用者の訳文編集の介入を可能とする。以下、本
発明によるデイスプレィ装wl上での利用イメージにつ
いて第9図を用いて説明する。
第9図(a)は、翻訳結果編集モードでのデイスプレィ
装置1上の表示レイアウトを示す。英文表示エリアと訳
文表示エリアを対訳表示するとともに、対訳毎に類似文
の有無表示エリアを対訳表示に対応して表示する点に特
徴がある。なお、類似文の有無表示エリアは、対訳に対
応していれば良く、画面上の左端や右端に表示しても良
い6さらに、必要に応じて参照可能なデータの表示エリ
アとして、典型対訳パターン表示エリアと類似対訳事例
表示エリアがある。
類似文の有無表示エリアの表示例を第9図(b)および
(c)に示す。原文と訳文の対訳に付随してdL P 
PIがセットされていると、対訳に対応する典型対訳パ
ターン、および類似対訳事例が、第9図(a)に示すそ
れぞれのエリアで参照可能となる。すなわち、利用者の
立場からすれば、類似文の有無表示エリアをチェックす
るだけで参照可能情報の有無を確認できる。
原文と訳文の対訳表示においては、典型対訳パターン中
の変数化部分と共通部分に対応する部分を識別表示する
。さらに、典型対訳パターンおよび類似対訳事例の表示
においても、変数化部分と共通部分に対応する部分を識
別表示する。表示の一例を、第9図(b)と第9図(c
)に示す。図中、テキストの網かけした部分が変数化部
分に該当し、その他の部分が共通部分に該当する。変数
化部分は、さらに1対1の対応関係が一目で分かるよう
に色別に表示することも可能である。
また、訳文の表示エリアにおいて、共通部分の表示部分
を編集不可能とし変数化部分のみ編集可能とすることに
より、訳文の編集操作性を向上することも可能である。
これは、パターン主導型の翻訳処理時に、変数化部に対
応する部分とそれ以  ゝ外の部分を識別しておくこと
により容易に実現できる。その際、訳文の編集操作時に
共通部分に対応する文字列を修正したい場合には、共通
部分の編集不可能モードを編集可能モードに変更するた
めの編集変更キーを設定しておき、編集変更キーの押下
により編集可能とするようにしてもよい。
これにより、共通部分と変数化部分の編集操作を区別す
ることができ、編集箇所が共通部分と変数化部分のいず
れに対応するかのチェックが容易に実現できる。また、
共通部分の修正のためのキー操作を設けることにより、
共通部分の誤修正を回避できるという副次的な効果もあ
る。一方、原文の表示においても同様の区別を行なうこ
とにより、原文が修正された場合、変数化部分に対応す
る部分の修正のみであればパターン主導型の翻訳処理を
適用し、共通部分に対応する部分の修正があれば既存の
翻訳処理を適用するといったように、原文の編集対象部
分によって、適用する翻訳手段を自動的に切り替えるこ
とも容易に実現できる。
次に、類似対訳事例の表示方法について補足説明してお
く、類似対訳事例は、クラスタリングファイル11中の
原文番号と訳文番号を参照キーとして原文ファイル5と
訳文ファイル6からそれぞれテキストを検索し対訳表示
すればよい。その際。
複数の類似文の表示の順序の設定方法として、編集対象
の原文との類似度の大きい順に並べかえて表示すること
により、利用者がより迅速に利用価値の高い類似文を参
照できるようにすることが可能となる。また、類似文と
して抽出されてテキストの中には、お互いに全く一致す
るテキストの存在も考えられるので、完全一致するテキ
ストは重複表示をしないように事前にチェックした後、
お互いに異なる類似文のみ表示するようにすることも可
能である。また、編集対象の原文と完全一致する類似文
も表示しないように事前にチェックすることが可能であ
る。重複して出現する類似文については、出現頻度を対
訳と併せて表示することも効果的である。
さらに、原文ファイル5.訳文ファイル6、クラスタリ
ングファイル11.典型対訳パターンファイル9中の各
データに付随して設定されている更新日時をチェックす
ることにより、例えば、典型対訳パターンファイル9中
のパターンが補正された場合、補正された更新日時以前
に訳文ファイル6中に格納された類似文の訳文テキスト
のみ翻訳編集画面上に対訳表示することも可能である。
以上の実現方法および表示方法は、上記の実施例の説明
から容易に類推できるものであり、本発明の要旨を逸脱
しない範囲で種々変更して実施することが可能である。
以上1本発明による一実施例を説明した。
本発明の適用効果として、上記手段により本発明を適用
した翻訳処理装置では、既に翻訳した文書の対訳を利用
することにより、類似文を翻訳する場合、類似典型パタ
ーンと異なる要素の部分のみ翻訳すればよく、翻訳処理
を軽減することができる。さらに、入力文書に対しても
予め類似文毎にクラスタリングしておくことにより入力
交会てを機械翻訳処理の対象とする必要がなくなり、翻
訳処理効率が向上する。また、従来の翻訳処理装置では
、類似文でも構成要素が微妙に異なっただけで入力文の
構文解析結果が微妙に異なったり、解析処理を失敗した
りといった問題が発生していたが、本発明により、類似
の文の翻訳精度は均一に保てるというメリットも生じる
去111λ 別の実施例として、英語から日本語への翻訳を行なう翻
訳処理装置について述べる。装置の構成は実施例1と同
様とする。
以下、本発明による翻訳処理の流れを第11図に示すフ
ローに従って具体的に説明する6(1101)英文ファ
イル5に格納されている翻訳対象英文について、全ての
英文テキスト同士の類似度を評価したのち、英文テキス
トのクラスタリングを行なう。これは、実施例1のステ
ップ(201)で説明したテキスト間の類似度を利用し
た英文テキストのクラスタリング処理方式を利用すれば
よく、クラスタリングファイル10にクラスタ毎に類似
の英文テキストの文番号を蓄積する。これらの類似の英
文中、出現順序が最初の英文がクラスタの典型テキスト
となっている。
(1102)原文ファイル5から翻訳対象の英文テキス
トを出現順に抽出する。
(1103)英文テキストが典型テキストかどうかチェ
ックし、典型テキストであれば(1104)、典型テキ
ストでなけれなば(1109)の処理へ移行する。典型
テキストのチェックは、原文ファイル5中のクラスタリ
ング番号によりアクセスしたクラスタリングファイル1
1中の原文番号の登録順序が1番目かどうかをチェック
すればよい。
(1104)典型テキストの翻訳を行なう。さらに、翻
訳結果の編集を行なう。ここでの、翻訳・編集処理は、
公知となっている機械翻訳処理装置を使用すればよい。
翻訳処理装置の実現方式としては、例えば、特開昭58
−40684  (自然言語間の自動翻訳方式)に開示
された方法を用いることが可能であり説明は省略する。
(1105)典型テキストの翻訳結果と編集結果、さら
に典型テキストの類似テキストを利用して、典型対訳パ
ターンを抽出し、典型対訳ファイル9に登録する。ここ
で、典型対訳パターンの抽出方法については、実施例1
のステップ(209)と同様の方式により実現できるの
で説明は省略する。
(1106)典型テキストの類似テキストをクラスクリ
ングファイル11の原文番号を参照して原文ファイル5
より順次抽出する。
(1107)抽出した類似テキストを、典型対訳ファイ
ル9に登録しである典型原文パターンと典型訳文パター
ンの対応関係を利用して、パターン主導型の翻訳処理を
行なう。
(1108)典型テキストの類似テキストすべてについ
て抽出および翻訳を終了したかどうかチェックし、未終
了であれば(1106)、終了であれば(1111)へ
移行する。
(1109)抽出した英文テキストが類似文を持つかど
うかをチェックする。チェック方法は、原文ファイル5
中の英文テキストに対応してクラスタリング番号が存在
するかどうかをチェックすればよい、チェックの結果、
類似文を持てば、既に(1106)と(1107)で翻
訳済みであるので(1102)へ移行し次の英文テキス
トの処理に移る。類似文を持たなければ(1110)へ
移行する。
(1110)英文テキストを翻訳する。翻訳処理は、公
知となっている機械翻訳処理装置を使用することが可能
であり説明は省略する。
(1111)翻訳結果の訳文を編集する。ここで、訳文
の編集対象として、典型テキスト翻訳時の類似文の翻訳
結果も併せて編集可能とする。この点について、第12
図を用いて表示イメージを含めて説明する。
第12図(a)は、原文ファイル5中の英文テキストを
翻訳編集する場合の画面例である。図中、左半分が原文
表示エリア、右半分が訳文表示エリア、更に中央に類似
文の有無表示エリアがありエリア中の′P″が類似文の
存在を示している。今、2番目の文で“Japanes
e set has a differentmapp
ing from the JIS code、”が典
型テキストとなる文を翻訳編集した直後の状況を考える
。典型テキストには類似テキストが存在し、ステップ(
1106)から(1108)により類似テキストの翻訳
が行なわれるので、典型テキストの翻訳編集結果と類似
文の翻訳結果を第12図(b)に示すような翻訳編集画
面の型式で表示する。すなわち、翻訳編集画面の上部に
典型テキストの対訳を表示し、その下の編集エリアに類
似文の翻訳結果をまとめて表示する。その際、典型対訳
パターン中の変数化部に対応する部分を識別表示してお
く。翻訳装置に利用者は、典型テキストの翻訳結果を参
考にしながら、類似テキストの訳文を編集することが出
来る。類似文の対訳表示エリアは、テキストが多く一画
面に収まらないときには適宜画面をスクロールする。類
似文の編集が終了した段階で、翻訳編集画面は、第12
図(c)に示すように典型テキストの類似文に関しての
み翻訳編集を完了したことを反映して、対訳表示エリア
テキストのみ部分的に訳文が表示されることになる。
(1112)原文ファイル5中の翻訳対象テキストすべ
てについて処理が終了すれば翻訳処理を完了し、未完で
あれば(1102)へ移行し処理を続行する。
以上、本発明による別の−の実施例を説明した。
上記手段により、本発明の適用した翻訳処理装置では、
翻訳対象となる入力文書に対して予め類似交電にクラス
タリングしておき、クラスタリング中の最初のテキスト
の翻訳編集と同期して、類似のテキストについても翻訳
編集を行なうことにより、翻訳校正作業が効率良くでき
ると共に、類似の文の翻訳精度を均一に保てるという効
果が生じる。
また、上記の実施例では、翻訳処理装置を例にとって説
明したが、ワードプロセッサのような文書処理装置に対
しても本発明の適用は可能である。
すなわち、まとまりのある文書を作成・編集する場合に
1文書中に出現する類似の文を抽出・管理し、類似文の
表現を統一するための手段として使用したり、逆に類似
の表現の多用をチェックする手段として使用する等の用
途が考えられる。このような手段は本発明の要旨を逸脱
しない範囲で種種変形して実施することが可能である。
失胤桝隻 別の実施例として、英語から日本語への翻語を行なう翻
訳処理装置について述べる。装置の構成は実施例1と同
様とする。
本実施例では、第1図の典型対訳パターンファイル9中
に既にパターンが登録しであることを前提にする。これ
は、同じ種類の文書、例えば、コンピュータマニュアル
の世界では、PL/IやC0BOL等の言語プロセッサ
の使用マニュアルが多々存在するが、PL/Iの使用マ
ニュアルを翻訳するときにC0BOLの使用マニュアル
中の表現と同一乃至類似の表現が使用されることが多い
、そこで、翻訳対象の文書と同類の文書で既に対訳が存
在していれば、その対訳から抽出される典型対訳パター
ンを利用して翻訳作業効率を向上しようという考え方に
基づくものである。
以下、本発明による翻訳処理の流れを第16図に示すフ
ローに従って具体的に説明する。
(1601)原文ファイルS中の翻訳処理英文テキスト
を出現順に順次取り出す。
(1602)抽出した英文テキストについて。
典型対訳パターンファイル9中の原文パターンと類似な
関係になる対訳パターンを抽出する。ここで、類似の対
訳パターンの抽出方法を第13因に示すフローに従って
説明する。
(1301)メモリ4中に設定した類似文保持テーブル
をクリアする。類似文保持テーブルには、典型対訳パタ
ーンファイル9から抽出した類似な対訳パターンに対応
するパターン番号と類似度をペアにして複数個格納でき
るようにしたものであり、テーブルクリアではこれらの
テーブルの値をゼロにする。類似文保持テーブルには、
以下のステップにより、類似度の大きい順にパターン番
号と類似度を類似度の降順に限定個数(例えば、5個)
登録していく。
(1302)典型対訳パターンファイル9から原文パタ
ーンを順次読み出す。
(1303)翻訳対象の英文テキストと原文パターンの
類似度を算出する。2つのテキスト間の類似度の算出方
法は、実施例1のステップ(201)で説明した方法を
用いればよい。
(1304)抽出した類似度と類似文保持テーブルに既
に登録済みの類似な対訳パターンの候補の類似度とを比
較し、抽出して類似度の方が太きければ、類似度保持テ
ーブルにパターン番号と類似度を降順になるように追加
し、最小の類似度をもつパターン番号を削除する。抽出
した類似度の方が小さければ、何もしない。
(1305)典型対訳パターンファイル9中のすべての
原文パターンを読み出したかどうかチェックし、未完で
あれば(1302)へ、完了であれば(1306)へ移
行する。
(1306)類似文保持テーブルには、類似度の大きい
順に典型対訳ファイル9中の対訳パターンへのアクセス
のためのパターン番号が格納されている。このパターン
番号により対応する原文パターン、訳文パターン、クラ
スタリング番号を抽出する。さらに、クラスタリング番
号からクラスタリングファイル11中の類(Jluのテ
キストの原文番号と訳文番号を抽出し、類似の対訳デー
タを抽出する。
以上の処理により、翻訳対象の英文テキストに類似な対
訳パターンと対訳文データが抽出できる。
(1603)類似のパターンがあるがどうがを類似文保
持テーブルによりチェックする。あれば(1604)、
なければ(1606)へそれぞれ移行する。
(1604)類似の対訳パターンの中で類似度が最大の
ものを利用してパターン主導型の翻訳処理を行なう。こ
れは、実施例工で説明した方式と同じであり、説明は省
略する。
(1605)パターン主導型の翻訳処理結果の訳文を校
正する。その際、(1602)のステップで抽出した複
数の類似な対訳パターンさらに類似な対訳データを対訳
表示編集画面上で表示し利用することにより、訳文の校
正が出来るようにする。すなわち、対訳表示編集画面の
一例として。
第9図に示すよう、翻訳対象文の翻訳結果表示エリア、
類似な典型対訳パターンの表示エリア、類似な対訳デー
タの表示エリアを識別して表示することが出来る。これ
らの表示エリアは、必要に応じて表示参照が出来るよう
にしてもよい。
また、類似な典型対訳パターンおよび対訳データの表示
の際に、翻訳対象テキストとの類似度を類似で示したり
色別表示するなど明示的に表示してもよい。
(1606)既に公知となっている翻訳処理装置を用い
て翻訳対象の英文テキストを翻訳する。
(1607)(1606)での翻訳結果の訳文を校正す
る。
(160B)校正済みの訳文を訳文ファイル6へ格納す
る。
(1609)原文ファイル5中の翻訳対象のすべての英
文テキストを翻訳処理したかどうかチェックし、未終了
であれば(1601)へ移行し、終了であればすべての
処理を完了する。
以上、本発明による別の一実施例を説明した。
本発明の適用効果として、類似の文書の典型対訳パター
ンファイルを予め複数個用意しておくことにより、新た
な文書の翻訳の際に、最も類似と思われる文書の典型対
訳パターンファイルを選択利用して効率良く翻訳および
訳文の校正作業を行なうことができる。
新たな文書を翻訳する際に、複数の典型対訳パターンフ
ァイルの中からどのファイルを利用すればよいかという
問題については、予め翻訳対象テキストのクラスタリン
グ結果の原文の典型パターンと各典型対訳パターンファ
イル中の原文パターンとの類似度のチェックを行ない、
類似文が最も多く含まれるファイルを利用する方式も可
能である。また、翻訳時に利用する典型対訳パターンフ
ァイルを1つに限定する必要はなく、複数のファイルを
利用するようにしても良い。これらは、本発明の要旨を
逸脱しない範囲で種々変形して実施できるものである。
去」l(( 別の実施例として、実施例2で説明した英語から日本語
への翻訳を行なう翻訳処理装置における典型対訳パター
ンファイル9の作成方法について述べる。装置の構成は
実施例2と同様とする。
実施例2では、典型対訳パターンファイル9内のパター
ンは翻訳処理を行なう前に作成済みであることを前提に
説明したが、本発明の考え方を適用することにより典型
対訳パターンを効率的に作成・保守することが可能であ
る。以下、典型対訳パターンの保守方法について説明す
る。
本実施例での典型対訳パターンの保守方法は。
既に登録済みの典型対訳パターンに対して、パターン間
の類似性を利用してパターンを再クラスタリングするこ
とにより、パターン数の軽減、さらには複数の典型対訳
パターンファイル中のパターンデータを統合することを
目指すものである。以下、第14図のフローに従い、典
型対訳パターンのマージ方法について説明する。
(1401)典型対訳パターンファイル9中の任意の2
つの原文パターンについて類似度を算出する。2つのパ
ターン間の類似度の算出方法は、実施例1のステップ(
201)で説明した2つのテキスト間の類似度算出方法
と同様の方法を用いることが可能である。
(1402)算出した類似度が予め設定した閾値(例え
ば、0.8)より大きいかどうかチェックし、大きけれ
ば(1403)、小さければ(1404)へ移行する。
(1403)2つのパターンの類似度が大きい。
すなわち類似性があるので、2つのパターンをマージす
る。ここで、2つのパターンのマージ方法については、
実施例1のステップ(1002)〜(1005)で説明
した複数のテキストからのパターン抽出方法を適用すれ
ばよい。−例として、第15図に示す2つの典型対訳パ
ターン(El−P) (Jl−P)と(E2−P)(J
2−P)をマージする場合、(El−P)と(E2−P
)の比較によりアングラインを引いた!Nの部分のみ異
なり残りの部分は共通となる6従って、パターンのマー
ジ結果は(El−P−1)(Jl−P−1)に示すよう
に網掛けしたく!N〉が任意の構文要素として省略可能
なパターンとなる。ここで、〈と〉で囲んだ構文要素記
号は省略可能なことを示す。
典型対訳パターンファイル9中には、マージ結果の新た
な対訳パターンを登録し、マージの対象となった2つの
対訳パターンは削除する。
(1403)典型対訳パターンファイル9中のすべての
原文パターンの組合せについて類似度を算出したかどう
かをチェックし、未終了であれば(1401)へ移行し
、終了であればすべての処理を完了する。
処理完了後、典型対訳パターンファイル9中には、処理
前のパターンの数よりも少ないか等しい数のパターンが
登録されることになる。
上記の説明では、典型対訳パターンファイルを1つに限
定した場合について説明したが、複数の典型対訳パター
ンファイルから1つの典型対訳パターンファイルにパタ
ーンをマージする場合も同様の処理方法が適用できる。
以上1本発明による別の一実施例を説明した。
本発明の適用効果として、典型対訳パターンを自動的に
整理・統合することが可能となる。すなわち、翻訳対象
の入力原文の増加に伴って典型対訳パターンも一般的に
増えていくと考えられる。
そのような場合の典型対訳パターンファイルの保守管理
方法として、・典型対訳パターン中の類似のパターンを
統合することにより、典型対訳パターンファイルを保守
することが可能となる。さらに。
典型対訳パターンファイル中の登録上の制限として類似
文の数がある閾値以上のパターンに限定するといったよ
うな制約を設けてもよい。これらは、本発明の要旨を逸
脱しない範囲で種々変形して実施できるものである。
失蒼■旦 別の実施例として、実施例2で説明した英語から日本語
への翻訳を行なう翻訳処理装置における典型対訳パター
ンファイル9の作成方法について述べる。装置の構成は
実施例2と同様とする。
実施例1では、典型対訳パターンファイル9内のパター
ンを、翻訳処理実行時に翻訳構成結果を利用して作成す
る方法について説明した。また、実施例4では、既存の
典型対訳パターンファイル9中のパターン情報をマージ
という手段により整理・統合する方法について説明した
1本実施例での基本的な考え方は、既に存在する対訳事
例を利用することにより、対訳事例から原文と訳文のそ
れぞれについて類似度によるクラスタリング処理を行な
い、クランスリング結果を利用して典型対訳パターンを
新規に作成する方法である。
以下、典型対訳パターンの作成方法について第17図の
フローに従って説明する。
(1701)対訳事例ファイル11に格納されている原
文テキストと訳文テキストについて、それぞれ類似度に
よるクラスタリングを行なう。類似度によるクラスタリ
ング方法は、実施例1のステップ(201)で説明した
方法を利用すればよ()。
対訳事象ファイル11には、原文ファイル5と訳文ファ
イル6のテキストに該当するデータがペアに格納されて
いるものとする。対訳事例ファイル11の代わりに、原
文ファイル5と対応する翻訳校正済みの訳文ファイル6
のデータを利用してもよい。
原文テキストと訳文テキストのそれぞれについてクラス
タリング処理を行なうことにより、第18図に示すよう
に原文のクラスタと訳文のクラスタさらに各クラスタ中
のテキストの対応関係が抽出できる。
(1702)抽出した原文と訳文の対応関係にあるクラ
スタについて、それぞれのクラスタ中のテキストの数が
等しく、さらにテキストの対応関係がとれているかどう
かチェックする。テキストの数が等しく対応関係がとれ
ていれば(1705)へ、それ以外は(1704)へ移
行する。
ここで、原文と訳文のクラスタの関係は第18図に示す
ようになる1図中、原文がクラスタAは(*1* ”2
* ”3t ”4)の各テキストがクラスタリングされ
ているが、対応する訳のクラスタA2では(本1.$2
1.*4)の各テキストがクラスタリングされており、
対応関係がとれないため(1704)の処理へ移行する
ことになる。
一方、原文のクラスタBと訳文のクラスタBではお互い
に(*7t *lQ、$26)の各テキストがクラスタ
リングされており、対応関係がとれているため(170
3)の処理へ移行することになる。
(1703)対応関係のとれた原文と訳文のクラスタか
ら対訳パターンを抽出し、典型対訳ファイル9に登録す
る。併せて、原文ファイルに原文テキストを、訳文ファ
イルに訳文テキストを格納し、さらにクラスタリングフ
ァイル11に対応付けのためのデータを格納しておく。
ここで、原文と対訳のクラスタからの対訳パターンの抽
出方法は、実施例1のステップ(1002) 〜(10
05)で説明した方法を用いることが可能である。また
、ファイル間の関係についても実施例1での扱いと全く
同様に管理すればよい。
(1704)すべての原文と訳文のクラスタについて処
理を終了したかどうかをチェックし、未終了であれば次
のクラスタを抽出して(1702)へ移行する。処理終
了であればすべての処理を完了する。
以上、本発明による別の一実施例を説明した。
本発明の適用効果として、原文と対応する訳文を対応事
例として再利用することにより、典型対訳パターンを自
動的に抽出することが可能となる。
すなわち、翻訳結果の対訳事例を新たな文書の翻訳の際
に積極的に利用することが可能となる。対訳データを翻
訳処理結果の一過性のデータで閉じさせるのではなく、
翻釈処理のためのノ(ターンデータとして有効なデータ
ベースとして活用させることが可能となる。
〔発明の効果〕
以上説明したごとく本発明を適用した翻訳装置では、既
に翻訳した文書の対訳を利用することしこより、類似文
を翻訳する場合、類似典型ノ(ターンと異なる要素の部
分のみ翻釈すればよく、翻釈処理を軽減することができ
る。さらに、人力文書に対しても予め類似文毎にクラス
タリングしておくことにより入力交会てを機械翻訳処理
の対象とする必要がなくなり、翻釈処理効率が向上する
。また、従来方式では、類似文でも構成要素が微妙に異
なっただけで入力文の構文解析結果が微妙に異なったり
、解析処理に失敗したりといった問題力1発生していた
が、本発明により、類似の文の翻訳精度は均一に保てる
というメリットも生じる。
さらに、翻訳対象となる入力文書に対して予め類似文毎
にクラスタリングしておき、クラスタリング中の最初の
テキストの翻訳編集と同期して、類似のテキストについ
ても翻釈編集を行なうことにより、翻訳校正作業が効率
良くできると共に、類似の文の翻訳精度を均一に保てる
という効果が生じる。
また、類似の文書の典型対訳パターンファイルを予め複
数個用意しておくことにより、新たな文書の翻訳の際に
、最も類似と思われる文書の典型対訳パターンファイル
を選択利用して効率良く翻訳および訳文の校正作業を行
なうことができる。
本発明の他の適用効果として、原文と対応する訳文を対
訳事例として再利用することにより、典型対訳パターン
を自動的に抽出することが可能となる。すなわち、翻訳
結果の対訳事象を新たな文書の翻訳の際に積極的に利用
することが可能となる。対訳データを翻訳処理結果の一
過性のデータで閉じさせるのではなく、翻訳処理のため
のパターンデータとして有効なデータベースとして活用
させることが可能となる。その結果、翻釈結果を再利用
することにより翻訳処理のためのパターンデータを逐次
自動的に増補していくことが容易に実現できるため、翻
訳装置の利用者は翻訳規則の調整を行わずども翻訳精度
を向上させることが可能となる。
併せて、典型対訳パターンファイルの保守管理方法とし
て、典型対訳パターン中の類似の)(ターンを統合する
ことにより、典型対訳パターンファイルを保守すること
が可能となる。その結果、翻訳対象の入力原文の増加に
伴って典型対訳パターンが増えても、有効な典型対訳パ
ターンを自動的に調整・統合することが実現できる。
実施例の説明では、英語から日本語への2か国語間の翻
訳処理装置を例にとって説明したが、典型対訳パターン
を2か国語間のパターンからNか国語(N>2)のパタ
ーンに拡張すること1こより3か国語以上の翻訳装置へ
適用することは、本発明の要旨を逸脱しない範囲で実現
できるものである。
また、翻訳装置以外にも本発明は適用可能であり、本発
明を適用した文書処理装置においては、文書の編集操作
時に、文書中の類似文を確認することが容易になるため
、マニュアルなどの編集操作において、表現のバラツキ
を防止し、表現上統一された文書の校正処理効率が向上
する。すなわち、まとまりのある文書を作成・編集する
場合に、文書中に出現する類似の文を抽出・管理し、類
似文の表現を統一するための手段として使用したり。
逆に類似の表現の多用をチェックする手段として使用す
る等の用途が考えられる。
【図面の簡単な説明】
第1図は、本発明の一実施例の構成を示すブロック図、
第2図は、本発明の一実施例の動作を説明するための処
理フロー図、第3図は、第1図中のファイル間の関係を
説明する説明図、第4図は、本発明の一実施例の動作を
説明するための処理フロー図、第5図、第6図は、本発
明の一実施例の動作を説明するための説明図、第7図は
、本発明の一実施例の動作を説明するための処理フロー
図、第8図、第9図は、本発明の一実施例の動作を説明
するための説明図、第10図、第11図は、本発明の一
実施例の動作を説明するための処理フロー図、第12図
は、本発明の一実施例の動作を説明するための説明図、
第13図、第14図は、本発明の一実施例の動作を説明
するための処理フロー図、第15図は、本発明の一実施
例の動作を説明するための説明図、第16図、第17図
は、本発明の一実施例の動作を説明するための処理フロ
ー図、第18図は、本発明の一実施例の動作を説明する
ための説明図をそれぞれ示す。 1・・・デイスプレィ等の出力装置、2・・・キーボー
ド等の入力装置、3・・・プロセッサ、4・・・メモリ
、5・・・原文ファイル、6・・・訳文ファイル、7・
・・英日辞書ファイル、8・・・日本語辞書ファイル、
9・・・典型対訳パターンファイル、10・・・クラス
タリングファイル、11・・・対訳事例ファイル、31
・・・テキスト正規化処理部、32・・・テキスト比較
処理部、33・・・テキストクラスタリング処理部、3
4・・・翻訳処理部、35・・・パターン主導型翻訳処
理部、36・・・はパターン抽出処理部、37・・・パ
ターン登録処理部。 第 1 図 垢λ図 第 3 図 第4図 8S12] (久) Yb図 (J+ 第す図 <C> 第7図 第? 図 第 9田 (d) Y ノOl¥1 ′$rr 図 f、  t3  図 め 14  図 笛 IS  図 (12−P)   ニー!#    −t!−1ト1 
 !N   >¥’Vニー1’わzlirjp;rz 
rb  図

Claims (1)

  1. 【特許請求の範囲】 1、第1言語から第2言語への言語間の翻訳を行なう翻
    訳処理装置、において、 第1言語で記述されたテキストから構成される翻訳対象
    文書について類似の文毎にクラスタリングする手段と、
    翻訳済みのテキストに対して類似の文毎にクラスタリン
    グを行い、対訳形式で対訳事例ベースとして管理する手
    段と、前記の対訳事例ベースのクラスタリングされた文
    から対訳形式の典型パターン(以下、対訳典型パターン
    と云う)を抽出する手段と、入力文に対して類似の対訳
    典型パターンを検索し、検索した対訳典型パターンを利
    用して、文中の類似しない要素のみ部分的に翻訳処理を
    行ない、文全体の訳文を合成する手段を有することを特
    徴とする翻訳処理装置。 2、上記の対象事例ベースの作成方法として、翻訳対象
    文書と類似な対訳文書を予め類似度によりクラスタリン
    グしておき、併せて典型対訳パターンを抽出する手段と
    、翻訳対象文書の翻訳校正時に類似の対訳文および典型
    対訳パターンを抽出・表示する手段を有することを特徴
    とする特許請求範囲第1項記載の翻訳処理装置。 3、特許請求の範囲第1項記載の翻訳処理装置において
    、 翻訳対象文書を文書中のテキストの出現順序に従って翻
    訳する際に、当該テキストがクラスタリングされた類似
    の文を含むかどうかチェックする手段と、当該テキスト
    が類似のクラスタリング中に未翻訳であるテキストが持
    つ場合、当該テキストの翻訳と並行して類似のクラスタ
    リング中のすべてのテキスト翻訳校正処理を行なう手段
    を有することを特徴とする翻訳処理装置。 4、特許請求の範囲第1項記載の翻訳処理装置において
    、 翻訳対象文書をあらかじめクラスタリングする手段と、
    各クラスタリング中の代表となる典型文を抽出し、典型
    文のみ翻訳・編集した後典型対訳パターンを抽出する手
    段と、典型文との類似の文の翻訳はパターン主導型の翻
    訳方法により翻訳を行ない、類似文を一切持たない文は
    別の翻訳処理方法を適用することを特徴とする翻訳処理
    装置。 5、上記の翻訳文の校正処理において、典型対象パター
    ンを利用して翻訳・校正する際に、典型対訳パターン中
    のデータとの共通部と異なり部とを識別表示することを
    特徴とする特許請求の範囲第1項記載の翻訳処理装置。 6、上記の翻訳・校正の際に、原文と訳文の対訳表示画
    面上で、一文毎のテキストに対応して類似文や典型対訳
    パターンの存在の有無を識別表示することを特徴とする
    特許請求の範囲第1項記載の翻訳処理装置。 7、上記の翻訳・校正の際の原文と訳文のそれぞれの表
    示において、典型対訳パターンに対応した共通部を書き
    換え不可能とし、異なり部を書き換え可能として表示す
    る手段を有することを特徴とする特許請求範囲第1項記
    載の翻訳処理装置。 8、上記原文と訳文の表示において、典型対訳パターン
    に対応した共通部を書き換え不可能とし、異なり部を書
    き換え可能とした場合、共通部分の書替え変更操作を設
    けることにより、ワンクッションおいて共通部分の変更
    を行なう手段を有することを特徴とする特許請求範囲第
    7項記載の翻訳処理装置。 9、テキストの類似な関係によるクラスタリング処理に
    おいて、クラスタリング対象のテキスト中の単語を、数
    字列表記の単語、固有名詞、人名、会社名に該当する単
    語、さらに単語の属性などの特定の条件に合致する単語
    列を別表記の単語列に置き換えた後、テキスト間の類似
    度を検出する手段を有することを特徴とするテキストの
    クラスタリング方法。10、上記特許請求の範囲第2項
    もしくは第3項記載の類似の対訳文および典型対訳パタ
    ーンを表示する際に、表示データが複数存在する場合は
    類似度の大きい順に表示する手段を有することを特徴と
    する特許請求範囲第1項記載の翻訳処理装置。 11、上記複数の類似文を表示する際に、類似文同士で
    完全一致する類似文は表示しない手段を有することを特
    徴とする特許請求範囲第2項もしくは第3項もしくは第
    10項記載の翻訳処理装置。 12、上記複数の類似文を表示する際に、原文と完全一
    致する類似文は表示しない手段を有することを特徴とす
    る特許請求範囲第2項もしくは第3項もしくは第10項
    記載の翻訳処理装置。 13、原文と訳文からなる対訳事例データに対して、原
    文のクラスタリングと訳文のクラスタリングの両方を行
    ない、クラスタリング数の近似するものを典型態役事例
    として扱う手段を有することを特徴とする対訳文のクラ
    スタリング方法。 14、2つのテキスト間の類似度を算出するステップと
    二項関係のうちの少なくとも1つの要素が共通する関係
    同士をグループ化するステップからなることを特徴とす
    るテキストのクラスタリング方法。 15、テキストの類似関係によりクラスタリング手段と
    、クラスタリングされたテキストからの典型対訳パター
    ン抽出手段を有することにより、典型対訳パターンを原
    文と訳文の対訳型式の事例ベースから自動的に抽出する
    ことを特徴とする対訳テキストパターンの自動学習方法
    。 16、上記の典型対訳パターンの抽出方法において、新
    たに入力したテキストの翻訳・編集結果を逐次蓄積し、
    併せて既存のクラスタリングデータとのクランスタリン
    グを行ない、クラスタリング文数がある閾値以上になっ
    たら、典型対訳パターンを抽出することを特徴とする対
    訳テキストパターンの動的な自動学習方法。 17、典型対訳パターン間の複数のパターンに対して、
    類似なパターン毎にクラスタリングを行なう手段と、ク
    ランスタリングされたパターン毎にパターンを統合する
    手段を有することを特徴とする典型対訳パターンの再整
    理・統合方法。 18、2か国語の対訳関係を、3か国語以上の関係に拡
    張し、nか国語の対応関係を保持する対訳事例ベースお
    よび典型対訳パターンを有することを特徴とする特許請
    求の範囲第1項記載の翻訳処理装置。
JP2284240A 1990-10-24 1990-10-24 事例再利用型翻訳方法および装置 Pending JPH04160473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2284240A JPH04160473A (ja) 1990-10-24 1990-10-24 事例再利用型翻訳方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2284240A JPH04160473A (ja) 1990-10-24 1990-10-24 事例再利用型翻訳方法および装置

Publications (1)

Publication Number Publication Date
JPH04160473A true JPH04160473A (ja) 1992-06-03

Family

ID=17675984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2284240A Pending JPH04160473A (ja) 1990-10-24 1990-10-24 事例再利用型翻訳方法および装置

Country Status (1)

Country Link
JP (1) JPH04160473A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279219A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 仲介装置及び方法
WO2005059771A1 (ja) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated 対訳判断装置、方法及びプログラム
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2008269413A (ja) * 2007-04-23 2008-11-06 Funai Electric Advanced Applied Technology Research Institute Inc 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
JP2012027596A (ja) * 2010-07-21 2012-02-09 National Institute Of Information & Communication Technology 翻訳支援装置、翻訳支援方法、およびプログラム
US8515977B2 (en) 2010-09-10 2013-08-20 International Business Machines Corporation Delta language translation
US8670973B2 (en) 2010-09-16 2014-03-11 International Business Machines Corporation Language translation reuse in different systems

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279219A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 仲介装置及び方法
WO2005059771A1 (ja) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated 対訳判断装置、方法及びプログラム
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP4619915B2 (ja) * 2005-10-04 2011-01-26 シャープ株式会社 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2008269413A (ja) * 2007-04-23 2008-11-06 Funai Electric Advanced Applied Technology Research Institute Inc 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
JP2012027596A (ja) * 2010-07-21 2012-02-09 National Institute Of Information & Communication Technology 翻訳支援装置、翻訳支援方法、およびプログラム
US8515977B2 (en) 2010-09-10 2013-08-20 International Business Machines Corporation Delta language translation
US8670973B2 (en) 2010-09-16 2014-03-11 International Business Machines Corporation Language translation reuse in different systems

Similar Documents

Publication Publication Date Title
EP0282721B1 (en) Paradigm-based morphological text analysis for natural languages
US4706212A (en) Method using a programmed digital computer system for translation between natural languages
US5675815A (en) Language conversion system and text creating system using such
EP0266001B1 (en) A parser for natural language text
Hutchins The origins of the translator's workstation
US5311429A (en) Maintenance support method and apparatus for natural language processing system
US8548795B2 (en) Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US5579224A (en) Dictionary creation supporting system
US8214199B2 (en) Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US6098034A (en) Method for standardizing phrasing in a document
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US8195447B2 (en) Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
WO2007105202A2 (en) Automatic reusable definitions identification (rdi) method
US20100228538A1 (en) Computational linguistic systems and methods
JPH04160473A (ja) 事例再利用型翻訳方法および装置
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
EP0274281B1 (en) Method using a programmed digital computer system for translation between natural languages
JP2838984B2 (ja) 汎用参照装置
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
JPH0561902A (ja) 機械翻訳システム
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH0232467A (ja) 機械翻訳方式
CN117521677A (zh) 一种基于大语言模型的ai翻译模型选择方法