JPH04160473A

JPH04160473A - 事例再利用型翻訳方法および装置

Info

Publication number: JPH04160473A
Application number: JP2284240A
Authority: JP
Inventors: Fumiyuki Yamano; 山野　文行
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-10-24
Filing date: 1990-10-24
Publication date: 1992-06-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、ある言語で記述されたテキストを編集する文
書編集装置、および、第１言語で記述されたテキストを
第２言語で記述されたテキストに変換する言語間め翻訳
処理装置に関し、特に類似の文を多く含む文を効率的に
編集したり翻訳するのに好適な処理方式に関するもので
ある。

〔従来の技術〕

従来より、第１言語から第２言語への翻訳処理装置にお
いては、処理の対象を一文単位に限定し′　　ており、
複数の文から構成されるテキストを翻訳するような場合
でも、テキストから一文ずつ取り出して翻訳処理を行な
い、その翻訳結果を連接して翻訳テキストを得るという
方式が一般に採られている。この種の翻訳処理に関連す
る発明としては、特開昭５８−４０６８４号（［自然言
語間の自動翻訳方式」）や特開昭５９−１２１５７４号
（「翻訳処理方式」）等が挙げられる。

〔発明が解決しようとする課題〕

翻訳処理装置で扱う文書は、一般に複数の文から構成さ
れるものが多い。内容的にまとまった文書であれば、類
似の文を多用することが一般的である。さらに、扱う文
書の分野や文書の種類が限定されると、同−文や類似文
が数多く含まれる傾向にある。この代表例として、マニ
ュアルを挙げることができる。

従来の翻訳処理装置では、類似の文を多く含む文書を翻
訳する場合、既に翻訳済みの文と同一または類似な文が
再度入力されても、新たに翻訳処理を駅動するものであ
る。その結果、同一の文を何度も翻訳するといった処理
時間の無駄や、類似文の翻訳結果が均一にならないとい
った問題点があった。

本発明の目的は、このような従来の問題点を改善し、類
似の文を効率よく管理し、類似文のパターンを対訳形式
で保持し、類似文に対してはパターン主体の翻訳処理方
式を適用することにより、重複した翻訳処理を回避し、
類似文の翻訳精度を均一に維持する、翻訳作業効率の高
い翻訳処理装置を提供することにある。さらには、翻訳
処理のみならず、文書を管理・維持していく上で、類似
の文を効率よく管理し、類似文のパターンを保持し、類
似文に対しては均一の表現に統一する文書編集処理装置
を提供することも本発明の目的である。

〔課題を解決するための手段〕

上記の問題点を解決するため、本発明の機械翻訳方式は
、予め、翻訳対象文書について類似の文毎にクラスタリン
グする手段と、既に翻訳した文書に対して類似の文毎に
クラスタリングを行い、対訳形式で対訳事例ベースとし
て管理する手段と、前記の対訳事例ベースのクラスタリ
ングされた文から対訳形式の典型パターンを抽出する手
段と、入力文に対して類似の対訳典型パターンを検索し
、検索した対訳典型パターンを利用して１文中の類似し
ない要素のみ部分的に翻訳処理を行ない、交会体の訳文
を合成する手段を有することを特徴とする。

さらに、本発明の文書処理装置では、予め編集対象文書
について類似の文毎にクラスタリングする手段と、類似
文に関しては類似文毎に管理する手段と１文書中の文を
編集する際に、類似文を有する文かどうかをチェックす
る手段と、類似文を含む文を編集した場合は、類似文を
抽出・表示し、編集者に類似文の編集の必要性をチェッ
クさせる手段を有することを特徴とする。

〔作用〕

上記手段により、文発明を適用いた翻訳処理装置では、
既に翻訳した文書の対訳を利用することにより、類似文
を翻訳する場合、類似典型パターンと異なる要素の部分
のみ翻訳すればよく、翻訳処理を軽減することができる
。さらに、入力文書に対しても予め類似文毎にクラスタ
リングしておくことにより入力交会てを機械翻訳処理の
対象とする必要がなくなり、訳翻処理効率が向上する。

また、従来方式では、類似文でも構成要素が微妙に異な
っただけで入力文の構文解析結果が微妙に異なったり、
解析処理に失敗したりといった問題が発生していたが、
本発明により、類似の文の翻訳精度は均一に保てるとい
うメリットも生じる。

一方、本発明を適用した文書処理装置においては１文書
の編集操作時に、文書中の類似文を確認することが容易
になるため、マニュアルなどの編集操作において２表現
のバラツキを防止し、表現上統一された文書の校正処理
効率が向上する。

さらに、典型対訳パターンの抽出手段により、翻訳事例
からパターンの自動学習が可能となる。

すなわち、翻訳結果を再利用することにより翻訳処理の
ためのパターンデータを逐次自動的に増補していくこと
が容易に実現できるため、翻訳装置の利用者は翻訳規則
の調整を行わずとも翻訳精度を向上させることが可能と
なる。

〔実施例〕

去】１１１以下、本発明を実施例を参照して詳細に説明する。−実
施例として、英語から日本語への翻訳を行なう翻訳処理
装置について述べる。

第１図は、本発明の一実施例を示すブロック図を表わす
。図中、■はデイスプレィ等の高力装置、２はキーボー
ド等の入力装置、３はプロセッサ。

４はメモリ、５は原文ファイル、６は訳文ファイル、７
は英日辞書ファイル、８は日本語辞書ファイル、９は凹
型対訳パターンファイル、１０はクラスタリングファイ
ル、１１は対訳事例ファイルをそれぞれ示す、プロセッ
サ３は、さらに、テキスト正規化処理部３１．テキスト
比較処理部３２゜テキストクラスタリング処理部３３．
翻訳処理部３４、パターン主導型翻訳処理部３５．パタ
ーン抽出処理部３６．パターン登録処理部３７から構成
される。

次に１本発明による翻訳処理の流れを第２図に示すフロ
ーに従って具体的に説明する。

（２０１）英文ファイル５に格納されている翻訳対象英
文について、全ての英文テキスト同士の類似度を算出し
たのち、英文テキストのクラスタリングを行なう。

ここで、２つのテキストの類似度の算出方法について説
明しておく、基本的な考え方は、テキストの構成要素が
出現順序で一致するかどうかの相関を調べることにより
類似度を求める。

すなわち、第５図（ａ）のグラフに示すように、２つの
テキストの構成要素（英語の場合は単語。

日本語の場合は文節とすればよい）を抽出し、それぞれ
Ｘ軸、Ｙ軸に出現順序にしたがって配置する。続いて、
Ｘ軸とＹ軸で構成要素が一致する座標を＊でプロットす
る。プロットした点について、Ｙ＝Ｘ＋α（αは変動し
てよい）の関係を満たし、プロット点をたどった場合、
右上がりの線になるような最長の線を求める。ここで、
順序関係が隣同士の構成要素にあるプロット点がｎ個連
続して出現する場合、連接一致距離を（ｎ−１）と定義
する。図中、ＷａｌからＷａ３までは、連続一致距離が
２とぼる。この連続一致距離と、零でプロットされた点
を辿った軌跡が右上がりの線となる構成要素の一致個数
を用いて、２つのテキストの類似度を次式で算出する。

但し、テキストの末尾の句読点は、類似度算出の対象外
とする。

実際に類似度を算出した例を、第５図（ｂ）と（ｃ）に
示す。第５図（ｂ）の３つの英文は、上記の算出式に従
えば、お互いに類似度が０．８６になる。一方、第５図
（ｃ）では、類似度は０．７１になる。

以下、第４図に示すフローに従って、類似度の評価方法
について説明する。

（４０１）翻訳対象の全ての英文テキストについて、テ
キストの構成要素に分割する。ここでは、英文テキスト
が対象であるので単語間の空白や句読点をチェックする
ことにより単語毎に分割していけばよい。日本文テキス
トの場合は、日本語辞書ファイル４中の自立語や付属語
の情報を利用して文節単位に分割すればよい。日本語テ
キストからの文節抽出方法については、長尾編「言語の
機械処理Ｊ　　（１９８４年刊三省堂発行）のｐ　ｐ、
６１−８１に記載された方法を利用することが可能であ
り、説明は省略する。

（４０２）テキストの構成要素を正規化する。

正規化処理とは、次のような構成要素列の置き換え、削
除を行なう。ここでは、英文テキストを対象にした正規
化処理について説明する。

（１）数字から構成される単語を、ＮＮＮＮＮＮに置換
する。

（２）大文字で始まる単語を、固有名詞とみなして、ｐ
ｐｐｐｐｐに置換する。

（３）　ＮＮＮＮＮＮが連続して現れる場合、１つの構
成要素に縮退させる。

（４）　ＰＰＰＰＰＰが連続して現れる場合、１つの構
成要素に縮退させる。

さらに、正規化処理の一環として、英日辞書ファイル７
を利用して形態素処理を行うことにより、活用変化語を
原形に変換することも考えられる。

形態素処理方法については、特開昭５８−４０６８４号
に開示された方法を利用することが可能であり、説明は
省略する。

（４０３）正規化処理を施したテキストについて順次２
つのテキストを抽出し、テキスト間の類似度を算出する
。

（４０４）類似度がある閾値（例えば、０．５）より大
きい場合には、類似文によるクラスタリング処理を行な
うべく、（４０５）の処理へ移行する。類似度な閾値よ
り小さければ、（４０６）の処理へ移行する。

（４０５）類似度のある２つの英文テキストの文番号を
ペアにしてメモリ４に一時退避しておく。

（４０６）類似度の算出を全てのテキストの組み合わせ
について行なったかどうかチェックし、未完であれば（
４０３）、完了であれば（４０７）の処理へ移行する。

（４０７）メモリ４中の類似の関係にある英文テキスト
の文番号の対（二項関係）を調べ、２つの二項関係から
部分的に一致する文番号があれば、同一のクラスタにセ
ットしていく。この操作を有限回繰り返すことにより、
お互いに類似関係のないクラスタが抽出できる。その結
果をクラスタリングファイル１０に格納する。

ここで、第３図を用いて、クラスタリングファイル１０
と他のファイルの関係を説明する。

クラスタリングファイル１０には、クラスタリングされ
た英文テキストの各クラスタ単位に、クラスタリング番
号と複数個の英文テキストの文番号（原文番号）を蓄積
しておく。併せて、個々の英文テキストに対応する訳文
の文番号（訳文番号）を原文番号と対応して蓄積してい
く。原文番号。

訳文番号は、それぞれ、原文ファイル５と訳文ファイル
６に蓄積されている原文テキストと訳文テキストをアク
セスするための文番号に対応する。

さらに、クラスタ毎に、典型対訳パターンファイル９へ
のアクセス用の典型対訳パターン番号を格納しておく。

原文ファイル５には、原文テキストに対応して、文番号
と督録日時、さらに、テキストが更新された際に記入す
る更新日時と、クラスタリングファイル中の対応するク
ラスタリング番号を格納しておく。訳文ファイル６には
、原文ファイル５中の原文に対応する文番号と同一の文
番号をアクセスキーとして、訳文テキスト、更新日時、
さらに、クラスタリングファイル中の対応するクラスタ
リング番号を格納しておく。

テキスト間の類似度を利用して英文テキストのクラスタ
リング処理により、クラスタリングファイル１０には、
クラスタ毎に類似の英文テキストの文番号が蓄積されて
いる。これらの類似の英文中、出現順序が最初の英文テ
キストをクラスタの典型テキストとする。

（２０２）原文ファイル５から翻訳対象の英文テキスト
を出現順に抽出する。

（２０３）英文テキストが、類似文を持つがどうかチェ
ックし、持てば（２０４）、持たなければ（２０７）の
処理へ移行する。ここで、チェック方法としては、原文
ファイル５中のクラスタリング番号がセットされている
かどうかをチェックすればよい６クラスタリング番号が
セットされていないということは、原文テキスト中に類
似の文が存在しないことを示す。類似の文が存在しない
場合は、従来通りの翻訳処理を適用すればよい。

（２０４）英文テキストが類似文を持つので、典型対訳
ファイル９をアクセスし、対応する典型訳文パターンが
存在するかどうかチェックする。

典型訳文パターンがセットされていれば（２０５）へ、
セットされていなければ（２０８）の処理へそれぞれ移
行する。

（２０５）典型対訳ファイル９に登録しである典型原文
パターンと典型訳文パターンの対応関係を利用して、パ
ターン主導型の翻訳処理を行なう。

ここで、パターン主導型の翻訳処理について。

第７図に示す処理フローに従って説明する。

（７０１）翻訳対象の英文テキストと典型原文パターン
の構成要素（この場合は単語とみなしてよい）を比較し
、構成要素の共通部分と異なり部分を区別する。異なり
部分をその出現順序に従って、順次、変数化部１．変数
化部２．変数化部３゜・・・変数化部ｎ、・・・のよう
に対応付けしておく。

−例として第８図に示すような英文テキスト、”Ｔｈ１
ｓ　ｃｈａｒａｃｔｅｒ　ｓｅｔ　ｈａｓ　ａ　ｄｉｆ
ｆｅｒｅｎｔ　ｍａｐｐｉｎｇｆｒｏｍ　Ａ　Ｓ　ＣＩ
　Ｉ　ｃｏｄｅ、”を翻訳する場合、典型原文パターン
として、Ｔｈ１ｓ　ＩＮ　ｓｅｔ　ｈａｓ　ａｄｉｆｆ
ｅｒｅｎｓ　ｍａｐｐｉｎｇ　　ｆｏｒｍ　ＩＮ　ｃｏ
ｄｅ、”が登録されていれば、　”ｃｈａｒａｃｔｅｒ
”が変数化部１で最初のＩＮに対応付けされ、”ＡＳＣ
ＩＩ”が変数化部２で２番目のＩＮに対応付けされる。

（７０２）変数化部として抽出された単語列を。

順次、翻訳する。その際、原文パターン中の変数化部に
対応する要素として、名詞句であればＩＮ、動詞句であ
れば！ｖＰのように構文要素の識別名が付与されている
ので、変数化部に対応する構文要素となるように、あら
がしめ構文解析結果に予測して構文解析を行ない翻訳結
果の訳語を得ることができる。

第８図の例では、ｃｈａｒａｃｔｅｒがＩＮに対応し、
最初のＩＮの訳は、「キャラクタ」になることがわかる
。さらに、ＡＳＣＩＩが２番目のＩＮに対応し。

語がｒＡｓｃＩＩＪとなる。

（７０３）訳文パターン中の変数化部を（７０２）のス
テップで抽出した訳語で置き換える。

第８図では、訳文パターン「この！Ｎセットは！Ｎコー
ドと対応が異なる。」に対して、２つの変数化部が存在
し、最初の変数化部には「キ岑うクタ」が、２番目の変
数化部にはｒＡｓｃＩ工」がそれぞれ対応して置き換え
られる。

第８図の例では、原文パターン中の変数化部の出現順序
と訳文パターン中の変数化部の出現順序が同じ順序で対
応付けされているが、両者の順序関係が異なる場合には
、訳文パターン中の変数化部の記述において、！（＊）
Ｎ　と記述することにより、原文パターン中のｍ番目の
変数化部＋Ｎに対応することを明記し、変数化部の出現
順序を制御することができる。なお、！（■）Ｎの記述
において、（＋＝）が省略された場合は、原文パターン
中の出現順序と同じ順序関係で対応しているとみなす。

さらに、訳文パターン中に、原文パターン中の同一の変
数化部に対応する変数化部が複数存在してもよく、その
場合には、（■）は省略できないものとする。

（７０４）（７０１）で抽出した変数化部登すべて翻訳
処理したかどうがチェックし、未完であれば（７０２）
の処理へ移行し、完了であればすべての処理を終了する
。

以上の処理結果、翻訳対象テキストに対応する訳文テキ
ストとして、「このキャラクタセットはＡＳＣＩＩコー
ドと対応が異なる。」が最終的に得られることになる。

（２０６）パターン主導型の翻訳処理の結果、訳文の編
集が行なわれた場合、（２０９）の処理へ移行する。こ
れは、登録済みの典型対訳パターンが適切でなくて訳文
の修正が必要になった場合を考慮して典型対訳パターン
を補正するためである。

（２０７）英文テキストを、既に公知となっている翻訳
処理装置を用いて翻訳する。Ｓ駅処理装置の実現方式と
しては、例えば、特開昭５８−４０６８４　　（自然言
語間の自動翻訳方式）に開示された方法を用いることが
可能であり説明す省略する。

（２０８）典型パターンの翻訳を行なう。

（２０７）と同様、英文テキストを、既に公知となって
いる翻訳処理装置を用いて翻訳する。翻訳後、対訳パタ
ーンを抽出・登録するために（２０９）の処理へ移行す
る。

（２０９）英文テキストとその翻訳結果によって得られ
た訳文テキストから対訳パターンを抽出し、抽出した対
訳パターンを典型対訳ファイル９に格納する。

ここで、対訳事例から対訳パターンを抽出する方式につ
いて説明する。対訳パターンの抽出として、新規にパタ
ーンを登録する場合と、新規登録後、訳文編集の結果を
反映してパターンを補正する場合の２つのケースがある
。

以下、第１０図に示す処理フローに従って、それぞれの
ケースについて説明する。

（１００１）典型対訳ファイル９に、対応する対訳パタ
ーンの訳文パターンが登録されているかどうかチェック
する。登録されてし）れば、（１００６）の処理へ移行
し、対訳パターンを修正する。未登録テあれば、（１０
０２）の処理へ移行し対訳パターンを新規に登録する。

まず、（１００２）〜（１００５）の処理ステップによ
り、新規に対訳パターンを登録する場合について説明す
る。新規にパターンを登録するのは、典型テキストを翻
訳した直後である。テキストの類似度によりクラスタリ
ングされた結果は、類似のテキスト毎にクラスタリング
ファイル１０にテキスト番号が格納されており、間接的
に類似のテキストを参照することができる。各クラスタ
の典型テキストは、出現順序が最初のテキストであり、
第６図（ａ）では、３つのテキストがクラスタリングさ
れており、最初の（Ｅｌ−１）が原文典型テキストであ
ることを示す、つまり、（Ｅｌ−１）の翻訳処理が終わ
った段階で、典型対訳パターンを抽出することになる。

（１００２）クラスタリング中の類似文を比較し、類似
文の共通部分と、相違部分を識別する。

これは、（２０１）で説明したテキスト間の類似度算出
方式を利用することによって実現できる。

すなわち、クラスタリング中の任意の２文同士の類似部
分の抽出を行ない、さらに同一クラスタリング中の他の
文との類似部分の抽出を繰り返していくことにより、ク
ラスタリング中の文の共通部分と相違部分を識別できる
。

例えば、第６図（ａ）では、（Ｅｌ−１）。

（Ｅｌ−２）、（Ｅｌ−３）の３つの文について、網か
けした部分が相違部分として抽出できる。

（１００３）（１００２）で抽出した相違部分の構文要
素を原文典型テキストの翻訳処理での解析結果から決定
し、構文要素岬こ対応する構文要素記号を抽出する。第
６図（、）では、（Ｅｌ−１）。

（Ｅｌ−２）、（Ｅｌ−３）の３つの文について。

破線部で囲んだ構成要素が相違部分である。この部分は
、（Ｅｌ−１）の翻訳処理結果から名詞句として認識さ
れ、構文要素記号ｔＮを抽出する。

＜１００４）原文典型テキスト中に相違部分を該当する
構文要素記号で置換し、原文パターンを抽出する。第６
図（ａ）の例では、”ｐｒｉｎｔｅｒ”を名詞句を示す
構文要素記号ＩＮで置き換えることにより、原文パター
ン（Ｅｌ−Ｐ）を抽出する。このようにして、原文パタ
ーン中には、変数化部として構文要素記号を持つことに
なる。

（１００５）原文典型テキスト中の変数化部に対応する
訳文典型テキスト中の訳語の部分を、同じ変数化部の構
文要素記号で置き換えることにより、対訳パターンの訳
文パターンを抽出する。第６図（ａ）の例では、（Ｊｌ
−１）の［プリンタ」を！Ｎに置換することにより訳文
パターン（Ｊｌ−Ｐ）を抽出することができる。

以上のようにして、第６図（ａ）では、対訳パターンと
して、（Ｅｌ−Ｐ）と（Ｊｌ−Ｐ）が抽出できる。

つぎに、（１００６）〜（１０１３）の処理ステップに
より、登録済みの対訳パターンを補正する場合について
説明する。第６図（ｂ）と（Ｃ）に示すように、既に対
訳パターンが登録されている状況で、パターン主導型の
翻訳処理により翻訳した訳文を後編集した場合を具体例
として説明する。

（１００６）典型訳文パターンを利用したパターン主導
型の翻訳結果の訳文（以下、−次訳と呼ぶ）を、変数化
部分に対応した訳出部分と共通部分に対応した訳出部分
に区分する。

（１００７）編集した訳文と一次訳を比べて、編集箇所
を抽出し、さらに、編集箇所が共通部分と変数化部のい
ずれに該当するかを区分する。区分する方法としては、
（２０１）で説明したテキスト間の類似度算出方式を利
用することにより、−次訳と編集した訳文の類似部分と
相違部分を識別すればよい。

（１００８）編集箇所が典型対訳パターン中の共通部分
に該当するかどうかにより、該当すれば（１００９）へ
、該当しなければ（１０１１）へ移行する。該当しない
場合、すなわち、編集箇所が典型対訳パターン中の変数
化部に該当する場合は、変数化部分に対応する構文要素
記号を訳文パターン中に残せばよい。

（１００９）編集箇所に対応する原文の構成要素が原文
パターンに包含されているかどうかをチェックし、包含
されていれば（１０１２）へ、包含されていなければ（
１０１０）へ移行する。このチェックは、編集箇所が典
型対訳パターン中の共通部分に該当する場合、編集箇所
に対応する原文の構成要素が原文パターンに包含されて
いるかどうかによって２つのケースを考慮しなければな
らないことに起因する。

例えば、第６図（ｂ）の（Ｊ２−３−１）の編集箇所「
文字」に関して、（Ｅ２−３）は（Ｅ２−ｐ）に包含さ
れるケースであり、編集箇所を訳文パターン中に残すだ
けでよい。一方、第６図（ｃ）の（Ｊ３−３−１）の編
集箇所「日本語」に関して、（Ｅ３−３）は（Ｅ３−Ｐ
）に包含されないケースであり、　　”Ｊａｐａｎｅｓ
ｅ”が包含されない構成要素として抽出されるため、訳
文パターンと原文パターンの補正が必要になる。

（ｌ　Ｏ１０）編集箇所に対応する原文中の構成要素を
抽出し、さらに原文の解析結果からその構文要素を抽出
し該当する構文要素記号を得る。第６図（ｃ）の（Ｅ３
−３）は”Ｊａｐａｎｅｓｅ”が（Ｅ３−Ｐ）に包含さ
れない構成要素であり、構成要素記号として！Ｎを抽出
する。

（１０１１）編集箇所に対応する構文要素記号を、原文
と編集した訳文のそれぞれ対応する文字列の部分と置き
換える。

（１０１２）すべての編集箇所について処理を終了した
ら（１０１３）へ、未終了であれば次の編集箇所の処理
に移るべく　（１００８）へ移行する。

（１０１３）−次訳と編集訳文を比較し、原文と編集訳
文中の変数化部分に該当する箇所で構成要素記号になっ
ていない文字列の部分を対応する構文要素記号に置換す
る。

第６図（ｂ）では、（Ｊ２−３−１）のｒＪＩｓＪに対
応する部分が変数細部分に該当するため。

（Ｊ３−３−１）と（Ｅ３−３）の対応する部分を構文
要素記号ＩＮに置換する。

以上の処理により、登録済みの対訳パターンを補正する
ことができる。

（１０１４）抽出ないし補正した典型対訳パタ一−ンを
典型対訳パターンファイル９へ格納する。

併せて、更新日時をセットする。

以上の処理により典型対訳パターンの抽出・登録および
補正を行なうことができる。

（２１０）訳文ファイル６に、訳文テキストを格納する
。併せて、更新日時をセットする。

（２１１）全ての英文テキストを翻訳したかどうかチェ
ックし、未完であれば（２０２）の処理へ移行する。完
了であれば、すべての処理を終了する。

上記の説明では１本発明による翻訳処理装置の動作につ
いて説明した６次に、利用者から見た翻訳処理装置のデ
イスプレィ装置１の表示例について説明する。

利用者は、翻訳対象となる英文テキストを指定した後、
デイスプレィ装置１上で必要に応じて翻訳結果を編集す
ることになる。上記の説明では、３つの処理ステップ（
２０５）と（２０７）と（２０８）の各翻訳処理の終了
後に、利用者の訳文編集の介入を可能とする。以下、本
発明によるデイスプレィ装ｗｌ上での利用イメージにつ
いて第９図を用いて説明する。

第９図（ａ）は、翻訳結果編集モードでのデイスプレィ
装置１上の表示レイアウトを示す。英文表示エリアと訳
文表示エリアを対訳表示するとともに、対訳毎に類似文
の有無表示エリアを対訳表示に対応して表示する点に特
徴がある。なお、類似文の有無表示エリアは、対訳に対
応していれば良く、画面上の左端や右端に表示しても良
い６さらに、必要に応じて参照可能なデータの表示エリ
アとして、典型対訳パターン表示エリアと類似対訳事例
表示エリアがある。

類似文の有無表示エリアの表示例を第９図（ｂ）および
（ｃ）に示す。原文と訳文の対訳に付随してｄＬ　Ｐ　
ＰＩがセットされていると、対訳に対応する典型対訳パ
ターン、および類似対訳事例が、第９図（ａ）に示すそ
れぞれのエリアで参照可能となる。すなわち、利用者の
立場からすれば、類似文の有無表示エリアをチェックす
るだけで参照可能情報の有無を確認できる。

原文と訳文の対訳表示においては、典型対訳パターン中
の変数化部分と共通部分に対応する部分を識別表示する
。さらに、典型対訳パターンおよび類似対訳事例の表示
においても、変数化部分と共通部分に対応する部分を識
別表示する。表示の一例を、第９図（ｂ）と第９図（ｃ
）に示す。図中、テキストの網かけした部分が変数化部
分に該当し、その他の部分が共通部分に該当する。変数
化部分は、さらに１対１の対応関係が一目で分かるよう
に色別に表示することも可能である。

また、訳文の表示エリアにおいて、共通部分の表示部分
を編集不可能とし変数化部分のみ編集可能とすることに
より、訳文の編集操作性を向上することも可能である。

これは、パターン主導型の翻訳処理時に、変数化部に対
応する部分とそれ以　　ゝ外の部分を識別しておくこと
により容易に実現できる。その際、訳文の編集操作時に
共通部分に対応する文字列を修正したい場合には、共通
部分の編集不可能モードを編集可能モードに変更するた
めの編集変更キーを設定しておき、編集変更キーの押下
により編集可能とするようにしてもよい。

これにより、共通部分と変数化部分の編集操作を区別す
ることができ、編集箇所が共通部分と変数化部分のいず
れに対応するかのチェックが容易に実現できる。また、
共通部分の修正のためのキー操作を設けることにより、
共通部分の誤修正を回避できるという副次的な効果もあ
る。一方、原文の表示においても同様の区別を行なうこ
とにより、原文が修正された場合、変数化部分に対応す
る部分の修正のみであればパターン主導型の翻訳処理を
適用し、共通部分に対応する部分の修正があれば既存の
翻訳処理を適用するといったように、原文の編集対象部
分によって、適用する翻訳手段を自動的に切り替えるこ
とも容易に実現できる。

次に、類似対訳事例の表示方法について補足説明してお
く、類似対訳事例は、クラスタリングファイル１１中の
原文番号と訳文番号を参照キーとして原文ファイル５と
訳文ファイル６からそれぞれテキストを検索し対訳表示
すればよい。その際。

複数の類似文の表示の順序の設定方法として、編集対象
の原文との類似度の大きい順に並べかえて表示すること
により、利用者がより迅速に利用価値の高い類似文を参
照できるようにすることが可能となる。また、類似文と
して抽出されてテキストの中には、お互いに全く一致す
るテキストの存在も考えられるので、完全一致するテキ
ストは重複表示をしないように事前にチェックした後、
お互いに異なる類似文のみ表示するようにすることも可
能である。また、編集対象の原文と完全一致する類似文
も表示しないように事前にチェックすることが可能であ
る。重複して出現する類似文については、出現頻度を対
訳と併せて表示することも効果的である。

さらに、原文ファイル５．訳文ファイル６、クラスタリ
ングファイル１１．典型対訳パターンファイル９中の各
データに付随して設定されている更新日時をチェックす
ることにより、例えば、典型対訳パターンファイル９中
のパターンが補正された場合、補正された更新日時以前
に訳文ファイル６中に格納された類似文の訳文テキスト
のみ翻訳編集画面上に対訳表示することも可能である。

以上の実現方法および表示方法は、上記の実施例の説明
から容易に類推できるものであり、本発明の要旨を逸脱
しない範囲で種々変更して実施することが可能である。

以上１本発明による一実施例を説明した。

本発明の適用効果として、上記手段により本発明を適用
した翻訳処理装置では、既に翻訳した文書の対訳を利用
することにより、類似文を翻訳する場合、類似典型パタ
ーンと異なる要素の部分のみ翻訳すればよく、翻訳処理
を軽減することができる。さらに、入力文書に対しても
予め類似文毎にクラスタリングしておくことにより入力
交会てを機械翻訳処理の対象とする必要がなくなり、翻
訳処理効率が向上する。また、従来の翻訳処理装置では
、類似文でも構成要素が微妙に異なっただけで入力文の
構文解析結果が微妙に異なったり、解析処理を失敗した
りといった問題が発生していたが、本発明により、類似
の文の翻訳精度は均一に保てるというメリットも生じる
。

去１１１λ 別の実施例として、英語から日本語への翻訳を行なう翻
訳処理装置について述べる。装置の構成は実施例１と同
様とする。

以下、本発明による翻訳処理の流れを第１１図に示すフ
ローに従って具体的に説明する６（１１０１）英文ファ
イル５に格納されている翻訳対象英文について、全ての
英文テキスト同士の類似度を評価したのち、英文テキス
トのクラスタリングを行なう。これは、実施例１のステ
ップ（２０１）で説明したテキスト間の類似度を利用し
た英文テキストのクラスタリング処理方式を利用すれば
よく、クラスタリングファイル１０にクラスタ毎に類似
の英文テキストの文番号を蓄積する。これらの類似の英
文中、出現順序が最初の英文がクラスタの典型テキスト
となっている。

（１１０２）原文ファイル５から翻訳対象の英文テキス
トを出現順に抽出する。

（１１０３）英文テキストが典型テキストかどうかチェ
ックし、典型テキストであれば（１１０４）、典型テキ
ストでなけれなば（１１０９）の処理へ移行する。典型
テキストのチェックは、原文ファイル５中のクラスタリ
ング番号によりアクセスしたクラスタリングファイル１
１中の原文番号の登録順序が１番目かどうかをチェック
すればよい。

（１１０４）典型テキストの翻訳を行なう。さらに、翻
訳結果の編集を行なう。ここでの、翻訳・編集処理は、
公知となっている機械翻訳処理装置を使用すればよい。

翻訳処理装置の実現方式としては、例えば、特開昭５８
−４０６８４　　（自然言語間の自動翻訳方式）に開示
された方法を用いることが可能であり説明は省略する。

（１１０５）典型テキストの翻訳結果と編集結果、さら
に典型テキストの類似テキストを利用して、典型対訳パ
ターンを抽出し、典型対訳ファイル９に登録する。ここ
で、典型対訳パターンの抽出方法については、実施例１
のステップ（２０９）と同様の方式により実現できるの
で説明は省略する。

（１１０６）典型テキストの類似テキストをクラスクリ
ングファイル１１の原文番号を参照して原文ファイル５
より順次抽出する。

（１１０７）抽出した類似テキストを、典型対訳ファイ
ル９に登録しである典型原文パターンと典型訳文パター
ンの対応関係を利用して、パターン主導型の翻訳処理を
行なう。

（１１０８）典型テキストの類似テキストすべてについ
て抽出および翻訳を終了したかどうかチェックし、未終
了であれば（１１０６）、終了であれば（１１１１）へ
移行する。

（１１０９）抽出した英文テキストが類似文を持つかど
うかをチェックする。チェック方法は、原文ファイル５
中の英文テキストに対応してクラスタリング番号が存在
するかどうかをチェックすればよい、チェックの結果、
類似文を持てば、既に（１１０６）と（１１０７）で翻
訳済みであるので（１１０２）へ移行し次の英文テキス
トの処理に移る。類似文を持たなければ（１１１０）へ
移行する。

（１１１０）英文テキストを翻訳する。翻訳処理は、公
知となっている機械翻訳処理装置を使用することが可能
であり説明は省略する。

（１１１１）翻訳結果の訳文を編集する。ここで、訳文
の編集対象として、典型テキスト翻訳時の類似文の翻訳
結果も併せて編集可能とする。この点について、第１２
図を用いて表示イメージを含めて説明する。

第１２図（ａ）は、原文ファイル５中の英文テキストを
翻訳編集する場合の画面例である。図中、左半分が原文
表示エリア、右半分が訳文表示エリア、更に中央に類似
文の有無表示エリアがありエリア中の′Ｐ″が類似文の
存在を示している。今、２番目の文で“Ｊａｐａｎｅｓ
ｅ　ｓｅｔ　ｈａｓ　ａ　ｄｉｆｆｅｒｅｎｔｍａｐｐ
ｉｎｇ　ｆｒｏｍ　ｔｈｅ　ＪＩＳ　ｃｏｄｅ、”が典
型テキストとなる文を翻訳編集した直後の状況を考える
。典型テキストには類似テキストが存在し、ステップ（
１１０６）から（１１０８）により類似テキストの翻訳
が行なわれるので、典型テキストの翻訳編集結果と類似
文の翻訳結果を第１２図（ｂ）に示すような翻訳編集画
面の型式で表示する。すなわち、翻訳編集画面の上部に
典型テキストの対訳を表示し、その下の編集エリアに類
似文の翻訳結果をまとめて表示する。その際、典型対訳
パターン中の変数化部に対応する部分を識別表示してお
く。翻訳装置に利用者は、典型テキストの翻訳結果を参
考にしながら、類似テキストの訳文を編集することが出
来る。類似文の対訳表示エリアは、テキストが多く一画
面に収まらないときには適宜画面をスクロールする。類
似文の編集が終了した段階で、翻訳編集画面は、第１２
図（ｃ）に示すように典型テキストの類似文に関しての
み翻訳編集を完了したことを反映して、対訳表示エリア
テキストのみ部分的に訳文が表示されることになる。

（１１１２）原文ファイル５中の翻訳対象テキストすべ
てについて処理が終了すれば翻訳処理を完了し、未完で
あれば（１１０２）へ移行し処理を続行する。

以上、本発明による別の−の実施例を説明した。

上記手段により、本発明の適用した翻訳処理装置では、
翻訳対象となる入力文書に対して予め類似交電にクラス
タリングしておき、クラスタリング中の最初のテキスト
の翻訳編集と同期して、類似のテキストについても翻訳
編集を行なうことにより、翻訳校正作業が効率良くでき
ると共に、類似の文の翻訳精度を均一に保てるという効
果が生じる。

また、上記の実施例では、翻訳処理装置を例にとって説
明したが、ワードプロセッサのような文書処理装置に対
しても本発明の適用は可能である。

すなわち、まとまりのある文書を作成・編集する場合に
１文書中に出現する類似の文を抽出・管理し、類似文の
表現を統一するための手段として使用したり、逆に類似
の表現の多用をチェックする手段として使用する等の用
途が考えられる。このような手段は本発明の要旨を逸脱
しない範囲で種種変形して実施することが可能である。

失胤桝隻別の実施例として、英語から日本語への翻語を行なう翻
訳処理装置について述べる。装置の構成は実施例１と同
様とする。

本実施例では、第１図の典型対訳パターンファイル９中
に既にパターンが登録しであることを前提にする。これ
は、同じ種類の文書、例えば、コンピュータマニュアル
の世界では、ＰＬ／ＩやＣ０ＢＯＬ等の言語プロセッサ
の使用マニュアルが多々存在するが、ＰＬ／Ｉの使用マ
ニュアルを翻訳するときにＣ０ＢＯＬの使用マニュアル
中の表現と同一乃至類似の表現が使用されることが多い
、そこで、翻訳対象の文書と同類の文書で既に対訳が存
在していれば、その対訳から抽出される典型対訳パター
ンを利用して翻訳作業効率を向上しようという考え方に
基づくものである。

以下、本発明による翻訳処理の流れを第１６図に示すフ
ローに従って具体的に説明する。

（１６０１）原文ファイルＳ中の翻訳処理英文テキスト
を出現順に順次取り出す。

（１６０２）抽出した英文テキストについて。

典型対訳パターンファイル９中の原文パターンと類似な
関係になる対訳パターンを抽出する。ここで、類似の対
訳パターンの抽出方法を第１３因に示すフローに従って
説明する。

（１３０１）メモリ４中に設定した類似文保持テーブル
をクリアする。類似文保持テーブルには、典型対訳パタ
ーンファイル９から抽出した類似な対訳パターンに対応
するパターン番号と類似度をペアにして複数個格納でき
るようにしたものであり、テーブルクリアではこれらの
テーブルの値をゼロにする。類似文保持テーブルには、
以下のステップにより、類似度の大きい順にパターン番
号と類似度を類似度の降順に限定個数（例えば、５個）
登録していく。

（１３０２）典型対訳パターンファイル９から原文パタ
ーンを順次読み出す。

（１３０３）翻訳対象の英文テキストと原文パターンの
類似度を算出する。２つのテキスト間の類似度の算出方
法は、実施例１のステップ（２０１）で説明した方法を
用いればよい。

（１３０４）抽出した類似度と類似文保持テーブルに既
に登録済みの類似な対訳パターンの候補の類似度とを比
較し、抽出して類似度の方が太きければ、類似度保持テ
ーブルにパターン番号と類似度を降順になるように追加
し、最小の類似度をもつパターン番号を削除する。抽出
した類似度の方が小さければ、何もしない。

（１３０５）典型対訳パターンファイル９中のすべての
原文パターンを読み出したかどうかチェックし、未完で
あれば（１３０２）へ、完了であれば（１３０６）へ移
行する。

（１３０６）類似文保持テーブルには、類似度の大きい
順に典型対訳ファイル９中の対訳パターンへのアクセス
のためのパターン番号が格納されている。このパターン
番号により対応する原文パターン、訳文パターン、クラ
スタリング番号を抽出する。さらに、クラスタリング番
号からクラスタリングファイル１１中の類（Ｊｌｕのテ
キストの原文番号と訳文番号を抽出し、類似の対訳デー
タを抽出する。

以上の処理により、翻訳対象の英文テキストに類似な対
訳パターンと対訳文データが抽出できる。

（１６０３）類似のパターンがあるがどうがを類似文保
持テーブルによりチェックする。あれば（１６０４）、
なければ（１６０６）へそれぞれ移行する。

（１６０４）類似の対訳パターンの中で類似度が最大の
ものを利用してパターン主導型の翻訳処理を行なう。こ
れは、実施例工で説明した方式と同じであり、説明は省
略する。

（１６０５）パターン主導型の翻訳処理結果の訳文を校
正する。その際、（１６０２）のステップで抽出した複
数の類似な対訳パターンさらに類似な対訳データを対訳
表示編集画面上で表示し利用することにより、訳文の校
正が出来るようにする。すなわち、対訳表示編集画面の
一例として。

第９図に示すよう、翻訳対象文の翻訳結果表示エリア、
類似な典型対訳パターンの表示エリア、類似な対訳デー
タの表示エリアを識別して表示することが出来る。これ
らの表示エリアは、必要に応じて表示参照が出来るよう
にしてもよい。

また、類似な典型対訳パターンおよび対訳データの表示
の際に、翻訳対象テキストとの類似度を類似で示したり
色別表示するなど明示的に表示してもよい。

（１６０６）既に公知となっている翻訳処理装置を用い
て翻訳対象の英文テキストを翻訳する。

（１６０７）（１６０６）での翻訳結果の訳文を校正す
る。

（１６０Ｂ）校正済みの訳文を訳文ファイル６へ格納す
る。

（１６０９）原文ファイル５中の翻訳対象のすべての英
文テキストを翻訳処理したかどうかチェックし、未終了
であれば（１６０１）へ移行し、終了であればすべての
処理を完了する。

以上、本発明による別の一実施例を説明した。

本発明の適用効果として、類似の文書の典型対訳パター
ンファイルを予め複数個用意しておくことにより、新た
な文書の翻訳の際に、最も類似と思われる文書の典型対
訳パターンファイルを選択利用して効率良く翻訳および
訳文の校正作業を行なうことができる。

新たな文書を翻訳する際に、複数の典型対訳パターンフ
ァイルの中からどのファイルを利用すればよいかという
問題については、予め翻訳対象テキストのクラスタリン
グ結果の原文の典型パターンと各典型対訳パターンファ
イル中の原文パターンとの類似度のチェックを行ない、
類似文が最も多く含まれるファイルを利用する方式も可
能である。また、翻訳時に利用する典型対訳パターンフ
ァイルを１つに限定する必要はなく、複数のファイルを
利用するようにしても良い。これらは、本発明の要旨を
逸脱しない範囲で種々変形して実施できるものである。

去」ｌ（（別の実施例として、実施例２で説明した英語から日本語
への翻訳を行なう翻訳処理装置における典型対訳パター
ンファイル９の作成方法について述べる。装置の構成は
実施例２と同様とする。

実施例２では、典型対訳パターンファイル９内のパター
ンは翻訳処理を行なう前に作成済みであることを前提に
説明したが、本発明の考え方を適用することにより典型
対訳パターンを効率的に作成・保守することが可能であ
る。以下、典型対訳パターンの保守方法について説明す
る。

本実施例での典型対訳パターンの保守方法は。

既に登録済みの典型対訳パターンに対して、パターン間
の類似性を利用してパターンを再クラスタリングするこ
とにより、パターン数の軽減、さらには複数の典型対訳
パターンファイル中のパターンデータを統合することを
目指すものである。以下、第１４図のフローに従い、典
型対訳パターンのマージ方法について説明する。

（１４０１）典型対訳パターンファイル９中の任意の２
つの原文パターンについて類似度を算出する。２つのパ
ターン間の類似度の算出方法は、実施例１のステップ（
２０１）で説明した２つのテキスト間の類似度算出方法
と同様の方法を用いることが可能である。

（１４０２）算出した類似度が予め設定した閾値（例え
ば、０．８）より大きいかどうかチェックし、大きけれ
ば（１４０３）、小さければ（１４０４）へ移行する。

（１４０３）２つのパターンの類似度が大きい。

すなわち類似性があるので、２つのパターンをマージす
る。ここで、２つのパターンのマージ方法については、
実施例１のステップ（１００２）〜（１００５）で説明
した複数のテキストからのパターン抽出方法を適用すれ
ばよい。−例として、第１５図に示す２つの典型対訳パ
ターン（Ｅｌ−Ｐ）　（Ｊｌ−Ｐ）と（Ｅ２−Ｐ）（Ｊ
２−Ｐ）をマージする場合、（Ｅｌ−Ｐ）と（Ｅ２−Ｐ
）の比較によりアングラインを引いた！Ｎの部分のみ異
なり残りの部分は共通となる６従って、パターンのマー
ジ結果は（Ｅｌ−Ｐ−１）（Ｊｌ−Ｐ−１）に示すよう
に網掛けしたく！Ｎ〉が任意の構文要素として省略可能
なパターンとなる。ここで、〈と〉で囲んだ構文要素記
号は省略可能なことを示す。

典型対訳パターンファイル９中には、マージ結果の新た
な対訳パターンを登録し、マージの対象となった２つの
対訳パターンは削除する。

（１４０３）典型対訳パターンファイル９中のすべての
原文パターンの組合せについて類似度を算出したかどう
かをチェックし、未終了であれば（１４０１）へ移行し
、終了であればすべての処理を完了する。

処理完了後、典型対訳パターンファイル９中には、処理
前のパターンの数よりも少ないか等しい数のパターンが
登録されることになる。

上記の説明では、典型対訳パターンファイルを１つに限
定した場合について説明したが、複数の典型対訳パター
ンファイルから１つの典型対訳パターンファイルにパタ
ーンをマージする場合も同様の処理方法が適用できる。

以上１本発明による別の一実施例を説明した。

本発明の適用効果として、典型対訳パターンを自動的に
整理・統合することが可能となる。すなわち、翻訳対象
の入力原文の増加に伴って典型対訳パターンも一般的に
増えていくと考えられる。

そのような場合の典型対訳パターンファイルの保守管理
方法として、・典型対訳パターン中の類似のパターンを
統合することにより、典型対訳パターンファイルを保守
することが可能となる。さらに。

典型対訳パターンファイル中の登録上の制限として類似
文の数がある閾値以上のパターンに限定するといったよ
うな制約を設けてもよい。これらは、本発明の要旨を逸
脱しない範囲で種々変形して実施できるものである。

失蒼■旦別の実施例として、実施例２で説明した英語から日本語
への翻訳を行なう翻訳処理装置における典型対訳パター
ンファイル９の作成方法について述べる。装置の構成は
実施例２と同様とする。

実施例１では、典型対訳パターンファイル９内のパター
ンを、翻訳処理実行時に翻訳構成結果を利用して作成す
る方法について説明した。また、実施例４では、既存の
典型対訳パターンファイル９中のパターン情報をマージ
という手段により整理・統合する方法について説明した
１本実施例での基本的な考え方は、既に存在する対訳事
例を利用することにより、対訳事例から原文と訳文のそ
れぞれについて類似度によるクラスタリング処理を行な
い、クランスリング結果を利用して典型対訳パターンを
新規に作成する方法である。

以下、典型対訳パターンの作成方法について第１７図の
フローに従って説明する。

（１７０１）対訳事例ファイル１１に格納されている原
文テキストと訳文テキストについて、それぞれ類似度に
よるクラスタリングを行なう。類似度によるクラスタリ
ング方法は、実施例１のステップ（２０１）で説明した
方法を利用すればよ（）。

対訳事象ファイル１１には、原文ファイル５と訳文ファ
イル６のテキストに該当するデータがペアに格納されて
いるものとする。対訳事例ファイル１１の代わりに、原
文ファイル５と対応する翻訳校正済みの訳文ファイル６
のデータを利用してもよい。

原文テキストと訳文テキストのそれぞれについてクラス
タリング処理を行なうことにより、第１８図に示すよう
に原文のクラスタと訳文のクラスタさらに各クラスタ中
のテキストの対応関係が抽出できる。

（１７０２）抽出した原文と訳文の対応関係にあるクラ
スタについて、それぞれのクラスタ中のテキストの数が
等しく、さらにテキストの対応関係がとれているかどう
かチェックする。テキストの数が等しく対応関係がとれ
ていれば（１７０５）へ、それ以外は（１７０４）へ移
行する。

ここで、原文と訳文のクラスタの関係は第１８図に示す
ようになる１図中、原文がクラスタＡは（＊１＊　”２
＊　”３ｔ　”４）の各テキストがクラスタリングされ
ているが、対応する訳のクラスタＡ２では（本１．＄２
１．＊４）の各テキストがクラスタリングされており、
対応関係がとれないため（１７０４）の処理へ移行する
ことになる。

一方、原文のクラスタＢと訳文のクラスタＢではお互い
に（＊７ｔ　＊ｌＱ、＄２６）の各テキストがクラスタ
リングされており、対応関係がとれているため（１７０
３）の処理へ移行することになる。

（１７０３）対応関係のとれた原文と訳文のクラスタか
ら対訳パターンを抽出し、典型対訳ファイル９に登録す
る。併せて、原文ファイルに原文テキストを、訳文ファ
イルに訳文テキストを格納し、さらにクラスタリングフ
ァイル１１に対応付けのためのデータを格納しておく。

ここで、原文と対訳のクラスタからの対訳パターンの抽
出方法は、実施例１のステップ（１００２）　〜（１０
０５）で説明した方法を用いることが可能である。また
、ファイル間の関係についても実施例１での扱いと全く
同様に管理すればよい。

（１７０４）すべての原文と訳文のクラスタについて処
理を終了したかどうかをチェックし、未終了であれば次
のクラスタを抽出して（１７０２）へ移行する。処理終
了であればすべての処理を完了する。

以上、本発明による別の一実施例を説明した。

本発明の適用効果として、原文と対応する訳文を対応事
例として再利用することにより、典型対訳パターンを自
動的に抽出することが可能となる。

すなわち、翻訳結果の対訳事例を新たな文書の翻訳の際
に積極的に利用することが可能となる。対訳データを翻
訳処理結果の一過性のデータで閉じさせるのではなく、
翻釈処理のためのノ（ターンデータとして有効なデータ
ベースとして活用させることが可能となる。

〔発明の効果〕

以上説明したごとく本発明を適用した翻訳装置では、既
に翻訳した文書の対訳を利用することしこより、類似文
を翻訳する場合、類似典型ノ（ターンと異なる要素の部
分のみ翻釈すればよく、翻釈処理を軽減することができ
る。さらに、人力文書に対しても予め類似文毎にクラス
タリングしておくことにより入力交会てを機械翻訳処理
の対象とする必要がなくなり、翻釈処理効率が向上する
。また、従来方式では、類似文でも構成要素が微妙に異
なっただけで入力文の構文解析結果が微妙に異なったり
、解析処理に失敗したりといった問題力１発生していた
が、本発明により、類似の文の翻訳精度は均一に保てる
というメリットも生じる。

さらに、翻訳対象となる入力文書に対して予め類似文毎
にクラスタリングしておき、クラスタリング中の最初の
テキストの翻訳編集と同期して、類似のテキストについ
ても翻釈編集を行なうことにより、翻訳校正作業が効率
良くできると共に、類似の文の翻訳精度を均一に保てる
という効果が生じる。

また、類似の文書の典型対訳パターンファイルを予め複
数個用意しておくことにより、新たな文書の翻訳の際に
、最も類似と思われる文書の典型対訳パターンファイル
を選択利用して効率良く翻訳および訳文の校正作業を行
なうことができる。

本発明の他の適用効果として、原文と対応する訳文を対
訳事例として再利用することにより、典型対訳パターン
を自動的に抽出することが可能となる。すなわち、翻訳
結果の対訳事象を新たな文書の翻訳の際に積極的に利用
することが可能となる。対訳データを翻訳処理結果の一
過性のデータで閉じさせるのではなく、翻訳処理のため
のパターンデータとして有効なデータベースとして活用
させることが可能となる。その結果、翻釈結果を再利用
することにより翻訳処理のためのパターンデータを逐次
自動的に増補していくことが容易に実現できるため、翻
訳装置の利用者は翻訳規則の調整を行わずども翻訳精度
を向上させることが可能となる。

併せて、典型対訳パターンファイルの保守管理方法とし
て、典型対訳パターン中の類似の）（ターンを統合する
ことにより、典型対訳パターンファイルを保守すること
が可能となる。その結果、翻訳対象の入力原文の増加に
伴って典型対訳パターンが増えても、有効な典型対訳パ
ターンを自動的に調整・統合することが実現できる。

実施例の説明では、英語から日本語への２か国語間の翻
訳処理装置を例にとって説明したが、典型対訳パターン
を２か国語間のパターンからＮか国語（Ｎ＞２）のパタ
ーンに拡張すること１こより３か国語以上の翻訳装置へ
適用することは、本発明の要旨を逸脱しない範囲で実現
できるものである。

また、翻訳装置以外にも本発明は適用可能であり、本発
明を適用した文書処理装置においては、文書の編集操作
時に、文書中の類似文を確認することが容易になるため
、マニュアルなどの編集操作において、表現のバラツキ
を防止し、表現上統一された文書の校正処理効率が向上
する。すなわち、まとまりのある文書を作成・編集する
場合に、文書中に出現する類似の文を抽出・管理し、類
似文の表現を統一するための手段として使用したり。

逆に類似の表現の多用をチェックする手段として使用す
る等の用途が考えられる。

【図面の簡単な説明】

第１図は、本発明の一実施例の構成を示すブロック図、
第２図は、本発明の一実施例の動作を説明するための処
理フロー図、第３図は、第１図中のファイル間の関係を
説明する説明図、第４図は、本発明の一実施例の動作を
説明するための処理フロー図、第５図、第６図は、本発
明の一実施例の動作を説明するための説明図、第７図は
、本発明の一実施例の動作を説明するための処理フロー
図、第８図、第９図は、本発明の一実施例の動作を説明
するための説明図、第１０図、第１１図は、本発明の一
実施例の動作を説明するための処理フロー図、第１２図
は、本発明の一実施例の動作を説明するための説明図、
第１３図、第１４図は、本発明の一実施例の動作を説明
するための処理フロー図、第１５図は、本発明の一実施
例の動作を説明するための説明図、第１６図、第１７図
は、本発明の一実施例の動作を説明するための処理フロ
ー図、第１８図は、本発明の一実施例の動作を説明する
ための説明図をそれぞれ示す。１・・・デイスプレィ等の出力装置、２・・・キーボー
ド等の入力装置、３・・・プロセッサ、４・・・メモリ
、５・・・原文ファイル、６・・・訳文ファイル、７・
・・英日辞書ファイル、８・・・日本語辞書ファイル、
９・・・典型対訳パターンファイル、１０・・・クラス
タリングファイル、１１・・・対訳事例ファイル、３１
・・・テキスト正規化処理部、３２・・・テキスト比較
処理部、３３・・・テキストクラスタリング処理部、３
４・・・翻訳処理部、３５・・・パターン主導型翻訳処
理部、３６・・・はパターン抽出処理部、３７・・・パ
ターン登録処理部。第　１　図垢λ図第　３　図第４図８Ｓ１２］（久）Ｙｂ図（Ｊ＋第す図＜Ｃ＞第７図第？　図第　９田（ｄ）Ｙ　ノＯｌ￥１ ′＄ｒｒ　図ｆ、　　ｔ３　　図め　１４　　図笛　ＩＳ　　図（１２−Ｐ）　　　ニー！＃　　　　−ｔ！−１ト１　
　！Ｎ　　　＞￥’Ｖニー１’わｚｌｉｒｊｐ；ｒｚ　
ｒｂ　　図

Claims

【特許請求の範囲】１、第１言語から第２言語への言語間の翻訳を行なう翻
訳処理装置、において、第１言語で記述されたテキストから構成される翻訳対象
文書について類似の文毎にクラスタリングする手段と、
翻訳済みのテキストに対して類似の文毎にクラスタリン
グを行い、対訳形式で対訳事例ベースとして管理する手
段と、前記の対訳事例ベースのクラスタリングされた文
から対訳形式の典型パターン（以下、対訳典型パターン
と云う）を抽出する手段と、入力文に対して類似の対訳
典型パターンを検索し、検索した対訳典型パターンを利
用して、文中の類似しない要素のみ部分的に翻訳処理を
行ない、文全体の訳文を合成する手段を有することを特
徴とする翻訳処理装置。２、上記の対象事例ベースの作成方法として、翻訳対象
文書と類似な対訳文書を予め類似度によりクラスタリン
グしておき、併せて典型対訳パターンを抽出する手段と
、翻訳対象文書の翻訳校正時に類似の対訳文および典型
対訳パターンを抽出・表示する手段を有することを特徴
とする特許請求範囲第１項記載の翻訳処理装置。３、特許請求の範囲第１項記載の翻訳処理装置において
、翻訳対象文書を文書中のテキストの出現順序に従って翻
訳する際に、当該テキストがクラスタリングされた類似
の文を含むかどうかチェックする手段と、当該テキスト
が類似のクラスタリング中に未翻訳であるテキストが持
つ場合、当該テキストの翻訳と並行して類似のクラスタ
リング中のすべてのテキスト翻訳校正処理を行なう手段
を有することを特徴とする翻訳処理装置。４、特許請求の範囲第１項記載の翻訳処理装置において
、翻訳対象文書をあらかじめクラスタリングする手段と、
各クラスタリング中の代表となる典型文を抽出し、典型
文のみ翻訳・編集した後典型対訳パターンを抽出する手
段と、典型文との類似の文の翻訳はパターン主導型の翻
訳方法により翻訳を行ない、類似文を一切持たない文は
別の翻訳処理方法を適用することを特徴とする翻訳処理
装置。５、上記の翻訳文の校正処理において、典型対象パター
ンを利用して翻訳・校正する際に、典型対訳パターン中
のデータとの共通部と異なり部とを識別表示することを
特徴とする特許請求の範囲第１項記載の翻訳処理装置。６、上記の翻訳・校正の際に、原文と訳文の対訳表示画
面上で、一文毎のテキストに対応して類似文や典型対訳
パターンの存在の有無を識別表示することを特徴とする
特許請求の範囲第１項記載の翻訳処理装置。７、上記の翻訳・校正の際の原文と訳文のそれぞれの表
示において、典型対訳パターンに対応した共通部を書き
換え不可能とし、異なり部を書き換え可能として表示す
る手段を有することを特徴とする特許請求範囲第１項記
載の翻訳処理装置。８、上記原文と訳文の表示において、典型対訳パターン
に対応した共通部を書き換え不可能とし、異なり部を書
き換え可能とした場合、共通部分の書替え変更操作を設
けることにより、ワンクッションおいて共通部分の変更
を行なう手段を有することを特徴とする特許請求範囲第
７項記載の翻訳処理装置。９、テキストの類似な関係によるクラスタリング処理に
おいて、クラスタリング対象のテキスト中の単語を、数
字列表記の単語、固有名詞、人名、会社名に該当する単
語、さらに単語の属性などの特定の条件に合致する単語
列を別表記の単語列に置き換えた後、テキスト間の類似
度を検出する手段を有することを特徴とするテキストの
クラスタリング方法。１０、上記特許請求の範囲第２項
もしくは第３項記載の類似の対訳文および典型対訳パタ
ーンを表示する際に、表示データが複数存在する場合は
類似度の大きい順に表示する手段を有することを特徴と
する特許請求範囲第１項記載の翻訳処理装置。１１、上記複数の類似文を表示する際に、類似文同士で
完全一致する類似文は表示しない手段を有することを特
徴とする特許請求範囲第２項もしくは第３項もしくは第
１０項記載の翻訳処理装置。１２、上記複数の類似文を表示する際に、原文と完全一
致する類似文は表示しない手段を有することを特徴とす
る特許請求範囲第２項もしくは第３項もしくは第１０項
記載の翻訳処理装置。１３、原文と訳文からなる対訳事例データに対して、原
文のクラスタリングと訳文のクラスタリングの両方を行
ない、クラスタリング数の近似するものを典型態役事例
として扱う手段を有することを特徴とする対訳文のクラ
スタリング方法。１４、２つのテキスト間の類似度を算出するステップと
二項関係のうちの少なくとも１つの要素が共通する関係
同士をグループ化するステップからなることを特徴とす
るテキストのクラスタリング方法。１５、テキストの類似関係によりクラスタリング手段と
、クラスタリングされたテキストからの典型対訳パター
ン抽出手段を有することにより、典型対訳パターンを原
文と訳文の対訳型式の事例ベースから自動的に抽出する
ことを特徴とする対訳テキストパターンの自動学習方法
。１６、上記の典型対訳パターンの抽出方法において、新
たに入力したテキストの翻訳・編集結果を逐次蓄積し、
併せて既存のクラスタリングデータとのクランスタリン
グを行ない、クラスタリング文数がある閾値以上になっ
たら、典型対訳パターンを抽出することを特徴とする対
訳テキストパターンの動的な自動学習方法。１７、典型対訳パターン間の複数のパターンに対して、
類似なパターン毎にクラスタリングを行なう手段と、ク
ランスタリングされたパターン毎にパターンを統合する
手段を有することを特徴とする典型対訳パターンの再整
理・統合方法。１８、２か国語の対訳関係を、３か国語以上の関係に拡
張し、ｎか国語の対応関係を保持する対訳事例ベースお
よび典型対訳パターンを有することを特徴とする特許請
求の範囲第１項記載の翻訳処理装置。