JP4446749B2

JP4446749B2 - 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム

Info

Publication number: JP4446749B2
Application number: JP2004005862A
Authority: JP
Inventors: 聡彦松永; 美穂子北村; 稔樹村田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-01-13
Filing date: 2004-01-13
Publication date: 2010-04-07
Anticipated expiration: 2024-01-13
Also published as: JP2005202509A; US20050168772A1

Description

本発明は文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムに関し、例えば、ある旧版文書とそれを変更した改版文書（新版文書）のあいだで章、節、文などの対応関係を特定する場合や、このような対応関係の特定結果を用いた翻訳処理を実行する場合などに適用して好適なものである。

下記の非特許文献１の技術では、あらかじめ翻訳済みの原文、訳文の対訳を「翻訳メモリ」と呼ばれる対訳データベースに格納しておく。翻訳を行うときには、当該対訳データベースを検索した上で、翻訳しようとする原文（対象原文）と比較して最も類似度（一致度）が高い原文を特定する。その類似度が閾値以上ならば特定した原文と対訳の関係にある訳文を、当該対象原文の翻訳結果として出力する。閾値以下の場合は何も出力しないか、機械翻訳結果を出力する。

機械翻訳による翻訳結果の品質を高めるには本質的に困難な多くの問題を解決しなければならないが、このように対訳データベースを利用すれば、機械翻訳を行うことなく、高い品質の翻訳結果を得ることができる。

また、複数の翻訳者によりある翻訳プロジェクトを行っている場合、同じ対訳データベースを使用することで用語の訳し方を統一することが可能になる。さらに、例えば、マニュアルや技術文書などのように、改版することが予めわかっている文書の場合、第１版の対訳を対訳データベースに格納しておくことで第２版以降の改版文書の翻訳作業を効率よく行うことができる。
『ＡＴＬＡＳＶ９新機能「翻訳メモリ」』（２００２年６月）

ところで、上述した対訳データベースを用いる方法では、文単位の類似度だけを検査し、類似度が閾値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低い。

そこで、章、節などに配慮して文脈に忠実な翻訳を行うことにより、翻訳結果の品質を高めることが考えられる。この技術は、特願２００３−１４８６５７明細書および図面に記載されたもので、節などの文が属するブロック（文ブロック）間の対応関係を決定する際、文ブロック間の類似度が予め決めた閾値より高いか否かを検査し、検査結果に応じて文ブロック間の対応関係を決定し、対応関係が決定された文ブロック内で文を対応付けるようにすることで、文相互間で、文脈に配慮した対応関係を決定するものである。

ただしこの技術では、望ましい対応関係を得ることが可能な最適な閾値を決定するための方法が用意されていないから、ユーザが望む結果を得ることが必ずしも容易ではなく、文ブロック間の対応関係の決定に関し高い品質を実現することが難しい。また、利便性に欠けるということができる。

求めた類似度が閾値よりも高いときに対応関係があるものと決定（対応関係を確定）する場合、閾値を小さな値にするほど、情報処理により自動的に対応関係が確定される率（確定率）は高まるものの、一般的に、確定率が高まるほど、本来、対応関係があるものとするべきではない文ブロック間に対応関係を確定してしまう率（誤確定率）も高くなってしまう傾向がある。

したがって、誤確定率を許容範囲内に抑制しながら、可及的に小さな閾値を設定して確定率を高めることが求められるが、どこまでを許容範囲内とするかは個々のユーザの判断に依存し、ある値の閾値を用いたとき誤確定率がいくつになるかは、文ブロック（または文）の内容やユーザの主観などにも依存する問題である。

なお、このように文ブロックや文のあいだの対応関係を確定することは、翻訳処理だけでなく、版管理にも利用できる。

旧版文書に関する対訳を格納した対訳データベースを用いて行う改版文書の翻訳は、より抽象的には、版管理の概念に含まれるものとみることができ、版管理の品質を高めることが翻訳の品質を高めることにもつながる。

かかる課題を解決するために、第１の本発明は、第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素とのあいだの対応関係を検査する文書対応関係検査装置であって、（１）前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、（２）当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、（３）前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、（４）対応関係の有無の基準となる閾値を格納する閾値格納部と、（５）前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部とを備え、（２）前記ブロック照合部は、（２−１）前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、（２−２）前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部とを有し、（３）前記文照合部は、（３−１）前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、（３−２）前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部とを有し、（５）前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させることを特徴とする。

また、第２の本発明は、第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理装置において、（１）請求項１〜３のいずれかの文書対応関係検査装置と、（２）前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする。

さらに、第３の本発明は、第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査方法であって、（１）論理構造解析部が、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析し、（２）ブロック照合部が、前記論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出し、（３）文照合部が、前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出し、（４）閾値格納部が、対応関係の有無の基準となる閾値を格納しており、（５）照合制御部が、前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行うと共に、（２）前記ブロック照合部内では、（２−１）ブロック類似度算出部が、前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定のブロック類似度を算出し、（２−２）ブロック対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録し、（３）前記文照合部内では、（３−１）文類似度算出部が、前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出し、（３−２）文対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録し、（５）前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させることを特徴とする。

また、第４の本発明では、第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理方法において、請求項５の文書対応関係検査方法により前記第２の文書に関する原文に含まれる文ブロックと、前記第１の文書に関する原文の文ブロックの対応関係を検出し、前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行することを特徴とする。

さらにまた、第５の本発明では、第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査プログラムであって、コンピュータを、（１）前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、（２）当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、（３）前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、（４）対応関係の有無の基準となる閾値を格納する閾値格納部と、（５）前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部として機能させると共に、（２）前記ブロック照合部として機能させるプログラム部分は、コンピュータを、（２−１）前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、（２−２）前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部として機能させる部分を有し、（３）前記文照合部として機能させるプログラム部分は、コンピュータを、（３−１）前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、（３−２）前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部として機能させる部分を有し、（５）前記照合制御部はとして機能させるプログラム部分は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させるものであることを特徴とする。

本発明によれば、利便性が向上する。

また、本発明を例えば翻訳処理に利用した場合には、翻訳の品質向上や後編集の作業効率向上にも有効である。

（Ａ）実施形態
以下、本発明にかかる文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムを、翻訳支援システムに提供した場合を例に、実施形態について説明する。

上述したように、前記対訳データベースを用いる非特許文献１の方法では、文単位の類似度だけを検査し、類似度が閾値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低いといえる。

翻訳結果は、１つの文でみた場合には品質が高くても、文と文のつながり、文体、訳調などの観点で統一性に欠けたものであると品質が高いとはいえないからである。また、翻訳結果を得た後でユーザが行う後編集（ポストエディット）の作業効率を高める観点でも、文脈に忠実な翻訳結果であることが望ましい。

例えば、マニュアルなどの旧版に関する対訳を格納した対訳データベースを用いて、当該マニュアルの改版を翻訳する場合、旧版マニュアルと改版マニュアルの文脈に配慮しなければ、改版マニュアルの翻訳結果の品質が低下する可能性が高い。

マニュアルに限らず、例えば自然言語で記述された文書の場合、その文書上における距離（距離は例えば、章、節、段落などの単位で示すことができる。章で示す場合、一例として、同じ章内であれば距離が近く、異なる章に分散していれば距離が遠い）が離れるほど、各種の事情で、用語や言い回しが変化することが多いし、そのような変化は、読者にとって自然なものとして受け入れられる。例えば、まったく同じ表現で記述することも可能な内容を１つの文書のなかで２回（２文）記述する場合、記述される各文の当該文書における距離が近ければそれらの文の表現（用語や言い回し）は同じになることが多いが、距離が遠ければ、用語や言い回しが変化して異なる文となることも少なくない。同様のことは、１つの文書の内部においてのみではなく、文脈に対応関係を持つ傾向の強い２文書間（例えば、同じマニュアルの旧版文書と改版文書のあいだ）でも成立する。

例えば、改版マニュアルの原文のなかに、旧版マニュアルの対訳群のなかのある原文（参照原文）に類似度が高い文（対象原文）が存在する場合、その対象原文が存在する文脈が、旧版マニュアルにおいて当該参照原文が存在する文脈に対応したものであれば、その参照原文と対訳の関係をなす訳文をそのまま翻訳結果として利用できる可能性が高いが、対応したものでなければ、そのまま翻訳結果として利用できる可能性は低い。また、対応しない文脈であるのに翻訳結果として利用した場合には、後編集によって大幅な変更を行う必要性が高いことが予想されるが、文脈に配慮しない前記非特許文献１の技術では、その必要性をユーザに伝える方法がないため、ユーザは結局、高い類似度で得られた訳文に対しても、低い類似度で得られた訳文に対するのと同様な注意深さで後編集作業を行うことを強いられ、後編集の作業効率が低い。

そこで、本実施形態では、文脈に忠実な翻訳を行うことにより、翻訳結果の品質を高めるとともに、前記閾値の最適化の方法を用意して翻訳結果の品質向上を容易なものとし、利便性を高めることを特徴とする。

なお、後で詳述するように、最適な閾値とは、許容可能な最低限度の値を持つ閾値のことである。

（Ａ−１）第１の実施形態の構成
本実施形態にかかる翻訳支援システム１０の全体構成例を図１に示す。

図１において、当該翻訳支援システム１０は、入力部１と、文書構造解析部２と、文書構造比較部３と、差分情報生成部４と、旧版データベース５と、制御部６と、出力部７と、翻訳処理部８とを備えている。

このうち入力部１は、例えば、キーボードやマウスなどのポインティングデバイス、スキャナと文字認識処理などの各種機能によって構成され得る部分で、ユーザＵ１が各種入力操作を行なう際に機能する。

出力部７は、例えば、ディスプレイ装置への表示、音声への変換および音声出力などの各種機能によって構成され得る部分で、ユーザＵ１に対して各種の情報を提供する。ここで、ユーザＵ１は、当該翻訳支援システム１０を操作するオペレータなどであってよい。

ただし当該入力部１や出力部７は、人間であるユーザＵ１とのインタフェースとして機能するだけでなく、リモートの、あるいはローカルの情報処理装置（図示せず）とのあいだで制御情報やデータのやり取りを行うためにも機能し得る。このようなユーザＵ１あるいは情報処理装置とのやり取りに応じて、旧版データベース５の格納内容などが増減、変更されるものであってもよい。また、旧版データベース５の本体はＷｅｂサーバ側などに配置しておき、検索結果のみ（あるいは、翻訳結果のみ）をネットワーク経由で当該翻訳支援システム１０に取得する構成としてもよい。検索結果のみを取得するには、Ｗｅｂサーバ側でＣＧＩプログラムなどを利用して検索を行い、その結果を翻訳支援システム１０へ返送するようにすればよい。

制御部６は、ハードウエア的には当該翻訳支援システム１０のＣＰＵ（中央処理装置）に相当し、ソフトウエア的にはＯＳ（オペレーティングシステム）などの各種プログラムに相当する部分である。当該制御部６により、翻訳支援システム１０内の他の構成要素１〜５，７、８が制御され得る。

前記旧版データベース５自体は基本的に上述した対訳データベースに相当する構成要素で原文（の１文）を指定すればその訳文（の１文）が抽出できるように構成されているが、本実施形態では対訳の利用法が前記非特許文献１とは相違するため、その相違に応じて、データベースの格納内容にも従来とは異なる点がある。この旧版データベース５には、例えば、マニュアル、技術文書、論文などのように、改版することが予想される文書の旧版（例えば、第１版）を格納しておく。旧版データベース５には同時に複数の旧版文書（例えば、ある機種のパーソナルコンピュータに関するマニュアルの旧版文書と、他の機種のパーソナルコンピュータに関するマニュアルの旧版文書など）を格納しておくことができるが、以下では、旧版データベース５内に格納されている１つの文書ＤＣ１に注目して説明を進める。

なお、一般的には、１つの原文の文章とその翻訳結果である訳文の文章は別個の文書とされるが、ここでは、当該文書ＤＣ１は原文文章（ＯＲ１）の内容と訳文文章（ＣＰ１）の内容を含む１つの対訳文書であるものとする。

原文文章は、ある内容を第１言語（原文言語（例えば、日本語））で表現するために順序づけられた文の集合体であり、訳文文章は、ある内容を第２言語（訳文言語（例えば、英語））で表現するために順序づけられた文の集合体である。一般的には、原文文章中の各文とその翻訳結果である訳文文章の各文とは１対１に対応しないが、当該文書ＤＣ１は対訳文書であるため、原文文章ＯＲ１中の各文と、訳文文章ＣＰ１中の各文は、１対１に対応している。したがって、文脈（文脈は、後述する階層構造にも対応）の観点でも、当該原文文章ＯＲ１と訳文文章ＣＰ１は厳密に対応している。

旧版データベース５の内部は、原文文章ＯＲ１を格納する旧版原文データベース５Ａと、訳文文書ＣＰ１を格納する旧版訳文データベース５Ｂに分けることができる。

前記文書構造解析部２は文書の構造を解析し、その解析結果を文書構造比較部３に供給する部分である。ここで、構造とは、文章の自然言語的かつ論理的な構造のことで、１つの文章上における例えば、章、節、段落、文などの位置や包含、被包含の関係などに関する構造を指す。多くの場合、前記マニュアル、技術文書、論文などのように論理的な構造が比較的明確な文章では、１つの文章のなかに複数の章があり、各章のなかには１または複数の節があり、各節のなかには１または複数の段落があり、各段落のなかには１または複数の文があるというように階層構造を備えている。したがって、当該文書構造解析部２の役割は、当該階層構造を解析することである。

ここで、章、節、段落を、少なくとも１つ以上の文の集まりという意味でブロックと呼ぶ。文は、ブロックの概念のなかに含めることもできるが、ここでは、含まないものとしている。当該ブロック間には前記階層構造がある。なお、通常、１つの節には、１または複数の段落が含まれるが、ここでは、簡単のために段落を無視し、節のブロックに対しては、直接、文が包含されるものとする。

当該文書構造解析部２による解析の対象となる文書は、前記入力部１を介して入力される改版文書ＤＣ２中の文章である改版文章ＯＲ２と、前記旧版文書ＤＣ１に含まれる旧版原文文章ＯＲ１である。ただし、旧版原文文章ＯＲ１のほうは予め内容が決まっているため、改版文章ＯＲ２が得られるまえに解析を行い、解析結果を旧版原文データベース５Ａ内に格納しておくことが可能である。この点は旧版訳文文書ＣＰ１についても同様である。処理の効率を高めるためには、旧版原文文書ＯＲ１や旧版改版文書ＣＰ１の階層構造はあらかじめ解析して旧版データベース５などに格納しておくことが望ましい。

この旧版原文文章ＯＲ１の内容の一例を抽象化して示したものが、図２（Ａ）である。同様に、改版原文文章ＯＲ２の内容の一例を抽象化して示したものが図２（Ｂ）である。

図２（Ａ）および（Ｂ）において、アンダーラインを付与した「１」や「２」などは、章の番号である。また、「１．１」や「２．２」などは、「．」の左側の数字が章の番号を示し、右側の数字がその章に含まれる節の番号を示す。したがって、例えば、「１．１」は第１章第１節を示す。

図２（Ａ）において、「文１」、「文２」、「文５」などは各節に含まれる文を示している。ここで、「文」のあとに記述する数字（文識別子）の異同によって、その文の内容をなす文字列の異同を表現している。したがって、「文１」と「文２」は異なる文である。また、図２（Ａ）において、例えば、第１章第２節と第４章には、ともに、「文６」で示された同じ文が存在する。

改版原文文章ＯＲ２を示す図２（Ｂ）も基本的にこの図２（Ａ）と同じである。同じ文書（例えば、同じ機種のパーソナルコンピュータに関するマニュアル）の旧版と改版の関係にあるため、これら２つの文章ＯＲ１、ＯＲ２には内容的に共通する部分が多い。

ただし図２（Ｂ）では、「文Ａ」、「文Ｂ」などと、文識別子として数字ではなく、アルファベットを使用している。「文Ａ（１）」、「文Ｂ（２）」などと、括弧内に記述した数字は、図２（Ａ）に示す原文文章ＯＲ１側の文識別子で、旧版と改版のあいだで文の対応関係を示している。

なお、本実施形態で、文を識別するための識別情報としては当該文識別子のほかに文番号がある。文識別子は文の内容をなす文字列を識別する情報であるのに対し、文番号のほうは、文が当該原文文章上に出現した順番を示す情報である。

このように文番号は、各原文文章ごとに、文章上に出現した順番（図２（Ａ）および（Ｂ）の上から順番）に付与されるため、同じ文字列の文（同じ文識別子を付与された文）であっても、文章上の位置が変われば、文番号も変わる。したがって、図２（Ａ）において第１章第２節と第４章に出現する上述した「文６」には、第１章第２節で出現したときと第４章に出現したときでは、それぞれ別な文番号が付与される。

図２（Ａ）に示す旧版原文文章ＯＲ１の文と文番号の対応関係は、図１３に示す文・文番号対応表の通りである。また、文番号をもとに、旧版原文文章ＯＲ１と改版原文文章ＯＲ２の各文の対応関係をまとめると、図１４に示す新旧文対応表が得られる。

改版文書ＤＣ２や旧版文書ＤＣ１が、その論理的な構造が所定の定型的な方法で明示された文書（例えば、ＨＴＭＬ文書やＸＭＬ文書などのマークアップ言語で記述された文書）であることは、文書構造解析部２が行う解析処理を簡略化する上で望ましいが、必ずしもその必要はない。

図２（Ａ）および（Ｂ）の文章を前提とすると、文書構造解析部２による解析結果は、図４（Ａ）および（Ｂ）の構造情報表の形に整理することができる。図４（Ａ）は、旧版原文文章ＯＲ１に関する解析結果を整理したものであり、図４（Ｂ）は、改版原文文章ＯＲ２に関する解析結果を整理したものである。

図４（Ａ）および（Ｂ）において、ブロック番号は、上述したブロックが各原文文章上に出現した順番に付与した番号である。また、階層位置とは、階層の深さのことである。階層構造は木構造で表現できるが、深さ０がその文章全体（例えば、旧版原文文章ＯＲ１全体または改版原文文章ＯＲ２全体）に対応する木の根（ルート）であるとすると、深さ１は前記章に対応する木のノードであり、深さ２は前記節に対応する木のノードである。深さ３は後述する副次節に対応するノードであり、改版原文文章ＯＲ２のほうにだけ存在する。

下位ブロック番号は、各ブロックより深さが１つだけ深く、各ブロックに属するブロックのブロック番号である。また、文番号は、該当するブロック番号で指定されるブロックに属する文の文番号である。

さらに、対応ブロック番号及び類似度は、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで対応関係が確定できたブロックのブロック番号と、その確定の根拠となった類似度である。類似度の詳細については後述するが、図示の状態ではまだ対応関係が確定できたブロックが存在しないため、対応ブロック番号及び類似度は、空欄となっている。

対応ブロック番号及び類似度の内容としては、相互に対応するもの（対称的な内容）が記述されることになるので、データ項目としての「対応ブロック番号及び類似度」は、必ずしも図４（Ａ）と（Ｂ）の双方に設ける必要はなく、例えば、図４（Ｂ）にのみ設けるようにしてもよい。

前記文書構造比較部３は本実施形態の特徴的な構成要素で、基本的に当該文書構造解析部２の解析結果である階層構造を利用して、前記改版原文文章ＯＲ２と旧版原文文章ＯＲ１の論理的な構造を比較する部分である。両者の論理的な構造を比較すれば、文脈上、文のレベルで対応していることが確認された改版原文文章ＯＲ２のブロックに関しては、その訳文として、旧版訳文文章ＣＰ１の該当ブロックの内容をそのまま利用でき、対訳による翻訳が可能になる等の利点がある。類似度に関する上述した閾値の最適化に対応する機能も、その一部は、当該文書構造比較部３が提供する。

このような機能を実現するため、当該文書構造比較部３は、階層照合部３Ａと、閾値格納部３Ｂと、照合制御部３Ｃと、ブロック照合部３Ｄと、文照合部３Ｅと、対応付け結果一時保存部３Ｆとを備えている。

このうち階層照合部３Ａは、前記改版原文文章ＯＲ２と旧版原文文章ＯＲ１のあいだで、階層構造の深さを比較する部分である。改版によって文章の階層構造の深さが変化し、例えば、図２（Ｂ）の「３．２」における「３．２．１」、「３．２．２」のように、節と文のあいだに新たな階層（副次節）が設けられること等があり得るが、前記詳細照合部３Ｂの処理を行うためには、階層構造の深さを揃えておく必要があるため、当該階層照合部３Ａが必要になる。したがって、前記ブロック照合部３Ｄが行う処理の具体的な仕様によっては、当該階層照合部３Ａを省略できる可能性もある。

閾値格納部３Ｂは、閾値ＴＨを格納する部分である。この閾値ＴＨは、ブロック間の類似度が高いか否かを判定する際の基準となるものであるが、本実施形態では、当該閾値ＴＨの値は最大値から最小値に向けて逐次変更されるのが特徴である。

最大値や最小値をどのように設定するかは自由であるが、例えば最大値が１００％で最小値が０％の場合、閾値ＴＨは１００％から０％に向けて逐次変更されることになる。この変更は、その時点の閾値ＴＨから閾値減少幅を減算して得られる減算結果を新たな閾値ＴＨとし、新たな閾値ＴＨをその時点の閾値ＴＨと置き換えることによって実行される。１回の変更における変更幅（すなわち、当該閾値減少幅）は可変値としてもよいがここでは一定値（１０％）であるものとする。この場合、閾値は、１００，９０，８０，…，２０，１０，０（％）の順番で逐次、変更されることになる。

ブロック照合部３Ｄは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで、各ブロックの対応関係を検査する部分である。この検査（すなわち、ブロック対応決定処理）のため、当該ブロック照合部３Ｄは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで各文の異同（各文の文字列の異同）を検査する。そのために必要ならば、当該ブロック照合部３Ｄは、文照合部３Ｅと連携して機能するようにしてもよい。このような連携を行うなら、文字列の照合機能を文照合部３Ｅだけに搭載することもできる。

ブロック照合部３Ｄは、前記閾値格納部３Ｂから供給を受けた閾値ＴＨを用いて前記ブロック対応決定処理を実行し、処理結果としてブロックが対応するか否かを決定する。基本的に当該ブロック照合部３Ｄでは、旧版原文文章ＯＲ１内のあるブロックと改版原文文章ＯＲ２内のあるブロックの類似度が、その時点の閾値ＴＨ（例えば、前記９０％）よりも高い場合にそれらのブロックが対応するものと決定するが、その処理の詳細は以下の通りである。

ブロック照合部３Ｄにおいて、類似度の計算は、文章ＯＲ１とＯＲ２の同じ階層位置におけるすべてのブロックの組み合わせについて実行され、計算結果として得られる類似度が前記閾値ＴＨを越えたか否かに基づいて、ブロックが対応するか否かが決定される。同様な処理は前記閾値ＴＨを上述したように逐次変更するたびに繰り返すことになる。ただし、それまでに実行した、より大きな値の閾値ＴＨ（例えば、ＴＨ＝９０％）による処理で対応するものとされたブロックは、変更後のより小さな値の閾値ＴＨ（例えば、ＴＨ＝８０％）を用いた処理では除外して取り扱われる。

これにより、類似度が高い組み合わせのブロックから順番に対応関係が決定されて対応確定ブロックとされるため、少なくとも閾値ＴＨの値が大きいとき（一例として、ＴＨ＝７０％のとき等）の処理では、本来、対応確定ブロックとされるべきでないブロックが対応確定ブロックとされる対応誤りの発生頻度（前記誤確定率に対応）が極めて低い。

また、類似度を求めるのは、改版原文文章ＯＲ２上のあるブロック（すなわち、木のノード）と対応する旧版原文文章ＯＲ１上の１つのブロックを探索するためであるから、この組み合わせが、１対のブロックから構成される組み合わせであるのは当然である。

前記類似度は、１対のブロックの類似の度合いを示すことができる方法であれば、どのような計算方法によって算出してもかまわないが、次の式（１）にしたがって算出することは簡便である。

１００×完全一致する文数／（（１対のブロックの総文数）／２）…（１）
図２（Ａ）および（Ｂ）において、階層位置２について調べる場合、例えば、１対のブロックとして旧版原文文章ＯＲ１の第１章第１節と改版原文文章ＯＲ２の第１章第１節の組み合わせを選ぶときには、式（１）中の１対のブロックの総文数は、８（＝４＋４）となり、完全一致する文数は、４となるから、類似度は１００％である。

同様に、１対のブロックとして旧版原文文章ＯＲ１の第１章第２節と改版原文文章ＯＲ２の第１章第１節の組み合わせを選ぶときには、式（１）中の１対のブロックの総文数は、７（＝３＋４）となり、完全一致する文数は、０となるから、類似度は０％である。これと同様な検査を、階層位置２のブロックに関するすべての組み合わせについて実行する。異なる階層位置についても同様である。

なお、式（１）では、同一ブロック内における変化に関する限り文の出現位置の変化（相対的な出現位置の変化）は反映されないが、改版では、文の文字列は変化していなくても文が出現する位置が替わることがあるので、そのような位置の変化も、類似度に反映されるようにすることは望ましい。

図４（Ａ）および（Ｂ）のケースについて、例えば、階層位置２のブロックに関する組み合わせを、（文章ＯＲ１内のブロックのブロック番号，文章ＯＲ２内のブロックのブロック番号）の形式にしたがって列挙すると、（２，２）、（２，３）、（２，６）、（２，７）、（３，２）、（３，３）、（３，６）、（３，７）、（５，２）、…、（１０，６）、（１０，７）となる。

改版によって、旧版（例えば、ＯＲ１）には存在しなかった新たな章や節が改版文章（例えば、ＯＲ２）に出現したり、章や節の内容が部分的に変更されること等が起こり得るが、新たに出現した章や節の場合、前記詳細照合部３Ｂは、旧版原文文章側に対応するブロックは存在しない旨の決定を行う。また、改版によって、章や節の内容が部分的に変更された場合には、旧版原文文章側に対応するブロックは存在するものの、その類似度は低いことを示す。

単純に前記式（１）にしたがって各組み合わせの類似度を求めることによっても、各ブロックの対応関係を決定（対応するブロックが存在しない旨の決定なども含む）することが可能であるが、本実施形態のブロック照合部３Ｄは、浅い階層位置から順番に前記類似度を求め、深い階層位置で類似度を求めるときには、式（１）で得られた結果をそのまま用いずに、深い階層位置のブロックが属する浅い階層位置のブロック（深い階層位置のブロックからみると、この浅い階層位置のブロックは、親ブロック（上位ブロック）にあたる）の対応関係の検査結果に応じて変更する。

この変更は、対応関係が決定できた対応確定ブロックに属するブロックに比べ、対応するブロックが存在しない旨の決定を行ったブロック（非対応確定ブロック）に属するブロックの類似度は低くなるように制御することによって実現する。この制御は、例えば、所定の係数ρ（０＜ρ＜１）を、式（１）で算出した類似度に乗算するものであってよい。また、ρの具体値は、例えば、０．８や、０．９であってよい。係数ρの値は、１つだけとしてもよいが、複数を用意することも望ましい。

係数ρを複数用意する場合、対応確定ブロックに属するブロック（このブロックからみると、当該対応確定ブロックは、親ブロック（上位ブロック）にあたる。反対に、親ブロックである当該対応確定ブロックからみると、対応確定ブロックに属するブロックは、子ブロックにあたる）であっても、その対応確定ブロックの対応関係決定の根拠となった類似度の値の高低に応じて、ρの値を変化させる。これは、根拠となった類似度の値が小さいほど、乗算する係数ρの値も小さくし、式（１）によって算出された類似度を小さいほうへ変化させるものである。

これにより、原文文章ＯＲ１とＯＲ２のあいだの親ブロック間の対応関係により、子ブロックの対応関係が規制されるようになるから、親ブロックの範囲を越えて子ブロックの対応関係が確定する可能性を、確率的に低減することができる。これは、改版により文の一部を変更し、旧版と改版のあいだでその文自体の類似度は低くなってしまったようなケースでも、全体の文脈がそれほど大きく変化していなければ、旧版と改版のあいだでその文を対応づけることができることを意味する。前記非特許文献１の技術の場合、このようなケースでは、対訳による翻訳を行うことはできないが、本実施形態では、このようなケースにおいても、対訳による翻訳を行うことができる。

もちろん、当該文に注目する限り、その翻訳結果は正しいものではないが、それは、後編集によって効率的に修正することができる。

前記照合制御部３Ｃは、文書構造比較部３内の各構成要素３Ａ、３Ｂ、３Ｄ〜３Ｆを制御する部分である。具体的には、例えば、ブロック照合部３Ｂに対する前記ブロック対応決定処理の実行要求の供給、ブロック照合部３Ｂによるブロック対応決定処理の進捗状況に応じた閾値ＴＨの変更および変更後の閾値ＴＨの前記閾値格納部３Ｂへの格納、文照合部３Ｅへの実行要求の供給、一時保存部３Ｆの管理などが、この照合制御部３Ｃの機能であってよい。

文照合部３Ｅは改版原文文章ＯＲ２内の上述した対応確定ブロックに属する各文に関し、対応関係が確定した旧版原文文章ＯＲ１のブロック内で文を対応付けて文相互間の対応関係を決定する部分である。したがって、当該文照合部３Ｅは少なくとも、文字列の照合機能を搭載することになる。

ブロックの対応関係を決定するときに用いた処理は、文の対応関係を決定する際にも活用することが可能である。また、前記式（１）は、「文数」を「単語数」に、「ブロック」を「文」にそれぞれ置き換えることにより、そのまま、文の類似度を算出するために利用することも可能である。

一時保存部３Ｆは、前記ブロック対応決定処理の進行などに伴って得ることができる図４（Ａ）および（Ｂ）の構造情報表を格納する部分である。必要に応じて、旧版文書ＤＣ１や改版文書ＤＣ２を、この一時保存部３Ｆに格納しておいてもよい。

前記翻訳処理部８は、当該文書構造比較部３の処理を受けて、改版原文文章ＯＲ２の翻訳処理を実行する部分で、当該翻訳処理に応じて、改版原文文章ＯＲ２の訳文にあたる改版訳文文章ＣＰ２を出力する。

本実施形態において、改版原文文章ＯＲ２の翻訳は主として、改版原文文章ＯＲ２中のブロックを、対応する旧版訳文文章ＣＰ１中のブロックで置き換えることによって実行する。旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１は厳密に対応しているため、改版原文文章ＯＲ２上の対応確定ブロックであれば必ず、旧版訳文文章ＣＰ１中に対応するブロックを有する。この場合のブロックは、できるだけ下位の階層のブロック（例えば、節のブロック）とすることが望ましい。

なお、改版原文文章ＯＲ２上の非対応確定ブロックの場合、旧版訳文文章ＣＰ１中に対応するブロックを持たないため、このようなブロック単位の置き換えによる翻訳を行うことができない。したがって、改版原文文章ＯＲ２上の非対応確定ブロックの翻訳にあたっては、例えば、通常の機械翻訳を用いたり、前記非特許文献１で行われているように、文の類似度に基づいて、（ブロック単位ではなく）文単位で、旧版データベース５を利用する対訳による翻訳を行うようにしてもよい。

通常の機械翻訳では、形態素解析、構文解析など周知の各種自然言語処理の処理結果を利用して、動的に翻訳処理を実行する。

前記類似度が１００％ではないブロックであっても、可能な限り機械翻訳を行わず、対訳による翻訳を行うことによって、後編集の作業効率を高めることができる。対訳による翻訳のほうが、機械翻訳による翻訳よりも、文と文のつながり、文体、訳調などの統一性に優れているからである。

前記差分情報生成部４は、旧版訳文文章ＣＰ１と改版訳文文章ＣＰ２の差分に相当する情報（補助情報）を出力する部分である。この補助情報により、例えば、前記ディスプレイ装置の表示画面上で、改版によって削除された旧版原文文章ＯＲ１や旧版訳文文章ＣＰ１中のブロックを指定できるほか、改版訳文文章ＣＰ２中の機械翻訳を行ったブロックを指定するために利用することもできる。機械翻訳を行ったブロックは、後編集の必要性が高いブロックである。改版訳文文章ＣＰ２が長い文章であるとしても、画面上で当該補助情報を目視したユーザＵ１は、当該補助情報によって指定されるブロックのみに注力して後編集を行うことができるから、後編集の効率が高まる。

なお、前記旧版データベース５が、ハードディスクや光ディスクなどの不揮発性記憶手段や、メモリなどの揮発性記憶手段などの記憶資源の上に構築されることは当然である。

以下、上記のような構成を有する本実施形態の動作について、図３，図５，図６、図８のフローチャートを参照しながら説明する。

図３と図８のフローチャートは一連の全体的な処理の流れを示すもので、図３のフローチャートの処理につづいて図８のフローチャートの処理が実行される。図３のフローチャートは、Ｓ１０〜Ｓ１４の各ステップから構成され、図８のフローチャートは、Ｓ６１〜Ｓ６６の各ステップから構成されている。

図８のフローチャート中のステップＳ６２の詳細を示すのが、図５のフローチャートである。図５のフローチャートは、前記ブロック対応決定処理を適用するブロックを選択し、その組み合わせを決める処理（階層制御処理）のためのフローチャートで、Ｓ１５〜Ｓ２５の各ステップから構成されている。

図５のフローチャート中のステップＳ１９，Ｓ２２，Ｓ２６の詳細を示すのが、図６のフローチャートである。図６のフローチャートは前記ブロック対応決定処理の流れを示すもので、Ｓ３０〜Ｓ３６の各ステップから構成されている。

上述した説明から明らかなように、これら図３，図５，図６、図８のフローチャートは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２に関して実行される処理である。

（Ａ−２）第１の実施形態の動作
図３において、マニュアルなどの旧版文書ＤＣ１に含まれる旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１が旧版データベース５に格納された状態で、前記改版（新版）原文文章ＯＲ２を内容とする改版文書ＤＣ２が入力部１から供給されたものとする。この供給は、翻訳支援システム１０に対し、当該改版原文文章ＯＲ２の翻訳を要求する指令をともなう。

本実施形態において文章ＯＲ１とＯＲ２を当該翻訳支援システム１０で処理するためには、２つの文書が、前記文書構造解析部２によって解析され、図４（Ａ）および（Ｂ）に示す構造情報表の形式で整理されている必要がある。上述したように、旧版原文文章ＯＲ１があらかじめ解析され、その階層構造が得られている場合にはその必要はないが、そうでない場合には、図４（Ａ）の構造情報表を得るために解析を行うことになる（Ｓ１０、Ｓ１１）。このとき、図１３の文・文番号対応表も得られる。

改版原文文章ＯＲ２に対しても同様な解析が行われ図４（Ｂ）の構造情報表が得られる（Ｓ１２）。

次に、文章ＯＲ１とＯＲ２のうち階層構造の深さが浅いほうの最も深い階層位置の値を最大階層数を示す最大階層変数ＭａｘＬａｙｅｒに代入する。これは、２つの文章ＯＲ１，ＯＲ２の階層構造の深さを浅いほうに揃えるためである。同時に、階層構造表の不要ブロックレベル行を削除する（Ｓ１３）。この削除は、２つの文章ＯＲ１，ＯＲ２で深さが揃っていないときに行う処理である。図２（Ａ）および（Ｂ）の例では、この削除により、図２（Ｂ）の「３．２．１」と「３．２．２」に対応する図４（Ｂ）上の２つの行が削除され、最大階層変数ＭａｘＬａｙｅｒには、２が代入される。

次に、図１３に示す文・文番号対応表を用いて、改版原文文章ＯＲ２中の各文に完全一致する旧版原文文章ＯＲ１中の文を調べて、図１４に示す上述した新旧文対応表を作成する（Ｓ１４）。

つづいて処理は図８のステップＳ６１へ進む。

図８において、前記照合制御部３Ｃは閾値格納部３Ｂへ閾値ＴＨとして初期値である１００（％）の値を格納する（Ｓ６１）。

次のステップＳ６２では、照合制御部３Ｃがブロック照合部３Ｂに対して前記ブロック対応決定処理の実行要求を出し、これを受けたブロック照合部３Ｂは、この１００％の閾値ＴＨをもとに、ブロック対応決定処理を実行しようとする。ただしブロック対応決定処理を実行するには、前提として、前記階層制御処理を実行する必要があるため、図５の処理を実行することになり、また、図５のなかの各ステップにおいて当該ブロック対応決定処理（すなわち、図６の処理）そのものが実行されることになる。図５と図６の詳細についてはあとで説明するが、基本的には、階層を浅いところから深いところへ変化させながらブロックの組み合わせを変えて、前記ブロック対応決定処理を実行する操作を繰り返すことになる。

当該ステップＳ６２につづくステップＳ６３では、図４（Ｂ）に示す構造情報表について対応ブロック番号が未記入の行の存否を検査し、未記入の行が存在すればＹＥＳ側へ分岐して、存在しなければＮＯ側へ分岐する。図４（Ｂ）に示す構造情報表上の対応ブロック番号が未記入の行は、まだ、前記対応確定ブロックとなっていないブロック（対応未決定（対応未確定）のブロック）に対応する行である。この対応未確定ブロックのなかには、最終的に前記非対応確定ブロックとなるものと、閾値ＴＨの変更によって以降の処理で対応確定ブロックとなるものが含まれている可能性がある。

ステップＳ６３がＹＥＳ側へ分岐すると、その時点の閾値ＴＨの値から前記閾値減少幅である１０％を減算して得られる減算結果が、前記最小値である０％以上であるか否かを検査する。検査の結果、減算結果が０％未満であればステップＳ６４がＮＯ側に分岐して対応付けが終了する（Ｓ６６）が、０％以上であればＹＥＳ側に分岐する。ステップＳ６４がＮＯ側に分岐した場合、その時点で図４（Ｂ）に示す構造情報表上の対応ブロック番号が未記入の行は、前記非対応確定ブロックにあたる。

ステップＳ６４がＹＥＳ側に分岐した場合、その時点の閾値ＴＨの値から前記閾値減少幅である１０％を減算し、その減算結果を新たな閾値ＴＨとして再び前記ステップＳ６２の処理を繰り返す。このため、ステップＳ６２〜Ｓ６５によって構成されるループが繰り返されるたびに、閾値ＴＨの値は、１００，９０，８０、…と変化することになる。この繰り返しにより、類似度が高くブロック間の対応関係が確からしい組み合わせから順番に対応関係が確定され、対応確定ブロックが決定されていく。

例えば、図１５の例では、最初に対応関係が確定するのは行Ｌ２１に対応する（１０，８）の組み合わせである。これは、閾値ＴＨの値が１００％のときである。次に対応関係が確定するのは、行Ｌ２２に対応する（１，１）の組み合わせであり、その確定は閾値ＴＨの値が９０％のときである。

なお、具体的な実装にも依存するが、前記ステップＳ６４で実際にその時点の閾値ＴＨの値から前記閾値減少幅である１０％を減算するものとすると、ステップＳ６４の段階ですでに減算結果を得ているはずであるから、ステップＳ６５では、その減算結果を新たな閾値ＴＨとして取り扱うだけでよい。もっとも、現実の実装（例えばプログラミング）では、より効率を高めること等を理由に、ステップＳ６４でこの減算を行わないように構成する可能性もあることは当然である。

次に、図５に示す前記階層制御処理について説明する。これは、前記ステップＳ６２の詳細を示すものであるため、前記ステップＳ６２〜Ｓ６５で構成されるループが繰り返されるとき、前記ステップＳ６５につづいて実行されるが、当初は前記ステップＳ６１につづいて実行される。

図５のステップＳ１５では、検査階層変数ｉに１を代入する。この変数ｉは、これからブロック間の対応関係を検査する階層位置を示す変数である。上述したように、ブロック番号自体には階層位置の相違は反映されていないため、検査階層変数ｉによって、前記ブロック照合部３Ｂが行うブロック対応決定処理の対象とする階層位置を制御する必要がある。換言するなら、階層位置の相違を反映したブロック番号を付与するようにすれば、図５のフローチャートの内容は大きく異なるものになる可能性がある。

当該ステップＳ１５で、検査階層変数ｉに初期値である１を代入することにより、階層位置１、すなわち、上述した章のレベルにおけるブロック間の対応関係の検査（ブロック対応決定処理）が開始される。上述したように、階層位置としては０もあるが、ここでの初期値は１である。

この階層位置ｉにおけるブロックに関し、すべての前記組み合わせを処理するため、ブロック対応決定処理を行っていないブロック（このブロックのブロック番号をｊとする）の選択（Ｓ１６）と、下位ブロックのブロック番号が当該ｊである上位ブロック（このブロックのブロック番号をｋとする）の選択（Ｓ１７）を行う。

次に、ブロック番号が当該ｋである上位ブロックと対応するブロック（このブロックのブロック番号をｍとする）が、旧版原文文章ＯＲ１側に存在するか否かを検査し（Ｓ１８）、存在する場合には、ブロック番号がｋ、ｍそれぞれの当該上位ブロックを親ブロックとする下位ブロック（子ブロック）をすべて選択して、それらに対してブロック対応決定処理を行い（Ｓ１９）、存在しない場合には、処理をステップＳ２０へ進める。

ただし、階層位置が１の場合、その上位ブロック（親ブロック）は階層位置０、すなわち、その原文文章全体のブロックしかない。文書ＤＣ１とＤＣ２は、例えば、ある機種のパーソナルコンピュータに関するマニュアルなど、同一の文書の旧版と改版の関係にあるから、当然、階層位置ｉが１の回の処理では、前記ステップＳ１８は無条件にＹＥＳ側に分岐させることになる。

ステップＳ２０では、改版原文文章ＯＲ２内の階層位置ｉのブロックに対する全ての上位ブロック（全ての親ブロック）について、ブロック対応決定処理を行ったか否かを調べ、ブロック対応決定処理を行っていない親ブロックがある場合には、前記ステップＳ１６に戻って同様な処理を繰り返す。すべての親ブロックについてブロック対応決定処理が終わった場合には、処理はステップＳ２１へ進む。ステップＳ２１では、図４（Ｂ）の構造情報表の該当する行（該当するブロック）のうち、対応ブロック番号及び類似度の欄が未記入のものがあるか否かを調べる。この欄が未記入の行は、前記ブロック対応決定処理を終えていない前記対応未確定ブロックの行であるため、前記ブロック対応決定処理を行うことになる（Ｓ２２）。

当該階層位置ｉのすべてのブロックにつき、対応関係（対応確定ブロックまたは非対応確定ブロックの別）が確定すると、その時点のｉの値が前記最大階層変数ＭａｘＬａｙｅｒの値より小さいか否かを検査する（Ｓ２３）。小さければステップＳ２３はＹＥＳ側に分岐して、ｉをインクリメントし（Ｓ２４）、処理を前記ステップＳ１６に戻すことになるが、小さくなければステップＳ２３はＮＯ側に分岐して処理は、図８のステップＳ６３へ進む。ここでは、ＭａｘＬａｙｅｒの値は２であるから、ｉの値が１であると、ステップＳ２３はＹＥＳ側に分岐することになる。

ステップＳ２５でもブロック対応決定処理が実行されるが、ステップＳ２３がＮＯ側に分岐したあとで実行されるのであるから、当該ステップＳ２５では、階層位置がもっとも深い２のブロック（すなわち、節）について対応関係が決定され、改版原文文章ＯＲ２に含まれるすべてのブロックに対する対応関係が確定することになる。

もちろん、この確定により、いずれのブロックとも対応しない（対応するブロックが存在しない）前記非対応確定ブロックが出現し得ることは当然である。

次に、前記ステップＳ１９，Ｓ２２の詳細動作にあたるブロック対応決定処理の詳細を、図６のフローチャートに基づいて説明する。

図６において、すでに処理を行う階層位置などは決まっているので、その階層位置におけるすべてのブロックの組み合わせを求め、各組み合わせにつき、前記式（１）に応じた類似度を算出した上で、類似度の大きい順番に整列して図１５に示すブロック組み合わせ表を作成する（Ｓ３０）。類似度は単純に式（１）にしたがって算出するだけでなく、上述した係数ρを乗算してもよいことはすでに説明した通りである。

図１５は、図４（Ａ）および（Ｂ）の構造情報表を前提とした階層位置が１の場合のブロック組み合わせ表である。図１６からも明らかなように、図４（Ａ）の階層位置１には、ブロック番号１，４，８，１１の各ブロックが存在し、図４（Ｂ）の階層位置１には、ブロック番号１，４，５，１０の各ブロックが存在する。同様の関係は、図１７（Ａ）および（Ｂ）にも図示している。図１７（Ａ）から明らかなように、例えば、改版原文文章ＯＲ２のブロック番号１のブロック（章）にはブロック番号２と３の各ブロック（節）が属し、ブロック番号５のブロックにはブロック番号６と７の各ブロックが属している。同様に、図１７（Ｂ）で、旧版原文文章ＯＲ１のブロック番号１のブロック（章）にはブロック番号２と３の各ブロック（節）が属し、ブロック番号４のブロックにはブロック番号５，６，７の各ブロックが属している。

図１５に示すブロック組み合わせ表の内容を、上述した（文章ＯＲ１内のブロックのブロック番号，文章ＯＲ２内のブロックのブロック番号）の形式にしたがって表記すると、ステップＳ３０で作成するブロックの組み合わせの最も上の行Ｌ２１は、（８，１０）となり、上から２番目以降の行Ｌ２２〜Ｌ２６は順次、（１，１）、（４，５）、（１１，１）、（４，４）、（４，１）となる。

次に、当該ブロック組み合わせ表の各行のなかから、類似度のもっとも高い組み合わせに対応する行（ここでは、Ｌ２１）を選択し（Ｓ３１）、その行の類似度の値が所定の閾値ＴＨ以上であるか否かを検査する（Ｓ３２）。

類似度のもっとも高い組み合わせでさえ、閾値ＴＨ未満であれば、対応関係のあるブロックは存在しないことを意味するから、前記対応確定ブロックは得られず、前記非対応確定ブロックのみが得られて処理が終わる。

ただし、真に非対応確定ブロックであることが確定するのは、前記閾値ＴＨを最小値としたときのステップＳ３２でも類似度が閾値ＴＨ以上とならない場合である。もっとも、閾値ＴＨの最小値を上述した０％とした場合、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで対象となるブロックの数が同数であるなら、少なくとも形式上、最終的にはすべてのブロックが対応確定ブロックとなる。閾値ＴＨとして０％を適用すれば、類似度が０％のまったく異なるブロックのあいだでも対応関係が確定するからである。

また、閾値ＴＨの最小値を０％より大きな値としたケースでも、同じ文書の旧版と改版の関係にある文書ＤＣ１とＤＣ２の場合、すべての組み合わせの類似度が閾値ＴＨ未満となることは、ほとんどあり得ないので、多くの場合、いくつかの組み合わせでは、類似度が閾値ＴＨ以上となり、対応確定ブロックが得られる。したがって、多くの場合、類似度が最大の組み合わせである行Ｌ２１についても、対応確定ブロックが得られる。

図１５の例では、閾値ＴＨが１００％のときには行Ｌ２１の組み合わせで対応確定ブロックが得られ、閾値ＴＨが９０％のときには行Ｌ２２の組み合わせで対応確定ブロックが得られ、閾値ＴＨが８０％のときには対応確定ブロックは得られず、閾値ＴＨが７０％のときには対応確定ブロックが得られず、…、閾値ＴＨが４０％のときには行Ｌ２３の組み合わせで対応確定ブロックが得られ、閾値ＴＨが３０％のときには対応確定ブロックが得られず、閾値ＴＨが２０％のときには行Ｌ２４の組み合わせと行Ｌ２５の組み合わせで対応確定ブロックが得られ、閾値ＴＨが１０％のときには行Ｌ２６の組み合わせで対応確定ブロックが得られる。

類似度が閾値ＴＨ以上の行については、ステップＳ３２はＹＥＳ側に分岐して、その行の組み合わせに含まれる各ブロックを、対応確定ブロックに決定し、前記構造情報表の対応ブロック番号欄に該当するブロック番号（対応ブロック番号）を記述する（Ｓ３３）。上述したように前記閾値ＴＨが１００％で前記行Ｌ２１に相当する改版原文文章ＯＲ２上のブロック番号１０のブロックと、旧版原文文章ＯＲ１上のブロック番号８のブロックが、対応確定ブロックとされた場合、図４（Ａ）の構造情報表において、下から４番目の行であるブロック番号８の行の対応ブロック番号及び類似度の欄には、ブロック番号１０と、類似度１００％が記述され、同様に、図４（Ｂ）の構造情報表において、もっとも下の行であるブロック番号１０の行の対応ブロック番号及び類似度の欄には、ブロック番号８と、類似度１００％が記述される。

非対応確定ブロックに関しては、その対応ブロック番号及び類似度の欄に何も記述しなくてもよいが、必要に応じて、非対応確定ブロックであることを示す所定の情報（非対応確定情報）を記述するようにしてもよい。

なお、例えば、旧版原文文章ＯＲ１側のあるブロックに対し、類似度が閾値ＴＨ以上となる改版原文文章ＯＲ２側のブロックが複数存在すること等も起こり得るが、そのようなケースでは、類似度が最大となるブロックを選択し、選択したブロックを対応確定ブロックとすればよい。

当該ステップＳ３３で行Ｌ２１の類似度が閾値ＴＨ以上であることが判明したときには、当該ステップＳ３３につづいて、当該行Ｌ２１を、図１５の状態のブロック組み合わせ表から削除し（Ｓ３４）、前記ブロック組み合わせ表に残りの行が存在するか否かを検査する（Ｓ３５）。存在する場合、処理は、前記ステップＳ３０に戻り、存在しない場合には終了する（Ｓ３６）。

前記ステップＳ３２の検査に、前記係数ρを反映させることによって、原文文章ＯＲ１とＯＲ２のあいだの親ブロック間の対応関係で、子ブロックの対応関係が規制され、親ブロックの範囲を越えて子ブロックの対応関係が確定する（子ブロックが対応確定ブロックとされる）可能性を低減することができる。

これにより、親ブロック間で対応関係が確定していれば、その親ブロックの子ブロック間でも（その親ブロックと対応していないことが確定している親ブロックの子ブロックに比べ）対応関係が確定しやすくなり、子ブロック内の一部に対応しない文が含まれているケースなどでも、子ブロック間の対応関係が確定しやすい。

以上の処理により、改版原文文章ＯＲ２上のすべてのブロックにつき、対応確定ブロックであるか、非対応確定ブロックであるかが決定されるので、その決定に応じて、前記翻訳処理部８や差分情報生成部４が動作することが可能になる。

前記翻訳処理部８は、改版原文文章ＯＲ２中の対応確定ブロックに対しては、対応する旧版訳文文章ＣＰ１中のブロックで置き換えることによってブロック単位（例えば、節単位）の対訳による翻訳を実行することができる。また、改版原文文章ＯＲ２中の非対応確定ブロックに対しては、通常の機械翻訳を行ったり、前記非特許文献１のように、文の類似度に基づいて、文単位で対訳による翻訳を行うことができる。

以上のような処理を行うことによって、ブロック単位の置き換えを用いる対訳による翻訳を多用した翻訳処理を実行し、前記改版原文文章ＯＲ２に対応する改版訳文文章ＣＰ２を得ることが可能である。

改版訳文文章ＣＰ２が得られたあと、あるいは、改版訳文文章ＣＰ２を得る過程で、前記出力部７のディスプレイ装置に例えば図７に示すような画面ＭＧ１を表示して、ユーザＵ１が後編集を行を行ったり、対訳による翻訳を個別的に指示したりするためのユーザインタフェースを提供することができる。

画面ＭＧ１上には、旧版、改版（新版）、原文、訳文の各ブロックに属する１または複数の文の文字列を表示するためのフィールドＦ１１〜Ｆ１４と、ブロック番号を表示するためのフィールドＦ２１，Ｆ２２と、フィールドＦ１１〜Ｆ１４の表示内容をスクロールさせるためのスクロールバーＳＣ１，ＳＣ２と、対応関係決定の根拠となった前記類似度を表示するためのフィールドＦ２３と、対話部品としての各種のボタンＢＴ１〜ＢＴ５を備えている。

ユーザＵ１がポインティングデバイスなどを操作して「次」ボタンＢＴ１を押し下げると、その時点で、フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックが、次のブロック（ブロック番号が１つ大きいブロック）に切り替えられる。反対に、「前」ボタンＢＴ２を押し下げると、その時点で、フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックが、前のブロック（ブロック番号が１つ小さいブロック）に切り替えられる。

また、旧版と、改版のあいだで、文の文字列が完全に一致しているものには、直観的なマークが付与される。このマークは、前記補助情報に基づいて表示するものであってよい。ユーザＵ１は、当該マークをもとに文が完全に一致していることを認識することができる。また、一般的に、マークされている文の割合が多いほどそのまま再利用できる確率が高く、対訳による翻訳の結果に対して後編集の必要性が低いことを意味するため、ユーザＵ１はマークされている文の割合をもとに、そのブロックに対する後編集の要否などを判断することもできる。

「コピー」ボタンＢＴ３は、ユーザＵ１が、フィールドＦ１１とＦ１２に表示されている旧版原文文章ＯＲ１中のブロックと、改版原文文章ＯＲ２中のブロックを閲覧することによって、これらのブロックの対応付けが良いと判断した場合に押下するボタンである。この押下により、その時点でフィールドＦ１３に表示されている旧版訳文文章ＣＰ１中のブロックが、改版訳文文章ＣＰ２のブロックを表示するためのフィールドＦ１４にコピーされる。したがって、この「コピー」ボタンＢＴ３は、対訳による翻訳をユーザＵ１が個別的に指示するための部品である。

すでに改版訳文文章ＣＰ２が完成している場合には、フィールドＦ１４には最初から、改版訳文文章ＣＰ２中のブロック（翻訳結果の一部）が表示されることになるが、必要に応じて、当該フィールドＦ１４内には、訳文を１文ずつ表示できるようにしてもよい。

いずれにしても、ユーザＵ１による編集作業（後編集）は、主として、フィールドＦ１４に表示されている翻訳結果に対して実行される。

すでに説明したように、旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１は文のレベルまで厳密に対応している。同様に、改版原文文章ＯＲ２と改版訳文文章ＣＰ２も、厳密に対応している。また、厳密さではやや低下するものの、旧版原文文章ＯＲ１と改版原文文章ＯＲ２も、おおむね対応している。したがって、前記ボタンＢＴ１やＢＴ２を押下して前記フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックを切り替えれば、基本的に、その切り替えに追従して他のフィールドＦ１２〜Ｆ１４に表示されるブロックも対応したものに切り替えられる。

このような画面ＭＧ１を閲覧するユーザＵ１は、改版原文文章ＯＲ１上のブロックを基準に各文章上の所望のブロックを選択して、後編集の作業を進めることができる。選択により、フィールドＦ１４上に表示されたブロック（改版訳文文章ＣＰ２上のブロック）には、改版によって内容が変わったためにそのままでは適切でない文や単語なども含まれている可能性があるので、後編集では、このような文や単語を探し出し、適切なものに変更することになる。

フィールドＦ２３に表示される類似度は、後編集の必要性が高いブロックをユーザＵ１に知らせるための情報となる。例えば、類似度が１００％のブロックに対しては、通常、後編集を行う必要はないが、類似度が低ければ（例えば、５０％程度なら）、そのブロックに対し重点的に後編集を行う必要があることがわかる。このような類似度に加え、または、類似度に替えて、前記マークなども含む補助情報を活用すれば、フィールドＦ１４内の画面の色や反転表示などの直感的な方法で、後編集の必要性をユーザＵ１に伝えることもできる。

後編集を終え、改版訳文文章ＣＰ２中の該当ブロックの内容が確定したら、ユーザＵ１は、「確定」ボタンＢＴ４を押下する。これにより、当該ブロックの内容が確定し、保存される。

後編集や対訳による翻訳の個別的な指示を終えるときには、ユーザＵ１は、「終了」ボタンＢＴ５を押下する。これにより、前記旧版文書ＤＣ１内のブロックと同様に、当該改版文書ＤＣ２内の該当ブロックが、前記旧版データベース５に格納される。

このあと、文書ＤＣ２をさらに改版した新たな改版文書ＤＣ３を翻訳する場合、新たな改版文書ＤＣ３からみると文書ＤＣ２は旧版文書であるから、当該旧版データベース５に格納された文書ＤＣ２の対訳は、その新たな改版文書ＤＣ３に対して対訳による翻訳を行う場合に活用することができる。

（Ａ−３）第１の実施形態の効果
本実施形態によれば、文脈に忠実で品質の高い翻訳結果を得ることが可能である。

また、本実施形態では、文脈に忠実な翻訳を行う過程で得られた各種の情報（前記補助情報なども含む）を活用することにより、後編集の作業効率を高めることができる。

さらに本実施形態では、照合制御部（３Ｃ）が閾値（ＴＨ）を逐次変更し、変更のたびにブロック対応決定処理等を実行させるため、ユーザ（Ｕ１）は閾値の設定を行う必要がなく、利便性が高い。このことはまた、翻訳結果の品質向上や、後編集の作業効率向上にも寄与する。一般的なユーザにとって即座に適切な閾値を設定することは容易ではなく、設定した閾値が不適切であると翻訳結果の品質が低下したり、後編集の作業効率が低下したりするからである。

さらにまた、本実施形態では、類似度が高い組み合わせのブロックから順番に対応関係が決定されて対応確定ブロックとされるため、少なくとも閾値の値が大きいときの処理では、対応誤りの発生頻度が極めて低い。

（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。

本実施形態では、旧版原文文章（ＯＲ１）と改版原文文章（ＯＲ２）のあいだで対応関係を確定したブロックと、その確定時の閾値ＴＨの値を含む案内情報を表示する仕組みを提供して、ユーザＵ１が容易に最適な閾値ＴＨを選ぶことを可能としたことを特徴とする。

ここで、前記旧版文書ＤＣ１に相当する旧版文書をＤＣ１１とし、前記改版文書ＤＣ２に相当する改版文書をＤＣ２１とする。また、ＤＣ１１内の旧版原文文章はＯＲ１１で、ＤＣ２１内の改版原文文章はＯＲ２１とする。

（Ｂ−１）第２の実施形態の構成および動作
本実施形態にかかる翻訳支援システム２０の全体構成例を図９に示す。

図９において、当該翻訳支援システム２０は、入力部１と、文書構造解析部２と、文書構造比較部３と、差分情報生成部４と、旧版データベース５と、制御部６と、出力部７と、翻訳処理部８と、案内情報生成部１１とを備えている。

このうち図１と同じ符号１〜８を付与した各構成要素の機能は基本的に第１の実施形態と同じであるので、その詳しい説明は省略する。

ただし本実施形態において文書構造比較部３内の一時保存部３Ｆが格納する構造情報表は、図１１に示す構成を備えている。図１１の構造情報表は基本的に図４（Ａ）および（Ｂ）の構造情報表と同じであるが、ブロック間の対応関係を確定したときの閾値ＴＨの値を記入するための閾値欄を設けた点が相違する。

本実施形態では、このような構成の構造情報表を一時保存部３Ｆに登録しておき、案内情報生成部１１が、出力部７または制御部６と連携して、図１０に示す画面ＭＧ２を表示出力させる。なお、当該画面ＭＧ２を表示する時点では、ブロック間の対応関係は確定し対応確定ブロックは獲得済みであるものの、文照合部３Ｅによる文の対応関係の決定や前記翻訳処理部８による翻訳はまだ行われていない。

図１０において、当該画面ＭＧ２は、フィールドＦ２１〜Ｆ２３と、ボタンＢＴ２１〜ＢＴ２３とを備えている。

このうちフィールドＦ２１には旧版原文文章ＯＲ１１中のブロックが表示され、フィールドＦ２２にはフィールドＦ２１に表示中のブロックに対して対応関係が確定した改版原文文章ＯＲ２１中のブロック（対応確定ブロック）が表示される。

また、フィールドＦ２３には、フィールドＦ２１とＦ２２に表示中のブロックに関し対応関係を確定したときの前記閾値ＴＨの値が表示される。図示の状態では、１００％を示す「１００」が表示されている。

ボタンＢＴ２１とＢＴ２３は、フィールドＦ２３に表示する閾値ＴＨの値を変更するため、ユーザＵ１によりマウスなどのポインティングデバイスを用いて操作されるボタンである。フィールドＦ２３に表示する閾値ＴＨの値を大きくしたいときには「△」ボタンＢＴ２１を操作し、小さくしたいときには「▽」ボタンＢＴ２２を操作するものであってよい。

図示の状態では閾値ＴＨの最大値である１００が表示されているため、ユーザＵ１はボタンＢＴ２３を操作することによって、逐次、より小さな９０，８０，７０，…の閾値ＴＨを表示させ、その間にボタンＢＴ２１を操作すれば、その時点から逐次より大きな閾値ＴＨを表示させることができる。

このようにしてユーザＵ１が閾値ＴＨの値を指定すると、案内情報生成部１１は、指定を受けた閾値ＴＨの値をもとに図１１の構造情報表を検索することにより対応関係が確定したときの閾値ＴＨの値がその値と一致する旧版原文文章ＯＲ１１側と改版原文文章ＯＲ２１側の各ブロックが特定できる。そして、対応関係が確定しているこれらのブロックが、それぞれフィールドＦ２１とＦ２２に表示されることになる。各フィールドＦ２１，Ｆ２２の範囲内に表示しきれないブロックを表示させるために、画面ＭＧ２上にスクロールバーなどを用意してもよいことは当然である。

フィールドＦ２１とＦ２２内に表示されるブロックは原文文章中のブロックであるから、ユーザＵ１が訳文言語に習熟しておらず、原文言語にしか習熟していない場合であっても、容易に、表示中のブロック間の対応関係の確定が適切なものであったか否かを判断することができる。この判断では、本来、対応確定ブロックとされるべきでないブロックが対応確定ブロックとされる対応誤りの有無が判断される。ただし、どの程度の関係にあるものを対応誤りとみなすか、あるいは、どこまで対応誤りとみなさずに許容するかは、ユーザＵ１の主観や文章の内容などにも依存する。ある程度、対応していない文が混入していても対応誤りとみなさないことによって後編集の効率を高めることが可能になることも多い。

フィールドＦ２１，Ｆ２２内に表示中のブロック間の対応関係の確定が適切なものであると判断した場合、ユーザＵ１はボタンＢＴ２３を操作する。当該「文対応」ボタンＢＴ２３の操作には、ユーザＵ１が翻訳支援システム２０に対し、文対応付け処理の実行を要求する意味があり、文の対応付け処理では、そのとき画面ＭＧ２のフィールドＦ２３内に表示されている閾値ＴＨが利用される。

ユーザＵ１がこのボタンＢＴ２３を操作して文の対応付け処理を要求すると、そのとき画面ＭＧ２上のフィールドＦ２３内に表示していた閾値ＴＨの値が文照合部３Ｅに供給され、前記文照合部３Ｅが文の対応付け処理を実行する。

当該閾値ＴＨの供給を受けた文照合部３Ｅは、図１１の構造情報表で、閾値欄に記入された値がその閾値ＴＨ以上の行に対応するすべての対応確定ブロックを取得し、その対応確定ブロック内で文対応付け処理を実行する。したがって、供給を受けた閾値ＴＨの値が例えば５０％である場合、閾値欄に記入された閾値が５０，６０，７０，８０，９０，１００の各対応確定ブロックが取得される。ユーザＵ１は前記ボタンＢＴ２１，ＢＴ２２を操作してフィールドＦ２３に表示される閾値ＴＨの値を変化させて、確定したブロック間の対応関係が許容できる最低値の閾値ＴＨがフィールドＦ２３内に表示されたときにボタンＢＴ２３を操作するとよい。

ユーザＵ１が指定する閾値ＴＨの値が高ければブロックの対応関係の品質も高い（例えば、ＴＨ＝１００％を指定すれば、完全に一致しているブロックのみに対応関係が認められる）が、文脈に配慮した翻訳の対象となるブロックの割合が小さくなるため、翻訳の品質が低下し、後編集の作業効率が低下してしまう。これに対し、ユーザＵ１が指定する閾値ＴＨの値が低ければ、ブロックの対応関係の品質は低下するものの、より多くの対応確定ブロックを文対応付け処理の対象とし、翻訳処理部８による文脈に配慮した翻訳の対象とすることができるため、翻訳の品質を高めて後編集の作業効率を高めることが可能となる。したがって、許容可能な最低限度の品質を持つブロックの対応関係を示す最低値の閾値ＴＨが最適な閾値であるといえる。

文照合部３Ｅが取得した対応確定ブロックに対して実行する文対応付け処理には様々なものがあり得るが、一例としては、図１８のフローチャートに示すものであってよい。図１８のフローチャートは文照合部３Ｅが供給を受けた閾値ＴＨをもとに実行する文対応付け処理であり、Ｓ４０〜Ｓ４７の各ステップを備えている。

ここで、前記ＤＣ１１内の旧版原文文章ＯＲ１１の１ブロックであるＢＲ１には、文a、文ｂ、文ｃ、文ｄが含まれ、ＤＣ２１内の改版原文文章ＯＲ２１の１ブロックであるＢＲ２には、文１Ｃ、文２Ｃ、文３Ｃ、文４Ｃが含まれているものとする。また各文章ＯＲ１１，ＯＲ２１上に各文が出現する順番もここに記載した通りであるものとする。そして、改版原文文章ＤＣ２１中の文１Ｃは、旧版原文文章ＤＣ１１中の文aを１文字も変更することなくそのまま用いており、残りの文２Ｃ〜４Ｃは、改版により、変更または追加されたものと仮定する。

なお、前記ステップＳ４０が実行されるまえに、各文章ＯＲ１１とＯＲ２１上におけるブロック間の対応関係はすでに決定（確定）されているものとし、図１８では、各ブロック内における文の対応関係を決定する。

図１８において、改版原文文章ＯＲ２１と旧版原文文章ＯＲ１１のあいだで対応関係が確定している対応確定ブロックを１つずつ選択する（Ｓ４０）。これにより、例えば、前記ブロックＢＲ１とＢＲ２が選択される。

次に、当該ブロックＢＲ１，ＢＲ２のあいだで、すべての文字が一致している文の組み合わせを選定し（Ｓ４１）、選定した組み合わせに含まれる文以外の文に対して単語の切り出し処理を行う（Ｓ４２）。このステップＳ４１では、前記文１Ｃと文aの組み合わせが選定される。文１Ｃと文aの組み合わせについては、この時点で、対応関係があることが確定し、改版原文文章ＯＲ２１上で当該文１Ｃが、対応確定文（対応関係が確定した文）とされる。

また、ステップＳ４２の単語の切り出し処理は、例えば、形態素解析によって行うことができるが、必要ならば、単語の切り出しの替わりに文字の切り出しを行うようにしてもよい。

ここで、単語の切り出しを行うのは、後述する式（２）で類似度を算出するためである。

ステップＳ４２につづくステップＳ４３では、ブロックＢＲ２のなかで対応関係が決定されていない文を１文ずつ選び、ブロックＢＲ１中の各文に対するすべての組み合わせ（すべての文の対）で、次の式（２）に基づく重み付け類似度（修正類似度）を算出する。

ＷＴ×１００×一致単語数／（（１対の文の総単語数）／２） …（２）
ここで、ＷＴは重みで、その初期値は１である。ただし、該当する文章（ここでは、ＯＲ２１）上でその文の１文前または１文後に出現する文の対応関係が決定されている場合には、重みＷＴの値は初期値より大きなるように変更される。初期値の次の値は、例えば、１．２であってよい。同様な重みＷＴの値の変更は繰り返され、近傍に出現する対応確定文の密度が高いほど、ＷＴの値が大きくなるように変更したり、これと反対に、近傍に、対応する文が存在しない旨の決定が行われた文（非対応確定文）が出現し、その密度が高くなるほど、ＷＴの値が小さくなるように変更するものであってもよいが、図１２（Ａ）〜（Ｃ）の例では、重みＷＴの値は、初期値の１と１．２の２通りであるものとする。また、密度などは考慮せず、単純に隣接する文の対応関係が確定したときには重みＷＴの値を１から１．２に変化させるものとする。

同様な重み付け類似度は、すでに対応関係が決定されたもの（例えば、前記文ａと文１Ｃの組み合わせ等）を除き、前記ブロックＢＲ１，ＢＲ２間で可能なすべての組み合わせについて算出される。

もしも、前記文２Ｃと文ｂの具体的な文字列が次の通りであり、重みＷＴの値が１であるものとすると、文２Ｃの単語数は５で、文ｂの単語数は６であり、文２Ｃと文ｂから構成される対の文の総単語数は１１である。

文２Ｃ：This is a pencil .
文ｂ： This is a pencil case .
この場合、一致単語数は、５であるから、前記式（２）によって得られる重み付け類似度は、９０．９％（≒１×１００×５／（１１／２））となる。

次に、重み付け類似度が、前記閾値ＴＨ以上となる組み合わせを選定する（Ｓ４４）。この閾値ＴＨは、ユーザＵ１がボタンＢＴ２３を操作することによって文照合部３Ｅに供給されたものであるから、その値は供給されるたびに相違し得るが、ここでは一例として前記５０％であるものとする。なお、旧版原文文章ＯＲ１１側のある文に対する改版原文文章ＯＲ２１側の複数の文の組み合わせの重み付け類似度が、同時に、前記閾値ＴＨ以上となることは起こり得るが、そのようなケースでは、重み付け類似度が最大の組み合わせだけについて、対応関係を決定するとよい。

前記文２Ｃ〜４Ｃと文ｂ〜ｄの各組み合わせについて算出した重み付け類似度が、例えば、図１２（Ａ）に示す通りであるとすると、文ｂと文２Ｃの組み合わせの重み付け類似度（ここでは、５６．４％）だけが閾値ＴＨ以上であるため、その組み合わせの対応関係が決定され、文２Ｃが対応確定文とされる。

そのブロックＢＲ２内に対応関係が確定していない文があり、なおかつ、その回のループ（ステップＳ４３〜Ｓ４６によって構成されるループ）の処理によって、新たに、対応確定文とされた文がある限り、ステップＳ４３〜Ｓ４６の処理は繰り返される。

この繰り返しのたびに、異なる文が対応確定文となるため、値１．２の重みＷＴが反映される文が変化する。例えば、図１２（Ａ）〜（Ｃ）の例において、図１２（Ａ）では、すでに対応確定文となった文１Ｃに隣接している文２Ｃに、値１．２の重みＷＴが使用され、重みＷＴの値が１ならば４７となる類似度が、重みＷＴの値が１．２となったことによって、５６．４（重みＷＴが１ならば、４５）になり、閾値ＴＨ（＝５０）以上に達している。

同様に、図１２（Ｂ）でも、当該文２Ｃが対応確定文となったことにより、文２Ｃに隣接する文３Ｃが値１．２の重みＷＴの影響を受け、重み付け類似度が５４になり、閾値ＴＨ以上に達し、対応確定文とされる。

最後の図１２（Ｃ）でも、当該文３Ｃが対応確定文となったことにより、文３Ｃに隣接する文４Ｃが値１．２の重みＷＴの影響を受け、重み付け類似度が４８になるが、４８では、前記閾値ＴＨ以上ではないため、当該文４Ｃと文ｄの組み合わせは、対応関係がないことが決定され、文４Ｃは非対応確定文とされる。

以上と同様な処理は、改版原文文章ＯＲ２１上のすべてのブロックについて実行される（Ｓ４７）。

なお、文対応付け処理には、その文が属するブロックの類似度を反映させるようにしてもよい。

例えば、対応関係が確定した旧版原文文章ＯＲ１１側と改版原文文章ＯＲ２１側のブロック間の類似度が所定値より高いと、そのブロックに属する文自体の類似度が低くても文の対応付けが確定されやすくなるように制御してもよい。例えば、文対応付け処理で使用する閾値の値を小さくすれば、文の対応付けが確定されやすくなる。

逆に、ブロック間の類似度が所定値より低い場合は、そのブロックに関係する文脈で訳文の再利用可能性が低い傾向があるため、文自体の類似度が高くても文の対応付けが確定されにくくなるように制御するとよい。例えば、文対応付け処理で使用する閾値の値を大きくすれば、文の対応付けが確定されにくくなる。

（Ｂ）第２の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、対応確定文に対する距離が近い（隣接する）文は、その重みの値が大きくなるため対応確定文とされやすくなる。これにより、１文だけで見ると他に類似度の高い文があったとしても、前後の文が編集されていないか編集量が少ないと対応確定文とされやすくなり、連続して対応確定文が発生する傾向が高くなる。これは、文脈に忠実な翻訳結果を得るために有効である。

反対に、改版により、ある文に隣接する文が削除されるか大幅に編集された場合には、隣接する文の類似度は相対的に小さくなるため、その文は、対応確定文となりにくいが、このようなケースでは、その削除や編集により、文のつながりが弱まっているといえるから、この意味でも、本実施形態は、文脈に忠実な翻訳結果を得やすいといえる。

さらにまた、本実施形態では、画面（ＭＧ２）上で閾値（ＴＨ）ごとに対応関係の確定したブロックを表示するため、ユーザ（Ｕ１）は対応関係の確定が適切なものであったか否かを容易に判断でき、最適な閾値を選択しやすくなる。

この閾値の選択は、文照合部（３Ｅ）が実行する文対応付け処理にも反映される。

なお、本実施形態では、類似度とともに閾値も（図１１の）構造情報表に登録するようにしたので新たなブロックを画面（ＭＧ２）表示させるたびに、類似度から閾値を再計算すること等が不要で、処理の効率が高い。

（Ｃ）他の実施形態
上記第１および第２の実施形態では、非対応確定ブロックに関しては自然言語処理（構文解析など）を用いた機械翻訳や前記非特許文献１の技術を利用し、その翻訳結果を表示するようにしたが、このような処理は省略してもよい。この場合、例えば非対応確定ブロックのみを、ユーザＵ１自身が翻訳するものであってよい。

上記第１および第２の実施形態では、画面の具体的な構成例を図示したが、図示した以外の構成を持つ画面を用いてもよいことは当然である。

なお、上記第２の実施形態では、主として、隣接する文が対応確定文となったときにその文の類似度を高める場合を例に説明したが、この処理を、近傍の文に対応確定文が多い場合や、その文に対して距離が近い文が対応確定文となった場合にその文の類似度を高めるように拡張することは容易である。

また、上記第１および第２の実施形態では、段落のブロックを無視したが、段落に配慮した処理を行ってもよいことは当然である。

なお、上記第２の実施形態で述べた文は、ブロックに置換可能である。すなわち、隣接するブロックが対応確定ブロックである場合や、近傍のブロックに対応確定ブロックが多い場合に、ブロックの類似度を高める方向に制御するようにしてもよい。

また、上記第１および第２の実施形態にかかわらず、翻訳を行うことは必ずしも必須ではない。本発明は、ブロックの対応関係を検出して、文脈を利用し、マニュアルなどの詳細な版管理を行う場合など（旧版文書と改版文書の詳細な差分に関する情報の取得なども含む）にも適用することが可能である。また、版管理以外で、文書間でブロックの対応関係を検出する場合にも適用することが可能である。

さらに、文書は、自然言語以外の構成要素を含んでいてもかまわない。例えば、図形や、画像などを含む文書に対しても本発明は適用可能である。また、図形や画像なども文書内における文脈の形成に寄与し得ることは当然である。

また、文書は自然言語以外の言語（例えば、プログラミング言語など）を含むものであってもかまわない。プログラミング言語で記述されるコンピュータプログラムのソースコードの文書は、前記マニュアル、技術文書、論文などと同様、しばしば改版を行う文書の代表例の一つである。

以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。

第１の実施形態にかかる翻訳支援システムの全体構成例を示す概略図である。第１および第２の実施形態で処理する原文文章の構成例を示す概略図である。第１および第２の実施形態の動作例を示すフローチャートである。第１および第２の実施形態で使用する原文文章の階層構造の例を示す表である。第１および第２の実施形態の動作例を示すフローチャートである。第１および第２の実施形態の動作例を示すフローチャートである。第１の実施形態の動作説明図である。第１および第２の実施形態の動作例を示すフローチャートである。第２の実施形態にかかる翻訳支援システムの全体構成例を示す概略図である。第１および第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第１および第２の実施形態の動作説明図である。第２の実施形態の動作例を示すフローチャートである。

符号の説明

１…入力部、２…文書構造解析部、３…文書構造比較部、３Ａ…階層照合部、３Ｂ…閾値格納部、３Ｃ…照合制御部、３Ｄ…ブロック照合部、３Ｅ…文照合部、３Ｆ…対応付け結果一時保存部、４…差分情報生成部、５…旧版データベース、５Ａ…旧版原文データベース、５Ｂ…旧版訳文データベース、６…制御部、７…出力部、８…翻訳処理部、ＯＲ１、ＯＲ１１…旧版原文文章、ＯＲ２、ＯＲ２１…改版原文文章、ＣＰ１…旧版訳文文章、ＣＰ２…改版訳文文章、ＤＣ１…旧版文書、ＤＣ２…改版文書、ＭＧ１、ＭＧ２…画面。

Claims

第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素とのあいだの対応関係を検査する文書対応関係検査装置であって、
前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、
当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、
前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、
対応関係の有無の基準となる閾値を格納する閾値格納部と、
前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部とを備え、
前記ブロック照合部は、
前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、
前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部とを有し、
前記文照合部は、
前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、
前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部とを有し、
前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させる
ことを特徴とする文書対応関係検査装置。
請求項１の文書対応関係検査装置において、
前記ブロック対応関係検出部は、
対応付けが確定した文ブロック及び確定していない文ブロックを区別した対応確定情報及び非対応確定情報と、その確定の際、前記対応付け実行部が用いた閾値の値を対応付けて記憶しておくブロック対応情報記憶部と、
このブロック対応情報記憶部に記憶されている、前記対応確定情報及び非対応確定情報と閾値をユーザに提示するとともに、ユーザと当該文書対応関係検査装置との対話を行うための対話部品を提供するユーザインタフェース部と、
提示された文ブロックの内容をもとにユーザが閾値を選択したとき、その選択を受け付ける選択受付部とを備えたことを特徴とする文書対応関係検査装置。
請求項１の文書対応関係検査装置において、
前記文対応関係検出部は、
対応関係がある最も深い階層の前記文ブロック間の類似度が所定値より高いと、当該文ブロック内に含まれる文の対応付けの判定のために使用する前記閾値を小さな値とする閾値制御部を備えたことを特徴とする文書対応関係検査装置。
第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理装置において、
請求項１〜３のいずれかの文書対応関係検査装置と、
前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする翻訳処理装置。
第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査方法であって、
論理構造解析部が、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析し、
ブロック照合部が、前記論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出し、
文照合部が、前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出し、
閾値格納部が、対応関係の有無の基準となる閾値を格納しており、
照合制御部が、前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行うと共に、
前記ブロック照合部内では、
ブロック類似度算出部が、前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定のブロック類似度を算出し、
ブロック対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録し、
前記文照合部内では、
文類似度算出部が、前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出し、
文対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録し、
前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させる
ことを特徴とする文書対応関係検査方法。
第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理方法において、
請求項５の文書対応関係検査方法により前記第２の文書に関する原文に含まれる文ブロックと、前記第１の文書に関する原文の文ブロックの対応関係を検出し、
前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行することを特徴とする翻訳処理方法。
第１の文書の構成要素と、前記第１の文書の言語と同じ言語の第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査プログラムであって、
コンピュータを、
前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、
当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、
前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第１の文書の文ブロックと第２の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、
対応関係の有無の基準となる閾値を格納する閾値格納部と、
前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部として機能させると共に、
前記ブロック照合部として機能させるプログラム部分は、
コンピュータを、
前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、
前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部として機能させる部分を有し、
前記文照合部として機能させるプログラム部分は、
コンピュータを、
前記第１の文書に関する文ブロックに属する文と第２の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、
前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第１の文書と第２の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部として機能させる部分を有し、
前記照合制御部はとして機能させるプログラム部分は、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第１または第２の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させるものである
ことを特徴とする文書対応関係検査プログラム。