JP3765798B2

JP3765798B2 - 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム

Info

Publication number: JP3765798B2
Application number: JP2003148657A
Authority: JP
Inventors: 聡彦松永; 美穂子北村; 稔樹村田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-05-27
Filing date: 2003-05-27
Publication date: 2006-04-12
Anticipated expiration: 2023-05-27
Also published as: JP2004355074A; US20040243403A1

Description

【０００１】
【発明の属する技術分野】
本発明は文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムに関し、例えば、ある旧版文書とそれを変更した改版文書（新版文書）のあいだで章、節、文などの対応関係を特定する場合や、このような対応関係の特定結果を用いた翻訳処理を実行する場合などに適用して好適なものである。
【０００２】
【従来の技術】
下記の非特許文献１の技術では、あらかじめ翻訳済みの原文、訳文の対訳を「翻訳メモリ」と呼ばれる対訳データベースに格納しておく。翻訳を行うときには、当該対訳データベースを検索した上で、翻訳しようとする原文（対象原文）と比較して最も類似度（一致度）が高い原文を特定する。その類似度がしきい値以上ならば特定した原文と対訳の関係にある訳文を、当該対象原文の翻訳結果として出力する。しきい値以下の場合は何も出力しないか、機械翻訳結果を出力する。
【０００３】
機械翻訳による翻訳結果の品質を高めるには本質的に困難な多くの問題を解決しなければならないが、このように対訳データベースを利用すれば、機械翻訳を行うことなく、高い品質の翻訳結果を得ることができる。
【０００４】
また、複数の翻訳者によりある翻訳プロジェクトを行っている場合、同じ対訳データベースを使用することで用語の訳し方を統一することが可能になる。さらに、例えば、マニュアルや技術文書などのように、改版することが予めわかっている文書の場合、第１版の対訳を対訳データベースに格納しておくことで第２版以降の改版文書の翻訳作業を効率よく行うことができる。
【０００５】
【非特許文献１】
『ＡＴＬＡＳＶ９新機能「翻訳メモリ」』（２００２年６月）
【０００６】
【発明が解決しようとする課題】
ところで、上述した対訳データベースを用いる方法では、文単位の類似度だけを検査し、類似度がしきい値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低いといえる。
【０００７】
翻訳処理を行う場合に限らず、適切で詳細な版管理を行う観点から見ても、文単位の類似度だけを検査していたのでは、品質の良い版管理を行うことは難しい。
【０００８】
旧版文書に関する対訳を格納した対訳データベースを用いて行う改版文書の翻訳は、より抽象的には、版管理の概念に含まれるものとみることができ、版管理の品質を高めることが翻訳の品質を高めることにもつながる。
【０００９】
【課題を解決するための手段】
かかる課題を解決するために、第１の本発明は、第１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査装置であって、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出する対応関係検出部とを備えたことを特徴とする。
【００１０】
また、第２の本発明では、第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理装置において、請求項１〜３のいずれかの文書対応関係検査装置と、前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする。
【００１１】
さらに、第３の本発明は、１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査方法であって、論理構造解析部が、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析し、当該論理構造解析部の解析結果をもとに、対応関係検出部が、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出することを特徴とする。
【００１２】
また、第４の本発明では、第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理方法において、請求項８〜１０のいずれかの文書対応関係検査方法により前記第２の文書に関する原文に含まれる文ブロックと、前記第１の文書に関する原文の文ブロックの対応関係を検出し、前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行することを特徴とする。
【００１３】
さらにまた、第５の本発明では、第１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査プログラムであって、コンピュータに、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析機能と、当該論理構造解析機能の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出する対応関係検出機能とを実現させることを特徴とする。
【００１４】
【発明の実施の形態】
（Ａ）実施形態
以下、本発明にかかる文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムを、翻訳支援システムに提供した場合を例に、実施形態について説明する。
【００１５】
上述したように、前記対訳データベースを用いる非特許文献１の方法では、文単位の類似度だけを検査し、類似度がしきい値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低いといえる。
【００１６】
翻訳結果は、１つの文でみた場合には品質が高くても、文と文のつながり、文体、訳調などの観点で統一性に欠けたものであると品質が高いとはいえないからである。また、翻訳結果を得た後でユーザが行う後編集（ポストエディット）の作業効率を高める観点でも、文脈に忠実な翻訳結果であることが望ましい。
【００１７】
例えば、マニュアルなどの旧版に関する対訳を格納した対訳データベースを用いて、当該マニュアルの改版を翻訳する場合、旧版マニュアルと改版マニュアルの文脈に配慮しなければ、改版マニュアルの翻訳結果の品質が低下する可能性が高い。
【００１８】
マニュアルに限らず、例えば自然言語で記述された文書の場合、その文書上における距離（距離は例えば、章、節、段落などの単位で示すことができる。章で示す場合、一例として、同じ章内であれば距離が近く、異なる章に分散していれば距離が遠い）が離れるほど、各種の事情で、用語や言い回しが変化することが多いし、そのような変化は、読者にとって自然なものとして受け入れられる。例えば、まったく同じ表現で記述することも可能な内容を１つの文書のなかで２回（２文）記述する場合、記述される各文の当該文書における距離が近ければそれらの文の表現（用語や言い回し）は同じになることが多いが、距離が遠ければ、用語や言い回しが変化して異なる文となることも少なくない。同様のことは、１つの文書の内部においてのみではなく、文脈に対応関係を持つ傾向の強い２文書間（例えば、同じマニュアルの旧版文書と改版文書のあいだ）でも成立する。
【００１９】
例えば、改版マニュアルの原文のなかに、旧版マニュアルの対訳群のなかのある原文（参照原文）に類似度が高い文（対象原文）が存在する場合、その対象原文が存在する文脈が、旧版マニュアルにおいて当該参照原文が存在する文脈に対応したものであれば、その参照原文と対訳の関係をなす訳文をそのまま翻訳結果として利用できる可能性が高いが、対応したものでなければ、そのまま翻訳結果として利用できる可能性は低い。また、対応しない文脈であるのに翻訳結果として利用した場合には、後編集によって大幅な変更を行う必要性が高いことが予想されるが、文脈に配慮しない前記非特許文献１の技術では、その必要性をユーザに伝える方法がないため、ユーザは結局、高い類似度で得られた訳文に対しても、低い類似度で得られた訳文に対するのと同様な注意深さで後編集作業を行うことを強いられ、後編集の作業効率が低い。
【００２０】
そこで、本実施形態では、文脈に忠実な翻訳を行うことにより、翻訳結果の品質を高めることを特徴とする。
【００２１】
（Ａ−１）第１の実施形態の構成
本実施形態にかかる翻訳支援システム１０の全体構成例を図１に示す。
【００２２】
図１において、当該翻訳支援システム１０は、入力部１と、文書構造解析部２と、文書構造比較部３と、差分情報生成部４と、旧版文書データベース５と、制御部６と、出力部７と、翻訳処理部８とを備えている。
【００２３】
このうち入力部１は、例えば、キーボードやマウスなどのポインティングデバイス、スキャナと文字認識処理などの各種機能によって構成され得る部分で、ユーザＵ１が各種入力操作を行なう際に機能する。
【００２４】
出力部７は、例えば、ディスプレイ装置への表示、音声への変換および音声出力などの各種機能によって構成され得る部分で、ユーザＵ１に対して各種の情報を提供する。ここで、ユーザＵ１は、当該翻訳支援システム１０を操作するオペレータなどであってよい。
【００２５】
ただし当該入力部１や出力部７は、人間であるユーザＵ１とのインタフェースとして機能するだけでなく、リモートの、あるいはローカルの情報処理装置（図示せず）とのあいだで制御情報やデータのやり取りを行うためにも機能し得る。このようなユーザＵ１あるいは情報処理装置とのやり取りに応じて、旧版データベース５の格納内容などが増減、変更されるものであってもよい。また、旧版データベース５の本体はＷｅｂサーバ側などに配置しておき、検索結果のみ（あるいは、翻訳結果のみ）をネットワーク経由で当該翻訳支援システム１０に取得する構成としてもよい。検索結果のみを取得するには、Ｗｅｂサーバ側でＣＧＩプログラムなどを利用して検索を行い、その結果を翻訳支援システム１０へ返送するようにすればよい。
【００２６】
制御部６は、ハードウエア的には当該翻訳支援システム１０のＣＰＵ（中央処理装置）に相当し、ソフトウエア的にはＯＳ（オペレーティングシステム）などの各種プログラムに相当する部分である。当該制御部６により、翻訳支援システム１０内の他の構成要素１〜５，７、８が制御され得る。
【００２７】
前記旧版データベース５自体は基本的に上述した対訳データベースに相当する構成要素で原文（の１文）を指定すればその訳文（の１文）が抽出できるように構成されているが、本実施形態では対訳の利用法が前記非特許文献１とは相違するため、その相違に応じて、データベースの格納内容にも従来とは異なる点がある。この旧版データベース５には、例えば、マニュアル、技術文書、論文などのように、改版することが予想される文書の旧版（例えば、第１版）を格納しておく。旧版データベース５には同時に複数の旧版文書（例えば、ある機種のパーソナルコンピュータに関するマニュアルの旧版文書と、他の機種のパーソナルコンピュータに関するマニュアルの旧版文書など）を格納しておくことができるが、以下では、旧版データベース５内に格納されている１つの文書ＤＣ１に注目して説明を進める。
【００２８】
なお、一般的には、１つの原文の文章とその翻訳結果である訳文の文章は別個の文書とされるが、ここでは、当該文書ＤＣ１は原文文章（ＯＲ１）の内容と訳文文章（ＣＰ１）の内容を含む１つの対訳文書であるものとする。
【００２９】
原文文章は、ある内容を第１言語（原文言語（例えば、日本語））で表現するために順序づけられた文の集合体であり、訳文文章は、ある内容を第２言語（訳文言語（例えば、英語））で表現するために順序づけられた文の集合体である。一般的には、原文文章中の各文とその翻訳結果である訳文文章の各文とは１対１に対応しないが、当該文書ＤＣ１は対訳文書であるため、原文文章ＯＲ１中の各文と、訳文文章ＣＰ１中の各文は、１対１に対応している。したがって、文脈（文脈は、後述する階層構造にも対応）の観点でも、当該原文文章ＯＲ１と訳文文章ＣＰ１は厳密に対応している。
【００３０】
旧版データベース５の内部は、原文文章ＯＲ１を格納する旧版原文データベース５Ａと、訳文文書ＣＰ１を格納する旧版訳文データベース５Ｂに分けることができる。
【００３１】
前記文書構造解析部２は文書の構造を解析し、その解析結果を文書構造比較部３に供給する部分である。ここで、構造とは、文章の自然言語的かつ論理的な構造のことで、１つの文章上における例えば、章、節、段落、文などの位置や包含、被包含の関係などに関する構造を指す。多くの場合、前記マニュアル、技術文書、論文などのように論理的な構造が比較的明確な文章では、１つの文章のなかに複数の章があり、各章のなかには１または複数の節があり、各節のなかには１または複数の段落があり、各段落のなかには１または複数の文があるというように階層構造を備えている。したがって、当該文書構造解析部２の役割は、当該階層構造を解析することである。
【００３２】
ここで、章、節、段落を、少なくとも１つ以上の文の集まりという意味でブロックと呼ぶ。文は、ブロックの概念のなかに含めることもできるが、ここでは、含まないものとしている。当該ブロック間には前記階層構造がある。なお、通常、１つの節には、１または複数の段落が含まれるが、ここでは、簡単のために段落を無視し、節のブロックに対しては、直接、文が包含されるものとする。
【００３３】
当該文書構造解析部２による解析の対象となる文書は、前記入力部１を介して入力される改版文書ＤＣ２中の文章である改版文章ＯＲ２と、前記旧版文書ＤＣ１に含まれる旧版原文文章ＯＲ１である。ただし、旧版原文文章ＯＲ１のほうは予め内容が決まっているため、改版文章ＯＲ２が得られるまえに解析を行い、解析結果を旧版原文データベース５Ａ内に格納しておくことが可能である。この点は旧版訳文文書ＣＰ１についても同様である。処理の効率を高めるためには、旧版原文文書ＯＲ１や旧版改版文書ＣＰ１の階層構造はあらかじめ解析して旧版データベース５などに格納しておくことが望ましい。
【００３４】
この旧版原文文章ＯＲ１の内容の一例を抽象化して示したものが、図２（Ａ）である。同様に、改版原文文章ＯＲ２の内容の一例を抽象化して示したものが図２（Ｂ）である。
【００３５】
図２（Ａ）および（Ｂ）において、アンダーラインを付与した「１」や「２」などは、章の番号である。また、「１．１」や「２．２」などは、「．」の左側の数字が章の番号を示し、右側の数字がその章に含まれる節の番号を示す。したがって、例えば、「１．１」は第１章第１節を示す。
【００３６】
図２（Ａ）において、「文１」、「文２」、「文５」などは各節に含まれる文を示している。ここで、「文」のあとに記述する数字（文識別子）の異同によって、その文の内容をなす文字列の異同を表現している。したがって、「文１」と「文２」は異なる文である。また、図２（Ａ）において、例えば、第１章第２節と第４章には、ともに、「文６」で示された同じ文が存在する。
【００３７】
改版原文文章ＯＲ２を示す図２（Ｂ）も基本的にこの図２（Ａ）と同じである。同じ文書（例えば、同じ機種のパーソナルコンピュータに関するマニュアル）の旧版と改版の関係にあるため、これら２つの文章ＯＲ１、ＯＲ２には内容的に共通する部分が多い。
【００３８】
ただし図２（Ｂ）では、「文Ａ」、「文Ｂ」などと、文識別子として数字ではなく、アルファベットを使用している。「文Ａ（１）」、「文Ｂ（２）」などと、括弧内に記述した数字は、図２（Ａ）に示す原文文章ＯＲ１側の文識別子で、旧版と改版のあいだで文の対応関係を示している。
【００３９】
なお、本実施形態で、文を識別するための識別情報としては当該文識別子のほかに文番号がある。文識別子は文の内容をなす文字列を識別する情報であるのに対し、文番号のほうは、文が当該原文文章上に出現した順番を示す情報である。
【００４０】
このように文番号は、各原文文章ごとに、文章上に出現した順番（図２（Ａ）および（Ｂ）の上から順番）に付与されるため、同じ文字列の文（同じ文識別子を付与された文）であっても、文章上の位置が変われば、文番号も変わる。したがって、図２（Ａ）において第１章第２節と第４章に出現する上述した「文６」には、第１章第２節で出現したときと第４章に出現したときでは、それぞれ別な文番号が付与される。
【００４１】
図２（Ａ）に示す旧版原文文章ＯＲ１の文と文番号の対応関係は、図１５に示す文・文番号対応表の通りである。また、文番号をもとに、旧版原文文章ＯＲ１と改版原文文章ＯＲ２の各文の対応関係をまとめると、図１６に示す新旧文対応表が得られる。
【００４２】
改版文書ＤＣ２や旧版文書ＤＣ１が、その論理的な構造が所定の定型的な方法で明示された文書（例えば、ＨＴＭＬ文書やＸＭＬ文書などのマークアップ言語で記述された文書）であることは、文書構造解析部２が行う解析処理を簡略化する上で望ましいが、必ずしもその必要はない。
【００４３】
図２（Ａ）および（Ｂ）の文章を前提とすると、文書構造解析部２による解析結果は、図４（Ａ）および（Ｂ）の構造情報表の形に整理することができる。図４（Ａ）は、旧版原文文章ＯＲ１に関する解析結果を整理したものであり、図４（Ｂ）は、改版原文文章ＯＲ２に関する解析結果を整理したものである。
【００４４】
図４（Ａ）および（Ｂ）において、ブロック番号は、上述したブロックが各原文文章上に出現した順番に付与した番号である。また、階層位置とは、階層の深さのことである。階層構造は木構造で表現できるが、深さ０がその文章全体（例えば、旧版原文文章ＯＲ１全体または改版原文文章ＯＲ２全体）に対応する木の根（ルート）であるとすると、深さ１は前記章に対応する木のノードであり、深さ２は前記節に対応する木のノードである。深さ３は後述する副次節に対応するノードであり、改版原文文章ＯＲ２のほうにだけ存在する。
【００４５】
下位ブロック番号は、各ブロックより深さが１つだけ深く、各ブロックに属するブロックのブロック番号である。また、文番号は、該当するブロック番号で指定されるブロックに属する文の文番号である。
【００４６】
さらに、対応ブロック番号及び類似度は、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで対応関係が確定できたブロックのブロック番号と、その確定の根拠となった類似度である。類似度の詳細については後述するが、図示の状態ではまだ対応関係が確定できたブロックが存在しないため、対応ブロック番号及び類似度は、空欄となっている。
【００４７】
対応ブロック番号及び類似度の内容としては、相互に対応するもの（対称的な内容）が記述されることになるので、データ項目としての「対応ブロック番号及び類似度」は、必ずしも図４（Ａ）と（Ｂ）の双方に設ける必要はなく、例えば、図４（Ｂ）にのみ設けるようにしてもよい。
【００４８】
前記文書構造比較部３は、当該文書構造解析部２の解析結果である階層構造を利用して、前記改版原文文章ＯＲ２と旧版原文文章ＯＲ１の論理的な構造を比較する部分である。両者の論理的な構造を比較すれば、文のレベルで対応していることが確認された改版原文文章ＯＲ２のブロックに関しては、その訳文として、旧版訳文文章ＣＰ１の該当ブロックの内容をそのまま利用でき、対訳による翻訳が可能になる等の利点がある。
【００４９】
この比較を行うため、当該文書構造比較部３は、階層照合部３Ａと、詳細照合部３Ｂとを備えている。
【００５０】
階層照合部３Ａは、前記改版原文文章ＯＲ２と旧版原文文章ＯＲ１のあいだで、階層構造の深さを比較する部分である。改版によって文章の階層構造の深さが変化し、例えば、図２（Ｂ）の「３．２」における「３．２．１」、「３．２．２」のように、節と文のあいだに新たな階層（副次節）が設けられること等があり得るが、前記詳細照合部３Ｂの処理を行うためには、階層構造の深さを揃えておく必要があるため、当該階層照合部３Ａが必要になる。したがって、詳細照合部３Ｂが行う処理の具体的な仕様によっては、当該階層照合部３Ａを省略できる可能性もある。
【００５１】
詳細照合部３Ｂは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで、各ブロックの対応関係を検査する部分である。この検査（すなわち、ブロック対応決定処理）のため、当該詳細照合部３Ｂは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２のあいだで各文の異同（各文の文字列の異同）を検査する。また、当該詳細照合部３Ｂは、ブロックが対応するか否かを識別する際の基準となるしきい値ＴＨ１の設定を受けている。後述するように類似度の最大値が１００％で最小値が０％の場合、しきい値ＴＨ１は１００％と０％の中間の値に設定されることになる。しきい値ＴＨ１の値はどのように決めてもよいが、一例としては、４０％に設定してもよい。
【００５２】
ブロックの対応関係は、同じ階層位置における文章ＯＲ１とＯＲ２のすべてのブロックの組み合わせの類似度を計算した上で、当該類似度に基づいて決定する。
【００５３】
また、類似度を求めるのは、改版原文文章ＯＲ２上のあるブロック（すなわち、木のノード）と対応する旧版原文文章ＯＲ１上の１つのブロックを探索するためであるから、この組み合わせが、１対のブロックから構成される組み合わせであるのは当然である。
【００５４】
類似度は、１対のブロックの類似の度合いを示すことができる方法であれば、どのような計算方法によって算出してもかまわないが、次の式（１）にしたがって算出することは簡便である。
【００５５】
１００×完全一致する文数／（（１対のブロックの総文数）／２）…（１）図２（Ａ）および（Ｂ）において、階層位置２について調べる場合、例えば、１対のブロックとして旧版原文文章ＯＲ１の第１章第１節と改版原文文章ＯＲ２の第１章第１節の組み合わせを選ぶときには、式（１）中の１対のブロックの総文数は、８（＝４＋４）となり、完全一致する文数は、４となるから、類似度は１００％である。
【００５６】
同様に、１対のブロックとして旧版原文文章ＯＲ１の第１章第２節と改版原文文章ＯＲ２の第１章第１節の組み合わせを選ぶときには、式（１）中の１対のブロックの総文数は、７（＝３＋４）となり、完全一致する文数は、０となるから、類似度は０％である。これと同様な検査を、階層位置２のブロックに関するすべての組み合わせについて実行する。異なる階層位置についても同様である。
【００５７】
なお、式（１）では、同一ブロック内における変化に関する限り文の出現位置の変化（相対的な出現位置の変化）は反映されないが、改版では、文の文字列は変化していなくても文が出現する位置が替わることがあるので、そのような位置の変化も、類似度に反映されるようにすることは望ましい。
【００５８】
図４（Ａ）および（Ｂ）のケースについて、例えば、階層位置２のブロックに関する組み合わせを、（文章ＯＲ１内のブロックのブロック番号，文章ＯＲ２内のブロックのブロック番号）の形式にしたがって列挙すると、（２，２）、（２，３）、（２，６）、（２，７）、（３，２）、（３，３）、（３，６）、（３，７）、（５，２）、…、（１０，６）、（１０，７）となる。
【００５９】
改版によって、旧版（例えば、ＯＲ１）には存在しなかった新たな章や節が改版文章（例えば、ＯＲ２）に出現したり、章や節の内容が部分的に変更されること等が起こり得るが、新たに出現した章や節の場合、前記詳細照合部３Ｂは、旧版原文文章側に対応するブロックは存在しない旨の決定を行う。また、改版によって、章や節の内容が部分的に変更された場合には、旧版原文文章側に対応するブロックは存在するものの、その類似度は低いことを示す。
【００６０】
単純に前記式（１）にしたがって各組み合わせの類似度を求めることによっても、各ブロックの対応関係を決定（対応するブロックが存在しない旨の決定なども含む）することが可能であるが、本実施形態の詳細照合部３Ｂは、浅い階層位置から順番に前記類似度を求め、深い階層位置で類似度を求めるときには、式（１）で得られた結果をそのまま用いずに、深い階層位置のブロックが属する浅い階層位置のブロック（深い階層位置のブロックからみると、この浅い階層位置のブロックは、親ブロック（上位ブロック）にあたる）の対応関係の検査結果に応じて変更する。
【００６１】
この変更は、対応関係が決定できたブロック（対応確定ブロック）に属するブロックに比べ、対応するブロックが存在しない旨の決定を行ったブロック（非対応確定ブロック）に属するブロックの類似度は低くなるように制御することによって実現する。この制御は、例えば、所定の係数ρ（０＜ρ＜１）を、式（１）で算出した類似度に乗算するものであってよい。また、ρの具体値は、例えば、０．８や、０．９であってよい。係数ρの値は、１つだけとしてもよいが、複数を用意することも望ましい。
【００６２】
係数ρを複数用意する場合、対応確定ブロックに属するブロック（このブロックからみると、当該対応関係確定ブロックは、親ブロック（上位ブロック）にあたる。反対に、親ブロックである当該対応確定ブロックからみると、対応確定ブロックに属するブロックは、子ブロックにあたる）であっても、その対応確定ブロックの対応関係決定の根拠となった類似度の値の高低に応じて、ρの値を変化させる。これは、根拠となった類似度の値が小さいほど、乗算する係数ρの値も小さくし、式（１）によって算出された類似度を小さいほうへ変化させるものである。
【００６３】
これにより、原文文章ＯＲ１とＯＲ２のあいだの親ブロック間の対応関係により、子ブロックの対応関係が規制されるようになるから、親ブロックの範囲を越えて子ブロックの対応関係が確定する可能性を、確率的に低減することができる。これは、改版により文の一部を変更し、旧版と改版のあいだでその文自体の類似度は低くなってしまったようなケースでも、全体の文脈がそれほど大きく変化していなければ、旧版と改版のあいだでその文を対応づけることができることを意味する。前記非特許文献１の技術の場合、このようなケースでは、対訳による翻訳を行うことはできないが、本実施形態では、このようなケースにおいても、対訳による翻訳を行うことができる。
【００６４】
もちろん、当該文に注目する限り、その翻訳結果は正しいものではないが、それは、後編集によって効率的に修正することができる。
【００６５】
前記翻訳処理部８は、当該文書構造比較部３の処理を受けて、改版原文文章ＯＲ２の翻訳処理を実行する部分で、当該翻訳処理に応じて、改版原文文章ＯＲ２の訳文にあたる改版訳文文章ＣＰ２を出力する。
【００６６】
本実施形態において、改版原文文章ＯＲ２の翻訳は主として、改版原文文章ＯＲ２中のブロックを、対応する旧版訳文文章ＣＰ１中のブロックで置き換えることによって実行する。旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１は厳密に対応しているため、改版原文文章ＯＲ２上の対応確定ブロックであれば必ず、旧版訳文文章ＣＰ１中に対応するブロックを有する。この場合のブロックは、できるだけ下位の階層のブロック（例えば、節のブロック）とすることが望ましい。
【００６７】
なお、改版原文文章ＯＲ２上の非対応確定ブロックの場合、旧版訳文文章ＣＰ１中に対応するブロックを持たないため、このようなブロック単位の置き換えによる翻訳を行うことができない。したがって、改版原文文章ＯＲ２上の非対応確定ブロックの翻訳にあたっては、例えば、通常の機械翻訳を用いたり、前記非特許文献１で行われているように、文の類似度に基づいて、（ブロック単位ではなく）文単位で、旧版データベース５を利用する対訳による翻訳を行うようにしてもよい。
【００６８】
通常の機械翻訳では、形態素解析、構文解析など周知の各種処理の処理結果を利用して、動的に翻訳処理を実行する。
【００６９】
前記類似度が１００％ではないブロックであっても、可能な限り機械翻訳を行わず、対訳による翻訳を行うことによって、後編集の作業効率を高めることができる。対訳による翻訳のほうが、機械翻訳による翻訳よりも、文と文のつながり、文体、訳調などの統一性に優れているからである。
【００７０】
前記差分情報部４は、旧版訳文文章ＣＰ１と改版訳文文章ＣＰ２の差分に相当する情報（補助情報）を出力する部分である。この補助情報により、例えば、前記ディスプレイ装置の表示画面上で、改版によって削除された旧版原文文章ＯＲ１や旧版訳文文章ＣＰ１中のブロックを指定できるほか、改版訳文文章ＣＰ２中の機械翻訳を行ったブロックを指定するために利用することもできる。機械翻訳を行ったブロックは、後編集の必要性が高いブロックである。改版訳文文章ＣＰ２が長い文章であるとしても、画面上で当該補助情報を目視したユーザＵ１は、当該補助情報によって指定されるブロックのみに注力して後編集を行うことができるから、後編集の効率が高まる。
【００７１】
なお、前記旧版データベース５が、ハードディスクや光ディスクなどの不揮発性記憶手段や、メモリなどの揮発性記憶手段などの記憶資源の上に構築されることは当然である。
【００７２】
以下、上記のような構成を有する本実施形態の動作について、図３，図５，図６のフローチャートを参照しながら説明する。
【００７３】
図３と図５のフローチャートは一連の全体的な処理の流れを示すもので、図３のフローチャートの処理につづいて図５のフローチャートの処理が実行される。図３のフローチャートは、Ｓ１０〜Ｓ１４の各ステップから構成され、図５のフローチャートは、Ｓ１５〜Ｓ２７の各ステップから構成されている。
【００７４】
また、図６のフローチャートは、前記詳細照合部３Ｂが行う各ブロックの対応関係の検査（ブロック対応決定処理）の詳細を示すフローチャートであり、Ｓ３０〜Ｓ３６の各ステップから構成されている。図５との関係では、この図６のフローチャートは、図５中のステップＳ１９、Ｓ２２，またはＳ２６の詳細動作を示すものである。
【００７５】
上述した説明から明らかなように、これら図３，図５，図６のフローチャートは、旧版原文文章ＯＲ１と改版原文文章ＯＲ２に関して実行される処理である。
【００７６】
（Ａ−２）第１の実施形態の動作
図３において、マニュアルなどの旧版文書ＤＣ１に含まれる旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１が旧版データベース５に格納された状態で、前記改版（新版）原文文章ＯＲ２を内容とする改版文書ＤＣ２が入力部１から供給されたものとする。この供給は、翻訳支援システム１０に対し、当該改版原文文章ＯＲ２の翻訳を要求する指令をともなう。
【００７７】
本実施形態において文章ＯＲ１とＯＲ２を当該翻訳支援システム１０で処理するためには、２つの文書が、前記文書構造解析部２によって解析され、図４（Ａ）および（Ｂ）に示す構造情報表の形式で整理されている必要がある。上述したように、旧版原文文章ＯＲ１があらかじめ解析され、その階層構造が得られている場合にはその必要はないが、そうでない場合には、図４（Ａ）の構造情報表を得るために解析を行うことになる（Ｓ１０、Ｓ１１）。このとき、図１５の文・文番号対応表も得られる。
【００７８】
改版原文文章ＯＲ２に対しても同様な解析が行われ図４（Ｂ）の構造情報表が得られる（Ｓ１２）。
【００７９】
次に、文章ＯＲ１とＯＲ２のうち階層構造の深さが浅いほうの最も深い階層位置の値を最大階層数を示す最大階層変数ＭａｘＬａｙｅｒに代入する。これは、２つの文章ＯＲ１，ＯＲ２の階層構造の深さを浅いほうに揃えるためである。同時に、階層構造表の不要ブロックレベル行を削除する（Ｓ１３）。この削除は、２つの文章ＯＲ１，ＯＲ２で深さが揃っていないときに行う処理である。図２（Ａ）および（Ｂ）の例では、この削除により、図２（Ｂ）の「３．２．１」と「３．２．２」に対応する図４（Ｂ）上の２つの行が削除され、最大階層変数ＭａｘＬａｙｅｒには、２が代入される。
【００８０】
次に、図１５に示す文・文番号対応表を用いて、改版原文文章ＯＲ２中の各文に完全一致する旧版原文文章ＯＲ１中の文を調べて、図１６に示す上述した新旧文対応表を作成する（Ｓ１４）。
【００８１】
このステップＳ１４につづき、図５のステップＳ１５では、検査階層変数ｉに１を代入する。この変数ｉは、これからブロック間の対応関係を検査する階層位置を示す変数である。上述したように、ブロック番号自体には階層位置の相違は反映されていないため、検査階層変数ｉによって、前記詳細照合部３Ｂが行うブロック対応決定処理の対象とする階層位置を制御する必要がある。換言するなら、階層位置の相違を反映したブロック番号を付与するようにすれば、図５のフローチャートの内容は大きく異なるものになる可能性がある。
【００８２】
当該ステップＳ１５で、検査階層変数ｉに初期値である１を代入することにより、階層位置１、すなわち、上述した章のレベルにおけるブロック間の対応関係の検査（ブロック対応決定処理）が開始される。上述したように、階層位置としては０もあるが、ここでの初期値は１である。
【００８３】
この階層位置ｉにおけるブロックに関し、すべての前記組み合わせを処理するため、ブロック対応決定処理を行っていないブロック（このブロックのブロック番号をｊとする）の選択（Ｓ１６）と、下位ブロックのブロック番号が当該ｊである上位ブロック（このブロックのブロック番号をｋとする）の選択（Ｓ１７）を行う。
【００８４】
次に、ブロック番号が当該ｋである上位ブロックと対応するブロック（このブロックのブロック番号をｍとする）が、旧版原文文章ＯＲ１側に存在するか否かを検査し（Ｓ１８）、存在する場合には、ブロック番号がｋ、ｍそれぞれの当該上位ブロックを親ブロックとする下位ブロック（子ブロック）をすべて選択して、それらに対してブロック対応決定処理を行い（Ｓ１９）、存在しない場合には、処理をステップＳ２０へ進める。
【００８５】
ただし、階層位置が１の場合、その上位ブロック（親ブロック）は階層位置０、すなわち、その原文文章全体のブロックしかない。文書ＤＣ１とＤＣ２は、例えば、ある機種のパーソナルコンピュータに関するマニュアルなど、同一の文書の旧版と改版の関係にあるから、当然、階層位置ｉが１の回の処理では、前記ステップＳ１８は無条件にＹＥＳ側に分岐させることになる。
【００８６】
ステップＳ２０では、改版原文文章ＯＲ２内の階層位置ｉのブロックに対する全ての上位ブロック（全ての親ブロック）について、ブロック対応決定処理を行ったか否かを調べ、ブロック対応決定処理を行っていない親ブロックがある場合には、前記ステップＳ１６に戻って同様な処理を繰り返す。すべての親ブロックについてブロック対応決定処理が終わった場合には、処理はステップＳ２１へ進む。ステップＳ２１では、図４（Ｂ）の構造情報表の該当する行（該当するブロック）のうち、対応ブロック番号及び類似度の欄が未記入のものがあるか否かを調べる。この欄が未記入の行は、前記ブロック対応決定処理を終えていないブロック（対応未決定（対応未確定）のブロック）の行であるため、前記ブロック対応決定処理を行うことになる（Ｓ２２）。
【００８７】
当該階層位置ｉのすべてのブロックにつき、対応関係（対応確定ブロックまたは非対応確定ブロックの別）が確定すると、その時点のｉの値が前記最大階層変数ＭａｘＬａｙｅｒの値より小さいか否かを検査する（Ｓ２３）。小さければステップＳ２３はＹＥＳ側に分岐して、ｉをインクリメントし（Ｓ２４）、処理を前記ステップＳ１６に戻すことになるが、小さくなければステップＳ２３はＮＯ側に分岐して処理はステップＳ２５へ進む。ここでは、ＭａｘＬａｙｅｒの値は２であるから、ｉの値が１であると、ステップＳ２３はＹＥＳ側に分岐することになる。
【００８８】
ステップＳ２５では前記ステップＳ２１と同様に、対応ブロック番号及び類似度の欄が未記入のものがあるか否かを調べ、あればそのブロックについても前記ブロック対応決定処理を実行する。ステップＳ２３がＮＯ側に分岐したあとで実行されるのであるから、当該ステップＳ２６では、階層位置がもっとも深い２のブロック（すなわち、節）について対応関係が決定され、改版原文文章ＯＲ２に含まれるすべてのブロックに対する対応関係が確定することになる。
【００８９】
もちろん、この確定により、いずれのブロックとも対応しない（対応するブロックが存在しない）前記非対応確定ブロックが出現し得ることは当然である。
【００９０】
次に、前記ステップＳ１９，Ｓ２２，Ｓ２６の詳細動作にあたるブロック対応決定処理の詳細を、図６のフローチャートに基づいて説明する。
【００９１】
図６において、すでに処理を行う階層位置などは決まっているので、その階層位置におけるすべてのブロックの組み合わせを求め、各組み合わせにつき、前記式（１）に応じた類似度を算出した上で、類似度の大きい順番に整列して図１７に示すブロック組み合わせ表を作成する（Ｓ３０）。類似度は単純に式（１）にしたがって算出するだけでなく、上述した係数ρを乗算してもよいことはすでに説明した通りである。
【００９２】
図１７は、図４（Ａ）および（Ｂ）の構造情報表を前提とした階層位置が１の場合のブロック組み合わせ表である。図１８からも明らかなように、図４（Ａ）の階層位置１には、ブロック番号１，４，８，１１の各ブロックが存在し、図４（Ｂ）の階層位置１には、ブロック番号１，４，５，１０の各ブロックが存在する。同様の関係は、図１９（Ａ）および（Ｂ）にも図示している。図１９（Ａ）から明らかなように、例えば、改版原文文章ＯＲ２のブロック番号１のブロック（章）にはブロック番号２と３の各ブロック（節）が属し、ブロック番号５のブロックにはブロック番号６と７の各ブロックが属している。同様に、図１９（Ｂ）で、旧版原文文章ＯＲ１のブロック番号１のブロック（章）にはブロック番号２と３の各ブロック（節）が属し、ブロック番号４のブロックにはブロック番号５，６，７の各ブロックが属している。
【００９３】
図１７に示すブロック組み合わせ表の内容を、上述した（文章ＯＲ１内のブロックのブロック番号，文章ＯＲ２内のブロックのブロック番号）の形式にしたがって表記すると、ステップＳ３０で作成するブロックの組み合わせの最も上の行Ｌ２１は、（８，１０）となり、上から２番目以降の行Ｌ２２〜Ｌ２６は順次、（１，１）、（４，５）、（１１，１）、（４，４）、（４，１）となる。
【００９４】
次に、当該ブロック組み合わせ表の各行のなかから、類似度のもっとも高い組み合わせに対応する行（ここでは、Ｌ２１）を選択し（Ｓ３１）、その行の類似度の値が所定のしきい値ＴＨ１以上であるか否かを検査する（Ｓ３２）。
【００９５】
類似度のもっとも高い組み合わせでさえ、しきい値ＴＨ１未満であれば、対応関係のあるブロックは存在しないことを意味するから、前記対応確定ブロックは得られず、前記非対応確定ブロックのみが得られて処理が終わる。
【００９６】
ただし同じ文書の旧版と改版の関係にある文書ＤＣ１とＤＣ２の場合、すべての組み合わせの類似度がしきい値ＴＨ１未満となることは、ほとんどあり得ないので、多くの場合、いくつかの組み合わせでは、類似度がしきい値ＴＨ１以上となり、対応確定ブロックが得られる。したがって、多くの場合、類似度が最大の組み合わせである行Ｌ２１については、対応確定ブロックが得られる。
【００９７】
しきい値ＴＨ１を前記４０％に設定したものとすると、図１７の例では、行Ｌ２１〜Ｌ２４の組み合わせでは、対応確定ブロックが得られ、行Ｌ２５とＬ２６の組み合わせでは、非対応確定ブロックが得られる。
【００９８】
類似度がしきい値ＴＨ１以上の行については、ステップＳ３２はＹＥＳ側に分岐して、その行の組み合わせに含まれる各ブロックを、対応確定ブロックに決定し、前記構造情報表の対応ブロック番号欄に該当するブロック番号（対応ブロック番号）を記述する（Ｓ３３）。前記しきい値ＴＨ１が４０％であれば、例えば、前記行Ｌ２１では、改版原文文章ＯＲ２上のブロック番号１０のブロックと、旧版原文文章ＯＲ１上のブロック番号８のブロックが、対応確定ブロックとされる。そして、図４（Ａ）の構造情報表において、下から４番目の行であるブロック番号８の行の対応ブロック番号及び類似度の欄には、ブロック番号１０と、類似度１００％が記述され、同様に、図４（Ｂ）の構造情報表において、もっとも下の行であるブロック番号１０の行の対応ブロック番号及び類似度の欄には、ブロック番号８と、類似度１００％が記述される。
【００９９】
非対応確定ブロックに関しては、その対応ブロック番号及び類似度の欄に何も記述しなくてもよいが、必要に応じて、非対応確定ブロックであることを示す所定の情報（非対応確定情報）を記述するようにしてもよい。その場合、前記しきい値ＴＨ１が４０％であるなら、図１７上の行Ｌ２４〜Ｌ２６内の組み合わせのブロック（図示されていない類似度０の組み合わせのブロックも含む）の対応ブロック番号及び類似度の欄には、当該非対応確定情報が記述されることになる。
【０１００】
なお、例えば、旧版原文文章ＯＲ１側のあるブロックに対し、類似度がしきい値ＴＨ１以上となる改版原文文章ＯＲ２側のブロックが複数存在すること等も起こり得るが、そのようなケースでは、類似度が最大となるブロックを選択し、選択したブロックを対応確定ブロックとすればよい。
【０１０１】
当該ステップＳ３３で行Ｌ２１の類似度がしきい値ＴＨ１以上であることが判明したときには、当該ステップＳ３３につづいて、当該行Ｌ２１を、図１７の状態のブロック組み合わせ表から削除し（Ｓ３４）、前記ブロック組み合わせ表に残りの行が存在するか否かを検査する（Ｓ３５）。存在する場合、処理は、前記ステップＳ３０に戻り、存在しない場合には終了する（Ｓ３６）。
【０１０２】
前記ステップＳ３２の検査に、前記係数ρを反映させることによって、原文文章ＯＲ１とＯＲ２のあいだの親ブロック間の対応関係で、子ブロックの対応関係が規制され、親ブロックの範囲を越えて子ブロックの対応関係が確定する（子ブロックが対応確定ブロックとされる）可能性を低減することができる。
【０１０３】
これにより、親ブロック間で対応関係が確定していれば、その親ブロックの子ブロック間でも（その親ブロックと対応していないことが確定している親ブロックの子ブロックに比べ）対応関係が確定しやすくなり、子ブロック内の一部に対応しない文が含まれているケースなどでも、子ブロック間の対応関係が確定しやすい。
【０１０４】
以上の処理により、改版原文文章ＯＲ２上のすべてのブロックにつき、対応確定ブロックであるか、非対応確定ブロックであるかが決定されるので、その決定に応じて、前記翻訳処理部８や差分情報生成部４が動作することが可能になる。
【０１０５】
前記翻訳処理部８は、改版原文文章ＯＲ２中の対応確定ブロックに対しては、対応する旧版訳文文章ＣＰ１中のブロックで置き換えることによってブロック単位（例えば、節単位）の対訳による翻訳を実行することができる。また、改版原文文章ＯＲ２中の非対応確定ブロックに対しては、通常の機械翻訳を行ったり、前記非特許文献１のように、文の類似度に基づいて、文単位で対訳による翻訳を行うことができる。
【０１０６】
以上のような処理を行うことによって、ブロック単位の置き換えを用いる対訳による翻訳を多用した翻訳処理を実行し、前記改版原文文章ＯＲ２に対応する改版訳文文章ＣＰ２を得ることが可能である。
【０１０７】
改版訳文文章ＣＰ２が得られたあと、あるいは、改版訳文文章ＣＰ２を得る過程で、前記出力部７のディスプレイ装置に例えば図７に示すような画面ＭＧ１を表示して、ユーザＵ１が後編集を行ったり、対訳による翻訳を個別的に指示したりするためのユーザインタフェースを提供することができる。
【０１０８】
画面ＭＧ１上には、旧版、改版（新版）、原文、訳文の各ブロックに属する１または複数の文の文字列を表示するためのフィールドＦ１１〜Ｆ１４と、ブロック番号を表示するためのフィールドＦ２１，Ｆ２２と、フィールドＦ１１〜Ｆ１４の表示内容をスクロールさせるためのスクロールバーＳＣ１，ＳＣ２と、対応関係決定の根拠となった前記類似度を表示するためのフィールドＦ２３と、対話部品としての各種のボタンＢＴ１〜ＢＴ５を備えている。
【０１０９】
ユーザＵ１がポインティングデバイスなどを操作して「次」ボタンＢＴ１を押し下げると、その時点で、フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックが、次のブロック（ブロック番号が１つ大きいブロック）に切り替えられる。反対に、「前」ボタンＢＴ２を押し下げると、その時点で、フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックが、前のブロック（ブロック番号が１つ小さいブロック）に切り替えられる。
【０１１０】
また、旧版と、改版のあいだで、文の文字列が完全に一致しているものには、直観的なマークが付与される。このマークは、前記補助情報に基づいて表示するものであってよい。ユーザＵ１は、当該マークをもとに文が完全に一致していることを認識することができる。また、一般的に、マークされている文の割合が多いほどそのまま再利用できる確率が高く、対訳による翻訳の結果に対して後編集の必要性が低いことを意味するため、ユーザＵ１はマークされている文の割合をもとに、そのブロックに対する後編集の要否などを判断することもできる。
【０１１１】
「コピー」ボタンＢＴ３は、ユーザＵ１が、フィールドＦ１１とＦ１２に表示されている旧版原文文章ＯＲ１中のブロックと、改版原文文章ＯＲ２中のブロックを閲覧することによって、これらのブロックの対応付けが良いと判断した場合に押下するボタンである。この押下により、その時点でフィールドＦ１３に表示されている旧版訳文文章ＣＰ１中のブロックが、改版訳文文章ＣＰ２のブロックを表示するためのフィールドＦ１４にコピーされる。したがって、この「コピー」ボタンＢＴ３は、対訳による翻訳をユーザＵ１が個別的に指示するための部品である。
【０１１２】
すでに改版訳文文章ＣＰ２が完成している場合には、フィールドＦ１４には最初から、改版訳文文章ＣＰ２中のブロック（翻訳結果の一部）が表示されることになるが、必要に応じて、当該フィールドＦ１４内には、訳文を１文ずつ表示できるようにしてもよい。
【０１１３】
いずれにしても、ユーザＵ１による編集作業（後編集）は、主として、フィールドＦ１４に表示されている翻訳結果に対して実行される。
【０１１４】
すでに説明したように、旧版原文文章ＯＲ１と旧版訳文文章ＣＰ１は文のレベルまで厳密に対応している。同様に、改版原文文章ＯＲ２と改版訳文文章ＣＰ２も、厳密に対応している。また、厳密さではやや低下するものの、旧版原文文章ＯＲ１と改版原文文章ＯＲ２も、おおむね対応している。したがって、前記ボタンＢＴ１やＢＴ２を押下して前記フィールドＦ１２内に表示されている改版原文文章ＯＲ２中のブロックを切り替えれば、基本的に、その切り替えに追従して他のフィールドＦ１２〜Ｆ１４に表示されるブロックも対応したものに切り替えられる。
【０１１５】
このような画面ＭＧ１を閲覧するユーザＵ１は、改版原文文章ＯＲ１上のブロックを基準に各文章上の所望のブロックを選択して、後編集の作業を進めることができる。選択により、フィールドＦ１４上に表示されたブロック（改版訳文文章ＣＰ２上のブロック）には、改版によって内容が替わったためにそのままでは適切でない文や単語なども含まれている可能性があるので、後編集では、このような文や単語を探し出し、適切なものに変更することになる。
【０１１６】
フィールドＦ２３に表示される類似度は、後編集の必要性が高いブロックをユーザＵ１に知らせるための情報となる。例えば、類似度が１００％のブロックに対しては、通常、後編集を行う必要はないが、類似度が低ければ（例えば、５０％程度なら）、そのブロックに対し重点的に後編集を行う必要があることがわかる。このような類似度に加え、または、類似度に替えて、前記マークなども含む補助情報を活用すれば、フィールドＦ１４内の画面の色や反転表示などの直感的な方法で、後編集の必要性をユーザＵ１に伝えることもできる。
【０１１７】
後編集を終え、改版訳文文章ＣＰ２中の該当ブロックの内容が確定したら、ユーザＵ１は、「確定」ボタンＢＴ４を押下する。これにより、当該ブロックの内容が確定し、保存される。
【０１１８】
後編集や対訳による翻訳の個別的な指示を終えるときには、ユーザＵ１は、「終了」ボタンＢＴ５を押下する。これにより、前記旧版文書ＤＣ１内のブロックと同様に、当該改版文書ＤＣ２内の該当ブロックが、前記旧版データベース５に格納される。
【０１１９】
このあと、文書ＤＣ２をさらに改版した新たな改版文書ＤＣ３を翻訳する場合、新たな改版文書ＤＣ３からみると文書ＤＣ２は旧版文書であるから、当該旧版データベース５に格納された文書ＤＣ２の対訳は、その新たな改版文書ＤＣ３に対して対訳による翻訳を行う場合に活用することができる。
【０１２０】
（Ａ−３）第１の実施形態の効果
本実施形態によれば、文脈に忠実で品質の高い翻訳結果を得ることが可能である。
【０１２１】
また、本実施形態では、文脈に忠実な翻訳を行う過程で得られた各種の情報（前記補助情報なども含む）を活用することにより、後編集の作業効率を高めることができる。
【０１２２】
（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。
【０１２３】
本実施形態では、文に対して類似度を算出して文間の対応関係を決定する際、隣接する文が対応確定文（対応関係の確定した文）である場合や、近傍の文に対応確定文が多い場合など、その文に対して距離が近い文が対応確定文となったときには、その文の類似度を高める方向に制御することを特徴とする。
【０１２４】
（Ｂ−１）第２の実施形態の構成および動作
構成上、本実施形態が第１の実施形態と相違するのは、図８に示すように、詳細照合部３Ｂに対し類似度重み付け部３Ｃが接続されている点だけである。
【０１２５】
本実施形態の翻訳支援システム１０における文間の対応関係を決定する際の動作を図９のフローチャートに示す。図９のフローチャートは、Ｓ４０〜Ｓ４７の各ステップを備えている。
【０１２６】
ここで、前記旧版文書ＤＣ１に相当する旧版文書をＤＣ１１とし、前記改版文書ＤＣ２に相当する改版文書をＤＣ２１とする。また、ＤＣ１１内の旧版原文文章ＯＲ１１の１ブロックであるＢＲ１には、文a、文ｂ、文ｃ、文ｄが含まれ、ＤＣ２１内の改版原文文章ＯＲ２１の１ブロックであるＢＲ２には、文１Ｃ、文２Ｃ、文３Ｃ、文４Ｃが含まれているものとする。各文章ＯＲ１１，ＯＲ２１上に各文が出現する順番もここに記載した通りであるものとする。そして、改版原文文章ＤＣ２１中の文１Ｃは、旧版原文文章ＤＣ１１中の文aを１文字も変更することなくそのまま用いており、残りの文２Ｃ〜４Ｃは、改版により、変更または追加されたものと仮定する。
【０１２７】
また、前記ステップＳ４０が実行されるまえに、各文章ＯＲ１１とＯＲ２１上におけるブロック間の対応関係はすでに決定されているものとし、図９では、各ブロック内における文の対応関係を決定する。
【０１２８】
図９において、改版原文文章ＯＲ２１と旧版原文文章ＯＲ１１のあいだで対応関係が確定している対応確定ブロックを１つずつ選択する（Ｓ４０）。これにより、例えば、前記ブロックＢＲ１とＢＲ２が選択される。
【０１２９】
次に、当該ブロックＢＲ１，ＢＲ２のあいだで、すべての文字が一致している文の組み合わせを選定し（Ｓ４１）、選定した組み合わせに含まれる文以外の文に対して単語の切り出し処理を行う（Ｓ４２）。このステップＳ４１では、前記文１Ｃと文aの組み合わせが選定される。文１Ｃと文aの組み合わせについては、この時点で、対応関係があることが確定し、改版原文文章ＯＲ２１上で当該文１Ｃが、前記対応確定文とされる。
【０１３０】
また、ステップＳ４２の単語の切り出し処理は、例えば、形態素解析によって行うことができるが、必要ならば、単語の切り出しの替わりに文字の切り出しを行うようにしてもよい。
【０１３１】
ここで、単語の切り出しを行うのは、後述する式（２）で類似度を算出するためである。
【０１３２】
ステップＳ４２につづくステップＳ４３では、ブロックＢＲ２のなかで対応関係が決定されていない文を１文ずつ選び、ブロックＢＲ１中の各文に対するすべての組み合わせ（すべての文の対）で、次の式（２）に基づく重み付け類似度（修正類似度）を算出する。
【０１３３】
ＷＴ×１００×一致単語数／（（１対の文の総単語数）／２） …（２）
ここで、ＷＴは重みで、その初期値は１である。ただし、該当する文章（ここでは、ＯＲ２１）上でその文の１文前または１文後に出現する文の対応関係が決定されている場合には、重みＷＴの値は初期値より大きくなるように変更される。初期値の次の値は、例えば、１．２であってもよい。同様な重みＷＴの値の変更は繰り返され、近傍に出現する対応確定文の密度が高いほど、ＷＴの値が大きくなるように変更したり、これと反対に、近傍に、対応する文が存在しない旨の決定が行われた文（非対応確定文）が出現し、その密度が高くなるほど、ＷＴの値が小さくなるように変更するものであってもよいが、図１０（Ａ）〜（Ｃ）の例では、重みＷＴの値は、初期値の１と１．２の２通りであるものとする。また、密度などは考慮せず、単純に隣接する文の対応関係が確定したときには重みＷＴの値を１から１．２に変化させるものとする。
【０１３４】
同様な重み付け類似度は、すでに対応関係が決定されたもの（例えば、前記文ａと文１Ｃの組み合わせ等）を除き、前記ブロックＢＲ１，ＢＲ２間で可能なすべての組み合わせについて算出される。
【０１３５】
もしも、前記文２Ｃと文ｂの具体的な文字列が次の通りであり、重みＷＴの値が１であるものとすると、文２Ｃの単語数は５で、文ｂの単語数は６であり、文２Ｃと文ｂから構成される対の文の総単語数は１１である。
【０１３６】
文２Ｃ：This is a pencil .
文ｂ： This is a pencil case .
この場合、一致単語数は、５であるから、前記式（２）によって得られる重み付け類似度は、９０．９％（≒１×１００×５／（１１／２））となる。
【０１３７】
次に、重み付け類似度が所定のしきい値ＴＨ１以上となる組み合わせを選定する（Ｓ４４）。しきい値ＴＨ１の具体値は、第１の実施形態と同じであってもよいが、異なるものであってもよい。ここでは、例えば、５０％であるものとする。なお、旧版原文文章ＯＲ１１側のある文に対する改版原文文章ＯＲ２１側の複数の文の組み合わせの重み付け類似度が、同時に、前記しきい値ＴＨ１以上となることは起こり得るが、そのようなケースでは、重み付け類似度が最大の組み合わせだけについて、対応関係を決定するとよい。
【０１３８】
前記文２Ｃ〜４Ｃと文ｂ〜ｄの各組み合わせについて算出した重み付け類似度が、例えば、図１０（Ａ）に示す通りであるとすると、文ｂと文２Ｃの組み合わせの重み付け類似度（ここでは、５６．４％）だけがしきい値ＴＨ１以上であるため、その組み合わせの対応関係が決定され、文２Ｃが対応確定文とされる。
【０１３９】
そのブロックＢＲ２内に対応関係が確定していない文があり、なおかつ、その回のループ（ステップＳ４３〜Ｓ４６によって構成されるループ）の処理によって、新たに、対応確定文とされた文がある限り、ステップＳ４３〜４６の処理は繰り返される。
【０１４０】
この繰り返しのたびに、異なる文が対応確定文となるため、値１．２の重みＷＴが反映される文が変化する。例えば、図１０（Ａ）〜（Ｃ）の例において、図１０（Ａ）では、すでに対応確定文となった文１Ｃに隣接している文２Ｃに、値１．２の重みＷＴが使用され、重みＷＴの値が１ならば４７となる類似度が、重みＷＴの値が１．２となったことによって、５６．４（重みＷＴが１ならば、４５）になり、しきい値ＴＨ１（＝５０）以上に達している。
【０１４１】
同様に、図１０（Ｂ）でも、当該文２Ｃが対応確定文となったことにより、文２Ｃに隣接する文３Ｃが値１．２の重みＷＴの影響を受け、重み付け類似度が５４になり、しきい値ＴＨ１以上に達し、対応確定文とされる。
【０１４２】
最後の図１０（Ｃ）でも、当該文３Ｃが対応確定文となったことにより、文３Ｃに隣接する文４Ｃが値１．２の重みＷＴの影響を受け、重み付け類似度が４８になるが、４８では、前記しきい値ＴＨ１以上ではないため、当該文４Ｃと文ｄの組み合わせは、対応関係がないことが決定され、文４Ｃは非対応確定文とされる。
【０１４３】
以上と同様な処理は、改版原文文章ＯＲ２１上のすべてのブロックについて実行される（Ｓ４７）。
【０１４４】
（Ｂ）第２の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。
【０１４５】
加えて、本実施形態では、対応確定文に対する距離が近い（隣接する）文は、その重みの値が大きくなるため対応確定文とされやすくなる。これにより、１文だけで見ると他に類似度の高い文があったとしても、前後の文が編集されていないか編集量が少ないと対応確定文とされやすくなり、連続して対応確定文が発生する傾向が高くなる。これは、文脈に忠実な翻訳結果を得るために有効である。
【０１４６】
反対に、改版により、ある文に隣接する文が削除されるか大幅に編集された場合には、隣接する文の類似度は相対的に小さくなるため、その文は、対応確定文となりにくいが、このようなケースでは、その削除や編集により、文のつながりが弱まっているといえるから、この意味でも、本実施形態は、文脈に忠実な翻訳結果を得やすいといえる。
【０１４７】
（Ｃ）第３の実施形態
以下では、本実施形態が第１、第２の実施形態と相違する点についてのみ説明する。
【０１４８】
本実施形態は、ユーザインタフェースが第１の実施形態と相違し、いっそう後編集を行いやすくなっている。
【０１４９】
（Ｃ−１）第３の実施形態の構成および動作
構成上、本実施形態が第１、第２の実施形態と相違するのは、主として、図１１に示すように、前記画面ＭＧ１に対応する画面ＭＧ２上に「情報」ボタンＢＴ６を設けた点である。「情報」ボタンＢＴ６は、ユーザＵ１が後編集のための情報の提供を要求する際に押下する。
【０１５０】
本実施形態の翻訳支援システム１０における画面表示のための動作を図１２のフローチャートに示す。図１２のフローチャートは、Ｓ５０〜Ｓ５３の各ステップを備えている。
【０１５１】
図１２において、図１１の画面ＭＧ２上の改版文章上のブロックが表示されるフィールドＦ１２またはＦ１４（必要に応じて、Ｆ１１，Ｆ１３としてもよい）上に所望のブロック（子ブロック）が表示された状態で、ユーザＵ１が「情報」ボタンＢＴ６を押下すると、その時点でフィールドＦ２１に表示されていたブロック番号が制御部６に供給され、制御部６は、当該ブロック番号で指定されるブロックの上位ブロック（親ブロック）のブロック番号を探索する（Ｓ５０）。この探索は、例えば、図４（Ａ）および（Ｂ）に示す構造情報表を利用することで、容易に実行可能である。
【０１５２】
当該親ブロックは、対応確定ブロックである場合と、非対応確定ブロックである場合があり得るが、非対応確定ブロックである場合にはステップＳ５１がＮＯ側に分岐して、当該親ブロックが非対応確定ブロックである旨が前記ディスプレイ装置の画面（図示せず）を介してユーザＵ１に伝えられるだけである。これは、当該親ブロックが改版によって新たに追加されたブロックであるケースなどに発生する。
【０１５３】
一方、当該親ブロックが対応確定ブロックである場合には、ステップＳ５１はＹＥＳ側に分岐し、同じ親ブロックを親とする改版文章側の他の子ブロック（並列ブロック）を探索する（Ｓ５２）。ここで、改版文章は、改版原文文章としてもよいが、後編集の性質上、改版訳文文章とするのが普通であると考えられる。同様な探索は、その親ブロックと対応関係が確定された旧版文章側でも行われ、改版文章と旧版文章のあいだで、各子ブロックのあいだの関係（相互に対応確定ブロックであるか、非対応確定ブロックであるか）が調べられ、相互に対応確定ブロックである場合には、対応確定ブロックの根拠とされた類似度が表示される。そのためにディスプレイ装置上に表示される画面は、例えば、図１３に示す画面ＭＧ３のような構成であってよい。
【０１５４】
画面ＭＧ３上には、基本的に前記並列ブロックを表示するが、必要に応じて、同じ親ブロックを親としない子ブロックが表示されるものであってもよい。図１３の例では、後述するように、ブロックＡ５がそのような子ブロックである。
【０１５５】
図１３において、Ａ１〜Ａ５は、旧版文章側の子ブロックであり、Ｂ１〜Ｂ６は改版文章側の子ブロックである。また、画面ＭＧ３上でブロック間を接続する対応線ＮＫ１〜ＮＫ５は、接続した各ブロックが相互に対応関係が確定した対応確定ブロックであることを直観的に示している。各対応線ＮＫ１〜ＮＫ５の近傍に表示した数字（１００，５０，８０など）は、対応関係確定の根拠となった類似度である。
【０１５６】
一般的に類似度の値が小さいほど改版による変更の割合が高く後編集の必要性が高いので、ユーザＵ１は、表示された当該類似度をもとに後編集するブロックを選ぶことができ、類似度の低いものに注力して効率的な後編集を行うことができる。
【０１５７】
さらに、画面ＭＧ３から対応確定ブロックの旧版、改版文章上における位置関係（並び方）がわかるため、その位置関係に基づいて、さらに詳細に後編集の対象を選ぶことができる。例えば、ブロックＢ２の場合、１ブロック前のＢ１とＡ１は対応していることから、ブロックＢ２の前半部分は後編集の必要性が低いと判断することができるが、１ブロック後ろのブロックＢ３とＡ３は対応していないため、ブロックＢ２の後半部分は後編集の必要性が高いと判断できる。
【０１５８】
なお、いずれの対応線によっても接続されないブロックＢ４は、改版によって新規に追加したと判断されたブロックである。また、図１３上で他のブロックよりも太い線で表示されたブロックＢ２，Ａ２は、前記「情報」ボタンＢＴ６を押下する前に画面ＭＧ２のフィールドＦ１４内に表示していた子ブロックである。このような表示により、ユーザＵ１は、後編集作業中に、最初に注目していた子ブロック（Ｂ２）を見失うことがなくなる。
【０１５９】
さらに、対応線が実線ではなく、点線となっているＮＫ５は、親ブロックは対応関係がないブロックである。すなわち当該ブロックＡ５は旧版文章上で他のブロックＡ１〜Ａ４とは異なる親ブロックの子ブロックとなっている。このようなケースでは、対訳による翻訳結果としての当該ブロックＢ６は、文脈に忠実なものとはなっていない可能性が高いため、類似度こそ８０％と比較的高いものの、当該ブロックＢ６は、後編集の必要性が高いと判断できる。
【０１６０】
なお、図１３では、各ブロック内には何も表示されていないが、必要に応じて、具体的な文字列の内容を表示するようにしてもよい。例えば、各ブロック内にそのブロックに属する最初の１文を表示することも望ましい。
【０１６１】
再度、前記画面ＭＧ２を表示させ、画面ＭＧ２上で各フィールドＦ１１〜Ｆ１４に表示するブロックを変更した上で前記「情報」ボタンＢＴ６を押下すれば、異なる階層でも図１２のフローチャートの処理を行うことができることは当然である。
【０１６２】
（Ｃ−２）第３の実施形態の効果
本実施形態によれば、第１、第２の実施形態と同等な効果を得ることができる。
【０１６３】
加えて、本実施形態では、該当子ブロック（例えば、Ｂ２）が属する上位ブロック（Ｂ１〜Ｂ４を子ブロックとする親ブロックなど）内の全範囲におよぶ変更情報（例えば、対応線ＮＫ１〜ＮＫ４（ＮＫ５）やその近傍に表示した類似度など）を表示することができるため、旧版文章と改版文章の全体的な差分がわかりやすくなり、文脈にあった後編集作業が行いやすくなる。
【０１６４】
また改版による変更の影響がどのように波及しているかを直観的に概観できるため、後編集に要する時間を見積もることも可能になる。
【０１６５】
（Ｄ）第４の実施形態
以下では、本実施形態が第１〜第３の実施形態と相違する点についてのみ説明する。
【０１６６】
第１〜第３の実施形態では、ブロック間の対応関係は翻訳支援システムが自動的に決定するものであったが、本実施形態では、翻訳支援システムが自動的に確定したブロック間の対応関係（対応確定ブロック）をユーザＵ１が検証し、必要に応じて、ユーザＵ１が対応関係の変更を行うことが可能な構成となっている。
【０１６７】
（Ｄ−１）第４の実施形態の構成および動作
構成上、本実施形態が第１〜第３の実施形態と相違するのは、主として、図１４に示す画面ＭＧ４である。画面ＭＧ４は、前記画面ＭＧ１に対応する画面であるが、「次候補」ボタンＢＴ７と「前候補」ボタンＢＴ８を備えている点が相違する。
【０１６８】
「次候補」ボタンＢＴ７と「前候補」ボタンＢＴ８は、ユーザＵ１が対応確定ブロックを変更する際、新たな対応確定ブロックの選択を行うためのボタンである。旧版文章側のあるブロックに対応する改版文章側のブロックは、その類似度の高さをもとに整列された形で、ブロック対応表として翻訳支援システム１０内に蓄積されている。
【０１６９】
ブロック対応表は、例えば、図１７に示したブロック組み合わせ表と同様な表であってもよいが、類似度が前記しきい値ＴＨ１以上のブロックの組み合わせのみを格納した表である。また、図１７のブロック組み合わせ表は、同じ階層位置における任意の組み合わせを、単に類似度の高さに応じて整列しただけの表であるが、ブロック対応表の場合、旧版文章側の各ブロックごとに整理し、改版文章側の各ブロックを、類似度の高さに応じて整列したものであることが望ましい。
【０１７０】
ただし、図１７の表も、当該表に対する検索条件の生成のしかた次第で、ブロック対応表として活用することが可能である。
【０１７１】
要するに、旧版文章側のあるブロックに対して対応関係をなす改版文章側のブロックの候補（候補ブロック）を複数用意しておき、ユーザＵ１からの指示に応じて、候補ブロックを選択し、ブロックの組み合わせを変更できる構成であればよい。
【０１７２】
第１の実施形態では、図６に示したフローチャートのステップＳ３３で構造情報表に対応ブロック番号を記述するとき、例えば、旧版原文文章ＯＲ１側のあるブロックに対し、類似度がしきい値ＴＨ１以上となる改版原文文章ＯＲ２側のブロックが複数存在する場合には、類似度が最大となるブロックを選択して対応確定ブロックとしたが、本実施形態では、この選択によって選ばれなかったブロックのブロック番号も、候補ブロック番号として保存しておくことになる。
【０１７３】
図１４に示す画面ＭＧ４を閲覧したユーザＵ１が、前記「次候補」ボタンＢＴ７を押下すると、その時点で、例えば、前記フィールドＦ２２に表示されていたブロック番号が制御部６に供給され、当該ブロック番号をもとに制御部６が、前記ブロック対応表に対する検索を行い、検索結果として類似度の高さが２番目以降のブロックのブロック番号を取得する。そして、そのブロック番号に対応したブロックの本体を前記旧版データベース５から取得して、画面ＭＧ４の該当するフィールド（例えば、Ｆ１２）に表示する。このとき、当該ブロックのブロック番号が、前記フィールド（例えば、Ｆ２２）に表示されることになる。
【０１７４】
以降は同様な処理が繰り返され得る。
【０１７５】
ユーザＵ１は、「次候補」ボタンＢＴ７を押下するたびに類似度がより低い候補ブロックを閲覧することができ、前候補ボタンＢＴ８を押下するたびに類似度がより高い候補ブロック（もとの対応確定ブロックも含む）を閲覧することができるため、いずれのブロックが、その対応確定ブロックとして最適であるかを、ユーザＵ１自身で判断することができる。
【０１７６】
ユーザＵ１の判断によって、対応確定ブロックが変更された場合には、改版訳文文章ＣＰ２の内容も変更されることになる。
【０１７７】
（Ｄ−２）第４の実施形態の効果
本実施形態によれば、第１〜第３の実施形態と同等な効果を得ることができる。
【０１７８】
加えて、本実施形態では、翻訳支援システム（１０）が自動的に確定したブロック間の対応関係をユーザ（Ｕ１）が検証し、必要に応じて、ユーザ（Ｕ１）が対応関係の変更を行うことも可能である。これは、翻訳支援システム（１０）の使い勝手を高めるとともに、対訳による翻訳結果の品質向上にも寄与する。
【０１７９】
（Ｅ）他の実施形態
上記第１〜第４の実施形態では、多くの画面の具体的な構成例を図示したが、図示した以外の構成を持つ画面を用いてもよいことは当然である。
【０１８０】
なお、上記第２の実施形態では、主として、隣接する文が対応確定文となったときにその文の類似度を高める場合を例に説明したが、この処理を、近傍の文に対応確定文が多い場合や、その文に対して距離が近い文が対応確定文となった場合にその文の類似度を高めるように拡張することは容易である。
【０１８１】
また、上記第１〜第４の実施形態では、段落のブロックを無視したが、段落に配慮した処理を行ってもよいことは当然である。
【０１８２】
なお、上記第２の実施形態で述べた文は、ブロックに置換可能である。すなわち、隣接するブロックが対応確定ブロックである場合や、近傍のブロックに対応確定ブロックが多い場合に、ブロックの類似度を高める方向に制御するようにしてもよい。
【０１８３】
また、上記第１〜第４の実施形態にかかわらず、翻訳を行うことは必ずしも必須ではない。本発明は、ブロックの対応関係を検出して、文脈を利用し、マニュアルなどの詳細な版管理を行う場合など（旧版文書と改版文書の詳細な差分に関する情報の取得なども含む）にも適用することが可能である。また、版管理以外で、文書間でブロックの対応関係を検出する場合にも適用することが可能である。
【０１８４】
さらに、文書は、自然言語以外の構成要素を含んでいてもかまわない。例えば、図形や、画像などを含む文書に対しても本発明は適用可能である。また、図形や画像なども文書内における文脈の形成に寄与し得ることは当然である。
【０１８５】
また、文書は自然言語以外の言語（例えば、プログラミング言語など）を含むものであってもかまわない。プログラミング言語で記述されるコンピュータプログラムのソースコードの文書は、前記マニュアル、技術文書、論文などと同様、しばしば改版を行う文書の代表例の一つである。
【０１８６】
以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
【０１８７】
【発明の効果】
以上に説明したように、本発明によれば、文書と文書の対応関係を、その文脈に配慮して検出することができる。
【０１８８】
これにより、例えば、版管理の品質を高めることや、対訳辞書を用いた翻訳処理の品質を高めることも可能になる。
【図面の簡単な説明】
【図１】第１の実施形態にかかる翻訳支援システムの全体構成例を示す概略図である。
【図２】第１〜第４の実施形態で処理する原文文章の構成例を示す概略図である。
【図３】第１の実施形態の動作例を示すフローチャートである。
【図４】第１〜第４の実施形態で使用する原文文章の階層構造の例を示す表である。
【図５】第１の実施形態の動作例を示すフローチャートである。
【図６】第１の実施形態の動作例を示すフローチャートである。
【図７】第１の実施形態の動作説明図である。
【図８】第２の実施形態にかかる翻訳支援システムで使用する文書構造比較部の
【図９】第２の実施形態の動作例を示すフローチャートである。
【図１０】第２の実施形態の動作説明図である。
【図１１】第３の実施形態の動作説明図である。
【図１２】第３の実施形態の動作例を示すフローチャートである。
【図１３】第３の実施形態の動作説明図である。
【図１４】第４の実施形態の動作説明図である。
【図１５】第１〜第４の実施形態の動作説明図である。
【図１６】第１〜第４の実施形態の動作説明図である。
【図１７】第１〜第４の実施形態の動作説明図である。
【図１８】第１〜第４の実施形態の動作説明図である。
【図１９】第１〜第４の実施形態の動作説明図である。
【符号の説明】
１…入力部、２…文書構造解析部、３…文書構造比較部、３Ａ…階層照合部、３Ｂ…詳細照合部、４…差分情報生成部、５…旧版データベース、５Ａ…旧版原文データベース、５Ｂ…旧版訳文データベース、６…制御部、７…出力部、８…翻訳処理部、ＯＲ１…旧版原文文章、ＯＲ２…改版原文文章、ＣＰ１…旧版訳文文章、ＣＰ２…改版訳文文章、ＤＣ１…旧版文書、ＤＣ２…改版文書、ＭＧ１〜ＭＧ４…画面。

Claims

第１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する文書対応関係検査装置であって、
前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出する対応関係検出部とを備えたことを特徴とする文書対応関係検査装置。
請求項１の文書対応関係検査装置において、
前記対応関係検出部は、
同じ文書の文ブロックのなかに階層構造が存在する場合、上位の階層の文ブロックに関する前記対応関係を検出したあと、下位の階層の文ブロックの前記対応関係を検出することを特徴とする文書対応関係検査装置。
請求項１の文書対応関係検査装置において、
前記対応関係検出部は、
前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出する第１の類似度算出部を備え、
同じ文書の文ブロックのなかに階層構造が存在する場合、同一の階層の文ブロックのなかで前記類似度が高いものほど優先的に対応関係を検出し、対応関係を検出した文ブロックに対する該当文書上における距離が近い文ブロックほど類似度が高くなるように、前記第１の類似度算出部を制御することを特徴とする文書対応関係検査装置。
第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する翻訳処理装置において、
請求項１〜３のいずれかの文書対応関係検査装置と、
前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする翻訳処理装置。
請求項４の翻訳処理装置において、
前記文書対応関係検査装置により対応関係が検出された文ブロックの翻訳結果を表示する際、前記第１の文書と第２の文書の原文間の差分を示す第１の差分情報を表示する第１の差分情報表示部を備えたことを特徴とする翻訳処理装置。
請求項４の翻訳処理装置において、
同じ文書の文ブロックのなかに階層構造が存在する場合、前記文書対応関係検査装置により対応関係が検出された文ブロックが属する上位の階層の文ブロックと、前記第１の文書の原文との間の差分を示す第２の差分情報を表示する第２の差分情報表示部を備えたことを特徴とする翻訳処理装置。
請求項４の翻訳処理装置において、
前記第１の文書に関する原文の文ブロックと第２の文書に関する原文の文ブロックのあいだで所定の類似度を算出する第２の類似度算出部と、
前記文書対応関係検査装置が対応関係を検出した文ブロック以外の文ブロックについても、当該第２の類似度算出部が算出した類似度が所定のしきい値以上のものは、対応候補文ブロックとして保存しておき、ユーザとの対話に応じて表示する対応候補処理部とを備えたことを特徴とする翻訳処理装置。
第１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する、コンピュータが実行する文書対応関係検査方法であって、
前記コンピュータが論理構造解析部及び対応関係検出部を備え、
前記論理構造解析部が、前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析し、
当該論理構造解析部の解析結果をもとに、前記対応関係検出部が、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出する
ことを特徴とする文書対応関係検査方法。
請求項８の文書対応関係検査方法において、
前記対応関係検出部は、
同じ文書の文ブロックのなかに階層構造が存在する場合、上位の階層の文ブロックに関する前記対応関係を検出したあと、下位の階層の文ブロックの前記対応関係を検出することを特徴とする文書対応関係検査方法。
請求項８の文書対応関係検査方法において、
前記対応関係検出部は、
前記第１の文書に関する文ブロックと第２の文書に関する文ブロックのあいだで所定の類似度を算出する第１の類似度算出部を内蔵し、
同じ文書の文ブロックのなかに階層構造が存在する場合、同一の階層の文ブロックのなかで前記類似度が高いものほど優先的に対応関係を検出し、対応関係を検出した文ブロックに対する該当文書上における距離が近い文ブロックほど類似度が高くなるように、前記第１の類似度算出部を制御することを特徴とする文書対応関係検査方法。
第１の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第１の文書の少なくとも一部を変更した改版文書である第２の文書の原文を翻訳処理する、コンピュータが実行する翻訳処理方法において、
前記コンピュータが文書対応関係検査部及びブロック翻訳処理部を備え、
前記文書対応関係検査部が、請求項８〜１０のいずれかの文書対応関係検査方法により前記第２の文書に関する原文に含まれる文ブロックと、前記第１の文書に関する原文の文ブロックの対応関係を検出し、
前記第２の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、前記ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行する
ことを特徴とする翻訳処理方法。
請求項１１の翻訳処理方法において、
前記コンピュータは第１の差分情報表示部を備え、前記第１の差分情報表示部は、前記文書対応関係検査方法により対応関係が検出された文ブロックの翻訳結果を表示する際、前記第１の文書と第２の文書の原文間の差分を示す第１の差分情報を表示することを特徴とする翻訳処理方法。
請求項１１の翻訳処理方法において、
前記コンピュータは第２の差分情報表示部を備え、前記第２の差分情報表示部は、同じ文書の文ブロックのなかに階層構造が存在する場合、前記文書対応関係検査方法により対応関係が検出された文ブロックが属する上位の階層の文ブロックと、前記第１の文書の原文との間の差分を示す第２の差分情報を表示することを特徴とする翻訳処理方法。
請求項１１の翻訳処理方法において、
前記コンピュータは第２の類似度算出部及び対応候補処理部を備え、
前記第２の類似度算出部が、前記第１の文書に関する原文の文ブロックと第２の文書に関する原文の文ブロックのあいだで所定の類似度を算出し、
前記文書対応関係検査部が対応関係を検出した文ブロック以外の文ブロックについても、前記第２の類似度算出部が算出した類似度が所定のしきい値以上のものは、前記対応候補処理部が、対応候補文ブロックとして保存しておき、ユーザとの対話に応じて表示することを特徴とする翻訳処理方法。
第１の文書の構成要素と第２の文書の構成要素のあいだの対応関係を検査する、コンピュータが実行する文書対応関係検査プログラムであって、
前記コンピュータを、
前記第１の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第２の文書の構成要素のうち、少なくとも１つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、
当該論理構造解析部の解析結果をもとに、前記第１の文書の文ブロックと第２の文書の文ブロックのあいだの対応関係を検出する対応関係検出部
として機能させることを特徴とする文書対応関係検査プログラム。