JP4446749B2 - 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム - Google Patents

文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム Download PDF

Info

Publication number
JP4446749B2
JP4446749B2 JP2004005862A JP2004005862A JP4446749B2 JP 4446749 B2 JP4446749 B2 JP 4446749B2 JP 2004005862 A JP2004005862 A JP 2004005862A JP 2004005862 A JP2004005862 A JP 2004005862A JP 4446749 B2 JP4446749 B2 JP 4446749B2
Authority
JP
Japan
Prior art keywords
sentence
block
document
correspondence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004005862A
Other languages
English (en)
Other versions
JP2005202509A (ja
Inventor
聡彦 松永
美穂子 北村
稔樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004005862A priority Critical patent/JP4446749B2/ja
Priority to US11/016,908 priority patent/US20050168772A1/en
Publication of JP2005202509A publication Critical patent/JP2005202509A/ja
Application granted granted Critical
Publication of JP4446749B2 publication Critical patent/JP4446749B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1224Client or server resources management
    • G06F3/1228Printing driverless or using generic drivers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1203Improving or facilitating administration, e.g. print management
    • G06F3/1204Improving or facilitating administration, e.g. print management resulting in reduced user or operator actions, e.g. presetting, automatic actions, using hardware token storing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1244Job translation or job parsing, e.g. page banding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1278Dedicated interfaces to print systems specifically adapted to adopt a particular infrastructure
    • G06F3/1285Remote printer device, e.g. being remote from client or server
    • G06F3/1288Remote printer device, e.g. being remote from client or server in client-server-printer device configuration

Description

本発明は文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムに関し、例えば、ある旧版文書とそれを変更した改版文書(新版文書)のあいだで章、節、文などの対応関係を特定する場合や、このような対応関係の特定結果を用いた翻訳処理を実行する場合などに適用して好適なものである。
下記の非特許文献1の技術では、あらかじめ翻訳済みの原文、訳文の対訳を「翻訳メモリ」と呼ばれる対訳データベースに格納しておく。翻訳を行うときには、当該対訳データベースを検索した上で、翻訳しようとする原文(対象原文)と比較して最も類似度(一致度)が高い原文を特定する。その類似度が閾値以上ならば特定した原文と対訳の関係にある訳文を、当該対象原文の翻訳結果として出力する。閾値以下の場合は何も出力しないか、機械翻訳結果を出力する。
機械翻訳による翻訳結果の品質を高めるには本質的に困難な多くの問題を解決しなければならないが、このように対訳データベースを利用すれば、機械翻訳を行うことなく、高い品質の翻訳結果を得ることができる。
また、複数の翻訳者によりある翻訳プロジェクトを行っている場合、同じ対訳データベースを使用することで用語の訳し方を統一することが可能になる。さらに、例えば、マニュアルや技術文書などのように、改版することが予めわかっている文書の場合、第1版の対訳を対訳データベースに格納しておくことで第2版以降の改版文書の翻訳作業を効率よく行うことができる。
『ATLAS V9新機能「翻訳メモリ」』(2002年6月)
ところで、上述した対訳データベースを用いる方法では、文単位の類似度だけを検査し、類似度が閾値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低い。
そこで、章、節などに配慮して文脈に忠実な翻訳を行うことにより、翻訳結果の品質を高めることが考えられる。この技術は、特願2003−148657明細書および図面に記載されたもので、節などの文が属するブロック(文ブロック)間の対応関係を決定する際、文ブロック間の類似度が予め決めた閾値より高いか否かを検査し、検査結果に応じて文ブロック間の対応関係を決定し、対応関係が決定された文ブロック内で文を対応付けるようにすることで、文相互間で、文脈に配慮した対応関係を決定するものである。
ただしこの技術では、望ましい対応関係を得ることが可能な最適な閾値を決定するための方法が用意されていないから、ユーザが望む結果を得ることが必ずしも容易ではなく、文ブロック間の対応関係の決定に関し高い品質を実現することが難しい。また、利便性に欠けるということができる。
求めた類似度が閾値よりも高いときに対応関係があるものと決定(対応関係を確定)する場合、閾値を小さな値にするほど、情報処理により自動的に対応関係が確定される率(確定率)は高まるものの、一般的に、確定率が高まるほど、本来、対応関係があるものとするべきではない文ブロック間に対応関係を確定してしまう率(誤確定率)も高くなってしまう傾向がある。
したがって、誤確定率を許容範囲内に抑制しながら、可及的に小さな閾値を設定して確定率を高めることが求められるが、どこまでを許容範囲内とするかは個々のユーザの判断に依存し、ある値の閾値を用いたとき誤確定率がいくつになるかは、文ブロック(または文)の内容やユーザの主観などにも依存する問題である。
なお、このように文ブロックや文のあいだの対応関係を確定することは、翻訳処理だけでなく、版管理にも利用できる。
旧版文書に関する対訳を格納した対訳データベースを用いて行う改版文書の翻訳は、より抽象的には、版管理の概念に含まれるものとみることができ、版管理の品質を高めることが翻訳の品質を高めることにもつながる。
かかる課題を解決するために、第1の本発明は、第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素とのあいだの対応関係を検査する文書対応関係検査装置であって、(1)前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、(2)当該論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、(3)前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、(4)対応関係の有無の基準となる閾値を格納する閾値格納部と、(5)前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部とを備え、(2)前記ブロック照合部は、(2−1)前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、(2−2)前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部とを有し、(3)前記文照合部は、(3−1)前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、(3−2)前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部とを有し、(5)前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させることを特徴とする。
また、第2の本発明は、第1の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第1の文書の少なくとも一部を変更した改版文書である第2の文書の原文を翻訳処理する翻訳処理装置において、(1)請求項1〜3のいずれかの文書対応関係検査装置と、(2)前記第2の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする。
さらに、第3の本発明は、第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素のあいだの対応関係を検査する文書対応関係検査方法であって、(1)論理構造解析部が、前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析し、(2)ブロック照合部が、前記論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出し、(3)文照合部が、前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出し、(4)閾値格納部が、対応関係の有無の基準となる閾値を格納しており、(5)照合制御部が、前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行うと共に、(2)前記ブロック照合部内では、(2−1)ブロック類似度算出部が、前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定のブロック類似度を算出し、(2−2)ブロック対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録し、(3)前記文照合部内では、(3−1)文類似度算出部が、前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出し、(3−2)文対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録し、(5)前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させることを特徴とする。
また、第4の本発明では、第1の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第1の文書の少なくとも一部を変更した改版文書である第2の文書の原文を翻訳処理する翻訳処理方法において、請求項5の文書対応関係検査方法により前記第2の文書に関する原文に含まれる文ブロックと、前記第1の文書に関する原文の文ブロックの対応関係を検出し、前記第2の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行することを特徴とする。
さらにまた、第5の本発明では、第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素のあいだの対応関係を検査する文書対応関係検査プログラムであって、コンピュータを、(1)前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、(2)当該論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、(3)前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、(4)対応関係の有無の基準となる閾値を格納する閾値格納部と、(5)前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部として機能させると共に、(2)前記ブロック照合部として機能させるプログラム部分は、コンピュータを、(2−1)前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、(2−2)前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部として機能させる部分を有し、(3)前記文照合部として機能させるプログラム部分は、コンピュータを、(3−1)前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、(3−2)前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部として機能させる部分を有し、(5)前記照合制御部はとして機能させるプログラム部分は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させるものであることを特徴とする。
本発明によれば、利便性が向上する。
また、本発明を例えば翻訳処理に利用した場合には、翻訳の品質向上や後編集の作業効率向上にも有効である。
(A)実施形態
以下、本発明にかかる文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラムを、翻訳支援システムに提供した場合を例に、実施形態について説明する。
上述したように、前記対訳データベースを用いる非特許文献1の方法では、文単位の類似度だけを検査し、類似度が閾値以上であれば、対訳データベースに格納された訳文を翻訳結果として出力しているため、文脈に忠実な翻訳結果を得ることができず、その意味で翻訳の品質が低いといえる。
翻訳結果は、1つの文でみた場合には品質が高くても、文と文のつながり、文体、訳調などの観点で統一性に欠けたものであると品質が高いとはいえないからである。また、翻訳結果を得た後でユーザが行う後編集(ポストエディット)の作業効率を高める観点でも、文脈に忠実な翻訳結果であることが望ましい。
例えば、マニュアルなどの旧版に関する対訳を格納した対訳データベースを用いて、当該マニュアルの改版を翻訳する場合、旧版マニュアルと改版マニュアルの文脈に配慮しなければ、改版マニュアルの翻訳結果の品質が低下する可能性が高い。
マニュアルに限らず、例えば自然言語で記述された文書の場合、その文書上における距離(距離は例えば、章、節、段落などの単位で示すことができる。章で示す場合、一例として、同じ章内であれば距離が近く、異なる章に分散していれば距離が遠い)が離れるほど、各種の事情で、用語や言い回しが変化することが多いし、そのような変化は、読者にとって自然なものとして受け入れられる。例えば、まったく同じ表現で記述することも可能な内容を1つの文書のなかで2回(2文)記述する場合、記述される各文の当該文書における距離が近ければそれらの文の表現(用語や言い回し)は同じになることが多いが、距離が遠ければ、用語や言い回しが変化して異なる文となることも少なくない。同様のことは、1つの文書の内部においてのみではなく、文脈に対応関係を持つ傾向の強い2文書間(例えば、同じマニュアルの旧版文書と改版文書のあいだ)でも成立する。
例えば、改版マニュアルの原文のなかに、旧版マニュアルの対訳群のなかのある原文(参照原文)に類似度が高い文(対象原文)が存在する場合、その対象原文が存在する文脈が、旧版マニュアルにおいて当該参照原文が存在する文脈に対応したものであれば、その参照原文と対訳の関係をなす訳文をそのまま翻訳結果として利用できる可能性が高いが、対応したものでなければ、そのまま翻訳結果として利用できる可能性は低い。また、対応しない文脈であるのに翻訳結果として利用した場合には、後編集によって大幅な変更を行う必要性が高いことが予想されるが、文脈に配慮しない前記非特許文献1の技術では、その必要性をユーザに伝える方法がないため、ユーザは結局、高い類似度で得られた訳文に対しても、低い類似度で得られた訳文に対するのと同様な注意深さで後編集作業を行うことを強いられ、後編集の作業効率が低い。
そこで、本実施形態では、文脈に忠実な翻訳を行うことにより、翻訳結果の品質を高めるとともに、前記閾値の最適化の方法を用意して翻訳結果の品質向上を容易なものとし、利便性を高めることを特徴とする。
なお、後で詳述するように、最適な閾値とは、許容可能な最低限度の値を持つ閾値のことである。
(A−1)第1の実施形態の構成
本実施形態にかかる翻訳支援システム10の全体構成例を図1に示す。
図1において、当該翻訳支援システム10は、入力部1と、文書構造解析部2と、文書構造比較部3と、差分情報生成部4と、旧版データベース5と、制御部6と、出力部7と、翻訳処理部8とを備えている。
このうち入力部1は、例えば、キーボードやマウスなどのポインティングデバイス、スキャナと文字認識処理などの各種機能によって構成され得る部分で、ユーザU1が各種入力操作を行なう際に機能する。
出力部7は、例えば、ディスプレイ装置への表示、音声への変換および音声出力などの各種機能によって構成され得る部分で、ユーザU1に対して各種の情報を提供する。ここで、ユーザU1は、当該翻訳支援システム10を操作するオペレータなどであってよい。
ただし当該入力部1や出力部7は、人間であるユーザU1とのインタフェースとして機能するだけでなく、リモートの、あるいはローカルの情報処理装置(図示せず)とのあいだで制御情報やデータのやり取りを行うためにも機能し得る。このようなユーザU1あるいは情報処理装置とのやり取りに応じて、旧版データベース5の格納内容などが増減、変更されるものであってもよい。また、旧版データベース5の本体はWebサーバ側などに配置しておき、検索結果のみ(あるいは、翻訳結果のみ)をネットワーク経由で当該翻訳支援システム10に取得する構成としてもよい。検索結果のみを取得するには、Webサーバ側でCGIプログラムなどを利用して検索を行い、その結果を翻訳支援システム10へ返送するようにすればよい。
制御部6は、ハードウエア的には当該翻訳支援システム10のCPU(中央処理装置)に相当し、ソフトウエア的にはOS(オペレーティングシステム)などの各種プログラムに相当する部分である。当該制御部6により、翻訳支援システム10内の他の構成要素1〜5,7、8が制御され得る。
前記旧版データベース5自体は基本的に上述した対訳データベースに相当する構成要素で原文(の1文)を指定すればその訳文(の1文)が抽出できるように構成されているが、本実施形態では対訳の利用法が前記非特許文献1とは相違するため、その相違に応じて、データベースの格納内容にも従来とは異なる点がある。この旧版データベース5には、例えば、マニュアル、技術文書、論文などのように、改版することが予想される文書の旧版(例えば、第1版)を格納しておく。旧版データベース5には同時に複数の旧版文書(例えば、ある機種のパーソナルコンピュータに関するマニュアルの旧版文書と、他の機種のパーソナルコンピュータに関するマニュアルの旧版文書など)を格納しておくことができるが、以下では、旧版データベース5内に格納されている1つの文書DC1に注目して説明を進める。
なお、一般的には、1つの原文の文章とその翻訳結果である訳文の文章は別個の文書とされるが、ここでは、当該文書DC1は原文文章(OR1)の内容と訳文文章(CP1)の内容を含む1つの対訳文書であるものとする。
原文文章は、ある内容を第1言語(原文言語(例えば、日本語))で表現するために順序づけられた文の集合体であり、訳文文章は、ある内容を第2言語(訳文言語(例えば、英語))で表現するために順序づけられた文の集合体である。一般的には、原文文章中の各文とその翻訳結果である訳文文章の各文とは1対1に対応しないが、当該文書DC1は対訳文書であるため、原文文章OR1中の各文と、訳文文章CP1中の各文は、1対1に対応している。したがって、文脈(文脈は、後述する階層構造にも対応)の観点でも、当該原文文章OR1と訳文文章CP1は厳密に対応している。
旧版データベース5の内部は、原文文章OR1を格納する旧版原文データベース5Aと、訳文文書CP1を格納する旧版訳文データベース5Bに分けることができる。
前記文書構造解析部2は文書の構造を解析し、その解析結果を文書構造比較部3に供給する部分である。ここで、構造とは、文章の自然言語的かつ論理的な構造のことで、1つの文章上における例えば、章、節、段落、文などの位置や包含、被包含の関係などに関する構造を指す。多くの場合、前記マニュアル、技術文書、論文などのように論理的な構造が比較的明確な文章では、1つの文章のなかに複数の章があり、各章のなかには1または複数の節があり、各節のなかには1または複数の段落があり、各段落のなかには1または複数の文があるというように階層構造を備えている。したがって、当該文書構造解析部2の役割は、当該階層構造を解析することである。
ここで、章、節、段落を、少なくとも1つ以上の文の集まりという意味でブロックと呼ぶ。文は、ブロックの概念のなかに含めることもできるが、ここでは、含まないものとしている。当該ブロック間には前記階層構造がある。なお、通常、1つの節には、1または複数の段落が含まれるが、ここでは、簡単のために段落を無視し、節のブロックに対しては、直接、文が包含されるものとする。
当該文書構造解析部2による解析の対象となる文書は、前記入力部1を介して入力される改版文書DC2中の文章である改版文章OR2と、前記旧版文書DC1に含まれる旧版原文文章OR1である。ただし、旧版原文文章OR1のほうは予め内容が決まっているため、改版文章OR2が得られるまえに解析を行い、解析結果を旧版原文データベース5A内に格納しておくことが可能である。この点は旧版訳文文書CP1についても同様である。処理の効率を高めるためには、旧版原文文書OR1や旧版改版文書CP1の階層構造はあらかじめ解析して旧版データベース5などに格納しておくことが望ましい。
この旧版原文文章OR1の内容の一例を抽象化して示したものが、図2(A)である。同様に、改版原文文章OR2の内容の一例を抽象化して示したものが図2(B)である。
図2(A)および(B)において、アンダーラインを付与した「1」や「2」などは、章の番号である。また、「1.1」や「2.2」などは、「.」の左側の数字が章の番号を示し、右側の数字がその章に含まれる節の番号を示す。したがって、例えば、「1.1」は第1章第1節を示す。
図2(A)において、「文1」、「文2」、「文5」などは各節に含まれる文を示している。ここで、「文」のあとに記述する数字(文識別子)の異同によって、その文の内容をなす文字列の異同を表現している。したがって、「文1」と「文2」は異なる文である。また、図2(A)において、例えば、第1章第2節と第4章には、ともに、「文6」で示された同じ文が存在する。
改版原文文章OR2を示す図2(B)も基本的にこの図2(A)と同じである。同じ文書(例えば、同じ機種のパーソナルコンピュータに関するマニュアル)の旧版と改版の関係にあるため、これら2つの文章OR1、OR2には内容的に共通する部分が多い。
ただし図2(B)では、「文A」、「文B」などと、文識別子として数字ではなく、アルファベットを使用している。「文A(1)」、「文B(2)」などと、括弧内に記述した数字は、図2(A)に示す原文文章OR1側の文識別子で、旧版と改版のあいだで文の対応関係を示している。
なお、本実施形態で、文を識別するための識別情報としては当該文識別子のほかに文番号がある。文識別子は文の内容をなす文字列を識別する情報であるのに対し、文番号のほうは、文が当該原文文章上に出現した順番を示す情報である。
このように文番号は、各原文文章ごとに、文章上に出現した順番(図2(A)および(B)の上から順番)に付与されるため、同じ文字列の文(同じ文識別子を付与された文)であっても、文章上の位置が変われば、文番号も変わる。したがって、図2(A)において第1章第2節と第4章に出現する上述した「文6」には、第1章第2節で出現したときと第4章に出現したときでは、それぞれ別な文番号が付与される。
図2(A)に示す旧版原文文章OR1の文と文番号の対応関係は、図13に示す文・文番号対応表の通りである。また、文番号をもとに、旧版原文文章OR1と改版原文文章OR2の各文の対応関係をまとめると、図14に示す新旧文対応表が得られる。
改版文書DC2や旧版文書DC1が、その論理的な構造が所定の定型的な方法で明示された文書(例えば、HTML文書やXML文書などのマークアップ言語で記述された文書)であることは、文書構造解析部2が行う解析処理を簡略化する上で望ましいが、必ずしもその必要はない。
図2(A)および(B)の文章を前提とすると、文書構造解析部2による解析結果は、図4(A)および(B)の構造情報表の形に整理することができる。図4(A)は、旧版原文文章OR1に関する解析結果を整理したものであり、図4(B)は、改版原文文章OR2に関する解析結果を整理したものである。
図4(A)および(B)において、ブロック番号は、上述したブロックが各原文文章上に出現した順番に付与した番号である。また、階層位置とは、階層の深さのことである。階層構造は木構造で表現できるが、深さ0がその文章全体(例えば、旧版原文文章OR1全体または改版原文文章OR2全体)に対応する木の根(ルート)であるとすると、深さ1は前記章に対応する木のノードであり、深さ2は前記節に対応する木のノードである。深さ3は後述する副次節に対応するノードであり、改版原文文章OR2のほうにだけ存在する。
下位ブロック番号は、各ブロックより深さが1つだけ深く、各ブロックに属するブロックのブロック番号である。また、文番号は、該当するブロック番号で指定されるブロックに属する文の文番号である。
さらに、対応ブロック番号及び類似度は、旧版原文文章OR1と改版原文文章OR2のあいだで対応関係が確定できたブロックのブロック番号と、その確定の根拠となった類似度である。類似度の詳細については後述するが、図示の状態ではまだ対応関係が確定できたブロックが存在しないため、対応ブロック番号及び類似度は、空欄となっている。
対応ブロック番号及び類似度の内容としては、相互に対応するもの(対称的な内容)が記述されることになるので、データ項目としての「対応ブロック番号及び類似度」は、必ずしも図4(A)と(B)の双方に設ける必要はなく、例えば、図4(B)にのみ設けるようにしてもよい。
前記文書構造比較部3は本実施形態の特徴的な構成要素で、基本的に当該文書構造解析部2の解析結果である階層構造を利用して、前記改版原文文章OR2と旧版原文文章OR1の論理的な構造を比較する部分である。両者の論理的な構造を比較すれば、文脈上、文のレベルで対応していることが確認された改版原文文章OR2のブロックに関しては、その訳文として、旧版訳文文章CP1の該当ブロックの内容をそのまま利用でき、対訳による翻訳が可能になる等の利点がある。類似度に関する上述した閾値の最適化に対応する機能も、その一部は、当該文書構造比較部3が提供する。
このような機能を実現するため、当該文書構造比較部3は、階層照合部3Aと、閾値格納部3Bと、照合制御部3Cと、ブロック照合部3Dと、文照合部3Eと、対応付け結果一時保存部3Fとを備えている。
このうち階層照合部3Aは、前記改版原文文章OR2と旧版原文文章OR1のあいだで、階層構造の深さを比較する部分である。改版によって文章の階層構造の深さが変化し、例えば、図2(B)の「3.2」における「3.2.1」、「3.2.2」のように、節と文のあいだに新たな階層(副次節)が設けられること等があり得るが、前記詳細照合部3Bの処理を行うためには、階層構造の深さを揃えておく必要があるため、当該階層照合部3Aが必要になる。したがって、前記ブロック照合部3Dが行う処理の具体的な仕様によっては、当該階層照合部3Aを省略できる可能性もある。
閾値格納部3Bは、閾値THを格納する部分である。この閾値THは、ブロック間の類似度が高いか否かを判定する際の基準となるものであるが、本実施形態では、当該閾値THの値は最大値から最小値に向けて逐次変更されるのが特徴である。
最大値や最小値をどのように設定するかは自由であるが、例えば最大値が100%で最小値が0%の場合、閾値THは100%から0%に向けて逐次変更されることになる。この変更は、その時点の閾値THから閾値減少幅を減算して得られる減算結果を新たな閾値THとし、新たな閾値THをその時点の閾値THと置き換えることによって実行される。1回の変更における変更幅(すなわち、当該閾値減少幅)は可変値としてもよいがここでは一定値(10%)であるものとする。この場合、閾値は、100,90,80,…,20,10,0(%)の順番で逐次、変更されることになる。
ブロック照合部3Dは、旧版原文文章OR1と改版原文文章OR2のあいだで、各ブロックの対応関係を検査する部分である。この検査(すなわち、ブロック対応決定処理)のため、当該ブロック照合部3Dは、旧版原文文章OR1と改版原文文章OR2のあいだで各文の異同(各文の文字列の異同)を検査する。そのために必要ならば、当該ブロック照合部3Dは、文照合部3Eと連携して機能するようにしてもよい。このような連携を行うなら、文字列の照合機能を文照合部3Eだけに搭載することもできる。
ブロック照合部3Dは、前記閾値格納部3Bから供給を受けた閾値THを用いて前記ブロック対応決定処理を実行し、処理結果としてブロックが対応するか否かを決定する。基本的に当該ブロック照合部3Dでは、旧版原文文章OR1内のあるブロックと改版原文文章OR2内のあるブロックの類似度が、その時点の閾値TH(例えば、前記90%)よりも高い場合にそれらのブロックが対応するものと決定するが、その処理の詳細は以下の通りである。
ブロック照合部3Dにおいて、類似度の計算は、文章OR1とOR2の同じ階層位置におけるすべてのブロックの組み合わせについて実行され、計算結果として得られる類似度が前記閾値THを越えたか否かに基づいて、ブロックが対応するか否かが決定される。同様な処理は前記閾値THを上述したように逐次変更するたびに繰り返すことになる。ただし、それまでに実行した、より大きな値の閾値TH(例えば、TH=90%)による処理で対応するものとされたブロックは、変更後のより小さな値の閾値TH(例えば、TH=80%)を用いた処理では除外して取り扱われる。
これにより、類似度が高い組み合わせのブロックから順番に対応関係が決定されて対応確定ブロックとされるため、少なくとも閾値THの値が大きいとき(一例として、TH=70%のとき等)の処理では、本来、対応確定ブロックとされるべきでないブロックが対応確定ブロックとされる対応誤りの発生頻度(前記誤確定率に対応)が極めて低い。
また、類似度を求めるのは、改版原文文章OR2上のあるブロック(すなわち、木のノード)と対応する旧版原文文章OR1上の1つのブロックを探索するためであるから、この組み合わせが、1対のブロックから構成される組み合わせであるのは当然である。
前記類似度は、1対のブロックの類似の度合いを示すことができる方法であれば、どのような計算方法によって算出してもかまわないが、次の式(1)にしたがって算出することは簡便である。
100×完全一致する文数/((1対のブロックの総文数)/2)…(1)
図2(A)および(B)において、階層位置2について調べる場合、例えば、1対のブロックとして旧版原文文章OR1の第1章第1節と改版原文文章OR2の第1章第1節の組み合わせを選ぶときには、式(1)中の1対のブロックの総文数は、8(=4+4)となり、完全一致する文数は、4となるから、類似度は100%である。
同様に、1対のブロックとして旧版原文文章OR1の第1章第2節と改版原文文章OR2の第1章第1節の組み合わせを選ぶときには、式(1)中の1対のブロックの総文数は、7(=3+4)となり、完全一致する文数は、0となるから、類似度は0%である。これと同様な検査を、階層位置2のブロックに関するすべての組み合わせについて実行する。異なる階層位置についても同様である。
なお、式(1)では、同一ブロック内における変化に関する限り文の出現位置の変化(相対的な出現位置の変化)は反映されないが、改版では、文の文字列は変化していなくても文が出現する位置が替わることがあるので、そのような位置の変化も、類似度に反映されるようにすることは望ましい。
図4(A)および(B)のケースについて、例えば、階層位置2のブロックに関する組み合わせを、(文章OR1内のブロックのブロック番号,文章OR2内のブロックのブロック番号)の形式にしたがって列挙すると、(2,2)、(2,3)、(2,6)、(2,7)、(3,2)、(3,3)、(3,6)、(3,7)、(5,2)、…、(10,6)、(10,7)となる。
改版によって、旧版(例えば、OR1)には存在しなかった新たな章や節が改版文章(例えば、OR2)に出現したり、章や節の内容が部分的に変更されること等が起こり得るが、新たに出現した章や節の場合、前記詳細照合部3Bは、旧版原文文章側に対応するブロックは存在しない旨の決定を行う。また、改版によって、章や節の内容が部分的に変更された場合には、旧版原文文章側に対応するブロックは存在するものの、その類似度は低いことを示す。
単純に前記式(1)にしたがって各組み合わせの類似度を求めることによっても、各ブロックの対応関係を決定(対応するブロックが存在しない旨の決定なども含む)することが可能であるが、本実施形態のブロック照合部3Dは、浅い階層位置から順番に前記類似度を求め、深い階層位置で類似度を求めるときには、式(1)で得られた結果をそのまま用いずに、深い階層位置のブロックが属する浅い階層位置のブロック(深い階層位置のブロックからみると、この浅い階層位置のブロックは、親ブロック(上位ブロック)にあたる)の対応関係の検査結果に応じて変更する。
この変更は、対応関係が決定できた対応確定ブロックに属するブロックに比べ、対応するブロックが存在しない旨の決定を行ったブロック(非対応確定ブロック)に属するブロックの類似度は低くなるように制御することによって実現する。この制御は、例えば、所定の係数ρ(0<ρ<1)を、式(1)で算出した類似度に乗算するものであってよい。また、ρの具体値は、例えば、0.8や、0.9であってよい。係数ρの値は、1つだけとしてもよいが、複数を用意することも望ましい。
係数ρを複数用意する場合、対応確定ブロックに属するブロック(このブロックからみると、当該対応確定ブロックは、親ブロック(上位ブロック)にあたる。反対に、親ブロックである当該対応確定ブロックからみると、対応確定ブロックに属するブロックは、子ブロックにあたる)であっても、その対応確定ブロックの対応関係決定の根拠となった類似度の値の高低に応じて、ρの値を変化させる。これは、根拠となった類似度の値が小さいほど、乗算する係数ρの値も小さくし、式(1)によって算出された類似度を小さいほうへ変化させるものである。
これにより、原文文章OR1とOR2のあいだの親ブロック間の対応関係により、子ブロックの対応関係が規制されるようになるから、親ブロックの範囲を越えて子ブロックの対応関係が確定する可能性を、確率的に低減することができる。これは、改版により文の一部を変更し、旧版と改版のあいだでその文自体の類似度は低くなってしまったようなケースでも、全体の文脈がそれほど大きく変化していなければ、旧版と改版のあいだでその文を対応づけることができることを意味する。前記非特許文献1の技術の場合、このようなケースでは、対訳による翻訳を行うことはできないが、本実施形態では、このようなケースにおいても、対訳による翻訳を行うことができる。
もちろん、当該文に注目する限り、その翻訳結果は正しいものではないが、それは、後編集によって効率的に修正することができる。
前記照合制御部3Cは、文書構造比較部3内の各構成要素3A、3B、3D〜3Fを制御する部分である。具体的には、例えば、ブロック照合部3Bに対する前記ブロック対応決定処理の実行要求の供給、ブロック照合部3Bによるブロック対応決定処理の進捗状況に応じた閾値THの変更および変更後の閾値THの前記閾値格納部3Bへの格納、文照合部3Eへの実行要求の供給、一時保存部3Fの管理などが、この照合制御部3Cの機能であってよい。
文照合部3Eは改版原文文章OR2内の上述した対応確定ブロックに属する各文に関し、対応関係が確定した旧版原文文章OR1のブロック内で文を対応付けて文相互間の対応関係を決定する部分である。したがって、当該文照合部3Eは少なくとも、文字列の照合機能を搭載することになる。
ブロックの対応関係を決定するときに用いた処理は、文の対応関係を決定する際にも活用することが可能である。また、前記式(1)は、「文数」を「単語数」に、「ブロック」を「文」にそれぞれ置き換えることにより、そのまま、文の類似度を算出するために利用することも可能である。
一時保存部3Fは、前記ブロック対応決定処理の進行などに伴って得ることができる図4(A)および(B)の構造情報表を格納する部分である。必要に応じて、旧版文書DC1や改版文書DC2を、この一時保存部3Fに格納しておいてもよい。
前記翻訳処理部8は、当該文書構造比較部3の処理を受けて、改版原文文章OR2の翻訳処理を実行する部分で、当該翻訳処理に応じて、改版原文文章OR2の訳文にあたる改版訳文文章CP2を出力する。
本実施形態において、改版原文文章OR2の翻訳は主として、改版原文文章OR2中のブロックを、対応する旧版訳文文章CP1中のブロックで置き換えることによって実行する。旧版原文文章OR1と旧版訳文文章CP1は厳密に対応しているため、改版原文文章OR2上の対応確定ブロックであれば必ず、旧版訳文文章CP1中に対応するブロックを有する。この場合のブロックは、できるだけ下位の階層のブロック(例えば、節のブロック)とすることが望ましい。
なお、改版原文文章OR2上の非対応確定ブロックの場合、旧版訳文文章CP1中に対応するブロックを持たないため、このようなブロック単位の置き換えによる翻訳を行うことができない。したがって、改版原文文章OR2上の非対応確定ブロックの翻訳にあたっては、例えば、通常の機械翻訳を用いたり、前記非特許文献1で行われているように、文の類似度に基づいて、(ブロック単位ではなく)文単位で、旧版データベース5を利用する対訳による翻訳を行うようにしてもよい。
通常の機械翻訳では、形態素解析、構文解析など周知の各種自然言語処理の処理結果を利用して、動的に翻訳処理を実行する。
前記類似度が100%ではないブロックであっても、可能な限り機械翻訳を行わず、対訳による翻訳を行うことによって、後編集の作業効率を高めることができる。対訳による翻訳のほうが、機械翻訳による翻訳よりも、文と文のつながり、文体、訳調などの統一性に優れているからである。
前記差分情報生成部4は、旧版訳文文章CP1と改版訳文文章CP2の差分に相当する情報(補助情報)を出力する部分である。この補助情報により、例えば、前記ディスプレイ装置の表示画面上で、改版によって削除された旧版原文文章OR1や旧版訳文文章CP1中のブロックを指定できるほか、改版訳文文章CP2中の機械翻訳を行ったブロックを指定するために利用することもできる。機械翻訳を行ったブロックは、後編集の必要性が高いブロックである。改版訳文文章CP2が長い文章であるとしても、画面上で当該補助情報を目視したユーザU1は、当該補助情報によって指定されるブロックのみに注力して後編集を行うことができるから、後編集の効率が高まる。
なお、前記旧版データベース5が、ハードディスクや光ディスクなどの不揮発性記憶手段や、メモリなどの揮発性記憶手段などの記憶資源の上に構築されることは当然である。
以下、上記のような構成を有する本実施形態の動作について、図3,図5,図6、図8のフローチャートを参照しながら説明する。
図3と図8のフローチャートは一連の全体的な処理の流れを示すもので、図3のフローチャートの処理につづいて図8のフローチャートの処理が実行される。図3のフローチャートは、S10〜S14の各ステップから構成され、図8のフローチャートは、S61〜S66の各ステップから構成されている。
図8のフローチャート中のステップS62の詳細を示すのが、図5のフローチャートである。図5のフローチャートは、前記ブロック対応決定処理を適用するブロックを選択し、その組み合わせを決める処理(階層制御処理)のためのフローチャートで、S15〜S25の各ステップから構成されている。
図5のフローチャート中のステップS19,S22,S26の詳細を示すのが、図6のフローチャートである。図6のフローチャートは前記ブロック対応決定処理の流れを示すもので、S30〜S36の各ステップから構成されている。
上述した説明から明らかなように、これら図3,図5,図6、図8のフローチャートは、旧版原文文章OR1と改版原文文章OR2に関して実行される処理である。
(A−2)第1の実施形態の動作
図3において、マニュアルなどの旧版文書DC1に含まれる旧版原文文章OR1と旧版訳文文章CP1が旧版データベース5に格納された状態で、前記改版(新版)原文文章OR2を内容とする改版文書DC2が入力部1から供給されたものとする。この供給は、翻訳支援システム10に対し、当該改版原文文章OR2の翻訳を要求する指令をともなう。
本実施形態において文章OR1とOR2を当該翻訳支援システム10で処理するためには、2つの文書が、前記文書構造解析部2によって解析され、図4(A)および(B)に示す構造情報表の形式で整理されている必要がある。上述したように、旧版原文文章OR1があらかじめ解析され、その階層構造が得られている場合にはその必要はないが、そうでない場合には、図4(A)の構造情報表を得るために解析を行うことになる(S10、S11)。このとき、図13の文・文番号対応表も得られる。
改版原文文章OR2に対しても同様な解析が行われ図4(B)の構造情報表が得られる(S12)。
次に、文章OR1とOR2のうち階層構造の深さが浅いほうの最も深い階層位置の値を最大階層数を示す最大階層変数MaxLayerに代入する。これは、2つの文章OR1,OR2の階層構造の深さを浅いほうに揃えるためである。同時に、階層構造表の不要ブロックレベル行を削除する(S13)。この削除は、2つの文章OR1,OR2で深さが揃っていないときに行う処理である。図2(A)および(B)の例では、この削除により、図2(B)の「3.2.1」と「3.2.2」に対応する図4(B)上の2つの行が削除され、最大階層変数MaxLayerには、2が代入される。
次に、図13に示す文・文番号対応表を用いて、改版原文文章OR2中の各文に完全一致する旧版原文文章OR1中の文を調べて、図14に示す上述した新旧文対応表を作成する(S14)。
つづいて処理は図8のステップS61へ進む。
図8において、前記照合制御部3Cは閾値格納部3Bへ閾値THとして初期値である100(%)の値を格納する(S61)。
次のステップS62では、照合制御部3Cがブロック照合部3Bに対して前記ブロック対応決定処理の実行要求を出し、これを受けたブロック照合部3Bは、この100%の閾値THをもとに、ブロック対応決定処理を実行しようとする。ただしブロック対応決定処理を実行するには、前提として、前記階層制御処理を実行する必要があるため、図5の処理を実行することになり、また、図5のなかの各ステップにおいて当該ブロック対応決定処理(すなわち、図6の処理)そのものが実行されることになる。図5と図6の詳細についてはあとで説明するが、基本的には、階層を浅いところから深いところへ変化させながらブロックの組み合わせを変えて、前記ブロック対応決定処理を実行する操作を繰り返すことになる。
当該ステップS62につづくステップS63では、図4(B)に示す構造情報表について対応ブロック番号が未記入の行の存否を検査し、未記入の行が存在すればYES側へ分岐して、存在しなければNO側へ分岐する。図4(B)に示す構造情報表上の対応ブロック番号が未記入の行は、まだ、前記対応確定ブロックとなっていないブロック(対応未決定(対応未確定)のブロック)に対応する行である。この対応未確定ブロックのなかには、最終的に前記非対応確定ブロックとなるものと、閾値THの変更によって以降の処理で対応確定ブロックとなるものが含まれている可能性がある。
ステップS63がYES側へ分岐すると、その時点の閾値THの値から前記閾値減少幅である10%を減算して得られる減算結果が、前記最小値である0%以上であるか否かを検査する。検査の結果、減算結果が0%未満であればステップS64がNO側に分岐して対応付けが終了する(S66)が、0%以上であればYES側に分岐する。ステップS64がNO側に分岐した場合、その時点で図4(B)に示す構造情報表上の対応ブロック番号が未記入の行は、前記非対応確定ブロックにあたる。
ステップS64がYES側に分岐した場合、その時点の閾値THの値から前記閾値減少幅である10%を減算し、その減算結果を新たな閾値THとして再び前記ステップS62の処理を繰り返す。このため、ステップS62〜S65によって構成されるループが繰り返されるたびに、閾値THの値は、100,90,80、…と変化することになる。この繰り返しにより、類似度が高くブロック間の対応関係が確からしい組み合わせから順番に対応関係が確定され、対応確定ブロックが決定されていく。
例えば、図15の例では、最初に対応関係が確定するのは行L21に対応する(10,8)の組み合わせである。これは、閾値THの値が100%のときである。次に対応関係が確定するのは、行L22に対応する(1,1)の組み合わせであり、その確定は閾値THの値が90%のときである。
なお、具体的な実装にも依存するが、前記ステップS64で実際にその時点の閾値THの値から前記閾値減少幅である10%を減算するものとすると、ステップS64の段階ですでに減算結果を得ているはずであるから、ステップS65では、その減算結果を新たな閾値THとして取り扱うだけでよい。もっとも、現実の実装(例えばプログラミング)では、より効率を高めること等を理由に、ステップS64でこの減算を行わないように構成する可能性もあることは当然である。
次に、図5に示す前記階層制御処理について説明する。これは、前記ステップS62の詳細を示すものであるため、前記ステップS62〜S65で構成されるループが繰り返されるとき、前記ステップS65につづいて実行されるが、当初は前記ステップS61につづいて実行される。
図5のステップS15では、検査階層変数iに1を代入する。この変数iは、これからブロック間の対応関係を検査する階層位置を示す変数である。上述したように、ブロック番号自体には階層位置の相違は反映されていないため、検査階層変数iによって、前記ブロック照合部3Bが行うブロック対応決定処理の対象とする階層位置を制御する必要がある。換言するなら、階層位置の相違を反映したブロック番号を付与するようにすれば、図5のフローチャートの内容は大きく異なるものになる可能性がある。
当該ステップS15で、検査階層変数iに初期値である1を代入することにより、階層位置1、すなわち、上述した章のレベルにおけるブロック間の対応関係の検査(ブロック対応決定処理)が開始される。上述したように、階層位置としては0もあるが、ここでの初期値は1である。
この階層位置iにおけるブロックに関し、すべての前記組み合わせを処理するため、ブロック対応決定処理を行っていないブロック(このブロックのブロック番号をjとする)の選択(S16)と、下位ブロックのブロック番号が当該jである上位ブロック(このブロックのブロック番号をkとする)の選択(S17)を行う。
次に、ブロック番号が当該kである上位ブロックと対応するブロック(このブロックのブロック番号をmとする)が、旧版原文文章OR1側に存在するか否かを検査し(S18)、存在する場合には、ブロック番号がk、mそれぞれの当該上位ブロックを親ブロックとする下位ブロック(子ブロック)をすべて選択して、それらに対してブロック対応決定処理を行い(S19)、存在しない場合には、処理をステップS20へ進める。
ただし、階層位置が1の場合、その上位ブロック(親ブロック)は階層位置0、すなわち、その原文文章全体のブロックしかない。文書DC1とDC2は、例えば、ある機種のパーソナルコンピュータに関するマニュアルなど、同一の文書の旧版と改版の関係にあるから、当然、階層位置iが1の回の処理では、前記ステップS18は無条件にYES側に分岐させることになる。
ステップS20では、改版原文文章OR2内の階層位置iのブロックに対する全ての上位ブロック(全ての親ブロック)について、ブロック対応決定処理を行ったか否かを調べ、ブロック対応決定処理を行っていない親ブロックがある場合には、前記ステップS16に戻って同様な処理を繰り返す。すべての親ブロックについてブロック対応決定処理が終わった場合には、処理はステップS21へ進む。ステップS21では、図4(B)の構造情報表の該当する行(該当するブロック)のうち、対応ブロック番号及び類似度の欄が未記入のものがあるか否かを調べる。この欄が未記入の行は、前記ブロック対応決定処理を終えていない前記対応未確定ブロックの行であるため、前記ブロック対応決定処理を行うことになる(S22)。
当該階層位置iのすべてのブロックにつき、対応関係(対応確定ブロックまたは非対応確定ブロックの別)が確定すると、その時点のiの値が前記最大階層変数MaxLayerの値より小さいか否かを検査する(S23)。小さければステップS23はYES側に分岐して、iをインクリメントし(S24)、処理を前記ステップS16に戻すことになるが、小さくなければステップS23はNO側に分岐して処理は、図8のステップS63へ進む。ここでは、MaxLayerの値は2であるから、iの値が1であると、ステップS23はYES側に分岐することになる。
ステップS25でもブロック対応決定処理が実行されるが、ステップS23がNO側に分岐したあとで実行されるのであるから、当該ステップS25では、階層位置がもっとも深い2のブロック(すなわち、節)について対応関係が決定され、改版原文文章OR2に含まれるすべてのブロックに対する対応関係が確定することになる。
もちろん、この確定により、いずれのブロックとも対応しない(対応するブロックが存在しない)前記非対応確定ブロックが出現し得ることは当然である。
次に、前記ステップS19,S22の詳細動作にあたるブロック対応決定処理の詳細を、図6のフローチャートに基づいて説明する。
図6において、すでに処理を行う階層位置などは決まっているので、その階層位置におけるすべてのブロックの組み合わせを求め、各組み合わせにつき、前記式(1)に応じた類似度を算出した上で、類似度の大きい順番に整列して図15に示すブロック組み合わせ表を作成する(S30)。類似度は単純に式(1)にしたがって算出するだけでなく、上述した係数ρを乗算してもよいことはすでに説明した通りである。
図15は、図4(A)および(B)の構造情報表を前提とした階層位置が1の場合のブロック組み合わせ表である。図16からも明らかなように、図4(A)の階層位置1には、ブロック番号1,4,8,11の各ブロックが存在し、図4(B)の階層位置1には、ブロック番号1,4,5,10の各ブロックが存在する。同様の関係は、図17(A)および(B)にも図示している。図17(A)から明らかなように、例えば、改版原文文章OR2のブロック番号1のブロック(章)にはブロック番号2と3の各ブロック(節)が属し、ブロック番号5のブロックにはブロック番号6と7の各ブロックが属している。同様に、図17(B)で、旧版原文文章OR1のブロック番号1のブロック(章)にはブロック番号2と3の各ブロック(節)が属し、ブロック番号4のブロックにはブロック番号5,6,7の各ブロックが属している。
図15に示すブロック組み合わせ表の内容を、上述した(文章OR1内のブロックのブロック番号,文章OR2内のブロックのブロック番号)の形式にしたがって表記すると、ステップS30で作成するブロックの組み合わせの最も上の行L21は、(8,10)となり、上から2番目以降の行L22〜L26は順次、(1,1)、(4,5)、(11,1)、(4,4)、(4,1)となる。
次に、当該ブロック組み合わせ表の各行のなかから、類似度のもっとも高い組み合わせに対応する行(ここでは、L21)を選択し(S31)、その行の類似度の値が所定の閾値TH以上であるか否かを検査する(S32)。
類似度のもっとも高い組み合わせでさえ、閾値TH未満であれば、対応関係のあるブロックは存在しないことを意味するから、前記対応確定ブロックは得られず、前記非対応確定ブロックのみが得られて処理が終わる。
ただし、真に非対応確定ブロックであることが確定するのは、前記閾値THを最小値としたときのステップS32でも類似度が閾値TH以上とならない場合である。もっとも、閾値THの最小値を上述した0%とした場合、旧版原文文章OR1と改版原文文章OR2のあいだで対象となるブロックの数が同数であるなら、少なくとも形式上、最終的にはすべてのブロックが対応確定ブロックとなる。閾値THとして0%を適用すれば、類似度が0%のまったく異なるブロックのあいだでも対応関係が確定するからである。
また、閾値THの最小値を0%より大きな値としたケースでも、同じ文書の旧版と改版の関係にある文書DC1とDC2の場合、すべての組み合わせの類似度が閾値TH未満となることは、ほとんどあり得ないので、多くの場合、いくつかの組み合わせでは、類似度が閾値TH以上となり、対応確定ブロックが得られる。したがって、多くの場合、類似度が最大の組み合わせである行L21についても、対応確定ブロックが得られる。
図15の例では、閾値THが100%のときには行L21の組み合わせで対応確定ブロックが得られ、閾値THが90%のときには行L22の組み合わせで対応確定ブロックが得られ、閾値THが80%のときには対応確定ブロックは得られず、閾値THが70%のときには対応確定ブロックが得られず、…、閾値THが40%のときには行L23の組み合わせで対応確定ブロックが得られ、閾値THが30%のときには対応確定ブロックが得られず、閾値THが20%のときには行L24の組み合わせと行L25の組み合わせで対応確定ブロックが得られ、閾値THが10%のときには行L26の組み合わせで対応確定ブロックが得られる。
類似度が閾値TH以上の行については、ステップS32はYES側に分岐して、その行の組み合わせに含まれる各ブロックを、対応確定ブロックに決定し、前記構造情報表の対応ブロック番号欄に該当するブロック番号(対応ブロック番号)を記述する(S33)。上述したように前記閾値THが100%で前記行L21に相当する改版原文文章OR2上のブロック番号10のブロックと、旧版原文文章OR1上のブロック番号8のブロックが、対応確定ブロックとされた場合、図4(A)の構造情報表において、下から4番目の行であるブロック番号8の行の対応ブロック番号及び類似度の欄には、ブロック番号10と、類似度100%が記述され、同様に、図4(B)の構造情報表において、もっとも下の行であるブロック番号10の行の対応ブロック番号及び類似度の欄には、ブロック番号8と、類似度100%が記述される。
非対応確定ブロックに関しては、その対応ブロック番号及び類似度の欄に何も記述しなくてもよいが、必要に応じて、非対応確定ブロックであることを示す所定の情報(非対応確定情報)を記述するようにしてもよい。
なお、例えば、旧版原文文章OR1側のあるブロックに対し、類似度が閾値TH以上となる改版原文文章OR2側のブロックが複数存在すること等も起こり得るが、そのようなケースでは、類似度が最大となるブロックを選択し、選択したブロックを対応確定ブロックとすればよい。
当該ステップS33で行L21の類似度が閾値TH以上であることが判明したときには、当該ステップS33につづいて、当該行L21を、図15の状態のブロック組み合わせ表から削除し(S34)、前記ブロック組み合わせ表に残りの行が存在するか否かを検査する(S35)。存在する場合、処理は、前記ステップS30に戻り、存在しない場合には終了する(S36)。
前記ステップS32の検査に、前記係数ρを反映させることによって、原文文章OR1とOR2のあいだの親ブロック間の対応関係で、子ブロックの対応関係が規制され、親ブロックの範囲を越えて子ブロックの対応関係が確定する(子ブロックが対応確定ブロックとされる)可能性を低減することができる。
これにより、親ブロック間で対応関係が確定していれば、その親ブロックの子ブロック間でも(その親ブロックと対応していないことが確定している親ブロックの子ブロックに比べ)対応関係が確定しやすくなり、子ブロック内の一部に対応しない文が含まれているケースなどでも、子ブロック間の対応関係が確定しやすい。
以上の処理により、改版原文文章OR2上のすべてのブロックにつき、対応確定ブロックであるか、非対応確定ブロックであるかが決定されるので、その決定に応じて、前記翻訳処理部8や差分情報生成部4が動作することが可能になる。
前記翻訳処理部8は、改版原文文章OR2中の対応確定ブロックに対しては、対応する旧版訳文文章CP1中のブロックで置き換えることによってブロック単位(例えば、節単位)の対訳による翻訳を実行することができる。また、改版原文文章OR2中の非対応確定ブロックに対しては、通常の機械翻訳を行ったり、前記非特許文献1のように、文の類似度に基づいて、文単位で対訳による翻訳を行うことができる。
以上のような処理を行うことによって、ブロック単位の置き換えを用いる対訳による翻訳を多用した翻訳処理を実行し、前記改版原文文章OR2に対応する改版訳文文章CP2を得ることが可能である。
改版訳文文章CP2が得られたあと、あるいは、改版訳文文章CP2を得る過程で、前記出力部7のディスプレイ装置に例えば図7に示すような画面MG1を表示して、ユーザU1が後編集を行を行ったり、対訳による翻訳を個別的に指示したりするためのユーザインタフェースを提供することができる。
画面MG1上には、旧版、改版(新版)、原文、訳文の各ブロックに属する1または複数の文の文字列を表示するためのフィールドF11〜F14と、ブロック番号を表示するためのフィールドF21,F22と、フィールドF11〜F14の表示内容をスクロールさせるためのスクロールバーSC1,SC2と、対応関係決定の根拠となった前記類似度を表示するためのフィールドF23と、対話部品としての各種のボタンBT1〜BT5を備えている。
ユーザU1がポインティングデバイスなどを操作して「次」ボタンBT1を押し下げると、その時点で、フィールドF12内に表示されている改版原文文章OR2中のブロックが、次のブロック(ブロック番号が1つ大きいブロック)に切り替えられる。反対に、「前」ボタンBT2を押し下げると、その時点で、フィールドF12内に表示されている改版原文文章OR2中のブロックが、前のブロック(ブロック番号が1つ小さいブロック)に切り替えられる。
また、旧版と、改版のあいだで、文の文字列が完全に一致しているものには、直観的なマークが付与される。このマークは、前記補助情報に基づいて表示するものであってよい。ユーザU1は、当該マークをもとに文が完全に一致していることを認識することができる。また、一般的に、マークされている文の割合が多いほどそのまま再利用できる確率が高く、対訳による翻訳の結果に対して後編集の必要性が低いことを意味するため、ユーザU1はマークされている文の割合をもとに、そのブロックに対する後編集の要否などを判断することもできる。
「コピー」ボタンBT3は、ユーザU1が、フィールドF11とF12に表示されている旧版原文文章OR1中のブロックと、改版原文文章OR2中のブロックを閲覧することによって、これらのブロックの対応付けが良いと判断した場合に押下するボタンである。この押下により、その時点でフィールドF13に表示されている旧版訳文文章CP1中のブロックが、改版訳文文章CP2のブロックを表示するためのフィールドF14にコピーされる。したがって、この「コピー」ボタンBT3は、対訳による翻訳をユーザU1が個別的に指示するための部品である。
すでに改版訳文文章CP2が完成している場合には、フィールドF14には最初から、改版訳文文章CP2中のブロック(翻訳結果の一部)が表示されることになるが、必要に応じて、当該フィールドF14内には、訳文を1文ずつ表示できるようにしてもよい。
いずれにしても、ユーザU1による編集作業(後編集)は、主として、フィールドF14に表示されている翻訳結果に対して実行される。
すでに説明したように、旧版原文文章OR1と旧版訳文文章CP1は文のレベルまで厳密に対応している。同様に、改版原文文章OR2と改版訳文文章CP2も、厳密に対応している。また、厳密さではやや低下するものの、旧版原文文章OR1と改版原文文章OR2も、おおむね対応している。したがって、前記ボタンBT1やBT2を押下して前記フィールドF12内に表示されている改版原文文章OR2中のブロックを切り替えれば、基本的に、その切り替えに追従して他のフィールドF12〜F14に表示されるブロックも対応したものに切り替えられる。
このような画面MG1を閲覧するユーザU1は、改版原文文章OR1上のブロックを基準に各文章上の所望のブロックを選択して、後編集の作業を進めることができる。選択により、フィールドF14上に表示されたブロック(改版訳文文章CP2上のブロック)には、改版によって内容が変わったためにそのままでは適切でない文や単語なども含まれている可能性があるので、後編集では、このような文や単語を探し出し、適切なものに変更することになる。
フィールドF23に表示される類似度は、後編集の必要性が高いブロックをユーザU1に知らせるための情報となる。例えば、類似度が100%のブロックに対しては、通常、後編集を行う必要はないが、類似度が低ければ(例えば、50%程度なら)、そのブロックに対し重点的に後編集を行う必要があることがわかる。このような類似度に加え、または、類似度に替えて、前記マークなども含む補助情報を活用すれば、フィールドF14内の画面の色や反転表示などの直感的な方法で、後編集の必要性をユーザU1に伝えることもできる。
後編集を終え、改版訳文文章CP2中の該当ブロックの内容が確定したら、ユーザU1は、「確定」ボタンBT4を押下する。これにより、当該ブロックの内容が確定し、保存される。
後編集や対訳による翻訳の個別的な指示を終えるときには、ユーザU1は、「終了」ボタンBT5を押下する。これにより、前記旧版文書DC1内のブロックと同様に、当該改版文書DC2内の該当ブロックが、前記旧版データベース5に格納される。
このあと、文書DC2をさらに改版した新たな改版文書DC3を翻訳する場合、新たな改版文書DC3からみると文書DC2は旧版文書であるから、当該旧版データベース5に格納された文書DC2の対訳は、その新たな改版文書DC3に対して対訳による翻訳を行う場合に活用することができる。
(A−3)第1の実施形態の効果
本実施形態によれば、文脈に忠実で品質の高い翻訳結果を得ることが可能である。
また、本実施形態では、文脈に忠実な翻訳を行う過程で得られた各種の情報(前記補助情報なども含む)を活用することにより、後編集の作業効率を高めることができる。
さらに本実施形態では、照合制御部(3C)が閾値(TH)を逐次変更し、変更のたびにブロック対応決定処理等を実行させるため、ユーザ(U1)は閾値の設定を行う必要がなく、利便性が高い。このことはまた、翻訳結果の品質向上や、後編集の作業効率向上にも寄与する。一般的なユーザにとって即座に適切な閾値を設定することは容易ではなく、設定した閾値が不適切であると翻訳結果の品質が低下したり、後編集の作業効率が低下したりするからである。
さらにまた、本実施形態では、類似度が高い組み合わせのブロックから順番に対応関係が決定されて対応確定ブロックとされるため、少なくとも閾値の値が大きいときの処理では、対応誤りの発生頻度が極めて低い。
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
本実施形態では、旧版原文文章(OR1)と改版原文文章(OR2)のあいだで対応関係を確定したブロックと、その確定時の閾値THの値を含む案内情報を表示する仕組みを提供して、ユーザU1が容易に最適な閾値THを選ぶことを可能としたことを特徴とする。
ここで、前記旧版文書DC1に相当する旧版文書をDC11とし、前記改版文書DC2に相当する改版文書をDC21とする。また、DC11内の旧版原文文章はOR11で、DC21内の改版原文文章はOR21とする。
(B−1)第2の実施形態の構成および動作
本実施形態にかかる翻訳支援システム20の全体構成例を図9に示す。
図9において、当該翻訳支援システム20は、入力部1と、文書構造解析部2と、文書構造比較部3と、差分情報生成部4と、旧版データベース5と、制御部6と、出力部7と、翻訳処理部8と、案内情報生成部11とを備えている。
このうち図1と同じ符号1〜8を付与した各構成要素の機能は基本的に第1の実施形態と同じであるので、その詳しい説明は省略する。
ただし本実施形態において文書構造比較部3内の一時保存部3Fが格納する構造情報表は、図11に示す構成を備えている。図11の構造情報表は基本的に図4(A)および(B)の構造情報表と同じであるが、ブロック間の対応関係を確定したときの閾値THの値を記入するための閾値欄を設けた点が相違する。
本実施形態では、このような構成の構造情報表を一時保存部3Fに登録しておき、案内情報生成部11が、出力部7または制御部6と連携して、図10に示す画面MG2を表示出力させる。なお、当該画面MG2を表示する時点では、ブロック間の対応関係は確定し対応確定ブロックは獲得済みであるものの、文照合部3Eによる文の対応関係の決定や前記翻訳処理部8による翻訳はまだ行われていない。
図10において、当該画面MG2は、フィールドF21〜F23と、ボタンBT21〜BT23とを備えている。
このうちフィールドF21には旧版原文文章OR11中のブロックが表示され、フィールドF22にはフィールドF21に表示中のブロックに対して対応関係が確定した改版原文文章OR21中のブロック(対応確定ブロック)が表示される。
また、フィールドF23には、フィールドF21とF22に表示中のブロックに関し対応関係を確定したときの前記閾値THの値が表示される。図示の状態では、100%を示す「100」が表示されている。
ボタンBT21とBT23は、フィールドF23に表示する閾値THの値を変更するため、ユーザU1によりマウスなどのポインティングデバイスを用いて操作されるボタンである。フィールドF23に表示する閾値THの値を大きくしたいときには「△」ボタンBT21を操作し、小さくしたいときには「▽」ボタンBT22を操作するものであってよい。
図示の状態では閾値THの最大値である100が表示されているため、ユーザU1はボタンBT23を操作することによって、逐次、より小さな90,80,70,…の閾値THを表示させ、その間にボタンBT21を操作すれば、その時点から逐次より大きな閾値THを表示させることができる。
このようにしてユーザU1が閾値THの値を指定すると、案内情報生成部11は、指定を受けた閾値THの値をもとに図11の構造情報表を検索することにより対応関係が確定したときの閾値THの値がその値と一致する旧版原文文章OR11側と改版原文文章OR21側の各ブロックが特定できる。そして、対応関係が確定しているこれらのブロックが、それぞれフィールドF21とF22に表示されることになる。各フィールドF21,F22の範囲内に表示しきれないブロックを表示させるために、画面MG2上にスクロールバーなどを用意してもよいことは当然である。
フィールドF21とF22内に表示されるブロックは原文文章中のブロックであるから、ユーザU1が訳文言語に習熟しておらず、原文言語にしか習熟していない場合であっても、容易に、表示中のブロック間の対応関係の確定が適切なものであったか否かを判断することができる。この判断では、本来、対応確定ブロックとされるべきでないブロックが対応確定ブロックとされる対応誤りの有無が判断される。ただし、どの程度の関係にあるものを対応誤りとみなすか、あるいは、どこまで対応誤りとみなさずに許容するかは、ユーザU1の主観や文章の内容などにも依存する。ある程度、対応していない文が混入していても対応誤りとみなさないことによって後編集の効率を高めることが可能になることも多い。
フィールドF21,F22内に表示中のブロック間の対応関係の確定が適切なものであると判断した場合、ユーザU1はボタンBT23を操作する。当該「文対応」ボタンBT23の操作には、ユーザU1が翻訳支援システム20に対し、文対応付け処理の実行を要求する意味があり、文の対応付け処理では、そのとき画面MG2のフィールドF23内に表示されている閾値THが利用される。
ユーザU1がこのボタンBT23を操作して文の対応付け処理を要求すると、そのとき画面MG2上のフィールドF23内に表示していた閾値THの値が文照合部3Eに供給され、前記文照合部3Eが文の対応付け処理を実行する。
当該閾値THの供給を受けた文照合部3Eは、図11の構造情報表で、閾値欄に記入された値がその閾値TH以上の行に対応するすべての対応確定ブロックを取得し、その対応確定ブロック内で文対応付け処理を実行する。したがって、供給を受けた閾値THの値が例えば50%である場合、閾値欄に記入された閾値が50,60,70,80,90,100の各対応確定ブロックが取得される。ユーザU1は前記ボタンBT21,BT22を操作してフィールドF23に表示される閾値THの値を変化させて、確定したブロック間の対応関係が許容できる最低値の閾値THがフィールドF23内に表示されたときにボタンBT23を操作するとよい。
ユーザU1が指定する閾値THの値が高ければブロックの対応関係の品質も高い(例えば、TH=100%を指定すれば、完全に一致しているブロックのみに対応関係が認められる)が、文脈に配慮した翻訳の対象となるブロックの割合が小さくなるため、翻訳の品質が低下し、後編集の作業効率が低下してしまう。これに対し、ユーザU1が指定する閾値THの値が低ければ、ブロックの対応関係の品質は低下するものの、より多くの対応確定ブロックを文対応付け処理の対象とし、翻訳処理部8による文脈に配慮した翻訳の対象とすることができるため、翻訳の品質を高めて後編集の作業効率を高めることが可能となる。したがって、許容可能な最低限度の品質を持つブロックの対応関係を示す最低値の閾値THが最適な閾値であるといえる。
文照合部3Eが取得した対応確定ブロックに対して実行する文対応付け処理には様々なものがあり得るが、一例としては、図18のフローチャートに示すものであってよい。図18のフローチャートは文照合部3Eが供給を受けた閾値THをもとに実行する文対応付け処理であり、S40〜S47の各ステップを備えている。
ここで、前記DC11内の旧版原文文章OR11の1ブロックであるBR1には、文a、文b、文c、文dが含まれ、DC21内の改版原文文章OR21の1ブロックであるBR2には、文1C、文2C、文3C、文4Cが含まれているものとする。また各文章OR11,OR21上に各文が出現する順番もここに記載した通りであるものとする。そして、改版原文文章DC21中の文1Cは、旧版原文文章DC11中の文aを1文字も変更することなくそのまま用いており、残りの文2C〜4Cは、改版により、変更または追加されたものと仮定する。
なお、前記ステップS40が実行されるまえに、各文章OR11とOR21上におけるブロック間の対応関係はすでに決定(確定)されているものとし、図18では、各ブロック内における文の対応関係を決定する。
図18において、改版原文文章OR21と旧版原文文章OR11のあいだで対応関係が確定している対応確定ブロックを1つずつ選択する(S40)。これにより、例えば、前記ブロックBR1とBR2が選択される。
次に、当該ブロックBR1,BR2のあいだで、すべての文字が一致している文の組み合わせを選定し(S41)、選定した組み合わせに含まれる文以外の文に対して単語の切り出し処理を行う(S42)。このステップS41では、前記文1Cと文aの組み合わせが選定される。文1Cと文aの組み合わせについては、この時点で、対応関係があることが確定し、改版原文文章OR21上で当該文1Cが、対応確定文(対応関係が確定した文)とされる。
また、ステップS42の単語の切り出し処理は、例えば、形態素解析によって行うことができるが、必要ならば、単語の切り出しの替わりに文字の切り出しを行うようにしてもよい。
ここで、単語の切り出しを行うのは、後述する式(2)で類似度を算出するためである。
ステップS42につづくステップS43では、ブロックBR2のなかで対応関係が決定されていない文を1文ずつ選び、ブロックBR1中の各文に対するすべての組み合わせ(すべての文の対)で、次の式(2)に基づく重み付け類似度(修正類似度)を算出する。
WT×100×一致単語数/((1対の文の総単語数)/2) …(2)
ここで、WTは重みで、その初期値は1である。ただし、該当する文章(ここでは、OR21)上でその文の1文前または1文後に出現する文の対応関係が決定されている場合には、重みWTの値は初期値より大きなるように変更される。初期値の次の値は、例えば、1.2であってよい。同様な重みWTの値の変更は繰り返され、近傍に出現する対応確定文の密度が高いほど、WTの値が大きくなるように変更したり、これと反対に、近傍に、対応する文が存在しない旨の決定が行われた文(非対応確定文)が出現し、その密度が高くなるほど、WTの値が小さくなるように変更するものであってもよいが、図12(A)〜(C)の例では、重みWTの値は、初期値の1と1.2の2通りであるものとする。また、密度などは考慮せず、単純に隣接する文の対応関係が確定したときには重みWTの値を1から1.2に変化させるものとする。
同様な重み付け類似度は、すでに対応関係が決定されたもの(例えば、前記文aと文1Cの組み合わせ等)を除き、前記ブロックBR1,BR2間で可能なすべての組み合わせについて算出される。
もしも、前記文2Cと文bの具体的な文字列が次の通りであり、重みWTの値が1であるものとすると、文2Cの単語数は5で、文bの単語数は6であり、文2Cと文bから構成される対の文の総単語数は11である。
文2C:This is a pencil .
文b: This is a pencil case .
この場合、一致単語数は、5であるから、前記式(2)によって得られる重み付け類似度は、90.9%(≒1×100×5/(11/2))となる。
次に、重み付け類似度が、前記閾値TH以上となる組み合わせを選定する(S44)。この閾値THは、ユーザU1がボタンBT23を操作することによって文照合部3Eに供給されたものであるから、その値は供給されるたびに相違し得るが、ここでは一例として前記50%であるものとする。なお、旧版原文文章OR11側のある文に対する改版原文文章OR21側の複数の文の組み合わせの重み付け類似度が、同時に、前記閾値TH以上となることは起こり得るが、そのようなケースでは、重み付け類似度が最大の組み合わせだけについて、対応関係を決定するとよい。
前記文2C〜4Cと文b〜dの各組み合わせについて算出した重み付け類似度が、例えば、図12(A)に示す通りであるとすると、文bと文2Cの組み合わせの重み付け類似度(ここでは、56.4%)だけが閾値TH以上であるため、その組み合わせの対応関係が決定され、文2Cが対応確定文とされる。
そのブロックBR2内に対応関係が確定していない文があり、なおかつ、その回のループ(ステップS43〜S46によって構成されるループ)の処理によって、新たに、対応確定文とされた文がある限り、ステップS43〜S46の処理は繰り返される。
この繰り返しのたびに、異なる文が対応確定文となるため、値1.2の重みWTが反映される文が変化する。例えば、図12(A)〜(C)の例において、図12(A)では、すでに対応確定文となった文1Cに隣接している文2Cに、値1.2の重みWTが使用され、重みWTの値が1ならば47となる類似度が、重みWTの値が1.2となったことによって、56.4(重みWTが1ならば、45)になり、閾値TH(=50)以上に達している。
同様に、図12(B)でも、当該文2Cが対応確定文となったことにより、文2Cに隣接する文3Cが値1.2の重みWTの影響を受け、重み付け類似度が54になり、閾値TH以上に達し、対応確定文とされる。
最後の図12(C)でも、当該文3Cが対応確定文となったことにより、文3Cに隣接する文4Cが値1.2の重みWTの影響を受け、重み付け類似度が48になるが、48では、前記閾値TH以上ではないため、当該文4Cと文dの組み合わせは、対応関係がないことが決定され、文4Cは非対応確定文とされる。
以上と同様な処理は、改版原文文章OR21上のすべてのブロックについて実行される(S47)。
なお、文対応付け処理には、その文が属するブロックの類似度を反映させるようにしてもよい。
例えば、対応関係が確定した旧版原文文章OR11側と改版原文文章OR21側のブロック間の類似度が所定値より高いと、そのブロックに属する文自体の類似度が低くても文の対応付けが確定されやすくなるように制御してもよい。例えば、文対応付け処理で使用する閾値の値を小さくすれば、文の対応付けが確定されやすくなる。
逆に、ブロック間の類似度が所定値より低い場合は、そのブロックに関係する文脈で訳文の再利用可能性が低い傾向があるため、文自体の類似度が高くても文の対応付けが確定されにくくなるように制御するとよい。例えば、文対応付け処理で使用する閾値の値を大きくすれば、文の対応付けが確定されにくくなる。
(B)第2の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、対応確定文に対する距離が近い(隣接する)文は、その重みの値が大きくなるため対応確定文とされやすくなる。これにより、1文だけで見ると他に類似度の高い文があったとしても、前後の文が編集されていないか編集量が少ないと対応確定文とされやすくなり、連続して対応確定文が発生する傾向が高くなる。これは、文脈に忠実な翻訳結果を得るために有効である。
反対に、改版により、ある文に隣接する文が削除されるか大幅に編集された場合には、隣接する文の類似度は相対的に小さくなるため、その文は、対応確定文となりにくいが、このようなケースでは、その削除や編集により、文のつながりが弱まっているといえるから、この意味でも、本実施形態は、文脈に忠実な翻訳結果を得やすいといえる。
さらにまた、本実施形態では、画面(MG2)上で閾値(TH)ごとに対応関係の確定したブロックを表示するため、ユーザ(U1)は対応関係の確定が適切なものであったか否かを容易に判断でき、最適な閾値を選択しやすくなる。
この閾値の選択は、文照合部(3E)が実行する文対応付け処理にも反映される。
なお、本実施形態では、類似度とともに閾値も(図11の)構造情報表に登録するようにしたので新たなブロックを画面(MG2)表示させるたびに、類似度から閾値を再計算すること等が不要で、処理の効率が高い。
(C)他の実施形態
上記第1および第2の実施形態では、非対応確定ブロックに関しては自然言語処理(構文解析など)を用いた機械翻訳や前記非特許文献1の技術を利用し、その翻訳結果を表示するようにしたが、このような処理は省略してもよい。この場合、例えば非対応確定ブロックのみを、ユーザU1自身が翻訳するものであってよい。
上記第1および第2の実施形態では、画面の具体的な構成例を図示したが、図示した以外の構成を持つ画面を用いてもよいことは当然である。
なお、上記第2の実施形態では、主として、隣接する文が対応確定文となったときにその文の類似度を高める場合を例に説明したが、この処理を、近傍の文に対応確定文が多い場合や、その文に対して距離が近い文が対応確定文となった場合にその文の類似度を高めるように拡張することは容易である。
また、上記第1および第2の実施形態では、段落のブロックを無視したが、段落に配慮した処理を行ってもよいことは当然である。
なお、上記第2の実施形態で述べた文は、ブロックに置換可能である。すなわち、 隣接するブロックが対応確定ブロックである場合や、近傍のブロックに対応確定ブロックが多い場合に、ブロックの類似度を高める方向に制御するようにしてもよい。
また、上記第1および第2の実施形態にかかわらず、翻訳を行うことは必ずしも必須ではない。本発明は、ブロックの対応関係を検出して、文脈を利用し、マニュアルなどの詳細な版管理を行う場合など(旧版文書と改版文書の詳細な差分に関する情報の取得なども含む)にも適用することが可能である。また、版管理以外で、文書間でブロックの対応関係を検出する場合にも適用することが可能である。
さらに、文書は、自然言語以外の構成要素を含んでいてもかまわない。例えば、図形や、画像などを含む文書に対しても本発明は適用可能である。また、図形や画像なども文書内における文脈の形成に寄与し得ることは当然である。
また、文書は自然言語以外の言語(例えば、プログラミング言語など)を含むものであってもかまわない。プログラミング言語で記述されるコンピュータプログラムのソースコードの文書は、前記マニュアル、技術文書、論文などと同様、しばしば改版を行う文書の代表例の一つである。
以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
第1の実施形態にかかる翻訳支援システムの全体構成例を示す概略図である。 第1および第2の実施形態で処理する原文文章の構成例を示す概略図である。 第1および第2の実施形態の動作例を示すフローチャートである。 第1および第2の実施形態で使用する原文文章の階層構造の例を示す表である。 第1および第2の実施形態の動作例を示すフローチャートである。 第1および第2の実施形態の動作例を示すフローチャートである。 第1の実施形態の動作説明図である。 第1および第2の実施形態の動作例を示すフローチャートである。 第2の実施形態にかかる翻訳支援システムの全体構成例を示す概略図である。 第1および第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第1および第2の実施形態の動作説明図である。 第2の実施形態の動作例を示すフローチャートである。
符号の説明
1…入力部、2…文書構造解析部、3…文書構造比較部、3A…階層照合部、3B…閾値格納部、3C…照合制御部、3D…ブロック照合部、3E…文照合部、3F…対応付け結果一時保存部、4…差分情報生成部、5…旧版データベース、5A…旧版原文データベース、5B…旧版訳文データベース、6…制御部、7…出力部、8…翻訳処理部、OR1、OR11…旧版原文文章、OR2、OR21…改版原文文章、CP1…旧版訳文文章、CP2…改版訳文文章、DC1…旧版文書、DC2…改版文書、MG1、MG2…画面。

Claims (7)

  1. 第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素とのあいだの対応関係を検査する文書対応関係検査装置であって、
    前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、
    当該論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、
    前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、
    対応関係の有無の基準となる閾値を格納する閾値格納部と、
    前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部とを備え、
    前記ブロック照合部は、
    前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、
    前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部とを有し、
    前記文照合部は、
    前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、
    前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部とを有し、
    前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させる
    ことを特徴とする文書対応関係検査装置。
  2. 請求項1の文書対応関係検査装置において、
    前記ブロック対応関係検出部は、
    対応付けが確定した文ブロック及び確定していない文ブロックを区別した対応確定情報及び非対応確定情報と、その確定の際、前記対応付け実行部が用いた閾値の値を対応付けて記憶しておくブロック対応情報記憶部と、
    このブロック対応情報記憶部に記憶されている、前記対応確定情報及び非対応確定情報と閾値をユーザに提示するとともに、ユーザと当該文書対応関係検査装置との対話を行うための対話部品を提供するユーザインタフェース部と、
    提示された文ブロックの内容をもとにユーザが閾値を選択したとき、その選択を受け付ける選択受付部とを備えたことを特徴とする文書対応関係検査装置。
  3. 請求項1の文書対応関係検査装置において、
    前記文対応関係検出部は、
    対応関係がある最も深い階層の前記文ブロック間の類似度が所定値より高いと、当該文ブロック内に含まれる文の対応付けの判定のために使用する前記閾値を小さな値とする閾値制御部を備えたことを特徴とする文書対応関係検査装置。
  4. 第1の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第1の文書の少なくとも一部を変更した改版文書である第2の文書の原文を翻訳処理する翻訳処理装置において、
    請求項1〜3のいずれかの文書対応関係検査装置と、
    前記第2の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査装置により対応関係が検出された文ブロックに対しては、前記対訳辞書を用いた翻訳処理を実行するブロック翻訳処理部とを備えたことを特徴とする翻訳処理装置。
  5. 第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素のあいだの対応関係を検査する文書対応関係検査方法であって、
    論理構造解析部が、前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析し、
    ブロック照合部が、前記論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出し、
    文照合部が、前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出し、
    閾値格納部が、対応関係の有無の基準となる閾値を格納しており、
    照合制御部が、前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行うと共に、
    前記ブロック照合部内では、
    ブロック類似度算出部が、前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定のブロック類似度を算出し、
    ブロック対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録し、
    前記文照合部内では、
    文類似度算出部が、前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出し、
    文対応付け実行部が、前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録し、
    前記照合制御部は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させる
    ことを特徴とする文書対応関係検査方法。
  6. 第1の文書に関し原文と訳文の対訳を登録した対訳辞書を利用して、当該第1の文書の少なくとも一部を変更した改版文書である第2の文書の原文を翻訳処理する翻訳処理方法において、
    請求項5の文書対応関係検査方法により前記第2の文書に関する原文に含まれる文ブロックと、前記第1の文書に関する原文の文ブロックの対応関係を検出し、
    前記第2の文書に関する原文に含まれる文ブロックのうち、少なくとも、当該文書対応関係検査方法により対応関係が検出された文ブロックに対しては、ブロック翻訳処理部が、前記対訳辞書を用いた翻訳処理を実行することを特徴とする翻訳処理方法。
  7. 第1の文書の構成要素と、前記第1の文書の言語と同じ言語の第2の文書の構成要素のあいだの対応関係を検査する文書対応関係検査プログラムであって、
    コンピュータを、
    前記第1の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析すると共に、前記第2の文書の構成要素のうち、少なくとも1つ以上の文を含む文ブロックの論理的な構造を解析する論理構造解析部と、
    当該論理構造解析部の解析結果をもとに、前記第1の文書の文ブロックと第2の文書の文ブロックのあいだの対応関係を、文ブロックの階層が浅い方から深い方に順次検出するブロック照合部と、
    前記ブロック照合部が検出した、より深い階層の文ブロックが存在しない対応関係がある第1の文書の文ブロックと第2の文書の文ブロックに属する文のあいだの対応関係を検出する文照合部と、
    対応関係の有無の基準となる閾値を格納する閾値格納部と、
    前記ブロック照合部および前記文対応関係検出部への閾値の供給、前記閾値格納部の格納閾値の変更を行う照合制御部として機能させると共に、
    前記ブロック照合部として機能させるプログラム部分は、
    コンピュータを、
    前記第1の文書に関する文ブロックと第2の文書に関する文ブロックのあいだで所定の類似度を算出するブロック類似度算出部と、
    前記閾値格納部に格納された閾値よりも、算出されたブロック類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文ブロック間の対応付けを行い、対応付けが確定した文ブロックと確定していない文ブロックを区別して対応確定情報及び非対応確定情報を記録するブロック対応付け実行部として機能させる部分を有し、
    前記文照合部として機能させるプログラム部分は、
    コンピュータを、
    前記第1の文書に関する文ブロックに属する文と第2の文書に関する文ブロックに属する文のあいだで所定の文類似度を算出する文類似度算出部と、
    前記閾値格納部に格納された閾値よりも、算出された文類似度のほうが高いときに、前記第1の文書と第2の文書のあいだで文間の対応付けを行い、対応付けが確定した文と確定していない文を区別して対応確定情報及び非対応確定情報を記録する文対応付け実行部として機能させる部分を有し、
    前記照合制御部はとして機能させるプログラム部分は、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中で、対応付けが確定していない文ブロックが存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記ブロック対応付け実行部による文ブロックの対応付けを繰り返させると共に、変更後の閾値が当該下限値未満に到達するか、または、前記第1または第2の文書中の対応関係がある文ブロック内で、対応付けが確定していない文が存在しなくなるまで、前記閾値の変更と、変更後の閾値を用いた前記文対応付け実行部による文の対応付けを繰り返させるものである
    ことを特徴とする文書対応関係検査プログラム。
JP2004005862A 2004-01-13 2004-01-13 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム Expired - Fee Related JP4446749B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004005862A JP4446749B2 (ja) 2004-01-13 2004-01-13 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム
US11/016,908 US20050168772A1 (en) 2004-01-13 2004-12-21 Network printing system using messenger and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004005862A JP4446749B2 (ja) 2004-01-13 2004-01-13 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム

Publications (2)

Publication Number Publication Date
JP2005202509A JP2005202509A (ja) 2005-07-28
JP4446749B2 true JP4446749B2 (ja) 2010-04-07

Family

ID=34805324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004005862A Expired - Fee Related JP4446749B2 (ja) 2004-01-13 2004-01-13 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム

Country Status (2)

Country Link
US (1) US20050168772A1 (ja)
JP (1) JP4446749B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI256578B (en) * 2005-01-21 2006-06-11 Hon Hai Prec Ind Co Ltd A printer monitoring system and method
US20060265644A1 (en) * 2005-05-19 2006-11-23 Kabushiki Kaisha Toshiba Print processing apparatus, print processing system and print control method
CN101140504A (zh) * 2006-09-05 2008-03-12 鸿富锦精密工业(深圳)有限公司 打印作业监控系统及方法
US7464085B2 (en) 2006-09-26 2008-12-09 Sharp Laboratories Of America, Inc. Output processing with dynamic registration of external translators
US20080147886A1 (en) * 2006-12-14 2008-06-19 Andrew Rodney Ferlitsch Methods and Systems for Providing Peripheral Device Services
US20090066985A1 (en) * 2007-09-06 2009-03-12 Andrew Rodney Ferlitsch Email pay-for-print system
US8199348B2 (en) * 2008-11-03 2012-06-12 Sharp Laboratories Of America, Inc. Methods and systems for handling files for MFPS utilizing external services
JP5106431B2 (ja) * 2009-01-22 2012-12-26 株式会社東芝 機械翻訳装置、プログラム及び方法
JP5845107B2 (ja) * 2012-02-21 2016-01-20 キヤノン株式会社 画像形成装置、その制御方法、及びプログラム
JP6388756B2 (ja) * 2012-08-08 2018-09-12 ナレッジオンデマンド株式会社 電子マニュアル出力システム及び電子マニュアル出力方法並びに電子マニュアル出力プログラム
JP5977618B2 (ja) * 2012-08-22 2016-08-24 キヤノン株式会社 印刷装置、印刷装置の制御方法及びプログラム
JP6031298B2 (ja) * 2012-08-23 2016-11-24 キヤノン株式会社 画像形成装置、画像形成装置の制御方法及びプログラム
JP6182904B2 (ja) * 2013-02-28 2017-08-23 ブラザー工業株式会社 通信端末装置、通信制御方法及び通信制御プログラム
KR20150069917A (ko) * 2013-12-16 2015-06-24 삼성전자주식회사 화상형성 시스템, 모바일 디바이스의 메신저 애플리케이션을 이용하여 화상형성장치를 제어하는 방법 및 이를 수행하는 모바일 디바이스
JP6900694B2 (ja) * 2017-02-08 2021-07-07 株式会社リコー 情報処理システム、端末装置、情報処理方法およびプログラム
JP7056268B2 (ja) * 2018-03-16 2022-04-19 富士フイルムビジネスイノベーション株式会社 メッセージ提供装置、プログラム、及び表示制御方法
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1104964B1 (en) * 1999-12-02 2005-03-23 Sony International (Europe) GmbH Instant messaging
JPWO2001048615A1 (ja) * 1999-12-27 2004-01-08 富士ゼロックス株式会社 プリンタ装置及び制御方法並びにプリンタ制御プログラムを格納したコンピュータ可読の記憶媒体
US6909518B2 (en) * 2001-06-18 2005-06-21 Hewlett-Packard Development Company, L.P. System and method for configuring a printing system
US6975419B2 (en) * 2001-06-18 2005-12-13 Hewlett-Packard Development Company, L.P. System and method for mobile printing
US20050102362A1 (en) * 2003-11-07 2005-05-12 International Business Machines Corporation Instant messaging messages and commands for status and control
US20050162685A1 (en) * 2004-01-27 2005-07-28 Lainye Heiles Printing using instant message protocol

Also Published As

Publication number Publication date
JP2005202509A (ja) 2005-07-28
US20050168772A1 (en) 2005-08-04

Similar Documents

Publication Publication Date Title
JP4446749B2 (ja) 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム
JP3765798B2 (ja) 文書対応関係検査装置、翻訳処理装置、文書対応関係検査方法、翻訳処理方法、および文書対応関係検査プログラム
US5675815A (en) Language conversion system and text creating system using such
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2004265423A (ja) 文書翻訳方法
JPH0785056A (ja) 辞書作成支援方法
Carl et al. Towards statistical modelling of translators’ activity data
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JPWO2006001392A1 (ja) 文書処理方法および装置
JPH04160473A (ja) 事例再利用型翻訳方法および装置
Hämäläinen et al. An open online dictionary for endangered uralic languages
JP2838984B2 (ja) 汎用参照装置
JPH06348751A (ja) 言語変換装置
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5016333B2 (ja) 文書作成支援装置及び文書作成支援プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JPH0696114A (ja) 機械翻訳システム及び文書編集装置
JP4081109B2 (ja) 機械翻訳装置
JPWO2004107203A1 (ja) 対訳文対応付け装置
JP3964910B2 (ja) 機械翻訳装置
JP2006178682A (ja) 機械翻訳装置、機械翻訳プログラム及びその機械翻訳プログラムを記録したコンピュータ読み取り可能な記録媒体
CN117521677A (zh) 一种基于大语言模型的ai翻译模型选择方法
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JP5763830B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP5337516B2 (ja) 文書処理装置及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees