ところが、索引付き文書の中には、索引の中に類似概念がグループ化された階層構造がある場合があり、このような文書の翻訳を機械翻訳を利用して行う場合には、いくつか問題がある。
まず、翻訳作業の第1段階である訳語付与の段階で本文を先に翻訳すると、同じグループに属する索引語に対する訳語の統一が難しいという問題である。例えば、索引の中に「係数」という語があり、その下位に、「熱膨張係数」、「吸光係数」、「拡散係数」という3語があるとし、それぞれに下記のような訳語候補が下記の順で翻訳用対訳辞書に格納されているとする。さらに、各訳語は意味としてほぼ同義なので、文脈による訳し分け規則もないとする。このような場合、機械翻訳による訳語には、翻訳用対訳辞書の1番目に格納されている語句が用いられる。すなわち、「係数」には"factor"、「熱膨張係数」には"thermal expansion coefficient"、「吸光係数」には"absorption constant"が用いられ、同じ「係数」という原語に対する訳語に統一が取れない。
(機械翻訳用対訳辞書の訳語候補・一例)
「係数」"factor"、"coefficient"
「熱膨張係数」"thermal expansion coefficient"
「吸光係数」 "absorption constant"、"absorption coefficient"、"absorption index"
「拡散係数」"diffusion constant"、"diffusion coefficient"
一方、訳語付与の段階で索引に先に訳語を付与すると、索引中の語句が単独で翻訳されるので、本文中の文脈を考慮した翻訳規則が適用できないという問題がある。例えば、「株」という語には、経済に関する文書中では"stock"という訳語が選択されるが、例えば森林資源に関する文書中であれば"stump"という訳語が選択される。しかし、索引中に文脈なしで存在する「株」という語の翻訳に際しては、これらの知識は適用されない。従って、本文の文脈では不適切な訳語が付与される場合がある。
次に、翻訳作業の第2段階である索引語とページ数との対応付け、索引の並べ替えにおいて、特許文献1に開示された既存の索引を利用して本文から索引を自動生成する方法では、生成した索引を階層構造に従って並べ直す必要があり、手間がかかるという問題がある。
一方、原文の本文中に付与されている索引生成用のマーカーを利用する方法でも、索引に階層構造がある場合には特有の問題が生じる。すなわち、索引に階層構造がある場合、マーカー中に同一グループにおける階層関係を表すリンクが必要となるが、リンク先の語は第1原語で記されているため、これらの語を、逐一、第1言語から第2言語に翻訳する必要があり大変な手間となる。また、どちらの方法でも、第2言語が漢字を含む言語の場合には、ソートのための読み情報を付与する必要がある。
また、階層構造がある索引においては、ある階層に属する語句において、その語の一部が、その上位階層に属する語を意味する記号を使って略記されている場合がある。このような場合、略記号を含んだ語句をそのまま翻訳しても、正しい訳語は得られないという問題がある。
本発明の目的は、上記の問題を解決するためになされたものであり、類似概念がグループ化された階層構造のある索引付き文書の翻訳を効率良く行うことができる機械翻訳装置を提供するものである。
請求項1の発明に係わる機械翻訳装置は、第1言語で記述された原文文書を翻訳用対訳辞書を用いて第2言語に翻訳する機械翻訳装置において、前記原文文書に類似概念がグループ化された階層構造のある索引が付属している場合には前記索引の階層構造を解析する索引構造解析部と、前記索引構造解析部による解析結果である索引のグループ情報と階層情報とを保持する情報格納テーブルと、前記翻訳用対訳辞書から前記索引中の原語語句に対する訳語リストを取得し前記情報格納テーブル内の同一グループの索引ごとに前記訳語リストを単語単位に分割して原語・訳語間で対応付け同一言語に対する異なる訳語の中から最も共通性の高い訳語を選択する訳語順序調整部と、前記訳語順序調整部で選択された訳語を用いて翻訳を行う機械翻訳処理制御部とを備えたことを特徴とする。
請求項2の発明に係わる機械翻訳装置は、請求項1の発明において、前記訳語順序調整部は、最も共通性の高い訳語を、索引中の同一グループに存在する各語句の同一言語に対する同じ訳語の数を用いて決定することを特徴とする。
請求項3の発明に係わる機械翻訳装置は、請求項1の発明において、前記機械翻訳処理制御部は、前記訳語順序調整部での最も共通性の高い訳語の決定に加え、第1言語で記述された原文文書中の索引原語語句の共起情報を用い訳語リストの翻訳を行うことを特徴とする。
請求項4の発明に係わる機械翻訳装置は、請求項1の発明において、前記機械翻訳処理制御部は、前記訳語順序調整部での最も共通性の高い訳語の決定に加え、第1言語で記述された原文文書中の索引原語語句の頻度情報を用い訳語リストの翻訳を行うことを特徴とする
請求項5の発明に係わる機械翻訳装置は、請求項1の発明において、前記機械翻訳処理制御部は、ある階層に属する索引中の語句において、その語の一部がその上位階層に属する語を指す記号を使って略記されている場合には、前記下位階層に属する語句中の前記記号をその上位階層に属する語で置き換えて翻訳を行うことを特徴とする。
請求項6の発明に係わる機械翻訳装置は、請求項1の発明において、原語は同じだが訳語が異なる語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする。
請求項7の発明に係わる機械翻訳装置は、請求項1の発明において、原語は異なるが訳語が同じ語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする。
請求項8の発明に係わる機械翻訳装置は、請求項1の発明において、前記情報格納テーブルに、前記原文文書中における索引中の原語語句の位置情報と、前記原文とその訳文との1文単位での対応関係とを保持しておき、これらの情報を用いて前記原文文書の翻訳結果である訳文文書中における前記索引中の原語に対する訳語が存在するページ数を検索し、前記情報格納テーブルに保持されたグループ情報と階層情報とに基づいて、前記訳語と前記ページ数とのペアを索引の階層別に第2言語の語順で並べ替える訳語索引生成部を備えたことを特徴とする。
請求項1の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、共通性の高い訳語を優先して訳出することができる。
請求項2の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、統一された訳語を優先して訳出することができる。
請求項3および請求項4の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、本文の文脈を配慮した上で、統一された訳語を優先して訳出することができる。
請求項5の発明によれば、ある階層に属す語句の一部が上位階層の語句を意味する記号で略記されていても、未知語とすることなく、その記号を上位階層の語で置き換えて翻訳することができる。
請求項6の発明によれば、機械翻訳による訳文作成や後編集の後で、訳語の不統一が起きていた場合に、該当語句を含む原文訳文が一覧表示され、該当語句が強調表示されるため容易に確認・修正を行うことができる。
請求項7の発明によれば、機械翻訳による訳文作成や後編集の後で、訳語の重複が起きていた場合に、該当語句を含む原文訳文が一覧表示され、該当語句が強調表示されるため容易に確認・修正を行うことができる。
請求項8の発明によれば、索引に階層構造が存在しても、第2言語で記述された第2言語の語順で並べられた索引を容易に作成することができる。第2言語が漢字を含む言語の場合には、並べ替えのための読み情報を機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。
以下、本発明の実施の形態を説明する。図1は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。機械翻訳装置11は、翻訳のための各種演算を行う演算制御装置12と、演算制御装置12の演算結果等を表示する表示装置13と、表示装置13を介して演算制御装置12に各種指令を入力するためのマウス14やキーボード15と、翻訳の対象となる原文のファイルや翻訳後の文章のファイルを記憶媒体に入出力するためのディスクドライブ16と、演算制御装置12の演算結果や翻訳用対訳辞書、さらには翻訳の際に用いる情報格納テーブル等を記憶する補助記憶装置17とから構成される。補助記憶装置17は、例えば複数個のハードディスクドライブHDDで構成される。
演算制御装置12は、プロセッサ18とメモリ19とを有し、メモリ19には機械翻訳のためのプログラム20が記憶され、プロセッサ18により処理が実行される際には作業エリア21を用いて翻訳処理が実行される。
図2は本発明の実施の形態に係わる機械翻訳装置のプログラム20の説明図である。プログラム20は、入力部22、索引構造解析部23、対訳エディタ24、訳語順序調整部25、機械翻訳処理制御部26、情報格納テーブル検索・分析部27、強調表示部28、一覧表示エディタ29、訳語索引生成部30を有している。
入力部22は、キーボード15やディスクドライブ16から入力される文書を読み込むものであり、索引構造解析部23は、入力された索引の階層構造を解析するものである。対訳エディタ24は、第1言語で記述された原文文書と第2言語で記述された翻訳結果とを一覧表示および編集するエディタである。
訳語順序調整部25は、索引中の原語語句に対する訳語リストを取得し、索引のグループ情報と階層情報とを用いて、取得した訳語リストの優先順位の調節を行うものである。機械翻訳処理制御部26は、対訳エディタ24と一覧表示エディタ29とにおける翻訳処理に関する制御を行うものである。
情報格納テーブル検索・分析部27は、索引中の語の位置を原文文書から検索し、訳語の重複・統一に関する分析を行うものである。強調表示部28は、情報格納テーブル検索・分析部27に分析された重複語・不統一語を一覧表示エディタ29上で強調表示するものであり、一覧表示エディタ29は、情報格納テーブル検索・分析部27による解析結果に基づき、対訳エディタに表示された文から、重複語・不統一語を含む文およびその前後の文を抽出して表示するものである。また、訳語索引生成部30は、原文文書中の訳語に対応する訳語が訳文文書中の該当ページ数と対応づけられ、訳語の語順で並べられた索引を生成するものである。
図3は、本発明の実施の形態に係わる機械翻訳装置のプログラム20の各構成要素の働きの説明図である。制御部31は、プロセッサ18により行われるすべての処理を制御するものである。翻訳用対訳辞書32は、第1言語で記された原語と、それに対応する第2言語で記された訳語の対からなる翻訳用対訳辞書である。情報格納テーブル33は、索引中の原語と、索引構造解析部23による解析結果である索引の構造を表す索引構造番号と、対訳エディタ24に読み込まれた原文での索引中原語の位置情報と、原語に対応する訳語等の情報を格納するテーブルである。
入力部22からは、第1言語で記述された原文文書と第1言語で記述された索引とが読み込まれる。索引構造解析部23は、入力された索引の階層構造を解析する。対訳エディタ24は、第1言語で記述された原文文書と第2言語で記述された翻訳結果とを一覧表示および編集できるエディタであり、入力された原文文書が一文単位に分割されて読み込まれ訳文との対応関係が記憶される。
訳語順序調整部25は、第1言語で記された原語と、それに対応する第2言語で記された訳語の対からなる翻訳用対訳辞書32から、索引中の原語語句に対する訳語リストを取得する。続いて、情報格納テーブル33に格納された索引のグループ情報と階層情報を用いて、取得した訳語リストの優先順位の調節を行う。
機械翻訳処理制御部26は、対訳エディタ24と一覧表示エディタ29とにおける翻訳処理に関する制御を行うほか、翻訳用対訳辞書32からの訳語の取得に関する制御も行う。また、翻訳処理の際には翻訳用対訳辞書32のほかに、情報格納テーブル33をも参照する。
情報格納テーブル検索・分析部27は、索引中の語の位置を原文文書から検索し、情報格納テーブル33中に格納された訳語の重複・統一に関する分析を行う。強調表示部28は、情報格納テーブル検索・分析部27に分析された重複語・不統一語を一覧表示エディタ29上で強調表示する。
一覧表示エディタ29は、情報格納テーブル検索・分析部27による解析結果に基づき、対訳エディタに表示された文から、情報格納テーブル33中の語を含む文およびその前後の文を抽出して表示する。訳語索引生成部30は、原文文書中の訳語に対応する訳語が、訳文文書中の該当ページ数と対応づけられ、訳語の語順で並べられた索引を生成する。
図4は、本発明の実施の形態に係わる機械翻訳装置の動作内容を表すフローチャートである。まず、入力部22に索引が入力されると、索引構造解析部23によって索引の階層構造が解析される(S11)。すなわち、索引中の語と索引の階層構造を表す記号(階層構造記号)とが情報格納テーブル33に格納される。次に、訳語順序調整部25によって、翻訳用対訳辞書32から索引中の原語に対する訳語リストを取得し、索引中で同一グループに属する語の訳語の優先順位調整を調整し、情報格納テーブル33に優先された訳語を格納する(S12)。
入力部22から対訳エディタ24に原文が入力されると、情報格納テーブル33に格納された訳語リストおよび翻訳用対訳辞書32を参照して、情報格納テーブル検索・分析部27による索引中の語が検索され、機械翻訳処理制御部26により、原文に対する訳文が生成される。機械翻訳処理、訳文の後編集などによる索引中の語に対する訳語の変更結果は、情報格納テーブル33に反映される(S13)。
情報格納テーブル33の原語に対して、対訳エディタ24上での位置の検索、訳語の重複・統一に関する分析が情報格納テーブル検索・分析部27によって行われ、重複語・不統一語が一覧表示エディタ29上で強調表示される(S14)。そして、翻訳処理の終了後、対訳エディタ24から翻訳済み文書が出力され、情報格納テーブル33の原語に対応する訳語と、翻訳済み文書中のページ数とからなり、訳語の語順で並べられた訳文索引が生成される(S15)。
図5は、図4のステップS11で示した索引構造解析部23による処理の流れを示すフローチャートである。なお、以下の処理によって、デフォルトの階層構造を決めることができるが、ユーザが情報格納テーブル33を編集して、デフォルト内容の変更をすることもできる。
索引構造解析部23は入力部22から索引が入力されると(S21)、索引にある階層構造を表す記号(以下、階層構造記号と記す)とその種類との解析が行われる(S22)。階層構造記号には、例えば、原語文字列の前にあるスペース、タブ、タグで囲まれた文字列、文字列のフォント情報などがあるが、ユーザが指定することもできる。
階層構造記号の解析とは、1つの索引で異なる階層構造記号が使われている場合に、階層構造記号を比較して、どちらが上位の階層かを決める処理である。例えば、階層構造記号として、スペースが用いられている場合、スペースが1つのものは第1階層、2つのものは第2階層と解析される。
ステップS22の解析結果に基づき、語句の前に特定の階層構造記号があるかどうかを判定し(S23)、語句の前に特定の階層構造記号がなければ、その語は第1階層と判定される(ステップS24)。ステップS23で階層構造記号があると判定されると、続いて階層構造記号の種類が判定され階層レベルが決定される(ステップS25)。
そして、直前の語と現在判定中の語との階層が階層構造記号を基に比較される(S26)。直前の語句と現在の語句とが同じ階層であるときは直前の語と同じ先にリンクし(S27)、直前の語句と現在の語句とが同じ階層でないときは1つ上の階層の最新語にリンクする(S28)。次に、現在の語を、それが属する階層の最新語として記憶する(S29)。最後に、リストの最後か否かを判定し(S30)、リストの最後でない場合にはステップS23に戻り、ステップS23〜ステップS29までの処理が繰り返される。
図6は、図4のステップS12で示した訳語順序調整部25による処理の流れを示すフローチャートである。まず、索引が入力される(S31)。索引の階層構造は、図4のステップS11の処理によって解析済みであり、解析結果は図3の情報格納テーブル33に格納されている。
次に、情報格納テーブル33を参照して、同一グループに属する索引語を抽出する(S32)。ここでは簡単のため、一つのグループに対する処理について説明する。同一グループに属する各索引語に対する訳語を翻訳用対訳辞書32から取得する(S33)。これらの各索引語とその訳語は、機械翻訳処理制御部26によって、翻訳用対訳辞書32を参照し、形態素解析などの処理により、単語単位に分割される(S34)。次に、分割された各単語は、原語・訳語間で対応付けられる(S35)。同一グループに属する抽出語の最後か否かを判定し(S36)、最後でない場合には、ステップS33からステップS35までの処理が繰り返される。
そして、同一グループに属するすべての索引語に対して上記の処理が終了したら、同一グループ中で最も共通性の高い単語(訳語)を選出する(S37)。最後に、選出された単語を含む訳語を情報格納テーブル33に出力して、処理は終了となる(S38)。
次に、図7は索引の一例の説明図、図8は訳語順序調整部25で翻訳用対訳辞書32から抽出された訳語リストの説明図、図9は訳語順序調整部25での索引の原語・訳語を単語単位に分解した状態の説明図、図10は訳語順序調整部25での原語・訳語間の対応付けの説明図である。
図7に示すように、索引34の左側に原語、右側に原文文書中のページ数が記されている。「拡散係数」、「吸光係数」、「熱膨張係数」は、「係数」の下位に属しており、これら4語は同じグループに属する。図8は、索引の各原語に対する翻訳用対訳辞書32から取得された訳語リストである。図9は、原語・訳語ともに単語単位に分割した状態を示している。そして、図10では、分割された各単語ごとに原語・訳語間の対応付けを示している。
図10の中で、同一原語に対する異なる訳語の中から最も共通性の高い語は、「係数」="coefficient"となる。即ち、図10から明らかなように、同一原語に対する異なる訳語の中において、訳語として最も数多く出現している語は「係数」="coefficient"である。よって、「係数」="coefficient"を同一原語に対する異なる訳語の中で最も共通性の高い語と判定する。そこで、索引語である「拡散係数」、「吸光係数」、「熱膨張係数」のそれぞれに対する最優先訳語として"diffusioncoefficient"、"absorptioncoefficient"、"thermalexpansion coefficient"が情報格納テーブル33に格納される。一方、「新株」、「旧株」に対しては、「株」に対する2種類の訳語が同数なので、辞書の優先順位に従って、"old stock"、"new stock"が最優先訳語とされる。
図11は、図4のステップS13で示した処理の流れを示すフローチャートである。このステップでは、機械翻訳処理制御部26と情報格納テーブル検索・分析部27とによる処理が行われる。原文文書を対訳エディタ24に入力し、(S41)、原文文書を1文単位に分割する(S42)。このとき、分割された各文には文番号が付与される。次に、情報格納テーブル検索・分析部27によって、対訳エディタ24に読み込まれた原文文書から索引中の語の位置が検索される(S43)。位置が検索されると、原文の文番号と文頭からの単語数などの位置情報が情報格納テーブル33に格納される(S44)。
次に、機械翻訳処理制御部26によって、情報格納テーブル33に格納された最優先訳語に関する情報と翻訳用対訳辞書32とを参照して、原文文書の訳文が生成される(S45)。機械翻訳による訳文生成、またはその後の後編集などで、訳語が変更された場合には、変更内容が情報格納テーブルに反映される(S46)。
機械翻訳による訳文生成が行われる際には、最優先訳語に関する情報が考慮される。従って、図7〜図10で挙げた一例である「拡散係数」、「吸光係数」、「熱膨張係数」という語が原文文書にあったら、それぞれ"diffusion coefficient"、"absorption coefficient"、"thermal expansion coefficient"という統一の取れた訳語を出力する。索引中の「係数」という語句に対しても、その下位に属する語句で使用されている訳語と統一の取れた"coefficient"という訳語が付与される。
一方、図7〜図10で挙げた「新株」、「旧株」という語は、訳文生成の際に最優先訳語に関する情報に加えて、本文中の文脈も考慮される一例である。例えば、本文中に「この物質は、木の新株で育成している菌類から採取された」というような文があった場合、情報格納テーブルに格納された「株」に対する最優先訳語は"stock"であるが、本文中にある「菌類」という語との共起関係を考慮する翻訳知識が働いて、"stump"という訳語が優先される。その結果、「新株」、「旧株」に対しては、"new stump"、"old stump"という訳語が出力される。ここでは、共起情報が関わる場合を例に挙げたが、このほかにも本文中での頻度情報なども訳語決定の判断材料となり得る。
図7〜図10で示した一例では、「拡散係数」等の語の中で「係数」という語は明記されていたが、「拡散〜」「吸光…」「熱膨張−」などと、上位階層の語を示す「〜」「…」「−」などの記号を使って略記される場合もある。このような場合は、「〜」「…」「−」の部分を「係数」で置き換えてから、翻訳用対訳辞書32から訳語リストを抽出する。これによって、「〜係数」が翻訳用対訳辞書32において未知語となり解析不能となる事態を防ぐことができる。
このように、階層構造のある索引中の類似概念を表す同一グループに属する複数の原語語句に対して、翻訳用対訳辞書32中の複数の訳語候補の中から、共通性の高い訳語を優先して訳出することができる。この結果、訳語の統一の取れた訳文を作成することができる。さらに原文本文中の訳語決定の際には、原文本文中の文脈情報を考慮した翻訳知識を活用することができ、この結果、文脈に即した、訳語の統一の取れた訳文を作成することができる。また、索引中で上位階層の語を示す記号を使って、その下位の語の一部が略記されていても、翻訳用対訳辞書から正しい訳語を取得することができる。
図12は、図4のステップS14で示した情報格納テーブル検索・分析部27による情報格納テーブル解析処理の流れを示すフローチャートである。ここでの処理は、翻訳文作成後に訳語の重複・統一に関して確認・修正を行うための処理である。
情報格納テーブル33から翻訳結果が入力されると(S51)、まず、情報格納テーブル33の原語から重複語句を抽出する(S52)。続いて、抽出された原語に対する訳語を比較して、異なる訳語があるかどうかを調べる(S53)。異なる語があれば、抽出した原語を含む原文中の文を一覧表示し該当原語を強調表示する(S54)。これにより、同じ原語を含む原文および訳文が一覧表示されるので、訳語の統一を確認・修正することができる。
一方、ステップS53において異なる語がなければ、情報格納テーブル33の訳語から重複語を抽出する(S55)。抽出された訳語の原語を比較して、異なる語があるかどうかを調べ(S56)、異なる語があれば、抽出した訳語を含む原文中の文を一覧表示し、原文中の異なる語を強調表示する(S57)。これにより、同じ原語を含む原文および訳文が一覧表示されるので、訳語の統一を確認・修正することができる。
このように、同じ原語に対して異なる訳語、例えば、"converter"に対して「コンバーター」や「コンバータ」というふうに、後編集などにより表記が不統一になっていても、これらの語を含む原文・訳文が一覧表示されるので、容易に訳語の統一を行うことができる。また、異なる原語に対して同じ訳語、例えば、"vertigo(回転性めまい)"、"dizziness(非回転性めまい)" に対して、同じ「めまい」という訳語が付与されていたら、やはり、これらの語を含む原文と訳文が一覧表示されるので、文脈を考慮した訳し分けが容易に行える。
図13〜図16は、情報格納テーブル解析処理の結果である強調表示の一例を示した図であり、図13は翻訳後の索引の一例の説明図、図14は対訳エディタ24による対訳の対訳エディタ画面の説明図、図15は情報格納テーブル33の索引に関する情報内容の説明図、図16は一覧表示エディタ29により表示された一覧表示エディタ画面の説明図である。
いま、翻訳後の索引が図13に示すように翻訳され、そのときの対訳の対訳エディタ画面35が図14に示すように表示されたとする。この場合の情報格納テーブル33における索引に関する情報内容は図15に示すものであるとする。図15に示すように、"converter"の索引情報については情報格納テーブル33の1行目と2行目に記述されている。1行目においては、その索引構造番号は「1」、その本文中での位置情報は1番目の文章の2番目の語(1,2)、訳語は「コンバーター」、読みは「こんばーたー」、該当原文頁は「1」と記述され、2行目においては、その索引構造番号は「1」、その本文中での位置情報は100番目の文章の2番目の語(100,2)、訳語は「コンバータ」、読みは「こんばーた」、該当原文頁は「−」と記述されている。
また、"dizziness(非回転性めまい)" については、その索引構造番号は「10」、その本文中での位置情報は35番目の文章の1番目の語(35,1)、訳語は「めまい」、読みは「めまい」、該当原文頁は「20」と記述され、"vertigo(回転性めまい)"については、その索引構造番号は「86」、その本文中での位置情報は15番目の文章の1番目の語(15,1)、訳語は「めまい」、読みは「めまい」、該当原文頁は「7」と記述されている。
このように、原語が同じだが訳語が不統一な語、および原語は異なるが訳語が同じ語に対して、これらの語を含む原文および訳文が一覧表示エディタ29により、図16に示すように一覧表示エディタ画面36上で一覧表示されている。これによって、複数の文脈を比較考慮しながら、訳語の統一・重複の解除を行うことができる。なお、該当語句は強調表示されているので一目でその語句を確認することができる。
このように、機械翻訳による訳文作成や後編集の後で、訳語の不統一や原語が異なる語の訳語の重複が起きていた場合に、強調表示により容易にそれに気づくことができ、重複語・不統一語を含む原文および訳文を一覧表示できる。これにより、訳語の統一および文脈に即した適切な訳語の案出が容易になる。
図17は、図4のステップS15で示した訳語索引生成部30での索引生成処理の流れを示すフローチャートである。いま、図4の各ステップを通して情報格納テーブル33の作成および翻訳処理は終了し、対訳エディタ24から訳文文書が生成されているものとする。
図17において、初めに、情報格納テーブル33から索引中の原語を含む原文の文番号と、索引中の原語に対応する訳語とを抽出する(S61)。そして、抽出されたデータに対して、抽出された文番号の訳文を対訳エディタ24上で検索する(S62)。次に、翻訳済み文書から、検索された訳文のあるページ数を取得し(S63)、情報格納テーブル33から抽出された訳語と、検索された訳文中のページ数とを対応付ける(S64)。
抽出データは最後かどうかを判定し(S65)、最後の抽出データでない場合にはステップS62に戻り、S62からS65までの処理を繰り返す。抽出データが最後であるときには、抽出されたすべてのデータに対して処理が終了したと判断し、訳語と訳文中のページ数とからなる索引データを生成し(S66)、索引データを訳語の語順で並べ替える(S67)。例えば、訳語が漢字を含む場合には、情報格納テーブル33中の読みデータの順で並べ替えを行う。索引データの並べ替えの際に、索引の階層構造が反映された情報格納テーブル33中の索引構造番号を利用して、階層単位で並べ替えを行うことができる。
このように、第2言語で記述された索引を容易に作成することができ、索引に階層構造が存在しても、第2言語の語順に基づいて階層単位でソートすることができる。また、第2言語が日本語の場合には、ソートのための読み情報を、機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。
以上述べたように、本発明の実施の形態によれば、類似概念がグループ化された階層構造がある索引を持った文書を翻訳するにおいて、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から本文の文脈を配慮した上で、統一された訳語を優先して訳出することができる。また、ある階層に属す語句の一部が、上位階層の語句を意味する記号で略記されていても、未知語とすることなく、その記号を上位階層の語で置き換えて翻訳することができる。さらに、索引中の原語に、対応する訳語を関連づけた情報格納テーブルを作成し、その情報格納テーブル中の訳語を比較して、訳語の統一・重複に関する分析を行うことで、訳語の不統一や重複を検知し警告することができる。検知された不統一・重複語を含む原文および訳文は一覧表示されるので、訳語の不統一や重複の修正も容易に行うことができる。
また、索引中の語の原文文書における位置情報と、訳文の対応関係を保持することによって、索引中の語に対する訳語と、訳文文書におけるページ数を割り出すことができる。また、索引の階層構造の解析情報を保持することによって、訳語で記述された索引を階層別に訳語の語順で並べ替えることができる。これらによって、翻訳の終了後、訳語で記述された索引を自動的に作成することができる。第2言語が日本語の場合には、ソートのための読み情報を、機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。
11…機械翻訳装置、12…演算制御装置、13…表示装置、14…マウス、15…キーボード、16…ディスクドライブ、17…補助記憶装置、18…プロセッサ、19…メモリ、20…プログラム、21…作業エリア、22…入力部、23…索引構造解析部、24…対訳エディタ、25…訳語順序調整部、26…機械翻訳処理制御部、27…情報格納テーブル検索・分析部、28…強調表示部、29…一覧表示エディタ、30…訳語索引生成部、31…制御部、32…翻訳用対訳辞書、33…情報格納テーブル、34…索引、35…対訳エディタ画面、36…一覧表示エディタ画面