JP4081109B2

JP4081109B2 - 機械翻訳装置

Info

Publication number: JP4081109B2
Application number: JP2005265622A
Authority: JP
Inventors: 晶佐々木; 悦雄伊藤
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2005-09-13
Filing date: 2005-09-13
Publication date: 2008-04-23
Anticipated expiration: 2025-09-13
Also published as: JP2007079825A

Description

本発明は、第１言語で記述された原文文書を第２言語に翻訳する機械翻訳装置に関する。

機械翻訳装置は、第１言語で記述された文書を第２言語に翻訳する装置である。翻訳にあたって、第１言語で記述された原語と、第２言語で記述された訳語との対訳である翻訳用の対訳辞書を参照し、文脈に即して適切な訳を選択する訳し分け知識を用いる。辞書や訳し分け知識の充実は年々高まってきており、特に、迅速・大量な文書の翻訳において機械翻訳は普及しつつある。

機械翻訳による翻訳対象文書の中には索引がある文書もあり、このような場合、一般に次の２段階の作業が必要となる。第１段階は、第１言語で記述された原文文書の本文および索引に対する第２言語(訳語)の付与、第２段階は、索引中の語句と翻訳済み本文中の該当ページ数との対応付け、および翻訳済み索引の第２言語の語順での並べ替えである。

第１段階の訳語付与作業は、一般に本文と索引とに対して独立に行われており、本文の翻訳を先に行う場合と、索引の訳語を先に決定する場合の二つの場合がある。第２段階である本文該当ページ数との対応付けや索引語の並べ替えは、作業をすべて手動で行う場合もあるが、膨大な手間がかかるので、第２言語に翻訳済みの原文の索引語リストを参照して、本文文書から索引を自動生成し、作業の一部を自動化する方法が考えられる。この方法では、索引候補辞書へ単語登録された語句を元に索引を自動生成する方法（例えば特許文献１参照）を利用することができる。また、原文本文中にあらかじめ索引生成用のマーカーが付けられている場合もあり、このような場合には、原文文書の翻訳結果から、索引を自動生成することができる。
特開平９−１９０４４９号公報

ところが、索引付き文書の中には、索引の中に類似概念がグループ化された階層構造がある場合があり、このような文書の翻訳を機械翻訳を利用して行う場合には、いくつか問題がある。

まず、翻訳作業の第１段階である訳語付与の段階で本文を先に翻訳すると、同じグループに属する索引語に対する訳語の統一が難しいという問題である。例えば、索引の中に「係数」という語があり、その下位に、「熱膨張係数」、「吸光係数」、「拡散係数」という３語があるとし、それぞれに下記のような訳語候補が下記の順で翻訳用対訳辞書に格納されているとする。さらに、各訳語は意味としてほぼ同義なので、文脈による訳し分け規則もないとする。このような場合、機械翻訳による訳語には、翻訳用対訳辞書の１番目に格納されている語句が用いられる。すなわち、「係数」には"factor"、「熱膨張係数」には"thermal expansion coefficient"、「吸光係数」には"absorption constant"が用いられ、同じ「係数」という原語に対する訳語に統一が取れない。

(機械翻訳用対訳辞書の訳語候補・一例)
「係数」"factor"、"coefficient"
「熱膨張係数」"thermal expansion coefficient"
「吸光係数」 "absorption constant"、"absorption coefficient"、"absorption index"
「拡散係数」"diffusion constant"、"diffusion coefficient"
一方、訳語付与の段階で索引に先に訳語を付与すると、索引中の語句が単独で翻訳されるので、本文中の文脈を考慮した翻訳規則が適用できないという問題がある。例えば、「株」という語には、経済に関する文書中では"stock"という訳語が選択されるが、例えば森林資源に関する文書中であれば"stump"という訳語が選択される。しかし、索引中に文脈なしで存在する「株」という語の翻訳に際しては、これらの知識は適用されない。従って、本文の文脈では不適切な訳語が付与される場合がある。

次に、翻訳作業の第２段階である索引語とページ数との対応付け、索引の並べ替えにおいて、特許文献１に開示された既存の索引を利用して本文から索引を自動生成する方法では、生成した索引を階層構造に従って並べ直す必要があり、手間がかかるという問題がある。

一方、原文の本文中に付与されている索引生成用のマーカーを利用する方法でも、索引に階層構造がある場合には特有の問題が生じる。すなわち、索引に階層構造がある場合、マーカー中に同一グループにおける階層関係を表すリンクが必要となるが、リンク先の語は第１原語で記されているため、これらの語を、逐一、第１言語から第２言語に翻訳する必要があり大変な手間となる。また、どちらの方法でも、第２言語が漢字を含む言語の場合には、ソートのための読み情報を付与する必要がある。

また、階層構造がある索引においては、ある階層に属する語句において、その語の一部が、その上位階層に属する語を意味する記号を使って略記されている場合がある。このような場合、略記号を含んだ語句をそのまま翻訳しても、正しい訳語は得られないという問題がある。

本発明の目的は、上記の問題を解決するためになされたものであり、類似概念がグループ化された階層構造のある索引付き文書の翻訳を効率良く行うことができる機械翻訳装置を提供するものである。

請求項１の発明に係わる機械翻訳装置は、第１言語で記述された原文文書を翻訳用対訳辞書を用いて第２言語に翻訳する機械翻訳装置において、前記原文文書に類似概念がグループ化された階層構造のある索引が付属している場合には前記索引の階層構造を解析する索引構造解析部と、前記索引構造解析部による解析結果である索引のグループ情報と階層情報とを保持する情報格納テーブルと、前記翻訳用対訳辞書から前記索引中の原語語句に対する訳語リストを取得し前記情報格納テーブル内の同一グループの索引ごとに前記訳語リストを単語単位に分割して原語・訳語間で対応付け同一言語に対する異なる訳語の中から最も共通性の高い訳語を選択する訳語順序調整部と、前記訳語順序調整部で選択された訳語を用いて翻訳を行う機械翻訳処理制御部とを備えたことを特徴とする。

請求項２の発明に係わる機械翻訳装置は、請求項１の発明において、前記訳語順序調整部は、最も共通性の高い訳語を、索引中の同一グループに存在する各語句の同一言語に対する同じ訳語の数を用いて決定することを特徴とする。

請求項３の発明に係わる機械翻訳装置は、請求項１の発明において、前記機械翻訳処理制御部は、前記訳語順序調整部での最も共通性の高い訳語の決定に加え、第１言語で記述された原文文書中の索引原語語句の共起情報を用い訳語リストの翻訳を行うことを特徴とする。

請求項４の発明に係わる機械翻訳装置は、請求項１の発明において、前記機械翻訳処理制御部は、前記訳語順序調整部での最も共通性の高い訳語の決定に加え、第１言語で記述された原文文書中の索引原語語句の頻度情報を用い訳語リストの翻訳を行うことを特徴とする

請求項５の発明に係わる機械翻訳装置は、請求項１の発明において、前記機械翻訳処理制御部は、ある階層に属する索引中の語句において、その語の一部がその上位階層に属する語を指す記号を使って略記されている場合には、前記下位階層に属する語句中の前記記号をその上位階層に属する語で置き換えて翻訳を行うことを特徴とする。

請求項６の発明に係わる機械翻訳装置は、請求項１の発明において、原語は同じだが訳語が異なる語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする。

請求項７の発明に係わる機械翻訳装置は、請求項１の発明において、原語は異なるが訳語が同じ語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする。

請求項８の発明に係わる機械翻訳装置は、請求項１の発明において、前記情報格納テーブルに、前記原文文書中における索引中の原語語句の位置情報と、前記原文とその訳文との１文単位での対応関係とを保持しておき、これらの情報を用いて前記原文文書の翻訳結果である訳文文書中における前記索引中の原語に対する訳語が存在するページ数を検索し、前記情報格納テーブルに保持されたグループ情報と階層情報とに基づいて、前記訳語と前記ページ数とのペアを索引の階層別に第２言語の語順で並べ替える訳語索引生成部を備えたことを特徴とする。

請求項１の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、共通性の高い訳語を優先して訳出することができる。

請求項２の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、統一された訳語を優先して訳出することができる。

請求項３および請求項４の発明によれば、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から、本文の文脈を配慮した上で、統一された訳語を優先して訳出することができる。

請求項５の発明によれば、ある階層に属す語句の一部が上位階層の語句を意味する記号で略記されていても、未知語とすることなく、その記号を上位階層の語で置き換えて翻訳することができる。

請求項６の発明によれば、機械翻訳による訳文作成や後編集の後で、訳語の不統一が起きていた場合に、該当語句を含む原文訳文が一覧表示され、該当語句が強調表示されるため容易に確認・修正を行うことができる。

請求項７の発明によれば、機械翻訳による訳文作成や後編集の後で、訳語の重複が起きていた場合に、該当語句を含む原文訳文が一覧表示され、該当語句が強調表示されるため容易に確認・修正を行うことができる。

請求項８の発明によれば、索引に階層構造が存在しても、第２言語で記述された第２言語の語順で並べられた索引を容易に作成することができる。第２言語が漢字を含む言語の場合には、並べ替えのための読み情報を機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。

以下、本発明の実施の形態を説明する。図１は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。機械翻訳装置１１は、翻訳のための各種演算を行う演算制御装置１２と、演算制御装置１２の演算結果等を表示する表示装置１３と、表示装置１３を介して演算制御装置１２に各種指令を入力するためのマウス１４やキーボード１５と、翻訳の対象となる原文のファイルや翻訳後の文章のファイルを記憶媒体に入出力するためのディスクドライブ１６と、演算制御装置１２の演算結果や翻訳用対訳辞書、さらには翻訳の際に用いる情報格納テーブル等を記憶する補助記憶装置１７とから構成される。補助記憶装置１７は、例えば複数個のハードディスクドライブＨＤＤで構成される。

演算制御装置１２は、プロセッサ１８とメモリ１９とを有し、メモリ１９には機械翻訳のためのプログラム２０が記憶され、プロセッサ１８により処理が実行される際には作業エリア２１を用いて翻訳処理が実行される。

図２は本発明の実施の形態に係わる機械翻訳装置のプログラム２０の説明図である。プログラム２０は、入力部２２、索引構造解析部２３、対訳エディタ２４、訳語順序調整部２５、機械翻訳処理制御部２６、情報格納テーブル検索・分析部２７、強調表示部２８、一覧表示エディタ２９、訳語索引生成部３０を有している。

入力部２２は、キーボード１５やディスクドライブ１６から入力される文書を読み込むものであり、索引構造解析部２３は、入力された索引の階層構造を解析するものである。対訳エディタ２４は、第１言語で記述された原文文書と第２言語で記述された翻訳結果とを一覧表示および編集するエディタである。

訳語順序調整部２５は、索引中の原語語句に対する訳語リストを取得し、索引のグループ情報と階層情報とを用いて、取得した訳語リストの優先順位の調節を行うものである。機械翻訳処理制御部２６は、対訳エディタ２４と一覧表示エディタ２９とにおける翻訳処理に関する制御を行うものである。

情報格納テーブル検索・分析部２７は、索引中の語の位置を原文文書から検索し、訳語の重複・統一に関する分析を行うものである。強調表示部２８は、情報格納テーブル検索・分析部２７に分析された重複語・不統一語を一覧表示エディタ２９上で強調表示するものであり、一覧表示エディタ２９は、情報格納テーブル検索・分析部２７による解析結果に基づき、対訳エディタに表示された文から、重複語・不統一語を含む文およびその前後の文を抽出して表示するものである。また、訳語索引生成部３０は、原文文書中の訳語に対応する訳語が訳文文書中の該当ページ数と対応づけられ、訳語の語順で並べられた索引を生成するものである。

図３は、本発明の実施の形態に係わる機械翻訳装置のプログラム２０の各構成要素の働きの説明図である。制御部３１は、プロセッサ１８により行われるすべての処理を制御するものである。翻訳用対訳辞書３２は、第１言語で記された原語と、それに対応する第２言語で記された訳語の対からなる翻訳用対訳辞書である。情報格納テーブル３３は、索引中の原語と、索引構造解析部２３による解析結果である索引の構造を表す索引構造番号と、対訳エディタ２４に読み込まれた原文での索引中原語の位置情報と、原語に対応する訳語等の情報を格納するテーブルである。

入力部２２からは、第１言語で記述された原文文書と第１言語で記述された索引とが読み込まれる。索引構造解析部２３は、入力された索引の階層構造を解析する。対訳エディタ２４は、第１言語で記述された原文文書と第２言語で記述された翻訳結果とを一覧表示および編集できるエディタであり、入力された原文文書が一文単位に分割されて読み込まれ訳文との対応関係が記憶される。

訳語順序調整部２５は、第１言語で記された原語と、それに対応する第２言語で記された訳語の対からなる翻訳用対訳辞書３２から、索引中の原語語句に対する訳語リストを取得する。続いて、情報格納テーブル３３に格納された索引のグループ情報と階層情報を用いて、取得した訳語リストの優先順位の調節を行う。

機械翻訳処理制御部２６は、対訳エディタ２４と一覧表示エディタ２９とにおける翻訳処理に関する制御を行うほか、翻訳用対訳辞書３２からの訳語の取得に関する制御も行う。また、翻訳処理の際には翻訳用対訳辞書３２のほかに、情報格納テーブル３３をも参照する。

情報格納テーブル検索・分析部２７は、索引中の語の位置を原文文書から検索し、情報格納テーブル３３中に格納された訳語の重複・統一に関する分析を行う。強調表示部２８は、情報格納テーブル検索・分析部２７に分析された重複語・不統一語を一覧表示エディタ２９上で強調表示する。

一覧表示エディタ２９は、情報格納テーブル検索・分析部２７による解析結果に基づき、対訳エディタに表示された文から、情報格納テーブル３３中の語を含む文およびその前後の文を抽出して表示する。訳語索引生成部３０は、原文文書中の訳語に対応する訳語が、訳文文書中の該当ページ数と対応づけられ、訳語の語順で並べられた索引を生成する。

図４は、本発明の実施の形態に係わる機械翻訳装置の動作内容を表すフローチャートである。まず、入力部２２に索引が入力されると、索引構造解析部２３によって索引の階層構造が解析される（Ｓ１１）。すなわち、索引中の語と索引の階層構造を表す記号（階層構造記号）とが情報格納テーブル３３に格納される。次に、訳語順序調整部２５によって、翻訳用対訳辞書３２から索引中の原語に対する訳語リストを取得し、索引中で同一グループに属する語の訳語の優先順位調整を調整し、情報格納テーブル３３に優先された訳語を格納する（Ｓ１２）。

入力部２２から対訳エディタ２４に原文が入力されると、情報格納テーブル３３に格納された訳語リストおよび翻訳用対訳辞書３２を参照して、情報格納テーブル検索・分析部２７による索引中の語が検索され、機械翻訳処理制御部２６により、原文に対する訳文が生成される。機械翻訳処理、訳文の後編集などによる索引中の語に対する訳語の変更結果は、情報格納テーブル３３に反映される（Ｓ１３）。

情報格納テーブル３３の原語に対して、対訳エディタ２４上での位置の検索、訳語の重複・統一に関する分析が情報格納テーブル検索・分析部２７によって行われ、重複語・不統一語が一覧表示エディタ２９上で強調表示される（Ｓ１４）。そして、翻訳処理の終了後、対訳エディタ２４から翻訳済み文書が出力され、情報格納テーブル３３の原語に対応する訳語と、翻訳済み文書中のページ数とからなり、訳語の語順で並べられた訳文索引が生成される（Ｓ１５）。

図５は、図４のステップＳ１１で示した索引構造解析部２３による処理の流れを示すフローチャートである。なお、以下の処理によって、デフォルトの階層構造を決めることができるが、ユーザが情報格納テーブル３３を編集して、デフォルト内容の変更をすることもできる。

索引構造解析部２３は入力部２２から索引が入力されると（Ｓ２１）、索引にある階層構造を表す記号（以下、階層構造記号と記す）とその種類との解析が行われる（Ｓ２２）。階層構造記号には、例えば、原語文字列の前にあるスペース、タブ、タグで囲まれた文字列、文字列のフォント情報などがあるが、ユーザが指定することもできる。

階層構造記号の解析とは、１つの索引で異なる階層構造記号が使われている場合に、階層構造記号を比較して、どちらが上位の階層かを決める処理である。例えば、階層構造記号として、スペースが用いられている場合、スペースが１つのものは第１階層、２つのものは第２階層と解析される。

ステップＳ２２の解析結果に基づき、語句の前に特定の階層構造記号があるかどうかを判定し（Ｓ２３）、語句の前に特定の階層構造記号がなければ、その語は第１階層と判定される（ステップＳ２４）。ステップＳ２３で階層構造記号があると判定されると、続いて階層構造記号の種類が判定され階層レベルが決定される（ステップＳ２５）。

そして、直前の語と現在判定中の語との階層が階層構造記号を基に比較される（Ｓ２６）。直前の語句と現在の語句とが同じ階層であるときは直前の語と同じ先にリンクし（Ｓ２７）、直前の語句と現在の語句とが同じ階層でないときは１つ上の階層の最新語にリンクする（Ｓ２８）。次に、現在の語を、それが属する階層の最新語として記憶する（Ｓ２９）。最後に、リストの最後か否かを判定し（Ｓ３０）、リストの最後でない場合にはステップＳ２３に戻り、ステップＳ２３〜ステップＳ２９までの処理が繰り返される。

図６は、図４のステップＳ１２で示した訳語順序調整部２５による処理の流れを示すフローチャートである。まず、索引が入力される（Ｓ３１）。索引の階層構造は、図４のステップＳ１１の処理によって解析済みであり、解析結果は図３の情報格納テーブル３３に格納されている。

次に、情報格納テーブル３３を参照して、同一グループに属する索引語を抽出する（Ｓ３２）。ここでは簡単のため、一つのグループに対する処理について説明する。同一グループに属する各索引語に対する訳語を翻訳用対訳辞書３２から取得する（Ｓ３３）。これらの各索引語とその訳語は、機械翻訳処理制御部２６によって、翻訳用対訳辞書３２を参照し、形態素解析などの処理により、単語単位に分割される（Ｓ３４）。次に、分割された各単語は、原語・訳語間で対応付けられる（Ｓ３５）。同一グループに属する抽出語の最後か否かを判定し（Ｓ３６）、最後でない場合には、ステップＳ３３からステップＳ３５までの処理が繰り返される。

そして、同一グループに属するすべての索引語に対して上記の処理が終了したら、同一グループ中で最も共通性の高い単語(訳語)を選出する（Ｓ３７）。最後に、選出された単語を含む訳語を情報格納テーブル３３に出力して、処理は終了となる（Ｓ３８）。

次に、図７は索引の一例の説明図、図８は訳語順序調整部２５で翻訳用対訳辞書３２から抽出された訳語リストの説明図、図９は訳語順序調整部２５での索引の原語・訳語を単語単位に分解した状態の説明図、図１０は訳語順序調整部２５での原語・訳語間の対応付けの説明図である。

図７に示すように、索引３４の左側に原語、右側に原文文書中のページ数が記されている。「拡散係数」、「吸光係数」、「熱膨張係数」は、「係数」の下位に属しており、これら４語は同じグループに属する。図８は、索引の各原語に対する翻訳用対訳辞書３２から取得された訳語リストである。図９は、原語・訳語ともに単語単位に分割した状態を示している。そして、図１０では、分割された各単語ごとに原語・訳語間の対応付けを示している。

図１０の中で、同一原語に対する異なる訳語の中から最も共通性の高い語は、「係数」＝"coefficient"となる。即ち、図１０から明らかなように、同一原語に対する異なる訳語の中において、訳語として最も数多く出現している語は「係数」＝"coefficient"である。よって、「係数」＝"coefficient"を同一原語に対する異なる訳語の中で最も共通性の高い語と判定する。そこで、索引語である「拡散係数」、「吸光係数」、「熱膨張係数」のそれぞれに対する最優先訳語として"diffusioncoefficient"、"absorptioncoefficient"、"thermalexpansion coefficient"が情報格納テーブル３３に格納される。一方、「新株」、「旧株」に対しては、「株」に対する２種類の訳語が同数なので、辞書の優先順位に従って、"old stock"、"new stock"が最優先訳語とされる。

図１１は、図４のステップＳ１３で示した処理の流れを示すフローチャートである。このステップでは、機械翻訳処理制御部２６と情報格納テーブル検索・分析部２７とによる処理が行われる。原文文書を対訳エディタ２４に入力し、（Ｓ４１）、原文文書を１文単位に分割する（Ｓ４２）。このとき、分割された各文には文番号が付与される。次に、情報格納テーブル検索・分析部２７によって、対訳エディタ２４に読み込まれた原文文書から索引中の語の位置が検索される（Ｓ４３）。位置が検索されると、原文の文番号と文頭からの単語数などの位置情報が情報格納テーブル３３に格納される（Ｓ４４）。

次に、機械翻訳処理制御部２６によって、情報格納テーブル３３に格納された最優先訳語に関する情報と翻訳用対訳辞書３２とを参照して、原文文書の訳文が生成される（Ｓ４５）。機械翻訳による訳文生成、またはその後の後編集などで、訳語が変更された場合には、変更内容が情報格納テーブルに反映される（Ｓ４６）。

機械翻訳による訳文生成が行われる際には、最優先訳語に関する情報が考慮される。従って、図７〜図１０で挙げた一例である「拡散係数」、「吸光係数」、「熱膨張係数」という語が原文文書にあったら、それぞれ"diffusion coefficient"、"absorption coefficient"、"thermal expansion coefficient"という統一の取れた訳語を出力する。索引中の「係数」という語句に対しても、その下位に属する語句で使用されている訳語と統一の取れた"coefficient"という訳語が付与される。

一方、図７〜図１０で挙げた「新株」、「旧株」という語は、訳文生成の際に最優先訳語に関する情報に加えて、本文中の文脈も考慮される一例である。例えば、本文中に「この物質は、木の新株で育成している菌類から採取された」というような文があった場合、情報格納テーブルに格納された「株」に対する最優先訳語は"stock"であるが、本文中にある「菌類」という語との共起関係を考慮する翻訳知識が働いて、"stump"という訳語が優先される。その結果、「新株」、「旧株」に対しては、"new stump"、"old stump"という訳語が出力される。ここでは、共起情報が関わる場合を例に挙げたが、このほかにも本文中での頻度情報なども訳語決定の判断材料となり得る。

図７〜図１０で示した一例では、「拡散係数」等の語の中で「係数」という語は明記されていたが、「拡散〜」「吸光…」「熱膨張−」などと、上位階層の語を示す「〜」「…」「−」などの記号を使って略記される場合もある。このような場合は、「〜」「…」「−」の部分を「係数」で置き換えてから、翻訳用対訳辞書３２から訳語リストを抽出する。これによって、「〜係数」が翻訳用対訳辞書３２において未知語となり解析不能となる事態を防ぐことができる。

このように、階層構造のある索引中の類似概念を表す同一グループに属する複数の原語語句に対して、翻訳用対訳辞書３２中の複数の訳語候補の中から、共通性の高い訳語を優先して訳出することができる。この結果、訳語の統一の取れた訳文を作成することができる。さらに原文本文中の訳語決定の際には、原文本文中の文脈情報を考慮した翻訳知識を活用することができ、この結果、文脈に即した、訳語の統一の取れた訳文を作成することができる。また、索引中で上位階層の語を示す記号を使って、その下位の語の一部が略記されていても、翻訳用対訳辞書から正しい訳語を取得することができる。

図１２は、図４のステップＳ１４で示した情報格納テーブル検索・分析部２７による情報格納テーブル解析処理の流れを示すフローチャートである。ここでの処理は、翻訳文作成後に訳語の重複・統一に関して確認・修正を行うための処理である。

情報格納テーブル３３から翻訳結果が入力されると（Ｓ５１）、まず、情報格納テーブル３３の原語から重複語句を抽出する（Ｓ５２）。続いて、抽出された原語に対する訳語を比較して、異なる訳語があるかどうかを調べる（Ｓ５３）。異なる語があれば、抽出した原語を含む原文中の文を一覧表示し該当原語を強調表示する（Ｓ５４）。これにより、同じ原語を含む原文および訳文が一覧表示されるので、訳語の統一を確認・修正することができる。

一方、ステップＳ５３において異なる語がなければ、情報格納テーブル３３の訳語から重複語を抽出する（Ｓ５５）。抽出された訳語の原語を比較して、異なる語があるかどうかを調べ（Ｓ５６）、異なる語があれば、抽出した訳語を含む原文中の文を一覧表示し、原文中の異なる語を強調表示する（Ｓ５７）。これにより、同じ原語を含む原文および訳文が一覧表示されるので、訳語の統一を確認・修正することができる。

このように、同じ原語に対して異なる訳語、例えば、"converter"に対して「コンバーター」や「コンバータ」というふうに、後編集などにより表記が不統一になっていても、これらの語を含む原文・訳文が一覧表示されるので、容易に訳語の統一を行うことができる。また、異なる原語に対して同じ訳語、例えば、"vertigo（回転性めまい）"、"dizziness（非回転性めまい）" に対して、同じ「めまい」という訳語が付与されていたら、やはり、これらの語を含む原文と訳文が一覧表示されるので、文脈を考慮した訳し分けが容易に行える。

図１３〜図１６は、情報格納テーブル解析処理の結果である強調表示の一例を示した図であり、図１３は翻訳後の索引の一例の説明図、図１４は対訳エディタ２４による対訳の対訳エディタ画面の説明図、図１５は情報格納テーブル３３の索引に関する情報内容の説明図、図１６は一覧表示エディタ２９により表示された一覧表示エディタ画面の説明図である。

いま、翻訳後の索引が図１３に示すように翻訳され、そのときの対訳の対訳エディタ画面３５が図１４に示すように表示されたとする。この場合の情報格納テーブル３３における索引に関する情報内容は図１５に示すものであるとする。図１５に示すように、"converter"の索引情報については情報格納テーブル３３の１行目と２行目に記述されている。１行目においては、その索引構造番号は「１」、その本文中での位置情報は１番目の文章の２番目の語（１，２）、訳語は「コンバーター」、読みは「こんばーたー」、該当原文頁は「１」と記述され、２行目においては、その索引構造番号は「１」、その本文中での位置情報は１００番目の文章の２番目の語（１００，２）、訳語は「コンバータ」、読みは「こんばーた」、該当原文頁は「−」と記述されている。

また、"dizziness（非回転性めまい）" については、その索引構造番号は「１０」、その本文中での位置情報は３５番目の文章の１番目の語（３５，１）、訳語は「めまい」、読みは「めまい」、該当原文頁は「２０」と記述され、"vertigo（回転性めまい）"については、その索引構造番号は「８６」、その本文中での位置情報は１５番目の文章の１番目の語（１５，１）、訳語は「めまい」、読みは「めまい」、該当原文頁は「７」と記述されている。

このように、原語が同じだが訳語が不統一な語、および原語は異なるが訳語が同じ語に対して、これらの語を含む原文および訳文が一覧表示エディタ２９により、図１６に示すように一覧表示エディタ画面３６上で一覧表示されている。これによって、複数の文脈を比較考慮しながら、訳語の統一・重複の解除を行うことができる。なお、該当語句は強調表示されているので一目でその語句を確認することができる。

このように、機械翻訳による訳文作成や後編集の後で、訳語の不統一や原語が異なる語の訳語の重複が起きていた場合に、強調表示により容易にそれに気づくことができ、重複語・不統一語を含む原文および訳文を一覧表示できる。これにより、訳語の統一および文脈に即した適切な訳語の案出が容易になる。

図１７は、図４のステップＳ１５で示した訳語索引生成部３０での索引生成処理の流れを示すフローチャートである。いま、図４の各ステップを通して情報格納テーブル３３の作成および翻訳処理は終了し、対訳エディタ２４から訳文文書が生成されているものとする。

図１７において、初めに、情報格納テーブル３３から索引中の原語を含む原文の文番号と、索引中の原語に対応する訳語とを抽出する（Ｓ６１）。そして、抽出されたデータに対して、抽出された文番号の訳文を対訳エディタ２４上で検索する（Ｓ６２）。次に、翻訳済み文書から、検索された訳文のあるページ数を取得し（Ｓ６３）、情報格納テーブル３３から抽出された訳語と、検索された訳文中のページ数とを対応付ける（Ｓ６４）。

抽出データは最後かどうかを判定し（Ｓ６５）、最後の抽出データでない場合にはステップＳ６２に戻り、Ｓ６２からＳ６５までの処理を繰り返す。抽出データが最後であるときには、抽出されたすべてのデータに対して処理が終了したと判断し、訳語と訳文中のページ数とからなる索引データを生成し（Ｓ６６）、索引データを訳語の語順で並べ替える（Ｓ６７）。例えば、訳語が漢字を含む場合には、情報格納テーブル３３中の読みデータの順で並べ替えを行う。索引データの並べ替えの際に、索引の階層構造が反映された情報格納テーブル３３中の索引構造番号を利用して、階層単位で並べ替えを行うことができる。

このように、第２言語で記述された索引を容易に作成することができ、索引に階層構造が存在しても、第２言語の語順に基づいて階層単位でソートすることができる。また、第２言語が日本語の場合には、ソートのための読み情報を、機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。

以上述べたように、本発明の実施の形態によれば、類似概念がグループ化された階層構造がある索引を持った文書を翻訳するにおいて、索引中の同一グループに存在する概念が類似した複数の原語語句に対して、翻訳用対訳辞書中の複数の訳語候補の中から本文の文脈を配慮した上で、統一された訳語を優先して訳出することができる。また、ある階層に属す語句の一部が、上位階層の語句を意味する記号で略記されていても、未知語とすることなく、その記号を上位階層の語で置き換えて翻訳することができる。さらに、索引中の原語に、対応する訳語を関連づけた情報格納テーブルを作成し、その情報格納テーブル中の訳語を比較して、訳語の統一・重複に関する分析を行うことで、訳語の不統一や重複を検知し警告することができる。検知された不統一・重複語を含む原文および訳文は一覧表示されるので、訳語の不統一や重複の修正も容易に行うことができる。

また、索引中の語の原文文書における位置情報と、訳文の対応関係を保持することによって、索引中の語に対する訳語と、訳文文書におけるページ数を割り出すことができる。また、索引の階層構造の解析情報を保持することによって、訳語で記述された索引を階層別に訳語の語順で並べ替えることができる。これらによって、翻訳の終了後、訳語で記述された索引を自動的に作成することができる。第２言語が日本語の場合には、ソートのための読み情報を、機械翻訳用の翻訳用対訳辞書から自動取得することができ、読み情報付与の手間を削減することができる。

本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図。本発明の実施の形態に係わる機械翻訳装置のプログラムの説明図。本発明の実施の形態に係わる機械翻訳装置のプログラムの各構成要素の働きの説明図。本発明の実施の形態に係わる機械翻訳装置の動作内容を表すフローチャート。図４のステップＳ１１で示した索引構造解析部による処理の流れを示すフローチャート。図４のステップＳ１２で示した訳語順序調整部２５による処理の流れを示すフローチャート。本発明の実施の形態における索引の一例の説明図。本発明の実施の形態における訳語順序調整部で翻訳用対訳辞書から抽出された訳語リストの説明図。本発明の実施の形態における訳語順序調整部での索引の原語・訳語を単語単位に分解した状態の説明図。本発明の実施の形態における訳語順序調整部での原語・訳語間の対応付けの説明図。図４のステップＳ１３で示した処理の流れを示すフローチャート。図４のステップＳ１４で示した情報格納テーブル検索・分析部による情報格納テーブル解析処理の流れを示すフローチャート。本発明の実施の形態における翻訳後の索引の一例の説明図。本発明の実施の形態における対訳エディタによる対訳の対訳エディタ画面の説明図。本発明の実施の形態における情報格納テーブルの索引に関する情報内容の説明図。本発明の実施の形態における情報格納テーブルの索引に関する情報内容の説明図。図４のステップＳ１５で示した訳語索引生成部での索引生成処理の流れを示すフローチャート。

符号の説明

１１…機械翻訳装置、１２…演算制御装置、１３…表示装置、１４…マウス、１５…キーボード、１６…ディスクドライブ、１７…補助記憶装置、１８…プロセッサ、１９…メモリ、２０…プログラム、２１…作業エリア、２２…入力部、２３…索引構造解析部、２４…対訳エディタ、２５…訳語順序調整部、２６…機械翻訳処理制御部、２７…情報格納テーブル検索・分析部、２８…強調表示部、２９…一覧表示エディタ、３０…訳語索引生成部、３１…制御部、３２…翻訳用対訳辞書、３３…情報格納テーブル、３４…索引、３５…対訳エディタ画面、３６…一覧表示エディタ画面

Claims

第１言語で記述された原文文書を翻訳用対訳辞書を用いて第２言語に翻訳する機械翻訳装置において、前記原文文書に類似概念がグループ化された階層構造のある索引が付属している場合には前記索引の階層構造を解析する索引構造解析部と、前記索引構造解析部による解析結果である索引のグループ情報と階層情報とを保持する情報格納テーブルと、前記翻訳用対訳辞書から前記索引中の原語語句に対する訳語リストを取得し前記情報格納テーブル内の同一グループの索引ごとに前記訳語リストを単語単位に分割して原語・訳語間で対応付け同一言語に対する異なる訳語の中から最も数多く出現する訳語を選択する訳語順序調整部と、前記訳語順序調整部で選択された訳語を用いて翻訳を行う機械翻訳処理制御部とを備えたことを特徴とする機械翻訳装置。
前記機械翻訳処理制御部は、前記訳語順序調整部での最も数多く出現する訳語の決定に加え、第１言語で記述された原文文書中の索引原語語句の共起情報を用い訳語リストの翻訳を行うことを特徴とする請求項１記載の機械翻訳装置。
前記機械翻訳処理制御部は、前記訳語順序調整部での最も数多く出現する訳語の決定に加え、第１言語で記述された原文文書中の索引原語語句の頻度情報を用い訳語リストの翻訳を行うことを特徴とする請求項１記載の機械翻訳装置。
前記機械翻訳処理制御部は、ある階層に属する索引中の語句において、その語の一部がその上位階層に属する語を指す記号を使って略記されている場合には、前記下位階層に属する語句中の前記記号をその上位階層に属する語で置き換えて翻訳を行うことを特徴とする請求項１記載の機械翻訳装置。
原語は同じだが訳語が異なる語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする請求項１記載の機械翻訳装置。
原語は異なるが訳語が同じ語の有無を分析する情報格納テーブル検索・分析部と、前記情報格納テーブル検索・分析部の分析結果に基づき該当語句を含む原文および訳文を一覧表示する一覧表示エディタと、前記一覧表示エディタにおいて該当語句を強調表示する強調表示部とを備えたことを特徴とする請求項１記載の機械翻訳装置。
前記情報格納テーブルに、前記原文文書中における索引中の原語語句の位置情報と、前記原文とその訳文との１文単位での対応関係とを保持しておき、これらの情報を用いて前記原文文書の翻訳結果である訳文文書中における前記索引中の原語に対する訳語が存在するページ数を検索し、前記情報格納テーブルに保持されたグループ情報と階層情報とに基づいて、前記訳語と前記ページ数とのペアを索引の階層別に第２言語の語順で並べ替える訳語索引生成部を備えたことを特徴とする請求項１記載の機械翻訳装置。