JP2007286925A

JP2007286925A - 部分翻訳装置

Info

Publication number: JP2007286925A
Application number: JP2006113897A
Authority: JP
Inventors: Kazunari Hashimoto; 一成橋本
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-04-17
Filing date: 2006-04-17
Publication date: 2007-11-01

Abstract

【課題】ユーザーにとって翻訳が困難な文、もしくは翻訳をできでも十分に理解することができない文を自動判定して抽出し、抽出された文を翻訳する部分翻訳装置を提供する。
【解決手段】翻訳装置は、入力文３０に対して、ユーザーが難易度レベルを設定すると、翻訳判定器４０は、そのレベルに応じて、入力文が設定レベル内かどうかを自動的に判定し、難易度レベルより上の入力文のみ機械翻訳し、難易度レベル以下の入力文を原文のまま出力する。
【選択図】図２

Description

本発明は、一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置に関し、特に、入力文書の一部を部分的に抽出して翻訳する部分翻訳装置に関する。

一つの言語で表された文または文章を含む文書を、他の言語に翻訳する翻訳装置が実用化されている。こうした翻訳装置において、文書全体を翻訳すると、作業量が膨大となるため、必要な箇所だけを翻訳する部分翻訳技術が提案されている。

特許文献１は、重要な特定の文または文章のみを自動的に抽出して部分翻訳することによって、未翻訳文書の記載内容の大意を短時間でかつ簡単に把握できる翻訳方法及び機械翻訳装置を提供している。これによれば、入力された第１の言語で記述された文書に含まれる各単語を予め定められた複数の分野に分類し、多くの単語が分類された分野を指定し、指定した分野に所属する単語を含む文を入力された文書から抽出し、この抽出された文を第２の言語に翻訳する。

特開平９−４４５０４号

しかしながら、特許文献１に開示されるような翻訳装置では、重要な特定の文または文書のみを自動的に抽出して翻訳を行うが、定義された重要な文は、指定した分野の単語によって表された分野への属性度を基準に選考されたものであり、ユーザーの翻訳能力やユーザーのその分野に関する知識を考慮した選択されたものではない。機械翻訳よりもユーザーの方が最適な翻訳を行える文を重要文として抽出した場合、ユーザーにとって質の劣る文が作成され、内容理解の妨げになるおそれがある。

本発明は、上記従来の課題を解決し、ユーザーにとって翻訳が不可能な文、もしくは翻訳することはできるが十分に理解することができない文を自動判定して抽出し、抽出された文を翻訳する部分翻訳装置を提供することを目的とする。

本発明に係る、一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置は、複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、文または文章を一の言語で表した文書を入力する入力手段と、翻訳レベルを設定する設定手段と、少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段とを有する。これにより、ユーザー等の翻訳レベルに応じた翻訳の設定を行うことができ、利便性の高い部分翻訳装置を提供することができる。

好ましくは、判定情報は、複数のレベル別に単語を登録した単語辞書、複数のレベル別に文の文法情報を登録した文法辞書、および複数のレベル別に文の統計情報を含む。これらの判定情報は、コーパス作成用文をもとに翻訳判定コーパスとして構築される。複数の判定情報をレベル別に備えることで、翻訳対象のレベルをより正確に判定することができる。また、翻訳すべきか否かの判定も迅速に行うことができる。

好ましくは、入力手段は、翻訳対象を形態素解析し、翻訳対象に含まれる単語を抽出し、判定手段は、抽出された単語と前記単語辞書に登録された単語とを比較し、翻訳すべきか否かを判定する。例えば、翻訳対象に含まれる単語の数と、翻訳対象に含まれる単語のうち一定のレベル以下の単語辞書に含まれる単語の数との比から翻訳をすべきか否かを判定する。あるいは、翻訳対象に含まれる各単語の相対的なレベルの差から翻訳をすべきか否かを判定するようにしてもよい。

好ましくは入力手段は、翻訳対象を意味解析し、翻訳対象の木構造を作成し、判定手段は、木構造と文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する。例えば、木構造の結合の種類と文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定したり、それ以外にも、木構造の結合の深さや木構造のノードの重みから翻訳すべきか否かを判定するようにしてもよい。

好ましくは、入力手段は、翻訳対象を形態素解析し、翻訳対象に含まれる単語の出現頻度から特徴ベクトルを作成し、特徴ベクトルと統計情報とを比較し、翻訳すべきか否かを判定する。なお、判定手段は、単語辞書、文法辞書および統計情報のすべてを利用して、翻訳対象を翻訳すべきか否かを判定するようにしてもよい。この場合、単語、文法、統計のいずれを軽重するかは、適宜変更できるようにしてもよい。

好ましくは設定手段はさらに、ユーザーの翻訳レベルを登録したデータベースと、前記データベースに登録されたユーザーを検索する検索手段とを含み、前記設定手段は、検索されたユーザーの翻訳レベルを設定するようにしてもよい。これにより、ユーザーは、自身の翻訳スキルまたはレベルを設定する必要がなくなる。また、ユーザーの翻訳レベルの判定は、ユーザーが作成した文章を、上記した判定手段を用いて決定することができる。勿論、これ以外にも、ユーザー自身が翻訳レベル（翻訳を必要とするレベル）を入力するようにしてもよい。

さらに本発明に係る翻訳プログラムは、複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、文または文章を一の言語で表した文書を入力する入力手段と、翻訳レベルを設定する設定手段と、少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段とを有する。プログラムは、電子媒体に記憶されたものであってもよいし、ネットワーク等の通信により取得可能なものであってもよい。

本発明の翻訳装置によれば、ユーザーの翻訳レベルまたはスキルに応じて、入力文書から翻訳に必要な文を抽出して翻訳することができる。これにより、ユーザーにとって読解することが困難な文または文章のみを翻訳することで、入力文書の効果的な部分翻訳を実現することができる。

以下、本発明の最良の実施形態について図面を参照して説明する。

図１は、本発明の実施例に係る部分翻訳装置の構成を示す図である。部分翻訳装置１０は、入力装置１２、表示装置１４、主記憶装置１６、記憶装置１８、中央処理装置（ＣＰＵ）２０、これらを接続するバス２２を含んでいる。

入力装置１２は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取る光学式読取装置（スキャナ）、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。さらに、入力装置１２は、ユーザーにとって翻訳を必要とする難易度レベルを入力する。

表示装置１４は、入力文書を部分翻訳した出力文書等を表示するディスプレイ等を含む。主記憶装置１６は、ＲＯＭまたはＲＡＭを含み、入力された文書に含まれる文または文章を形態素解析、構文解析、意味解析等を行うプログラム、ユーザーからの難易度レベルに応じて入力文を翻訳するプログラム、演算処理されたデータ等を記憶する。記憶装置１８は、例えばハードディスク等の大容量記憶装置を含み、後述する単語辞書、文法辞書、翻訳判定コーパス、スキャナによって光学的に読取られた文書データ等を蓄積する。ＣＰＵ（Central Processing Unit）２０は、主記憶装置１６に記憶されたプログラムに従い各部を制御する。

次に、本実施例に係る部分翻訳装置の要旨を図２を用いて説明する。先ず、部分翻訳装置１０には、ユーザーが翻訳を必要とする難易度レベルが設定される。ここでは、難易度レベル５が設定されたとする。次に、英語の文または文章を含む入力文書３０が入力されると、部分翻訳装置１０は、入力文書に含まれる文が難易度レベル５以下か否かを自動的に判定する。この判定は、翻訳判定器４０によって行われる。それぞれのレベルに応じて翻訳をすべきか否かを判定するための判定情報が翻訳判定コーパス５０に格納されており、翻訳判定器４０は、難易度レベル５に相当する判定情報と入力文を照合し、入力文を翻訳すべきか否か、あるいは入力文が難易度レベル６以上であるか否かを判定する。翻訳判定器４０によって翻訳すべきと判定された文は、機械翻訳器６０によって日本語に翻訳され、そうでない文は、翻訳されずにそのままの英語で出力される。その結果、部分翻訳装置１０は、難易度レベルが６以上の文が日本語に翻訳された文と、言語のままの英文とが混在する翻訳結果文書３２を出力する。

図３に翻訳判定器の詳細な機能ブロックを示す。翻訳判定器４０は、入力文書３０および難易度レベルを示すレベル設定３４を受け取る翻訳管理部４２と、翻訳判定コーパス５０を参照して入力文書３０に含まれる文のレベルを翻訳すべきか否かを判定するレベル別翻訳判定部４４とを有している。レベル別翻訳判定部４４の判定結果に応じて、翻訳管理部４２は、入力文書３０に含まれる文を機械翻訳器６０に翻訳させ、その結果を受け取る。翻訳管理部４２は、翻訳すべきでないとの判定結果を受けたとき、入力文書３０に含まれる文を原語のままの状態で、翻訳結果文書３２に出力する。

図４は、翻訳判定コーパスの構成を示す図である。翻訳判定コーパス５０は、コーパス作成用文書５２を用い、翻訳判定コーパス構築器５４によって作成される。翻訳判定コーパス構築器５４は、レベル別単語辞書構築部５４ａと、レベル別文法辞書構築部５４ｂと、レベル別統計情報データベース構築部５４ｃとを含み、これらによって、レベル別単語辞書と、レベル別文法辞書と、レベル別統計情報データベースとが作成される。

図５は、翻訳判定コーパスの詳細を説明する図である。翻訳判定コーパスは、ユーザーが定義したＮ（０、１、・・・ｋ、・・・Ｎ−１、Ｎ）個の難易度レベルに相当したレベルコーパスから構成されている。レベル０からレベルＮまでのレベル別に、単語辞書５６ａ、文法辞書５６ｂ、統計情報データベース５６ｃが構成されている。単語辞書５６ａは、それぞれのレベルの単語を記憶したものであり、文法辞書５６ｂは、それぞれのレベルの文の文法情報を記憶したものであり、統計情報データベース５６ｃは、それぞれのレベルの文の統計情報を記憶したものである。

次に、翻訳判定コーパスの構築方法について図６ないし図８を参照して説明する。図６に示すように、コーパス作成用文書５２が翻訳管理部４２に入力されると、翻訳管理部４２は、コーパス用作成文書のレベルラベル付き分を抽出する（ステップＳ１０１）。次に、翻訳管理部４２は、レベルを参照し、低レベルの文から順（レベル０からＮ）に辞書に追加する。ここでは、一例として、レベルｋのコーパスの作成例を説明する。

レベルｋのラベル付き対象文が得られると（ステップＳ１０３）、その対象文から単語が抽出され（ステップＳ１０４）、抽出された単語がレベル別単語辞書構築部５４ａへ供給される。また、対象文から文法情報が抽出され（ステップＳ１０５）、これがレベル別文法辞書構築部５４ｂに供給され、さらに、対象文から統計情報が抽出され（ステップＳ１０６）、これがレベル別統計情報データベース構築部５４ｃに供給される。

図７は、レベル別単語辞書構築部、レベル別文法辞書構築部およびレベル別統計情報データベース構築部の詳細を示す図である。レベル別単語辞書構築部５４ａは、レベルｋラベル付き対象文の単語を受け取ると、該単語がレベルｋ以下の単語辞書に含まれているか否かをチェックする（ステップＳ２０１）。レベルＫ以下の辞書に含まれていない単語のみをレベルｋ単語辞書５６ａに登録する（ステップＳ２０２）。レベル別文法辞書構築部５４ｂは、レベルｋラベル付き対象文の文法情報を受け取ると、該文法情報がレベルｋ以下の文法辞書に含まれているか否かをチェックする（ステップＳ２１０）。レベルｋ以下の辞書に文法情報が含まれていない場合、レベルｋの文法辞書５６ｂに登録する。レベル別統計情報データベース構築部５４ｃは、レベルｋラベル付き対象文の統計情報をレベルｋの統計情報５６ｃに登録する（ステップＳ２２０）。

翻訳判定コーパスのレベルは、ユーザーによって定義されるが、一般的に使用されている基準をレベル設定に用いることができる。例えば、図８に示すように、ＴＯＥＩＣの点数を基準にレベルを設定したり、教科書（受験参考書、高校、中学の教科書）を基準にレベルを設定したり、ケース別例文集（ビジネス英会話、日常英会話集、手紙例文集、あいさつ例文集）を基準にレベルを設定することができる。

次に、本実施例の部分翻訳装置の動作について図９および図１０を参照して説明する。ここでは、ユーザーによって難易度レベルｋが設定されているものとする。先ず、入力文書３０が部分翻訳装置に入力される。入力文書３０は、スキャナーにより読取ったイメージをＯＣＲによりテキストデータ化したもの、他の電子媒体やネットワークを通じて電子的に得られたも、キー入力されたものであってもよい。翻訳管理部４２は、入力文書３０を受け取ると、入力文書を文単位に切り分け（ステップＳ３０１）、対象文を抽出する（ステップＳ３０２）。

翻訳管理部４２により抽出された対象文は、レベル別翻訳判定部４４に供給される。レベル別翻訳判定部４４は、対象文から単語、文法情報、および統計情報を抽出し（ステップＳ３０３）、抽出された単語、文法情報、および統計情報をレベルｋ判定処理４６へ供給する。レベルｋ判定処理４６は、対象文を、翻訳判定コーパス５０と照合し、翻訳が必要であるか否かを判定する（ステップＳ３０４）。

図１１に、レベルｋ判定処理の詳細を示す。レベルｋ判定処理４６は、入力した対象文の単語を、単語に関するレベルｋ判定ルール（ａ）、単語に関するレベルＫ判定ルール（ｂ）に基づき翻訳が必要か否かを判定する。この判定ルールは、単一であってもよいし、複数であってもよい。同様に、入力された文法情報は、文法に関するレベル判定ルール（ａ）、（ｂ）に基づき翻訳が必要か否かを判定され、入力された統計情報は、統計情報によるレベルｋ判定ルール（ａ）、（ｂ）によって翻訳が必要であるか否かを判定される。レベルｋ判定処理４６は、各判定結果のうち、ユーザーが予め設定した判定手法の結果を組合せ、あるいは選択し、対象文を翻訳すべきか否かを判定する。

レベルｋ判定処理４６による判定結果は、翻訳管理部４２へ出力される（ステップＳ３０５）。翻訳管理部４２は、レベル別翻訳判定部４４からの判定結果を受け取ると、保持していた対象文を判定結果に応じて処理する。すなわち、翻訳が不要であると判定された場合には、対象文を翻訳することなく原文のまま出力し（ステップＳ３０６）、他方、翻訳が必要であると判定された場合には、機械翻訳装置６０に対象文を機械翻訳させる（ステップＳ３０７）。そして、翻訳管理部４２は、各対象文の結果を連結し（ステップＳ３０８）、これを翻訳結果文書として出力する（ステップＳ３０９）。出力は、ディスプレイへの表示や、プリンタへの印字を含む。こうして、ユーザーが設定した難易度レベルに応じて対象文が翻訳されることになる。

次に、より具体的な例をもって各部の動作を説明する。入力文書に含まれる文が、「John opened the door」という英文と仮定する。翻訳管理部４２は、対象文を受け取ると、対象文を形態素解析し、単語を抽出する。これにより、図１２（ａ）に示すように、単語が抽出される。

翻訳管理部４２はさらに、対象文を形態素解析、構文解析、意味解析し、意味木を構築する。これにより、図１２（ｂ）に示すような木構造を示す文法情報が得られる。図中、「Ｎ」は名詞、「Ｖ」は動詞、「subj」は主語、「obj」は目的語、「adj」は形容詞を示している。意味木において、品詞に加えて、活用情報等を付加することもできる。

さらに翻訳管理部４２は、形態素解析処理によって抽出された単語と該単語の出現頻度を１情報とした統計情報を算出する。これにより、図１２（ｃ）に示すような統計情報が得られる。

次に、レベル別翻訳判定部４４の詳細について説明する。図１１に示したように、レベル別翻訳判定部４４は、単語に関するレベル判定ルール、文法に関するレベル判定ルール、統計技術によるレベル判定ルールを備えている。

最初に、第１の単語に関するレベル判定ルールについて説明する。レベル別翻訳判定部４４は、以下の数式１を満足する場合、翻訳が必要と判定する。すなわち、入力文の単語の総数Ｎｗｓと、入力文の単語のうち、レベルｋ以下の単語辞書に含まれる単語の数との比を、ユーザーが設定した難易度レベル（設定値）と比較し、設定値よりも小さければ翻訳を必要とする。

例えば、入力文が「This system can provide several Web services」であり、難易度レベル５（設定値０．９）が設定されている場合、図１３に示すように、入力文に含まれる単語のレベルが識別され、数１による値が算出される。その結果、設定値よりも小さいので、翻訳が必要であると判定される。

また、第２の単語に関する判定ルールとして、以下の数式２を満足する場合、翻訳が必要と判定する。すなわち、入力文中のレベルｋに属する単語数をαｌとし、レベルｌ中のパラメータをＳ_ｗｌとする。

例えば、入力文が「This system can provide several Web services」であり、難易度レベル５（設定値０．９）が設定されている場合、レベル５以下のパラメータを１以下、レベル５以上のパラメータを１以上とすると、図１４に示すような判定結果が０．９となり、翻訳が必要と判定される。数式１の判定ルールと比較して、難易度レベルからどれくらい離れているのかを指標にすることができる。

次に、第１の文法に関するレベル判定ルールについて説明する。レベル別翻訳判定部４４は、以下の数式３を満足する場合、翻訳が必要と判定する。すなわち、入力文の結合の種類数Ｎｖｓと、レベルｋ文法辞書の登録構文木のうち咲いたの結合の種類数との比が設定値（難易度レベル）よりも小さければ、翻訳が必要と判定する。

例えば、入力文が「This system can provide several Web services」であり、難易度レベル５（設定値０．８）が設定されている場合、入力文の構文解析は、図１５に示すようになり、数３による値が算出される。その結果、翻訳は不要であると判定される。

次に、第２の文法に関するレベル判定ルールを説明する。第２の文法に関するレベル判定ルールは、第１のルールが木構造の種類を対象にしたのに対し、木構造の深さを対象にしている。すなわち、以下の数式４を満足するとき、翻訳は必要であると判定する。入力文の深さをＮｄｓと、レベルｋの文法辞書における最深数との比が設定値よりも大きければ、翻訳は必要であると判定する。

例えば、入力文が「This system can provide several Web services」であり、難易度レベル５（設定値０．６）が設定されている場合、入力文の構文解析は、図１６に示すようになり、数４による値が算出される。その結果、翻訳は必要と判定される。

次に、第３の文法に関するレベル判定ルールについて説明する。第３の判定ルールは、木構造の下位ノードから順にノードにかかる重みを定義し、ルートノードにかかる重み（＋ルートノード自身の重さ）によって判定する。ここでのノードは、単語を意味する。数式５を満足する場合には、翻訳を必要とする。

ノードｗにかかる重みＲｗは、数式６によって求められる。なお、Ｅの設定に品詞に関するパラメータや単語レベルに関するパラメータを使用することもできる。

図１７は、ノードａ、ｂ、ｃをルートＬａｂ、Ｌａｃで表された木構造であるとき、数式６に従い算出されたノードａに係る重みＲａを示している。

例えば、入力文が「This system can provide several Web services」であり、難易度レベル５（設定値１．０）が設定され、枝の種類によって重みが異なる設定とする。ノード自身の重さＥ＝１とする。このときの判定例を図１８に示す。
計算結果が設定値よりも大きいため、翻訳は必要と判定される。

次に、統計技術によるレベル判定ルールについて説明する。この判定ルールは、統計情報データベースの単語出現頻度、単語辞書、および文法辞書を用いて、特徴ベクトルとその特徴ベクトルの判定器を構築し、判定を行う。図１９（ａ）に示すように、入力文、または単語辞書から単語の統計情報を素性とする特徴ベクトルを求める。または、入力文、または単語辞書、文法辞書および統計情報データベースを用いて、単語の統計情報、単語情報、および文法情報を素性とする特徴ベクトルを求める。

特徴ベクトルの判定器として、レベルｋ以下の辞書から作成された特徴ベクトルを正例、レベルｋ+１以上の特徴ベクトルを負例とした機械学習の２値分類器を構築し、レベルｋの判定器とすることができる。例として、Support Vector Machine（ＳＶＭ）、あるいは Neural Networkがある。

入力文が「This system can provide several Web services」であるとき、単語の出現頻度を素性とする特徴ベクトルを図２０（ａ）に示し、祝言頻度、単語情報、および文法情報を用いた特徴ベクトルを図２０（ｂ）に示す。

次に、本発明の第２の実施例に係る部分翻訳装置について説明する。図２１は、第２の実施例に係る部分翻訳装置の構成を示す図である。第２の実施例では、第１の実施例にように難易度レベルを設定する代わりに、ユーザーの翻訳能力またはスキルに応じて自動的に難易度レベルを設定する機能を有している。このため、ユーザーの翻訳レベルを登録したユーザー翻訳レベルデータベース１００と、ユーザー名またはユーザーを識別する情報（ログインＩＤなど）に基づきユーザー翻訳レベルデータベース１００からユーザーの翻訳レベルを検索するユーザー翻訳レベル検索器１１０を備えている。

こうして、翻訳時にユーザーは自分の難易度レベルを指定しなくても翻訳を行うことができる。ユーザー翻訳レベルデータベースに登録されている各ユーザーの翻訳レベルは、図２２に示す翻訳レベル推定器によって推定することができる。あるいは、ユーザー翻訳レベルデータベースのユーザーレベルは、ユーザー自身が決定するようにしてもよい。

ユーザー翻訳レベル推定器１２０は、ユーザーが過去に作成したドキュメント（ユーザーレベル推定ドキュメント）を受け取り、ドキュメントの種類に応じて推定対象文をドキュメントから抽出する推定対象文抽出部１２２と、第１の実施例で用いた翻訳判定器のレベル判定機能を用いて推定対象文の翻訳レベルを推定する翻訳レベル推定部１２４とを備えている。翻訳レベル推定部１２４は、ユーザーが読解可能な難易度レベルを自動推定し、ユーザーとユーザーの難易度レベルをユーザー翻訳レベルデータベース１００に登録する。

次に、翻訳レベル推定器における推定対象文の翻訳レベルの推定動作の例を図２３に示す。ここでは、第１の実施例で用いた翻訳判定器の各レベル判定機能を用いて、図２３に示すように、上位レベル判定から順に翻訳判定し（レベルＮ、レベルＮ−１、・・・レベルＫ、・・・レベル１）、翻訳不必要と判定されるレベルを抽出する。この抽出されたレベルが、ユーザーの推定翻訳レベルとなる。

次に、翻訳レベル推定器で用いるユーザーレベル推定ドキュメントの例を図２４に示す。この例は、ユーザーのテストの添削結果を用いる。ユーザーが過去に受けたテストの間違った問題の正解（文・単語）を翻訳推定器１２０に入力し、各推定結果のうち最も低いレベルを該レベルとする。例えば、図２４に示すように、ユーザーが問題２と問題４を誤ったとき、その正解文または正解単語から翻訳レベルを推定する。レベル３とレベル７のようにレベルが異なった場合には、最も低いレベル（レベル３）をユーザーレベルとして推定する。

また、ユーザーが作成した外国語文書やコーパスを推定対象文とし、各推定レベルのうち最も低いレベルをユーザー推定レベルとするようにしてもよい。

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本発明は、入力文書に含まれる文または文章を翻訳する翻訳装置、翻訳システム、翻訳プログラム等において利用される。

本発明の実施例に係る部分翻訳装置の構成を示すブロック図である。本実施例の部分翻訳装置の概要を説明する図である。図２の翻訳判定器の機能ブロック図を示す図である。図２の翻訳判定コーパスの構成を説明する図である。翻訳判定コーパスの詳細を示す図である。翻訳判定コーパスの構築方法を示す図である。レベル別単語辞書構築部、レベル別文法辞書構築部およびレベル別統計情報データベース構築部の詳細を示す図である。翻訳コーパスのレベル設定例を示す図である。本実施例の翻訳判定動作を示す図である。本実施例の翻訳判定動作を示す図である。レベルＫ判定処理の詳細を示す図である。図１２（ａ）は単語の抽出例、図１２（ｂ）は文法情報、図１２（ｃ）は統計情報の例を示している。本実施例に係る第１の単語に関するレベル判定ルールを説明する図である。本実施例に係る第２の単語に関するレベル判定ルールを説明する図である。本実施例に係る第１の文法に関するレベル判定ルールを説明する図である。本実施例に係る第２の文法に関するレベル判定ルールを説明する図である。本実施例に係る第３の文法に関するレベル判定ルールを説明する図である。第３の文法に関するレベル判定ルールによる判定例を示す図である。本実施例に係る統計情報に関するレベル判定ルールを説明する図である。統計情報に関するレベル判定ルールによる特徴ベクトルの例を示す図である。本発明の第２の実施例に係る部分翻訳装置の構成を示すブロック図である。図２１に示す翻訳レベル推定器の構成を示す図である。翻訳対象文の翻訳レベル推定動作例を示す図である。ユーザーレベル推定ドキュメントの例を示す図である。

符号の説明

１０：部分翻訳装置３０：入力文書
３２：翻訳結果文書３４：レベル設定
４０：翻訳判定器４２：翻訳管理部
４４：レベル別翻訳判定部５０：翻訳判定コーパス
５２：コーパス作成用文５４：翻訳判定コーパス構築器
５４ａ：レベル別単語辞書構築部５４ｂ：レベル別文法辞書構築部
５４ｃ：レベル別統計情報構築部５６ａ：単語辞書
５６ｂ：文法辞書５６ｃ：統計情報
６０：機械翻訳器

Claims

一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置であって、
複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、
文または文章を一の言語で表した文書を入力する入力手段と、
翻訳レベルを設定する設定手段と、
少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、
前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段と、
を有する翻訳装置。
前記判定情報は、複数のレベル別に単語を登録した単語辞書を含む、請求項１に記載の翻訳装置。
前記判定情報は、複数のレベル別に文の文法情報を登録した文法辞書を含む、請求項１に記載の翻訳装置。
前記判定情報は、複数のレベル別に文の統計情報を含む、請求項１に記載の翻訳装置。
前記入力手段は、前記翻訳対象を形態素解析し、前記翻訳対象に含まれる単語を抽出し、前記判定手段は、抽出された単語と前記単語辞書に登録された単語とを比較し、翻訳すべきか否かを判定する、請求項１または２に記載の翻訳装置。
前記判定手段は、前記翻訳対象に含まれる各単語のレベルを判別し、その判別結果から翻訳をすべきか否かを判定する、請求項５に記載の翻訳装置。
前記判定手段は、前記翻訳対象に含まれる単語の数と、前記翻訳対象に含まれる単語のうち一定のレベル以下の単語辞書に含まれる単語の数との比から翻訳をすべきか否かを判定する、請求項５または６に記載の翻訳装置。
前記判定手段は、前記翻訳対象に含まれる各単語の相対的なレベルの差から翻訳をすべきか否かを判定する、請求項５または６に記載の翻訳装置。
前記入力手段は、前記翻訳対象を意味解析し、前記翻訳対象の木構造を作成し、前記判定手段は、前記木構造と前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項１または３に記載の翻訳装置。
前記判定手段は、前記木構造の結合の種類と前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項９に記載の翻訳装置。
前記判定手段は、前記木構造の結合の深さと前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項９に記載の翻訳装置。
前記判定手段は、前記翻訳対象に含まれる文の木構造のノードの重みから翻訳すべきか否かを判定する、請求項１または３に記載の翻訳装置。
前記入力手段は、前記翻訳対象を形態素解析し、前記翻訳対象に含まれる単語の出現頻度から特徴ベクトルを作成し、前記特徴ベクトルと前記統計情報とを比較し、翻訳すべきか否かを判定する、請求項１または４に記載の翻訳装置。
前記判定手段は、前記単語辞書、前記文法辞書および前記統計情報のすべてを利用して、前記翻訳対象を翻訳すべきか否かを判定する、請求項１ないし１３いずれか１つに記載の翻訳装置。
前記設定手段はさらに、ユーザーの翻訳レベルを登録したデータベースと、前記データベースに登録されたユーザーを検索する検索手段とを含み、前記設定手段は、検索されたユーザーの翻訳レベルを設定する、請求項１に記載の翻訳装置。
一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳プログラムであって、
複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、
文または文章を一の言語で表した文書を入力する入力手段と、
翻訳レベルを設定する設定手段と、
少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、
前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段と、
を有する翻訳プログラム。