JP2007286925A - 部分翻訳装置 - Google Patents

部分翻訳装置 Download PDF

Info

Publication number
JP2007286925A
JP2007286925A JP2006113897A JP2006113897A JP2007286925A JP 2007286925 A JP2007286925 A JP 2007286925A JP 2006113897 A JP2006113897 A JP 2006113897A JP 2006113897 A JP2006113897 A JP 2006113897A JP 2007286925 A JP2007286925 A JP 2007286925A
Authority
JP
Japan
Prior art keywords
translation
level
sentence
determination
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006113897A
Other languages
English (en)
Inventor
Kazunari Hashimoto
一成 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006113897A priority Critical patent/JP2007286925A/ja
Publication of JP2007286925A publication Critical patent/JP2007286925A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 ユーザーにとって翻訳が困難な文、もしくは翻訳をできでも十分に理解することができない文を自動判定して抽出し、抽出された文を翻訳する部分翻訳装置を提供する。
【解決手段】 翻訳装置は、入力文30に対して、ユーザーが難易度レベルを設定すると、翻訳判定器40は、そのレベルに応じて、入力文が設定レベル内かどうかを自動的に判定し、難易度レベルより上の入力文のみ機械翻訳し、難易度レベル以下の入力文を原文のまま出力する。
【選択図】 図2

Description

本発明は、一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置に関し、特に、入力文書の一部を部分的に抽出して翻訳する部分翻訳装置に関する。
一つの言語で表された文または文章を含む文書を、他の言語に翻訳する翻訳装置が実用化されている。こうした翻訳装置において、文書全体を翻訳すると、作業量が膨大となるため、必要な箇所だけを翻訳する部分翻訳技術が提案されている。
特許文献1は、重要な特定の文または文章のみを自動的に抽出して部分翻訳することによって、未翻訳文書の記載内容の大意を短時間でかつ簡単に把握できる翻訳方法及び機械翻訳装置を提供している。これによれば、入力された第1の言語で記述された文書に含まれる各単語を予め定められた複数の分野に分類し、多くの単語が分類された分野を指定し、指定した分野に所属する単語を含む文を入力された文書から抽出し、この抽出された文を第2の言語に翻訳する。
特開平9−44504号
しかしながら、特許文献1に開示されるような翻訳装置では、重要な特定の文または文書のみを自動的に抽出して翻訳を行うが、定義された重要な文は、指定した分野の単語によって表された分野への属性度を基準に選考されたものであり、ユーザーの翻訳能力やユーザーのその分野に関する知識を考慮した選択されたものではない。機械翻訳よりもユーザーの方が最適な翻訳を行える文を重要文として抽出した場合、ユーザーにとって質の劣る文が作成され、内容理解の妨げになるおそれがある。
本発明は、上記従来の課題を解決し、ユーザーにとって翻訳が不可能な文、もしくは翻訳することはできるが十分に理解することができない文を自動判定して抽出し、抽出された文を翻訳する部分翻訳装置を提供することを目的とする。
本発明に係る、一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置は、複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、文または文章を一の言語で表した文書を入力する入力手段と、翻訳レベルを設定する設定手段と、少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段とを有する。これにより、ユーザー等の翻訳レベルに応じた翻訳の設定を行うことができ、利便性の高い部分翻訳装置を提供することができる。
好ましくは、判定情報は、複数のレベル別に単語を登録した単語辞書、複数のレベル別に文の文法情報を登録した文法辞書、および複数のレベル別に文の統計情報を含む。これらの判定情報は、コーパス作成用文をもとに翻訳判定コーパスとして構築される。複数の判定情報をレベル別に備えることで、翻訳対象のレベルをより正確に判定することができる。また、翻訳すべきか否かの判定も迅速に行うことができる。
好ましくは、入力手段は、翻訳対象を形態素解析し、翻訳対象に含まれる単語を抽出し、判定手段は、抽出された単語と前記単語辞書に登録された単語とを比較し、翻訳すべきか否かを判定する。例えば、翻訳対象に含まれる単語の数と、翻訳対象に含まれる単語のうち一定のレベル以下の単語辞書に含まれる単語の数との比から翻訳をすべきか否かを判定する。あるいは、翻訳対象に含まれる各単語の相対的なレベルの差から翻訳をすべきか否かを判定するようにしてもよい。
好ましくは入力手段は、翻訳対象を意味解析し、翻訳対象の木構造を作成し、判定手段は、木構造と文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する。例えば、木構造の結合の種類と文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定したり、それ以外にも、木構造の結合の深さや木構造のノードの重みから翻訳すべきか否かを判定するようにしてもよい。
好ましくは、入力手段は、翻訳対象を形態素解析し、翻訳対象に含まれる単語の出現頻度から特徴ベクトルを作成し、特徴ベクトルと統計情報とを比較し、翻訳すべきか否かを判定する。なお、判定手段は、単語辞書、文法辞書および統計情報のすべてを利用して、翻訳対象を翻訳すべきか否かを判定するようにしてもよい。この場合、単語、文法、統計のいずれを軽重するかは、適宜変更できるようにしてもよい。
好ましくは設定手段はさらに、ユーザーの翻訳レベルを登録したデータベースと、前記データベースに登録されたユーザーを検索する検索手段とを含み、前記設定手段は、検索されたユーザーの翻訳レベルを設定するようにしてもよい。これにより、ユーザーは、自身の翻訳スキルまたはレベルを設定する必要がなくなる。また、ユーザーの翻訳レベルの判定は、ユーザーが作成した文章を、上記した判定手段を用いて決定することができる。勿論、これ以外にも、ユーザー自身が翻訳レベル(翻訳を必要とするレベル)を入力するようにしてもよい。
さらに本発明に係る翻訳プログラムは、複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、文または文章を一の言語で表した文書を入力する入力手段と、翻訳レベルを設定する設定手段と、少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段とを有する。プログラムは、電子媒体に記憶されたものであってもよいし、ネットワーク等の通信により取得可能なものであってもよい。
本発明の翻訳装置によれば、ユーザーの翻訳レベルまたはスキルに応じて、入力文書から翻訳に必要な文を抽出して翻訳することができる。これにより、ユーザーにとって読解することが困難な文または文章のみを翻訳することで、入力文書の効果的な部分翻訳を実現することができる。
以下、本発明の最良の実施形態について図面を参照して説明する。
図1は、本発明の実施例に係る部分翻訳装置の構成を示す図である。部分翻訳装置10は、入力装置12、表示装置14、主記憶装置16、記憶装置18、中央処理装置(CPU)20、これらを接続するバス22を含んでいる。
入力装置12は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取る光学式読取装置(スキャナ)、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。さらに、入力装置12は、ユーザーにとって翻訳を必要とする難易度レベルを入力する。
表示装置14は、入力文書を部分翻訳した出力文書等を表示するディスプレイ等を含む。主記憶装置16は、ROMまたはRAMを含み、入力された文書に含まれる文または文章を形態素解析、構文解析、意味解析等を行うプログラム、ユーザーからの難易度レベルに応じて入力文を翻訳するプログラム、演算処理されたデータ等を記憶する。記憶装置18は、例えばハードディスク等の大容量記憶装置を含み、後述する単語辞書、文法辞書、翻訳判定コーパス、スキャナによって光学的に読取られた文書データ等を蓄積する。CPU(Central Processing Unit)20は、主記憶装置16に記憶されたプログラムに従い各部を制御する。
次に、本実施例に係る部分翻訳装置の要旨を図2を用いて説明する。先ず、部分翻訳装置10には、ユーザーが翻訳を必要とする難易度レベルが設定される。ここでは、難易度レベル5が設定されたとする。次に、英語の文または文章を含む入力文書30が入力されると、部分翻訳装置10は、入力文書に含まれる文が難易度レベル5以下か否かを自動的に判定する。この判定は、翻訳判定器40によって行われる。それぞれのレベルに応じて翻訳をすべきか否かを判定するための判定情報が翻訳判定コーパス50に格納されており、翻訳判定器40は、難易度レベル5に相当する判定情報と入力文を照合し、入力文を翻訳すべきか否か、あるいは入力文が難易度レベル6以上であるか否かを判定する。翻訳判定器40によって翻訳すべきと判定された文は、機械翻訳器60によって日本語に翻訳され、そうでない文は、翻訳されずにそのままの英語で出力される。その結果、部分翻訳装置10は、難易度レベルが6以上の文が日本語に翻訳された文と、言語のままの英文とが混在する翻訳結果文書32を出力する。
図3に翻訳判定器の詳細な機能ブロックを示す。翻訳判定器40は、入力文書30および難易度レベルを示すレベル設定34を受け取る翻訳管理部42と、翻訳判定コーパス50を参照して入力文書30に含まれる文のレベルを翻訳すべきか否かを判定するレベル別翻訳判定部44とを有している。レベル別翻訳判定部44の判定結果に応じて、翻訳管理部42は、入力文書30に含まれる文を機械翻訳器60に翻訳させ、その結果を受け取る。翻訳管理部42は、翻訳すべきでないとの判定結果を受けたとき、入力文書30に含まれる文を原語のままの状態で、翻訳結果文書32に出力する。
図4は、翻訳判定コーパスの構成を示す図である。翻訳判定コーパス50は、コーパス作成用文書52を用い、翻訳判定コーパス構築器54によって作成される。翻訳判定コーパス構築器54は、レベル別単語辞書構築部54aと、レベル別文法辞書構築部54bと、レベル別統計情報データベース構築部54cとを含み、これらによって、レベル別単語辞書と、レベル別文法辞書と、レベル別統計情報データベースとが作成される。
図5は、翻訳判定コーパスの詳細を説明する図である。翻訳判定コーパスは、ユーザーが定義したN(0、1、・・・k、・・・N−1、N)個の難易度レベルに相当したレベルコーパスから構成されている。レベル0からレベルNまでのレベル別に、単語辞書56a、文法辞書56b、統計情報データベース56cが構成されている。単語辞書56aは、それぞれのレベルの単語を記憶したものであり、文法辞書56bは、それぞれのレベルの文の文法情報を記憶したものであり、統計情報データベース56cは、それぞれのレベルの文の統計情報を記憶したものである。
次に、翻訳判定コーパスの構築方法について図6ないし図8を参照して説明する。図6に示すように、コーパス作成用文書52が翻訳管理部42に入力されると、翻訳管理部42は、コーパス用作成文書のレベルラベル付き分を抽出する(ステップS101)。次に、翻訳管理部42は、レベルを参照し、低レベルの文から順(レベル0からN)に辞書に追加する。ここでは、一例として、レベルkのコーパスの作成例を説明する。
レベルkのラベル付き対象文が得られると(ステップS103)、その対象文から単語が抽出され(ステップS104)、抽出された単語がレベル別単語辞書構築部54aへ供給される。また、対象文から文法情報が抽出され(ステップS105)、これがレベル別文法辞書構築部54bに供給され、さらに、対象文から統計情報が抽出され(ステップS106)、これがレベル別統計情報データベース構築部54cに供給される。
図7は、レベル別単語辞書構築部、レベル別文法辞書構築部およびレベル別統計情報データベース構築部の詳細を示す図である。レベル別単語辞書構築部54aは、レベルkラベル付き対象文の単語を受け取ると、該単語がレベルk以下の単語辞書に含まれているか否かをチェックする(ステップS201)。レベルK以下の辞書に含まれていない単語のみをレベルk単語辞書56aに登録する(ステップS202)。レベル別文法辞書構築部54bは、レベルkラベル付き対象文の文法情報を受け取ると、該文法情報がレベルk以下の文法辞書に含まれているか否かをチェックする(ステップS210)。レベルk以下の辞書に文法情報が含まれていない場合、レベルkの文法辞書56bに登録する。レベル別統計情報データベース構築部54cは、レベルkラベル付き対象文の統計情報をレベルkの統計情報56cに登録する(ステップS220)。
翻訳判定コーパスのレベルは、ユーザーによって定義されるが、一般的に使用されている基準をレベル設定に用いることができる。例えば、図8に示すように、TOEICの点数を基準にレベルを設定したり、教科書(受験参考書、高校、中学の教科書)を基準にレベルを設定したり、ケース別例文集(ビジネス英会話、日常英会話集、手紙例文集、あいさつ例文集)を基準にレベルを設定することができる。
次に、本実施例の部分翻訳装置の動作について図9および図10を参照して説明する。ここでは、ユーザーによって難易度レベルkが設定されているものとする。先ず、入力文書30が部分翻訳装置に入力される。入力文書30は、スキャナーにより読取ったイメージをOCRによりテキストデータ化したもの、他の電子媒体やネットワークを通じて電子的に得られたも、キー入力されたものであってもよい。翻訳管理部42は、入力文書30を受け取ると、入力文書を文単位に切り分け(ステップS301)、対象文を抽出する(ステップS302)。
翻訳管理部42により抽出された対象文は、レベル別翻訳判定部44に供給される。レベル別翻訳判定部44は、対象文から単語、文法情報、および統計情報を抽出し(ステップS303)、抽出された単語、文法情報、および統計情報をレベルk判定処理46へ供給する。レベルk判定処理46は、対象文を、翻訳判定コーパス50と照合し、翻訳が必要であるか否かを判定する(ステップS304)。
図11に、レベルk判定処理の詳細を示す。レベルk判定処理46は、入力した対象文の単語を、単語に関するレベルk判定ルール(a)、単語に関するレベルK判定ルール(b)に基づき翻訳が必要か否かを判定する。この判定ルールは、単一であってもよいし、複数であってもよい。同様に、入力された文法情報は、文法に関するレベル判定ルール(a)、(b)に基づき翻訳が必要か否かを判定され、入力された統計情報は、統計情報によるレベルk判定ルール(a)、(b)によって翻訳が必要であるか否かを判定される。レベルk判定処理46は、各判定結果のうち、ユーザーが予め設定した判定手法の結果を組合せ、あるいは選択し、対象文を翻訳すべきか否かを判定する。
レベルk判定処理46による判定結果は、翻訳管理部42へ出力される(ステップS305)。翻訳管理部42は、レベル別翻訳判定部44からの判定結果を受け取ると、保持していた対象文を判定結果に応じて処理する。すなわち、翻訳が不要であると判定された場合には、対象文を翻訳することなく原文のまま出力し(ステップS306)、他方、翻訳が必要であると判定された場合には、機械翻訳装置60に対象文を機械翻訳させる(ステップS307)。そして、翻訳管理部42は、各対象文の結果を連結し(ステップS308)、これを翻訳結果文書として出力する(ステップS309)。出力は、ディスプレイへの表示や、プリンタへの印字を含む。こうして、ユーザーが設定した難易度レベルに応じて対象文が翻訳されることになる。
次に、より具体的な例をもって各部の動作を説明する。入力文書に含まれる文が、「John opened the door」という英文と仮定する。翻訳管理部42は、対象文を受け取ると、対象文を形態素解析し、単語を抽出する。これにより、図12(a)に示すように、単語が抽出される。
翻訳管理部42はさらに、対象文を形態素解析、構文解析、意味解析し、意味木を構築する。これにより、図12(b)に示すような木構造を示す文法情報が得られる。図中、「N」は名詞、「V」は動詞、「subj」は主語、「obj」は目的語、「adj」は形容詞を示している。意味木において、品詞に加えて、活用情報等を付加することもできる。
さらに翻訳管理部42は、形態素解析処理によって抽出された単語と該単語の出現頻度を1情報とした統計情報を算出する。これにより、図12(c)に示すような統計情報が得られる。
次に、レベル別翻訳判定部44の詳細について説明する。図11に示したように、レベル別翻訳判定部44は、単語に関するレベル判定ルール、文法に関するレベル判定ルール、統計技術によるレベル判定ルールを備えている。
最初に、第1の単語に関するレベル判定ルールについて説明する。レベル別翻訳判定部44は、以下の数式1を満足する場合、翻訳が必要と判定する。すなわち、入力文の単語の総数Nwsと、入力文の単語のうち、レベルk以下の単語辞書に含まれる単語の数との比を、ユーザーが設定した難易度レベル(設定値)と比較し、設定値よりも小さければ翻訳を必要とする。
Figure 2007286925
例えば、入力文が「This system can provide several Web services」であり、難易度レベル5(設定値0.9)が設定されている場合、図13に示すように、入力文に含まれる単語のレベルが識別され、数1による値が算出される。その結果、設定値よりも小さいので、翻訳が必要であると判定される。
また、第2の単語に関する判定ルールとして、以下の数式2を満足する場合、翻訳が必要と判定する。すなわち、入力文中のレベルkに属する単語数をαlとし、レベルl中のパラメータをSwlとする。
Figure 2007286925
例えば、入力文が「This system can provide several Web services」であり、難易度レベル5(設定値0.9)が設定されている場合、レベル5以下のパラメータを1以下、レベル5以上のパラメータを1以上とすると、図14に示すような判定結果が0.9となり、翻訳が必要と判定される。数式1の判定ルールと比較して、難易度レベルからどれくらい離れているのかを指標にすることができる。
次に、第1の文法に関するレベル判定ルールについて説明する。レベル別翻訳判定部44は、以下の数式3を満足する場合、翻訳が必要と判定する。すなわち、入力文の結合の種類数Nvsと、レベルk文法辞書の登録構文木のうち咲いたの結合の種類数との比が設定値(難易度レベル)よりも小さければ、翻訳が必要と判定する。
Figure 2007286925
例えば、入力文が「This system can provide several Web services」であり、難易度レベル5(設定値0.8)が設定されている場合、入力文の構文解析は、図15に示すようになり、数3による値が算出される。その結果、翻訳は不要であると判定される。
次に、第2の文法に関するレベル判定ルールを説明する。第2の文法に関するレベル判定ルールは、第1のルールが木構造の種類を対象にしたのに対し、木構造の深さを対象にしている。すなわち、以下の数式4を満足するとき、翻訳は必要であると判定する。入力文の深さをNdsと、レベルkの文法辞書における最深数との比が設定値よりも大きければ、翻訳は必要であると判定する。
Figure 2007286925
例えば、入力文が「This system can provide several Web services」であり、難易度レベル5(設定値0.6)が設定されている場合、入力文の構文解析は、図16に示すようになり、数4による値が算出される。その結果、翻訳は必要と判定される。
次に、第3の文法に関するレベル判定ルールについて説明する。第3の判定ルールは、木構造の下位ノードから順にノードにかかる重みを定義し、ルートノードにかかる重み(+ルートノード自身の重さ)によって判定する。ここでのノードは、単語を意味する。数式5を満足する場合には、翻訳を必要とする。
Figure 2007286925
ノードwにかかる重みRwは、数式6によって求められる。なお、Eの設定に品詞に関するパラメータや単語レベルに関するパラメータを使用することもできる。
Figure 2007286925
図17は、ノードa、b、cをルートLab、Lacで表された木構造であるとき、数式6に従い算出されたノードaに係る重みRaを示している。
例えば、入力文が「This system can provide several Web services」であり、難易度レベル5(設定値1.0)が設定され、枝の種類によって重みが異なる設定とする。ノード自身の重さE=1とする。このときの判定例を図18に示す。
計算結果が設定値よりも大きいため、翻訳は必要と判定される。
次に、統計技術によるレベル判定ルールについて説明する。この判定ルールは、統計情報データベースの単語出現頻度、単語辞書、および文法辞書を用いて、特徴ベクトルとその特徴ベクトルの判定器を構築し、判定を行う。図19(a)に示すように、入力文、または単語辞書から単語の統計情報を素性とする特徴ベクトルを求める。または、入力文、または単語辞書、文法辞書および統計情報データベースを用いて、単語の統計情報、単語情報、および文法情報を素性とする特徴ベクトルを求める。
特徴ベクトルの判定器として、レベルk以下の辞書から作成された特徴ベクトルを正例、レベルk+1以上の特徴ベクトルを負例とした機械学習の2値分類器を構築し、レベルkの判定器とすることができる。例として、Support Vector Machine(SVM)、あるいは Neural Networkがある。
入力文が「This system can provide several Web services」であるとき、単語の出現頻度を素性とする特徴ベクトルを図20(a)に示し、祝言頻度、単語情報、および文法情報を用いた特徴ベクトルを図20(b)に示す。
次に、本発明の第2の実施例に係る部分翻訳装置について説明する。図21は、第2の実施例に係る部分翻訳装置の構成を示す図である。第2の実施例では、第1の実施例にように難易度レベルを設定する代わりに、ユーザーの翻訳能力またはスキルに応じて自動的に難易度レベルを設定する機能を有している。このため、ユーザーの翻訳レベルを登録したユーザー翻訳レベルデータベース100と、ユーザー名またはユーザーを識別する情報(ログインIDなど)に基づきユーザー翻訳レベルデータベース100からユーザーの翻訳レベルを検索するユーザー翻訳レベル検索器110を備えている。
こうして、翻訳時にユーザーは自分の難易度レベルを指定しなくても翻訳を行うことができる。ユーザー翻訳レベルデータベースに登録されている各ユーザーの翻訳レベルは、図22に示す翻訳レベル推定器によって推定することができる。あるいは、ユーザー翻訳レベルデータベースのユーザーレベルは、ユーザー自身が決定するようにしてもよい。
ユーザー翻訳レベル推定器120は、ユーザーが過去に作成したドキュメント(ユーザーレベル推定ドキュメント)を受け取り、ドキュメントの種類に応じて推定対象文をドキュメントから抽出する推定対象文抽出部122と、第1の実施例で用いた翻訳判定器のレベル判定機能を用いて推定対象文の翻訳レベルを推定する翻訳レベル推定部124とを備えている。翻訳レベル推定部124は、ユーザーが読解可能な難易度レベルを自動推定し、ユーザーとユーザーの難易度レベルをユーザー翻訳レベルデータベース100に登録する。
次に、翻訳レベル推定器における推定対象文の翻訳レベルの推定動作の例を図23に示す。ここでは、第1の実施例で用いた翻訳判定器の各レベル判定機能を用いて、図23に示すように、上位レベル判定から順に翻訳判定し(レベルN、レベルN−1、・・・レベルK、・・・レベル1)、翻訳不必要と判定されるレベルを抽出する。この抽出されたレベルが、ユーザーの推定翻訳レベルとなる。
次に、翻訳レベル推定器で用いるユーザーレベル推定ドキュメントの例を図24に示す。この例は、ユーザーのテストの添削結果を用いる。ユーザーが過去に受けたテストの間違った問題の正解(文・単語)を翻訳推定器120に入力し、各推定結果のうち最も低いレベルを該レベルとする。例えば、図24に示すように、ユーザーが問題2と問題4を誤ったとき、その正解文または正解単語から翻訳レベルを推定する。レベル3とレベル7のようにレベルが異なった場合には、最も低いレベル(レベル3)をユーザーレベルとして推定する。
また、ユーザーが作成した外国語文書やコーパスを推定対象文とし、各推定レベルのうち最も低いレベルをユーザー推定レベルとするようにしてもよい。
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明は、入力文書に含まれる文または文章を翻訳する翻訳装置、翻訳システム、翻訳プログラム等において利用される。
本発明の実施例に係る部分翻訳装置の構成を示すブロック図である。 本実施例の部分翻訳装置の概要を説明する図である。 図2の翻訳判定器の機能ブロック図を示す図である。 図2の翻訳判定コーパスの構成を説明する図である。 翻訳判定コーパスの詳細を示す図である。 翻訳判定コーパスの構築方法を示す図である。 レベル別単語辞書構築部、レベル別文法辞書構築部およびレベル別統計情報データベース構築部の詳細を示す図である。 翻訳コーパスのレベル設定例を示す図である。 本実施例の翻訳判定動作を示す図である。 本実施例の翻訳判定動作を示す図である。 レベルK判定処理の詳細を示す図である。 図12(a)は単語の抽出例、図12(b)は文法情報、図12(c)は統計情報の例を示している。 本実施例に係る第1の単語に関するレベル判定ルールを説明する図である。 本実施例に係る第2の単語に関するレベル判定ルールを説明する図である。 本実施例に係る第1の文法に関するレベル判定ルールを説明する図である。 本実施例に係る第2の文法に関するレベル判定ルールを説明する図である。 本実施例に係る第3の文法に関するレベル判定ルールを説明する図である。 第3の文法に関するレベル判定ルールによる判定例を示す図である。 本実施例に係る統計情報に関するレベル判定ルールを説明する図である。 統計情報に関するレベル判定ルールによる特徴ベクトルの例を示す図である。 本発明の第2の実施例に係る部分翻訳装置の構成を示すブロック図である。 図21に示す翻訳レベル推定器の構成を示す図である。 翻訳対象文の翻訳レベル推定動作例を示す図である。 ユーザーレベル推定ドキュメントの例を示す図である。
符号の説明
10:部分翻訳装置 30:入力文書
32:翻訳結果文書 34:レベル設定
40:翻訳判定器 42:翻訳管理部
44:レベル別翻訳判定部 50:翻訳判定コーパス
52:コーパス作成用文 54:翻訳判定コーパス構築器
54a:レベル別単語辞書構築部 54b:レベル別文法辞書構築部
54c:レベル別統計情報構築部 56a:単語辞書
56b:文法辞書 56c:統計情報
60:機械翻訳器

Claims (16)

  1. 一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳装置であって、
    複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、
    文または文章を一の言語で表した文書を入力する入力手段と、
    翻訳レベルを設定する設定手段と、
    少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、
    前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段と、
    を有する翻訳装置。
  2. 前記判定情報は、複数のレベル別に単語を登録した単語辞書を含む、請求項1に記載の翻訳装置。
  3. 前記判定情報は、複数のレベル別に文の文法情報を登録した文法辞書を含む、請求項1に記載の翻訳装置。
  4. 前記判定情報は、複数のレベル別に文の統計情報を含む、請求項1に記載の翻訳装置。
  5. 前記入力手段は、前記翻訳対象を形態素解析し、前記翻訳対象に含まれる単語を抽出し、前記判定手段は、抽出された単語と前記単語辞書に登録された単語とを比較し、翻訳すべきか否かを判定する、請求項1または2に記載の翻訳装置。
  6. 前記判定手段は、前記翻訳対象に含まれる各単語のレベルを判別し、その判別結果から翻訳をすべきか否かを判定する、請求項5に記載の翻訳装置。
  7. 前記判定手段は、前記翻訳対象に含まれる単語の数と、前記翻訳対象に含まれる単語のうち一定のレベル以下の単語辞書に含まれる単語の数との比から翻訳をすべきか否かを判定する、請求項5または6に記載の翻訳装置。
  8. 前記判定手段は、前記翻訳対象に含まれる各単語の相対的なレベルの差から翻訳をすべきか否かを判定する、請求項5または6に記載の翻訳装置。
  9. 前記入力手段は、前記翻訳対象を意味解析し、前記翻訳対象の木構造を作成し、前記判定手段は、前記木構造と前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項1または3に記載の翻訳装置。
  10. 前記判定手段は、前記木構造の結合の種類と前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項9に記載の翻訳装置。
  11. 前記判定手段は、前記木構造の結合の深さと前記文法辞書に登録された文法情報とを比較し、翻訳すべきか否かを判定する、請求項9に記載の翻訳装置。
  12. 前記判定手段は、前記翻訳対象に含まれる文の木構造のノードの重みから翻訳すべきか否かを判定する、請求項1または3に記載の翻訳装置。
  13. 前記入力手段は、前記翻訳対象を形態素解析し、前記翻訳対象に含まれる単語の出現頻度から特徴ベクトルを作成し、前記特徴ベクトルと前記統計情報とを比較し、翻訳すべきか否かを判定する、請求項1または4に記載の翻訳装置。
  14. 前記判定手段は、前記単語辞書、前記文法辞書および前記統計情報のすべてを利用して、前記翻訳対象を翻訳すべきか否かを判定する、請求項1ないし13いずれか1つに記載の翻訳装置。
  15. 前記設定手段はさらに、ユーザーの翻訳レベルを登録したデータベースと、前記データベースに登録されたユーザーを検索する検索手段とを含み、前記設定手段は、検索されたユーザーの翻訳レベルを設定する、請求項1に記載の翻訳装置。
  16. 一の言語で表された文または文章を他の言語で表された文または文章に翻訳する翻訳プログラムであって、
    複数のレベル別に翻訳をすべきか否かの判定情報を記憶する記憶手段と、
    文または文章を一の言語で表した文書を入力する入力手段と、
    翻訳レベルを設定する設定手段と、
    少なくとも前記設定された翻訳レベルに対応するレベルの前記判定情報を用い、入力文書に含まれる翻訳対象を翻訳すべきか否かを判定する判定手段と、
    前記判定手段により前記翻訳をすべきと判定されたとき、前記翻訳対象を他の言語に翻訳し、翻訳すべきでないと判定されたとき、前記翻訳対象を一の言語のままとして、前記翻訳対象を出力する翻訳管理手段と、
    を有する翻訳プログラム。
JP2006113897A 2006-04-17 2006-04-17 部分翻訳装置 Pending JP2007286925A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006113897A JP2007286925A (ja) 2006-04-17 2006-04-17 部分翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006113897A JP2007286925A (ja) 2006-04-17 2006-04-17 部分翻訳装置

Publications (1)

Publication Number Publication Date
JP2007286925A true JP2007286925A (ja) 2007-11-01

Family

ID=38758635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006113897A Pending JP2007286925A (ja) 2006-04-17 2006-04-17 部分翻訳装置

Country Status (1)

Country Link
JP (1) JP2007286925A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043286A (ja) * 2010-08-20 2012-03-01 Kddi Corp 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
JP2020517008A (ja) * 2017-04-05 2020-06-11 ティーストリート プロプライアタリー リミテッド 言語翻訳支援システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043286A (ja) * 2010-08-20 2012-03-01 Kddi Corp 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN105224524B (zh) * 2015-09-02 2022-01-25 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
JP2020517008A (ja) * 2017-04-05 2020-06-11 ティーストリート プロプライアタリー リミテッド 言語翻訳支援システム
US11455476B2 (en) 2017-04-05 2022-09-27 TSTREET Pty Ltd Language translation aid
JP7212333B2 (ja) 2017-04-05 2023-01-25 ティーストリート プロプライアタリー リミテッド 言語翻訳支援システム

Similar Documents

Publication Publication Date Title
Molina et al. Overview for the second shared task on language identification in code-switched data
Oudah et al. A pipeline Arabic named entity recognition using a hybrid approach
US20200159755A1 (en) Summary generating apparatus, summary generating method and computer program
Younes et al. Constructing linguistic resources for the Tunisian dialect using textual user-generated contents on the social web
Ljubešić et al. Standardizing tweets with character-level machine translation
Othman et al. English-asl gloss parallel corpus 2012: Aslg-pc12
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
US10380250B2 (en) Entailment pair extension apparatus, computer program therefor and question-answering system
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
Kaity et al. An automatic non-English sentiment lexicon builder using unannotated corpus
CN112560510B (zh) 翻译模型训练方法、装置、设备及存储介质
Cotelo et al. A modular approach for lexical normalization applied to Spanish tweets
CN114818891A (zh) 小样本多标签文本分类模型训练方法及文本分类方法
Abidi et al. An automatic learning of an algerian dialect lexicon by using multilingual word embeddings
Álvarez et al. Towards customized automatic segmentation of subtitles
KR101941692B1 (ko) 한국어 개체명 인식방법 및 장치
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Tedla et al. Analyzing word embeddings and improving POS tagger of tigrinya
JP2007286925A (ja) 部分翻訳装置
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Arora et al. Pre-processing of English-Hindi corpus for statistical machine translation
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Oudah et al. Person name recognition using the hybrid approach
Huang et al. Towards a better learning of near-synonyms: Automatically suggesting example sentences via fill in the blank
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质