JP6175900B2 - 翻訳装置、方法、及びプログラム - Google Patents

翻訳装置、方法、及びプログラム Download PDF

Info

Publication number
JP6175900B2
JP6175900B2 JP2013109037A JP2013109037A JP6175900B2 JP 6175900 B2 JP6175900 B2 JP 6175900B2 JP 2013109037 A JP2013109037 A JP 2013109037A JP 2013109037 A JP2013109037 A JP 2013109037A JP 6175900 B2 JP6175900 B2 JP 6175900B2
Authority
JP
Japan
Prior art keywords
translation
candidate
sentence
original sentence
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013109037A
Other languages
English (en)
Other versions
JP2014229122A (ja
Inventor
育昌 鄭
育昌 鄭
友樹 長瀬
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013109037A priority Critical patent/JP6175900B2/ja
Priority to US14/254,226 priority patent/US20140350913A1/en
Publication of JP2014229122A publication Critical patent/JP2014229122A/ja
Application granted granted Critical
Publication of JP6175900B2 publication Critical patent/JP6175900B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

開示の技術は、翻訳装置、翻訳方法、及び翻訳プログラムに関する。
機械翻訳の翻訳品質を向上させるための技術として、「原文前編集」が知られている。原文前編集とは、翻訳先の言語に翻訳する前に原文に加える修正である。例えば、原文において、主語が抜けている場合には主語を補ったり、係り受け関係が明確でない場合には、係り受け関係が明確になるように修正したりする。このように、意味を変えることなく原文に前編集を行うことで、原文の構文解析等の解析精度が向上し、翻訳品質を向上させることができる。
例えば、適用条件と編集方法とを特定する情報を含む複数の前編集規則を格納しておき、入力テキスト内の前編集規則を適用すべき箇所を検出し、検出された箇所に、対応する前編集規則を適用して、入力テキストを前編集する技術が提案されている。この技術では、予め所定の基準に従って分類された複数種類の前編集規則群から、入力テキストの分野に応じた前編集規則群を選択して、入力テキストに適用している。
特開平5−225232号公報
しかし、翻訳に先立って原文に対して適切な前編集を行うことにより、翻訳品質の向上が図れる場合もあるが、一方で、原文に対して適切な前編集が行われなかった場合には、前編集が悪影響となり、翻訳品質を低下させる場合もある。翻訳品質を低下させないように適切な前編集規則を原文に適用できればよいが、前編集による訳文への影響を予測して前編集規則の適用可否を判別することは困難である。特に、複数の前編集規則を複合的に適用する場合には、前編集による訳文への影響はより複雑となるため、前編集による訳文への影響を予測して、複数の前編集規則の効果的な組み合わせを選択することは困難である。
また、翻訳品質を向上させるための前編集規則の作成には、専門的な言語知識や機械翻訳に対する知識が必要であり、翻訳品質の向上に有効な前編集規則を作成することは容易ではない。
開示の技術は、一つの側面として、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることが目的である。
開示の技術は、第1言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部を備えている。また、開示の技術は、前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳する翻訳部を備えている。また、開示の技術は、前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部を備えている。また、開示の技術は、前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部を備えている。
開示の技術は、一つの側面として、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることができる、という効果を有する。
第1実施形態に係る翻訳装置の構成の一例を示すブロック図である。 言語解析の一例を示す図である。 前編集規則データベースの一例を示す図である。 原文候補の一例を示す図である。 訳文候補の一例を示す図である。 逆翻訳文の一例を示す図である。 概念構造の一例を示す図である。 概念構造の要素を説明するための図である。 概念構造の類似を説明するための図である。 概念構造類似度及び適切性の判定結果の一例を示す図である。 翻訳装置として機能するコンピュータの一例を示す概略ブロック図である。 第1実施形態における翻訳処理を示すフローチャートである。 第1実施形態における選択処理を示すフローチャートである。 概念構造の一例を示す図である。 概念構造の一例を示す図である。 概念構造の一例を示す図である。 第2実施形態に係る翻訳装置の構成の一例を示すブロック図である。 第2実施形態における前編集規則判定処理を示すフローチャートである。 Tree Kernelの手法を説明するための図である。 機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。 機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。 機械翻訳部及び概念構造生成部の他の構成例を示すブロック図である。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。
<第1実施形態>
図1に、第1実施形態に係る翻訳装置10を示す。翻訳装置10は、図1に示すように、原文入力部12、言語解析部14、原文候補生成部16、機械翻訳部18、概念構造生成部20、選択部22、及び翻訳結果出力部24を備えている。
翻訳装置10には、翻訳装置10に接続されたキーボード等の入力装置を介して、またはネットワークを介して翻訳装置10と接続されたユーザ端末等から、翻訳元の言語(第1言語)により表現された原文(テキストデータ)が入力される。翻訳装置10は、原文を翻訳先の言語(第2言語)に翻訳した翻訳結果(テキストデータ)を出力する。なお、本実施形態では、翻訳元の言語(第1言語)を日本語、翻訳先の言語(第2言語)を英語とする場合について説明する。
原文入力部12は、翻訳装置10に入力された原文を受け付け、言語解析部14へ受け渡す。
言語解析部14は、原文入力部12で受け付けた原文に対し、形態素解析、文節解析、係り受け解析、及び意味解析を含む言語解析を行い、言語解析結果を出力する。具体的には、形態素解析では、図2に示すような「機械翻訳により翻訳作業を効率化」という原文を、辞書を参照して単語単位に分解する。また、図2では図示を省略しているが、各単語にその単語の読み、品詞、活用形等の情報を付与する。文節解析では、形態素解析結果に基づいて、例えば、名詞と後置詞(助詞)とを1つにまとめるなどの処理により、原文の文節単位を解析する。係り受け解析では、形態素解析結果及び文節解析結果に基づいて、文節間の係り受け関係を規則に従って解析する。意味解析では、係り受け解析結果に基づいて、修飾語と被修飾語との関係を規則に従って特定することにより、適切な係り受け関係を識別する。
また、言語解析部14は、各解析結果に基づいて、原文の概念構造(詳細は後述)を生成してもよい。なお、言語解析部14は、原文の言語解析として、形態素解析、文節解析、係り受け解析、意味解析、及び概念構造の生成の全てを行う必要はなく、後述する原文候補生成部16における前編集規則の適用時に必要な解析を行えばよい。
原文候補生成部16は、言語解析部14から出力された言語解析結果に基づいて、前編集規則データベース(DB)30を参照し、適用可能な前編集規則の各々を原文に適用し、複数の原文候補を生成する。
前編集規則DB30には、例えば、図3に示すように、言語解析結果により特定可能な表現パターンと、その表現パターンに相当する原文の箇所をどのように変換するかを定めた前編集規則が各々対応付けられている。言語解析結果により特定可能な表現パターンとは、各解析結果の特徴を用いて表されたパターンである。例えば、図3の例では、形態素解析結果に含まれる品詞や形態素の表記等の特徴により表現パターンが表されている。また、各前編集規則には、前編集規則毎の識別番号である規則IDが付与されている。以下では、規則IDが1の規則を「規則1」と表記する。他の規則IDについても同様である。
ここで、各前編集規則は、原文に表れる部分的な表現パターンを認識対象としており、原文全体の構造、意味、文脈等を考慮する必要はない。すなわち、原文及び翻訳先の言語に対する専門的な知識や、機械翻訳において翻訳品質を向上させるための知識等を必要とすることなく、また、前編集が翻訳結果に与える影響を考慮することなく、あらゆる前編集規則を定めておくことができる。なお、本実施形態では、表現パターンが言語解析結果により特定可能である場合について説明するが、言語解析結果に基づかない前編集規則を定めておいてもよい。例えば、「により」、「の」、「を」など、単純に部分的な表記のみを表現パターンとして定めておき、この部分的な表記部分を他の表記に変換する前編集規則を定めておくことができる。また、表現パターンに関係なく、文頭に「私は」等の主語を追加する前編集規則や、文末に「する」等の述語を追加する前編集規則を定めておいてもよい。
原文候補生成部16は、上記の前編集規則DB30に格納された前編集規則の各々と、言語解析結果とを比較し、原文において前編集規則DB30に含まれる表現パターンに一致する箇所を認識する。そして、表現パターンに一致した箇所を、その表現パターンに対応する前編集規則に従って変換する。原文が複数の表現パターンに一致する箇所を含む場合には、対応する複数の前編集規則を適用する。以下では、原文に対して複数の前編集規則が適用される場合、その複数の前編集規則を「組み合わせ規則」といい、規則(1,4)のように表記する。規則(1,4)は規則1と規則4との組み合わせ規則であることを表す。
例えば、原文が「機械翻訳により翻訳作業を効率化」の場合、図3の前編集規則DB30を参照すると、「機械翻訳により」の箇所が、規則1に対応する表現パターン「名詞A+により」に一致する。この箇所を規則1の前編集規則「名詞A+による」に従って変換すると、「機械翻訳による翻訳作業を効率化」という原文候補が生成される。また、同じ原文において、「・・・効率化」の箇所が、規則5に対応する表現パターン「[文末]サ変名詞」に一致する。この箇所を規則5の前編集規則「[文末]サ変名詞+する」に従って変換すると、「機械翻訳により翻訳作業を効率化する」という原文候補が生成される。また、規則(1,5)を適用すると、「機械翻訳による翻訳作業を効率化する」という原文候補が生成される。このように、一致する表現パターンに対応する前編集規則の各々、及び組み合わせ規則を全て適用して、複数の原文候補を生成する。生成した原文候補は原文候補格納部32へ格納する。
原文候補生成部16で生成した原文候補の一例を図4に示す。図4では、原文候補を生成する際に適用した前編集規則及び組み合わせ規則の規則IDを合わせて表記している。また、生成した原文候補を原文候補格納部32へ格納する際には、原文候補毎の識別番号である原文候補IDを各原文候補に付与する。なお、原文候補IDが1の原文候補(以下、「原文候補1」と表記。他の原文候補IDについても同様)は、前編集を行っていない原文のままの状態である。原文のままの状態を原文候補として残すのは、原文のままの方が品質の良い翻訳結果が得られる場合もあることを考慮したものである。
機械翻訳部18は、原文候補格納部32に格納された原文候補の各々に対して、機械翻訳を行い、日本語の原文候補を英語に翻訳した訳文候補を生成する。この原文の言語(第1言語、ここでは日本語)から、翻訳先の言語(第2言語、ここでは英語)への翻訳を「順翻訳」という。具体的には、機械翻訳部18は、原文候補の各々に対して、言語解析部14と同様に、形態素解析、文節解析、係り受け解析、及び意味解析を行い、各解析結果を概念構造生成部20に受け渡す。
また、機械翻訳部18は、概念構造生成部20で生成された原文候補の各々の概念構造(詳細は後述)受け取り、原文候補の各々の概念構造に基づいて、訳文候補の各々を生成する。具体的には、原文候補の概念構造に含まれる各要素が示す概念を英語の単語に置換すると共に、英語の構文解析に従って概念構造から英語の文を組み立てる。これにより、原文候補の各々に対応した訳文候補の各々が生成される。機械翻訳部18は、生成した訳文候補の各々を、訳文格納部36へ格納する。機械翻訳部18で生成した訳文候補の一例を図5に示す。生成した訳文候補を訳文格納部36へ格納する際には、訳文候補毎の識別番号であり、かつ原文候補IDと対応した訳文候補IDを各訳文候補に付与する。なお、訳文候補IDが1の訳文候補を、以下では、「訳文候補1」と表記する。他の訳文候補IDについても同様である。
また、機械翻訳部18は、訳文格納部36に格納された訳文候補の各々に対して、機械翻訳を行い、英語の訳文候補を日本語に翻訳した逆翻訳文を生成する。この翻訳先の言語(第2言語、ここでは英語)から、原文の言語(第1言語、ここでは日本語)への翻訳を「逆翻訳」という。具体的には、機械翻訳部18は、訳文候補の各々に対して、言語解析部14と同様に、形態素解析、文節解析、係り受け解析、及び意味解析を行い、各解析結果を概念構造生成部20に受け渡す。
また、機械翻訳部18は、概念構造生成部20で生成された逆翻訳文の各々の概念構造(詳細は後述)を受け取り、逆翻訳文の各々の概念構造に基づいて、逆翻訳文の各々を生成する。具体的には、逆翻訳文の概念構造に含まれる各要素が示す概念を日本語の単語に置換すると共に、日本語の構文解析に従って概念構造から日本語の文を組み立てる。これにより、訳文候補の各々に対応した、すなわち原文候補の各々に対応した逆翻訳文の各々が生成される。機械翻訳部18は、生成した逆翻訳文の各々を、訳文格納部36へ格納する。機械翻訳部18で生成した逆翻訳文の一例を図6に示す。生成した逆翻訳文を訳文格納部36へ格納する際には、逆翻訳文毎の識別番号であり、かつ原文候補IDと対応した逆翻訳文IDを各逆翻訳文に付与する。なお、逆翻訳文IDが1の逆翻訳文を、以下では、「逆翻訳文1」と表記する。他の逆翻訳文IDについても同様である。
概念構造生成部20は、機械翻訳部18から受け渡された原文候補の各々の各解析結果に基づいて、文節間の意味関係を特定し、原文候補の各々の概念構造を生成し、概念構造格納部34に格納すると共に、機械翻訳部18に受け渡す。また、概念構造生成部20は、機械翻訳部18から受け渡された訳文候補の各々の各解析結果に基づいて、訳文候補の各々の概念構造(逆翻訳文の概念構造と同値)を生成し、概念構造格納部34に格納すると共に、機械翻訳部18に受け渡す。
ここで、概念構造とは、文の意味を構造化したものであり、語順、表記揺れ、同義語、類義語等の影響を最小限に抑えた言語非依存の意味的構造の表現方式であり、例えば、図7に示すように表現することができる。図7は、原文候補1の概念構造の例である。概念構造に含まれる各要素の図例及び意味を図8に示す。図8に示すように、概念構造は、概念ノード、ノード関係、ノード属性、及び中心概念を要素として含む。なお、図7の例では、説明のため、各要素を日本語で表しているが、実際には、言語に依存しない概念を示す値が各要素に付与されている。従って、概念が同一の要素は、原文の言語と翻訳先の言語とで同値となる。
概念ノードは、文に含まれる概念(意味)を持った単語(自立語)の各々を言語間で共通の概念として表したものである。図7の例では、「機械翻訳」、「効率化」、「翻訳」、及び「作業」という概念ノードが含まれている。すなわち、原文候補1に、「機械翻訳」、「効率化」、「翻訳」、及び「作業」という概念を持った単語が含まれていることを表す。
ノード関係は、意味的に関係のある概念ノード間を連結すると共に、連結された概念ノード間の関係の種類を示すものである。図7の例では、概念ノード「機械翻訳」が概念ノード「効率化」の[影響対象]であることを表している。また、概念ノード「作業」が概念ノード「効率化」の[主題]であることを表している。また、概念ノード「翻訳」が概念ノード「作業」を[修飾]する関係であることを表している。
ノード属性は、概念ノードに付属する助詞や、概念ノード自体の文法的属性を示すものである。図7の例では、概念ノード「効率化」は属性が<述語>であることを表している。また、概念ノード「作業」には助詞<を>が付属していることを表している。また、概念ノード「翻訳」は属性が<連語>であることを表している。
中心概念は、文全体の意味を支配する最も重要な概念ノードであり、ノード関係の終点とならない概念ノードである。図7の例では、概念ノード「効率化」と概念ノード「機械翻訳」との関係は、2つの概念ノードがどのような関係かを考慮すると、概念ノード「効率化」から概念ノード「機械翻訳」へ向かう矢印で表すことができる。すなわち、概念ノード「効率化」が始点で概念ノード「機械翻訳」が終点である。このようにして各概念ノードの関係をみると、概念ノード「効率化」がいずれのノード関係においても始点であり、終点となっていないため、中心概念であることが分かる。中心概念は概念構造内に1つ存在する。なお、図7の例では、中心概念である概念ノードがノード関係において終点とならないことを、始点に何も存在しない破線矢印で表している。
選択部22は、訳文格納部36に格納された訳文候補の中から、原文の翻訳結果として適切な訳文候補を選択する。選択部22は、類似度計算部222、適切性判定部224、及び訳文候補選択部226を備えている。
類似度計算部222は、概念構造格納部34に格納された原文候補の概念構造の各々と、原文候補に対応する逆翻訳文の概念構造の各々との類似度を示す概念構造類似度を計算する。
ここで、翻訳結果として適切な訳文候補を選択するために、原文候補の概念構造と逆翻訳文の概念構造との類似度を用いることの理由について説明する。
まず、原文候補1と、原文候補1に対応する訳文候補1及び逆翻訳文1とを比較する。
原文候補1:機械翻訳により翻訳作業を効率化
訳文候補1:It is efficiency improvement according to the machine translation as for the translation work.
逆翻訳文1:翻訳業務のような機械翻訳によると、それは効率化です。
上記の例では、原文候補1(原文のまま)の文法には不適切な部分があるため、順翻訳時に正確な日本語の言語解析が行えない。このような不十分な日本語の言語解析結果に基づく順翻訳の翻訳結果である訳文候補1は、翻訳品質が良いとは言えない。訳文候補1を逆翻訳した逆翻訳文1と原文候補1との意味がかけ離れていることからも、訳文候補1の品質が低いことが分かる。
次に、原文に前編集を行った原文候補7と、原文候補7に対応する訳文候補7及び逆翻訳文7とを比較する。なお、原文候補において、前編集規則が適用された箇所を[ ]で示している。
原文候補7:機械翻訳により翻訳作業[の]効率化
訳文候補7:The efficiency improvement of the translation work according to the machine translation.
逆翻訳文7:機械翻訳に従った翻訳業務の効率化。
上記の例の場合、訳文候補7を逆翻訳した逆翻訳文7と原文候補7との意味が近いことから、訳文候補7の翻訳品質が良いことが分かる。すなわち、原文候補7は原文に対して適切な前編集規則が適用されて生成された原文候補であると言える。
また、別の例として、原文に前編集を行った原文候補2と、原文候補2に対応する訳文候補2及び逆翻訳文2とを比較する。
原文候補2:機械翻訳により翻訳作業を効率化[する]
訳文候補2:The translation work is made efficiency by the machine translation.
逆翻訳文2:機械翻訳によって翻訳業務は人工の効率です。
上記の例の場合、訳文候補2を逆翻訳した逆翻訳文2と原文候補2との意味がかけ離れていることから、訳文候補2の翻訳品質が悪いことが分かる。すなわち、原文候補2は原文に対して不適切な前編集が適用されて生成された原文候補であると言える。
上述のように、原文候補と逆翻訳文との意味が近いかかけ離れているかにより、訳文候補の品質を確認することができる。原文候補と逆翻訳文との意味が近い場合には、原文候補の概念構造と逆翻訳文の概念構造との類似度は高くなる。一方、原文候補と逆翻訳文との意味がかけ離れている場合には、原文候補の概念構造と逆翻訳文の概念構造との類似度は低くなる。すなわち、順翻訳時の原文候補の概念構造と、逆翻訳時の逆翻訳文の概念構造とを比較することで、最良の翻訳結果を生成する原文候補を特定することができる。最良の翻訳結果を生成する原文候補の特定は、最良の前編集規則が適用されて生成された原文候補の特定を意味する。
また、原文候補と逆翻訳文との意味が近いかかけ離れているかを判断するには、表記や語順を用いて原文候補と逆翻訳文とを比較する場合に比べ、概念構造同士で比較する方が適切に判断することができる。以下の例文を用いて説明する。
原文候補:これは昨日私が作った計算機だ。
訳文候補:This is a computer that I made yesterday.
逆翻訳文:これは、私が昨日作ったコンピュータです。
原文候補と逆翻訳文とを比較すると、語順の変化(原文候補「昨日私が」→逆翻訳文「私が昨日」)、同義語の書き替え(原文候補「計算機だ」→逆翻訳文「コンピュータです」)、及び文構造の変化(原文候補「これは」→逆翻訳文「これは、」)が存在する。このため、原文候補と逆翻訳文とは、表記的にはかけ離れている。しかし、図9に示すように、両者の概念構造を比較すると、略一致していることが分かる。そのため、上記事例の原文候補と逆翻訳文との類似度は、意味構造を表現する概念構造で比較する場合の方が、表記や語順で比較する場合より、正確に評価することができる。なお、図9において、概念ノード「計算機」と概念ノード「コンピュータ」とは、概念としては同値である。
上記のような理由から、類似度計算部222は、原文候補の概念構造と逆翻訳文の概念構造との概念構造類似度を計算する。具体的には、原文候補とその原文候補に対応する逆翻訳文(以下、「原文候補−逆翻訳文ペア」と表記する)毎に、概念構造の構造を示す構造点と、概念構造間の相違を示す相違点とを計算し、この構造点と相違点とから概念構造類似度を計算する。
より具体的には、類似度計算部222は、例えば、概念構造に含まれる各要素の種類に応じて、下記に示すような点数を設定する。
・中心概念に対する点数:α
・中心概念以外の概念ノードに対する点数:β
・ノード関係に対する点数:γ
・ノード属性に対する点数:δ
α、β、γ、及びδの値は、概念構造における各要素の重要度を考慮して設定することができ、例えば、α>β>γ>δとすることができる。すなわち、中心概念は最も重要な概念ノードであるため、最大の重みを持ち、次は中心概念以外の概念ノード、ノード関係、ノード属性の順に重みが大きくなるように設定することができる。なお、この点数の設定は、機械翻訳装置の適用場面に応じて適宜設定可能である。例えば、原文と翻訳結果との間で、文の重要な部分の意味の維持を重視する場合はαの値を大きく設定し、文全体の意味の維持を重視する場合はβの値を大きく設定することができる。
次に、原文候補の概念構造及び逆翻訳原文の概念構造の各々に含まれる各要素から、以下の値を計算する。
・両概念構造に含まれる中心概念以外の概念ノードの数:X
・両概念構造に含まれるノード関係の数:Y
・両概念構造に含まれるノード属性の数:Z
・概念構造間の中心概念の相違:R
※例えば、中心概念が一致する場合はR=0、相違する場合はR=1
・概念構造間で相違する概念ノード数:X’
※相違する概念ノード:一方の概念構造にしか存在しない概念ノード。概念ノードの位置及び概念ノード間の関係を考慮しない。
・概念構造間で相違するノード関係の数:Y’
※相違するノード関係:ノード関係の種類またはノード関係が連結する概念ノードが異なるノード関係
・概念構造間で相違するノード属性の数:Z’
※相違するノード属性:ノード属性の種類またはノード属性が付属する概念ノードが異なるノード属性
上記のような各点数及び各値を用いて、下記に示すように、概念構造の構造点数及び概念構造間の相違点数を計算し、構造点数及び相違点数から概念構造類似度を計算する。
概念構造の構造点数=α*2+β*X+γ*Y+δ*Z
概念構造間の相違点数=α*R+β*X’+γ*Y’+δ*Z’
概念構造類似度
=(概念構造の構造点数−概念構造間の相違点数)/(概念構造の構造点数)
適切性判定部224は、原文候補−逆翻訳文ペア毎に、原文候補の表記と逆翻訳文の表記とを比較し、原文候補−逆翻訳文ペアに対応する訳文候補の翻訳結果としての適切性を判定する。原文候補と逆翻訳文との間で、概念構造同士が類似していたとしても、表記が大きく相違する場合には、その原文候補−逆翻訳文ペアに対応する訳文候補は翻訳結果として適切ではないと判定するものである。適切性判定部224は、例えば、下記の情報を用いて原文候補−逆翻訳文ペア毎に表記類似度を計算する。
・原文候補と逆翻翻訳文との文字単位編集距離:D1
・原文候補と逆翻訳文との形態素単位編集距離:D2
・原文候補の表記長さ:L1
・逆翻訳結果の表記長さ:L2
・原文候補の形態素列長さ:M1
・逆翻訳結果の形態素列長さ:M2
表記類似度=(D1/(L1+L2))+(D2/(M1+M2))
適切性判定部224は、上記のように計算した原文候補−逆翻訳文ペアの表記類似度が予め定めた閾値より高い場合は、その原文候補−逆翻訳文ペアに対応する訳文候補は適切であると判定する。また、表記類似度が予め定めた閾値以下の場合には、その原文候補−逆翻訳文ペアに対応する訳文候補は不適切であると判定する。閾値は対訳コーパスなどを用いた学習により適切な値を定めておく。
訳文候補選択部226は、類似度計算部222で計算された原文候補−逆翻訳文ペア毎の概念構造類似度、及び適切性判定部224で判定された適切性の判定結果に基づいて、複数の訳文候補の中から翻訳結果として出力する訳文候補を選択する。例えば、適切性判定部224により適切と判定された訳文候補のうち、類似度計算部222で計算された概念構造類似度が最大の原文候補−逆翻訳文ペアに対応する訳文候補を選択することができる。
図10に、類似度計算部222で計算された概念構造類似度、及び適切性判定部224で判定された適切性の一例を示す。図10の例では、適切性は、適切の場合を「OK」、不適切の場合を「NG」としている(図10では「NG」の該当なし)。図10の例では、いずれの訳文候補ペアも適切性は「OK(適切)」であるので、この中で概念構造類似度が最大である原文候補3−逆翻訳文3ペアに対応する訳文候補3が選択される。
なお、選択する訳文候補は1つである必要はない。例えば、概念構造類似度が所定値以上の原文候補−逆翻訳文ペアに対応する訳文候補を全て選択するようにしてもよい。また、概念構造類似度が上位所定個となる原文候補−逆翻訳文ペアに対応する訳文候補を選択するようにしてもよい。
翻訳結果出力部24は、選択部22で選択された訳文候補を、原文に対する翻訳結果として出力する。選択部22により複数の訳文候補が選択されている場合には、訳文候補に対応する原文候補−逆翻訳文ペアの概念構造類似度が高い順に並べ替えて出力してもよい。また、訳文候補に、対応する概念構造類似度及び適切性の判定結果を付与して出力してもよい。
翻訳装置10は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40はCPU42、メモリ44、不揮発性の記憶部46、入出力インターフェース(I/F)47、及びネットワークI/F48を備えている。CPU42、メモリ44、記憶部46、入出力I/F47、及びネットワークI/F48は、バス49を介して互いに接続されている。
記憶部46はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部46には、コンピュータ40を翻訳装置10として機能させるための翻訳プログラム50が記憶されている。CPU42は、翻訳プログラム50を記憶部46から読み出してメモリ44に展開し、翻訳プログラム50が有するプロセスを順次実行する。
翻訳プログラム50は、原文入力プロセス52、言語解析プロセス54、原文候補生成プロセス56、機械翻訳プロセス58、概念構造生成プロセス60、選択プロセス62、及び翻訳結果出力プロセス64を有する。
CPU42は、原文入力プロセス52を実行することで、図1に示す原文入力部12として動作する。また、CPU42は、言語解析プロセス54を実行することで、図1に示す言語解析部14として動作する。また、CPU42は、原文候補生成プロセス56を実行することで、図1に示す原文候補生成部16として動作する。また、CPU42は、機械翻訳プロセス58を実行することで、図1に示す機械翻訳部18として動作する。また、CPU42は、概念構造生成プロセス60を実行することで、図1に示す概念構造生成部20として動作する。また、CPU42は、選択プロセス62を実行することで、図1に示す選択部22として動作する。また、CPU42は、翻訳結果出力プロセス64を実行することで、図1に示す翻訳結果出力部24として動作する。これにより、翻訳プログラム50を実行したコンピュータ40が、翻訳装置10として機能することになる。
なお、翻訳装置10は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る翻訳装置10の作用について説明する。翻訳装置10に翻訳元の言語(第1言語、ここでは日本語)による原文(テキストデータ)が入力されると、翻訳装置10により、図12に示す翻訳処理が実行される。
図12に示す翻訳処理のステップ100で、原文入力部12が、入力された原文を受け付ける。ここでは、例えば図2に示すような、原文「機械翻訳により翻訳作業を効率化」を受け付けるものとする。次に、ステップ102で、図2に示すように、言語解析部14が、上記ステップ100で受け付けられた原文に対し、形態素解析、文節解析、係り受け解析、及び意味解析を含む言語解析を行う。
次に、ステップ104で、原文候補生成部16が、上記ステップ102の言語解析結果に基づいて、図3に示すような前編集規則DB30を参照し、適用可能な前編集規則または組み合わせ規則を原文に適用し、複数の原文候補を生成する。原文候補生成部16は、生成した複数の原文候補を原文候補格納部32へ格納する。ここでは、例えば図4に示す原文候補1〜原文候補8が生成されるものとする。
次に、ステップ106で、機械翻訳部18が、原文候補格納部32に格納された原文候補の各々に対して、機械翻訳を行い、日本語から英語に順翻訳した訳文候補の各々を生成する。ここでは、例えば図5に示す訳文候補1〜訳文候補8が生成されるものとする。機械翻訳部18は、生成した訳文候補の各々を、訳文格納部36へ格納する。また、順翻訳の際に、概念構造生成部20が、原文候補の各々の概念構造を生成し、概念構造格納部34に格納する。
次に、ステップ108で、機械翻訳部18が、訳文格納部36に格納された訳文候補の各々に対して、機械翻訳を行い、英語から日本語に逆翻訳した逆翻訳文の各々を生成する。ここでは、例えば図6に示す逆翻訳文1〜逆翻訳文8が生成されるものとする。機械翻訳部18は、生成した逆翻訳文の各々を、訳文格納部36へ格納する。また、逆翻訳の際に、概念構造生成部20が、逆翻訳文の各々の概念構造を生成し、概念構造格納部34に格納する。
次に、ステップ110で、選択部22が、図13に示す選択処理を実行する。
図13に示す選択処理のステップ1100で、類似度計算部222が、原文候補格納部32に格納された原文候補の各々と、訳文格納部36に格納された逆翻訳文の各々とを対応させたペアリストを作成する。例えば、原文候補1−逆翻訳文1、原文候補2−逆翻訳文2、・・・、原文候補8−逆翻訳文8のようなペアリストを作成する。
次に、ステップ1102で、類似度計算部222が、上記ステップ1100で作成したペアリストの中から、1つの原文候補−逆翻訳文ペアを取得する。また、類似度計算部222が、取得したペアに含まれる原文候補及び逆翻訳文の各々の概念構造を、概念構造格納部34から取得する。
次に、ステップ1104で、類似度計算部222が、上記ステップ1102で取得した原文候補の概念構造及び逆翻訳文の概念構造の構造点数を計算する。例えば、上記ステップ1102で取得された原文候補−逆翻訳文ペアが原文候補1−逆翻訳文1であった場合、図14に示すような概念構造の各々について構造点数を計算して合計することにより概念構造の構造点数を計算する。上述の概念構造類似度の計算例を用いると、原文候補1及び逆翻訳文1の概念構造の構造点数は下記のように計算される。なお、α=50、β=10、γ=5、及びδ=2とした場合について説明する。
・原文候補1の構造概念に含まれる中心概念以外の概念ノードの数:3
(「機械翻訳」、「翻訳」、及び「作業」)
・逆翻訳文1の構造概念に含まれる中心概念以外の概念ノードの数:3
(「機械翻訳」、「翻訳業務」、及び「それ」)
・両構造概念に含まれる中心概念以外の概念ノードの数:X=6
・原文候補1の概念構造に含まれるノード関係の数:3
(「機械翻訳」と「効率化」間の[影響対象]、「効率化」と「作業」間の[主題]、及び「翻訳」と「作業」間の[修飾])
・逆翻訳文1の概念構造に含まれるノード関係の数:3
(「機械翻訳」と「効率化」間の[影響対象]、「効率化」と「それ」間の[述語対象]、及び「機械翻訳」と「翻訳業務」間の[類似])
・両概念構造に含まれるノード関係の数:Y=6
・原文候補1の概念構造に含まれるノード属性の数:3
(「効率化」に付属する<属性:述語>、「作業」に付属する<助詞:を>、及び「翻訳」に付属する<連語>)
・逆翻訳文1の概念構造に含まれるノード属性の数:4
(「効率化」に付属する<属性:述語>、「効率化」に付属する<語尾:です>、「機械翻訳」に付属する<語尾:読点>、及び「それ」に付属する<助詞:は>)
・両概念構造に含まれるノード属性の数:Z=7
・概念構造の構造点数=α*2+β*X+γ*Y+δ*Z
=50*2+10*6+5*6+2*7=204
次に、ステップ1106で、類似度計算部222が、概念構造間の相違点数を計算する。上記の図14に示す原文候補1−逆翻訳文1の概念構造間の相違点は、下記のように計算される。
・概念構造間の中心概念の相違:R=0(「効率化」で一致)
・概念構造間で相違する概念ノード数:X’=4
(原文候補1の概念構造内の「翻訳」及び「作業」、並びに逆翻訳文1の概念構造内の「翻訳業務」及び「それ」)
・概念構造間で相違するノード関係の数:Y’=4
(原文候補1の概念構造内の「効率化」と「作業」間の[主題]及び「翻訳」と「作業」間の[修飾]、並びに逆翻訳文1の概念構造内の「効率化」と「それ」間の[述語対象]及び「機械翻訳」と「翻訳業務」間の[類似])
・概念構造間で相違するノード属性の数:Z’=5
(原文候補1の概念構造内の「作業」に付属する<助詞:を>及び「翻訳」に付属する<連語>、並びに逆翻訳文1の概念構造内の「効率化」に付属する<語尾:です>、「機械翻訳」に付属する<語尾:読点>、及び「それ」に接続する<助詞:は>)
・概念構造間の相違点数=α*R+β*X’+γ*Y’+δ*Z’
=50*0+10*4+5*4+2*5=70
次に、ステップ1108で、類似度計算部222が、上記ステップ1104で計算した構造点数と上記ステップ1106で計算した相違点数とを用いて、上記ステップ1102で取得した原文候補−逆翻訳文ペアの概念構造類似度を計算する。上記の図14に示す原文候補1−逆翻訳文1の場合、概念構造類似度は下記のように計算される。
概念構造類似度
=(概念構造の構造点数−概念構造間の相違点数)/(概念構造の構造点数)
=(204−70)/204=0.66
また、例えば、上記ステップ1102で取得された原文候補−逆翻訳文ペアが原文候補3−逆翻訳文3であった場合、図15に示すような概念構造間の概念構造類似度を計算する。上記と同様に原文候補3−逆翻訳文3の概念構造類似度を計算すると、下記のようになる。
・原文候補3の構造概念に含まれる中心概念以外の概念ノードの数:3
・逆翻訳文3の構造概念に含まれる中心概念以外の概念ノードの数:3
・両構造概念に含まれる中心概念以外の概念ノードの数:X=6
・原文候補3の概念構造に含まれるノード関係の数:3
・逆翻訳文3の概念構造に含まれるノード関係の数:3
・両概念構造に含まれるノード関係の数:Y=6
・原文候補3の概念構造に含まれるノード属性の数:2
・逆翻訳文3の概念構造に含まれるノード属性の数:2
・両概念構造に含まれるノード属性の数:Z=4
・概念構造の構造点数=α*2+β*X+γ*Y+δ*Z
=50*2+10*6+5*6+2*4=198
・概念構造間の中心概念の相違:R=0
・概念構造間で相違する概念ノード数:X’=0
・概念構造間で相違するノード関係の数:Y’=0
・概念構造間で相違するノード属性の数:Z’=0
・概念構造間の相違点数=α*R+β*X’+γ*Y’+δ*Z’
=50*0+10*0+5*0+2*0=0
概念構造類似度
=(概念構造の構造点数−概念構造間の相違点数)/(概念構造の構造点数)
=(198−0)/198=1.00
また、例えば、上記ステップ1102で取得された原文候補−逆翻訳文ペアが原文候補5−逆翻訳文5であった場合、図16に示すような概念構造間の概念構造類似度を計算する。上記と同様に原文候補5−逆翻訳文5の概念構造類似度を計算すると、下記のようになる。
・原文候補5の構造概念に含まれる中心概念以外の概念ノードの数:3
・逆翻訳文5の構造概念に含まれる中心概念以外の概念ノードの数:3
・両構造概念に含まれる中心概念以外の概念ノードの数:X=6
・原文候補5の概念構造に含まれるノード関係の数:3
・逆翻訳文5の概念構造に含まれるノード関係の数:3
・両概念構造に含まれるノード関係の数:Y=6
・原文候補5の概念構造に含まれるノード属性の数:3
・逆翻訳文5の概念構造に含まれるノード属性の数:5
・両概念構造に含まれるノード属性の数:Z=8
・概念構造の構造点数=α*2+β*X+γ*Y+δ*Z
=50*2+10*6+5*6+2*8=206
・概念構造間の中心概念の相違:R=0
・概念構造間で相違する概念ノード数:X’=4
・概念構造間で相違するノード関係の数:Y’=6
・概念構造間で相違するノード属性の数:Z’=6
・概念構造間の相違点数=α*R+β*X’+γ*Y’+δ*Z’
=50*0+10*4+5*6+2*6=82
概念構造類似度
=(概念構造の構造点数−概念構造間の相違点数)/(概念構造の構造点数)
=(206−82)/206=0.60
次に、ステップ1110で、適切性判定部224が、上記ステップ1102で取得された原文候補−逆翻訳文ペアの原文候補の表記と逆翻訳文の表記との類似度である表記類似度を計算する。
次に、ステップ1112で、適切性判定部224が、上記ステップ1110で計算した表記類似度が予め定めた閾値より高いか否かを判定する。表記類似度が閾値より高い場合には、ステップ1114へ移行し、適切性判定部224が、適切性「OK」の判定結果を出力する。一方、表記類似度が閾値以下の場合には、ステップ1116へ移行し、適切性判定部224が、適切性「NG」の判定結果を出力する。
次に、ステップ118で、訳文候補選択部226が、上記ステップ1100で作成したペアリストに含まれる全ての原文候補−逆翻訳文ペアについて概念構造類似度の計算及び適切性の判定の処理が終了したか否かを判定する。未処理のペアが存在する場合には、ステップ1102へ戻って、次のペアをペアリストから取得して、ステップ1104〜1116の処理を繰り返す。全てのペアについて処理が終了した場合には、ステップ1120へ移行する。
ステップ1120で、訳文候補選択部226が、上記ステップ1110で計算された概念構造類似度、及び上記ステップ1114または1116で出力された適切性の判定結果に基づいて、複数の訳文候補の中から最良の訳文候補を選択する。例えば、図10に示すような概念構造類似度及び適切性の判定結果に基づいて、適切性が「OK」の訳文候補のうち、概念構造類似度が最大の原文候補−逆翻訳文ペアに対応する訳文候補を選択することができる。訳文候補選択部226が訳文候補を選択すると、翻訳処理(図12)へリターンする。
図12に示す翻訳処理のステップ112へ移行し、翻訳結果出力部24が、上記ステップ110で選択された訳文候補を、原文に対する翻訳結果として出力して、翻訳処理を終了する。
以上説明したように、第1実施形態に係る翻訳装置10によれば、言語や機械翻訳の知識を必要とすることなく、また前編集が翻訳に与える影響を考慮することなく定めた複数の前編集規則または組み合わせ規則を適用して、複数の原文候補を生成する。そして、原文候補の概念構造とその原文候補に対応する逆翻訳文の概念構造との類似度を計算する。類似度が高い場合には、原文候補と逆翻訳文とで概念構造が維持されており、対応する訳文候補の品質が良いこと、すなわち、原文候補に行われた前編集が有効であったことを示す。従って、原文に行う前編集の有効性を直接判断することなく、翻訳品質の向上に有効な前編集を選別することができる。そのため、前編集規則の作成及び適用の困難性を排除して、翻訳品質を向上させることができる。
また、原文候補と逆翻訳文との表記の類似性を用いて、翻訳結果として選択する訳文候補の適切性を判定することで、翻訳品質を保つことができる。
また、概念構造に含まれる要素数、及び概念構造間で相違する要素数を用いて概念構造類似度を計算することで、簡易な計算により概念構造類似度を計算することができる。さらに、概念構造の要素の種類に応じて重み付けした概念構造類似度を計算することで、文の中でも重要な部分の意味の維持を重視するか、文全体の意味の維持を重視するかなど、目的に応じて柔軟な概念構造類似度を計算することができる。
また、前編集規則は語順や文法等を考慮することなくあらゆる前編集規則を作成しておくことができる。これにより、語順や文法に誤りがある原文が入力された場合に、前編集規則の適用により、語順や文法に誤りが修正された原文候補が生成される可能性が高い。例えば、図2に示す原文「機械翻訳により翻訳作業を効率化」は一部文法の誤りがある。これに対し、本実施形態の翻訳装置10では、複数の原文候補から原文候補3が最良の原文候補として選択される。原文候補3では、原文に含まれる文法の誤りが解消されている。この原文候補3に対応した訳文候補3が翻訳結果として出力されることで、結果的に、入力された原文の文法の誤りを校正する前編集が適用されたことになる。従って、本実施形態に係る翻訳装置によれば、入力された原文に語順や文法の誤りが存在する場合でも、自動的に原文の校正を行ない、正確な翻訳結果を導き出すことができる。
<第2実施形態>
次に、第2実施形態について説明する。図17に示すように、第2実施形態に係る翻訳装置210は、第1実施形態に係る翻訳装置10に前編集規則判定部26を加えた構成であるため、以下、前編集規則判定部26について説明する。
第2実施形態に係る翻訳装置210は、第1実施形態に係る翻訳装置10と同様に、あらゆる前編集規則を作成しておくことが可能であるが、前編集規則の数が多過ぎると、翻訳の計算コストが増大してしまう。一方で、原文に前編集を行った場合に、文法的に誤った原文候補を生成してしまう前編集規則が存在する可能性もある。例えば、図4に示す原文候補4及び原文候補8には文法的な誤りが含まれる。原文候補4及び原文候補8をみると、図3に示す前編集規則の規則4と規則5とを含む組み合わせ規則が適用された結果、「翻訳作業の効率化する」のような文法的な誤りを含む原文候補が作成されていることが分かる。このような文法的な誤りを含む原文候補は、図10に示すように、類似度計算部222により計算される概念構造類似度が低くなる。すなわち、概念構造類似度により、規則4と規則5とを含む組み合わせ規則が不適切であることが判断できる。
そこで、前編集規則判定部26は、類似度計算部222により計算された概念構造類似度に基づいて、原文に適用することが不適切な前編集規則及び組み合わせ規則を判定する。また、前編集規則判定部26は、不適切と判定した前編集規則及び組み合わせ規則が以後の処理で適用されないように、前編集規則DB30を更新する。
具体的には、前編集規則判定部26は、原文候補−逆翻訳文ペアについて計算された概念構造類似度が予め定めた閾値より低い場合に、その原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定する。前編集規則判定部26は、翻訳処理が複数回実行された場合に、不適切と判定した回数が所定回数以上となった前編集規則を前編集規則DB30から削除する。また、前編集規則判定部26は、不適切と判定した回数が所定回数以上となった組み合わせ規則が、以後の処理で適用されないように、前編集規則DB30内にフラグを立てる。
翻訳装置210は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40はCPU42、メモリ44、不揮発性の記憶部46、入出力I/F47、及びネットワークI/F48を備えている。CPU42、メモリ44、記憶部46、入出力I/F47、及びネットワークI/F48は、バス49を介して互いに接続されている。
記憶部46はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部46には、コンピュータ40を翻訳装置210として機能させるための翻訳プログラム250が記憶されている。CPU42は、翻訳プログラム250を記憶部46から読み出してメモリ44に展開し、翻訳プログラム250が有するプロセスを順次実行する。
翻訳プログラム250は、原文入力プロセス52、言語解析プロセス54、原文候補生成プロセス56、機械翻訳プロセス58、概念構造生成プロセス60、選択プロセス62、翻訳結果出力プロセス64、及び前編集規則判定プロセス66を有する。
CPU42は、前編集規則判定プロセス66を実行することで、図17に示す前編集規則判定部26として動作する。他のプロセスについては第1実施形態における翻訳プログラム50と同様である。これにより、翻訳プログラム250を実行したコンピュータ40が、翻訳装置210として機能することになる。
なお、翻訳装置210は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、第2実施形態に係る翻訳装置210の作用について説明する。翻訳装置210に原文が入力されると、翻訳装置210により、第1実施形態における翻訳処理(図12)及び選択処理(図13)と同様の翻訳処理及び選択処理が実行される。この選択処理のステップ1108で概念構造類似度が計算されると、翻訳装置210において、図18に示す前編集規則判定処理が実行される。
図18に示す前編集規則判定処理のステップ200で、前編集規則判定部26が、上記ステップ1108で計算された概念構造類似度が予め定めた閾値より低いか否かを判定する。概念構造類似度が閾値より低い場合には、ステップ202へ移行し、閾値以上の場合には、処理を終了する。
ステップ202では、前編集規則判定部26が、上記ステップ1108で概念構造類似度が計算された原文候補−逆翻訳文ペアの原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定する。前編集規則判定部26は、この判定結果を所定の記憶領域に記憶する。
次に、ステップ204で、前編集規則判定部26が、上記ステップ202で不適切と判定した前編集規則または組み合わせ規則について、不適切と判定した回数が所定回数以上となったか否かを、所定の記憶領域に記憶した判定結果を参照して判定する。不適切と判定した回数が所定回数以上となった場合には、ステップ206へ移行し、所定回数未満の場合には、処理を終了する。
ステップ206では、前編集規則判定部26が、不適切と判定した回数が所定回数以上となった前編集規則を前編集規則DB30から削除する。或いは、前編集規則判定部26が、不適切と判定した回数が所定回数以上となった組み合わせ規則が、以後の処理で適用されないように、前編集規則DB30内にフラグを立てて、前編集規則判定処理を終了する。
以上説明したように、第2実施形態に係る翻訳装置210によれば、概念構造類似度に基づいて、前編集規則及び組み合わせ規則の適用の有効性を判定する。このため、あらゆる前編集規則を複数作成しておいても、翻訳処理の実行時に、自動的に不適切な前編集規則及び組み合わせ規則を削除または適用されないように更新することができる。従って、前編集規則の作成の困難性を排除できると共に、翻訳処理時の計算コストの増大を抑制することができる。
なお、第2実施形態では、概念構造類似度が閾値より低い前編集規則及び組み合わせ規則を不適切と判定する場合について説明したが、これに限定されない。例えば、原文候補−逆翻訳文ペアの概念構造類似度が低い場合には、訳文候補選択部226でその原文候補−逆翻訳文ペアに対応する訳文候補が選択されないことを利用してもよい。具体的には、訳文候補選択部226で選択されなかった訳文候補に対応する原文候補を生成する際に原文に適用された前編集規則または組み合わせ規則を不適切と判定することができる。
また、第2実施形態において、複数のユーザからの入力を受け付ける場合、前編集規則の更新をユーザ毎に行ってもよい。具体的には、前編集規則DB30をユーザ毎に用意しておき、前編集規則判定部26において、不適切と判定した前編集規則及び組み合わせ規則を、ユーザ毎に集計する。そして、ユーザ毎に集計された不適切と判定した前編集規則及び組み合わせ規則に基づいて、ユーザ毎の前編集規則DB30を更新することができる。これにより、ユーザ毎の入力のくせや誤り易い文法等に応じて、前編集規則DB30を更新することができる。
また、上記各実施形態では、概念構造類似度として、概念構造に含まれる各要素(中心概念、概念ノード、ノード関係、及びノード属性)の数や相違に基づく類似度を計算する場合について説明したが、これに限定されない。例えば、概念構造類似度を、自然言語処理や他の情報科学分野における木構造間またはグラフ間の類似度と同様に考えると、以下のような類似度を用いることができる(参考文献「高橋哲朗、乾健太郎、松本裕治、“テキストの構文的類似度の評価方法について”、情報処理学会研究報告、自然言語処理研究会報告、jul.2002、No.66、pp.163−170」)。なお、この場合、概念構造を、中心概念に相当する概念ノードを最上位のノードとし、概念ノード間を連結するノード関係をエッジとする木構造とみなす。
例えば、概念構造類似度として、木構造の編集距離に基づく類似度を算出することができる。具体的には、一方の概念構造を他方の概念構造に変換するために必要な最短の編集操作の数である編集距離を類似度とすることができる。この場合、編集距離が小さいほど概念構造間の類似度が高いことを表す。
また、概念構造類似度として、木構造アライメントの手法を用いた類似度を計算してもよい。アライメントの問題では、テキスト間の照合が用いられる。例えば、2つの概念構造において、始めに概念ノードの対応を取り、その後概念ノードの対応を用いてノード関係及びノード属性の対応を取りながら、照合することにより、概念構造における類似領域を検出する。または、各ノードの子ノード間の類似度を再帰的に計算しながら、最上位のノードである中心概念に相当する概念ノード間の類似度を計算するようにしてもよい。
また、概念構造類似度として、句構造木間の類似度を与えるために提案された手法であるTree Kernelによる類似度を計算してもよい。Tree Kernelの手法では、句構造木間の内積を、各句構造木において共通に含まれる部分木の数と定義する。例えば、図19上段に示す構文木には、図19下段に示すような部分木が含まれている。二つの構文木(概念構造)において共通に含まれる部分木(概念ノード、またはノード関係で連結された複数の概念ノード)の数が内積となる。ここで求められる内積は、構文木全体を考慮した類似度とみなすことができるため、概念構造類似度として用いることができる。
なお、上記実施形態で説明した各要素の数や相違に基づく概念構造類似度の計算は、上記のような木構造に基づく類似度の計算に比べ、計算コストを抑えることができる。
また、上記各実施形態では、機械翻訳部18と概念構造生成部20とを別の機能ブロックとして表現しているが、概念構造を用いた機械翻訳では、一連の処理の中で概念構造が生成される。そのため、図20に示すように、概念構造の生成も行う機械翻訳部318としてもよい。また、図20に示す構成は、図21に示すように、概念構造生成部20が機械翻訳部18に含まれる構成として表現することもできる。
また、図22に示すように、機械翻訳部418と概念構造生成部420とを各々独立させて構成してもよい。この場合、機械翻訳部418は、概念構造生成部420で生成された概念構造を用いることなく翻訳処理を行う。例えば、概念構造を用いない方式による翻訳処理や、機械翻訳部418自体が生成した概念構造を用いた翻訳処理などを行うことができる。また、概念構造生成部420は、原文候補格納部32に格納された原文候補の各々について、原文候補の概念構造を生成すると共に、訳文格納部36に格納された逆翻訳文の各々について、逆翻訳文の概念構造を生成する。
なお、図20〜22は、翻訳装置において、機械翻訳部及び概念構造生成部を含む一部のみを表したブロック図である。
また、上記各実施形態では、第1言語を日本語、第2言語を英語とする場合について説明したが、これに限定されない。開示の技術で用いる概念構造は言語非依存であるため、概念構造で表すことができる言語であれば、開示の技術を適用可能である。
また、上記各実施形態では、原文がテキストデータとして入力される態様を説明したが、音声データとして入力されてもよい。また、翻訳結果も、音声データとして出力してもよい。この場合、入力された音声データを音声認識する音声認識部、翻訳結果を音声出力するための音声合成部を含む態様とすることができる。
また、上記では開示の技術における翻訳プログラムの一例である翻訳プログラム50及び250が記憶部46に予め記憶(インストール)されている態様を説明した。しかし、開示の技術における翻訳プログラムは、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
第1言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部と、
前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳する翻訳部と、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部と、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部と、
を含む翻訳装置。
(付記2)
前記翻訳部は、前記概念構造生成部により生成された前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記概念構造生成部により生成された前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する付記1記載の翻訳装置。
(付記3)
前記概念構造は、複数の異なる種類の要素を含み、
前記選択部は、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する付記1または付記2記載の翻訳装置。
(付記4)
前記選択部は、前記要素の種類に応じて重み付けした概念構造の類似度を計算する付記3記載の翻訳装置。
(付記5)
前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定する判定部を含む付記1〜付記4のいずれかに記載の翻訳装置。
(付記6)
前記選択部は、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する付記1〜付記5のいずれかに記載の翻訳装置。
(付記7)
コンピュータに、
第1言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させる翻訳方法。
(付記8)
コンピュータに、
前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳することを含む処理を実行させる付記7記載の翻訳方法。
(付記9)
前記概念構造は、複数の異なる種類の要素を含み、コンピュータに、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算することを含む処理を実行させる付記7または付記8記載の翻訳方法。
(付記10)
コンピュータに、前記要素の種類に応じて重み付けした概念構造の類似度を計算することを含む処理を実行させる付記9記載の翻訳方法。
(付記11)
コンピュータに、
前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定することを含む処理を実行させる付記7〜付記10のいずれかに記載の翻訳方法。
(付記12)
コンピュータに、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定することを含む処理を実行させる付記7〜付記11のいずれかに記載の翻訳方法。
(付記13)
コンピュータに、
第1言語により表現された原文に、予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳し、
前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
ことを含む処理を実行させるための翻訳プログラム。
(付記14)
前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する付記13記載の翻訳プログラム。
(付記15)
前記概念構造は、複数の異なる種類の要素を含み、
前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する付記13または付記14記載の翻訳プログラム。
(付記16)
前記要素の種類に応じて重み付けした概念構造の類似度を計算する付記15記載の翻訳プログラム。
(付記17)
コンピュータに、前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定することを含む処理を実行させるための付記13〜付記16のいずれかに記載の翻訳プログラム。
(付記18)
前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する付記13〜付記17のいずれかに記載の翻訳プログラム。
10、210 翻訳装置
12 原文入力部
14 言語解析部
16 原文候補生成部
18 機械翻訳部
20 概念構造生成部
22 選択部
24 翻訳結果出力部
26 前編集規則判定部
30 前編集規則DB
32 原文候補格納部
34 概念構造格納部
36 訳文格納部
40 コンピュータ
222 類似度計算部
224 適切性判定部
226 訳文候補選択部

Claims (8)

  1. 第1言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成する原文候補生成部と、
    前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳する翻訳部と、
    前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成する概念構造生成部と、
    前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が所定値以上の原文候補に対応する訳文候補を選択する選択部と、
    を含む翻訳装置。
  2. 前記翻訳部は、前記概念構造生成部により生成された前記原文候補の概念構造を用いて、前記複数の原文候補の各々を前記訳文候補の各々に翻訳し、前記概念構造生成部により生成された前記逆翻訳文の概念構造を用いて、前記訳文候補の各々を前記逆翻訳文の各々に翻訳する請求項1記載の翻訳装置。
  3. 前記概念構造は、複数の異なる種類の要素を含み、
    前記選択部は、前記原文候補の概念構造及び前記逆翻訳文の概念構造の各々に含まれる種類毎の要素数、及び概念構造間で相違する種類毎の要素数を用いた概念構造の類似度を計算する請求項1または請求項2記載の翻訳装置。
  4. 前記選択部は、前記要素の種類に応じて重み付けした概念構造の類似度を計算する請求項3記載の翻訳装置。
  5. 前記前編集規則及び前記組み合わせ規則は記憶部に記憶されており、
    前記概念構造の類似度に基づいて、前記原文候補を生成する際に前記原文に適用された前記前編集規則または前記組み合わせ規則の適切性を判定し、判定結果に基づいて前記記憶部に記憶された前記前編集規則または前記組み合わせ規則を更新する判定部を含む請求項1〜請求項4のいずれか1項記載の翻訳装置。
  6. 前記選択部は、前記原文候補の表記と前記原文候補に対応する前記逆翻訳文の表記との類似度に基づいて、訳文候補の翻訳結果としての適切性を判定する請求項1〜請求項5のいずれか1項記載の翻訳装置。
  7. コンピュータに、
    第1言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
    前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳し、
    前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
    前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
    ことを含む処理を実行させる翻訳方法。
  8. コンピュータに、
    第1言語により表現された原文に、言語解析結果の特徴を用いて表された表現パターンに相当する箇所を他の表現パターンに変化するための予め定めた複数の異なる前編集規則の各々または前記前編集規則を組み合わせた組み合わせ規則を適用して、複数の原文候補を生成し、
    前記複数の原文候補の各々を前記第1言語とは異なる第2言語により表現された訳文候補の各々に翻訳すると共に、前記訳文候補の各々を前記第1言語により表現された逆翻訳文の各々に翻訳し、
    前記原文候補の各々及び前記逆翻訳文の各々の意味的構造を表す概念構造を生成し、
    前記原文候補の概念構造と前記原文候補に対応する前記逆翻訳文の概念構造との類似度が最大の訳文候補をデフォルトの訳語として選択する
    ことを含む処理を実行させるための翻訳プログラム。
JP2013109037A 2013-05-23 2013-05-23 翻訳装置、方法、及びプログラム Expired - Fee Related JP6175900B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013109037A JP6175900B2 (ja) 2013-05-23 2013-05-23 翻訳装置、方法、及びプログラム
US14/254,226 US20140350913A1 (en) 2013-05-23 2014-04-16 Translation device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013109037A JP6175900B2 (ja) 2013-05-23 2013-05-23 翻訳装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014229122A JP2014229122A (ja) 2014-12-08
JP6175900B2 true JP6175900B2 (ja) 2017-08-09

Family

ID=51935939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013109037A Expired - Fee Related JP6175900B2 (ja) 2013-05-23 2013-05-23 翻訳装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US20140350913A1 (ja)
JP (1) JP6175900B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424597B2 (en) * 2013-11-13 2016-08-23 Ebay Inc. Text translation using contextual information related to text objects in translated language
CN113761848A (zh) * 2014-07-25 2021-12-07 北京三星通信技术研究有限公司 文本编辑方法和装置
JP2016071439A (ja) * 2014-09-26 2016-05-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 翻訳方法及び翻訳システム
US10409919B2 (en) * 2015-09-28 2019-09-10 Konica Minolta Laboratory U.S.A., Inc. Language translation for display device
CN107870900B (zh) * 2016-09-27 2023-04-18 松下知识产权经营株式会社 提供翻译文的方法、装置以及记录介质
JP6870421B2 (ja) * 2017-03-28 2021-05-12 富士通株式会社 判定プログラム、判定装置および判定方法
US10679014B2 (en) * 2017-06-08 2020-06-09 Panasonic Intellectual Property Management Co., Ltd. Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
CN107632982B (zh) * 2017-09-12 2021-11-16 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN107783968B (zh) * 2017-11-23 2021-04-02 浪潮金融信息技术有限公司 一种语言转换方法、装置、可读介质及存储控制器
WO2019107625A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
JP7170984B2 (ja) * 2018-03-02 2022-11-15 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法
US10929617B2 (en) * 2018-07-20 2021-02-23 International Business Machines Corporation Text analysis in unsupported languages using backtranslation
JP7322428B2 (ja) * 2019-02-28 2023-08-08 富士フイルムビジネスイノベーション株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム
EP3995975A1 (en) * 2020-11-06 2022-05-11 Tata Consultancy Services Limited Method and system for identifying semantic similarity
CN112818712B (zh) * 2021-02-23 2024-06-11 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置
CN114757214B (zh) * 2022-05-12 2023-01-31 北京百度网讯科技有限公司 用于优化翻译模型的样本语料的选取方法、相关装置
US20230385561A1 (en) * 2022-05-26 2023-11-30 Jitterbit, Inc. Data driven translation and translation validation of digital content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1784746A1 (en) * 2004-08-31 2007-05-16 Techmind S.R.L. Method for automatic translation from a first language to a second language and/or for processing functions in integrated-circuit processing units, and apparatus for performing the method
JP4886244B2 (ja) * 2005-08-19 2012-02-29 株式会社東芝 機械翻訳装置および機械翻訳プログラム

Also Published As

Publication number Publication date
JP2014229122A (ja) 2014-12-08
US20140350913A1 (en) 2014-11-27

Similar Documents

Publication Publication Date Title
JP6175900B2 (ja) 翻訳装置、方法、及びプログラム
JP4532863B2 (ja) 2言語コーパスを整列させるための方法および装置
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP6471074B2 (ja) 機械翻訳装置、方法及びプログラム
JP2005507525A (ja) 機械翻訳
JP2005507524A (ja) 機械翻訳
JP2017208097A (ja) エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置
CN108804526A (zh) 兴趣确定系统、兴趣确定方法及存储介质
JP2006268375A (ja) 翻訳メモリシステム
JP2017058804A (ja) 検出装置、方法およびプログラム
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP7511381B2 (ja) 文生成装置、文生成方法および文生成プログラム
JP2013054607A (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
CN108694163B (zh) 计算句子中的词的概率的方法、装置和神经网络
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP2005092682A (ja) 翻字装置、及び翻字プログラム
JP2014164575A (ja) 文書処理装置およびプログラム
JP4203102B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6175900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees