JP4588417B2 - 翻訳装置 - Google Patents

翻訳装置 Download PDF

Info

Publication number
JP4588417B2
JP4588417B2 JP2004322269A JP2004322269A JP4588417B2 JP 4588417 B2 JP4588417 B2 JP 4588417B2 JP 2004322269 A JP2004322269 A JP 2004322269A JP 2004322269 A JP2004322269 A JP 2004322269A JP 4588417 B2 JP4588417 B2 JP 4588417B2
Authority
JP
Japan
Prior art keywords
sentence
unit
phrase
translation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004322269A
Other languages
English (en)
Other versions
JP2006134062A (ja
JP2006134062A5 (ja
Inventor
秀 富士
明 潮田
清司 大倉
達雄 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004322269A priority Critical patent/JP4588417B2/ja
Publication of JP2006134062A publication Critical patent/JP2006134062A/ja
Publication of JP2006134062A5 publication Critical patent/JP2006134062A5/ja
Application granted granted Critical
Publication of JP4588417B2 publication Critical patent/JP4588417B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、原言語での入力文に基づいて、原言語の例文とその例文の翻訳言語による翻訳文を対訳例文として検索し翻訳支援を行う翻訳支援装置、翻訳支援プログラム及び翻訳支援方法に関するものである。
産業翻訳(「実務翻訳」、「業務翻訳」等とも呼ばれる)の分野では、大量文書を効率良く高速に、かつ均質に翻訳する必要がある。均質な翻訳とは、用語や表現が統一された翻訳のことであり、作業対象文書内での統一はもちろんのこと、対象分野内の用語・表現との整合性を保証する必要がある。
このように統一性が重要視される産業翻訳では、同分野において過去に翻訳して作成された対訳例文を蓄積しておき、これを参照しながら翻訳作業を進めることを支援するようなシステムが使われてきた。このようなシステムは「翻訳メモリ」システムと呼ばれることも多いが、本明細書では以下、「対訳例文検索」と呼ぶこととする。
対訳例文検索システムでは、過去に翻訳された同内容の文書から作成された対訳文をデータベースとして蓄積する機能を備え、翻訳者はこのデータベースから作業対象の入力文に類似した例文を検索しながら翻訳作業を進める。さらに翻訳者は、自ら翻訳した訳文も原文とともに対訳文としてデータベースに登録することができるようになっているため、自らの作業範囲の中でも用語や表現を統一させることができる。
従来の対訳例文検索システムは、翻訳対象文の入力に対して、文レベルで類似した文が過去に蓄積された対訳例文データベース中に含まれることを想定して構築されている。例えば、入力文と検索対象文を比較したときに、1つ名詞のみが異なっていて、それ以外は全く同じであるような場合がこれに相当する。この前提から、検索結果のランキングも、文レベルで類似した対訳例文に対して有効なランキングを採用していた。また、システムユーザはこのような文全体での類似性が期待できるような理想的な場面に限定してシステムを利用していた。
一方、実在する対訳例文中には、文レベルでは入力文とマッチしないが、再利用可能なフレーズ(複合語や句など)を含む文が含まれている場合の方が圧倒的に多い。従来型の文レベルの類似を想定した対訳例文検索システムを流用した場合でも、ユーザが試行錯誤的に入力文の部分列を入力してみて、再利用可能なフレーズを見つけることは枠組みとしては可能である。しかしこのような使用方法は工数面で大きな負担を伴い、作業効率が重要視される実際の場面で利用されることはほとんどなかった。
なお、従来技術の参考技術として、下記特許文献が知られる(例えば、特許文献1参照)。
特開平10−116286号公報
従来の対訳例文検索システムは、上述したように、文レベルの一致を前提としているため、これを転用して再利用可能なフレーズを含む文を人手で探し出すためには、かなりの試行錯誤が必要となり、実用的な場面で利用することができないという問題点があった。
例えば従来のシステムでは、「This is the pen which I love very much.」という入力文を英日翻訳する際に、文レベルで類似している「This is the pencil which I love very much.=これは、私がかつてとても愛した鉛筆です。」のような理想的な対訳文対が存在すれば、これを検索してきて再利用することを主に想定していた。
しかしながら、実際にはこのような文全体として類似した文がデータベース中に存在ことは稀で、例えば、「This is the pen.これがペンです。」、「They saw the pen which I love.=彼らは、私が愛するペンを見た。」、「She loves it very much.=彼女はそれを大変に愛している。」といった、入力文中に該入力文を構成するフレーズを含むような複数の文が存在する場合の方が多い。
理論的には、これらのフレーズを組み合わせて訳文を完成させればよいが、このような複数の対訳フレーズを検索してくるのには大きな手間がかかり、現実的な場面ではこのような再利用方法はなされてこなかった。
手間がかかる理由としては、例えば「This is the pen which I love very much.」という入力文を構成するフレーズとしてどんなものがデータベース中に存在するかを従来システムを用いて調べるためには、「This」、「This is」、「This is the」…、のような可能性のある部分列を一つ一つ入力してみて、ヒットするかどうかを試行錯誤することになるからである。
この操作は、繰返し作業による手間がかかるばかりでなく、従来システムのランキング表示がこのような部分一致の結果を表示するには不向きであり、作業効率を下げていた。
また仮にランキング方式がフレーズ用に改善されても、従来システムを流用した試行錯誤では、個々のフレーズ候補を探し出すところまではできても、入力文を構成するような適当なフレーズの組合せを計算するところまではできなかった。この点に関しては、従来システムの単なる組合せでは不十分で、フレーズ候補の組合せを見つける枠組みが必要となっていた。
このような技術的な問題点が原因となって、システムの対象範囲も大幅に狭められていた。従来の文レベルで類似した文を検索するシステムでは、これに適したデータの存在する翻訳分野のみが対象であったが、これは全翻訳市場のほんの一部である。市場全体から見ると、文レベルで再利用できる例文よりもフレーズレベルで再利用できる例文のほうが圧倒的に多く、システムの対象とする市場が大幅に限定されているという問題があった。
本発明は、翻訳市場に関わらず、翻訳作業を効率的に進めることができ、迅速で、信頼性の高い翻訳支援を行うことができる翻訳支援装置、翻訳支援プログラム及び翻訳支援方法を提供することを目的としている。

上述した課題を解決するため、本発明は、第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳支援を行う翻訳支援装置であって、前記入力文を受付ける入力文受付部と、前記入力文受付部で受付けられた例文の部分列を作成する部分列作成部と、前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索部と、前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与部と、前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理部と、フレーズ候補整理部で整理されたフレーズ候補が付加された前記入力文を表示データとして作成するフレーズ候補付き入力文作成部とを備えてなる。
本発明においては、前記フレーズ候補付き入力文作成部で作成されたフレーズ候補付き入力文を表示する表示部を備えることができる。
ここで、前記表示部は、前記フレーズ候補が付加された入力文の表示において、入力文中のフレーズ候補に対応する部分列を強調表示するようにするようにしたり、また、前記表示部は、前記フレーズ候補が付加された入力文の表示において、前記フレーズ候補を前記入力文の近傍に並べて表示するようにすることができる。
また、本発明においては、前記フレーズ候補が付加された入力文に対し、前記フレーズ候補に基づいて、該フレーズ候補を有する表示用対訳例文を作成する対訳例文表示データ作成部を備える。
さらに、前記対訳例文表示データ作成部は、前記表示用対訳例文において、入力文と一致する原言語側文の部分列を強調表示するように対訳例文表示データを作成するようにしたり、前記対訳例文表示データ作成部は、前記表示用対訳例文において、入力文と一致した部分がさらに、目標言語側に対応する部分列を持つ場合、この対応する部分列を強調表示するように対訳例文表示データを作成するようにすることもできる。
また、本発明は、第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳を行う翻訳装置であって、前記入力文を受付ける入力文受付部と、前記入力文受付部で受付けられた例文の部分列を作成する部分列作成部と、前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索部と、前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与部と、前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理部と、入力文の構文を解析する構文解析部と、前記構文解析部で得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析部と、前記フレーズ候補整理部で得られたフレーズ候補における第1言語の単語で前記対応訳語を検索する対応訳語検索部と、前記対応訳語検索部により前記対応訳語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記フレーズ候補における前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換え部と、訳語置き換え部により置き換えられた訳語を用いて訳文を生成する訳文生成部とを備える。
ここでは、生成された訳文において、訳文側フレーズ候補とそれに対応する原文側フレーズが対応付けられて表示する表示部を備えるようにしても良い。
また、本発明は、第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し表示する翻訳支援をコンピュータに実行させる翻訳支援プログラムであって、前記入力文を受付ける入力文受付けステップと、前記入力文受付けステップで受付けられた例文の部分列を作成する部分列作成ステップと、前記部分列作成ステップにより作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索ステップと、前記対訳例文検索ステップにより検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与ステップと、前記評価値付与ステップにより付与された評価値に基づいて、前記対訳例文検索ステップで検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出ステップと、前記フレーズ候補抽出ステップにより抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理ステップと、前記フレーズ候補整理ステップで整理されたフレーズ候補が付加された前記入力文を表示データとして作成するフレーズ候補付き入力文作成ステップとをコンピュータに実行させる。
また、本発明は、第1言語の入力文を第2言語の文に翻訳する処理をコンピュータに実行させる翻訳プログラムであって、前記入力文を受付ける入力文受付ステップと、前記入力文受付けステップで受付けられた例文の部分列を作成する部分列作成ステップと、前記部分列作成ステップにより作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索ステップと、前記対訳例文検索ステップにより検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与ステップと、前記評価値付与ステップにより付与された評価値に基づいて、前記対訳例文検索ステップで検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出ステップと、前記フレーズ候補抽出ステップにより抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理ステップと、入力文の構文を解析する構文解析ステップと、前記構文解析ステップで得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析ステップと、前記フレーズ候補整理ステップで得られたフレーズ候補における第1言語の単語で前記対応訳語における第1言語の単語を検索する対応訳語検索ステップと、前記対応訳語検索ステップにより前記対応訳語における第1言語の単語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記ヒットした前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換えステップと、訳語置き換えステップにより置き換えられた訳語を用いて訳文を生成する訳文生成ステップとをコンピュータに実行させる。
以上説明したように本発明によれば、入力文に対して、再利用可能性が高い対訳フレーズの候補が事前に自動的に計算されて、その存在がユーザに提示され、或いは又、それぞれの対訳フレーズについて対応する対訳例文が表示される。こうして本発明によれば、翻訳者にとって、入力文を対訳例文に沿った形で翻訳しようとしている作業者にとって、見通しよく迅速に作業を行うことができて効率良く翻訳作業を行うことができる。
本発明では、従来技術の問題点であげたような手作業による試行錯誤に相当する操作を自動的にまとめて行い、得られた候補を適切な組合せとしてユーザに提示する構成とすることで、ユーザが実際に操作する時間を大幅に短縮できるようにするものである。これを実現するために、検索システムの方で事前に翻訳文の全部分列の組み合わせによる検索を行っておき、その中から対訳フレーズとして再利用価値が高そうなものをユーザに提示する。また、提示された対訳フレーズ候補から実際の検索結果が素早く参照できるように構成する。さらに、入力文に対する適切なフレーズ候補の組合せが見つかった時点で、これらフレーズ候補を構成要素とするような訳文を生成するように構成することにより、さらに作業効率を上げることができる。この機能は、従来の機械翻訳の文解析および文生成の技術を利用することにより、実現することができる。
以下、本発明の実施の形態について図面を参照しつつ説明する。
実施の形態1.
図1は、本発明の実施の形態1に係る翻訳支援装置の構成を示すブロック図である。実施の形態1における翻訳支援装置は、翻訳対象の文を入力文(原言語:第1言語)として入力する入力文受付部1と、入力文から入力文の部分列として、全ての可能な部分列の組み合わせを作成する入力文部分列作成部2と、入力部分列から対訳例文をデータベース10,11に対して検索する対訳例文検索部3と、対訳例文検索部3で検索された部分候補に対して評価を行い、候補としての適切さの指標である評価値を付与する評価値付与部4とを備える。
更に、翻訳支援装置は、評価値の付与された検索結果の中から、対訳フレーズ候補として提示するのに適当なものを抽出するフレーズ候補抽出部5と、部分列が包含関係にあるような複数の候補が存在する場合に、この中で最も候補として適当なものを残して重複を削除してフレーズ候補を整理するフレーズ候補整理部6と、整理されて残されたフレーズ候補を翻訳対象である入力文に付加してなるフレーズ候補付き入力文を作成するフレーズ候補付き入力文作成部7と、フレーズ候補付き入力文を画面に表示する表示部8と、入力文に対してフレーズ候補に基づく対訳例文表示データをデータベース10,11から抽出して作成する対訳例文表示データ作成部9を備える。
対訳例文のデータベース10,11としては、対訳例文における原言語を格納した原言語側データベース10と、対訳例文における目標言語を格納した目標言語側データベース11とを備えている。なお、これらデータベース10,11それぞれに格納される互いに対訳関係にある原言語例文と目標言語例文は、文単位で対訳対応がなされている。
以下、本発明の動作を図2〜図12を用いて説明する。図2は実施の形態1の動作を示すフローチャート、図3〜図12は各動作における状態を示す説明図である。なお、この動作においては、英日翻訳を例にして説明する。すなわち、ここでは入力文および原言語側例文が英語で、目標言語側例文が日本語となる。もっとも、この言語対はあくまでも例であり、本発明は原理的には任意の言語対に適用可能であることは言うまでもない。
まず、入力文受付部1により、翻訳対象文である入力文が1文受け付けられる(ステップS1)。ここでは、入力文として「This is the pen which I love very much.」が入力されたところである。
次ぎに、入力文部分列作成部2により、入力文の各構成要素で始まる全ての長さの部分単語列が作成される(ステップS2)。入力文が英語のように単語単位で区切られる言語では、単語列の組み合わせが作られることになる。図3では、英語の単語区切りを使い、「部分単語列」を示している。入力文の先頭単語を始点とする全ての長さの部分単語列を作成し、次に先頭から第2単語目を始点とする全ての長さの部分列を作成し…、という具合に入力文の最後の単語を始点とする部分列まで、全ての組み合わせを作成する。
なお、入力文が日本語の場合には、文字単位で部分列を作ってもよいし、形態素列としてもよい。
次ぎに、対訳例文検索部3により、ステップS2で作成した部分列の一覧から、図4に示すように部分単語列を一つ取り出し(ステップS3)、取り出した部分単語列を入力として、対訳例文データベース10,11において、原言語側文を対象に類似文検索を行なう(ステップS4)。検索結果として、入力された部分単語列に類似した原言語文、および検索された原言語文に対応付けられた目標言語文の対の候補一覧が取り出される。これら候補を以下では「部分候補」と呼ぶ。部分候補が取り出されると、次ぎに評価値付与部4により、各部分列に対する各部分候補に対して「部分評価値」が付与され、各部分列におけるの部分評価値の最大値である「最大部分評価値」が得られる(ステップS5)。
図4では、図3で作成した部分単語列一覧から一つの部分単語列(「This is the pen which」)を取り出し、これを検索キーとして対訳例文データベースを検索したところを表している。
図4の下半分では、検索結果の原言語側文の候補、およびこれらに対して評価値を付与するところを表している。「部分候補」は、入力部分単語列に対する検索結果の原言語側文の一覧である。部分候補では、部分単語列と一致した単語は、下線で示している。
例えば、原言語側候補の「This is the pen」では、全4単語が部分単語列と一致しているので、「マッチ数」が4となっている。「候補側」では、原言語側候補文の4単語中4単語(全単語)がマッチしていることを表している。「入力側」では、入力部分列の5単語のうち4単語がマッチしていることを表している。
「部分評価値」は各部分候補に対する評価値であり、ここでは、「マッチ数」と「候補側」比率と「入力側」比率の積となっている。この評価式は、候補が提示するフレーズとして適切であるかを示す指標であり、本実施の形態の上記式はそれを実現する一例である。
このようにして、部分単語列に対する全部分候補について部分評価値が計算され、その部分評価値の中の最大値がその部分単語列に対する「最大部分評価値」となる。
次ぎに、以上の処理において、取り出した部分列が部分列一覧の中で最後のエントリであるかどうかの判定が行われ(ステップS6)、最後のエントリであれば次ステップS7に進み、最後のエントリでなければ最後のエントリとなるまでステップS3,S4の処理が繰り返される。
ステップS3〜ステップS6のループ処理が全エントリに対して終了すると、全ての部分列の検索結果に対して最大部分評価値が付加された状態になる。そこで、次ぎの処理として、フレーズ候補抽出部5により、これらの部分列検索結果の中で、閾値以上の最大部分評価値を与えられたものがフレーズ候補として取り出される(ステップS7)と共に、フレーズ候補整理部6により、取り出された評価値以上のフレーズ候補の中で重複がある場合に、重複されているものが削除されて整理される(ステップS8)。
図5は、各部分単語列とその最大部分評価値を取り出したものである。ここで閾値が仮に3だとすると、"This …"で始まる部分単語列では、"This is the"および"This is the pen"の二つが閾値以上となる。"is …"で始まる部分単語列には、閾値を超えるものはない。"This is the"および"This is the pen"は、前者が後者の部分列であるため、整理を行い、最長である後者のほうが残る。
図6では、ある閾値(ここでは3)以上の最大部分評価値を持った部分単語列候補を取り出し、整理を行なった結果の一覧を示している。各候補は、対訳データベース中に対応する目標言語側文を持っているため、これら目標言語側文も一緒に取り出される。これら候補を、「対訳フレーズ候補」と呼ぶ。
対訳フレーズ候補が取得されると、フレーズ候補付き入力文作成部7により、翻訳対象である入力文に対してフレーズ候補が付与された入力文が作成され(ステップS9)、その結果が表示される(ステップS10)。
図7は、図6で作成された対訳フレーズ候補の情報を入力文に付与した状態を示し、表示部8における表示結果を示している。図6の1番目の候補におけるマッチ部分である、「This is the pen」に対応する入力文の部分に下線が付与されて表示されている。同様にして、2番目の候補のマッチ部分である「which I love」、3番目の候補のマッチ部分である「very much」がそれぞれ下線によって示されている。
図8は、図7に示したフレーズ候補付き入力文の表示画面に対して、更にユーザが操作を行ったところをあらわしている。ユーザは、入力文中の「This is the pen」に下線が付与されていることから、この部分列がフレーズ候補である可能性があると認識する。この部分列はハイパーリンクとして構成されており、ユーザがこのハイパーリンクを辿ることによって、この部分列を含む対訳例文が表示される。この対訳例文は対訳例文表示データ作成部9により作成され表示される。
図9は、図8と同様に、候補のハイパーリンクを辿った状態を示している。
本実施の形態における表示方法として、図10のようにフレーズ候補付きで入力文を表示することもできる。図10において、入力文の下部に、フレーズ候補の一覧が表示されている。フレーズ候補はそれぞれがハイパーリンクになっている。
図11は、図10の表示に対して、さらにユーザが操作を行った場合の表示を示している。図中、ユーザは、フレーズ候補のうち「this is the pen」を指定するが、そうすると、このフレーズ候補のハイパーリンクが辿られ、対応する対訳例文がポップアップして表示される。
本実施の形態における他の表示方法として、図12に示すように表示することもできる。対訳例文の原言語側は「this is the pen」であるが、対訳辞書を検索した結果、これらの原言語側文中の単語が目標言語側の「これはペン」に対応していることがわかっている。そこで、このことをあらわすために、図12に示す表示方法では、目標言語側文の対応する部分に下線による表示を行っている。
実施の形態2.
以下、実施の形態2について説明する。実施の形態2は、実施の形態1で得られるフレーズ候補を構成要素とし、自然文の訳文を生成する翻訳装置について説明する。
図13は実施の形態2を示すブロック図である。実施の形態2の翻訳装置は、実施の形態1において上述した翻訳支援装置における入力文受付部1〜フレーズ候補整理部6及び表示部8、例文データベース10,11と、入力文の構文を解析する構文解析部20と、構文の意味を解析する意味解析部21と、フレーズ候補整理部6で得られたフレーズ候補から対応訳語を検索する対応訳語検索部24と、構文意味の解析結果と検索された対応訳語とに基づいて訳語を変更する訳語変更部(訳語置き換え部)22と、変更された訳語を用いて訳文を生成する訳文生成部25と、意味解析部21により解析された情報を格納する解析結果格納データベース23とを備える。
実施の形態2における翻訳装置は、入力文を構成するフレーズ候補に対応する目標言語側フレーズ群を対象に機械翻訳の文生成技術を用いて、文の形で出力するものである。
構文解析部20は、自然言語処理分野で従来から用いられている構文解析装置であり、入力文受付部1からの入力文字列を形態素列に分解してから構文構造を解析して文の構文情報を表す構文木を出力する。
意味解析部21は、従来の機械翻訳で用いられるような意味解析部であり、構文解析部20から得られた構文木に対して意味解析を行うことによって概念構造を出力する。出力された概念構造は解析結果格納データベース23に蓄積されると同時に訳語変更部22に渡される。
対応訳語検索部24は、フレーズ候補整理部6から出力された原言語の各フレーズ候補に対応する目標言語候補群の中から、第1候補のみを取り出す。そして、ここでは、原言語側のフレーズ候補中の単語と目標言語側の第1候補中の単語との間でマッチングをとり、対応訳語を見出す。さらに、このようにして得られた対応訳語の原言語側単語を用いて、解析結果格納データベース23の概念構造における各概念ノード中の原言語単語を検索する。
訳語変更部22は、対応訳語検索部24において概念ノードに対する検索がヒットした場合に、その対応する目標言語側単語列をフレーズ候補から得られた目標言語側単語で置き換える。
訳文生成部25は、訳語変更部22によって訳語(目標言語側単語)を置き換えられた概念構造から、既存の文生成装置を用いて訳文を出力する。文生成装置は、機械翻訳等で従来から用いられているものを用いる。
このようにして、本実施の形態では、構文解析部20により、原言語文から構文解析を用いて構文構造を取り出し、得られた構文構造を意味解析部21により、概念構造に変換し、訳文生成部25により、変換された概念構造から目標言語の訳文を生成するようにしたものであり、構文構造の段階において、訳語変更部22と対応訳語検索部24により、フレーズ候補の目標言語側単語を組み入れることによって、フレーズを生かした訳文生成を行う。なお、他の方式による機械翻訳を用いて同様に適用しても良いことは言うまでもない。
以下、図14に示すフローチャートを用いて実施の形態2の動作について説明する。
まず、入力文が一文受け付けられる(ステップS21)。ここで、入力文に対する処理はステップS22,S27に分岐する。分岐の一方であるステップS22では、図2に示したステップS1〜S8に対応する処理であり、入力文からフレーズ候補を作成する。
ステップS23では、作成されたフレーズ候補から原言語側フレーズを1つ取り出し、ステップS24では、取り出されたフレーズ候補から各単語が1つずつ取り出され、それぞれの単語をキーとして、目標言語側フレーズ群の各単語が検索される。ステップS25により、原言語側のフレーズ毎に全ての単語について処理が繰り返される。ステップS26では、ステップS25までの繰り返し処理の中で、単語同士がヒットしたフレーズ対とそれら単語対自身が集計される。
分岐の他方であるステップS27では、ステップS21での入力文に対して構文解析が行われ、結果として構文木が出力される。
図15は、構文解析部20により、入力文に対する構文解析を行っている状態を示す説明図である。内部処理的には、入力文の構文構造が木構造で格納されている。構文解析の手法および結果の格納方法は、機械翻訳をはじめとする自然言語処理で一般的に使われるものであり、その処理の詳細についての説明は省略する。
図15において、Sは文(Sentence)、NPは名詞句(noun phrase)、VPは動詞句(verb phrase)を表しており、“this”、“is”などは木構造の終端ノードを表し、全体として、原言語側の文法構造を表したものとなっている。
ステップS28では、構文木に対して意味解析が行われ、結果として概念構造が生成される。
図16は、図15に示した木構造から、意味解析部21により、概念構造を生成した状態を示す説明図である。構文構造から概念構造への変換においても、機械翻訳等で一般的に用いられる周知の手法を用いている。
図中、概念ノードが円で表され、関係アークが矢印で表されており、概念名は角カッコで表されている。概念ノードにおける概念は、原言語側の単語と目標言語側の単語群の両方を持っている。たとえば、概念「this」には、原文中の原言語単語である「this」が対応付けられている。なお、これら概念には、さらに図示しない「是」、「こちら」等の目標言語側単語も持っている。
これら目標言語側単語群は、最初は機械翻訳用対訳辞書に格納されており、概念構造が生成されるときに、各概念ノードに情報が伝達される。概念構造は、概念同士のつながりを表したものであり、これに対して目標言語の生成規則を適用することによって、訳文を生成することができる。
通常の機械翻訳であれば、上述のように、各概念に対応する目標言語の単語が格納されていて、これら単語を使って生成が行われる。たとえば、概念「I」に対して「わたくし」、「僕」等の目標言語単語が格納されている。
本実施の形態では、機械翻訳が用意した目標言語の単語列を使う代わりに、フレーズ候補整理部6により整理されたフレーズ候補を用いて対訳フレーズの目標言語側単語列を概念ノードに割当て、これら目標言語側単語を用いて訳文生成を行うわけである。
図17は、フレーズ候補の第1候補のみを取り出した状態を示す説明図であり、対訳辞書の辞書引きによって単語対応が付けられた状態となっている。たとえば、図8では、「This is the pen」の対訳として3つの目標言語文である日本語文が存在しているが、その中の先頭にある「これがそのペンです」を採用する。
複数候補に対する順位付けとしては、原言語側文字列と目標言語側文字列の類似度を使うことができ、類似度自体は「編集距離」等を始めとする周知の様々な手法で計算することができる。同様にして、「which I love」および「very much」に関しても、第1候補の目標言語文字列を採用する。
このようにして各フレーズに目標言語文字列を一つずつ割り当ててから、原言語側と目標言語側で単語間の対応をとる。これは、機械翻訳対訳辞書等の対訳辞書を用いる。例えば、対訳辞書に「this」の訳語として「これ」が入っていれば、これらの対応付けを行う。同様にして、他のフレーズ対に関しても対応付け処理を行う。
この例では、概念「I」に対して機械翻訳辞書が用意した「わたくし」、「僕」の代わりに、対訳フレーズに現れる「私」が割り当てられる。この割当ての処理について、以下に述べる。
ステップS29では、ステップS26から単語対応付けされたフレーズ対と、ステップS28からの概念構造の形となった入力文が入力される。ここで、フレーズ1つが取り出される。ステップS30では、フレーズの原言語側の各単語で概念構造の各概念ノードの原言語単語が検索される。
ステップS31では、ステップS30の検索において、ヒットがあれば、フレーズにおける対応する目標言語側単語で、概念ノードの目標言語側単語を置き換える。
ステップS32でフレーズ毎に処理が繰り返される。ステップS23では、目標言語側単語の置き換えが済んだ概念構造に対して訳文生成処理が行われ、出力文が生成される。
図18は、図16に示した概念構造のそれぞれの概念に対して、フレーズ候補の単語対応情報から訳語側フレーズを対応付けした状態を示す説明図である。
上述のように、各概念ノードには、原言語単語と目標言語側単語群が格納されている。ここでは、もともと格納されている目標言語側単語群は用いない。図17に示した原言語側単語で各概念ノードの原言語単語を検索し、ヒットした場合には、対応付けられた目標言語側単語フレーズの単語をその概念ノードに割り付ける。実際には、概念ノードは名詞的な概念や動詞的な概念が中心となるので、「the」等の冠詞や「which」等の関係詞はヒットしない。
このようにして、図18に示すように、各概念ノードに対訳フレーズ中の単語が割り振られる。なお、フレーズ中の単語とヒットしないノードに関しては、機械翻訳でもともと用意された目標言語側単語群の中から単語を選んで使うことができる。
この訳語側フレーズを指定訳語として生成した訳文が、図18の下部に表されている。概念構造からの訳文生成に関しては、従来の訳文生成技術を用いる。
図19は、訳語側フレーズ候補を指定訳語として生成した訳文について、フレーズ候補の対訳関係を表示するようにした表示状態を示している。
以上、本発明の実施の形態について、英語を日本語に翻訳する場合に例をとって説明したが、本発明は、入力文を部分列に区切れて、各区分において対訳例文を検索できる全ての言語翻訳に適用でき、また、上述した構文解析手法及び意味解析手法についても、既存の全ての手法が適用できることは言うまでもない。
なお、本発明の翻訳支援プログラム並びに翻訳プログラムは、コンピュータに読取り可能な記録媒体に記録されることができ、ここで、コンピュータにより読取り可能な記録媒体には、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
(付記1) 第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳支援を行う翻訳支援装置であって、
前記入力文を受付ける入力文受付部と、
前記入力文受付部で受付けられた例文の部分列を作成する部分列作成部と、
前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索部と、
前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与部と、
前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、
前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理部と、
フレーズ候補整理部で整理されたフレーズ候補が付加された前記入力文を表示データとして作成するフレーズ候補付き入力文作成部と
を備えてなる翻訳支援装置。
(付記2) 付記1に記載の翻訳支援装置において、
前記フレーズ候補付き入力文作成部で作成されたフレーズ候補付き入力文を表示する表示部を備えることを特徴とする翻訳装置。
(付記3) 付記2に記載の翻訳支援装置において、
前記表示部は、前記フレーズ候補が付加された入力文の表示において、入力文中のフレーズ候補に対応する部分列を強調表示すことを特徴とする翻訳支援装置。
(付記4) 付記2に記載の翻訳支援装置において、
前記表示部は、前記フレーズ候補が付加された入力文の表示において、前記フレーズ候補を前記入力文の近傍に並べて表示することを特徴とする翻訳支援装置。
(付記5) 付記1に記載の翻訳支援装置において、
前記フレーズ候補が付加された入力文に対し、前記フレーズ候補に基づいて、該フレーズ候補を有する表示用対訳例文を作成する対訳例文表示データ作成部を備えることを特徴とする翻訳支援装置。
(付記6) 付記5に記載の翻訳支援装置において、
前記対訳例文表示データ作成部は、前記表示用対訳例文において、入力文と一致する原言語側文の部分列を強調表示するように対訳例文表示データを作成することを特徴とする翻訳支援装置。
(付記7) 付記4に記載の翻訳支援装置において、
前記対訳例文表示データ作成部は、前記表示用対訳例文において、入力文と一致した部分がさらに、目標言語側に対応する部分列を持つ場合、この対応する部分列を強調表示するように対訳例文表示データを作成することを特徴とする翻訳支援装置。
(付記8) 第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し翻訳を行う翻訳装置であって、
前記入力文を受付ける入力文受付部と、
前記入力文受付部で受付けられた例文の部分列を作成する部分列作成部と、
前記部分列作成部により作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索部と、
前記対訳例文検索部により検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与部と、
前記評価値付与部により付与された評価値に基づいて、前記対訳例文検索部で検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、
前記フレーズ候補抽出部により抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理部と、
入力文の構文を解析する構文解析部と、
前記構文解析部で得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析部と、
前記フレーズ候補整理部で得られたフレーズ候補における第1言語の単語で前記対応訳語を検索する対応訳語検索部と、
前記対応訳語検索部により前記対応訳語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記フレーズ候補における前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換え部と、
訳語置き換え部により置き換えられた訳語を用いて訳文を生成する訳文生成部と
を備える翻訳装置。
(付記9) 付記8に記載の翻訳装置において、
生成された訳文において、訳文側フレーズ候補とそれに対応する原文側フレーズが対応付けられて表示する表示部を備えることを特徴とする翻訳装置。
(付記10) 第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し表示する翻訳支援をコンピュータに実行させる翻訳支援プログラムであって、
前記入力文を受付ける入力文受付けステップと、
前記入力文受付けステップで受付けられた例文の部分列を作成する部分列作成ステップと、
前記部分列作成ステップにより作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索ステップと、
前記対訳例文検索ステップにより検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与ステップと、
前記評価値付与ステップにより付与された評価値に基づいて、前記対訳例文検索ステップで検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出ステップと、
前記フレーズ候補抽出ステップにより抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理ステップと、
前記フレーズ候補整理ステップで整理されたフレーズ候補が付加された前記入力文を表示データとして作成するフレーズ候補付き入力文作成ステップと
をコンピュータに実行させる翻訳支援プログラム。
(付記11) 第1言語の入力文を第2言語の文に翻訳する処理をコンピュータに実行させる翻訳プログラムであって、
前記入力文を受付ける入力文受付ステップと、
前記入力文受付けステップで受付けられた例文の部分列を作成する部分列作成ステップと、
前記部分列作成ステップにより作成された例文の部分列を用いて第1言語と第2言語の対訳例文を検索する対訳例文検索ステップと、
前記対訳例文検索ステップにより検索された対訳例文と該対訳例文に係る例文の部分列とに基づいて、検索された前記対訳例文の評価を行い評価値を付与する評価値付与ステップと、
前記評価値付与ステップにより付与された評価値に基づいて、前記対訳例文検索ステップで検索された前記対訳例文から所定の対訳例文をフレーズ候補として抽出するフレーズ候補抽出ステップと、
前記フレーズ候補抽出ステップにより抽出されたフレーズ候補から所定のフレーズを選択するフレーズ候補整理ステップと、
入力文の構文を解析する構文解析ステップと、
前記構文解析ステップで得られた構文の意味を解析し対応訳語を含む概念構造を生成する意味解析ステップと、
前記フレーズ候補整理ステップで得られたフレーズ候補における第1言語の単語で前記対応訳語における第1言語の単語を検索する対応訳語検索ステップと、
前記対応訳語検索ステップにより前記対応訳語における第1言語の単語がヒットした場合に、前記意味解析部で生成された概念構造の対応訳語における第2言語の単語を、前記ヒットした前記第1言語の単語に対応する第2言語の単語に置き換える訳語置き換えステップと、
訳語置き換えステップにより置き換えられた訳語を用いて訳文を生成する訳文生成ステップと
をコンピュータに実行させる翻訳プログラム。
本発明の実施の形態1に係る翻訳支援装置の構成を示すブロック図である。 実施の形態1の動作を示すフローチャートである。 入力文を部分単語列で表した状態図である。 最大部分評価値の取得方法を説明するための説明図である。 部分単語列毎の最大部分評価値を示す説明図である。 3以上の最大部分評価値を持った部分単語列候補を取り出し、整理を行なった結果の一覧を示す状態図である。 図6で作成された対訳フレーズ候補の情報を入力文に付与した状態を表示結果として示す図である。 図7に示したフレーズ候補付き入力文の表示画面に対して、更にユーザが操作を行った状態を示す図である。 図8と同様に、候補のハイパーリンクを辿った状態を示す図である。 フレーズ候補付きで入力文を表示した表示状態を示す図である。 図10の表示に対して、さらにユーザが操作を行った場合の表示状態を示す図である。 目標言語側文の対応する部分に下線による表示を行った表示状態を示す図である。 本発明の実施の形態2に係る翻訳装置の構成を示すブロック図である。 実施の形態2の動作を示すフローチャートである。 構文解析部により、入力文に対する構文解析を行っている状態を示す説明図である。 図15に示した木構造から、意味解析部により、概念構造を生成した状態を示す説明図である。 フレーズ候補の第1候補のみを取り出した状態を示す説明図である。 図16に示した概念構造のそれぞれの概念に対して、フレーズ候補の単語対応情報から訳語側フレーズを対応付けした状態を示す説明図である。 訳語側フレーズ候補を指定訳語として生成した訳文について、フレーズ候補の対訳関係を表示した状態を示す図である。
符号の説明
1 入力文受付部、2 入力文部分列作成部、3 対訳例文検索部、4 評価値付与部、5 フレーズ候補抽出部、6 フレーズ候補整理部、7 フレーズ候補付き入力文作成部、8 表示部、9 対訳例文表示データ作成部、10,11 対訳例文データベース、20 構文解析部、21 意味解析部、22 訳語変更(置き換え)部、23 解析結果格納データベース、24 対応訳語検索部、25 訳文生成部。

Claims (3)

  1. 電子データとして入力される複数の単語からなる第1言語での入力文に基づいて、第1言語の例文とその例文の第2言語による翻訳文を対訳例文として検索し表示する翻訳装置であって、
    複数の単語からなる前記入力文を電子データで受付ける入力文受付部と、
    前記入力文受付部で電子データとして受付けられた入力文の部分列を電子データにより作成する部分列作成部と、
    前記部分列作成部により作成された入力文の部分列を用いて該部分列に類似した第1言語とその第1言語に対応した第2言語の対訳例文をデータベースから検索する対訳例文検索部と、
    前記対訳例文検索部により前記データベースから検索された前記部分列に類似した第1言語の部分候補を構成する単語が前記部分列の単語に一致する数であるマッチ数の前記第1言語の部分候補を構成する単語数との割合、及び前記部分列の単語数と前記マッチ数との割合とを算出し、これら割合の算出値に基づいて前記部分候補の評価値を算出して付与する評価値付与部と、
    前記評価値付与部により付与された評価値が所定の値以上となる対訳例文をフレーズ候補として抽出するフレーズ候補抽出部と、
    前記フレーズ候補抽出部により抽出されたフレーズ候補から重複したものを削除するフレーズ候補整理部と、
    前記フレーズ候補整理部で整理されたフレーズ候補が付加された前記入力文を表示データとして作成するフレーズ候補付き入力文作成部と
    を備えてなる翻訳装置。
  2. 請求項1に記載の翻訳装置において、
    前記フレーズ候補付き入力文作成部で作成されたフレーズ候補付き入力文を表示する表示部を備えることを特徴とする翻訳装置。
  3. 請求項1に記載の翻訳装置において、
    前記フレーズ候補が付加された入力文に対し、前記フレーズ候補に基づいて、該フレーズ候補を有する表示用対訳例文を作成する対訳例文表示データ作成部を備えることを特徴とする翻訳装置。
JP2004322269A 2004-11-05 2004-11-05 翻訳装置 Expired - Fee Related JP4588417B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004322269A JP4588417B2 (ja) 2004-11-05 2004-11-05 翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004322269A JP4588417B2 (ja) 2004-11-05 2004-11-05 翻訳装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006083092A Division JP4588657B2 (ja) 2006-03-24 2006-03-24 翻訳装置

Publications (3)

Publication Number Publication Date
JP2006134062A JP2006134062A (ja) 2006-05-25
JP2006134062A5 JP2006134062A5 (ja) 2006-07-06
JP4588417B2 true JP4588417B2 (ja) 2010-12-01

Family

ID=36727558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004322269A Expired - Fee Related JP4588417B2 (ja) 2004-11-05 2004-11-05 翻訳装置

Country Status (1)

Country Link
JP (1) JP4588417B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4607671B2 (ja) * 2005-06-07 2011-01-05 富士通株式会社 翻訳支援プログラム、方法及び装置
JP4997966B2 (ja) 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
JP5257189B2 (ja) * 2009-03-25 2013-08-07 富士通株式会社 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法

Also Published As

Publication number Publication date
JP2006134062A (ja) 2006-05-25

Similar Documents

Publication Publication Date Title
JP5209235B2 (ja) ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること
JPS62163173A (ja) 機械翻訳方法
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
WO2001084376A2 (en) System for answering natural language questions
JP2002229981A (ja) 文字列の正規化表示を生成するシステム
US20070011160A1 (en) Literacy automation software
KR20160138077A (ko) 기계 번역 시스템 및 방법
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
Hutchins Example-based machine translation: a review and commentary
Koeva et al. Natural language processing pipeline to annotate Bulgarian legislative documents
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
JP4588657B2 (ja) 翻訳装置
Bakari et al. Logic-based approach for improving Arabic question answering
Vierros Linguistic annotation of the digital papyrological Corpus: Sematia
JP4588417B2 (ja) 翻訳装置
Polis et al. Building an annotated corpus of Late Egyptian. The Ramses project: review and perspectives
Nivre Multilingual dependency parsing from universal dependencies to sesame street
Shreve Corpus enhancement and computer-assisted localization and translation
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
Rosén et al. Syntactic annotation of learner corpora
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
Mészáros et al. The DHmine Dictionary Work-flow: Creating a knowledge-based author’s dictionary
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080314

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080328

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080502

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees