JP3752535B2 - Translation selection device and translation device - Google Patents

Translation selection device and translation device Download PDF

Info

Publication number
JP3752535B2
JP3752535B2 JP2002113422A JP2002113422A JP3752535B2 JP 3752535 B2 JP3752535 B2 JP 3752535B2 JP 2002113422 A JP2002113422 A JP 2002113422A JP 2002113422 A JP2002113422 A JP 2002113422A JP 3752535 B2 JP3752535 B2 JP 3752535B2
Authority
JP
Japan
Prior art keywords
translation
unit
word
source language
example data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002113422A
Other languages
Japanese (ja)
Other versions
JP2003308319A (en
Inventor
清貴 内元
聡 関根
真樹 村田
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2002113422A priority Critical patent/JP3752535B2/en
Publication of JP2003308319A publication Critical patent/JP2003308319A/en
Application granted granted Critical
Publication of JP3752535B2 publication Critical patent/JP3752535B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ある言語で入力されたテキストを他の言語へ翻訳する際に使用される訳語選択装置、及び翻訳装置に関するものである。
【0002】
【従来の技術】
機械翻訳において、ある言語で記述された文、句、節、又は単語等の原テキストと、その原テキストを別の言語に翻訳した翻訳テキストとを対にした対訳データを格納したデータベースが使用されることがある。特に最近では、単語だけでなく、単語を含む文や句等の用例のデータベース(以下、「対訳コーパス」と称する)が使用されるようになってきている。現在では、新聞や辞書等を言語資源とした多種多様な対訳コーパスがインターネット等で公開され、利用に供されている。
【0003】
機械翻訳では、訳語選択が重要な技術要素の一つとして考えられるが、対訳用例コーパスを用いた場合、単純には対訳データの量が多ければ多いほど用例の数や種類が多くなると考えられることから、単一の対訳コーパスのみを使用するのではなく、可能な限り多種類の対訳コーパス又は対訳データを収集し、それらを用いて機械翻訳を実行することが考えられている。この場合、翻訳対象となる原言語での入力テキストに基づいて収集された対訳コーパスを参照し、入力テキストと合致する或いは最も類似する用例を含む原テキストに対応する対訳テキストを翻訳結果として出力する、という用例ベースの訳語選択方法が最も単純な手法であると考えられる。この他にも、対訳コーパスに基づいて作成した学習データを学習モデルに適用し、単純な統計的に確からしい訳語を出力するという、学習ベースの訳語選択方法も考えられている。
【0004】
【発明が解決しようとする課題】
用例ベースの訳語選択方法では、多種多様な対訳コーパスを参照しているため、それだけ翻訳の正確さが向上するものと一応は推測することができる。しかしながら、多種類の対応する訳語が存在する多義性を有する原言語の単語についてみれば、上述の方法では、対訳コーパス中に入力テキストと同一又は類似する用例が存在しなければ、正しい訳語を出力することができず、柔軟性に欠けるという不具合がある。一方、学習ベースの訳語選択方法では、統計的に頻度が高い用例で用いられている訳語を優先的に出力するために、数多くの用例で一般的に用いられ出現頻度の高い当該単語の訳語の正確性は向上する一方で、出現頻度が低い訳語については翻訳の正確さが低下する。
【0005】
このような問題は、ある単語が他の語句と結びついて独特の表現となる、「慣用表現」を入力テキスト中に含む場合に生じることが多い。一例として、日本語において多義的な「買う」という単語が原テキストに含まれる場合について考えると、「本を買う」という表現と「反感を買う」という表現とでは、「買う」の意味が異なり、それによって「買う」に対応する英語の訳語が異なる。この場合、日英の対訳コーパスには、「物を買う」という場合における「買う」の訳語と同じ英訳語(buy)が使われる用例は多数あってその英訳語の出現頻度は高いと考えられるのに対して、「反感を買う」というような慣用表現では「買う」の英訳語(antipathy)が特殊なものであるためにその英訳語を含む「買う」の用例は少ないものと考えられる。
【0006】
また、いずれの訳語選択方法においても、精度の高い翻訳を実現するには、対訳コーパスを大量に収集する必要があるが、自然言語には多様なバリエーションがあり得るため、単に多数の対訳コーパスを収集する方法ではコンピュータ処理の負荷が高まるだけで、現実にはこのような方法によって短時間で正確な機械翻訳を実施するのは不可能であると考えられる。
【0007】
そこで本発明は、以上のような問題に鑑みて、機械翻訳において、装置に過剰な負荷を掛けることなく、訳語選択並びに翻訳を正確かつ適正に短時間で行うことができるようにすることを主たる目的としている。
【0008】
【課題を解決するための手段】
本発明は、基本的に、第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものである。ここで利用する対訳用例データ格納部は、上述したいわゆる対訳コーパスに該当するが、一つ以上を利用すればその数は問わない。但し、複数の対訳用例データ格納部を利用すれば、用例数を増加させて訳語選択の正確性を向上することができる。また、対訳用例データ格納部は、以下に述べる訳語選択装置や翻訳装置の一構成要素としたり、これら訳語選択装置等と通信可能な別の装置に設けることが可能である。
【0009】
このようなものにおいて本発明は、図1に概略構成図を示すように、第1の訳語選択装置A1の基本構成として、入力テキストの入力を受け付ける入力受付部1と、その受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを対訳用例データ格納部Cから抽出する用例抽出部2と、抽出した原言語用例データと前記入力テキストとに基づき入力テキストと原言語用例との類似性を検出する類似性検出部3と、検出した原言語用例の類似性を比較評価して最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部4と、出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部5とを有していることを特徴とするものである。
【0010】
このように構成することによって、入力テキスト中に含まれる翻訳対象語に対して、それが用いられている原言語用例との類似性が最も高い訳語を出力することができる。したがって、特に原言語で使用される慣用句等の出現頻度が低い語句の訳語選択に際して、あまりに多くの対訳用例データを利用することなく、またコンピュータ処理に多大な負荷を掛けることなく、適切な訳語選択を行うことが可能となる。
【0011】
特に、類似性検出部3において、好適な類似性の検出を行い得る態様としては、入力テキストと抽出された原言語用例データに含まれる原言語用例とを文字単位で比較して求められる差異に基づき入力テキストと原言語用例との一致した文字列の割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を用いて計算される類似度を類似性として演算するようにしたものが挙げられる。
【0012】
また、用例抽出部2で抽出した原言語用例についてそれ以後の処理の便宜を図るためには、この用例抽出部2において、抽出された原言語用例データに含まれる原言語用例に文末処理を施して処理済原言語用例を出力するようにすればよく、この場合、類似性検出部3において、入力テキストと処理済原言語用例との文字単位で比較した場合の差異の演算結果に基づいて、一致した文字列の当該処理済原言語用例の文字列に対する割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を類似度として演算するように構成することが望ましい。
【0013】
さらに、訳語出力部5において、類似性検出部3で演算の上、出力し類似性評価部4で評価した結果、類似度が最大となる原言語用例データが複数ある場合が想定される。この場合、前記演算の結果、入力テキストと一致した文字列又は前記分割数が最大の原言語用例を含む対訳用例データにおける翻訳対象語に対応する訳語を出力することで、最も適していると推定される訳語を出力することができる。
【0014】
また、入力テキストの受付後の処理を簡便化するには、入力受付部1において、入力テキストを形態素解析により翻訳対象語を自動抽出するようにしておくことが好ましい。なお、「形態素解析」とは、入力テキストを単語毎に分割し、それぞれに品詞を割り当てる等の解析処理をいい、所定の解析アルゴリズム及び解析用辞書データが用いられる。
【0015】
さらに対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものである場合には、用例抽出部2において、少なくとも翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部Cから抽出するようにすることで、対訳用例データ格納部Cからの原言語用例データの抽出処理を高速化することができる。
【0016】
さらにまた、対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語とそれに対応する訳語に基づいて生成された目的言語見出し語とを有する場合には、用例抽出部2において、翻訳対象語に該当する原言語見出し語を含む原言語用例データを少なくとも抽出し、訳語出力部5において、類似性評価部4で出力した原言語用例データに含まれ且つ用例抽出部2で抽出した原言語見出し語に対応する目的言語見出し語を出力することで、訳語出力までの処理をさらに高速化することができる。
【0017】
また本発明は、図2に概略構成図を示すように、第2の訳語選択装置A2の基本構成として、入力テキストの入力を受け付ける入力受付部11と、対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部12と、その生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部13と、その出力した訳語候補のうち最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部14とを有することを特徴としている。ここで、「学習データ」とは、対訳用例に基づいて作成された第1言語で入力される語、それに対応して第2言語で出力されるべき正解の訳語、及びそれらに付随する属性や素性等の情報をいう。また、「学習モデル」とは、前記学習データを利用して推定されたパラメータを含み機械学習の手法により生成される関数的モデルである。また、確信度の順序づけは、降順又は昇順の何れであるかを問わない。
【0018】
このような構成によれば、一定量の学習データを作成又は収集しておくと、それに基づいて生成した適切な学習モデルを翻訳対象となる目的言語に適用した上で、確信度の最も高い訳語候補、すなわち最も適切であると推測することができる訳語を出力することができる。したがって、このような訳語選択装置A2であれば、訳語選択に際して、翻訳対象となる語句(単語)ごとに学習モデルを生成することで、各語句(単語)に応じた適切なモデルによって訳語を選択することができるようになる。
【0019】
特に学習モデル生成部12において、入力受付部11で受け付けた入力テキスト中の翻訳対象語ごとにそれを含む原言語用例に対応する対訳用例データを対訳用例データ格納部Cから抽出し、その抽出された対訳用例データに基づいて学習モデルを生成するように構成すれば、迅速且つ正確な訳語出力処理を行うことができる。
【0020】
また、出力する訳語の正確性を高めるためには、学習モデル生成部12において、学習データを利用し各学習データごとにそれぞ学習モデルを生成し、さらに入力受付部11で受け付けた入力テキスト中の翻訳対象語ごとに学習データで精度が最高となる学習モデルを選択し、学習モデル適用部13において、学習モデル生成部12で選択した最高の精度を得た学習モデルを入力テキスト中の翻訳対象語に適用するようにするとよい。なお、利用する学習データ数は一つであってもよいし複数であってもよい。
【0021】
また、この訳語選択装置A2においても、入力受付部11において、入力テキストを形態素解析により翻訳対象語を自動抽出することで、入力テキストの受付後の処理を簡便化することができる。同様に、対訳用例データに、原言語用例に含まれる語に基づいて生成された原言語見出し語が含まれる場合には、学習モデル生成部12が、少なくとも翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部Cから抽出するようにすることで、対訳用例データ格納部Cからの原言語用例データの抽出処理を高速化することができる。
【0022】
本発明の訳語選択装置はまた、上述した2種類の訳語選択装置A1、A2を組み合わせた態様として、出力される訳語の精度を飛躍的に向上させることもできる。すなわち、本発明は、図3に概略構成図を示すように、第3の訳語選択装置A3の基本構成として、入力テキストの入力を受け付ける入力受付部31と、入力受付部1で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部Cから抽出する用例抽出部32と、入力テキスト及び用例抽出部で抽出した原言語用例データに基づき入力テキストと原言語用例との類似性を検出する類似性検出部33と、類似性検出部3で検出した原言語用例の類似性を比較評価し最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部34と、対訳用例データ格納部Cに格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部31で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部35と、学習モデル生成部35で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部36と、類似性評価部34で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の翻訳対象語に対応する訳語、又は、学習モデル適用部36で出力する訳語候補から、最適のもの、すなわち前記訳語又は最高の確信度を得た訳語候補のいずれかを選択して翻訳対象語に対応する訳語として出力する訳語出力部37とを有することを特徴とするものである。
【0023】
すなわち、入力受付部31で受け付けた入力テキスト及び対訳用例データ格納部Cに格納される対訳用例データに基づいて、第1の訳語選択装置A1に該当する用例抽出部32、類似性検出部33及び類似性評価部34により処理された訳語、或いは第2の訳語選択装置A2に該当する学習モデル生成部35及び学習モデル適用部36により処理された訳語候補のいずれかを、訳語出力部37において出力する。なお、第1の訳語選択装置A1該当部分と第2の訳語選択装置A2該当部分とが利用する対訳用例データ格納部Cは、同一のものであってもよいし異なっていてもよい。
【0024】
この場合、望ましくは次の二態様の何れかを採用することが好適である。
【0025】
すなわち、まず、第1の訳語選択装置A1該当部分と、第2の訳語選択装置A2該当部分とを並列的に動作させ、訳語出力部37において、類似性評価部34で所定の閾値以上の類似性が得られた対訳用例データの出力がある場合に、その結果得られる翻訳対象語に対応する訳語を出力し、所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、学習モデル適用部36で出力した結果得られる翻訳対象語に対応する訳語を出力する態様をとることができる。このようにすれば、並列処理により迅速に訳語を出力できることになる。
【0026】
一方、第1の訳語選択装置A1該当部分をまず動作させ、類似性評価部34において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、第2の訳語選択装置該当部分A2である前記学習モデル生成部35、学習モデル適用部36を動作させたうえで、訳語出力部37を動作させるようにする態様をとることもできる。このようにすれば、類似性評価部34において閾値以上の類似性が得られた対訳用例データがあれば、第2の訳語選択装置該当部分A2を動作させる必要がないためコンピュータ処理に掛かる負荷を低減するとともに、第2の訳語選択装置A2該当部分を動作させる際に、異なる対訳用例データ格納部Cを利用するなど、必要に応じて対訳用例データを追加収集又は取捨選択することができる。
【0027】
上記いずれの態様であっても、用例抽出部32が利用する対訳用例データ格納部と、学習モデル生成部35が利用する対訳用例データ格納部Cとが、それぞれ異なる言語資源に基づいて作成された異なるものであれば、対訳用例の数及び種類をより多様なものとして、最終的に出力される訳語の正確性を向上することが可能となる。
【0028】
また本発明は、以上のような訳語選択装置A1、A2、A3の何れかを利用して、好適な翻訳装置を構成することも可能である。すなわち、当該翻訳装置は、訳語選択装置A1、A2、A3の構成に加えて、それら何れかにおける訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部を更に備えたものである。このようにすれば、単に入力テキスト中の翻訳対象語に対応する訳語選択を行うのみならず、第1言語による入力テキストに基づいて第2言語で翻訳された対象テキストを生成して出力することまで可能となる。
【0029】
【発明の実施の形態】
以下、本発明の一実施形態を、図4〜図8を参照して説明する。
【0030】
図4に概略構成図を示すこの実施形態は、上述した第3の基本構成を有する訳語選択装置A3である。すなわち、第1の基本構成を有する訳語選択装置A1に該当する部分と、第2の基本構成を有する訳語選択装置A2に該当する部分と、これらに共通する部分とから構成される。また、対訳用例データ格納部Cは、この訳語選択装置A3に含まれるものとしているが、必要に応じて通信回線で接続された他の装置に設けてある対訳用例データ格納部Cから収集することも可能である。なお、本実施形態では、第1言語(原言語)として日本語を、第2言語(目的言語)として英語を適用した場合について説明するものとする。
【0031】
まず、対訳用例データ格納部Cについて説明する。対訳用例データ格納部Cは、日本語によるテキストからなる用例(以下、「日本語用例」)及び当該日本語用例に含まれる語とその語の英語による訳語(以下、英訳語)並びに当該英訳語に関する各種情報とを含む日本語用例データと、前記日本語用例に対応して英語に翻訳されたテキストからなる英語用例を含む英語用例データとを対にした日英対訳用例データを格納してあるデータベースである。なお、日英対訳用例データにはさらに、日本語用例毎に翻訳対象語となり得る日本語見出し語が含まれており、場合によっては当該日本語見出し語に対応する正しい訳語となり得る英語見出し語が含まれる場合がある。このような日英対訳用例データとしては、例えば新聞や雑誌等の記事に基づき出現頻度等を考慮して作成されたデータベースや、日英対訳電子辞書データベース、その他オンライン上で利用可能なデータベース等に格納されたデータを利用することができる。
【0032】
ここで、日英対訳用例データの一例の一部を図5に示す。この例では、日本語「遠慮」という語を含む3つの日本語用例と、それらに対応する英語用例とが組になっている。この場合、日本語見出し語には「遠慮」が該当し、英語見出し語には「feel constrained」、「constraint」、「refrain」等が該当する。但し、日本語見出し語に対応する英語見出し語のみ、或いは日本語見出し語と英語見出し語の両方に関しては、既に設定されたものがある場合はそれを利用すればよく、ない場合は人手で設定するか或いはコンピュータ処理により自動的に設定されるようにしておく必要がある。
【0033】
次に訳語選択装置A3の機能について説明する。この訳語選択装置A3は、汎用コンピュータ又は専用コンピュータのHDD等の記憶装置に記憶させた所定のプログラムに従ってCPUやメモリ等の通常のコンピュータが有する内部及び外部装置が動作することによって、第1の訳語選択装置A1としての機能を奏する用例抽出部32、類似性検出部33、類似性評価部34と、第2の訳語選択装置A2としての機能を奏する学習モデル生成部35、学習モデル適用部36と、これらに共通の機能を奏する入力受付部31、訳語出力部37としての機能を発揮する。
【0034】
入力受付部31は、日本語で作成されたテキストデータ(入力テキスト)の入力を受け付ける。この入力受付部31には、入力テキスト処理部311が含まれる。入力テキスト処理部311は、前記入力テキストに対して形態素解析を行い、当該入力テキストから翻訳対象語を自動的に抽出する。なお、入力テキストの入力時に、翻訳対象語を指定しておくことができるが、この場合は入力テキスト処理部311にて形態素解析のみを行う。
【0035】
用例抽出部32は、入力受付部31で得られた翻訳対象語が含まれた日本語用例データを、対訳用例データ格納部Cを抽出する。その際、対訳用例データ格納部Cに日本語見出し語が含まれている場合にはそれを参照して該当する翻訳対象語を検索のうえ抽出を行う。この用例抽出部32には、原言語用例処理部たる日本語用例処理部321が含まれる。この日本語用例処理部321は、対訳用例データ格納部Cから抽出した日本語用例データについて、文末処理を行うものである。例えば上述の図5に示す日英対訳用例データのうち、日本語用例データについて文末処理を行うことによりと、「母に遠慮する」、「母への遠慮」、「献金を遠慮してもらう」は、それぞれ「母に遠慮」、「母への遠慮」、「献金を遠慮」となる。
【0036】
類似性検出部33は、入力受付部31で受け付けた入力テキストと、用例抽出部32で抽出した日本語用例データとを対比し、それらの類似性を検出する。具体的にはこの類似性検出部33に含まれる類似度演算部331により演算された入力テキストと日本語用例データとの一致する割合である類似度が前記類似性として検出される。すなわち、類似度は、動的計画法により入力テキストと日本語用例データとを文字単位で比較して両者の差異を求め、一致した文字列の割合として求められる。より具体的に類似度は、例えばUNIXのdiffコマンドにより次式
【0037】
【式1】

Figure 0003752535
【0038】
により求められる。なお、日本語用例データは、日本語用例処理部321で文末処理を施したものを利用する。
【0039】
類似性評価部34は、入力テキストと対比された各日本語用例データについて類似性検出部33で検出した類似性、すなわち前式で得られた類似度を比較評価し、最も高い類似度rが得られた日本語用例データ又はその日本語用例データを含む日英対訳用例データを出力する。このとき、最大の類似度rが得られた日本語用例データが複数あった場合は、最長の日本語用例を含む日本語用例データを最も高い類似性を有するものとして出力する。但し、入力テキストと一致した部分が日本語見出し単語の長さよりも長い場合に限られる。
【0040】
学習モデル生成部35は、学習データを利用して入力受付部31で受け付けた入力テキスト中の翻訳対象語毎に対応した学習モデルを生成する。学習データは、対訳用例データ格納部Cに格納された日本語用例に含まれる語とその日本語用例に対応する英語用例データとに基づいて作成されたものであり、日本語で入力される語、それに対応して英語で出力されるべき正解の訳語、及びそれらに付随する属性や素性等の情報等からなる。また、本実施形態では学習モデルとして、例えばSVM(Support Vector Machine)、ME(Maximum Entropy)、DL(Decision List)等の既知の機械学習モデルを複数種類適用することとしている。そして、これら学習モデルを各翻訳対象語に適用することにより、それぞれの正解の訳語が生成される確率を求める。その際、各学習モデルには、素性を与える必要があるが、本実施形態では素性として、前記学習データから得られた情報である形態素情報、文字n-gram、最大一致となる日本語用例に関する情報、内容語とその訳語候補の出現頻度に関する情報の4種類の情報を用いている。この学習モデル生成部35には、学習モデル選択部351が含まれる。この学習モデル選択部351は、各学習モデルについて学習データを用いてクロスバリデーションを行い精度が最高となる学習モデルを選択する。
【0041】
学習モデル適用部36は、学習モデル生成部35で生成した学習モデル、具体的には学習モデル選択部351で選択した学習モデルを入力テキスト中の翻訳対象語に適用することにより、その翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けを行って訳語候補を出力する。この確信度は基本的に、文脈の集合をB、分類クラスの集合をAとした場合、文脈b(∈B)でクラスa(∈A)となる事象(a,b)の確率分布のスコアp(a,b)として求められる。なお、学習モデルの種類によってこのような確率分布が得られない場合、例えばSVMを適用した場合、便宜的に最適のクラスに対して確率値を1、その他のクラスに対して確率値を0としている。
【0042】
訳語出力部37は、入力テキスト中の翻訳対象語に対応する訳語を出力するものであり、訳語選択装置A1のルート又は訳語選択装置A2のルートの何れかから得られる訳語、すなわち、類似性評価部34で最高の類似性を得た日本語用例データに該当する日英対訳用例データに含まれる訳語、又は、学習モデル適用部36で出力した訳語候補のうち最高の確信度(スコア)を得た訳語候補、の何れかを選択して出力する。具体的に、本実施形態では、類似性検出部33における類似性演算部331で得られる類似度に閾値を設定しており、類似性評価部34で出力する日本語用例データが当該閾値以上の場合には、その日本語用例データに対応する訳語を出力する。本実施形態では前記閾値を1としている。一方、閾値以上の日本語用例データがない場合に、学習モデル適用部36で出力した訳語候補から最高の確信度を得たものを出力する。なお、入力受付部31で入力テキストを受け付けた際に、訳語選択装置A1のルートと訳語選択装置A2のルートとを同時に動作させてもよいし、訳語選択装置A1のルートを先に動作させてから閾値以上の日本語用例データがない場合にのみ訳語選択装置A2のルートを動作させてもよい。
【0043】
以下、本実施形態の訳語選択装置A3の一利用態様例を、図6及び図7に示した訳語選択装置A3の動作手順を表すフローチャートを用いて説明する。なお、以下の説明は、本発明の発明者が参加した(参加者名、CRL-NYU)単語の多義性解消コンテスト第2回SENSEVAL{以下、「SENSEVAL2」、2001年開催(SENSEVAL-2 Organization Committee)}の日本語翻訳タスクに本実施形態の訳語選択装置A3を適用したものであり、同コンテストにおいては訳語選択装置A3の改良前のもので参加しているが、極めて高い評価を得ている。
【0044】
前提として、日英対訳用例データ(320語の日本語見出し語、一見出し語につき約20の用例数)は前記コンテスト前に予め与えられたSENSEVAL2日本語翻訳タスクのものに準ずる。これらのうちから選択された40語(名詞20語、動詞20語)について30出現ずつのテストデータが用いられ、翻訳対象とされる日本語の単語はのべ1200語である。また、コンテストのしゃん貨車は、与えられた日英対訳用例データ以外の言語資源から得た対訳辞書や各種新聞記事に基づく日英対訳用例データも用いることも許容されている。さらに、最終的に出力された訳語の正誤を公正に評価するために、所定の入力テキスト及び翻訳対象語と正解の訳語に基づいて、訳語の精度が評価されている。
【0045】
なお、説明を簡素化するため、ここではまず訳語選択装置A1のルートから開始し、当該ルートから訳語が出力されなかった場合に訳語選択装置A2のルートに移行する態様について説明するが、両ルートを同時に進行させてもよいのは上述したとおりである。まず、入力受付部31が入力テキスト(例えば慣用表現である「一役買う」の表現を含む日本語のテキスト)の入力を受け付ける(図6;ステップS1)と、入力テキスト処理部311がこの入力テキストを形態素解析することにより、翻訳対象語(例えば<買う>)を抽出する(ステップS2)。次に、用例抽出部32が前記抽出された翻訳対象語(<買う>)に基づいて対訳用例データ格納部Cを検索し、当該翻訳対象語を含む日本語用例データを抽出し(ステップS3)、日本語用例処理部321が抽出した日本語用例データに含まれる各日本語用例について文末処理を行う(ステップS4)。次に、この文末処理が施された各日本語用例と前記入力テキストについて、類似性検出部33における類似性演算部331が前記式1に基づいて類似度rを演算する(ステップS5)。そして、類似度rが最大となる日本語用例数を調べ(ステップS6)、その数が1であれば(ステップS6;Y)、類似性評価部34が、当該日本語用例を含む日本語用例データを出力する(ステップS7)。一方、ステップS6において類似度rが最大の日本語用例数が1以上であれば(ステップS6;N)、そのうち類似する文字列が最長の日本語用例を含む日本語用例データを選択し(ステップS6a)、その日本語用例データを最も高い類似性を有するものとして出力する(ステップS7)。ここで、この場合、類似度rが最高の日本語用例が、入力テキストに対応する表現(「一役買う」)を含んでおり、この日英対訳用例データにおける前記日本語用例に対応する英語用例に、翻訳対象語に対応する英訳語(<to offer to help>)が含まれていたものとする。そして、出力された日本語用例データの類似度と所定の閾値(例えば1)とを比較し(ステップS8)、類似度が閾値(1)以上であれば(ステップS8;Y)、訳語出力部37が、翻訳対象語(<買う>)に対応する英訳語(例えば<offer>)を出力する(ステップS9)。なお、「一役買う」という日本語の慣用表現に対応する英語の表現が、「to offer to help」であり、この場合、翻訳対象語「買う」に対する正解の英訳語が「offer」であると与えられていれば、ステップS9で出力した英訳語は正解となる。
【0046】
一方、ステップS8において、閾値(1)以上の日本語用例データがなかった場合(ステップS8;N)、すなわち、入力テキスト中の翻訳対象語を含む日本語用例と同一又は類似の用例が、いずれの日本語用例データがない場合、訳語翻訳装置A2のルートに移行する{S6(N)}。この場合、学習モデル生成部35において、まず入力受付部31で受け付けた入力テキスト中の翻訳対象語に基づいて、前記訳語選択装置A1のルートで用いたものとは別の日英対訳用例データ格納部Cを検索し、該当する語を含む日本語用例データを抽出する(図7、ステップS11)。そして、抽出した各日本語用例データに含まれる日本語用例毎に学習データを適用して学習モデル(SVM、DL、MEのいずれかに基づく)を生成する(ステップS12)。さらに、学習モデル選択部351によって、生成された各学習モデルについて、学習データを用いてクロスバリデーションを行ったうえで精度が最高となった学習モデルを選択する(ステップS13)。ここで選択された学習モデルを、学習モデル適用部36において入力テキスト中の翻訳対象語に適用して、それに対応する訳語候補の全てについて確信度pを演算し(ステップS14)、確信度p順に例えば降順で順序付けて訳語候補を出力する(ステップS15)。最後に、出力した訳語候補から、最高の確信度pが得られた訳語候補を選択して訳語出力手段37により出力する(ステップS16)。この出力した訳語候補が、予め与えられた正解の英訳語と合致していれば、当該英訳語が正解となる。
【0047】
参考として、図8に、SENSEVAL2のコンテストにおける訳語選択装置A1及びA2による結果を一覧表にして示す。この結果は、コンテストで与えられた翻訳対象語である単語(名詞20、動詞20)ごとについて出力した英訳語の正解率を精度として示すものである。与えられたのべ1200の翻訳対象語のうち、100について訳語選択装置A1を適用した結果、精度は91.0%であった。また、1100の翻訳対象語について訳語選択装置A2を適用した結果、精度は60.9%であった。なお、比較のため、これら訳語選択装置A1、A2による総合的な結果(A1+A2)も同一覧表に示している。この結果から、訳語選択装置A1について精度が芳しくなかった翻訳対象語については、訳語選択装置A2を適用するという、本実施形態の訳語選択装置A3を適用することが適切であるといえる。すなわち、文字列の類似性に基づく訳語選択装置A1を適用するルートは、慣用的表現を含むなど一般に学習データ数が少ない用例、換言すればそのような日英対訳用例データ数が少ない用例に対して適しているといえ、一方、上記ルートで精度が悪い場合に学習データ及び学習モデルを適用して確信度を得る訳語選択装置A2のルートを適用することで、通常用いられる表現は勿論のこと慣用的表現も含めて、全体として精度の高い訳語選択を実行することが可能であるといえる。
【0048】
本発明は、以上に説明した実施形態に限られるものではない。例えば、訳語選択装置A1、A2を単独で用いたり、訳語出力部で出力される訳語に基づいて入力テキストに対応する対象テキストを生成し出力する翻訳文出力部を設けることによって翻訳装置を構成することも可能である。また、その他、各部の具体的構成についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
【0049】
【発明の効果】
以上に詳述したように、本発明によれば、多大な人手を掛けずコンピュータに過剰な負荷を掛けることなく、すなわち、多量の対訳用例データを収集することなく、精度の高い訳語選択、並びに機械翻訳を行うことができる。特に、文字列の類似性に基づく方法と、学習データ及び学習モデルを適用する方法とをそれぞれ別個に用いたり、或いはそれらを併用することで相互に補完しあうことになり、通常用いられる自然言語の表現や、出現頻度の低い慣用的表現に対しても極めて精度の高い訳語選択及び機械翻訳が可能である。
【図面の簡単な説明】
【図1】本発明の第1の態様に対応する訳語選択装置の概略機能構成図。
【図2】本発明の第2の態様に対応する訳語選択装置の概略機能構成図。
【図3】本発明の第3の態様に対応する訳語選択装置の概略機能構成図。
【図4】本発明の一実施形態における訳語選択装置の概略機能構成図。
【図5】同実施形態に用いられる日英対訳用例データの一例を示す図。
【図6】同実施形態の動作手順を示す概略的なフローチャート。
【図7】同実施形態の動作手順を示す概略的なフローチャート。
【図8】本発明を適用したSENSEVAL2のコンテストにおける訳語選択結果を一覧表にして示す図。
【符号の説明】
A1、A2、A3…訳語選択装置
C…対訳用例データ格納部
1、11、21、31…入力受付部
2、32…用例抽出部
3、33…類似性検出部
4、34…類似性評価部
5、14、37…訳語出力部
12、35…学習モデル生成部
13、36…学習モデル適用部
311…入力テキスト処理部
321…原言語用例処理部(日本語用例処理部)
331…類似度演算部
351…学習モデル選択部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a translation selection device used when translating text input in a language into another language, as well as It relates to a translation device.
[0002]
[Prior art]
In machine translation, a database is used that stores bilingual data consisting of a pair of original text such as sentences, phrases, clauses or words written in one language and translated text obtained by translating the original text into another language. Sometimes. In recent years, not only words but also databases of examples such as sentences and phrases including words (hereinafter referred to as “translation corpus”) have come to be used. At present, a wide variety of parallel corpora using newspapers, dictionaries, and the like as language resources are published on the Internet and used.
[0003]
In machine translation, translation selection is considered as one of the important technical elements. However, when the parallel example corpus is used, simply the larger the amount of parallel translation data, the greater the number and types of examples. Therefore, instead of using only a single bilingual corpus, it is considered to collect as many types of bilingual corpus or bilingual data as possible and perform machine translation using them. In this case, the bilingual corpus collected based on the input text in the source language to be translated is referred to, and the bilingual text corresponding to the source text including the example that matches or is most similar to the input text is output as a translation result. The example-based translation selection method is considered to be the simplest technique. In addition, a learning-based translation selection method is also considered in which learning data created based on a bilingual corpus is applied to a learning model and a simple statistically correct translation is output.
[0004]
[Problems to be solved by the invention]
Since the example-based translation selection method refers to a wide variety of parallel corpora, it can be presumed that the accuracy of translation is improved accordingly. However, if we look at a source language word with ambiguity where there are many types of corresponding translations, the above method will output the correct translation if there is no example in the parallel corpus that is the same as or similar to the input text. There is a problem that it cannot be done and lacks flexibility. On the other hand, in the learning-based translation selection method, in order to preferentially output translations that are used in statistically high-frequency examples, the translation of the word that is commonly used in many examples and has a high appearance frequency is used. While accuracy is improved, translation accuracy is reduced for translated words with low appearance frequency.
[0005]
Such problems often arise when the input text contains “idiomal expressions” in which one word is combined with another phrase to create a unique expression. As an example, consider the case where the word “buy” in Japanese is included in the original text. The meaning of “buy” is different between the expression “buy book” and “buy antipathy”. Therefore, the English translation corresponding to “buy” is different. In this case, there are many examples in which the same English translation (buy) is used in the bilingual corpus of Japanese and English when the word “buy” is used, and the frequency of occurrence of the English translation is considered high. On the other hand, in an idiomatic expression such as “buy a counterfeit”, the English translation of “buy” is a special one, so there are few examples of “buy” including the English translation.
[0006]
In any translation selection method, it is necessary to collect a large amount of parallel corpora in order to achieve highly accurate translation. However, there are many variations of natural language, so a large number of parallel corpora are simply used. The collection method only increases the load of computer processing, and in reality, it is considered impossible to implement accurate machine translation in a short time by such a method.
[0007]
Therefore, in view of the above problems, the present invention is mainly intended to enable accurate and proper translation and translation in a short time without excessive load on the apparatus in machine translation. It is aimed.
[0008]
[Means for Solving the Problems]
The present invention basically includes source language example data including an example of a source language composed of text in a first language, a word included therein, a translation of the word in a second language, and information related to the translation, and an example of the source language. A word to be translated included in an input text input in the first language by using a parallel translation example data storage unit that stores a parallel translation example data paired with a target language example composed of text translated in the second language The translation word described in the second language corresponding to the translation target word is selected. The bilingual example data storage unit used here corresponds to the so-called bilingual corpus described above, but the number thereof does not matter as long as one or more are used. However, if a plurality of parallel translation example data storage units are used, it is possible to increase the number of examples and improve the accuracy of translation selection. The parallel translation example data storage unit can be a component of the translation selection device and translation device described below, or can be provided in another device that can communicate with the translation selection device and the like.
[0009]
In such a thing, as shown in a schematic block diagram in FIG. 1, the present invention includes, as a basic configuration of the first translation word selection device A1, an input receiving unit 1 that receives input of an input text, and the received input text. The example extraction unit 2 that extracts at least one source language example data including the word corresponding to the translation target word from the parallel translation example data storage unit C, and the input text based on the extracted source language example data and the input text A similarity detection unit 3 that detects the similarity between the source language example and a similarity evaluation unit 4 that compares and evaluates the similarity between the detected source language examples and outputs at least source language example data having the highest similarity. And a translation output unit 5 that outputs a translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the output source language example data. The one in which the features.
[0010]
With this configuration, it is possible to output a translated word having the highest similarity to the source language example in which the translation target word included in the input text is used. Therefore, when selecting translations of words with low frequency of occurrence, such as idiomatic phrases used in the source language, appropriate translations without using too many parallel translation examples and without imposing a heavy burden on computer processing. Selection can be made.
[0011]
In particular, as a mode in which the similarity detection unit 3 can perform suitable similarity detection, the difference obtained by comparing the input text and the source language examples included in the extracted source language example data in character units. Similarity of similarity calculated using at least one of the ratio of the matched character string between the input text and the source language example, or the number of divisions indicating the number of matching parts divided and matched What is calculated as sex.
[0012]
Further, in order to facilitate the subsequent processing of the source language examples extracted by the example extracting unit 2, the example extracting unit 2 applies sentence ending processing to the source language examples included in the extracted source language example data. In this case, based on the calculation result of the difference when the input text and the processed source language example are compared in character units, the similarity detection unit 3 may output the processed source language example. It is configured so that at least one of the ratio of the matched character string to the character string of the processed source language example or the number of divisions indicating the number of portions where the matched part is divided and matched is calculated as the similarity. It is desirable to do.
[0013]
Further, in the translated word output unit 5, there is assumed a case where there are a plurality of source language example data having the maximum similarity as a result of calculation and output by the similarity detection unit 3 and evaluation by the similarity evaluation unit 4. In this case, as a result of the calculation, it is estimated that the character string that matches the input text or the translation corresponding to the translation target word in the parallel translation example data including the source language example with the largest number of divisions is estimated to be most suitable. The translated word can be output.
[0014]
In order to simplify the process after receiving the input text, it is preferable that the input receiving unit 1 automatically extracts a translation target word by morphological analysis of the input text. Note that “morphological analysis” refers to analysis processing such as dividing input text into words and assigning parts of speech to each word, and a predetermined analysis algorithm and analysis dictionary data are used.
[0015]
Further, when the parallel translation example data includes source language headwords generated based on the words included in the source language examples, the example extraction unit 2 includes at least the source language headwords corresponding to the translation target words. By extracting the language example data from the parallel translation example data storage unit C, the extraction process of the source language example data from the parallel translation example data storage unit C can be speeded up.
[0016]
Furthermore, when the parallel translation example data includes a source language headword generated based on a word included in the source language example and a target language headword generated based on the corresponding translation, an example extraction unit 2, at least source language example data including a source language headword corresponding to the translation target word is extracted, and the translated word output unit 5 includes the source language example data output by the similarity evaluation unit 4 and the example extraction unit 2 By outputting the target language entry word corresponding to the source language entry word extracted in step 1, the process up to the translation output can be further accelerated.
[0017]
In addition, as shown in the schematic configuration diagram of FIG. 2, the present invention has a basic configuration of the second translation word selection device A2, an input receiving unit 11 that receives input text and an original data stored in a parallel translation example data storage unit. A learning model corresponding to the translation target word in the input text received by the input receiving unit is generated using the learning data created based on the word included in the language example and the parallel translation example data corresponding to the source language example. Learning model generation unit 12 to apply the generated learning model to the translation target word in the input text, calculate the certainty factor for all the translation word candidates of the translation target word, and output the candidate word order in the order of the certainty factor A learning model application unit 13 that performs translation, and a translation output unit 1 that selects a translation candidate with the highest certainty among the output translation candidates and outputs it as a translation corresponding to the translation target word It is characterized by having and. Here, “learning data” refers to words input in the first language created based on the parallel translation example, correspondingly translated words to be output in the second language, and attributes associated therewith. Information such as features. The “learning model” is a functional model that includes parameters estimated using the learning data and is generated by a machine learning method. Moreover, it does not ask | require whether ordering of a certainty degree is a descending order or an ascending order.
[0018]
According to such a configuration, when a certain amount of learning data is created or collected, an appropriate learning model generated based on the learning data is applied to the target language to be translated, and the translated word with the highest certainty level is obtained. Candidates, ie translations that can be assumed to be most appropriate, can be output. Therefore, with such a translation selection apparatus A2, when selecting a translation, a translation model is selected for each phrase (word) by generating a learning model for each phrase (word) to be translated. Will be able to.
[0019]
In particular, the learning model generation unit 12 extracts from the bilingual example data storage unit C the bilingual example data corresponding to the source language example that includes each translation target word in the input text received by the input receiving unit 11, and extracts the extracted data. If the learning model is generated based on the parallel translation example data, a quick and accurate translation output process can be performed.
[0020]
Further, in order to improve the accuracy of the translated word to be output, the learning model generation unit 12 generates learning models for each learning data using the learning data, and further in the input text received by the input receiving unit 11 The learning model having the highest accuracy in the learning data is selected for each translation target word, and the learning model applying unit 13 obtains the learning model having the highest accuracy selected by the learning model generating unit 12 as the translation target in the input text. It should be applied to words. Note that the number of learning data to be used may be one or plural.
[0021]
Also in this translated word selection device A2, the input receiving unit 11 can simplify the process after receiving the input text by automatically extracting the translation target word from the input text by morphological analysis. Similarly, when the bilingual example data includes a source language headword generated based on a word included in the source language example, the learning model generation unit 12 at least selects the source language headword corresponding to the translation target word. The source language example data from the parallel translation example data storage unit C can be extracted at a higher speed.
[0022]
The translated word selection apparatus of the present invention can also improve the accuracy of the translated word output dramatically as a combination of the two types of translated word selection apparatuses A1 and A2. That is, according to the present invention, as shown in a schematic configuration diagram in FIG. 3, as a basic configuration of the third translated word selection device A3, an input receiving unit 31 that receives input of input text and an input text that is received by the input receiving unit 1 A source language example extracted by the example extraction unit 32 that extracts at least one source language example data including the word corresponding to the translation target word from the parallel translation example data storage unit C, and the input text and example extraction unit The similarity detection unit 33 that detects the similarity between the input text and the source language example based on the data, and at least the source language having the highest similarity by comparing and evaluating the similarity of the source language example detected by the similarity detection unit 3 Based on the similarity evaluation unit 34 that outputs the example data, the words included in the source language example stored in the parallel translation example data storage unit C, and the parallel translation example data corresponding to the source language example Using the created learning data, a learning model generation unit 35 that generates a learning model corresponding to a translation target word in the input text received by the input reception unit 31, and a learning model generated by the learning model generation unit 35 A learning model application unit 36 that applies to the translation target words in the input text, calculates the certainty factor for all the translation word candidates of the translation target word, outputs the translation word candidates in order of the certainty factor, and the similarity evaluation unit 34 From the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data to be output, or the translation candidate output from the learning model application unit 36, that is, the translated word or A translation output unit 37 that selects any one of the translation candidates having the highest certainty factor and outputs it as a translation corresponding to the translation target word. .
[0023]
That is, based on the input text received by the input receiving unit 31 and the bilingual example data stored in the bilingual example data storage unit C, the example extracting unit 32, the similarity detecting unit 33, and the like corresponding to the first translation word selection device A1 The translation output unit 37 outputs either the translation processed by the similarity evaluation unit 34 or the translation word candidate processed by the learning model generation unit 35 and the learning model application unit 36 corresponding to the second translation selection device A2. To do. The parallel translation example data storage C used by the corresponding part of the first translation selection device A1 and the corresponding part of the second translation selection device A2 may be the same or different.
[0024]
In this case, it is preferable to employ one of the following two modes.
[0025]
That is, first, the corresponding part of the first translated word selection device A1 and the corresponding part of the second translated word selection device A2 are operated in parallel, and the similarity output unit 37 uses the similarity evaluation unit 34 to obtain a similarity equal to or greater than a predetermined threshold. When there is an output of the bilingual example data that has been obtained, the translation corresponding to the translation target word obtained as a result is output, and there is no output of the bilingual example data that has a similarity equal to or greater than a predetermined threshold The translation model corresponding to the translation target word obtained as a result of the output by the learning model application unit 36 can be output. In this way, translated words can be output quickly by parallel processing.
[0026]
On the other hand, when the corresponding part of the first translation word selection device A1 is operated first, and there is no output of the parallel translation example data in which the similarity evaluation unit 34 has obtained a similarity equal to or higher than a predetermined threshold value, the second translation word selection device is applicable. The translation output unit 37 may be operated after the learning model generation unit 35 and the learning model application unit 36 that are the part A2 are operated. In this way, if there is parallel translation example data in which similarity equal to or greater than the threshold value is obtained in the similarity evaluation unit 34, it is not necessary to operate the second translation word selection device corresponding part A2, so that the load on the computer processing is increased. In addition to the reduction, the bilingual example data can be additionally collected or selected as necessary, for example, by using a different bilingual example data storage unit C when operating the corresponding portion of the second translation selection device A2.
[0027]
In any of the above aspects, the parallel translation example data storage unit used by the example extraction unit 32 and the parallel translation example data storage unit C used by the learning model generation unit 35 are created based on different language resources. If they are different, the number and types of parallel translation examples can be made more diverse to improve the accuracy of the final output translation.
[0028]
In the present invention, it is also possible to configure a suitable translation apparatus using any one of the translation word selection apparatuses A1, A2, and A3 as described above. That is, in addition to the configuration of the translation selection devices A1, A2, and A3, the translation device can correspond to the input text based on the translation output by the translation output unit in any of them and the parallel translation example data including the translation A translation output unit for generating and outputting text is further provided. In this way, not only the translation word corresponding to the translation target word in the input text is selected, but also the target text translated in the second language is generated and output based on the input text in the first language. It becomes possible.
[0029]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[0030]
This embodiment, whose schematic configuration is shown in FIG. 4, is a translation word selection device A3 having the above-described third basic configuration. That is, it is comprised from the part applicable to the translation selection apparatus A1 which has a 1st basic structure, the part applicable to the translation selection apparatus A2 which has a 2nd basic structure, and the part common to these. Further, the bilingual example data storage unit C is assumed to be included in the translation word selection device A3, but is collected from the bilingual example data storage unit C provided in another device connected by a communication line as necessary. Is also possible. In this embodiment, a case where Japanese is applied as the first language (source language) and English is applied as the second language (target language) will be described.
[0031]
First, the parallel translation example data storage unit C will be described. The bilingual example data storage unit C includes an example consisting of Japanese text (hereinafter “Japanese example”), a word included in the Japanese example, an English translation of the word (hereinafter English translation), and the English translation word. Japanese-English bilingual example data that is a pair of Japanese example data including various information related to Japanese and English example data including English examples composed of text translated into English corresponding to the Japanese examples. It is a database. The Japanese-English bilingual example data further includes Japanese headwords that can be translated for each Japanese example. In some cases, an English headword that can be a correct translation corresponding to the Japanese headword is included. May be included. Examples of such English-Japanese bilingual data include, for example, databases created in consideration of appearance frequency based on articles such as newspapers and magazines, Japanese-English bilingual electronic dictionary databases, and other databases that can be used online. Stored data can be used.
[0032]
Here, FIG. 5 shows a part of an example of Japanese-English parallel translation example data. In this example, three Japanese examples including the word “refrain” in Japanese and English examples corresponding to them are paired. In this case, the Japanese headword corresponds to “refrain”, and the English headword corresponds to “feel constrained”, “constraint”, “refrain”, and the like. However, only English headwords corresponding to Japanese headwords, or both Japanese headwords and English headwords should be used if they are already set, otherwise they are set manually. It is necessary to set it automatically by computer processing.
[0033]
Next, the function of the translation word selection device A3 will be described. This translated word selection device A3 is operated by operating the internal and external devices of a normal computer such as a CPU and a memory according to a predetermined program stored in a storage device such as an HDD of a general-purpose computer or a dedicated computer. An example extraction unit 32, a similarity detection unit 33, a similarity evaluation unit 34, and a learning model generation unit 35, a learning model application unit 36 that function as the second translated word selection device A2, which function as the selection device A1, The functions of the input receiving unit 31 and the translated word output unit 37 that perform the same functions are exhibited.
[0034]
The input receiving unit 31 receives input of text data (input text) created in Japanese. The input receiving unit 31 includes an input text processing unit 311. The input text processing unit 311 performs morphological analysis on the input text and automatically extracts a translation target word from the input text. In addition, although the translation object word can be designated at the time of inputting the input text, only the morphological analysis is performed in the input text processing unit 311 in this case.
[0035]
The example extracting unit 32 extracts the example data storage unit C for bilingual example data including the translation target word obtained by the input receiving unit 31. At this time, if a Japanese headword is included in the parallel translation example data storage unit C, the corresponding translation target word is searched for and extracted. The example extracting unit 32 includes a Japanese example processing unit 321 which is a source language example processing unit. The Japanese example processing unit 321 performs sentence ending processing on the Japanese example data extracted from the parallel translation example data storage unit C. For example, among the Japanese-English bilingual example data shown in FIG. 5 described above, by performing sentence ending processing on the Japanese example data, “refrain from mother”, “refrain from mother”, “refrain from donation” Are "refrain from mother", "refrain from mother" and "refrain from donation", respectively.
[0036]
The similarity detection unit 33 compares the input text received by the input reception unit 31 with the Japanese example data extracted by the example extraction unit 32, and detects their similarity. Specifically, the similarity that is the ratio of the input text calculated by the similarity calculation unit 331 included in the similarity detection unit 33 and the Japanese example data is detected as the similarity. That is, the similarity is obtained as a ratio of the matched character strings by comparing the input text and the Japanese example data in units of characters by dynamic programming to obtain a difference between the two. More specifically, the similarity is calculated by, for example, the following equation using the UNIX diff command
[0037]
[Formula 1]
Figure 0003752535
[0038]
Is required. As the Japanese example data, the Japanese example processing unit 321 performs sentence ending processing.
[0039]
The similarity evaluation unit 34 compares and evaluates the similarity detected by the similarity detection unit 33 for each Japanese example data compared with the input text, that is, the similarity obtained by the previous expression, and the highest similarity r is obtained. The obtained Japanese example data or Japanese-English bilingual example data including the Japanese example data is output. At this time, if there are a plurality of Japanese example data with the maximum similarity r, the Japanese example data including the longest Japanese example is output as having the highest similarity. However, this is limited to the case where the part that matches the input text is longer than the length of the Japanese headword.
[0040]
The learning model generation unit 35 generates a learning model corresponding to each translation target word in the input text received by the input reception unit 31 using the learning data. The learning data is created based on the words included in the Japanese examples stored in the bilingual example data storage unit C and the English example data corresponding to the Japanese examples, and the words input in Japanese Correspondingly, it consists of correct translations to be output in English, and information such as attributes and features associated with them. In the present embodiment, a plurality of types of known machine learning models such as SVM (Support Vector Machine), ME (Maximum Entropy), and DL (Decision List) are applied as learning models. Then, by applying these learning models to each translation target word, the probability that each correct translation word is generated is obtained. At that time, each learning model needs to be given a feature, but in this embodiment, as a feature, morpheme information that is information obtained from the learning data, a character n-gram, and a Japanese example that is the maximum match Four types of information are used: information, content words, and information related to the appearance frequency of the translation word candidates. The learning model generation unit 35 includes a learning model selection unit 351. The learning model selection unit 351 performs cross validation using learning data for each learning model, and selects a learning model with the highest accuracy.
[0041]
The learning model application unit 36 applies the learning model generated by the learning model generation unit 35, specifically, the learning model selected by the learning model selection unit 351, to the translation target word in the input text, so that the translation target word The certainty factor is calculated for all of the translation word candidates, and the candidate words are ordered according to the certainty factor, and the candidate word words are output. This certainty factor is basically a probability distribution score of an event (a, b) that is a class a (εA) in a context b (∈B), where B is a set of contexts and A is a set of classification classes. It is obtained as p (a, b). When such a probability distribution cannot be obtained depending on the type of learning model, for example, when SVM is applied, the probability value is set to 1 for the optimal class and the probability value is set to 0 for the other classes for convenience. Yes.
[0042]
The translation output unit 37 outputs a translation corresponding to the translation target word in the input text, and is a translation obtained from either the root of the translation selection device A1 or the root of the translation selection device A2, that is, similarity evaluation. The highest certainty (score) is obtained from the translation words included in the Japanese-English parallel translation example data corresponding to the Japanese example data that has obtained the highest similarity in the part 34 or the translation word candidates output by the learning model application part 36 Select one of the translated word candidates and output it. Specifically, in the present embodiment, a threshold is set for the similarity obtained by the similarity calculation unit 331 in the similarity detection unit 33, and Japanese example data output by the similarity evaluation unit 34 is equal to or greater than the threshold. In this case, the translation corresponding to the Japanese example data is output. In the present embodiment, the threshold is set to 1. On the other hand, when there is no example data for Japanese that is greater than or equal to the threshold value, the translation word candidate that is obtained by the learning model application unit 36 and that has the highest certainty factor is output. When the input accepting unit 31 accepts the input text, the route of the translation selection device A1 and the route of the translation selection device A2 may be operated simultaneously, or the route of the translation selection device A1 is operated first. The route of the translated word selection device A2 may be operated only when there is no example data for Japanese that exceeds the threshold value.
[0043]
Hereinafter, an example of how the translated word selection apparatus A3 according to this embodiment is used will be described with reference to flowcharts showing the operation procedure of the translated word selection apparatus A3 shown in FIGS. In the following explanation, the inventor of the present invention participated (participant name, CRL-NYU) The second sensibility elimination contest of the word SENSEVAL {hereinafter, “SENSEVAL2”, held in 2001 (SENSEVAL-2 Organization Committee )} Is applied to the Japanese translation task of the translation selection device A3 of this embodiment, and in this contest, it participates in the pre-improvement of the translation selection device A3, but has an extremely high reputation. .
[0044]
As a premise, the Japanese-English bilingual example data (320 Japanese headwords, the number of about 20 examples per headword) conforms to that of the SENSEVAL2 Japanese translation task given in advance before the contest. Test data of 30 appearances is used for 40 words (20 nouns and 20 verbs) selected from these, and a total of 1200 Japanese words are to be translated. In addition, the contest shank is allowed to use bilingual dictionaries obtained from language resources other than the given Japanese-English bilingual example data and Japanese-English bilingual example data based on various newspaper articles. Furthermore, in order to fairly evaluate the correctness of the finally output translation, the accuracy of the translation is evaluated based on the predetermined input text, the translation target word, and the correct translation.
[0045]
In order to simplify the description, a mode will be described in which, starting from the route of the translation word selection device A1, first, when no translation is output from the route, the route to the translation word selection device A2 is transferred. As described above, the steps may be performed simultaneously. First, when the input receiving unit 31 receives an input of an input text (for example, a Japanese text including the expression “buy a role”, which is an idiomatic expression) (FIG. 6; step S1), the input text processing unit 311 receives the input text. Is subjected to morphological analysis to extract a translation target word (for example, <buy>) (step S2). Next, the example extraction unit 32 searches the parallel translation example data storage unit C based on the extracted translation target word (<buy>), and extracts Japanese example data including the translation target word (step S3). Then, sentence ending processing is performed for each Japanese example included in the Japanese example data extracted by the Japanese example processing unit 321 (step S4). Next, the similarity calculation unit 331 in the similarity detection unit 33 calculates the similarity r for each Japanese example subjected to the sentence end processing and the input text based on the equation 1 (step S5). Then, the number of Japanese examples having the maximum similarity r is checked (step S6). If the number is 1 (step S6; Y), the similarity evaluation unit 34 includes the Japanese examples including the Japanese example. Data is output (step S7). On the other hand, if the number of Japanese examples having the maximum similarity r is 1 or more in step S6 (step S6; N), the Japanese example data including the Japanese example having the longest similar character string is selected (step S6). S6a), outputting the Japanese example data as having the highest similarity (step S7). Here, in this case, the Japanese example having the highest degree of similarity r includes the expression corresponding to the input text (“buy a part”), and the English example corresponding to the Japanese example in the Japanese-English parallel translation example data. It is assumed that an English translation word (<to offer to help>) corresponding to the translation target word is included. Then, the similarity of the output Japanese example data is compared with a predetermined threshold (for example, 1) (step S8), and if the similarity is equal to or greater than the threshold (1) (step S8; Y), the translated word output unit 37 outputs an English translation (for example, <offer>) corresponding to the translation target word (<buy>) (step S9). In addition, the English expression corresponding to the Japanese idiom “buy a part” is “to offer to help”, and in this case, the correct English translation for the translation target word “buy” is “offer”. If given, the English translation word output in step S9 is correct.
[0046]
On the other hand, if there is no Japanese example data that is equal to or greater than the threshold value (1) in step S8 (step S8; N), that is, an example that is the same as or similar to the Japanese example including the translation target word in the input text. If there is no example data for Japanese, {S6 (N)} is transferred to the root of the translation device A2. In this case, the learning model generation unit 35 first stores example data for Japanese-English parallel translation different from that used in the route of the translation word selection device A1, based on the translation target word in the input text received by the input reception unit 31. The part C is searched, and Japanese example data including the corresponding word is extracted (step S11 in FIG. 7). Then, learning data (based on one of SVM, DL, and ME) is generated by applying the learning data to each Japanese example included in each extracted Japanese example data (step S12). Further, the learning model selection unit 351 selects the learning model having the highest accuracy after cross-validation using the learning data for each generated learning model (step S13). The learning model selected here is applied to the translation target word in the input text in the learning model application unit 36, and the certainty factor p is calculated for all the corresponding translation word candidates (step S14). For example, translation candidates are output in descending order (step S15). Finally, from the output translation candidates, the translation candidate with the highest certainty factor p is selected and output by the translation output means 37 (step S16). If the output translation word candidate matches the correct English translation word given in advance, the English translation word becomes the correct answer.
[0047]
For reference, FIG. 8 shows a list of the results of the word selection devices A1 and A2 in the SENSEVAL2 contest. This result indicates the accuracy rate of English translation words output for each word (noun 20, verb 20) that is a translation target word given in the contest as accuracy. As a result of applying the translation selection device A1 to 100 of the given 1200 translation target words, the accuracy was 91.0%. As a result of applying the translation selection device A2 to 1100 translation target words, the accuracy was 60.9%. For comparison, an overall result (A1 + A2) by these translation word selection devices A1 and A2 is also shown in the same table. From this result, it can be said that it is appropriate to apply the translation word selection device A3 of the present embodiment in which the translation word selection device A2 is applied to a translation target word that is not accurate with respect to the translation word selection device A1. That is, the route to which the word selection device A1 based on the similarity of character strings is applied is an example in which the number of learning data is generally small, such as including an idiomatic expression, in other words, an example in which the number of example data in Japanese-English translation is small On the other hand, when the accuracy of the above route is poor, by applying the route of the translation selection device A2 that obtains certainty by applying the learning data and the learning model, the expression that is normally used is of course It can be said that it is possible to execute translation selection with high accuracy as a whole, including idiomatic expressions.
[0048]
The present invention is not limited to the embodiment described above. For example, the translation device is configured by using the translation selection devices A1 and A2 alone or by providing a translation output unit that generates and outputs a target text corresponding to the input text based on the translation output by the translation output unit. It is also possible. In addition, the specific configuration of each part is not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention.
[0049]
【The invention's effect】
As described in detail above, according to the present invention, it is possible to select a high-precision translation without using a large amount of manpower and without overloading the computer, that is, without collecting a large amount of parallel translation example data. Machine translation can be performed. In particular, a method based on similarity between character strings and a method of applying learning data and a learning model are used separately or in combination with each other, and they complement each other. And highly accurate translation selection and machine translation are possible even for expressions of the above and conventional expressions with low appearance frequency.
[Brief description of the drawings]
FIG. 1 is a schematic functional configuration diagram of a translation selection device corresponding to a first aspect of the present invention.
FIG. 2 is a schematic functional configuration diagram of a translation selection device corresponding to a second aspect of the present invention.
FIG. 3 is a schematic functional configuration diagram of a translation word selection device corresponding to a third aspect of the present invention.
FIG. 4 is a schematic functional configuration diagram of a translation word selection device according to an embodiment of the present invention.
FIG. 5 is a view showing an example of Japanese-English parallel translation example data used in the embodiment.
FIG. 6 is a schematic flowchart showing an operation procedure of the embodiment.
FIG. 7 is a schematic flowchart showing an operation procedure of the embodiment;
FIG. 8 is a table showing translation selection results in a SENSEVAL2 contest to which the present invention is applied.
[Explanation of symbols]
A1, A2, A3 ... Translation selection device
C ... Bilingual example data storage
1, 11, 21, 31 ... input reception part
2, 32 ... Example extraction unit
3, 33 ... Similarity detection unit
4, 34 ... Similarity evaluation section
5, 14, 37 ... Translation output section
12, 35 ... Learning model generation unit
13, 36 ... Learning model application unit
311 ... Input text processing unit
321 ... Example language processing unit (Japanese example processing unit)
331 ... Similarity calculation unit
351 ... Learning model selection unit

Claims (19)

第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
A translation output unit that outputs a translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit. Translation word selection device.
類似性検出部が、入力テキストと抽出された原言語用例データに含まれる原言語用例とを文字単位で比較して求められる差異に基づき入力テキストと原言語用例との一致した文字列の割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を用いて計算される類似度を前記類似性として演算する類似度演算部を有している請求項1記載の訳語選択装置。  The ratio of the character string that matches the input text and the source language example based on the difference obtained by comparing the input text and the source language example included in the extracted source language example data by the similarity detection unit, Or a similarity calculation unit that calculates a similarity calculated by using at least one of the number of divisions indicating the number of portions where the matched portions are matched to each other as the similarity. 1. A translation selection device according to 1. 用例抽出部が、抽出した原言語用例データに含まれる原言語用例に文末処理を施して処理済原言語用例を出力する原言語用例処理部を有するものであり、類似性検出部において前記類似度演算部が、入力テキストと処理済原言語用例との文字単位で比較して求められる差異の演算結果に基づいて、一致した文字列の当該処理済原言語用例の文字列に対する割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を類似度として演算する請求項2記載の訳語選択装置。  The example extraction unit includes a source language example processing unit that performs sentence ending processing on the source language examples included in the extracted source language example data and outputs processed source language examples, and the similarity detection unit Based on the calculation result of the difference obtained by comparing the input text and the processed source language example in units of characters, the arithmetic unit compares the ratio of the matched character string to the character string of the processed source language example or matches The translated word selection apparatus according to claim 2, wherein at least one of the number of divisions indicating how many parts are divided and matched is calculated as a similarity. 訳語出力部が、類似性検出部の類似度演算部で演算し類似性評価部で評価した結果、類似度が最大となる原言語用例データが複数ある場合に、前記類似度演算部における演算の結果、入力テキストと一致した文字列の割合又は前記分割数が最大の原言語用例を含む対訳用例データにおける前記翻訳対象語に対応する訳語を出力する請求項3記載の訳語選択装置。  As a result of the translation output unit calculating by the similarity calculation unit of the similarity detection unit and evaluating by the similarity evaluation unit, when there are a plurality of source language example data having the maximum similarity, the calculation of the similarity calculation unit 4. The translated word selection apparatus according to claim 3, wherein as a result, a translated word corresponding to the translation target word in the parallel translation example data including the source language example having the largest percentage of the input text or the number of divisions is output. 入力受付部が、入力テキストを形態素解析により翻訳対象語を自動抽出する入力テキスト処理部を有している請求項1、2、3又は4記載の訳語選択装置。  The translation selection apparatus according to claim 1, 2, 3, or 4, wherein the input receiving unit includes an input text processing unit that automatically extracts a translation target word by morphological analysis of the input text. 対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものであり、用例抽出部が、少なくとも前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部から抽出するものである請求項1、2、3、4又は5記載の訳語選択装置。  The bilingual example data includes source language headwords generated based on words included in the source language examples, and the example extraction unit includes at least a source language headword corresponding to the translation target word. 6. The translated word selection apparatus according to claim 1, wherein the data is extracted from a parallel translation example data storage unit. 対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語とそれに対応する訳語に基づいて生成された目的言語見出し語とを有するものであり、用例抽出部が、前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを少なくとも抽出するものであって、訳語出力部が、類似性評価部において出力された原言語用例データに含まれ且つ前記用例抽出部で抽出された原言語見出し語に対応する目的言語見出し語を出力する請求項1、2、3、4又は5記載の訳語選択装置。The bilingual example data includes source language headwords generated based on words included in the source language examples and target language headwords generated based on corresponding translations, and the example extracting unit Extracting at least source language example data including source language headwords corresponding to a translation target word, wherein the translation output unit is included in the source language example data output in the similarity evaluation unit and the example extraction unit 6. The translated word selection apparatus according to claim 1, 2, 3, 4 or 5, which outputs a target language headword corresponding to the source language headword extracted in step 1. 第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
A translation output unit that selects a translation candidate with the highest certainty among translation candidates output by the learning model application unit and outputs it as a translation corresponding to the translation target word. Translation word selection device.
学習モデル生成部が、入力受付部で受け付けた入力テキスト中の翻訳対象語ごとにそれを含む原言語用例に対応する対訳用例データを前記対訳用例データ格納部から抽出し、その抽出された対訳用例データに基づいて学習モデルを生成するものである請求項8記載の訳語選択装置。  The learning model generation unit extracts from the bilingual example data storage unit the bilingual example data corresponding to the source language example including each translation target word in the input text received by the input receiving unit, and the extracted bilingual example The translation selection device according to claim 8, wherein the learning model is generated based on the data. 学習モデル生成部が、学習データごとに対応して学習モデルを生成するものであり、入力受付部で受け付けた入力テキスト中の前記翻訳対象語ごとに前記学習データで精度が最高となる学習モデルを選択する学習モデル選択部をさらに含むものであり、学習モデル適用部が、前記学習モデル選択部で選択した学習モデルを入力テキスト中の翻訳対象語に適用するものである請求項8又は9記載の訳語選択装置。  A learning model generation unit generates a learning model corresponding to each learning data, and a learning model having the highest accuracy in the learning data for each translation target word in the input text received by the input receiving unit. The learning model selection unit to be selected is further included, and the learning model application unit applies the learning model selected by the learning model selection unit to the translation target word in the input text. Translation word selection device. 入力受付部が、入力テキストを形態素解析により翻訳対象語を自動抽出する入力テキスト処理部を有している請求項8、9又は10記載の訳語選択装置。  The translation selection device according to claim 8, 9 or 10, wherein the input reception unit includes an input text processing unit that automatically extracts a translation target word by morphological analysis of the input text. 対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものであり、学習モデル生成部が、少なくとも前記翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部から抽出するものである請求項8、9、10又は11記載の訳語選択装置。  The bilingual example data includes source language headwords generated based on words included in the source language examples, and the learning model generation unit includes at least a source language headword corresponding to the translation target word 12. The word selection device according to claim 8, 9, 10 or 11, wherein the example data is extracted from a parallel translation example data storage unit. 第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
The optimal one from the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit or the translation candidate candidate output by the learning model application unit And a translation output unit that selects and outputs a translation corresponding to the translation target word.
訳語出力部が、類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がある場合に、当該類似性評価部で出力した結果得られる翻訳対象語に対応する訳語を出力し、類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、前記学習モデル適用部で出力した結果得られる翻訳対象語に対応する訳語を出力するものである請求項13記載の訳語選択装置。  When the translation output unit outputs bilingual example data in which similarity equal to or greater than a predetermined threshold is obtained in the similarity evaluation unit, a translation corresponding to the translation target word obtained as a result of output in the similarity evaluation unit When there is no output of the parallel translation example data in which similarity equal to or greater than a predetermined threshold is obtained in the similarity evaluation unit, a translation corresponding to the translation target word obtained as a result of output in the learning model application unit is output The translated word selection device according to claim 13. 類似性評価部において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、前記学習モデル生成部、学習モデル適用部及び訳語出力部を動作させるようにしている請求項13記載の訳語選択装置。  14. The learning model generation unit, the learning model application unit, and the translation output unit are operated when there is no output of parallel translation example data in which similarity equal to or greater than a predetermined threshold is obtained in the similarity evaluation unit. Description translation device. 用例抽出部が利用する対訳用例データ格納部と、学習モデル生成部が利用する対訳用例データ格納部とが、それぞれ異なる言語資源に基づいて作成された異なる対訳用例データ格納部である請求項13、14又は15記載の訳語選択装置。  The bilingual example data storage unit used by the example extracting unit and the bilingual example data storage unit used by the learning model generating unit are different bilingual example data storage units created based on different language resources, respectively. 14 or 15 translation device. 第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに基づいてその第2言語による翻訳文である対象テキストを出力するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の各翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language A target text that is a translated sentence in the second language based on the input text input in the first language using the parallel translation example data storage unit that stores the parallel translation example data paired with the target language example composed of text Is output,
An input receiving unit for receiving input of the input text;
An example extracting unit for extracting at least one source language example data including words corresponding to each translation target word in the input text received by the input receiving unit from the parallel example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
A translation output unit for outputting a translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit;
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
A translation output unit that selects a translation candidate with the highest certainty among translation candidates output by the learning model application unit and outputs it as a translation corresponding to the translation target word; and
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、前記原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものであって、
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。
Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
The optimal one from the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit or the translation candidate candidate output by the learning model application unit A translation output unit that selects and outputs as a translation corresponding to the translation target word,
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
JP2002113422A 2002-04-16 2002-04-16 Translation selection device and translation device Expired - Lifetime JP3752535B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002113422A JP3752535B2 (en) 2002-04-16 2002-04-16 Translation selection device and translation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002113422A JP3752535B2 (en) 2002-04-16 2002-04-16 Translation selection device and translation device

Publications (2)

Publication Number Publication Date
JP2003308319A JP2003308319A (en) 2003-10-31
JP3752535B2 true JP3752535B2 (en) 2006-03-08

Family

ID=29395613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002113422A Expired - Lifetime JP3752535B2 (en) 2002-04-16 2002-04-16 Translation selection device and translation device

Country Status (1)

Country Link
JP (1) JP3752535B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5204203B2 (en) * 2010-11-24 2013-06-05 株式会社東芝 Example translation system, example translation method, and example translation program
CN109508463B (en) * 2018-11-21 2023-06-20 传神语联网网络科技股份有限公司 Method, system and readable storage medium for refining translation engineering
JP7238910B2 (en) * 2019-02-08 2023-03-14 日本電気株式会社 Biological information processing device, method, and program
CN114912437B (en) * 2022-04-29 2024-07-19 上海交通大学 Bullet screen pigment character detection and extraction method, bullet screen pigment character detection and extraction system, bullet screen pigment character detection terminal and bullet screen pigment character detection and extraction medium

Also Published As

Publication number Publication date
JP2003308319A (en) 2003-10-31

Similar Documents

Publication Publication Date Title
US8812296B2 (en) Method and system for natural language dictionary generation
JPS6299865A (en) Maintenance system for co-occurrence relation dictionary of natural language
WO2005059771A1 (en) Translation judgment device, method, and program
JP2011118526A (en) Device for extraction of word semantic relation
JP2002215619A (en) Translation sentence extracting method from translated document
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Tamura et al. Classification of multiple-sentence questions
Ashna et al. Lexicon based sentiment analysis system for malayalam language
JP3198932B2 (en) Document search device
CN107861937B (en) Method and apparatus for updating translation corpus, and recording medium
JP3752535B2 (en) Translation selection device and translation device
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
JPH0855123A (en) Machine translation system with idiom registering function
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
Das et al. Design and implementation of a spell checker for Assamese
JP2006190072A (en) Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program
El-Taher et al. An Arabic CCG approach for determining constituent types from Arabic Treebank
JP2003330926A (en) Translation method, device, and program
Naeem et al. Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning
Delpech et al. Identification of fertile translations in medical comparable corpora: a morpho-compositional approach
Bar et al. Arabic multiword expressions
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP2004280316A (en) Field determination device and language processor
JP2002278963A (en) Example translation device

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051019

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

R150 Certificate of patent or registration of utility model

Ref document number: 3752535

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term