JP3752535B2 - Translation selection device and translation device - Google Patents
Translation selection device and translation device Download PDFInfo
- Publication number
- JP3752535B2 JP3752535B2 JP2002113422A JP2002113422A JP3752535B2 JP 3752535 B2 JP3752535 B2 JP 3752535B2 JP 2002113422 A JP2002113422 A JP 2002113422A JP 2002113422 A JP2002113422 A JP 2002113422A JP 3752535 B2 JP3752535 B2 JP 3752535B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- unit
- word
- source language
- example data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ある言語で入力されたテキストを他の言語へ翻訳する際に使用される訳語選択装置、及び翻訳装置に関するものである。
【0002】
【従来の技術】
機械翻訳において、ある言語で記述された文、句、節、又は単語等の原テキストと、その原テキストを別の言語に翻訳した翻訳テキストとを対にした対訳データを格納したデータベースが使用されることがある。特に最近では、単語だけでなく、単語を含む文や句等の用例のデータベース(以下、「対訳コーパス」と称する)が使用されるようになってきている。現在では、新聞や辞書等を言語資源とした多種多様な対訳コーパスがインターネット等で公開され、利用に供されている。
【0003】
機械翻訳では、訳語選択が重要な技術要素の一つとして考えられるが、対訳用例コーパスを用いた場合、単純には対訳データの量が多ければ多いほど用例の数や種類が多くなると考えられることから、単一の対訳コーパスのみを使用するのではなく、可能な限り多種類の対訳コーパス又は対訳データを収集し、それらを用いて機械翻訳を実行することが考えられている。この場合、翻訳対象となる原言語での入力テキストに基づいて収集された対訳コーパスを参照し、入力テキストと合致する或いは最も類似する用例を含む原テキストに対応する対訳テキストを翻訳結果として出力する、という用例ベースの訳語選択方法が最も単純な手法であると考えられる。この他にも、対訳コーパスに基づいて作成した学習データを学習モデルに適用し、単純な統計的に確からしい訳語を出力するという、学習ベースの訳語選択方法も考えられている。
【0004】
【発明が解決しようとする課題】
用例ベースの訳語選択方法では、多種多様な対訳コーパスを参照しているため、それだけ翻訳の正確さが向上するものと一応は推測することができる。しかしながら、多種類の対応する訳語が存在する多義性を有する原言語の単語についてみれば、上述の方法では、対訳コーパス中に入力テキストと同一又は類似する用例が存在しなければ、正しい訳語を出力することができず、柔軟性に欠けるという不具合がある。一方、学習ベースの訳語選択方法では、統計的に頻度が高い用例で用いられている訳語を優先的に出力するために、数多くの用例で一般的に用いられ出現頻度の高い当該単語の訳語の正確性は向上する一方で、出現頻度が低い訳語については翻訳の正確さが低下する。
【0005】
このような問題は、ある単語が他の語句と結びついて独特の表現となる、「慣用表現」を入力テキスト中に含む場合に生じることが多い。一例として、日本語において多義的な「買う」という単語が原テキストに含まれる場合について考えると、「本を買う」という表現と「反感を買う」という表現とでは、「買う」の意味が異なり、それによって「買う」に対応する英語の訳語が異なる。この場合、日英の対訳コーパスには、「物を買う」という場合における「買う」の訳語と同じ英訳語(buy)が使われる用例は多数あってその英訳語の出現頻度は高いと考えられるのに対して、「反感を買う」というような慣用表現では「買う」の英訳語(antipathy)が特殊なものであるためにその英訳語を含む「買う」の用例は少ないものと考えられる。
【0006】
また、いずれの訳語選択方法においても、精度の高い翻訳を実現するには、対訳コーパスを大量に収集する必要があるが、自然言語には多様なバリエーションがあり得るため、単に多数の対訳コーパスを収集する方法ではコンピュータ処理の負荷が高まるだけで、現実にはこのような方法によって短時間で正確な機械翻訳を実施するのは不可能であると考えられる。
【0007】
そこで本発明は、以上のような問題に鑑みて、機械翻訳において、装置に過剰な負荷を掛けることなく、訳語選択並びに翻訳を正確かつ適正に短時間で行うことができるようにすることを主たる目的としている。
【0008】
【課題を解決するための手段】
本発明は、基本的に、第1言語によるテキストからなる原言語用例及びそれに含まれる語とその語の第2言語による訳語及び当該訳語に関する情報とを含む原言語用例データと、原言語用例から第2言語で翻訳されたテキストからなる目的言語用例とを対にした対訳用例データを格納する対訳用例データ格納部を利用して、第1言語で入力された入力テキストに含まれる翻訳すべき語である翻訳対象語に対応する第2言語で記述された訳語を選択するものである。ここで利用する対訳用例データ格納部は、上述したいわゆる対訳コーパスに該当するが、一つ以上を利用すればその数は問わない。但し、複数の対訳用例データ格納部を利用すれば、用例数を増加させて訳語選択の正確性を向上することができる。また、対訳用例データ格納部は、以下に述べる訳語選択装置や翻訳装置の一構成要素としたり、これら訳語選択装置等と通信可能な別の装置に設けることが可能である。
【0009】
このようなものにおいて本発明は、図1に概略構成図を示すように、第1の訳語選択装置A1の基本構成として、入力テキストの入力を受け付ける入力受付部1と、その受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを対訳用例データ格納部Cから抽出する用例抽出部2と、抽出した原言語用例データと前記入力テキストとに基づき入力テキストと原言語用例との類似性を検出する類似性検出部3と、検出した原言語用例の類似性を比較評価して最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部4と、出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部5とを有していることを特徴とするものである。
【0010】
このように構成することによって、入力テキスト中に含まれる翻訳対象語に対して、それが用いられている原言語用例との類似性が最も高い訳語を出力することができる。したがって、特に原言語で使用される慣用句等の出現頻度が低い語句の訳語選択に際して、あまりに多くの対訳用例データを利用することなく、またコンピュータ処理に多大な負荷を掛けることなく、適切な訳語選択を行うことが可能となる。
【0011】
特に、類似性検出部3において、好適な類似性の検出を行い得る態様としては、入力テキストと抽出された原言語用例データに含まれる原言語用例とを文字単位で比較して求められる差異に基づき入力テキストと原言語用例との一致した文字列の割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を用いて計算される類似度を類似性として演算するようにしたものが挙げられる。
【0012】
また、用例抽出部2で抽出した原言語用例についてそれ以後の処理の便宜を図るためには、この用例抽出部2において、抽出された原言語用例データに含まれる原言語用例に文末処理を施して処理済原言語用例を出力するようにすればよく、この場合、類似性検出部3において、入力テキストと処理済原言語用例との文字単位で比較した場合の差異の演算結果に基づいて、一致した文字列の当該処理済原言語用例の文字列に対する割合、又は一致した部分が何カ所に分割されて一致しているかを示す分割数の少なくともいずれか一方を類似度として演算するように構成することが望ましい。
【0013】
さらに、訳語出力部5において、類似性検出部3で演算の上、出力し類似性評価部4で評価した結果、類似度が最大となる原言語用例データが複数ある場合が想定される。この場合、前記演算の結果、入力テキストと一致した文字列又は前記分割数が最大の原言語用例を含む対訳用例データにおける翻訳対象語に対応する訳語を出力することで、最も適していると推定される訳語を出力することができる。
【0014】
また、入力テキストの受付後の処理を簡便化するには、入力受付部1において、入力テキストを形態素解析により翻訳対象語を自動抽出するようにしておくことが好ましい。なお、「形態素解析」とは、入力テキストを単語毎に分割し、それぞれに品詞を割り当てる等の解析処理をいい、所定の解析アルゴリズム及び解析用辞書データが用いられる。
【0015】
さらに対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語を含むものである場合には、用例抽出部2において、少なくとも翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部Cから抽出するようにすることで、対訳用例データ格納部Cからの原言語用例データの抽出処理を高速化することができる。
【0016】
さらにまた、対訳用例データが、原言語用例に含まれる語に基づいて生成された原言語見出し語とそれに対応する訳語に基づいて生成された目的言語見出し語とを有する場合には、用例抽出部2において、翻訳対象語に該当する原言語見出し語を含む原言語用例データを少なくとも抽出し、訳語出力部5において、類似性評価部4で出力した原言語用例データに含まれ且つ用例抽出部2で抽出した原言語見出し語に対応する目的言語見出し語を出力することで、訳語出力までの処理をさらに高速化することができる。
【0017】
また本発明は、図2に概略構成図を示すように、第2の訳語選択装置A2の基本構成として、入力テキストの入力を受け付ける入力受付部11と、対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部12と、その生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部13と、その出力した訳語候補のうち最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部14とを有することを特徴としている。ここで、「学習データ」とは、対訳用例に基づいて作成された第1言語で入力される語、それに対応して第2言語で出力されるべき正解の訳語、及びそれらに付随する属性や素性等の情報をいう。また、「学習モデル」とは、前記学習データを利用して推定されたパラメータを含み機械学習の手法により生成される関数的モデルである。また、確信度の順序づけは、降順又は昇順の何れであるかを問わない。
【0018】
このような構成によれば、一定量の学習データを作成又は収集しておくと、それに基づいて生成した適切な学習モデルを翻訳対象となる目的言語に適用した上で、確信度の最も高い訳語候補、すなわち最も適切であると推測することができる訳語を出力することができる。したがって、このような訳語選択装置A2であれば、訳語選択に際して、翻訳対象となる語句(単語)ごとに学習モデルを生成することで、各語句(単語)に応じた適切なモデルによって訳語を選択することができるようになる。
【0019】
特に学習モデル生成部12において、入力受付部11で受け付けた入力テキスト中の翻訳対象語ごとにそれを含む原言語用例に対応する対訳用例データを対訳用例データ格納部Cから抽出し、その抽出された対訳用例データに基づいて学習モデルを生成するように構成すれば、迅速且つ正確な訳語出力処理を行うことができる。
【0020】
また、出力する訳語の正確性を高めるためには、学習モデル生成部12において、学習データを利用し各学習データごとにそれぞ学習モデルを生成し、さらに入力受付部11で受け付けた入力テキスト中の翻訳対象語ごとに学習データで精度が最高となる学習モデルを選択し、学習モデル適用部13において、学習モデル生成部12で選択した最高の精度を得た学習モデルを入力テキスト中の翻訳対象語に適用するようにするとよい。なお、利用する学習データ数は一つであってもよいし複数であってもよい。
【0021】
また、この訳語選択装置A2においても、入力受付部11において、入力テキストを形態素解析により翻訳対象語を自動抽出することで、入力テキストの受付後の処理を簡便化することができる。同様に、対訳用例データに、原言語用例に含まれる語に基づいて生成された原言語見出し語が含まれる場合には、学習モデル生成部12が、少なくとも翻訳対象語に該当する原言語見出し語を含む原言語用例データを対訳用例データ格納部Cから抽出するようにすることで、対訳用例データ格納部Cからの原言語用例データの抽出処理を高速化することができる。
【0022】
本発明の訳語選択装置はまた、上述した2種類の訳語選択装置A1、A2を組み合わせた態様として、出力される訳語の精度を飛躍的に向上させることもできる。すなわち、本発明は、図3に概略構成図を示すように、第3の訳語選択装置A3の基本構成として、入力テキストの入力を受け付ける入力受付部31と、入力受付部1で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部Cから抽出する用例抽出部32と、入力テキスト及び用例抽出部で抽出した原言語用例データに基づき入力テキストと原言語用例との類似性を検出する類似性検出部33と、類似性検出部3で検出した原言語用例の類似性を比較評価し最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部34と、対訳用例データ格納部Cに格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部31で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部35と、学習モデル生成部35で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部36と、類似性評価部34で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の翻訳対象語に対応する訳語、又は、学習モデル適用部36で出力する訳語候補から、最適のもの、すなわち前記訳語又は最高の確信度を得た訳語候補のいずれかを選択して翻訳対象語に対応する訳語として出力する訳語出力部37とを有することを特徴とするものである。
【0023】
すなわち、入力受付部31で受け付けた入力テキスト及び対訳用例データ格納部Cに格納される対訳用例データに基づいて、第1の訳語選択装置A1に該当する用例抽出部32、類似性検出部33及び類似性評価部34により処理された訳語、或いは第2の訳語選択装置A2に該当する学習モデル生成部35及び学習モデル適用部36により処理された訳語候補のいずれかを、訳語出力部37において出力する。なお、第1の訳語選択装置A1該当部分と第2の訳語選択装置A2該当部分とが利用する対訳用例データ格納部Cは、同一のものであってもよいし異なっていてもよい。
【0024】
この場合、望ましくは次の二態様の何れかを採用することが好適である。
【0025】
すなわち、まず、第1の訳語選択装置A1該当部分と、第2の訳語選択装置A2該当部分とを並列的に動作させ、訳語出力部37において、類似性評価部34で所定の閾値以上の類似性が得られた対訳用例データの出力がある場合に、その結果得られる翻訳対象語に対応する訳語を出力し、所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、学習モデル適用部36で出力した結果得られる翻訳対象語に対応する訳語を出力する態様をとることができる。このようにすれば、並列処理により迅速に訳語を出力できることになる。
【0026】
一方、第1の訳語選択装置A1該当部分をまず動作させ、類似性評価部34において所定の閾値以上の類似性が得られた対訳用例データの出力がない場合に、第2の訳語選択装置該当部分A2である前記学習モデル生成部35、学習モデル適用部36を動作させたうえで、訳語出力部37を動作させるようにする態様をとることもできる。このようにすれば、類似性評価部34において閾値以上の類似性が得られた対訳用例データがあれば、第2の訳語選択装置該当部分A2を動作させる必要がないためコンピュータ処理に掛かる負荷を低減するとともに、第2の訳語選択装置A2該当部分を動作させる際に、異なる対訳用例データ格納部Cを利用するなど、必要に応じて対訳用例データを追加収集又は取捨選択することができる。
【0027】
上記いずれの態様であっても、用例抽出部32が利用する対訳用例データ格納部と、学習モデル生成部35が利用する対訳用例データ格納部Cとが、それぞれ異なる言語資源に基づいて作成された異なるものであれば、対訳用例の数及び種類をより多様なものとして、最終的に出力される訳語の正確性を向上することが可能となる。
【0028】
また本発明は、以上のような訳語選択装置A1、A2、A3の何れかを利用して、好適な翻訳装置を構成することも可能である。すなわち、当該翻訳装置は、訳語選択装置A1、A2、A3の構成に加えて、それら何れかにおける訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部を更に備えたものである。このようにすれば、単に入力テキスト中の翻訳対象語に対応する訳語選択を行うのみならず、第1言語による入力テキストに基づいて第2言語で翻訳された対象テキストを生成して出力することまで可能となる。
【0029】
【発明の実施の形態】
以下、本発明の一実施形態を、図4〜図8を参照して説明する。
【0030】
図4に概略構成図を示すこの実施形態は、上述した第3の基本構成を有する訳語選択装置A3である。すなわち、第1の基本構成を有する訳語選択装置A1に該当する部分と、第2の基本構成を有する訳語選択装置A2に該当する部分と、これらに共通する部分とから構成される。また、対訳用例データ格納部Cは、この訳語選択装置A3に含まれるものとしているが、必要に応じて通信回線で接続された他の装置に設けてある対訳用例データ格納部Cから収集することも可能である。なお、本実施形態では、第1言語(原言語)として日本語を、第2言語(目的言語)として英語を適用した場合について説明するものとする。
【0031】
まず、対訳用例データ格納部Cについて説明する。対訳用例データ格納部Cは、日本語によるテキストからなる用例(以下、「日本語用例」)及び当該日本語用例に含まれる語とその語の英語による訳語(以下、英訳語)並びに当該英訳語に関する各種情報とを含む日本語用例データと、前記日本語用例に対応して英語に翻訳されたテキストからなる英語用例を含む英語用例データとを対にした日英対訳用例データを格納してあるデータベースである。なお、日英対訳用例データにはさらに、日本語用例毎に翻訳対象語となり得る日本語見出し語が含まれており、場合によっては当該日本語見出し語に対応する正しい訳語となり得る英語見出し語が含まれる場合がある。このような日英対訳用例データとしては、例えば新聞や雑誌等の記事に基づき出現頻度等を考慮して作成されたデータベースや、日英対訳電子辞書データベース、その他オンライン上で利用可能なデータベース等に格納されたデータを利用することができる。
【0032】
ここで、日英対訳用例データの一例の一部を図5に示す。この例では、日本語「遠慮」という語を含む3つの日本語用例と、それらに対応する英語用例とが組になっている。この場合、日本語見出し語には「遠慮」が該当し、英語見出し語には「feel constrained」、「constraint」、「refrain」等が該当する。但し、日本語見出し語に対応する英語見出し語のみ、或いは日本語見出し語と英語見出し語の両方に関しては、既に設定されたものがある場合はそれを利用すればよく、ない場合は人手で設定するか或いはコンピュータ処理により自動的に設定されるようにしておく必要がある。
【0033】
次に訳語選択装置A3の機能について説明する。この訳語選択装置A3は、汎用コンピュータ又は専用コンピュータのHDD等の記憶装置に記憶させた所定のプログラムに従ってCPUやメモリ等の通常のコンピュータが有する内部及び外部装置が動作することによって、第1の訳語選択装置A1としての機能を奏する用例抽出部32、類似性検出部33、類似性評価部34と、第2の訳語選択装置A2としての機能を奏する学習モデル生成部35、学習モデル適用部36と、これらに共通の機能を奏する入力受付部31、訳語出力部37としての機能を発揮する。
【0034】
入力受付部31は、日本語で作成されたテキストデータ(入力テキスト)の入力を受け付ける。この入力受付部31には、入力テキスト処理部311が含まれる。入力テキスト処理部311は、前記入力テキストに対して形態素解析を行い、当該入力テキストから翻訳対象語を自動的に抽出する。なお、入力テキストの入力時に、翻訳対象語を指定しておくことができるが、この場合は入力テキスト処理部311にて形態素解析のみを行う。
【0035】
用例抽出部32は、入力受付部31で得られた翻訳対象語が含まれた日本語用例データを、対訳用例データ格納部Cを抽出する。その際、対訳用例データ格納部Cに日本語見出し語が含まれている場合にはそれを参照して該当する翻訳対象語を検索のうえ抽出を行う。この用例抽出部32には、原言語用例処理部たる日本語用例処理部321が含まれる。この日本語用例処理部321は、対訳用例データ格納部Cから抽出した日本語用例データについて、文末処理を行うものである。例えば上述の図5に示す日英対訳用例データのうち、日本語用例データについて文末処理を行うことによりと、「母に遠慮する」、「母への遠慮」、「献金を遠慮してもらう」は、それぞれ「母に遠慮」、「母への遠慮」、「献金を遠慮」となる。
【0036】
類似性検出部33は、入力受付部31で受け付けた入力テキストと、用例抽出部32で抽出した日本語用例データとを対比し、それらの類似性を検出する。具体的にはこの類似性検出部33に含まれる類似度演算部331により演算された入力テキストと日本語用例データとの一致する割合である類似度が前記類似性として検出される。すなわち、類似度は、動的計画法により入力テキストと日本語用例データとを文字単位で比較して両者の差異を求め、一致した文字列の割合として求められる。より具体的に類似度は、例えばUNIXのdiffコマンドにより次式
【0037】
【式1】
【0038】
により求められる。なお、日本語用例データは、日本語用例処理部321で文末処理を施したものを利用する。
【0039】
類似性評価部34は、入力テキストと対比された各日本語用例データについて類似性検出部33で検出した類似性、すなわち前式で得られた類似度を比較評価し、最も高い類似度rが得られた日本語用例データ又はその日本語用例データを含む日英対訳用例データを出力する。このとき、最大の類似度rが得られた日本語用例データが複数あった場合は、最長の日本語用例を含む日本語用例データを最も高い類似性を有するものとして出力する。但し、入力テキストと一致した部分が日本語見出し単語の長さよりも長い場合に限られる。
【0040】
学習モデル生成部35は、学習データを利用して入力受付部31で受け付けた入力テキスト中の翻訳対象語毎に対応した学習モデルを生成する。学習データは、対訳用例データ格納部Cに格納された日本語用例に含まれる語とその日本語用例に対応する英語用例データとに基づいて作成されたものであり、日本語で入力される語、それに対応して英語で出力されるべき正解の訳語、及びそれらに付随する属性や素性等の情報等からなる。また、本実施形態では学習モデルとして、例えばSVM(Support Vector Machine)、ME(Maximum Entropy)、DL(Decision List)等の既知の機械学習モデルを複数種類適用することとしている。そして、これら学習モデルを各翻訳対象語に適用することにより、それぞれの正解の訳語が生成される確率を求める。その際、各学習モデルには、素性を与える必要があるが、本実施形態では素性として、前記学習データから得られた情報である形態素情報、文字n-gram、最大一致となる日本語用例に関する情報、内容語とその訳語候補の出現頻度に関する情報の4種類の情報を用いている。この学習モデル生成部35には、学習モデル選択部351が含まれる。この学習モデル選択部351は、各学習モデルについて学習データを用いてクロスバリデーションを行い精度が最高となる学習モデルを選択する。
【0041】
学習モデル適用部36は、学習モデル生成部35で生成した学習モデル、具体的には学習モデル選択部351で選択した学習モデルを入力テキスト中の翻訳対象語に適用することにより、その翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けを行って訳語候補を出力する。この確信度は基本的に、文脈の集合をB、分類クラスの集合をAとした場合、文脈b(∈B)でクラスa(∈A)となる事象(a,b)の確率分布のスコアp(a,b)として求められる。なお、学習モデルの種類によってこのような確率分布が得られない場合、例えばSVMを適用した場合、便宜的に最適のクラスに対して確率値を1、その他のクラスに対して確率値を0としている。
【0042】
訳語出力部37は、入力テキスト中の翻訳対象語に対応する訳語を出力するものであり、訳語選択装置A1のルート又は訳語選択装置A2のルートの何れかから得られる訳語、すなわち、類似性評価部34で最高の類似性を得た日本語用例データに該当する日英対訳用例データに含まれる訳語、又は、学習モデル適用部36で出力した訳語候補のうち最高の確信度(スコア)を得た訳語候補、の何れかを選択して出力する。具体的に、本実施形態では、類似性検出部33における類似性演算部331で得られる類似度に閾値を設定しており、類似性評価部34で出力する日本語用例データが当該閾値以上の場合には、その日本語用例データに対応する訳語を出力する。本実施形態では前記閾値を1としている。一方、閾値以上の日本語用例データがない場合に、学習モデル適用部36で出力した訳語候補から最高の確信度を得たものを出力する。なお、入力受付部31で入力テキストを受け付けた際に、訳語選択装置A1のルートと訳語選択装置A2のルートとを同時に動作させてもよいし、訳語選択装置A1のルートを先に動作させてから閾値以上の日本語用例データがない場合にのみ訳語選択装置A2のルートを動作させてもよい。
【0043】
以下、本実施形態の訳語選択装置A3の一利用態様例を、図6及び図7に示した訳語選択装置A3の動作手順を表すフローチャートを用いて説明する。なお、以下の説明は、本発明の発明者が参加した(参加者名、CRL-NYU)単語の多義性解消コンテスト第2回SENSEVAL{以下、「SENSEVAL2」、2001年開催(SENSEVAL-2 Organization Committee)}の日本語翻訳タスクに本実施形態の訳語選択装置A3を適用したものであり、同コンテストにおいては訳語選択装置A3の改良前のもので参加しているが、極めて高い評価を得ている。
【0044】
前提として、日英対訳用例データ(320語の日本語見出し語、一見出し語につき約20の用例数)は前記コンテスト前に予め与えられたSENSEVAL2日本語翻訳タスクのものに準ずる。これらのうちから選択された40語(名詞20語、動詞20語)について30出現ずつのテストデータが用いられ、翻訳対象とされる日本語の単語はのべ1200語である。また、コンテストのしゃん貨車は、与えられた日英対訳用例データ以外の言語資源から得た対訳辞書や各種新聞記事に基づく日英対訳用例データも用いることも許容されている。さらに、最終的に出力された訳語の正誤を公正に評価するために、所定の入力テキスト及び翻訳対象語と正解の訳語に基づいて、訳語の精度が評価されている。
【0045】
なお、説明を簡素化するため、ここではまず訳語選択装置A1のルートから開始し、当該ルートから訳語が出力されなかった場合に訳語選択装置A2のルートに移行する態様について説明するが、両ルートを同時に進行させてもよいのは上述したとおりである。まず、入力受付部31が入力テキスト(例えば慣用表現である「一役買う」の表現を含む日本語のテキスト)の入力を受け付ける(図6;ステップS1)と、入力テキスト処理部311がこの入力テキストを形態素解析することにより、翻訳対象語(例えば<買う>)を抽出する(ステップS2)。次に、用例抽出部32が前記抽出された翻訳対象語(<買う>)に基づいて対訳用例データ格納部Cを検索し、当該翻訳対象語を含む日本語用例データを抽出し(ステップS3)、日本語用例処理部321が抽出した日本語用例データに含まれる各日本語用例について文末処理を行う(ステップS4)。次に、この文末処理が施された各日本語用例と前記入力テキストについて、類似性検出部33における類似性演算部331が前記式1に基づいて類似度rを演算する(ステップS5)。そして、類似度rが最大となる日本語用例数を調べ(ステップS6)、その数が1であれば(ステップS6;Y)、類似性評価部34が、当該日本語用例を含む日本語用例データを出力する(ステップS7)。一方、ステップS6において類似度rが最大の日本語用例数が1以上であれば(ステップS6;N)、そのうち類似する文字列が最長の日本語用例を含む日本語用例データを選択し(ステップS6a)、その日本語用例データを最も高い類似性を有するものとして出力する(ステップS7)。ここで、この場合、類似度rが最高の日本語用例が、入力テキストに対応する表現(「一役買う」)を含んでおり、この日英対訳用例データにおける前記日本語用例に対応する英語用例に、翻訳対象語に対応する英訳語(<to offer to help>)が含まれていたものとする。そして、出力された日本語用例データの類似度と所定の閾値(例えば1)とを比較し(ステップS8)、類似度が閾値(1)以上であれば(ステップS8;Y)、訳語出力部37が、翻訳対象語(<買う>)に対応する英訳語(例えば<offer>)を出力する(ステップS9)。なお、「一役買う」という日本語の慣用表現に対応する英語の表現が、「to offer to help」であり、この場合、翻訳対象語「買う」に対する正解の英訳語が「offer」であると与えられていれば、ステップS9で出力した英訳語は正解となる。
【0046】
一方、ステップS8において、閾値(1)以上の日本語用例データがなかった場合(ステップS8;N)、すなわち、入力テキスト中の翻訳対象語を含む日本語用例と同一又は類似の用例が、いずれの日本語用例データがない場合、訳語翻訳装置A2のルートに移行する{S6(N)}。この場合、学習モデル生成部35において、まず入力受付部31で受け付けた入力テキスト中の翻訳対象語に基づいて、前記訳語選択装置A1のルートで用いたものとは別の日英対訳用例データ格納部Cを検索し、該当する語を含む日本語用例データを抽出する(図7、ステップS11)。そして、抽出した各日本語用例データに含まれる日本語用例毎に学習データを適用して学習モデル(SVM、DL、MEのいずれかに基づく)を生成する(ステップS12)。さらに、学習モデル選択部351によって、生成された各学習モデルについて、学習データを用いてクロスバリデーションを行ったうえで精度が最高となった学習モデルを選択する(ステップS13)。ここで選択された学習モデルを、学習モデル適用部36において入力テキスト中の翻訳対象語に適用して、それに対応する訳語候補の全てについて確信度pを演算し(ステップS14)、確信度p順に例えば降順で順序付けて訳語候補を出力する(ステップS15)。最後に、出力した訳語候補から、最高の確信度pが得られた訳語候補を選択して訳語出力手段37により出力する(ステップS16)。この出力した訳語候補が、予め与えられた正解の英訳語と合致していれば、当該英訳語が正解となる。
【0047】
参考として、図8に、SENSEVAL2のコンテストにおける訳語選択装置A1及びA2による結果を一覧表にして示す。この結果は、コンテストで与えられた翻訳対象語である単語(名詞20、動詞20)ごとについて出力した英訳語の正解率を精度として示すものである。与えられたのべ1200の翻訳対象語のうち、100について訳語選択装置A1を適用した結果、精度は91.0%であった。また、1100の翻訳対象語について訳語選択装置A2を適用した結果、精度は60.9%であった。なお、比較のため、これら訳語選択装置A1、A2による総合的な結果(A1+A2)も同一覧表に示している。この結果から、訳語選択装置A1について精度が芳しくなかった翻訳対象語については、訳語選択装置A2を適用するという、本実施形態の訳語選択装置A3を適用することが適切であるといえる。すなわち、文字列の類似性に基づく訳語選択装置A1を適用するルートは、慣用的表現を含むなど一般に学習データ数が少ない用例、換言すればそのような日英対訳用例データ数が少ない用例に対して適しているといえ、一方、上記ルートで精度が悪い場合に学習データ及び学習モデルを適用して確信度を得る訳語選択装置A2のルートを適用することで、通常用いられる表現は勿論のこと慣用的表現も含めて、全体として精度の高い訳語選択を実行することが可能であるといえる。
【0048】
本発明は、以上に説明した実施形態に限られるものではない。例えば、訳語選択装置A1、A2を単独で用いたり、訳語出力部で出力される訳語に基づいて入力テキストに対応する対象テキストを生成し出力する翻訳文出力部を設けることによって翻訳装置を構成することも可能である。また、その他、各部の具体的構成についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
【0049】
【発明の効果】
以上に詳述したように、本発明によれば、多大な人手を掛けずコンピュータに過剰な負荷を掛けることなく、すなわち、多量の対訳用例データを収集することなく、精度の高い訳語選択、並びに機械翻訳を行うことができる。特に、文字列の類似性に基づく方法と、学習データ及び学習モデルを適用する方法とをそれぞれ別個に用いたり、或いはそれらを併用することで相互に補完しあうことになり、通常用いられる自然言語の表現や、出現頻度の低い慣用的表現に対しても極めて精度の高い訳語選択及び機械翻訳が可能である。
【図面の簡単な説明】
【図1】本発明の第1の態様に対応する訳語選択装置の概略機能構成図。
【図2】本発明の第2の態様に対応する訳語選択装置の概略機能構成図。
【図3】本発明の第3の態様に対応する訳語選択装置の概略機能構成図。
【図4】本発明の一実施形態における訳語選択装置の概略機能構成図。
【図5】同実施形態に用いられる日英対訳用例データの一例を示す図。
【図6】同実施形態の動作手順を示す概略的なフローチャート。
【図7】同実施形態の動作手順を示す概略的なフローチャート。
【図8】本発明を適用したSENSEVAL2のコンテストにおける訳語選択結果を一覧表にして示す図。
【符号の説明】
A1、A2、A3…訳語選択装置
C…対訳用例データ格納部
1、11、21、31…入力受付部
2、32…用例抽出部
3、33…類似性検出部
4、34…類似性評価部
5、14、37…訳語出力部
12、35…学習モデル生成部
13、36…学習モデル適用部
311…入力テキスト処理部
321…原言語用例処理部(日本語用例処理部)
331…類似度演算部
351…学習モデル選択部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a translation selection device used when translating text input in a language into another language, as well as It relates to a translation device.
[0002]
[Prior art]
In machine translation, a database is used that stores bilingual data consisting of a pair of original text such as sentences, phrases, clauses or words written in one language and translated text obtained by translating the original text into another language. Sometimes. In recent years, not only words but also databases of examples such as sentences and phrases including words (hereinafter referred to as “translation corpus”) have come to be used. At present, a wide variety of parallel corpora using newspapers, dictionaries, and the like as language resources are published on the Internet and used.
[0003]
In machine translation, translation selection is considered as one of the important technical elements. However, when the parallel example corpus is used, simply the larger the amount of parallel translation data, the greater the number and types of examples. Therefore, instead of using only a single bilingual corpus, it is considered to collect as many types of bilingual corpus or bilingual data as possible and perform machine translation using them. In this case, the bilingual corpus collected based on the input text in the source language to be translated is referred to, and the bilingual text corresponding to the source text including the example that matches or is most similar to the input text is output as a translation result. The example-based translation selection method is considered to be the simplest technique. In addition, a learning-based translation selection method is also considered in which learning data created based on a bilingual corpus is applied to a learning model and a simple statistically correct translation is output.
[0004]
[Problems to be solved by the invention]
Since the example-based translation selection method refers to a wide variety of parallel corpora, it can be presumed that the accuracy of translation is improved accordingly. However, if we look at a source language word with ambiguity where there are many types of corresponding translations, the above method will output the correct translation if there is no example in the parallel corpus that is the same as or similar to the input text. There is a problem that it cannot be done and lacks flexibility. On the other hand, in the learning-based translation selection method, in order to preferentially output translations that are used in statistically high-frequency examples, the translation of the word that is commonly used in many examples and has a high appearance frequency is used. While accuracy is improved, translation accuracy is reduced for translated words with low appearance frequency.
[0005]
Such problems often arise when the input text contains “idiomal expressions” in which one word is combined with another phrase to create a unique expression. As an example, consider the case where the word “buy” in Japanese is included in the original text. The meaning of “buy” is different between the expression “buy book” and “buy antipathy”. Therefore, the English translation corresponding to “buy” is different. In this case, there are many examples in which the same English translation (buy) is used in the bilingual corpus of Japanese and English when the word “buy” is used, and the frequency of occurrence of the English translation is considered high. On the other hand, in an idiomatic expression such as “buy a counterfeit”, the English translation of “buy” is a special one, so there are few examples of “buy” including the English translation.
[0006]
In any translation selection method, it is necessary to collect a large amount of parallel corpora in order to achieve highly accurate translation. However, there are many variations of natural language, so a large number of parallel corpora are simply used. The collection method only increases the load of computer processing, and in reality, it is considered impossible to implement accurate machine translation in a short time by such a method.
[0007]
Therefore, in view of the above problems, the present invention is mainly intended to enable accurate and proper translation and translation in a short time without excessive load on the apparatus in machine translation. It is aimed.
[0008]
[Means for Solving the Problems]
The present invention basically includes source language example data including an example of a source language composed of text in a first language, a word included therein, a translation of the word in a second language, and information related to the translation, and an example of the source language. A word to be translated included in an input text input in the first language by using a parallel translation example data storage unit that stores a parallel translation example data paired with a target language example composed of text translated in the second language The translation word described in the second language corresponding to the translation target word is selected. The bilingual example data storage unit used here corresponds to the so-called bilingual corpus described above, but the number thereof does not matter as long as one or more are used. However, if a plurality of parallel translation example data storage units are used, it is possible to increase the number of examples and improve the accuracy of translation selection. The parallel translation example data storage unit can be a component of the translation selection device and translation device described below, or can be provided in another device that can communicate with the translation selection device and the like.
[0009]
In such a thing, as shown in a schematic block diagram in FIG. 1, the present invention includes, as a basic configuration of the first translation word selection device A1, an
[0010]
With this configuration, it is possible to output a translated word having the highest similarity to the source language example in which the translation target word included in the input text is used. Therefore, when selecting translations of words with low frequency of occurrence, such as idiomatic phrases used in the source language, appropriate translations without using too many parallel translation examples and without imposing a heavy burden on computer processing. Selection can be made.
[0011]
In particular, as a mode in which the
[0012]
Further, in order to facilitate the subsequent processing of the source language examples extracted by the
[0013]
Further, in the translated
[0014]
In order to simplify the process after receiving the input text, it is preferable that the
[0015]
Further, when the parallel translation example data includes source language headwords generated based on the words included in the source language examples, the
[0016]
Furthermore, when the parallel translation example data includes a source language headword generated based on a word included in the source language example and a target language headword generated based on the corresponding translation, an
[0017]
In addition, as shown in the schematic configuration diagram of FIG. 2, the present invention has a basic configuration of the second translation word selection device A2, an
[0018]
According to such a configuration, when a certain amount of learning data is created or collected, an appropriate learning model generated based on the learning data is applied to the target language to be translated, and the translated word with the highest certainty level is obtained. Candidates, ie translations that can be assumed to be most appropriate, can be output. Therefore, with such a translation selection apparatus A2, when selecting a translation, a translation model is selected for each phrase (word) by generating a learning model for each phrase (word) to be translated. Will be able to.
[0019]
In particular, the learning
[0020]
Further, in order to improve the accuracy of the translated word to be output, the learning
[0021]
Also in this translated word selection device A2, the
[0022]
The translated word selection apparatus of the present invention can also improve the accuracy of the translated word output dramatically as a combination of the two types of translated word selection apparatuses A1 and A2. That is, according to the present invention, as shown in a schematic configuration diagram in FIG. 3, as a basic configuration of the third translated word selection device A3, an input receiving unit 31 that receives input of input text and an input text that is received by the input receiving unit 1 A source language example extracted by the example extraction unit 32 that extracts at least one source language example data including the word corresponding to the translation target word from the parallel translation example data storage unit C, and the input text and example extraction unit The similarity detection unit 33 that detects the similarity between the input text and the source language example based on the data, and at least the source language having the highest similarity by comparing and evaluating the similarity of the source language example detected by the similarity detection unit 3 Based on the similarity evaluation unit 34 that outputs the example data, the words included in the source language example stored in the parallel translation example data storage unit C, and the parallel translation example data corresponding to the source language example Using the created learning data, a learning model generation unit 35 that generates a learning model corresponding to a translation target word in the input text received by the input reception unit 31, and a learning model generated by the learning model generation unit 35 A learning model application unit 36 that applies to the translation target words in the input text, calculates the certainty factor for all the translation word candidates of the translation target word, outputs the translation word candidates in order of the certainty factor, and the similarity evaluation unit 34 From the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data to be output, or the translation candidate output from the learning model application unit 36, that is, the translated word or A translation output unit 37 that selects any one of the translation candidates having the highest certainty factor and outputs it as a translation corresponding to the translation target word. .
[0023]
That is, based on the input text received by the
[0024]
In this case, it is preferable to employ one of the following two modes.
[0025]
That is, first, the corresponding part of the first translated word selection device A1 and the corresponding part of the second translated word selection device A2 are operated in parallel, and the
[0026]
On the other hand, when the corresponding part of the first translation word selection device A1 is operated first, and there is no output of the parallel translation example data in which the
[0027]
In any of the above aspects, the parallel translation example data storage unit used by the
[0028]
In the present invention, it is also possible to configure a suitable translation apparatus using any one of the translation word selection apparatuses A1, A2, and A3 as described above. That is, in addition to the configuration of the translation selection devices A1, A2, and A3, the translation device can correspond to the input text based on the translation output by the translation output unit in any of them and the parallel translation example data including the translation A translation output unit for generating and outputting text is further provided. In this way, not only the translation word corresponding to the translation target word in the input text is selected, but also the target text translated in the second language is generated and output based on the input text in the first language. It becomes possible.
[0029]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[0030]
This embodiment, whose schematic configuration is shown in FIG. 4, is a translation word selection device A3 having the above-described third basic configuration. That is, it is comprised from the part applicable to the translation selection apparatus A1 which has a 1st basic structure, the part applicable to the translation selection apparatus A2 which has a 2nd basic structure, and the part common to these. Further, the bilingual example data storage unit C is assumed to be included in the translation word selection device A3, but is collected from the bilingual example data storage unit C provided in another device connected by a communication line as necessary. Is also possible. In this embodiment, a case where Japanese is applied as the first language (source language) and English is applied as the second language (target language) will be described.
[0031]
First, the parallel translation example data storage unit C will be described. The bilingual example data storage unit C includes an example consisting of Japanese text (hereinafter “Japanese example”), a word included in the Japanese example, an English translation of the word (hereinafter English translation), and the English translation word. Japanese-English bilingual example data that is a pair of Japanese example data including various information related to Japanese and English example data including English examples composed of text translated into English corresponding to the Japanese examples. It is a database. The Japanese-English bilingual example data further includes Japanese headwords that can be translated for each Japanese example. In some cases, an English headword that can be a correct translation corresponding to the Japanese headword is included. May be included. Examples of such English-Japanese bilingual data include, for example, databases created in consideration of appearance frequency based on articles such as newspapers and magazines, Japanese-English bilingual electronic dictionary databases, and other databases that can be used online. Stored data can be used.
[0032]
Here, FIG. 5 shows a part of an example of Japanese-English parallel translation example data. In this example, three Japanese examples including the word “refrain” in Japanese and English examples corresponding to them are paired. In this case, the Japanese headword corresponds to “refrain”, and the English headword corresponds to “feel constrained”, “constraint”, “refrain”, and the like. However, only English headwords corresponding to Japanese headwords, or both Japanese headwords and English headwords should be used if they are already set, otherwise they are set manually. It is necessary to set it automatically by computer processing.
[0033]
Next, the function of the translation word selection device A3 will be described. This translated word selection device A3 is operated by operating the internal and external devices of a normal computer such as a CPU and a memory according to a predetermined program stored in a storage device such as an HDD of a general-purpose computer or a dedicated computer. An
[0034]
The
[0035]
The
[0036]
The
[0037]
[Formula 1]
[0038]
Is required. As the Japanese example data, the Japanese
[0039]
The
[0040]
The learning
[0041]
The learning
[0042]
The
[0043]
Hereinafter, an example of how the translated word selection apparatus A3 according to this embodiment is used will be described with reference to flowcharts showing the operation procedure of the translated word selection apparatus A3 shown in FIGS. In the following explanation, the inventor of the present invention participated (participant name, CRL-NYU) The second sensibility elimination contest of the word SENSEVAL {hereinafter, “SENSEVAL2”, held in 2001 (SENSEVAL-2 Organization Committee )} Is applied to the Japanese translation task of the translation selection device A3 of this embodiment, and in this contest, it participates in the pre-improvement of the translation selection device A3, but has an extremely high reputation. .
[0044]
As a premise, the Japanese-English bilingual example data (320 Japanese headwords, the number of about 20 examples per headword) conforms to that of the SENSEVAL2 Japanese translation task given in advance before the contest. Test data of 30 appearances is used for 40 words (20 nouns and 20 verbs) selected from these, and a total of 1200 Japanese words are to be translated. In addition, the contest shank is allowed to use bilingual dictionaries obtained from language resources other than the given Japanese-English bilingual example data and Japanese-English bilingual example data based on various newspaper articles. Furthermore, in order to fairly evaluate the correctness of the finally output translation, the accuracy of the translation is evaluated based on the predetermined input text, the translation target word, and the correct translation.
[0045]
In order to simplify the description, a mode will be described in which, starting from the route of the translation word selection device A1, first, when no translation is output from the route, the route to the translation word selection device A2 is transferred. As described above, the steps may be performed simultaneously. First, when the
[0046]
On the other hand, if there is no Japanese example data that is equal to or greater than the threshold value (1) in step S8 (step S8; N), that is, an example that is the same as or similar to the Japanese example including the translation target word in the input text. If there is no example data for Japanese, {S6 (N)} is transferred to the root of the translation device A2. In this case, the learning
[0047]
For reference, FIG. 8 shows a list of the results of the word selection devices A1 and A2 in the SENSEVAL2 contest. This result indicates the accuracy rate of English translation words output for each word (
[0048]
The present invention is not limited to the embodiment described above. For example, the translation device is configured by using the translation selection devices A1 and A2 alone or by providing a translation output unit that generates and outputs a target text corresponding to the input text based on the translation output by the translation output unit. It is also possible. In addition, the specific configuration of each part is not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention.
[0049]
【The invention's effect】
As described in detail above, according to the present invention, it is possible to select a high-precision translation without using a large amount of manpower and without overloading the computer, that is, without collecting a large amount of parallel translation example data. Machine translation can be performed. In particular, a method based on similarity between character strings and a method of applying learning data and a learning model are used separately or in combination with each other, and they complement each other. And highly accurate translation selection and machine translation are possible even for expressions of the above and conventional expressions with low appearance frequency.
[Brief description of the drawings]
FIG. 1 is a schematic functional configuration diagram of a translation selection device corresponding to a first aspect of the present invention.
FIG. 2 is a schematic functional configuration diagram of a translation selection device corresponding to a second aspect of the present invention.
FIG. 3 is a schematic functional configuration diagram of a translation word selection device corresponding to a third aspect of the present invention.
FIG. 4 is a schematic functional configuration diagram of a translation word selection device according to an embodiment of the present invention.
FIG. 5 is a view showing an example of Japanese-English parallel translation example data used in the embodiment.
FIG. 6 is a schematic flowchart showing an operation procedure of the embodiment.
FIG. 7 is a schematic flowchart showing an operation procedure of the embodiment;
FIG. 8 is a table showing translation selection results in a SENSEVAL2 contest to which the present invention is applied.
[Explanation of symbols]
A1, A2, A3 ... Translation selection device
C ... Bilingual example data storage
1, 11, 21, 31 ... input reception part
2, 32 ... Example extraction unit
3, 33 ... Similarity detection unit
4, 34 ... Similarity evaluation section
5, 14, 37 ... Translation output section
12, 35 ... Learning model generation unit
13, 36 ... Learning model application unit
311 ... Input text processing unit
321 ... Example language processing unit (Japanese example processing unit)
331 ... Similarity calculation unit
351 ... Learning model selection unit
Claims (19)
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
A translation output unit that outputs a translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit. Translation word selection device.
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
A translation output unit that selects a translation candidate with the highest certainty among translation candidates output by the learning model application unit and outputs it as a translation corresponding to the translation target word. Translation word selection device.
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と
を具備してなることを特徴とする訳語選択装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
The optimal one from the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit or the translation candidate candidate output by the learning model application unit And a translation output unit that selects and outputs a translation corresponding to the translation target word.
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の各翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
類似性評価部で出力した原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語を出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language A target text that is a translated sentence in the second language based on the input text input in the first language using the parallel translation example data storage unit that stores the parallel translation example data paired with the target language example composed of text Is output,
An input receiving unit for receiving input of the input text;
An example extracting unit for extracting at least one source language example data including words corresponding to each translation target word in the input text received by the input receiving unit from the parallel example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
A translation output unit for outputting a translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit;
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
前記入力テキストの入力を受け付ける入力受付部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
学習モデル適用部で出力した訳語候補のうち、最も高い確信度が得られた訳語候補を選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
A translation output unit that selects a translation candidate with the highest certainty among translation candidates output by the learning model application unit and outputs it as a translation corresponding to the translation target word; and
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
前記入力テキストの入力を受け付ける入力受付部と、
入力受付部で受け付けた入力テキスト中の前記翻訳対象語に該当する語を含む少なくとも一以上の原言語用例データを、前記対訳用例データ格納部から抽出する用例抽出部と、
前記入力テキスト及び前記用例抽出部で抽出した原言語用例データに基づき、入力テキストと原言語用例との類似性を検出する類似性検出部と、
類似性検出部で検出した原言語用例の類似性を比較評価し、最も高い類似性を有する少なくとも原言語用例データを出力する類似性評価部と、
対訳用例データ格納部に格納された原言語用例に含まれる語及び当該原言語用例に対応する対訳用例データに基づいて作成された学習データを利用して、入力受付部で受け付けた入力テキスト中の翻訳対象語に対応した学習モデルを生成する学習モデル生成部と、
学習モデル生成部で生成した学習モデルを入力テキスト中の翻訳対象語に適用し、当該翻訳対象語の訳語候補の全てについて確信度を演算し、確信度順に順序付けて訳語候補を出力する学習モデル適用部と、
類似性評価部で出力する原言語用例データに対応する対訳用例データに含まれる目的言語用例中の前記翻訳対象語に対応する訳語、又は、学習モデル適用部で出力する訳語候補から、最適なものを選択して翻訳対象語に対応する訳語として出力する訳語出力部と、
訳語出力部で出力した訳語及び当該訳語を含む対訳用例データに基づいて、入力テキストに対応する対象テキストを生成し出力する翻訳文出力部と
を具備してなることを特徴とする翻訳装置。Source language example data including a source language example composed of text in the first language, a word included in the example, a translation of the word in the second language, and information on the translation, and the source language example translated in the second language Corresponding to the translation target word, which is the word to be translated, included in the input text entered in the first language by using the parallel translation example data storage unit that stores the parallel translation example data paired with the text target language example Selecting a translation written in a second language,
An input receiving unit for receiving input of the input text;
An example extraction unit that extracts at least one source language example data including the word corresponding to the translation target word in the input text received by the input reception unit from the parallel translation example data storage unit;
A similarity detection unit for detecting similarity between the input text and the source language example based on the input text and the source language example data extracted by the example extraction unit;
A similarity evaluation unit that compares and evaluates the similarity of the source language examples detected by the similarity detection unit, and outputs at least source language example data having the highest similarity;
Using the learning data created based on the words included in the source language example stored in the parallel translation example data storage unit and the parallel translation example data corresponding to the source language example, in the input text received by the input receiving unit A learning model generation unit that generates a learning model corresponding to the translation target word;
Applying the learning model generated by the learning model generator to the translation target word in the input text, calculating the certainty factor for all the translation word candidates of the translation target word, and ordering the order of the certainty factor to output the translation word candidate And
The optimal one from the translation corresponding to the translation target word in the target language example included in the parallel translation example data corresponding to the source language example data output by the similarity evaluation unit or the translation candidate candidate output by the learning model application unit A translation output unit that selects and outputs as a translation corresponding to the translation target word,
A translation apparatus comprising: a translation output unit configured to generate and output a target text corresponding to an input text based on a translation output by a translation output unit and parallel translation example data including the translation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113422A JP3752535B2 (en) | 2002-04-16 | 2002-04-16 | Translation selection device and translation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113422A JP3752535B2 (en) | 2002-04-16 | 2002-04-16 | Translation selection device and translation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003308319A JP2003308319A (en) | 2003-10-31 |
JP3752535B2 true JP3752535B2 (en) | 2006-03-08 |
Family
ID=29395613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002113422A Expired - Lifetime JP3752535B2 (en) | 2002-04-16 | 2002-04-16 | Translation selection device and translation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3752535B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5204203B2 (en) * | 2010-11-24 | 2013-06-05 | 株式会社東芝 | Example translation system, example translation method, and example translation program |
CN109508463B (en) * | 2018-11-21 | 2023-06-20 | 传神语联网网络科技股份有限公司 | Method, system and readable storage medium for refining translation engineering |
JP7238910B2 (en) * | 2019-02-08 | 2023-03-14 | 日本電気株式会社 | Biological information processing device, method, and program |
CN114912437B (en) * | 2022-04-29 | 2024-07-19 | 上海交通大学 | Bullet screen pigment character detection and extraction method, bullet screen pigment character detection and extraction system, bullet screen pigment character detection terminal and bullet screen pigment character detection and extraction medium |
-
2002
- 2002-04-16 JP JP2002113422A patent/JP3752535B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2003308319A (en) | 2003-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812296B2 (en) | Method and system for natural language dictionary generation | |
JPS6299865A (en) | Maintenance system for co-occurrence relation dictionary of natural language | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
JP2011118526A (en) | Device for extraction of word semantic relation | |
JP2002215619A (en) | Translation sentence extracting method from translated document | |
El-Shishtawy et al. | An accurate arabic root-based lemmatizer for information retrieval purposes | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
Tamura et al. | Classification of multiple-sentence questions | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
JP3198932B2 (en) | Document search device | |
CN107861937B (en) | Method and apparatus for updating translation corpus, and recording medium | |
JP3752535B2 (en) | Translation selection device and translation device | |
Ahmed et al. | Gold dataset for the evaluation of bangla stemmer | |
JPH0855123A (en) | Machine translation system with idiom registering function | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
Das et al. | Design and implementation of a spell checker for Assamese | |
JP2006190072A (en) | Automatic paraphrasing apparatus, automatic paraphrasing method and paraphrasing process program | |
El-Taher et al. | An Arabic CCG approach for determining constituent types from Arabic Treebank | |
JP2003330926A (en) | Translation method, device, and program | |
Naeem et al. | Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning | |
Delpech et al. | Identification of fertile translations in medical comparable corpora: a morpho-compositional approach | |
Bar et al. | Arabic multiword expressions | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
JP2004280316A (en) | Field determination device and language processor | |
JP2002278963A (en) | Example translation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051019 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3752535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |