JP3921543B2 - 機械翻訳装置 - Google Patents
機械翻訳装置 Download PDFInfo
- Publication number
- JP3921543B2 JP3921543B2 JP2004023914A JP2004023914A JP3921543B2 JP 3921543 B2 JP3921543 B2 JP 3921543B2 JP 2004023914 A JP2004023914 A JP 2004023914A JP 2004023914 A JP2004023914 A JP 2004023914A JP 3921543 B2 JP3921543 B2 JP 3921543B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- text
- word
- language
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013519 translation Methods 0.000 title claims description 221
- 238000000605 extraction Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims 1
- 230000014616 translation Effects 0.000 description 188
- 238000000034 method Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
この意味構造は木構造や意味ネットワークで表現できる。そして、生成された意味ネットワークを解析し、適切な訳語を選択して目的とする訳文を生成する処理を行っているものがある。
ここで示される統計的機械翻訳では、原言語で書かれたテキストをS、目的言語で書かれたテキストをTとして、Sが与えられたときにTを生成する確率Pが最大になるようなテキストを最適な翻訳として出力する。
この時用いられるモデルとしては、単語や句を原言語から目的言語に置き換えるための翻訳モデルと、置き換えた単語や句を目的言語側で尤もらしい順序に並べ替えるための言語モデルがある。
しかし、この前提のためには大規模な対訳コーパスが必要であり、日本語などの比較的コーパスが整備された言語が原言語であっても、対象言語との対訳コーパスの状況、対象言語におけるコーパスの状況によっては、上記従来の手法では十分な翻訳精度の向上が望めない問題があった。
すなわち、所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置である。
そして、請求項1に記載の機械翻訳装置は、(1)翻訳元テキストを受理する受理手段、(2)該翻訳元テキストを形態素解析してその結果得られた各形態素を順に着目タームとし、翻訳元言語で記述された複数の文書を含む翻訳元言語文書データベースを用いて、該文書データベースの中から該着目タームが含まれる文書と、該文書データベースに含まれる全文書とのそれぞれにおける着目タームの分布間の距離を算出し、該距離が所定の閾値以上の着目タームを特徴的な意味を有する特徴語として抽出する特徴語抽出手段、(3)該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、(4)該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と、該文又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、(5)生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、(6)各翻訳先テキスト候補の評価値を算出する評価手段、(7)該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段を備えたことを特徴とする。
すなわち請求項1ないし3に記載の機械翻訳装置によれば、新しい機械翻訳手法を導入することで、翻訳元言語と翻訳先言語に十分なコーパス(特に対訳コーパス)が整っていない場合でも、高精度な機械翻訳装置を提供することができる。
また、入力するテキストから特徴語を抽出するため、文法的に不正確なテキストを入力しても、自然で理解のしやすい翻訳を実現することができる。
また、本実施例で示した日本語・英語間のようなコーパス環境の整った言語間はもとより、地域性の強い言語や、発展途上国の固有言語など、コーパスが未整備な言語に翻訳する際にも、実際的な機械翻訳結果を生成することができる。
図1には本発明による第1実施例の機械翻訳方法のフローチャートを示す。図のように、翻訳元言語である日本語のテキスト(1)を入力受理し、該テキスト(1)中の特徴的単語を抽出(2)する。抽出された特徴的単語は特徴的単語データ(6)として記録する。なお、本発明はいかなる言語をも対象とするので、本発明は単語として分類できるものに限らず、単語、語句など広く含む特徴語を抽出し、後段の処理を行ってもよい。
さらに、特徴的単語訳語データ(8)を用い、翻訳先言語のテキストを生成(4)する。このように特徴的単語訳語から、自然な英語テキスト(5)を生成することで機械翻訳を行うプロセスは、従来創出されていない、本発明の最大の特徴である。
そして、翻訳元言語と翻訳先言語の辞書データ(18)を用いて特徴的単語の最適な訳語を選択(13)する。これにより、翻訳先言語の特徴的単語が生成され特徴的単語訳語及び前述の依存関係のデータ(19)を記録する
さらに、該データ(19)を用い、翻訳先言語のテキストを生成(14)する。このように特徴的単語訳語から、自然な英語テキスト(15)を生成する。
さらに、翻訳先テキスト候補を評価して最も適当と判断される英文テキスト(5)を出力する。
その上で、翻訳先テキスト候補を評価する際に、上記単語間依存関係との同一性を調べ、その値が高い英語テキストを出力する。
選択された特徴的単語訳語を、テキスト生成部(70)において適切な単語間の補完を行いながらテキスト生成(35)し、出力部(80)から英語テキスト(32)を出力する。
次に各部(40)ないし(80)の詳細を説述する。
スキャナ(42)を備える場合にはCPU(41)において文字認識処理を行い、テキストデータに変換して外部記憶装置(43)に記録する。外部記憶装置(43)から直接日本語テキスト(31)のデータを読み出す場合にも、CPU(41)において本装置(30)で処理可能な形式にデータ変換を行うこともできる。
入力受理部(40)により日本語テキスト(31)は図5に示される特徴的単語抽出部(50)に送られる。
このような技術は、言語処理において文書を要約する技術や、文書検索などの要素技術として公知の多数の手法が知られており、それらを適宜用いることができるが、ここでは一例として非特許文献2に記載の方法を用いる。
まず、本特徴的単語抽出部(50)では、公知の形態素解析技術を用いて、日本語テキスト(31)を形態素解析部(51)において形態素解析する。解析された形態素はメモリ又は図示しない外部記憶装置などに形態素テーブルとして記録する。
まず文書抽出部(52)において、着目タームWについて、Wを含む文書すべてを任意の文書データベース(56)から抽出する。文書データベース(56)は複数の日本語(翻訳元言語)の文書が含まれたものであり、外部記憶装置などに記憶されている。日本語単言語のコーパスや日英の対訳コーパスの日本語部分を用いてもよい。
具体的には異なり度合算出部(54)において次のような計算処理を行う。
単語分布間の距離計測方法として、本実施例では対数尤度比を用いている。すなわち、全単語を{W1,…,Wn}、単語wiがD(W)、D0に出現する頻度をそれぞれki、Kiとするとき、PD(W)、P0の距離Dist{PD(W),P0}を、次のように定義する。
Rep(W)=Dist{PD(W),P0}/B(#D(W))
すなわち、該テーブル(33)に含まれる特徴的単語が、対訳辞書データベース(63)において一義的に訳語が選択可能な場合には、該訳語を特徴的単語訳語テーブル(34)に出力する。
例えば、特徴的単語として「母」「遠慮」が含まれるとき、対訳コーパスデータベース(63)に含まれる「母に遠慮」「母への遠慮」「献金を遠慮」などとの類似度を求める。
類似度=(特徴的単語テーブルと対訳コーパスとのdiffをとったときに一致した文字数)/(対訳コーパスの文字数)
これにより、比較の対象として不適切な文字を多く含む対訳コーパスとの比較を避け、効果的な類似度の算出が可能となる。
そして、該対訳コーパス中の訳語を特徴的単語訳語テーブル(34)に記録する。対訳コーパス(63)を用いるので、各単語の対訳関係はあらかじめ分かっており、特徴的単語と訳語の関係は機械的に決定できる。
そこでさらに、機械学習モデルを用いた類似性判定部(62)を備え、学習したデータ(64)を用いながら最適な訳語の選択を行う。
(1)形態素情報
(2)文字n-gram
(3)最大一致となる用例に関する情報
(4)内容語とのその訳語候補の出現頻度
SVMによって、対訳コーパスを用いて機械学習を行い、学習データ(64)として記録する。
このような訳語選択モデルには公知の手法を任意に用いることが可能であり、上記のような機械学習モデルによるものでなくともよい。
これを自動化する方法としては、非特許文献6に開示されるように、単に翻訳元言語の発音に従って、一定のルールにより翻訳先言語の文字に置き換える(音訳する)こともできるし、提案されているモデルを用いることもできる。ここで提案されているのは、人名や組織名などで、まず音訳を行ったり、適当な訳語で翻訳して訳語候補を作成し、その候補の中から所定のテキストデータベースに出現する頻度の高いものを訳語として選択するものである。テキストデータベースとしては、例えばインターネットのWeb情報などを利用することができる。
いくつかの単語を入力し、その単語を含むテキストを生成する方法としては次のような手法がある。すなわち、本件出願人が特許文献2で開示するテキスト生成方法を、翻訳先言語である英語に適用して用いる。
このとき、特徴的単語訳語(34)は単語列の主辞となる内容語であると定義する。また、内容語は、その語の品詞が、動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞、未定義語である形態素の見出し語であるとし、それ以外の形態素の見出し語を機能語とする。
k → hk m*
hk は特徴的単語訳語を含む主辞形態素、m*は同じ単語列内でhkに連続する任意個の形態素とする。特徴的単語訳語が与えられると、この形式を満たす規則を翻訳先言語のコーパス(75)から自動獲得する。
例えば、「palace」では自然なテキストを構成する単語列とはなりにくいが、「at the palace」あるいは「inthe palace」のように「palace」という単語と極めて密接な関連性を有する語句を付加し、後段の処理によるテキスト生成に備える。
すなわち、図12のように、各単語列候補(34aないし34f)の間に係り受けの関係を仮定して、テキスト候補1(35')、テキスト候補2(35'')のような単語列を単位とした依存構造木の形でテキスト候補を生成する。このとき、3語の場合に全ての係り受け関係はR!×2=12通りであるが、翻訳先言語の文法・特性に合わせて語順の固定などにより候補の数を削減することができる。
以下、特徴的単語訳語生成モデル(77)と、言語モデル(78)として形態素モデル及び係り受けモデルについて説述する。
係り単語列を最大二単語列考慮(係り二単語列)
ki を含む単語列に係る単語列がある場合、ki は、そのうち最も文末側の単語列の末尾から二単語wl 、wl-1 と、最も文頭側の単語列の末尾から二単語wh 、wh-1のみに依存すると仮定する(図13参照) 。
テキストT が与えられたとき、順序付き形態素集合M が得られる確率は、各形態素mi(1≦i≦n) が独立であると仮定し、
と表す。ここで、mi は1 からl までのいずれかの文法的属性を表わす。
と表わす。
そして、評価値が最大あるいは閾値を超えるテキスト候補、あるいは評価値の上位N個を表層文に変換して出力する。
そして、単語を新たな特徴的単語訳語として加え、もともと入力された特徴的単語訳語(34)と合わせて単語列候補生成部(72)における処理を行う。
これによって、特徴的単語訳語にテキストの意味を決定する重要な単語が、翻訳元言語の表現特性などにより欠落していたとしても、有意な翻訳先言語のテキストが出力できるようになる。
抽出された特徴的単語間の依存関係は単語間依存関係テーブル(36)として外部記憶装置やメモリなどに記録する。
具体的には、依存関係変換部(65)を設け、対訳辞書データベース(63)で一義的に決定できる単語、例えば部隊とtroopsのように対訳関係が明確な単語はそのまま依存関係テーブルの語を置き換える。一方、機械学習モデルを用いて訳語を選択したもの、例えば展開とengageなどのように多義性が生じるものは機械学習モデルによる類似性判定部(62)の判定結果を用いて単語訳語間依存関係テーブル(37)に記録する。
ここで、固有名詞も特徴的単語とすると、図15でドゥダエフが抽出され、図18のように「Dudayev」(98)も追加することができる。
もちろん、単語訳語間依存関係テーブル(37)に依存関係の情報がない訳語間についてはテキスト候補生成部(73)において係り受け関係の仮定を行うこともできる。
ここで、評価部(74)は上述の言語モデル(78)により、各単語列に対する係り受けの順序に係る確率を用いるが、単語訳語間で単語訳語間依存関係テーブル(37)に記録された係り受け関係については、確率値を最大に設定し、当該テキスト候補の評価に用いる。
また、これらは外部記憶装置上に記録される場合にとどまらず、ネットワーク上の複数のサーバーに記録されたものを収集するように構成してもよい。
31 日本語テキスト
32 英語テキスト
33 特徴的単語
34 特徴的単語訳語
35 生成テキスト
40 入力受理部
50 特徴的単語抽出部
60 訳語選択部
70 テキスト生成部
80 出力部
Claims (3)
- 所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素を順に着目タームとし、翻訳元言語で記述された複数の文書を含む翻訳元言語文書データベースを用いて、該文書データベースの中から該着目タームが含まれる文書と、該文書データベースに含まれる全文書とのそれぞれにおける着目タームの分布間の距離を算出し、該距離が所定の閾値以上の着目タームを特徴的な意味を有する特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と、文又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。 - 所定の翻訳元言語で記述される翻訳元テキストを翻訳先言語で記述される翻訳先テキストに機械翻訳する機械翻訳装置であって、
翻訳元テキストを受理する受理手段、
該翻訳元テキストを形態素解析してその結果得られた各形態素から、単語列の主辞となる形態素のうち、品詞が動詞、形容詞、名詞、指示詞、副詞、接続詞、連体詞、感動詞のいずれかである語を特徴語として抽出する特徴語抽出手段、
該特徴語を、翻訳先言語で表現される訳語に翻訳する訳語選択手段、
該訳語を含む文又は語句の少なくともいずれかを、翻訳先言語で記述された複数の文章を含む翻訳先言語データベースから抽出し、当該訳語と、該文又は語句の少なくともいずれかとの関係を自動獲得した生成規則に基づいて文字単位候補を生成する文字単位候補生成手段、
生成された全ての文字単位候補間で依存関係が成立しうる文字単位候補対を全ての文字単位候補について抽出することを繰り返し、異なる依存関係で構成された翻訳先テキスト候補を生成する翻訳先テキスト候補生成手段、
各翻訳先テキスト候補の評価値を算出する評価手段、
該評価値に関連して、少なくとも翻訳先テキスト候補のうち1つを出力する出力手段
を備えたことを特徴とする機械翻訳装置。 - 前記機械翻訳装置において、
前記特徴語抽出手段で抽出された特徴語のうち、該特徴語間の依存関係情報を抽出する依存関係抽出手段を備え、
該依存関係情報を有する特徴語から生成された文字単位候補については、前記翻訳先テキスト候補生成手段において、該依存関係情報を用いて翻訳先テキスト候補を生成する
ことを特徴とする請求項1又は2に記載の機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004023914A JP3921543B2 (ja) | 2004-01-30 | 2004-01-30 | 機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004023914A JP3921543B2 (ja) | 2004-01-30 | 2004-01-30 | 機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005216127A JP2005216127A (ja) | 2005-08-11 |
JP3921543B2 true JP3921543B2 (ja) | 2007-05-30 |
Family
ID=34906775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004023914A Expired - Lifetime JP3921543B2 (ja) | 2004-01-30 | 2004-01-30 | 機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3921543B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103189859B (zh) | 2010-08-26 | 2016-08-17 | 谷歌公司 | 输入文本字符串的转换 |
JP2016173617A (ja) * | 2015-03-16 | 2016-09-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2004
- 2004-01-30 JP JP2004023914A patent/JP3921543B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005216127A (ja) | 2005-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906356B2 (ja) | 構文解析方法及び装置 | |
JP3790825B2 (ja) | 他言語のテキスト生成装置 | |
US8131536B2 (en) | Extraction-empowered machine translation | |
Tiedemann | Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing | |
WO2016127677A1 (zh) | 地址结构化方法及装置 | |
US20130103390A1 (en) | Method and apparatus for paraphrase acquisition | |
King | Practical Natural Language Processing for Low-Resource Languages. | |
US20160124943A1 (en) | Foreign language sentence creation support apparatus, method, and program | |
Zeroual et al. | Adapting a decision tree based tagger for Arabic | |
Abdurakhmonova et al. | Uzbek electronic corpus as a tool for linguistic analysis | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
Das et al. | A survey of the model transfer approaches to cross-lingual dependency parsing | |
Lyons | A review of Thai–English machine translation | |
Kuo et al. | A phonetic similarity model for automatic extraction of transliteration pairs | |
Saloot et al. | Toward tweets normalization using maximum entropy | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Amri et al. | Amazigh POS tagging using TreeTagger: a language independant model | |
JP3921543B2 (ja) | 機械翻訳装置 | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
Strankale et al. | Automatic Word Sense Mapping from Princeton WordNet to Latvian WordNet. | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Khenglawt | Machine translation and its approaches | |
Shquier et al. | Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT | |
Salloum et al. | Unsupervised Arabic dialect segmentation for machine translation | |
Jabin et al. | An online English-Khmer hybrid machine translation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3921543 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |