JP2009157888A - 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム - Google Patents

音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム Download PDF

Info

Publication number
JP2009157888A
JP2009157888A JP2007338880A JP2007338880A JP2009157888A JP 2009157888 A JP2009157888 A JP 2009157888A JP 2007338880 A JP2007338880 A JP 2007338880A JP 2007338880 A JP2007338880 A JP 2007338880A JP 2009157888 A JP2009157888 A JP 2009157888A
Authority
JP
Japan
Prior art keywords
transliteration
language
word
model
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007338880A
Other languages
English (en)
Inventor
Finch Andrew
フィンチ・アンドリュー
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007338880A priority Critical patent/JP2009157888A/ja
Publication of JP2009157888A publication Critical patent/JP2009157888A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】言語の実情に即した音訳モデルを生成し、その音訳モデルを利用して言語間の音訳を信頼性高く行なうことが可能な音訳装置を提供する。
【解決手段】音訳装置20は、第1及び第2の言語の単語の音訳対を記憶する音訳対記憶装置30と、それら音訳対の各々について、第1の言語と第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた音訳対の各々の第1の言語の文字及び第2の言語の文字を互いの訳語とみなして翻訳モデル48を作成し、音訳モデルとして出力する翻訳モデル作成部44と、第2の言語の文字を単位とするNグラム言語モデル50を作成言語モデル昨西部46と、第1の言語の入力単語52が与えられると、翻訳モデル48をと言語モデル50とを用いた統計的自動翻訳により入力単語52を第2の言語の単語56に音訳して出力する自動翻訳装置54とを含む。
【選択図】図1

Description

この発明は、異なる言語の間の音訳を行なう装置に関し、特に、自動翻訳装置を用いて固有名詞等を言語間で音訳する音訳装置、及びそのための音訳モデルを作成する音訳モデル作成装置に関する。
辞書は、ある言語の一部しかカバーできない。そのため、翻訳の際に辞書にない単語が出現することがあり、そうした場合には翻訳できない。これは、人間が翻訳を行なうときに限らず、統計的自動翻訳装置により翻訳を行なう場合にも生ずる。すなわち、統計的自動翻訳装置でも、翻訳又は統計的モデルの学習に用いる辞書又はコーパスに出現しない単語は翻訳できない。
特にそうしたことが問題になるのは、人名、地名、及び会社名などの固有名詞、ならびに技術用語である。従来、自動翻訳装置では、辞書、翻訳モデル、又は言語モデルに出現しない単語又は単語列があった場合、それらの翻訳を行なわず、原語で出力することが主に行なわれていた。そして最終的にそれら翻訳元言語の単語の発音と同じような音声の単語を翻訳先言語で作成し、原語の綴りと入れ替えている。このようにして作成された、翻訳元言語の単語の発音と似た発音の翻訳先言語の単語を元の単語の音訳と呼ぶ。
音訳すべき単語は多数になるため、作業を人間に頼るわけにはいかない。
一方、統計的自動翻訳は、その原理から、予め二言語コーパスが準備されていれば、任意の言語の間での翻訳が可能であるという特質がある。そうした統計的自動翻訳では、上記した固有名詞のような単語が二言語コーパスに出現しない場合には、その単語の翻訳を行なうことができないという問題がある。そのため、統計的自動翻訳においても、コーパスに出現しない単語に遭遇した場合には、その単語をそのまま出力したり、全く無視したりすることになる。
こうした問題を解決するための1つの手段が、後掲の特許文献1に開示されている。特許文献1に開示の音訳システムは英語と日本語との間の音訳システムであり、予め英文字又は文字列と、その日本語での読みとの対応規則を複数個格納した英文字カタカナ読みテーブルと、英単語又は英単語列と、対応する日本語の読みとが組になった単語単位の対応データとを準備しておく。単語単位の対応データは多数用意しておくことが望ましい。
このようにして用意した単語単位の対応データの各々について、両言語の単語を構成する文字又は文字列の対応付けを行なう。この対応付けは、英文字カタカナ読みテーブルを参照したダイナミックプログラミングを使用して行なわれる。
すなわち、英文字カタカナ読みテーブルに存在するような文字又は文字列同士の組合せについてはその間の距離を0とし、英文字カタカナ読みテーブルに存在しない文字又は文字列同士の組合せについてはその間の距離を1として、両単語の先頭からダイナミックプログラミングで合計距離が最小となるような文字又は文字列間の対応付けを行なう。なお、特許文献1では、英文字カタカナ読みテーブルは、文字数にして1:1〜4:4までの組合せを使用している。
このような対応付けを全ての対応データについて行なうことにより、文字又は文字列単位での対応付けが多数得られる。それらについて、翻訳元言語の文字又は文字列と翻訳先言語の文字又は文字列との対応付けの出現回数を計数することにより、対応付けのユニグラム頻度テーブル及びバイグラム頻度テーブルが得られる。
ユニグラム頻度テーブルとは、ある対応付けが出現する頻度をテーブル化したものであり、バイグラム頻度テーブルとは、ある2つの対応付けが連続して出現する頻度をテーブル化したものである。
このようにしてユニグラム頻度テーブルとバイグラム頻度テーブルとが作成されれば、ある英語文字列が与えられると、その英語文字列に対する同時出現確率が最大となるような日本語文字列を求めることにより、その英語文字列に対応する日本語の読みを算出することができる。
特開2001-142877
上記特許文献1に記載の技術によれば、対応付けデータが多数あれば、以後は統計的に処理を行なうことができる。しかし、対応付けデータを構成する英語文字列と日本語文字列との対応付けに、英文字カタカナ読みテーブルが必要とされる。英文字カタカナ読みテーブルは、対応付けの合理性が必要であるにもかかわらず、結局は操作者が任意に作成した対応付け規則であって、その信頼性に問題がある。さらに、操作者がこの対応付け規則を多数作成しなければ、対応付けデータの文字列間の対応付けが信頼性を持って行なえないという問題がある。
また、上記したように、任意の言語の間での翻訳が可能な統計的自動翻訳装置が利用可能であるにもかかわらず、特許文献1に記載の技術は日本語と英語だけに適用可能なものである。他の言語の組合せの音訳に特許文献1の技術を適用しようとすれば、その言語の組合せに対する、英文字カタカナ読みテーブルに対応するものを作成する必要がある。そうしてテーブルを作成するためには、翻訳対象となる言語の組合せの双方について、少なくとも十分に文字と発音との関係を理解しておく必要がある。そのような理解が可能な人は限られている。したがって、統計的自動翻訳装置を多言語の間の翻訳に適用する上において、特許文献1に開示の音訳技術を利用するためには、目的となる言語の組合せの発音と文字との間の関係に精通した人が必要で、しかもその人が多くの労力を投入して英文字カタカナ読みテーブルに対応する対応規則を作成する必要があるという問題がある。
また、特許文献1の開示では、英文字と日本語のカタカナとの間にはほぼ一定の関係があるということが前提となっているように思われる。しかし、後述するように、英文字と日本語との対応関係をそれほど単純ではない。例えば「TV」「Television」はいずれも「テレビ」と訳すべきだが、単純な英語の文字と日本語のカタカナとの対応関係を逸脱している。そのような場合には、特許文献1に記載の技術を適用することはできない。同様の例はまだ多数ある。例えば「Personal Computer」は「パーソナル コンピュータ」と訳してもよいが、むしろ「パソコン」と訳す方が正解に近い場合もある。また、「Great Britain」は「イギリス」と訳すのがわかりやすいが、この場合には元の英語の文字列と日本語のカタカナ列との間にはもはや関係は見出せない。こうした問題に対処し、単純な文字列同士の対応関係だけではなく、言語の実情に即した音訳を行なう機能を持った装置が必要とされている。
さらに、特許文献1に記載の音訳システムは音訳専用のものであり、ユニグラム頻度テーブル及びバイグラム頻度テーブルなどについては、文字列間の対応関係に関する生起頻度であって、その取扱いは通常のユニグラム頻度及びバイグラム頻度の場合と異なり、特殊である。その結果、上記した音訳システムを作成しようとすると、それなりのコストがかかるという問題もある。
したがって、本発明の目的の1つは、多数の規則を予め定めたりする必要なく、言語の実情に即した音訳モデルを生成可能な音訳モデル作成装置、及びその音訳モデルを利用して、言語間の音訳を信頼性高く行なうことが可能な音訳装置を提供することである。
本発明の第1の局面に係る音訳モデル生成装置は、第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、音訳対コーパス記憶手段に記憶された音訳対の各々について、第1の言語と第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた複数個の音訳対の各々の第1の言語の文字又は文字列、及び第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成し、第1の言語から第2の言語への音訳モデルとして出力するための音訳モデル作成手段とを含む。
音訳対コーパス記憶手段は、第1及び第2の言語の単語又は単語列の音訳対を複数個記憶する。音訳モデル作成手段は、この複数個の音訳対の第1の言語の単語又は単語列を構成する文字又は文字列と、第2の言語の単語又は単語列を構成する文字又は文字列とを互いに対応付ける。この対応付けは、ちょうど通常の単語単位又は句単位の翻訳モデルにおける単語又は句単位での対応付けに相当する。このようにして音訳対を構成する第1及び第2の言語の文字又は文字列の間の対応付けができると、これをトレーニングデータとして翻訳モデルを作成することができる。この翻訳モデルは、文字又は文字列単位での第1の言語から第2の言語への音訳のための音訳モデルとして使用することができる。
音訳対を構成する第1及び第2の言語の文字又は文字列を単語とみなすことで、既存の翻訳モデル作成の手法をそのまま使用して音訳モデルを作成することができる。この音訳モデルは、人為的な音声の対応付けのルールによるものではなく、音訳対のコーパスから作成されるものであるため、統計的な裏付けを持ち、言語の実情に即したものとなる。その結果、人為的な規則を定めることなく、言語の実情に即した音訳モデルを生成可能な音訳モデル作成装置を提供できる。翻訳モデル作成の技術をそのまま適用できるため、音訳モデル作成のためのコストも低減できる。
本発明の第2の局面に係る音訳装置は、上記した音訳モデル作成装置と、第2の言語の文字を単位とするNグラム言語モデルを作成し、記憶するための言語モデル作成装置と、第1の言語の入力単語が与えられると、音訳モデル作成装置により作成された音訳モデルを翻訳モデルとして用い、さらに言語モデル作成装置により作成された言語モデルを用いた統計的自動翻訳を行なうことにより、入力単語を第2の言語の単語に音訳して出力するための自動翻訳手段とを含む。
上記した音訳モデル作成装置により作成された音訳モデルと、第2の言語の文字を単位とするNグラム言語モデルとを使用することにより、既存の統計的自動翻訳装置を用い、第1の言語の入力単語を第2の言語の文字列に音訳することができる。音訳モデルは、人為的な音声の対応付けのルールによるものではなく、音訳対のコーパスから作成されるものであるため、統計的な裏づけを持ち、言語の実情に即した、信頼性が高いものとなる。音声間の対応関係の規則を予め定める必要もない。また、この音訳モデルと第2の言語の文字単位の言語モデルとを使用することにより、第1の言語の入力単語を、既存の統計的自動翻訳装置を使用して第2の言語の文字列に音訳できる。その結果、人為的な規則を定めることなく、言語の実情に即して信頼性の高い音訳を行なうことができる音訳装置を提供できる。翻訳モデル作成及び統計的自動翻訳の技術をそのまま適用できるため、音訳のためのコストも低減できる。
好ましくは、自動翻訳手段は、入力単語が与えられると、音訳対コーパス記憶手段に記憶された音訳対の内、入力単語に最も類似した第1の言語の単語又は単語列を持つ音訳対を検索するための手段と、検索するための手段により検索された音訳対に基づいて最尤の翻訳候補を作成し、入力単語に対する第2の言語の音訳として出力する用例型自動翻訳装置を含む。
用例型の自動翻訳であるため、例えば音訳対に通常の音声の対応とは異なる対応付けをしたものが存在しており、かつ入力された単語がその音訳対の第1の言語の単語又は単語列に類似している場合、その音訳対を構成する第2の言語の単語又は単語列が最初の翻訳候補として用例型自動翻訳装置に選択され、そこから統計的自動翻訳が開始される。そのため、例えば「Great Britain」と「イギリス」のように、音声としては通常は対応付けられないような音訳対に基づいた音訳が可能になる。
本発明の第3の局面に係る音訳モデル生成プログラムは、コンピュータにより実行されると、当該コンピュータを、第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、音訳対コーパス記憶手段に記憶された音訳対の各々について、第1の言語と第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた複数個の音訳対の各々の第1の言語の文字又は文字列、及び第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成することにより、音訳モデルを作成するための音訳モデル作成手段として機能させる。
本発明の第4の局面に係る自動翻訳プログラムは、コンピュータにより実行されると、当該コンピュータを、第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、音訳対コーパス記憶手段に記憶された音訳対の各々について、第1の言語と第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた複数個の音訳対の各々の第1の言語の文字又は文字列、及び第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成し、第1の言語から第2の言語への音訳モデルとして出力するための音訳モデル作成手段と、第2の言語の文字を単位とするNグラム言語モデルを作成し、記憶するための言語モデル作成手段と、第1の言語の入力単語が与えられると、音訳モデル作成手段により作成された音訳モデルを翻訳モデルとして用い、さらに言語モデル作成手段により作成された言語モデルを用いた統計的自動翻訳を行なうことにより、入力単語を第2の言語の単語に音訳して出力する自動翻訳手段として機能させる。
[構成]
以下、本発明の一実施の形態に係る音訳システムと、その音訳装置のための音訳モデルを作成するための音訳モデル作成装置とについて、その構成及び動作を説明する。以下の説明及び図面において、同一の部品には同一の参照符号が付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
本実施の形態に係る音訳システムは、特許文献1に記載のような音訳のための特殊なシステムではなく、既に実用化されている統計的自動翻訳装置を音訳に用いる点に1つの特徴がある。なお、以下の実施の形態では、統計的自動翻訳装置に用例型自動翻訳装置を併用している。これは、本実施の形態でも、音訳のためのモデル作成に、互いに対応する英語文字列及び日本語のカタカナ文字列からなるペアが複数個必要であり、これらを用例翻訳の用例として利用することにより、音訳精度が向上するためである。
さらに、以下に述べる実施の形態に係る音訳システムは、英語から日本語への音訳を行なうシステムであるが、後の説明から明らかなように、この音訳システムが利用可能な言語の組合せ及び翻訳の方向はこれには限定されない。また、以下の実施の形態では、日本語の文字列としてはカタカナのみを扱うこととする。これは、日本語では外来語を表音文字であるカタカナで音訳することが一般的だからである。
図1は、この実施の形態に係る音訳システム20の機能的構成を示すブロック図である。図1を参照して、この音訳システム20は、入力英単語(又は英単語列)52を受けるとその音訳である出力カタカナ語56を出力する統計的自動翻訳装置54と、統計的自動翻訳装置54がその自動翻訳において利用する、音訳のために必要となる統計的モデルを記憶する記憶装置22と、記憶装置22に記憶される統計的モデルを作成するために予め準備された、英単語の文字列とその文字列に対応する日本語の読みをカタカナで表したカタカナ語との組(以下「音訳対」と呼ぶ。)を多数記憶した音訳対記憶装置30と、音訳対記憶装置30に記憶された音訳対を使用して、統計的処理によって、統計的自動翻訳装置54が音訳に使用する統計的モデルを作成するためのモデル作成部24とを含む。
記憶装置22が記憶する統計的モデルは、統計的自動翻訳装置54が翻訳に使用する翻訳モデル48と、同じく翻訳に使用する言語モデル50とを含む。後の説明から明らかなように、これら翻訳モデル48と言語モデル50とは、統計的自動翻訳装置54による統計的翻訳では通常の翻訳モデル及び言語モデルとして使用されるが、その実体は以下のようなものである。すなわち、翻訳モデル48は、カタカナと英文字との間に対応関係が成立する統計的確率を算出することにより、カタカナと英文字との間の音訳関係をモデル化したものである。したがって、この翻訳モデル48は、音訳モデルと考えることができる。言語モデル50は、通常の単語単位の言語モデルと異なり、文字列単位でのNグラム言語モデルである。この言語モデルは、音訳の対象となっている言語の組合せと、音訳の方向とにより定まる言語についてのものである。この実施の形態では、英語から日本語への音訳を前提としている。したがって言語モデル50は、カタカナ文字を1つの単位として、音訳対記憶装置30に記憶された音訳対の集合の中で、あるN個の文字列が連続して現れる確率を算出することにより、カタカナ列の生起確率をモデル化したものである。
モデル作成部24は、音訳対記憶装置30に記憶されている音訳対のうち、日本語のカタカナ語を読出し、その各々を文字単位に分割し(以下このように分割する処理を「セグメント化」と呼ぶ。)カタカナ語ごとに、互いに分割されたカタカナ列として出力するための日本語セグメント化モジュール32と、日本語セグメント化モジュール32により出力されたカタカナ列をカタカナ語ごとに区別して記憶するためのカタカナ列記憶部36とを含む。日本語セグメント化モジュール32で行なう分割は、実際には、通常は単語の境界を示すものとして使用されるトークンを、文字と文字との間に挿入していく処理である。
カタカナ列記憶部36が記憶する音訳対は、例えば専門語辞書、インターネット上の多言語辞書などから収集することができる。互いに対訳関係にある2つの文書があれば、それらの間の単語の対応付けにより、自動的に音訳対を収集することも可能である。
モデル作成部24はさらに、音訳対記憶装置30に記憶された音訳対の英語の単語又は単語列を読出し、日本語カタカナ列と同様に、各々ASCII(American Standard Code for Information Interchange)文字を文字ごとに分割し、ASCII文字列として英語単語ごとに出力するための英語セグメント化モジュール34と、英語セグメント化モジュール34により出力されたASCII文字列を英単語ごとに区別して記憶するための英文字列記憶部38とを含む。英語セグメント化モジュール34で行なう分割も、日本語セグメント化モジュール32での処理と同様、通常は単語の境界を示すものとして使用されるトークンを、文字と文字との間に挿入していく処理である。
モデル作成部24はさらに、カタカナ列記憶部36に記憶されたカタカナ文字列と、そのカタカナ文字列に対応する英単語から作成され英文字列記憶部38に記憶された英文字列との間で、カタカナと英文字との対応関係を推定する処理(この処理を以下「アライメント」と呼ぶ。)を実行しながら、カタカナと英文字とが対応付けられたカタカナ列と英文字列とをアライメント済のペアとして出力し、これと同時に音訳モデルとして使用される翻訳モデルをトレーニングするための翻訳モデルトレーニングモジュール44と、翻訳モデルトレーニングモジュール44が出力するアライメント済の全ペアを記憶するためのアライメント済データ記憶装置42とを含む。ここでのアライメントは、前述したトークンによって区切られたものを単位として行なう。通常は単語単位であるが、この実施の形態では、既に述べたように文字単位でのアライメントが行なわれる。ただし、このアライメントは1対1の形でなされるわけではなく、1対多、多対1、多対多の形式で行なわれる場合もありえる。特許文献1と同様、対応する文字数には上限を設けることが必要であろう。
モデル作成部24はさらに、アライメント済データ記憶装置42に記憶されたアライメント済の音訳対データのうち、カタカナ部分を用いて言語モデル50をトレーニングするための言語モデルトレーニングモジュール46を含む。
通常、翻訳モデル48をトレーニングするときには翻訳対象となっている言語の二言語コーパスが必要とされる。この二言語コーパスについては、単語単位での対応付け(アライメント)がされていることが必要である。また、言語モデル作成のためには、対象となる言語のコーパスが必要で、かつコーパス内の各文について、単語単位で分割されていることが必要である。
これに対し、本実施の形態では、翻訳モデル48をトレーニングするための二言語コーパスとして、カタカナ列と英文字列とが互いに文字単位でアライメントされた音訳対の集合を用いており、言語モデル50をトレーニングするためのコーパスについては、翻訳モデルトレーニングモジュール44により出力されアライメント済データ記憶装置42に記憶されたペアのうち、カタカナ文字に分割されたカタカナ列の集合を使用している。しかし、通常の翻訳モデル及び言語モデルのトレーニングと異なっているのはその点のみで、翻訳モデルトレーニングモジュール44及び言語モデルトレーニングモジュール46の機能は、通常の翻訳モデル及び言語モデルをトレーニングするものと同様で、それらをそのまま使用することができる。
翻訳モデルトレーニングモジュール44についてはさらに、以下のようなことがいえる。通常、翻訳モデルのためのトレーニングでは、統計的処理により、文ペアごとに対応する単語の対応付けを行なう必要があり、そのために各文を単語ごとに分割することが必要とされている。本実施の形態では、カタカナ列内のカタカナ文字をそれぞれ単語に見立て、英単語内の英文字をそれぞれ単語に見立てることによって、翻訳モデルトレーニングモジュール44が、通常の翻訳モデル作成時のアライメントの機能を持っていれば、そのまま文字単位でのアライメントを行なうことができる。また、このようにして作成された翻訳モデル48は、英文字とカタカナ文字との間の音訳モデルとして機能する。
本実施の形態では、翻訳モデルトレーニングには当該技術分野において周知のGIZA++と呼ばれるプログラム群を使用している。言語モデルトレーニングには、当該技術分野において周知のSRILMと呼ばれるプログラム群を使用している。
なお、本実施の形態では、言語モデル50としては、7グラム言語モデルを用いている。すなわち、日本語のカタカナ文字7個までを単位とし、その文字列が音訳対の集合の中で出現する確率を全ての組合せの文字列に対して計算することで、言語モデル50を作成している。
図2に、音訳対記憶装置30に記憶されている音訳対の例を示す。図2を参照して、音訳対といってもいろいろなケースがある。図2において、各枠が音訳対を表す。各枠の中の1行目の文字列が英語、2行目の文字列が対応するカタカナ語、3行目の文字がカタカナ語の発音を、それぞれ示す。
図2を参照して、「マンガ」という日本語の単語は、英語においては借用語として使用されており、その文字列による表現も、発音も、ほぼ日本語の「マンガ」と同じである。これは英単語からカタカナ語への変換の最も簡単な例を示す。
「コンピュター」というカタカナ語は、英語の「computer」をカタカナにより表現したものである。この他にも、「コンピュータ」とか「コンピューター」などの表現もあり得る。なお、音訳対記憶装置30において、同一の英語の単語列に対して異なるカタカナ語が対応付けられていてもよい。
「パソコン」という語は、前記したように英語の「personal computer」の正しい訳と考えることができるが、「personal」が「パソ」に、「computer」が「コン」に、それぞれ短縮化されている。これも音訳対と考えることができる。
さらに、英単語「bread」に対応するカタカナ語は「ブレッド」でもよいが、通常は「パン」であろう。そこで、「bread」と「パン」とを音訳対とすることができる。
図3に図1に示すカタカナ列記憶部36を実現するプログラムのフローチャートを示す。図3を参照して、このプログラムは非常に簡単な構造を持っている。すなわち、このプログラムは、音訳対記憶装置30内の全てのカタカナ語に対し、以下の処理を繰返すステップ70を含む。
ステップ70で繰返される処理は、処理中のカタカナ語を構成する全てのカタカナ文字に対し、隣接するカタカナ文字との間に、単語の境界を示すトークンを挿入するステップ74を繰返して実行するステップ72と、こうして得られたトークンを含むカタカナ文字列をカタカナ列記憶部36に出力するステップ76とを含む。ここで、カタカナ文字の間の境界は実際には単語の境界ではないが、この実施の形態ではあえてこのようにカタカナ文字の間を単語の境界とみなす処理を行なうことで、通常の翻訳モデルのトレーニングなどの既存のプログラムをそのまま流用することができる。
図4は、図1に示す英文字列記憶部38を実現するプログラムのフローチャートを示す。図4を参照して、このプログラムもまた、非常に簡単な構造を持っている。英語の場合には、日本語と異なり単語と単語との間に空白が存在する。本実施の形態では、そうした空白を予め特定の文字(例えばアンダースコア“_”)に置換した後、カタカナ文字列と同様に処理する。すなわち、図4を参照してこのプログラムは、音訳対記憶装置30に記憶された全ての音訳対を構成する英単語列に対して以下の処理を繰返すステップ90を含む。このように空白を別の文字に変換するのは、英語では空白が単語を区切るための文字として使用されており、様々なプログラムで特殊な取扱いを受けているためである。空白を予めそれ以外の文字に変換しておくことで、空白を単なる1つの文字として取扱い、翻訳モデル(音訳モデル)を作成することができる。
ステップ90で繰返される処理は、処理中の英単語列に含まれる空白をアンダースコアに置換するステップ92と、処理中の英単語列に含まれる全てのアルファベット及び記号(アルファベットなど)に対し、隣接するアルファベットなどとの単語の境界を示すトークンを挿入するステップ96を行なうステップ94と、こうして得られたトークンを含む英文字列を英文字列記憶部38に記憶させるステップ98とを含む。
図5に、図1に示す翻訳モデルトレーニングモジュール44を実現するプログラムの制御構造をフローチャート形式で示す。図5を参照して、このプログラムは、最初に一様確率で初期化した翻訳モデル48を記憶装置上に生成するステップ110と、カタカナ列記憶部36に記憶されたカタカナ列及び英文字列記憶部38に記憶された英文字列からなる音訳対の全てに対し、可能な全てのアライメントを作成して記憶装置の作業領域に記憶するステップ112と、各アライメントについて、元となった音訳対からそのアライメントが生ずる確率を翻訳モデルを用いて算出するステップ114と、この確率を用い、今度はカタカナ文字と英文字とからなる文字対の生成確率を算出し、その値で翻訳モデルのパラメータを再計算するステップ116とを含む。
このプログラムはさらに、こうして全ての翻訳モデルのパラメータを再計算した後、再計算前後の翻訳モデルの変化量の絶対値の合計があるしきい値より小さいか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ118を含む。判定結果がNOであれば、制御はステップ112に戻る。ここでいう翻訳モデルの変化量とは、翻訳モデルを構成する確率値の、再計算前後での変化量のことである。
このプログラムはさらに、ステップ118の判定がYESとなったことに応答して実行され、翻訳モデルを用いることで、各音訳対のアライメントの内で最尤のものを求め、それを各音訳対のアライメントとしてアライメント済データ記憶装置42に出力するステップ120と、上記した処理で値が収束した翻訳モデル48を不揮発性の記憶装置に出力するステップ122とを含む。
言語モデル50を作成するプログラムSRILMについては周知であるので、その詳細はここでは説明しない。ただし本実施の形態では、言語モデル50の作成においては、前述したとおりカタカナ1文字をいずれも1単語とみなし、言語モデル50を7グラム言語モデルとする。したがって、7つまでのカタカナ列の生起確率が言語モデル50に記憶される。
なお、統計的自動翻訳装置54は、入力英単語52が与えられると、入力英単語52に最も近い英単語を持つアライメント済音訳対をアライメント済データ記憶装置42から検索し、その音訳対のカタカナ列を最初の翻訳候補として統計的な翻訳処理を行なう。既に述べたようにここで使用される翻訳モデル48は音訳モデルと考えることができるため、統計的自動翻訳装置54が行なう処理は入力英単語52の音訳であるカタカナ語を出力する処理になる。
[動作]
以上、構成を説明した音訳システム20は以下のように動作する。まず、多数の音訳対を集め音訳対記憶装置30に記憶させる。音訳対を収集する方法については、本願発明の範囲外であり、したがって、音訳対の収集はどのように行なってもよい。例えば、既に述べたように専門語辞書から抽出し、それを手操作で入力してもよい。電子的に利用可能な専門語辞書があれば、音訳対を抽出するためのプログラムを作成してもよい。それ以外に、例えばインターネット上に存在する百科事典的な話題を集めたサイトから自動的に収集するようなスクリプトを組んでもよい。
本実施の形態では、既に述べたように、英語単語を日本語のカタカナ語に音訳するので、ここで収集する音訳対は、カタカナのみからなる日本語と、対応する英語単語(又は単語群)との組になるものとする。それ以外の文字、例えば日本語部分からは、漢字、ひらがらなどを排除し、英語部分からは英語以外の言語の文字を排除する。数字、記号などは双方から排除しておく必要がある。
音訳対記憶装置30に音訳対が記憶された後、以下のようにして翻訳モデル48及び言語モデル50のトレーニングを行なう。最初に、日本語セグメント化モジュール32が、音訳対記憶装置30に記憶された音訳対の内、カタカナ語部分を文字ごとに分割し(文字と文字との境界に、単語の境界を示すトークンを挿入し)、カタカナ列記憶部36に記憶させる(図3)。同様に、英語セグメント化モジュール34が音訳対記憶装置30に記憶された音訳対の内、英語部分を文字ごとに分割し(文字と文字との境界に、単語の境界を示すトークンを挿入し)、英文字列記憶部38に記憶させる(図4)。
日本語セグメント化モジュール32及び英語セグメント化モジュール34による音訳対記憶装置30の内の音訳対のセグメント化が終了し、文字ごとに分割されたカタカナ列と英文字列がカタカナ列記憶部36及び英文字列記憶部38にそれぞれ記憶された後、翻訳モデルトレーニングモジュール44が以下のようにしてカタカナ文字列と英文字列とのアライメントと翻訳モデル48のトレーニングとを行なう。
図5を参照して、最初に一様確率で初期化した翻訳モデル48を記憶装置上に生成する(ステップ110)。カタカナ列記憶部36に記憶されたカタカナ列及び英文字列記憶部38に記憶された英文字列からなる音訳対の全てに対し、可能な全てのアライメントを作成し、記憶装置に記憶する(ステップ112)。このアライメントの生成は総当りであって、コンピュータが最も得意とする分野である。
続いて、各アライメントについて、元となった音訳対からそのアライメントが生ずる確率を翻訳モデルを用いて算出する(ステップ114)。この確率を用い、今度はカタカナ文字と英文字とからなる文字対の生成確率を算出し、その値で翻訳モデルのパラメータを再計算する(ステップ116)。
こうして全ての翻訳モデルのパラメータを再計算した後、再計算前後の翻訳モデルの変化量の絶対値の合計があるしきい値より小さいか否かを判定する(ステップ118)。判定結果がNOであれば、制御はステップ112に戻る。
このようにして、翻訳モデルの変化量がステップ112〜116の処理の前後で大きく変化しなくなったら、ステップ118の判定がYESとなる。その結果、翻訳モデルを用いることで、各音訳対のアライメントの内で最尤のものを求めることができ、それを各音訳対のアライメント済のデータとしてアライメント済データ記憶装置42に出力する(ステップ120)。さらに、ステップ122で、上記した処理で値が収束した翻訳モデル48を不揮発性の記憶装置に出力する。
さらに、上記したようにアラインされた音訳対に出現するカタカナ語の言語モデル50(図1参照)を計算し、不揮発性の記憶装置に出力する。本実施の形態では、言語モデル50の作成においては、前述したとおりカタカナ1文字を1単語とみなし、言語モデル50を7グラム言語モデルとする。したがって、7つまでのカタカナ列の生起確率が言語モデル50に記憶される。
このようにして翻訳モデル48及び言語モデル50が作成されれば、音訳システム20による英単語からカタカナ語への音訳が可能になる。統計的自動翻訳装置54としては、通常は単語単位で翻訳モデル48及び言語モデル50が準備されることを想定して作成された用例型自動翻訳装置を用いることができる。用例データベースとしてはアライメント済データ記憶装置42に記憶されたアライメント済の音訳対を用いることができる。
入力英単語52が与えられると、統計的自動翻訳装置54は、入力英単語52に最も近い英単語列を持つ音訳対をアライメント済データ記憶装置42から検索する。このときの検索方法は統計的自動翻訳装置54の仕様による。例えば、英単語列内における各英文字の出現頻度をベクトル化することによって英単語列の特徴ベクトルとし、ベクトル同士の間に定義されるコサイン類似度によって入力英単語52に近い英単語列を持つ音訳対を検索するようにしてもよい。
統計的自動翻訳装置54は、検索された音訳対に含まれるカタカナ語を入力英単語52に対するカタカナ語の候補とし、翻訳モデル48及び言語モデル50を用いてさらにこのカタカナ語に対するカタカナ文字の挿入、置換、削除などを行なって最尤の出力カタカナ列を作成し、出力カタカナ語56として出力する。統計的自動翻訳装置54の動き自体は、本発明の本質部分と無関係なので、ここではその詳細は説明しない。
なお、本実施の形態では統計的自動翻訳装置54として用例型のものを用いたが、用例型のものでなくてもよいことはもちろんである。
図6に、本実施の形態による英単語から日本語への音訳の結果の例を示す。図6を参照して、入力英単語200は「machine translation」である。この音訳結果が「マシントランスレーション」となる。その過程はあくまで確率によるものであって、明確にいうことができるわけではない。しかし、以下に分かりやすい例を挙げる。
まず、音訳対記憶装置30に記憶されている音訳対に、図2に示すように「Turing machine」と「チューリングマシン」とからなるもの、及び「transisitor」と「トランジスタ」とからなるものがあるものとする。この例では、例えば入力英単語200の「machine translation」が3つの部分202、204及び206に分割される。これらのうち、最初の「machine」の部分は、例えば用例として検索された「Turing machine」と「チューリングマシン」との音訳から「マシン」に変換される。「tran」は「transistor」と「トランジスタ」とからなる音訳対などから、翻訳モデルを用いた最尤推定によって「トラン」に音訳される。同様に「slation」を構成する各文字も、音訳対記憶装置30に記憶されている音訳対から計算された翻訳モデルを用い、音訳として最尤のカタカナ列として「スレーション」に音訳される。
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステム及びコンピュータシステム上で実行されるプログラムによって実現され得る。図7はこの実施の形態で用いられるコンピュータシステム330の外観を示し、図8はコンピュータシステム330のブロック図である。ここで示すコンピュータシステム330は単なる例であって、他の構成も利用可能である。
図7を参照して、コンピュータシステム330はコンピュータ340と、全てコンピュータ340に接続された、モニタ342と、キーボード346と、マウス348と、スピーカ372と、マイクロフォン370とを含む。さらに、コンピュータ340はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ350と、半導体メモリポート352とを含む。
図8を参照して、コンピュータ340はさらに、DVD−ROMドライブ350と半導体メモリポート352とに接続されたバス366と、全てバス366に接続された、CPU(中央演算処理装置)356と、コンピュータ340のブートアッププログラムを記憶するROM(Read−Only Memory)358と、CPU356によって使用される作業領域を提供するとともにCPU356によって実行されるプログラムのための記憶領域となるRAM(Random Access Memory)360と、コーパス、翻訳モデル、言語モデル等を記憶するためのハードディスクドライブ(HDD)354とを含む。
図1に示す音訳対記憶装置30、カタカナ列記憶部36、英文字列記憶部38、トレーニングデータ記憶装置42、翻訳モデル48及び言語モデル50を記憶する装置などは、基本的にHDD354により実現される。ただし、これらの大部分はプログラムの実行時にはRAM360にロードされる。入力英単語52は例えばキーボード346を用いて入力してもよいし、入力英単語列が書込まれたファイル形式でHDD354に記憶され、順に読出す形式でもよい。出力カタカナ語56も、モニタ342に単に表示されるものでもよいし、ファイル形式でHDD354に書出されるものでもよい。
上述の実施の形態のシステムのカタカナ列記憶部36、英文字列記憶部38、翻訳モデルトレーニングモジュール44、言語モデルトレーニングモジュール46、及び統計的自動翻訳装置54を実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の媒体に記録されたオブジェクトコードの形で流通し、DVD−ROMドライブ350又は半導体メモリポート352等の読出装置を介してコンピュータ340に提供され、HDD354に記憶される。CPU356がプログラムを実行する際には、プログラムはHDD354から読出されてRAM360に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU356は、CPU356内のレジスタ、RAM360、又はHDD354から処理すべきデータを読出し、処理の結果を、これもまたCPU356内のレジスタ、RAM360、又はHDD354に記憶する。マイクロフォン370及びスピーカ372は、直接に本発明とは関係ない。ただし、上記した音訳システム20を音声自動翻訳装置の一部として使用するときには、これらが必要となる。
なお、上の説明からも明らかなように、本実施の形態の装置は言語とは独立である。したがって、別の言語同士の組合せにもそのまま適用できるし、同じ言語の組合せでも逆方向の音訳にも言語の組合せを逆転するだけでそのまま適用できる。
[実験]
上記した実施の形態に係る音訳システム20について、以下のように性能実験を行なった。実験データは、一般に利用可能であるEDICT辞書と、インターネット上のWikipediaの、互いに日英の訳文となっているページとから抽出したカタカナ語−英単語からなる音訳対を用いた。Wikipediaでは、ある言語のページから、対応する別の言語のページへのリンクが存在することがある。それらは一般的に言語間リンク(inter−language link)と呼ばれている。
これら音訳対の抽出にあたっては、日本語についてはカタカナ文字のみを、英語についてはASCII文字のみを含むもののみを選択するようにした。こうして得た音訳対でコーパスを作成し、ランダムにトレーニングデータ(33479ペア)、開発データ(2000ペア)、及び評価データ(2000ペア)に分割した。基準となるデータとして人間による評価を用いるものとし、上記したコーパスから200の音訳対をランダムに抽出してその対象とした。さらに、米国の73人の政治家の氏名をWikipediaの米国歴代の正副大統領のページから収集し、別のコーパスを作成した。重複したエントリは削除し、トレーニングデータからも同じエントリを削除した。
ナイト及びグリール(Kevin Knight and Jonathan Graehl、Machine Translation、Proceedings of The Thirty−Fifth Annual Meeting of the Association for Computational Linguistics and Eigth Conference of the European Chapter of the Association for Computational Linguistics,pp.128−135,Somerset,New Jersey)にしたがって、カタカナから英語への音訳を行なった。すなわち、カタカナの単語シーケンスから英語シーケンスを生成させた。米国の政治家名について音訳させた結果を次のテーブル1に示す。
Figure 2009157888
この結果のうち、「正解」の率は上記ナイトらの結果より低いが、「音声的に等価」の分を加えるとナイトらの結果を上回る。これは、本実施の形態のシステムでは、未知語も適切に取扱うことが可能になるように、文字列をより自由に生成できるようにしているためであると考えられる。日本語から英語への音訳では、ほぼ78パーセントが正解又は音声的に等価と評価された。なお、この実験では、英語の音声の観点からは正しい音訳ではないが、日本語の子音等を考慮すると「あり得る誤り」も、1つのクラスとして分類している(上記「音声的に等価(JP)」)。これは、例えば「James Polk」が日本語の「ジェームズポーク」となっているときに、さらにこれを英語に変換した結果が「James Pork」となる場合である。日本語では「r」と「l」との区別が困難であるため、どちらも同じ音にまとめられてしまうことによる。これにより、それ以外の原因によるエラー、例えば単語のアライメント誤りにより生ずる音訳対の誤りからのものがどの程度あるかをより正確に知ることができる。
上記した実施の形態の音訳システム20によって英語から日本語に音訳を行なった結果のテキストを、日本語及び英語の双方に堪能な、ただし日本語を母語とするプロフェッショナル翻訳家が評価した。逆に、日本語から英語に音訳した結果を、英語を母語とし、日本語にも堪能である翻訳者が評価した。評価は4段階である。
(1)正しい音訳
(2)正しい音訳ではないが音声的には正しい音訳に等価
(3)正しくない音訳
(4)評価が不確実又は不能
音訳結果の例を以下に示す。
第1段階の評価の例:
worm gear⇒ウオオムギヤ
第2段階の評価の例:
worm gear⇒ワアムギヤ
第3段階の評価の例:
marcel desailly⇒マルセルデサイ
第4段階の評価の例
agnieszka holland⇒?
第3段階の例はフランス系人名であって、正しい音訳は「マルセルデサイイ」であろう。これは、こうした綴りの単語がトレーニングコーパスに存在していなかったために引き起こされた誤りと思われる。
人間による評価によれば、英語から日本語へ、及び日本語から英語へのいずれの場合も、評価者により多少の相違はあるが、かなり高い正解率であると判定されている。また、音訳の方向によっても相違がほとんど見られないという特徴がある。特に、「正解」又は「音声的に等価」とされた結果が、どちらの方向の場合にも80パーセント程度であるという驚くべき結果が得られた。この程度の結果が得られたならば、音声を正しく音訳できないときでも、「それらしい」音訳を行なうシステムとして十分実用化することができると考えられる。翻訳結果を文字で出力するのでなく、音声で出力する場合には、そのような音訳でも立派な「正解」となるためである。
テーブル2は、上記した実施の形態に係る英語・日本語音訳システムと、同様の構成の日本語・英語音訳システムの結果を、よく使用される自動翻訳の評価指標を用いて評価した結果を示す。上記した実施の形態の性能を表す一定の指標として、ここにこれらの評価値を示しておく。
Figure 2009157888
テーブル3は、テーブル2に示す自動評価指標の説明である。
Figure 2009157888
なお、既に述べたことであるが、上記実施の形態に係る音訳システム20は、言語の組合せにも、その方向にも依存しない。ある言語の単語の音声を音訳した単語が別の言語に存在する場合には、それらからなる音訳対を集めることで、その言語間の音訳システムを構築することができる。その構成は上記した音訳システム20と同様である。
図9に、例として、7ヶ国語の間である単語がどのように対応しているかを示す。これらはいずれも英語の単語に関するものであるが、それらについての音訳が他の6ヶ国語でどのようにされているかを示している。ある言語の対の間でこのような単語の対応関係が得られれば、上記した音訳システム20と同じ仕組みによって音訳システムを構築することが可能であることは明らかであろう。また、音訳システム20では単なる音訳だけではなく、例えば一方で標記を単純化したり省略したりしたものであっても対応を付けることができ、単純な音訳だけではなく、一種の「翻訳」になっている。こうした特質も、音訳対の準備の仕方に依存するが、上で説明した仕組みを用いれば容易に実現できることは明らかであろう。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る音訳システム20のブロック図である。 音訳システム20で使用される音訳対記憶装置30に記憶された音訳対の例を示す図である 図1に示す日本語セグメント化モジュール32を実現するプログラムの制御構造を示すフローチャートである。 図1に示す英語セグメント化モジュール34を実現するプログラムの制御構造を示すフローチャートである。 図1に示す翻訳モデルトレーニングモジュール44を実現するプログラムの制御構造を示すフローチャートである。 音訳システム20による英単語から日本語への音訳の結果の例を示す図である。 音訳システム20を実現するために用いられるコンピュータシステム330の外観を示す図である。 図7に示すコンピュータシステム330のブロック図である。 多言語の間での単語の音訳による対応関係を例示する図である。
符号の説明
20 音訳システム
22 記憶装置
24 モデル作成部
30 音訳対記憶装置
32 日本語セグメント化モジュール
34 英語セグメント化モジュール
36 カタカナ列記憶部
38 英文字列記憶部
42 アライメント済データ記憶装置
44 翻訳モデルトレーニングモジュール
46 言語モデルトレーニングモジュール
48 翻訳モデル
50 言語モデル
52 入力英単語
54 統計的自動翻訳装置
56 出力カタカナ語

Claims (5)

  1. 第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、
    前記音訳対コーパス記憶手段に記憶された前記音訳対の各々について、前記第1の言語と前記第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた前記複数個の音訳対の各々の前記第1の言語の文字又は文字列、及び前記第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成し、前記第1の言語から前記第2の言語への音訳モデルとして出力するための音訳モデル作成手段とを含む、音訳モデル作成装置。
  2. 請求項1に記載の音訳モデル作成装置と、
    前記第2の言語の文字を単位とするNグラム言語モデルを作成し、記憶するための言語モデル作成装置と、
    前記第1の言語の入力単語が与えられると、前記音訳モデル作成装置により作成された音訳モデルを翻訳モデルとして用い、さらに前記言語モデル作成装置により作成された言語モデルを用いた統計的自動翻訳を行なうことにより、前記入力単語を前記第2の言語の単語に音訳して出力するための自動翻訳手段とを含む、音訳装置。
  3. 前記自動翻訳手段は、
    前記入力単語が与えられると、前記音訳対コーパス記憶手段に記憶された音訳対の内、前記入力単語に最も類似した前記第1の言語の単語又は単語列を持つ音訳対を検索するための手段と、
    前記検索するための手段により検索された音訳対に基づいて最尤の翻訳候補を作成し、前記入力単語に対する前記第2の言語の音訳として出力する用例型自動翻訳装置を含む、請求項2に記載の音訳装置。
  4. コンピュータにより実行されると、当該コンピュータを、
    第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、
    前記音訳対コーパス記憶手段に記憶された前記音訳対の各々について、前記第1の言語と前記第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた前記複数個の音訳対の各々の前記第1の言語の文字又は文字列、及び前記第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成することにより、音訳モデルを作成するための音訳モデル作成手段として機能させる、音訳モデル作成プログラム。
  5. コンピュータにより実行されると、当該コンピュータを、
    第1及び第2の言語の単語又は単語列の音訳対を複数個記憶するための音訳対コーパス記憶手段と、
    前記音訳対コーパス記憶手段に記憶された前記音訳対の各々について、前記第1の言語と前記第2の言語の単語又は単語列を構成する文字又は文字列を互いに対応付け、互いに対応付けられた前記複数個の音訳対の各々の前記第1の言語の文字又は文字列、及び前記第2の言語の文字又は文字列を互いの訳語とみなして翻訳モデルを作成し、前記第1の言語から前記第2の言語への音訳モデルとして出力するための音訳モデル作成手段と、
    前記第2の言語の文字を単位とするNグラム言語モデルを作成し、記憶するための言語モデル作成手段と、
    前記第1の言語の入力単語が与えられると、前記音訳モデル作成手段により作成された前記音訳モデルを翻訳モデルとして用い、さらに前記言語モデル作成手段により作成された言語モデルを用いた統計的自動翻訳を行なうことにより、前記入力単語を前記第2の言語の単語に音訳して出力する自動翻訳手段として機能させる、自動翻訳プログラム。
JP2007338880A 2007-12-28 2007-12-28 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム Pending JP2009157888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007338880A JP2009157888A (ja) 2007-12-28 2007-12-28 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007338880A JP2009157888A (ja) 2007-12-28 2007-12-28 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2009157888A true JP2009157888A (ja) 2009-07-16

Family

ID=40961789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007338880A Pending JP2009157888A (ja) 2007-12-28 2007-12-28 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2009157888A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034220A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
JP2012093808A (ja) * 2010-10-25 2012-05-17 National Institute Of Information & Communication Technology バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム
JP2022510818A (ja) * 2018-11-20 2022-01-28 アマゾン テクノロジーズ インコーポレイテッド 改良されたデータマッチングのためのデータレコードの字訳
JP2022515048A (ja) * 2018-12-12 2022-02-17 グーグル エルエルシー 音声認識の訓練および採点のための音訳

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280467A (ja) * 2003-03-14 2004-10-07 Nippon Hoso Kyokai <Nhk> 翻訳装置、翻訳方法、及びそのプログラム
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2007156545A (ja) * 2005-11-30 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280467A (ja) * 2003-03-14 2004-10-07 Nippon Hoso Kyokai <Nhk> 翻訳装置、翻訳方法、及びそのプログラム
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2007156545A (ja) * 2005-11-30 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800077052; 後藤 功雄 外2名: '統計的手法を用いた英語からカタカナへの翻字処理' 言語処理学会第8回年次大会発表論文集 , 20020318, p.236-239, 言語処理学会 *
JPN6012057095; 後藤 功雄 外2名: '統計的手法を用いた英語からカタカナへの翻字処理' 言語処理学会第8回年次大会発表論文集 , 20020318, p.236-239, 言語処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034220A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
JP2012093808A (ja) * 2010-10-25 2012-05-17 National Institute Of Information & Communication Technology バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム
JP2022510818A (ja) * 2018-11-20 2022-01-28 アマゾン テクノロジーズ インコーポレイテッド 改良されたデータマッチングのためのデータレコードの字訳
JP7254925B2 (ja) 2018-11-20 2023-04-10 アマゾン テクノロジーズ インコーポレイテッド 改良されたデータマッチングのためのデータレコードの字訳
JP2022515048A (ja) * 2018-12-12 2022-02-17 グーグル エルエルシー 音声認識の訓練および採点のための音訳
JP7208399B2 (ja) 2018-12-12 2023-01-18 グーグル エルエルシー 音声認識の訓練および採点のための音訳

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
Pennell et al. Normalization of text messages for text-to-speech
Harrat et al. Building resources for algerian arabic dialects
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JPH07325828A (ja) 文法チェックシステム
US20070179779A1 (en) Language information translating device and method
Scherrer et al. Modernising historical Slovene words
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
Lingam et al. Rule-based machine translation from English to Telugu with emphasis on prepositions
Núñez et al. Phonetic normalization for machine translation of user generated content
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
Cissé et al. Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof
JP4035111B2 (ja) 対訳語抽出装置、及び対訳語抽出プログラム
JP2003178087A (ja) 外国語電子辞書検索装置および方法
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
KR20180054236A (ko) 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법
WO2024004183A1 (ja) 抽出装置、生成装置、抽出方法、生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130305