JP2013206253A

JP2013206253A - 機械翻訳装置、方法、およびプログラム

Info

Publication number: JP2013206253A
Application number: JP2012075966A
Authority: JP
Inventors: Satoshi Kamaya; 聡史釜谷; Akiko Sakamoto; 明子坂本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-07
Also published as: CN103365837A; US9170994B2; US20130262076A1

Abstract

【課題】誤解される可能性を低減した同時通訳を実現する。
【解決手段】本実施形態に係る機械翻訳装置は、取得部、解析部、翻訳部、検出部および語句付加部を含む。取得部は、第１言語による発話を音声認識し、認識結果文字列を得る。解析部は、認識結果文字列を翻訳処理を行なう単位で分割し、原語文字列を得る。翻訳部は、原語文字列を、第１言語とは異なる言語である第２言語の目的言語文字列に翻訳する。検出部は、目的言語文字列のうちの第１目的言語文字列と、第１目的言語文字列よりも発話に関して過去に翻訳された結果である第２目的言語文字列との関係に基づいて、第１目的言語文字列に対応する発話の内容に即した解釈に曖昧性が存在するかどうかを検出する。語句付加部は、曖昧性が存在すると検出された場合、第１目的言語文字列と第２目的言語文字列との間の係り受け関係を一意に解釈させるための語句を示す付加語句を第１目的言語文字列に付加する。
【選択図】図１

Description

本発明の実施形態は、第１言語を第２言語に翻訳する機械翻訳装置、方法、およびプログラムに関する。

第１言語で記述された原言語の文字列の入力を受け付け、原言語の文字列を所望の第２言語に変換する機械翻訳機器がある。さらに、近年の音声言語処理技術の進展により、第１言語での発話に準じて、漸進的に第２言語に翻訳する同時通訳機器がある。

特許第３０５９３９８号公報

しかし、従来手法では、文単位で独立した翻訳結果や、真に意図する訳と誤訳との差分が生じないような翻訳結果において、それらがユーザに提示された際に発生する解釈の曖昧性を解消することができない。

本開示は、上述の課題を解決するためになされたものであり、誤解される可能性を低減した同時通訳を実現することができる機械翻訳装置、方法、およびプログラムを提供することを目的とする。

本実施形態に係る機械翻訳装置は、取得部、解析部、翻訳部、検出部および語句付加部を含む。取得部は、第１言語による発話を順次受け取り音声認識して、音声認識結果の文字列を示す認識結果文字列を得る。解析部は、前記認識結果文字列を翻訳処理を行なう単位で分割し、翻訳前の前記第１言語の文字列を示す複数の原言語文字列を得る。翻訳部は、前記複数の原言語文字列を、前記第１言語とは異なる言語である第２言語の文字列を示す目的言語文字列に翻訳する。検出部は、前記目的言語文字列のうちの第１目的言語文字列と、該第１目的言語文字列よりも前記発話に関して過去に翻訳された結果である１以上の第２目的言語文字列との関係に基づいて、該第１目的言語文字列に対応する前記発話の内容に即した解釈に曖昧性が存在するかどうかを検出する。語句付加部は、前記曖昧性が存在すると検出された場合、前記第１目的言語文字列と前記第２目的言語文字列との間の係り受け関係を一意に解釈させるための語句を示す付加語句を前記第１目的言語文字列に付加する。

本実施形態に係る機械翻訳装置を示すブロック図。解析部における分割パターンの一例を示す図。解析部における分割パターンの別例を示す図。語句生成部における語句生成規則の一例を示す図。語句生成部における語句生成規則の別例を示す図。機械翻訳装置の動作を示すフローチャート。本実施形態に係る機械翻訳装置を用いた英語文から日本語文への機械翻訳処理の具体例を示す図。本実施形態に係る機械翻訳装置を用いた日本語文から英語文への機械翻訳処理の具体例を示す図。

以下、図面を参照しながら本実施形態に係る機械翻訳装置、方法、およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。本実施形態では、英語と日本語との間の翻訳を例に説明するが、翻訳処理の対象となる言語は、これらの２言語に限られることなく、あらゆる言語を対象とすることができる。
本実施形態に係る機械翻訳装置について図１を参照して説明する。
本実施形態に係る機械翻訳装置１００は、音声取得部１０１、解析部１０２、翻訳部１０３、曖昧性検出部１０４、語句生成部１０５、語句付加部１０６および出力部１０７を含む。

音声取得部１０１は、ユーザが第１言語により発話した音声を取得する。音声取得部１０１は、取得した音声に対して音声認識処理を施し、音声認識結果のテキストである認識結果文字列を得る。音声取得部１０１における音声の取得は、ユーザからの音声入力が継続する間、音声認識処理における処理単位ごとに順次音声認識が行われ、認識結果文字列が得られるたびに後段に渡される。以下では、音声認識の処理単位として、単語ごとに処理する場合を想定しているが、文ごと、句ごとに後段に渡すようにしてもよい。

解析部１０２は、音声取得部１０１から認識結果文字列を受け取り、認識結果文字列を連結して翻訳に適した翻訳処理を行なう単位で分割し、原言語文字列を生成する。原言語文字列は、翻訳前の第１言語の文字列を示す。解析部１０２の詳細については、図２および図３を参照して後述する。

翻訳部１０３は、解析部１０２から原言語文字列を受け取り、目的言語文字列に翻訳する。目的言語文字列は、第１言語と異なる言語である第２言語による文字列である。例えば、日本語による文を英語による文に変換する場合は、原言語認識文が日本語文であり、目的言語文字列が英語文である。

曖昧性検出部１０４は、解析部１０２から原言語文字列を、翻訳部１０３から原言語文字列に対応する目的言語文字列をそれぞれ受け取る。曖昧性検出部１０４は、一連のユーザの発話に対して過去に生成された目的言語文字列に基づいて原言語文字列を解析し、第２言語の目的言語文字列の発話の内容に即した解釈に曖昧性が存在するかどうかを検出する。
本実施形態における曖昧性の検出には、係り受け（修飾および被修飾）の関係を用い、目的言語文字列が複数の係り受け関係を有するかどうかを検出する。なお、本実施形態では、曖昧性検出部１０４が翻訳部１０３から受け取った目的言語文字列を格納することを想定するが、格納部（図示せず）を用意し、格納部に目的言語文字列を格納してもよい。この場合、曖昧性検出部１０４が解析処理を行なう場合は、格納部から過去に出力された目的言語文字列を抽出すればよい。

語句生成部１０５は、曖昧性検出部１０４から目的言語文字列に関する曖昧性の検出結果を受け取り、曖昧性の種類に応じて付加語句を生成する。付加語句は、発話の内容に即して、目的言語文字列間の係り受けを一意に解釈させるための語句を示す。語句生成部１０５の詳細については、図４および図５を参照して後述する。
語句付加部１０６は、曖昧性検出部１０４から目的言語文字列を、語句生成部１０５から付加語句をそれぞれ受け取り、目的言語文字列に対して付加語句を付加する。

出力部１０７は、曖昧性検出部１０４から目的言語文字列を受け取り、曖昧性検出部１０４で曖昧性が検出された場合は、語句付加部１０６から付加語句が付加された目的言語文字列を受け取り、外部に出力する。

次に、解析部１０２において分割位置を規定する分割パターンの一例について図２および図３を参照して説明する。
図２は英語用の分割パターンのテーブルを示し、図３は日本語用の分割パターンのテーブルを示す。

機械翻訳において同時通訳を実現するためには、ユーザの発話から翻訳結果の出力までの時間をできるだけ短縮する必要がある。よりユーザの発話に対して追随性を高めるには、入力された音声を順次処理し、できるだけ短い単位で訳出していくことが必要である。一方、追随性を高めることに重点を置き、あまりに短い単位で訳出すると、翻訳結果の了解性が低下する。例えば、単語ごとに訳出する逐語訳は、きわめて追随性が高いと言える。しかし、日本語から英語への翻訳のように、語順が大きく変化する言語間の翻訳においては、元の文意を欠落させずに翻訳することは困難である。
そこで本実施形態では、文を分割する分割位置を決定する手法として、規則ベースのパターンマッチング手法を用いる。

図２および図３に示すような分割パターンに一致した文字列は、分割パターンにおける斜線の位置で分割される。例えば、英語文の場合、図２に示す「／（接続詞）／」の分割パターンは、接続詞の前後で文が節単位で分割されることを示す。具体的には、「It is going to rain, but we continue to work.」という文であれば、「but」が接続詞に該当するため、「It is going to rain」「but」「we continue to work」という３つの文に分割される。
同様に、日本語文の場合、図３に示す「（接続助詞）／」の分割パターンは、接続助詞の後で文が分割される。具体的には「今日は晴れているので、散歩に出かける。」という文であれば、「ので」が接続助詞に該当するため、「今日は晴れているので」「散歩に出かける」という２つの文に分割される。

すなわち、解析部１０２は、音声取得部１０１から認識結果文字列を受け取るごとに、認識結果文字列について上述のパターンマッチングを行なう。いずれかの分割パターンに一致する場合、解析部１０２は、認識結果文字列を分割パターンに従って斜線位置で分割し、分割した文を原言語文字列として得る。
なお、文を分割する分割位置を決定する手法として、構文解析手法を用いて、一定の構文構造が蓄積されるごとに訳出してもよい。例えば、文脈自由文法を用いたチャートパーサにおいて、予め決めた文法カテゴリ（終端記号、非終端記号）が現れた場合に、支配下にある文法構造に対応する文字列を分割の単位として切り出す方法を採用してもよい。
また、統計的な手法により、訳出開始位置を検出してもよい。例えば、予め訳出開始位置を付与したコーパスを用意し、機械学習手法によって訳出開始位置の出現をモデル化する。このモデルにより、認識結果文字列における訳出開始位置を予測させ、同位置で分割された認識結果文字列を原言語文字列として得ればよい。

次に、語句生成部１０５で用いる語句生成規則の一例を図４および図５を参照して説明する。
図４は目的言語文字列が日本語文の場合の語句生成規則のテーブルを示し、図５は目的言語文字列が英語文である場合を語句生成規則のテーブルを示す。なお、本実施形態では、言語ごとに語句生成規則を分けているが、複数の言語で共通して用いることができるような規則体系にまとめてもよい。

語句生成規則は、新たに出力される目的言語文字列とそれ以前に出力された先行文脈における目的言語文字列との系列の間で発生する、係り受け関係の曖昧性の条件４０１、および生成語句４０２が互いに対応づけられる。

条件４０１は、係り受け関係に関する曖昧性の方向と曖昧性の種類とを示す。係り受け関係の曖昧性の方向は、「Ｒ」と「Ｌ」とで表され、「Ｒ」は、「新たに出力される目的言語文字列がそれ以前に出力された先行文脈における目的言語文字列から誤って係られる」ことを示す。「Ｌ」は、「新たに出力される目的言語文字列が、それ以前に出力された先行文脈における目的言語文字列に誤って係る」ことを示す。
係り受け関係の曖昧性の種類は、例えば、場所や時間、目的語、従属節における理由を示す句といった、語句の意味属性を示す。図４の例では、係り受け関係の曖昧性の方向と、係り受け関係の曖昧性の種類とは、カンマで区別される。
生成語句４０２は、付加語句自体、またはどのように付加語句を生成するかを示す付加語句の生成手法を示す。例えば、直接文字列を生成する場合は、条件４０１「Ｌ，場所」と生成語句４０２「ですが」とが対応づけられる。

また、図４に示すように、生成語句４０２「ですが」「ね」など固定の語句ではなく、文脈に応じた句に基づいて付加語句を生成してもよい。
具体的には、例えば、認識結果文字列として英語文「Because the train is delayed due to the strong wind, we do not refund.」が生成され、この目的言語文字列として日本語文「電車が遅れたので」「強風のため」と漸進的に訳出され、続けて「返金できません」と訳出される場合を想定する。
この場合、既に訳出された「強風のため」という目的言語文字列の係り先候補としては、認識結果文字列における「電車が遅れたので」という文のみである。しかし、目的言語文字列において漸進的に訳出される場合は、「（強風のため）電車が遅れたので」という解釈と「（強風のため）返金できません」という解釈との両方の解釈がありえる。すなわち、複数の係り受け関係を有することになる。

図４に示す語句生成規則を参照すると、「強風のため」という節が、条件４０１「Ｒ，従属節＿理由」に該当する。つまり、新たに出力される目的言語文字列「返金できません」が「従属節＿理由」という関係を有して、それ以前に出力された先行文脈における目的言語文字列「強風のため」から誤って係られる。そこで、生成語句４０２の“先行文脈の真の係り先の句”を抽出する。ここでは、目的言語文字列「強風のため」の真の係り先の語句「遅れたので」が付加語句として生成される。

図５に示す語句生成規則についても同様に、新たに出力される目的言語文字列とそれ以前に出力された先行文脈における目的言語文字列との系列の間で発生する係り受け関係の曖昧性の条件５０１と、生成される付加語句を示す生成語句５０２とが互いに対応づけられる。具体的には、例えば、条件５０１「Ｒ，ｐｌａｃｅ＿ｔｏ」と生成語句５０２「ａｓｆｏｒ」とが対応づけられる。

次に、本実施形態に係る機械翻訳装置１００の動作について図６のフローチャートを参照して説明する。

ステップＳ６０１では、音声取得部１０１が、音声を取得し、音声に対して音声認識処理を行うことにより認識結果文字列を得る。音声取得部１０１における音声認識処理は、例えば以下の順序で行えばよい。はじめに、入力された音声信号を一定の時間間隔で区切る。得られた一定間隔の音声信号をフーリエ変換およびコサイン変換することにより、ケプストラム係数からなる特徴ベクトルを生成する。予め構築した音声パターンに基づき、ＤＰマッチング（Dynamic Programming Matching）、セグメンテーションと音素ラベリングとに基づく方法、ＨＭＭ（Hidden Markov Model）による方法、ニューラルネットワークのいずれかを用いて、取り出した特徴ベクトルの系列尤度を最大にするモデルに対応するカテゴリを音声認識結果とすればよい。
なお、言語資源またはコーパスなどを用いて、語の連続の生起しやすさを学習して構築する言語モデルによって、音声認識精度を高める手法を適用してもよい。

ステップＳ６０２では、解析部１０２が、図２および図３で上述したような手法を用いて、認識結果文字列を機械翻訳処理を行なう単位で分割し、原言語文字列Ｓ_ｉ（ｉは自然数であり、機械翻訳処理を行なう時系列順を示す）を得る。
ステップＳ６０３では、翻訳部１０３が、原言語文字列Ｓ_ｉを目的言語文字列Ｔ_ｉに翻訳する。翻訳部１０３における翻訳処理は、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式などに代表さえる一般的な機械翻訳手法を用いればよいため、ここでの説明は省略する。

ステップＳ６０４では、曖昧性検出部１０４が、過去にステップＳ６０１からステップＳ６０３で翻訳された結果である目的言語文字列Ｔ_１、Ｔ_２、・・・_、Ｔ_ｉ−１に基づいて、現時点ｉで機械翻訳処理すべき目的言語文字列Ｔ_ｉを解析する。本実施形態では、アーリー法、チャート法、一般化ＬＲ法による構文解析、ＭａｘｉｍｕｍＳｐａｎｎｉｎｇＴｒｅｅを用いた係り受け解析など、一般的な手法を用いればよいためここでの説明を省略する。

ステップＳ６０５では、曖昧性検出部１０４が、現時点ｉで機械翻訳処理すべき目的言語文字列Ｔ_ｉの解釈に曖昧性が存在するかどうかを検出する。目的言語文字列Ｔ_ｉの解釈に曖昧性が存在する場合は、ステップＳ６０７に進み、目的言語文字列Ｔ_ｉの解釈に曖昧性が存在しない場合は、ステップＳ６０６へ進む。
ステップＳ６０６では、出力部１０７が、目的言語文字列を出力する。本実施形態では、目的言語文字列を音声合成し、目的言語文字列を音としてユーザに出力する。音声合成処理は、例えば、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチといった一般的に利用される手法を用いればよい。また、目的言語文字列を音として出力することに限定されず、目的言語文字列のテキストを画面表示するディスプレイなど表示装置によるテキスト出力や、プリンタなどの印刷といった種々の出力手段、表示手段を合わせて利用してもよい。

ステップＳ６０７では、語句生成部１０５が、上述の図４および図５の規則に従い、解釈の曖昧性の種類に応じて付加語句を生成する。

ステップＳ６０８では、語句付加部１０６が、目的言語文字列Ｔｉに付加語句を付加し、出力部１０７が、付加語句が付加された目的言語文字列を出力する。なお、語句付加部１０６は、上述のような語句生成部１０５が生成した付加語句ではなく、解釈の曖昧性の種類によらず、同一の語句を付加してもよい。例えば、間投詞やフィラーを付加してもよい。
ステップＳ６０９では、ｉが１つインクリメントされ、ステップＳ６０１に戻り同様の処理を繰り返す。以上で機械翻訳装置１００の動作を終了する。

次に、本実施形態に係る機械翻訳装置１００の機械翻訳処理の具体例について図７を参照して説明する。
図７は、英語による発話が音声取得部１０１により取得されて認識結果文字列が得られ、解析部１０２により、下線が引かれる単位で区切られた原言語文字列が得られる場合を想定する。すなわち、原言語文字列として“Last Friday”、“from John I heard”、“you finished a market research survey”が順に得られる。

始めに、解析部１０２が“Last Friday”を得、これを翻訳部１０３で翻訳し目的言語文字列Ｔ１「先週の金曜日」を得る。このとき、先行して訳出された目的言語文字列はないため、目的言語文字列において曖昧性は発生しない。

次に、解析部１０２が“from John I heard”を得て、これを翻訳部１０３で翻訳し、目的言語文字列Ｔ２として「ジョンから聞きました」を得る。

同様に、“you finished a market research survey”に対して目的言語文字列Ｔ３「市場調査を終えたことを」が得られ、“I will attend a meeting”に対して目的言語文字列Ｔ４「会議に参加するのです」が得られ、“tomorrow”に対して目的言語文字列Ｔ５「明日」が得られる。これらの処理は前述と同様であるので省略する。

次に、“Could you provide the report to me”に対して目的言語文字列Ｔ６「レポートをもらえますか」が得られる。
ここで、過去に訳出された目的言語文字列Ｔ１，・・・，Ｔ５と、現在の目的言語文字列Ｔ６とを曖昧性検出部１０４で解析した結果、Ｔ５「明日」がＴ６「レポートにもらえますか」に係る可能性があることを検出したと仮定する。つまり、日本語文の目的言語文字列においては「明日レポートをもらえますか」という解釈となるが、実際の英語文における認識結果文字列を参照すると、「明日会議に参加する」という解釈の方が正しい。

すなわち、曖昧性検出部１０４は、新たに出力される目的言語文字列が、それ以前に出力された先行文脈における目的言語文字列から誤って係られると判定する。また、目的言語文字列Ｔ５は「明日」であり、時制を示すので係り受け関係は「時間」と判定される。よって、曖昧性検出部１０４は、目的言語文字列Ｔ６を解析したときに、日本語での解釈に曖昧性が存在することを検出する。
語句生成部１０５は、図４に示す語句生成規則に基づいて、この解釈の曖昧性に対応する条件における付加語句「先行文脈の真の係り先の句」を選択する。つまり、目的言語文字列Ｔ５の正しい係り先である、目的言語文字列Ｔ４の句から「参加するのです」を選択する。語句生成部１０５は、選択された句に基づいて「参加します」を付加語句７０１として生成する。

語句付加部１０６は、付加語句７０１を目的言語文字列Ｔ５に付加して「参加します。レポートをもらえますか」を生成する。これにより、原言語に基づく解釈ではありえない「明日レポートもらえますか」という解釈がされる可能性が低くなる。
最終的には、出力部１０７における目的言語文字列の出力は、漸進的に、「先週の金曜日」「ジョンから聞きました」「市場調査を終えたことを」「会議に参加するのです」「明日」「参加します。レポートをもらえますか」となる。よって、原言語文字列の内容である「明日参加する」いうことが明確となり、英語文における意図を、翻訳された日本語文においても意図通りに解釈することができる。よって、解釈に曖昧性を生じさせない翻訳文を提示することができる。

次に、図７とは翻訳方向が反対、すなわち認識結果文字列として日本語文を得て、目的言語文字列として英語文を出力する場合について図８を参照して説明する。
図７の場合と同様に、解析部１０２が、「東京駅で」、「まず」、「山手線に乗ります」の順に原言語文字列を得る。

翻訳部１０３において、「東京駅で」に対して目的言語文字列Ｔ１“At Tokyo station”、「まず」に対して目的言語文字列Ｔ２“first”、「山手線に乗ります」に対して目的言語文字列Ｔ３“you take a Yamanote-line train”がそれぞれ得られる。

続いて、「浅草までは」に対して目的言語文字列Ｔ４“to Asakusa”を得たとする。ここで、過去に訳出された目的言語文字列Ｔ１，・・・，Ｔ３と目的言語文字列Ｔ４とを曖昧性検出部１０４で解析した結果、目的言語文字列Ｔ４“to Asakusa”が目的言語文字列Ｔ３“you take a Yamanote-line train”の“train”に係りうることを検出する。これは、“train to Asakusa”となり「浅草行きの電車」という解釈となりえる。しかし、実際の日本語文を参照すると、原言語文字列「浅草まで」は「上野駅で乗り換えて向かいます」に係るべきであり、「浅草行きの電車」という解釈は誤りである。すなわち、目的言語文字列Ｔ４“to Asakusa”は、後続する目的言語文字列Ｔ５“At Ueno station”に係るほうが正しい。

曖昧性検出部１０４は、新たに出力される目的言語文字列が、それ以前に出力された先行文脈における目的言語文字列に誤って係ると判定する。また、係り受け関係は「place_to」と判定される。よって、曖昧性検出部１０４は、英語での解釈に曖昧性が存在することを検出する。
語句生成部１０５は、図５に示す語句生成規則に従って、“as for”を付加語句８０１として生成する。語句付加部１０６が、付加語句８０１を目的言語文字列Ｔ４に付加し“as for to Asakusa”を生成する。これにより、“as for to Asakusa”、すなわち「浅草までに関しては」という解釈のみとなり、先行する目的言語文字列と切り分けた解釈ができ、原言語の意図を反映し、解釈に曖昧性を生じさせない翻訳文を提示することができる。

なお、本実施形態に係る語句生成部１０５は、係り受け関係を条件として付加語句を生成するが、その他の条件を用いて付加語句を生成してもよい。例えば、目的言語文字列を出力してからの経過時間、原言語の発話における無音区間の時間、目的言語文字列の長さ、原言語文字列の長さ、発声に必要な時間、曖昧性の強度の少なくとも１つに基づいて、生成される付加語句を決定してもよい。

具体的には、目的言語文字列を出力してからの経過時間が閾値よりも長い場合、または原言語の発話における無音区間の時間が閾値よりも長い場合は、ユーザ（発話者）が発言したい内容を忘れており内容を思い出しているとき、または発話者の発言（１つの文）が終了したときが想定される。このような場合、語句生成部１０５は、前後の文脈における係り受け関係が存在するかどうかにかかわらず、間投詞や、１つの文が終了したことを示す語または音響を付加語句として生成してもよい。

また、語句生成部１０５は、付加語句に優先度を設け、原言語文字列または目的言語文字列で用いられる言語の種類、発話内容の種類、話者の性別、年齢などに応じて、生成する付加語句を決定してもよい。例えば、話者が女性であり、付加語句として間投詞が生成される場合は、一般的な付加語句の規則よりも、女性が発言する可能性ある「あら」「そうねぇ」といった語句の優先度を高くすることで、これらの語句を付加語句として決定することができる。

以上に示した本実施形態に係る機械翻訳装置によれば、漸進的に訳出された目的言語文字列において、解釈曖昧性が発生する場合に、解釈の曖昧性を解消する語句を目的言語文字列に付加することで、ユーザが誤解する可能性を低減した翻訳結果を出力することができ、適切な同時通訳を実現することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した機械翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の機械翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・機械翻訳装置、１０１・・・音声取得部、１０２・・・解析部、１０３・・・翻訳部、１０４・・・曖昧性検出部、１０５・・・語句生成部、１０６・・・語句付加部、１０７・・・出力部、４０１，５０１・・・条件、４０２，５０２・・・生成語句、７０１，８０１・・・付加語句。

Claims

第１言語による発話を順次受け取り音声認識して、音声認識結果の文字列を示す認識結果文字列を得る取得部と、
前記認識結果文字列を翻訳処理を行なう単位で分割し、翻訳前の前記第１言語の文字列を示す複数の原言語文字列を得る解析部と、
前記複数の原言語文字列を、前記第１言語とは異なる言語である第２言語の文字列を示す目的言語文字列に時系列順に翻訳する翻訳部と、
前記目的言語文字列のうちの第１目的言語文字列と、該第１目的言語文字列よりも前記発話に関して過去に翻訳された結果である１以上の第２目的言語文字列との関係に基づいて、該第１目的言語文字列に対応する前記発話の内容に即した解釈に曖昧性が存在するかどうかを検出する検出部と、
前記曖昧性が存在すると検出された場合、前記第１目的言語文字列と前記第２目的言語文字列との間の係り受け関係を一意に解釈させるための語句を示す付加語句を前記第１目的言語文字列に付加する語句付加部と、を具備することを特徴とする機械翻訳装置。
前記曖昧性の種類に応じた付加語句を生成する語句生成部をさらに具備することを特徴とする請求項１に記載の機械翻訳装置。
前記語句生成部は、前記係り受け関係の係り受けの方向に応じて、真の係り受け先である第２目的言語文字列の用言から、付加語句を生成することを特徴とする請求項２に記載の機械翻訳装置。
前記語句生成部は、前記第１言語および前記第２言語の種類、前記発話の内容の種類、発話者の性別および該発話者の年齢の少なくとも１つに基づいて前記付加語句を決定することを特徴とする請求項２に記載の機械翻訳装置。
前記検出部は、前記第１目的言語文字列と前記第２目的言語文字列との間の語句の係り受け関係を解析し、複数の係り受け関係を有する第１目的言語文字列および複数の係り受け関係を有する第２目的言語文字列の少なくともどちらか一方が存在した場合に、前記曖昧性が存在すると検出することを特徴とする請求項１から請求項４のいずれか１項に記載の機械翻訳装置。
第１言語による発話を順次受け取り音声認識して、音声認識結果の文字列を示す認識結果文字列を得、
前記認識結果文字列を翻訳処理を行なう単位で分割し、翻訳前の前記第１言語の文字列を示す複数の原言語文字列を得、
前記複数の原言語文字列を、前記第１言語とは異なる言語である第２言語の文字列を示す目的言語文字列に時系列順に翻訳し、
前記目的言語文字列のうちの第１目的言語文字列と、該第１目的言語文字列よりも前記発話に関して過去に翻訳された結果である１以上の第２目的言語文字列との関係に基づいて、該第１目的言語文字列に対応する前記発話の内容に即した解釈に曖昧性が存在するかどうかを検出し、
前記曖昧性が存在すると検出された場合、前記第１目的言語文字列と前記第２目的言語文字列との間の係り受け関係を一意に解釈させるための語句を示す付加語句を前記第１目的言語文字列に付加することを具備することを特徴とする機械翻訳方法。
コンピュータを、
第１言語による発話を順次受け取り音声認識して、音声認識結果の文字列を示す認識結果文字列を得る取得手段と、
前記認識結果文字列を翻訳処理を行なう単位で分割し、翻訳前の前記第１言語の文字列を示す複数の原言語文字列を得る解析手段と、
前記複数の原言語文字列を、前記第１言語とは異なる言語である第２言語の文字列を示す目的言語文字列に時系列順に翻訳する翻訳手段と、
前記目的言語文字列のうちの第１目的言語文字列と、該第１目的言語文字列よりも前記発話に関して過去に翻訳された結果である１以上の第２目的言語文字列との関係に基づいて、該第１目的言語文字列に対応する前記発話の内容に即した解釈に曖昧性が存在するかどうかを検出する検出手段と、
前記曖昧性が存在すると検出された場合、前記第１目的言語文字列と前記第２目的言語文字列との間の係り受け関係を一意に解釈させるための語句を示す付加語句を前記第１目的言語文字列に付加する語句付加手段として機能させるための機械翻訳プログラム。