JP2008243076A

JP2008243076A - 翻訳装置、方法及びプログラム

Info

Publication number: JP2008243076A
Application number: JP2007085976A
Authority: JP
Inventors: Hiroshi Sasaki; 佐々木　　寛; Tetsuro Chino; 哲朗知野; Kazuo Sumita; 一男住田; Yoshimi Saito; 佳美齋藤; Dawei Xu; 大威徐; Ko Amada; 皇天田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-09

Abstract

【課題】多言語話者間での効率的な対話を可能にする。
【解決手段】第１の言語の例文に含まれている複数の単語及び句のそれぞれを意味的に抽象化した複数のクラス情報の構文木を蓄積する例文蓄積部と、第１の言語の文に含まれている複数の単語及び句のそれぞれを意味的に抽象化して、複数のクラス情報を特定する意味的抽象化部と、例文蓄積部に蓄積された例文の構文木と、特定されたクラス情報の構文木とが類似する場合に、特定されたクラス情報の構文木の抽象化前の複数の単語及び句の出力単位で分割する分割部と、第１の言語の単語及び句の出力単位と意味的に対応する、第２の言語の単語及び句の出力単位を生成する翻訳出力単位生成部と、第１の言語の単語及び句の出力単位と、生成された第２の言語の単語及び句の出力単位とを、対応する意味同士で対応付ける対応付部と、を備える。
【選択図】図２

Description

この発明は、第１の言語の文字列の組合せ又は第２言語の文字列を利用者に対して提示する翻訳装置、方法及びプログラムに関するものである。

近年、音声認識及び機械翻訳といった要素技術の研究が進んでいる。そして、これらを組み合わせることで、原言語による音声の入力を受け付けた場合、目的言語による翻訳文が出力される翻訳システムが実用化されつつある。

しかし、各要素技術にはまだ多くの技術的課題が残されている。このため、利用者の発話が常に正しく認識、翻訳されるほど精度の高いシステムの実現は困難であり、音声認識や翻訳に誤りが生じることが多い。

そこで、音声認識や翻訳に生じた誤りを修正する技術としては、例えば、特許文献１に記載された技術が提案されている。この特許文献１に記載された技術では、目的言語の話者に理解不能な箇所や原因の入力を受け付け、当該理解不能な箇所や原因を現言語話者に通知している。これにより、現言語話者が音声認識や翻訳による誤りを修正可能としている。

特開２００３−２９７７９号公報

しかしながら、特許文献１に記載された技術では、目的言語の話者が翻訳文における理解不能部分の指定に際し、翻訳文の一文全てを参照し、理解不能な箇所を判断してから、理解不能部分の範囲を指定する必要がある。このため、第２言語話者の作業が繁雑になると共に、時間がかかるのでスムーズな対話が損なわれるという問題が生じる。

本発明は、上記に鑑みてなされたものであって、多言語話者間での効率的な対話を可能にする翻訳装置、方法及びプログラムを提供することを目的としている。

上述した課題を解決し、目的を達成するために、本発明にかかる翻訳装置は、第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部と、前記第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定部と、前記蓄積部に蓄積された前記組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割部と、前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成部と、分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付部と、を備えることを特徴とする。

また、本発明にかかる翻訳方法は、第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成工程と、分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、を有することを特徴とする。

また、本発明にかかる翻訳プログラムは、第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成工程と、分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、をコンピュータに実行させる。

本発明によれば、第１の言語の文字列の組合せ又は第２の言語の文字列を利用者に提示することで、誤り箇所の特定が容易になり、効率的な対話を可能という効果を奏する。

以下に添付図面を参照して、この発明にかかる翻訳装置、方法及びプログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１に示すように、機械翻訳装置は、第１言語話者が操作する第１操作部１０１と、第２言語話者が操作する第２操作部１０２と、第１言語話者及び第２言語話者から入力された音声の音声認識、翻訳処理等を行う機械翻訳装置本体１００とから構成される。

また、第１操作部１０１は、第１言語話者の音声を受信するマイク１５１と、入力文又は出力文等を表示する液晶タッチパネル１５２と、入力文又は翻訳文を音声出力するスピーカ１５３と、第１言語話者の操作を受け付けるコントローラ１５４と、を備える。また、第２操作部１０２も同様に、マイク１６１と、液晶タッチパネル１６２と、スピーカ１６３と、コントローラ１６４とを備える。

図２に示すように、機械翻訳装置２００は、例文蓄積部２０１と、入力処理部２０２と、音声認識部２０３と、翻訳部２０４と、分割部２０５と、翻訳出力単位生成部２０６と、対応付部２０７と、第１提示部２０８と、アクション受付部２０９と、出力部２１０と、音声合成部２１１と、第２提示部２１２と、理由受付部２１３と、修正部２１４と、を備える。本実施の形態では、第１言語話者の音声を音声認識して得られた入力文を、第２言語の翻訳文に翻訳して、第２言語話者に翻訳文を提示する例について説明する。

例文蓄積部２０１は、第１言語の例文及び第２言語の例文を蓄積する。また、例文は予め形態素解析、構文解析が行われ、単語及び句の少なくとも一方の組合せた構文木（構文のツリー構造）として、例文蓄積部２０１に格納されている。また、例文蓄積部２０１は、単語又は句の辞書情報を格納している。

図３に示した例文データは、通常の文「ホットドックのマスタード抜きをお願いします。」が単語境界を意味するスラッシュ“／”で区切られている。さらに、例文データでは、通常の文に対して、構文解析情報を意味する左括弧“(”、右括弧、”)”、「NP」などの句の種類、「N」などの単語の種類を付加している。例文データは、この左括弧“(”、右括弧、”)”によりツリー構造を保持している。

また、例文蓄積部２０１に蓄積された例文データでは、通常の文に含まれている単語毎に単語クラス情報が付加され、句毎に句クラス情報が付加されている。図３に示す例では、単語クラス情報として“<クラス：料理名>”などの単語のクラスが付加されている。また、句クラス情報として“<役割：要求>”などの句の役割が付加されている。

単語クラス情報とは、抽象化した単語の意味を表す情報とする。句クラス情報は、抽象化した句の意味を表す情報とする。例えば、単語が「ホットドック」や「チーズバーガーの場合、単語クラス情報は「料理名」となる。

また、例文蓄積部２０１に蓄積されている例文の構文情報、単語クラス情報、句クラス情報は完全に正確でなければ利用することができないというわけではないが、精度が高い方が望ましい。

そして、本実施の形態にかかる機械翻訳装置２００は、例文蓄積部２０１に蓄積されている例文に基づいて、入力文及び翻訳文の出力単位を決定している。これにより、機械翻訳装置２００は、入力文および翻訳文の各箇所について誤りの可能性を予測し、誤りの可能性が低いと予測される箇所は長い出力単位で、誤りの可能性が高いと予測される箇所は短い出力単位で、話者に対して提示することができる。これにより、機械翻訳装置２００では、音声認識の誤り、構文解析の誤り、意味的抽象化の誤り、翻訳の誤りが生じた入力文又は翻訳文の箇所の特定及び修正が容易となるとともに、会話をスムーズに進めることが可能となる。

入力処理部２０２は、マイク１５１又はマイク１６１を介して、第１言語話者又は第２言語話者が発した音声情報の入力処理を行う。

音声認識部２０３は、入力処理された音声情報の認識処理を行い、テキスト情報に変換して、入力文を生成する。

翻訳部２０４は、音声認識部２０３が生成した入力文を翻訳して、翻訳文を生成する。

分割部２０５は、構文解析部２５１と、意味的抽象化部２５２と、判断部２５３と、分木分割部２５４と、を備え、入力文に対して、誤りの可能性が低いと予測される箇所は長い出力単位で、誤りの可能性が高いと予測される箇所は短い出力単位で分割する。

構文解析部２５１は、入力文に対して構文解析を行い、単語及び句で構成される構文木を生成する。なお、構文解析手法としては、形態素解析等の任意の解析手法を用いても良い。

意味的抽象化部２５２は、入力文の構文木に含まれる単語および句を意味的に抽象化し、単語クラス情報と、句クラス情報を生成する。このように単語クラス情報や、句クラス情報の生成手法としては、周知の手法を問わず、あらゆる手法を用いても良い。なお、本実施の形態にかかる生成手法の例については後述する。

判断部２５３は、入力文から生成された構文木に含まれる句又は単語で構成される部分木と、例文蓄積部２０１に蓄積されている例文に含まれる句又は単語で構成される部分木と、が類似するか否か判断する。なお、本実施の形態では、類似するか否かで判断するが、例えば一致するか否か等の他の判断手法を用いてもよい。

また、判断部２５３は、入力文から生成された単語クラス情報及び句クラス情報を組合せた部分構文と、例文蓄積部２０１に蓄積されている例文に含まれている句及び単語の単語クラス情報及び句クラス情報を組合せた部分構文と、が類似するか否か判断する。

分木分割部２５４は、判断部２５３で類似すると判断された部分構文を出力単位として、入力文を分割する。以下に分割手順の例を示す。

図４に示すように、入力文に含まれている構文木（または部分構文木）は、例文蓄積部に格納された例文に含まれる構文木と、類似するか否か判断する。そして類似すると判断された場合、分木分割部２５４は分割処理を行わずに、入力文に含まれていた当該構文木を出力単位とする。

そして、判断部２５３が類似しないと判断した場合に、分木分割部２５４は、現在の構文木の根となる分岐で分割する。そして、判断部２５３は分木分割部２５４により分割された部分構文木の各々に対して、例文蓄積部２０１に蓄積されている例文に含まれている構文木と類似するか否か判断する。

そして、判断部２５３及び分木分割部２５４が、当該処理を再帰的に行うことで、例文蓄積部２０１に蓄積されている例文の構文木と類似する長さ毎に入力文を分割することができる。

翻訳出力単位生成部２０６は、構文解析部２６１と、意味的抽象化部２６２と、出力単位分割部２６３と、を備え、翻訳文を分割した出力単位を生成する。

構文解析部２６１は、翻訳文に対して構文解析を行い、単語及び句で構成される構文木を生成する。意味的抽象化部２６２は、翻訳文の構文木に含まれる単語および句を意味的に抽象化し、単語クラス情報と、句クラス情報を生成する。

出力単位分割部２６３は、翻訳文に対して、分木分割部２５４で入力文を分割した出力単位と意味的に類似する単語及び句の組合せ毎に分割して、出力単位を生成する。

対応付部２０７は、分割部２０５で分割された入力文の出力単位と、翻訳出力単位生成部２０６で生成された翻訳文の出力単位とについて、意味的に同等な出力単位同士を対応付ける処理を行う。

音声合成部２１１は、入力文及び翻訳文に対して音声合成処理を行う。

第１提示部２０８は、入力文を出力単位毎に、第１操作部１０１を介して第１言語話者に提示する。提示手段としては、液晶タッチパネル１５２に入力文のテキスト情報を提示すると共に、音声合成処理された入力文を出力単位毎にスピーカ１５３から音声出力する。

第２提示部２１２は、翻訳文を出力単位毎に、第２操作部１０２を介して第２言語話者に提示する。提示手段は、第１提示部２０８と、同様に音声及びテキスト情報として、スピーカ１６３及び液晶タッチパネル１６２から提示する。

また、第１提示部２０８及び第２提示部２１２は、対応付部２０７において対応付けられた出力単位毎に、逐次的に提示することとする。なお、出力単位の出力順は、翻訳文の語順に従うものとする。

アクション受付部２０９は、第１操作部１０１から第１言語話者のアクション、及び第２操作部１０２から第２言語話者から所定のアクションを受け付ける。所定のアクションとは、例えば第１言語話者又は第２言語話者の発話等とする。そして、アクション受付部２０９が、第２言語話者による所定のアクションを受け付けることで、第２言語話者のアクションが出力された翻訳文の出力単位を理解したか否か判断することができる。

出力部２１０は、アクション受付部２０９が第２言語話者からの所定のアクションを受け付けた場合に、第２言語話者が当該出力単位を理解していない旨を、第１操作部１０１に対して出力する。

また、出力部２１０は、第１言語話者または第２言語話者に対して、逐次的に提示された入力文と翻訳文との出力単位に関して、修正のために必要な補助情報を、第１操作部１０１又は第２操作部１０２に対して出力する。

理由受付部２１３は、アクション受付部２０９が第２言語話者からの所定のアクションを受け付けた場合に、第２操作部１０２から提示した出力単位が理解不能であることの理由の入力を受け付ける。

そして、理由受付部２１３が受け付けた理由は、出力部２１０が第１操作部１０１に対して出力する。これにより、第１言語話者は、第２言語話者が翻訳文の出力単位を理解できなかった理由を知ることができる。

修正部２１４は、第１提示部２０８が提示していた入力文の出力単位や、第２提示部２１２が提示していた翻訳文の出力単位に対して、修正を行う。例えば、アクション受付部２０９が第２言語話者から所定のアクションを受け付けた時に、修正部２１４は、第１提示部２０８が提示していた入力文の出力単位や、第２提示部２１２が提示していた翻訳文の出力単位を、第１言語話者が発話した内容に基づいて修正する。

次に、図１に示す機械翻訳装置２００が音声の入力を受け付けてから入力文と翻訳文とを出力単位順に提示する処理手順について、図５を用いて説明する。なお、本フローチャートは第１言語話者から音声情報が入力された例について説明する。

入力処理部２０２は、第１言語話者の音声情報を入力処理する（ステップＳ４０１）。次に、音声認識部２０３が、入力処理した音声情報を認識して、テキスト情報に変換して、入力文を生成する（ステップＳ４０２）。

図６に示すように、第１言語話者が「チーズバーガーのピクルス抜きと、ハプシのアイス抜きをお願いします」と発話したものとする。また、「アイス」は「氷」の意図で発話されたものとする。なお、当該発話内容に含まれているハプシは、飲料の銘柄とする。

そして、入力処理部２０２が入力処理した後、音声認識部２０３が音声認識して生成された入力文は、「チーズバーガーのピクルス抜きと、武士のあいす抜きをお願いします」とする。つまり、第１言語話者が発話した「ハプシのアイス抜き」が、「武士のあいす抜き」として入力処理及び音声認識処理がなされたものとする。

図５に戻り、翻訳部２０４が、生成された入力文に対して翻訳処理を行い、翻訳文を生成する（ステップＳ４０３）。

図７に示すように、翻訳部２０４は翻訳文として「Please give me a cheese-burger without pickle and a Samrai without love.」を生成したものとする。図７に示した入力文の「あいす抜きで」の「あいす」は、「氷」の意味を表す「アイス」の意図で第１言語話者が発話されたものであるが、翻訳部２０４は「愛す」の意味に間違って翻訳している。このため、翻訳文では「without love」となっている。

次に分割部２０５、翻訳出力単位生成部２０６及び対応付部２０７が、入力文及び翻訳文の出力単位を設定し、意味的に類似する出力単位毎に対応付ける処理を行う（ステップＳ４０４）。

このステップＳ４０４による、入力文及び翻訳文の出力単位を設定し、意味的に類似する出力単位毎に対応付ける処理手順について、図８を用いて説明する。

まず、分割部２０５が、入力文を出力単位毎に分割する（ステップＳ８０１）。なお、出力単位については後述する。

次に、翻訳出力単位生成部２０６が、翻訳文を分割して、入力文の出力単位と意味的に類似する出力単位を生成する（Ｓ８０２）。

そして、対応付部２０７は、入力文の出力単位と、意味的に類似する翻訳文の出力単位とを対応付ける（ステップＳ８０３）。

次に、ステップＳ８０１〜Ｓ８０３の各処理の詳細について説明する。ステップＳ８０１における分割部２０５による入力文の分割処理手順について、図９を用いて説明する。

まず、分割部２０５の構文解析部２５１が、入力文の構文解析を行い、構文木を生成する（ステップＳ９０１）。なお、本実施の形態では、分割する際に構文解析を行うこととしているが、翻訳部２０４によって既に入力文と翻訳文が構文解析行われている場合は、その結果を再利用してもよい。

図１０は、構文解析部２５１により生成された入力文の構文木の例を示した図である。また、図１０に示すスラッシュ「/」は単語境界を意味している。

次に、意味的抽象化部２５２は、入力文の構文木の各単語及び各句に対して意味的な抽象化処理を行う（ステップＳ９０２）。

各単語の意味的な抽象化の例としては、固有表現抽出技術がある。本実施の形態では、固有表現とは、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名とする。つまり、任意の単語を意味的抽象化することで、これら固有表現を取得することができる。

この固有表現抽出技術は、例えば「言語処理学会第１０回年次大会」発表論文集(2004年3月)のpp.5〜8に掲載の論文「固有表現から専門用語」(著者：関根聡)に、当該技術に関する様々な手法が示されている。当該固有表現抽出技術を用いることで、各単語から、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名という、単語の意味的なクラスに変換することができる。また、本実施の形態ではこのような固有表現抽出技術を用いるが、各単語の意味的抽象化の手法としてはどのような手法を用いても良い。

また、意味的抽象化部２５２は、複数の単語から構成される句に対しても意味的役割を示すクラスに変換する。この変換手法は、どのような手法を用いても良いが、例えば、「FIT2002」情報技術レターズLD-8 pp.67-78(2002)された記載の論文「意味役割解析に基づく高適合英語文書の検索」（著者：酒井、小山、鈴木、真鍋）に記述されている意味役割解析技術を用いても良い。

かかる変換手法を用いることで、意味的抽象化部２５２は、句を抽象化して、「要求」、「質問」、「回答」、「意志がある」などの意味的役割を示すクラスにすることができる。

図１１に示すように、「チーズバーガー」などの単語は「料理名」などのクラスに、「を/お/願い/し/ます」などの句は「要求」などの役割に変換されていることが確認できる。

次に、判断部２５３は、入力文又は入力文の構文に、類似する例文又は例文の構文を、例文蓄積部２０１に対して検索する（ステップＳ９０３）。

そして、判断部２５３は、当該入力文又は入力文の構文と類似する（一致を含む）例文又は例文の構文が、例文蓄積部２０１に蓄積されているか否か判断する（ステップＳ９０４）。そして、判断部２５３は、蓄積されていないと判断した場合（ステップＳ９０４：Ｎｏ）、分木分割部２５４は入力文の構文木の根となる分岐で分割する（ステップＳ９０５）。

そして、判断部２５３は、分割された部分構文のそれぞれに対して、再び類似する例文又は例文の構文を、例文蓄積部２０１に対して検索する（ステップＳ９０３）。このような処理を再帰的に繰り返すことで、例文蓄積部２０１に蓄積された例文に含まれる構文と類似する構文毎に、入力文を分割する。

次に、判断部２５３による検索手法の例について説明する。本実施の形態で用いる検索手法としては、例として、入力文又はその部分構文に含まれる単語、品詞、部分構文、これらの組み合わせや、時系列パターンなどを、共通に多く含む例文を検索するという手法を用いることとする。

また、判断部２５３が、例文蓄積部２０１に対して類似文検索を行う際、単語や句を意味的抽象化したクラス、及び意味抽象化していない単語や、句そのもののうちいずれか一つ以上を検索キーとして用いて検索を行う。

また、判断部２５３は、意味抽象化していない単語や句そのものを検索キーとして用いて類似文の検索を行った場合、例文データ中に莫大な例文が蓄積していない限り、類似文を検出できないことも多い。これに対し、本実施の形態にかかる判断部２５３は、単語や句の意味的に抽象化を行ったクラスを検索キーとして検索も行っている。これによって、各単語又は句と類似していないが、クラスであれば類似するという場合が増加すると考えられる。つまり、意味的抽象化を行ったクラスを検索キーとして用いることで、例文データのスパースネスの問題を解決できる。

また、本実施の形態にかかる判断部２５３が、類似文を検索する際、入力文又は入力文の部分構文と、例文又は例文の部分構文との類似の度合いを示す類似度を計算することとする。また、この類似度の算出手法として、語や句が類似する場合は、語のクラスや句の役割のみが類似する場合と比較して、より高い値とすることが望ましい。なぜなら、語や句が類似する場合は、単語のクラスや句の役割のみが類似する場合よりも、より入力文が例文と類似しているとみなすことができるためである。

判断部２５３による、入力文又は入力文の部分構文と、例文又は例文の部分構文とが類似しているか否かの判定は、算出された類似度が設定された閾値より大きいか否かに基づいて判断する。例えば、判断部２５３は、算出された類似度が当該閾値よりも大きい値の場合に、当該入力文又は入力文の部分構文と類似していると判断する。また、判断部２５３は、算出された類似度が当該閾値よりも小さい値の場合に、当該入力文又は入力文の部分構文と類似していないと判断する。また、管理者が当該閾値を調節可能としても良い。管理者は、このような調節を行うことで、検索に適した閾値を設定するができる。

なお、本処理手順では入力文又はその部分構文に対して、類似分又は類似構文の検索を行った例について説明したが、入力文又はその部分構文に限らず、翻訳文又はその部分構文に対して行っても良い。

そして、判断部２５３が、入力文又は入力文の構文と類似する例文又は例文の構文が、例文蓄積部２０１に蓄積されていると判断した場合（ステップＳ９０４：Ｙｅｓ）、判断部２５３は、当該構文木に含まれている単語及び句を出力単位として設定する（ステップＳ９０６）。

図１２に示すように、部分構文木１の構文は例文に含まれている構文と類似せず、部分構文木２による構文は例文に含まれている構文と類似しているものとする。この場合、判断部２５３が部分構文木２による構文を出力単位とすると共に、分木分割部２５４が部分構文木１に対してさらに分割処理を行う。

図１３に示すように、部分構文木１を分割した部分構文木１―１による構文は例文に含まれている構文と類似せず、部分構文木１−２による構文も例文に含まれている構文と類似しなかったものとする。この場合、分木分割部２５４が部分構文木１―１及び部分構文木１−２に対してさらに分割処理を行う。

図１４に示すように、部分構文木１−１―１による構文、部分構文木１−１−２による構文、部分構文木１−２−１による構文及び部分構文木１―２−２による構文のそれぞれが例文に含まれている構文と類似したものとする。この場合、判断部２５３が、これら全ての構文木による構文を出力単位とする。

図１５に示すように、例文に含まれている構文と類似した構文毎に出力単位が設定されている。上述した処理手順で設定されたために、出力単位毎に文字列の長さが異なることが確認できる。

なお、本実施の形態にかかる判断部２５３は、図１５の「あいす抜き」の部分構文に相当する部分構文木１−２−２や、図１２の「お願いします」の部分構文に相当する部分構文木２に対しては例文データ中に類似構文が検出され、それ以外の部分構文でも例文と類似したこととした。しかしながら、これらの部分構文においては、判断部２５３が、例文の類似構文に類似しなかったために、構文解析結果の構文木のリーフ（葉）に相当する最小の単位を出力単位として設定されたものとしても良い。

つまり、入力文や翻訳文の部分構文のうち、例文データに蓄積されている例文中の部分構文と類似するものは、誤りの可能性が低い部分構文であると考えられる。そこで、本実施の形態では、入力文や翻訳文の部分構文のうち、例文蓄積部２０１に蓄積されている例文に類似する構文を可能な限り長く抽出する。このような抽出手法により、誤りの可能性が低いと予測される箇所は長い出力単位とし、誤りの可能性が高いと予測される箇所は短い出力単位とすることができる。

図９に戻り、判断部２５３は、入力文に含まれる全ての構文木について出力単位を設定したか否か判断する（ステップＳ９０７）。そして、全ての構文木について出力単位を設定していないと判断した場合（ステップＳ９０７：Ｎｏ）、さらに出力単位を設定していない構文木に対して、再びステップＳ９０３から処理を開始する。

また、判断部２５３は、全ての構文木について出力単位を設定したと判断した場合（ステップＳ９０７：Ｙｅｓ）、処理を終了する。

上述した処理手順により、誤りの可能性が低いと予測される箇所は長い出力単位とし、誤りの可能性が高いと予測される箇所は短い出力単位として、入力文を分割することができる。また、入力文ではなく翻訳文に対して上述した分割処理を行った場合も同様の効果を得ることができる。

次に、図８のステップＳ８０２における翻訳出力単位生成部２０６による翻訳文の分割処理手順について、図１６を用いて説明する。

まず、翻訳出力単位生成部２０６の構文解析部２６１は、翻訳文を構文解析して、構文木の生成を行う（ステップＳ１６０１）。なお、翻訳部２０４により構文解析が既に行われている場合、当該結果を再利用しても良い。

図１７に示すように、翻訳文はツリー構造（構文木）で生成されるものとする。複数の部分構文木で構成されている。また、図１０に示すスラッシュ「/」は単語境界を意味している。

図１７は、構文解析部２６１により生成された翻訳文の構文木の例を示した図である。図１７に示すように、構文解析部２６１は、翻訳文の構文木を生成する。

次に、意味的抽象化部２６２は、翻訳文の構文木の各単語及び各句に対して意味的な抽象化処理を行う（ステップＳ１６０２）。なお、当該処理は、上述した意味的な抽象化手法を用いればよいので、説明を省略する。

図１８に示すように、「a cheese-burger」などの単語は「FOOD_DISH」などのクラスに、「Please give me」などの句は「DEMAND」などの役割に変換されていることが確認できる。

そして、出力単位分割部２６３は、入力文の出力単位と意味的に対応する出力単位毎に分割する処理を行う（ステップＳ１６０３）。なお、この分割手法については、どのような手法を用いても良い。

図１９に示すように、入力文の出力単位と意味的に類似する構文毎に出力単位が設定されている。このように、一方の文（例えば入力文）の構文木から分割された出力単位は、過不足なく他方の文（例えば翻訳文）の構文木から分割された出力単位と、１対１に意味的に対応する必要がある。

そこで、本実施の形態とは異なるが、このように対応する出力単位を取得する手法の例について説明する。まず、翻訳部は、入力文の構文木に含まれている各単語、あるいは句に対して、第２言語による訳語を決定する。その後、翻訳部が、入力文の構文木中の各単語あるいは句を、決定した訳語に変換する。その後、翻訳出力単位生成部は、翻訳文の構文木を翻訳文の言語の語順にあうように変形処理を行う。これにより、翻訳文と、翻訳文の構文木を生成する。当該手法を用いた場合、翻訳文の構文木は入力文の構文木の単語、あるいは句を訳語に置き換えたものであるから、双方の各部分木は過不足なく他方の各部分木と１対１に意味的に対応することになる。

また、訳語を決定する際に、第一言語話者が意図した意味ではない誤った訳語が決定されることも考えられる。この誤った訳語が決定された場合、当該誤った訳語を含む翻訳文の部分構文木と、それと対応関係にある入力文の部分構文木は、第１言語話者の意図としては意味的には類似しない。しかしながら、話者の意図する意味として類似することは必要ではなく、入力文の単語又は句の組み合わせた部分構文木と、翻訳文の訳語を組み合わせた部分構文木とが、構文解析上対応していればよい。

本実施の形態に戻り、図８のステップＳ８０３において、対応付部２０７は、入力文の出力単位と、意味的に類似する翻訳文の出力単位とを対応付ける。図２０に示すように、対応付部２０７は、翻訳文の出力単位と、入力文の出力単位と、を意味的に対応する出力単位同士で対応付けている。また、対応付部２０７は、翻訳文の順を、対応付けられた各出力単位の提示順として設定する。

図５に戻り、音声合成部２１１が、入力文及び翻訳文に対して音声合成処理を行う（ステップＳ４０５）。なお、音声合成部２１１は、出力単位毎に音声出力可能な形式で音声合成処理を行うこととする。

そして、第１提示部２０８は、第１操作部１０１に対して、入力文から生成された出力単位を、翻訳文の出力単位順に提示する（ステップＳ４０６）。

図２１に示すように、第１操作部１０１は、入力文の出力単位を、スピーカ１５３から音声出力すると共に、液晶タッチパネル１５２上に表示処理を行っている。

なお、本実施携帯は、音声出力と表示処理により、出力単位を提示しているが、このような提示手法に制限するものではなく、あらゆる提示手法を用いて良い。

次に、アクション受付部２０９は、第１操作部１０１を介して、第１言語話者のアクションを受け付けたか否か判断する（ステップＳ４０７）。

図２２に示すように、液晶タッチパネル１５２に提示された「はい」ボタンの押下という、利用者からのアクションを受け付けたことで、修正を行うことと判断できる。なお、液晶タッチパネル１５２に提示された「はい」ボタンの押下ではなく、第１言語話者の発話などをトリガーとして、修正を行うことしても良い。

図２２で示した例では、第１言語話者が液晶タッチパネル１５２上のボタンの押下により修正を行うか否かを決定しているが、他の例としては、音声コマンドを利用して修正を行うか決定しても良い。例えば、第１言語話者による「修正」等の所定の文言の発声が入力された場合に、アクション受付部２０９が修正を受け付けたものと判断する。また、音声コマンドとは、発話された音声が入力された場合に、当該音声に対応付けられた所定の制御モードを実行する機能のことをいう。なお、音声コマンドをあらかじめ設定された候補に限定することで、通常の音声認識よりも高い認識精度で、当該音声コマンドを認識することが可能となる。

また、アクション受付部２０９のアクション受け付け手法は上述した手法に限らず、例えば、第１言語話者からの修正指示が数秒間ない場合、修正不要と判定してもよい。

アクション受付部２０９が第１言語話者からアクションを受け付けたと判断した場合（ステップＳ４０７：Ｙｅｓ）、修正部２１４の入力文修正部２７１は、提示していた入力文の出力単位の修正を受け付ける（ステップＳ４０８）。そして、修正部２１４は、第１言語話者から受け付けた内容で、当該出力単位に対して修正を行う（ステップＳ４０９）。この場合、修正部２１４の入力文修正部２７１が入力文の出力単位を修正すると共に、翻訳文修正部２７２が対応する翻訳文の出力単位の修正を行うこととする。

なお、修正手法としては、第１言語話者が正しい内容を音声で発話する形式でも良いし、第１言語話者が液晶タッチパネル１５２に対して正しい内容を入力してもよい。

図２３に示すように、修正部２１４は、第１言語話者の発話を受け付け、当該発話内容で出力単位を修正する。

図２３で示した例では、修正部２１４が第１言語話者のアクションに基づき入力文の出力単位を修正する。このように、本実施の形態では、第１言語話者が、予め発話の音声認識結果を確認することで、音声認識誤りを修正することとしている。

その後、アクション受付部２０９は、液晶タッチパネル１５２を介して、再度修正を行うか否かの確認を第１言語話者に対して促す。そして、利用者から「いいえ」ボタン２３０１の押下を受け付けた場合に、次のステップＳ４１０の処理を行うこととする。

また、このような「いいえ」ボタン２３０１の押下を受け付ける以外に、第１言語話者の発声、又は第１言語話者からの修正指示が数秒間ない場合に、アクション受付部２０９が再度の修正処理が不要と判定してもよい。このような手法を用いることで、第１言語話者は、１度のみならず、何度でも修正することが可能となる。

上述した例では、修正部２１４は、音声認識誤りである「武士の」を「ハプシの」に修正するとともに、翻訳文の出力単位「Samurai」を「Hapsi」に修正する。

その後、第２提示部２１２は、第２操作部１０２に対して、ステップＳ４０６で提示した入力文の出力単位に対応する翻訳文の出力単位を提示する（ステップＳ４１０）。これにより、各出力単位を提示する順番は、翻訳文の順番に従うこととなる。

なお、ステップＳ４０９で翻訳文の出力単位の修正が行われた場合、第２提示部２１２は、修正された後の出力単位を提示する。上述した例だと、「Samurai」から「Hapsi」に修正されているため、図２４に示すように、「Hapsi」として第２言語話者に対して提示される。

また、図２４では、第２操作部１０２は、翻訳文の出力単位を、スピーカ１５３から音声出力すると共に、液晶タッチパネル１５２上に表示処理を行っている。なお、第２提示部２１２により提示された出力単位は、第１言語話者が誤っているか否かを確認し、誤っている場合については修正が行われた後のものである。このため、第２言語話者は誤って理解することを低減させ、第１言語話者と第２言語話者との会話をスムーズにすることが可能となる。

その後、アクション受付部２０９が、第２操作部１０２を介して、第２言語話者の所定のアクションを受け付けたか否か判断する（ステップＳ４１１）。

そして、アクション受付部２０９が所定のアクションを受け付けたと判断した場合（ステップＳ４１１：Ｙｅｓ）、修正部２１４が入力文及び翻訳文の出力単位の修正を行う（ステップＳ４１２）。

また、第２言語話者から受け付けるアクションについては、理解可能・不能の判定を行うことができる形式であれば、どのようなアクションでも良い。受け付けるアクションの例として、本実施の形態では「自然発話」、「音声コマンド」、「タッチパネルによる選択」を用いることとする。

自然発話では、第２言語話者により発話された自然な発話、「Yeah!」、「Yep!」、「What!」、「Uh-uh」等を理解可能・不能を示すアクションとして受け付ける。これらアクションの認識方法としては、ファジー推論などの推論規則に基づく手法がある。また、発話中の音素や単語、その組み合わせ、並びなどを素性とし、理解可能・不能をそのラベルとした学習データを事前に作成し、その学習データに基づいて自然な発話を理解可能・不能のどちらかに振り分けるかを機械学習し、第２言語話者の発話を、機械学習結果に従って理解可能・不能のいずれかを示すアクションかを自動判定する手法などがある。

音声コマンドでは、所定の発話「OK.」、「Got it.」、「No.」、「No idea.」などを、「理解可能」及び「理解不能」の何れかを示すか予め対応付けておく。そして、第２言語話者は、当該所定の発話を行うことによって、理解可能・不能を指示することができる。

タッチパネルによる選択では、液晶タッチパネル画面１６２上に「理解可能」および「理解不能」を表示し、第２言語話者からこれらのうちいずれかのタッチを受け付けることで、理解可能・不能を指示することができる。

図２５に示すように、第２提示部２１２は、「あいす抜き」の誤訳である「without love」を出力単位として提示している。第２提示部２１２が、このような出力単位を提示した場合、第２言語話者は理解できないものと考えられる。

図２６に示すように、第２言語話者は提示された出力単位が理解できなかったため、「Ｗｈａｔ！！」と自然に発話して反応したものとする。そして、アクション受付部２０９は、当該発話を所定のアクションとして、入力を受け付けるものとする。つまり、アクション受付部２０９は、上述した自然な発話から理解可能・不能の認識を行う手法で、「Ｗｈａｔ！！」という発話から、第２言語話者が「理解不能」であることを認識してものとする。

次に、第２言語話者のアクションを受け付けた場合に、入力文及び翻訳文の出力単位の修正の手順について、図２７を用いて説明する。

まず、理由受付部２１３は、第２操作部１０２を介して、第２言語話者から理解できなかった理由の入力を受け付ける（ステップＳ２５０１）。

図２８に示した例では、第２言語話者は、理解できなかった理由として「no meaning（理解不能）」を選択したものとする。また、理由の受け付け手法としては、例えば音声コマンドを利用して、第２言語話者による「no meaning」等の発声により、理解できなかった理由を受け付けても良い。

そして、出力部２１０は、第２言語話者が提示された翻訳文の出力単位を理解できなかった旨を、第１操作部１０１を介して通知する（ステップＳ２５０２）。また、出力部２１０は、当該通知を行う際に、修正する際に参考となる補助情報も通知する。

補助情報としては、ステップＳ２５０１で受け付けた理解できなかった理由、入力文に係る構文解析情報、提示された出力単位に含まれる単語又は句による単語クラス情報又は句クラス情報、辞書情報、提示された翻訳文の出力単位をさらに第１言語に翻訳した結果である逆翻訳結果等とする。また、これら以外の情報を補助情報として提示しても良いし、これらを任意に組合せてもよい。

図２９に示すように、出力部２１０は、「お相手は次の箇所が理解できません」２９０１と文字列で、理解できなかった旨を通知している。また、通知方法としては他に「お相手は次の箇所が理解できません」という文を音声合成し、当該音声により通知する方法もある。

図２９に示すように、出力部２１０は、第２言語話者が理解できなかった翻訳文の出力単位である「without love」に対応付けられた、入力文の出力単位である「あいす抜き」２９０２を通知している。

また、出力部２１０は、第２言語話者が理解できなかった理由「no meaning」を訳である「意味が無い」２９０３を通知している。さらに、出力部２１０は、「without love」を逆翻訳した結果「愛なしで」２９０４を通知している。また、出力部２１０は、「あいす抜き」の意味的抽象化結果である、「[クラス：感情]抜き」２９０５を通知している。

第１言語話者は、図２９に示した通知内容を参照することで、第２言語話者が翻訳文を理解できなかった理由が、翻訳文が常識的な意味をなしていないためであり、言語的な曖昧性のために理解不能なのではないことを認識できる。また、第１言語話者は、「愛なしで」２９０２や「[クラス：感情]抜き」２９０５により、「あいす」が感情を意味する「愛す」の意味に誤って翻訳されたことを認識できる。

次に、修正部２１４の入力文修正部２７１は、第１言語話者のアクションに基づいて、入力文の出力単位を修正する（ステップＳ２５０３）。なお、ステップＳ２５０３における入力文の修正は、翻訳誤りの修正を目的としたものである。つまり、音声認識誤りは、上述したステップＳ４０９で修正されていることによる。

修正部２１４の入力文修正部２７１による修正は、第１言語話者が正しい内容を音声で発話する形式でも良いし、キーボードによるタイピング入力でもよい。図３０に示すように、修正部２１４は、第１言語話者の発話を受け付け、当該発話内容で出力単位を修正する。

図３０に示す例では、翻訳誤り「あいす抜き」が「氷抜き」に修正されている例を示している。上述したように、第１言語話者は「あいす」が感情を意味する「愛す」の意味に誤って翻訳されたことを認識しているため、「あいす抜き」の替わりに「氷抜き」と音声発話することで、修正をおこなっている。その他の修正方法としては、液晶タッチパネル１５２からのソフトキーボード等のタイピング入力により「アイス抜き」を直接入力してもよい。

また、キーボード入力をした場合、「愛須抜き」、「あ椅子抜き」、「相須抜き」などのように正しくない変換結果の中から、正しい変換結果を選択することは時間がかかるという問題もある。そこで、このような問題点を解決する修正方法を以下に説明する。

まず、入力文修正部２７１の指示により構文解析部２５１が、変換候補の「アイス抜き」、「愛須抜き」、「あ椅子抜き」、「相須抜き」などを構文解析及び意味的抽象化する。そして、判断部２５３が、例文蓄積部２０１中の例文データから類似構文の検索を行う。

そして、入力文修正部２７１は、検索結果において、類似構文が検出された変換候補、あるいは類似度が大きい順に上位数件の変換候補を新たな変換候補とする。

そして、第１提示部２０８は、得られた変換候補を、翻訳装置のタッチパネル画面に提示する。そして、第１言語話者は、提示された変換候補のうち正しい候補を選択する。そして、入力文修正部２７１は、選択された候補を出力単位として設定する。

このような処理を行うことで、多くある変換候補から、正しい可能性が高い候補に絞り込むことができる。これにより、第１言語話者が正しい候補を選択するための作業負担を低減できる。

また、図３０に示すように、修正がなされた後、液晶タッチパネル１５２での選択、第１言語話者の発声、あるいは第１言語話者からの修正指示が数秒間ない場合等に基づいて、入力文修正部２７１は、再度、修正を行うか否かを判断する。例えば利用者が「いいえ」ボタン３００１を選択した場合、修正が終了したものと判断する。このような処理を行うことで、第１言語話者は、何度でも修正することが可能となる。

図２７に戻り、翻訳文修正部２７２は、ステップＳ２５０３で修正された入力文の出力単位の修正に伴い、対応付けられた翻訳文の出力単位を修正する（ステップＳ２５０４）。上述した例で、入力文の出力単位である「あいす抜きで」が「氷抜きで」に修正されていることに伴い、翻訳文修正部２７２は、「あいす抜きで」に対応する翻訳文の出力単位である「without love」を、「氷抜きで」を翻訳部２０４が翻訳した「without ice」に修正する。

上述した処理手順により、入力文の出力単位の誤訳が訂正されたものとする。

図２８に戻り、ステップＳ４１２による修正処理が終了した後、第２提示部２１２は、再度、翻訳文の出力単位を提示する（ステップＳ４１１）。

図３１に示す例では、翻訳文の出力単位が「without Ice」に修正されていることが確認できる。

そして、第２言語話者から所定のアクションを受け付けなかった場合（ステップＳ４１１：Ｎｏ）、第２提示部２１２は、第２言語話者に全ての翻訳文の出力単位を提示したか否か判断する（ステップＳ４１３）。出力単位を提示していなかったと判断した場合（ステップＳ４１３：Ｎｏ）、第１提示部２０８による入力文の出力単位の提示から行われる（ステップＳ４０６）。

また、第２提示部２１２は、全ての出力単位を提示したと判断した場合（ステップＳ４１３：Ｙｅｓ）、処理を終了する。

なお、本実施の形態では、例文蓄積部２０１に蓄積された第１言語の例文を用いて入力文を分割してから翻訳文を分割する例について説明した。しかしながら、第１言語の入力文を入力処理し、当該入力文を翻訳して第２言語の翻訳文を生成した後、例文蓄積部２０１に蓄積された第２言語の例文を用いて翻訳文を分割し、さらに当該分割結果に基づいて翻訳文を分割した出力単位と意味的に対応する単位毎に入力文を分割しても良い。

なお、本実施の形態では、２分木を用いた例について説明したが、構文木を２分木に制限するものではなく３分木又はそれ以上の多分木を用いても良い。

また、本実施の形態では、入力処理した音声情報の音声認識を行って入力文を生成する体について示したが、このような入力手法に限らず、例えば、キーボードによるタイピング入力、タッチパネルによるタッチ入力等を用いて入力しても良い。

上述した実施形態によれば、入力文及び翻訳文を分割する際に、誤りの可能性が低いと予測される箇所は長い単位とし、誤りの可能性が高いと予測される箇所は短い単位で分割することが可能となる。これにより、誤りの可能性が少ない箇所については長い単位で利用者に対して提示し、誤りの可能性が大きい箇所については短い単位で利用者に提示することができる。これにより、翻訳文で誤っている箇所の特定が容易になるとともに、会話をスムーズにすることが可能となる。

また、本実施の形態にかかる機械翻訳装置では、入力文又は翻訳文の確認、修正などが容易に行うことができるので、多言語話者間での効率的な対話を可能としている。

また、機械翻訳装置２００では、入力文又は翻訳文に含まれている単語や句を意味的抽象化したクラス情報で、例文蓄積部２０１に格納された例文に含まれているクラス情報と一致するか否か判断するので、一致する句や単語を含む例文がなくとも、入力文や翻訳文を例文に従って分割することができるので、入力文や翻訳文の誤っている箇所の特定が容易になる。これにより、効率的な会話を可能とすることができる。

図３２に示すように、上述した実施の形態にかかる機械翻訳装置２００は、ハードウェア構成として、翻訳プログラムなどが格納されているＲＯＭ３３０２と、ＲＯＭ３３０２内のプログラムに従って当該装置の各部を制御するＣＰＵ３３０１と、当該装置の制御に必要な種々のデータを記憶するＲＡＭ（Random Access Memory）３３０３と、ハードディスク３３０４と、各部を接続するバス３３０５と、を備えている。また、機械翻訳装置２００は、上述した構成を備えた一般的なコンピュータに適用することができる。

上述した実施の形態にかかる機械翻訳装置２００で実行される翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

この場合には、翻訳プログラムは、機械翻訳装置２００において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、上述した実施の形態にかかる機械翻訳装置２００で実行される翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる機械翻訳装置２００で実行される翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

実施の形態にかかる機械翻訳装置の機器構成を示した概要図である。実施の形態にかかる機械翻訳装置の構成を示すブロック図である。実施の形態にかかる例文蓄積部に蓄積された例文データのデータ形式の例を示した図である。実施の形態にかかる判断部の判断結果に従って、分木分割部が構文木を分割する処理を示した説明図である。実施の形態にかかる機械翻訳装置が音声の入力を受け付けてから入力文と翻訳文とを出力単位順に提示する処理手順を示すフローチャートである。第１言語話者が発話した内容から音声認識して入力文を生成した例を示した説明図である。実施の形態にかかる翻訳部が入力文を翻訳して翻訳文を生成した例を示した説明図である。実施の形態にかかる入力文及び翻訳文を出力単位毎に分割して、意味的に一致する出力単位毎に対応付ける処理手順を示すフローチャートである。実施の形態にかかる分割部による入力文の分割処理手順を示すフローチャートである。実施の形態にかかる構文解析部により生成された、入力文の構文木の例を示す図である。実施の形態にかかる意味的抽象化部により意味的な抽象化処理が行われた構文木の例を示した図である。実施の形態にかかる判断部による、入力文を分割したそれぞれの部分構文木による構文と、例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。実施の形態にかかる判断部による、入力文を分割した部分構文木をさらに分割したそれぞれの部分構文木による構文に対して例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。実施の形態にかかる判断部による、図１３に示した部分構文木をさらに分割したそれぞれの部分構文木による構文に対して、例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。実施の形態にかかる判断部により入力文から設定された出力単位の例を示した図である。実施の形態にかかる翻訳出力単位生成部による翻訳文の分割処理手順を示すフローチャートである。実施の形態にかかる構文解析部により生成された翻訳文の構文木の例を示した図である。実施の形態にかかる意味的抽象化部により意味的な抽象化処理が行われた構文木の例を示した図である。実施の形態にかかる出力単位分割部により翻訳文を分割した出力単位の例を示した図である。実施の形態にかかる対応付部により対応付けられた出力単位の例を示した図である。実施の形態にかかる第１提示部が、第１操作部に対して入力文の出力単位を提示した例を示した図である。実施の形態にかかるアクション受付部は、液晶タッチパネルを介して、第１言語話者から修正するための入力を受け付けた例を示した図である。実施の形態にかかる修正部が、スピーカを介して、第１言語話者の発話から出力単位を修正する例を示した図である。実施の形態にかかる第２提示部が、第２操作部に対して翻訳文の出力単位を提示した例を示した図である。実施の形態にかかる第２提示部が、第２操作部に対して翻訳文の出力単位を提示した例を示した図である。実施の形態にかかるアクション受付部が、スピーカ、第２言語話者から発せられた音声の入力を受け付けた例を示した図である。第２言語話者のアクションを受け付けた場合に、入力文及び翻訳文の出力単位の修正する処理手順を示したフローチャートである。第２操作部より第２言語話者から理解できなかった理由を液晶タッチパネルから入力を受け付けている例を示した図である。実施の形態にかかる出力部が、第１操作部を介して、理解できなかった翻訳文の出力単位に対応する入力文の出力単位を通知した例を示した図である。実施の形態にかかる修正部が、スピーカを介して、第１言語話者の発話から出力単位を修正する例を示した図である。実施の形態にかかる第２提示部が、第２操作部に対して、修正された翻訳文の出力単位を再度提示した例を示した図である。機械検索装置のハードウェア構成を示した図である。

符号の説明

１００機械翻訳装置本体
１０１第１操作部
１０２第２操作部
１５１、１６１マイク
１５２、１６２液晶タッチパネル
１５３、１６３スピーカ
１５４、１６４コントローラ
２００機械翻訳装置
２０１例文蓄積部
２０２入力処理部
２０３音声認識部
２０４翻訳部
２０５分割部
２０６翻訳出力単位生成部
２０７対応付部
２０７部
２０８第１提示部
２０９アクション受付部
２１０出力部
２１１音声合成部
２１２第２提示部
２１３理由受付部
２１４修正部
２５１構文解析部
２５２意味的抽象化部
２５３判断部
２５４分木分割部
２６１構文解析部
２６２意味的抽象化部
２６３出力単位分割部
２７１入力文修正部
２７２翻訳文修正部
３３０１ＣＰＵ
３３０２ＲＯＭ
３３０３ＲＡＭ
３３０４ハードディスク
３３０５バス

Claims

第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部と、
前記第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定部と、
前記蓄積部に蓄積された前記組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割部と、
前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成部と、
分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付部と、
を備えることを特徴とする翻訳装置。
前記蓄積部は、さらに、前記第１の言語の例文に含まれている文字列の組合せを蓄積し、
前記分割部は、前記蓄積部に蓄積された前記文字列の組合せと、前記第１の言語の文に含まれている複数の文字列の組合せとが類似する場合に、類似した前記第１の言語の文に含まれている複数の前記文字列の組合せ単位で分割すること、
を特徴とする請求項１に記載の翻訳装置。
前記第１の言語の前記文字列の組合せ又は前記第２の言語の前記文字列毎に、利用者に対して提示する提示部と、
前記提示が行われる毎に、利用者からアクションを受け付けるアクション受付部と、
前記アクションを受け付けたことを、他の利用者に対して出力する出力部と、
をさらに備えることを特徴とする請求項１又は２に記載の翻訳装置。
前記第１の言語の文を入力処理する入力処理部と、
入力された前記第１の言語の文を翻訳して、前記第２の言語の文を生成する翻訳部と、をさらに備え、
前記生成部は、生成された前記第２の言語の文に含まれる複数の文字列から、前記第１の言語の文を分割した文字列の組合せと意味的に対応する文字列を生成すること、
を特徴とする請求項１乃至３のいずれか１つに記載の翻訳装置。
前記第２の言語の文を入力処理する入力処理部と、
入力された前記第２の言語の文を翻訳して、前記第１の言語の文を生成する翻訳部と、をさらに備え、
前記生成部は、前記第２の言語の文に含まれる文字列から、前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、前記第２の言語の文字列を生成すること、
を特徴とする請求項１乃至４のいずれか一つに記載の翻訳装置。
前記第１の言語の文を構文解析して、前記第１の言語の文に含まれる文字列を組み合わせた構文木情報を生成する構文解析部をさらに備え、
前記蓄積部は、前記組合せ情報として、例文に含まれている文字列を意味的に抽象化したクラス情報から構成された構文木情報を蓄積し、
前記分割部は、前記蓄積部に蓄積された前記構文木情報に含まれる部分構文木と、生成された前記構文木情報に含まれる部分構文木を、特定した前記クラス情報で構成した構文木と、が類似する場合に、類似する構文木に含まれる複数の前記クラス情報のそれぞれの抽象化前の複数の前記文字列の組合せ単位で分割すること、
を特徴とする請求項１乃至５のいずれか一つに記載の翻訳装置。
前記アクション受付部は、利用者からの発話、音声による指示を示す音声コマンド、又は操作部に対する操作を受け付けること、
を特徴とする請求項１乃至６のいずれか一つに記載の翻訳装置。
前記第１の言語による音声情報を入力処理する入力処理部と、
前記入力処理された前記第１の言語の音声情報から、テキスト情報である前記第１の言語の文を生成する音声認識部と、
をさらに備えることを特徴とする請求項１に記載の翻訳装置。
第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、
第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、
前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成工程と、
分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、
を有することを特徴とする翻訳方法。
第１の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、
第１の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、
前記第１の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第２の言語の文字列を生成する生成工程と、
分割された前記第１の言語の前記文字列の組合せと、生成された前記第２の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、
をコンピュータに実行させる翻訳プログラム。