JP2008243076A - 翻訳装置、方法及びプログラム - Google Patents

翻訳装置、方法及びプログラム Download PDF

Info

Publication number
JP2008243076A
JP2008243076A JP2007085976A JP2007085976A JP2008243076A JP 2008243076 A JP2008243076 A JP 2008243076A JP 2007085976 A JP2007085976 A JP 2007085976A JP 2007085976 A JP2007085976 A JP 2007085976A JP 2008243076 A JP2008243076 A JP 2008243076A
Authority
JP
Japan
Prior art keywords
language
sentence
unit
combination
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007085976A
Other languages
English (en)
Inventor
Hiroshi Sasaki
佐々木  寛
Tetsuro Chino
哲朗 知野
Kazuo Sumita
一男 住田
Yoshimi Saito
佳美 齋藤
Dawei Xu
大威 徐
Ko Amada
皇 天田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007085976A priority Critical patent/JP2008243076A/ja
Publication of JP2008243076A publication Critical patent/JP2008243076A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】多言語話者間での効率的な対話を可能にする。
【解決手段】第1の言語の例文に含まれている複数の単語及び句のそれぞれを意味的に抽象化した複数のクラス情報の構文木を蓄積する例文蓄積部と、第1の言語の文に含まれている複数の単語及び句のそれぞれを意味的に抽象化して、複数のクラス情報を特定する意味的抽象化部と、例文蓄積部に蓄積された例文の構文木と、特定されたクラス情報の構文木とが類似する場合に、特定されたクラス情報の構文木の抽象化前の複数の単語及び句の出力単位で分割する分割部と、第1の言語の単語及び句の出力単位と意味的に対応する、第2の言語の単語及び句の出力単位を生成する翻訳出力単位生成部と、第1の言語の単語及び句の出力単位と、生成された第2の言語の単語及び句の出力単位とを、対応する意味同士で対応付ける対応付部と、を備える。
【選択図】 図2

Description

この発明は、第1の言語の文字列の組合せ又は第2言語の文字列を利用者に対して提示する翻訳装置、方法及びプログラムに関するものである。
近年、音声認識及び機械翻訳といった要素技術の研究が進んでいる。そして、これらを組み合わせることで、原言語による音声の入力を受け付けた場合、目的言語による翻訳文が出力される翻訳システムが実用化されつつある。
しかし、各要素技術にはまだ多くの技術的課題が残されている。このため、利用者の発話が常に正しく認識、翻訳されるほど精度の高いシステムの実現は困難であり、音声認識や翻訳に誤りが生じることが多い。
そこで、音声認識や翻訳に生じた誤りを修正する技術としては、例えば、特許文献1に記載された技術が提案されている。この特許文献1に記載された技術では、目的言語の話者に理解不能な箇所や原因の入力を受け付け、当該理解不能な箇所や原因を現言語話者に通知している。これにより、現言語話者が音声認識や翻訳による誤りを修正可能としている。
特開2003−29779号公報
しかしながら、特許文献1に記載された技術では、目的言語の話者が翻訳文における理解不能部分の指定に際し、翻訳文の一文全てを参照し、理解不能な箇所を判断してから、理解不能部分の範囲を指定する必要がある。このため、第2言語話者の作業が繁雑になると共に、時間がかかるのでスムーズな対話が損なわれるという問題が生じる。
本発明は、上記に鑑みてなされたものであって、多言語話者間での効率的な対話を可能にする翻訳装置、方法及びプログラムを提供することを目的としている。
上述した課題を解決し、目的を達成するために、本発明にかかる翻訳装置は、第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部と、前記第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定部と、前記蓄積部に蓄積された前記組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割部と、前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成部と、分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付部と、を備えることを特徴とする。
また、本発明にかかる翻訳方法は、第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成工程と、分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、を有することを特徴とする。
また、本発明にかかる翻訳プログラムは、第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成工程と、分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、をコンピュータに実行させる。
本発明によれば、第1の言語の文字列の組合せ又は第2の言語の文字列を利用者に提示することで、誤り箇所の特定が容易になり、効率的な対話を可能という効果を奏する。
以下に添付図面を参照して、この発明にかかる翻訳装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1に示すように、機械翻訳装置は、第1言語話者が操作する第1操作部101と、第2言語話者が操作する第2操作部102と、第1言語話者及び第2言語話者から入力された音声の音声認識、翻訳処理等を行う機械翻訳装置本体100とから構成される。
また、第1操作部101は、第1言語話者の音声を受信するマイク151と、入力文又は出力文等を表示する液晶タッチパネル152と、入力文又は翻訳文を音声出力するスピーカ153と、第1言語話者の操作を受け付けるコントローラ154と、を備える。また、第2操作部102も同様に、マイク161と、液晶タッチパネル162と、スピーカ163と、コントローラ164とを備える。
図2に示すように、機械翻訳装置200は、例文蓄積部201と、入力処理部202と、音声認識部203と、翻訳部204と、分割部205と、翻訳出力単位生成部206と、対応付部207と、第1提示部208と、アクション受付部209と、出力部210と、音声合成部211と、第2提示部212と、理由受付部213と、修正部214と、を備える。本実施の形態では、第1言語話者の音声を音声認識して得られた入力文を、第2言語の翻訳文に翻訳して、第2言語話者に翻訳文を提示する例について説明する。
例文蓄積部201は、第1言語の例文及び第2言語の例文を蓄積する。また、例文は予め形態素解析、構文解析が行われ、単語及び句の少なくとも一方の組合せた構文木(構文のツリー構造)として、例文蓄積部201に格納されている。また、例文蓄積部201は、単語又は句の辞書情報を格納している。
図3に示した例文データは、通常の文「ホットドックのマスタード抜きをお願いします。」が単語境界を意味するスラッシュ“/”で区切られている。さらに、例文データでは、通常の文に対して、構文解析情報を意味する左括弧“(”、右括弧、”)”、「NP」などの句の種類、「N」などの単語の種類を付加している。例文データは、この左括弧“(”、右括弧、”)”によりツリー構造を保持している。
また、例文蓄積部201に蓄積された例文データでは、通常の文に含まれている単語毎に単語クラス情報が付加され、句毎に句クラス情報が付加されている。図3に示す例では、単語クラス情報として“<クラス:料理名>”などの単語のクラスが付加されている。また、句クラス情報として“<役割:要求>”などの句の役割が付加されている。
単語クラス情報とは、抽象化した単語の意味を表す情報とする。句クラス情報は、抽象化した句の意味を表す情報とする。例えば、単語が「ホットドック」や「チーズバーガーの場合、単語クラス情報は「料理名」となる。
また、例文蓄積部201に蓄積されている例文の構文情報、単語クラス情報、句クラス情報は完全に正確でなければ利用することができないというわけではないが、精度が高い方が望ましい。
そして、本実施の形態にかかる機械翻訳装置200は、例文蓄積部201に蓄積されている例文に基づいて、入力文及び翻訳文の出力単位を決定している。これにより、機械翻訳装置200は、入力文および翻訳文の各箇所について誤りの可能性を予測し、誤りの可能性が低いと予測される箇所は長い出力単位で、誤りの可能性が高いと予測される箇所は短い出力単位で、話者に対して提示することができる。これにより、機械翻訳装置200では、音声認識の誤り、構文解析の誤り、意味的抽象化の誤り、翻訳の誤りが生じた入力文又は翻訳文の箇所の特定及び修正が容易となるとともに、会話をスムーズに進めることが可能となる。
入力処理部202は、マイク151又はマイク161を介して、第1言語話者又は第2言語話者が発した音声情報の入力処理を行う。
音声認識部203は、入力処理された音声情報の認識処理を行い、テキスト情報に変換して、入力文を生成する。
翻訳部204は、音声認識部203が生成した入力文を翻訳して、翻訳文を生成する。
分割部205は、構文解析部251と、意味的抽象化部252と、判断部253と、分木分割部254と、を備え、入力文に対して、誤りの可能性が低いと予測される箇所は長い出力単位で、誤りの可能性が高いと予測される箇所は短い出力単位で分割する。
構文解析部251は、入力文に対して構文解析を行い、単語及び句で構成される構文木を生成する。なお、構文解析手法としては、形態素解析等の任意の解析手法を用いても良い。
意味的抽象化部252は、入力文の構文木に含まれる単語および句を意味的に抽象化し、単語クラス情報と、句クラス情報を生成する。このように単語クラス情報や、句クラス情報の生成手法としては、周知の手法を問わず、あらゆる手法を用いても良い。なお、本実施の形態にかかる生成手法の例については後述する。
判断部253は、入力文から生成された構文木に含まれる句又は単語で構成される部分木と、例文蓄積部201に蓄積されている例文に含まれる句又は単語で構成される部分木と、が類似するか否か判断する。なお、本実施の形態では、類似するか否かで判断するが、例えば一致するか否か等の他の判断手法を用いてもよい。
また、判断部253は、入力文から生成された単語クラス情報及び句クラス情報を組合せた部分構文と、例文蓄積部201に蓄積されている例文に含まれている句及び単語の単語クラス情報及び句クラス情報を組合せた部分構文と、が類似するか否か判断する。
分木分割部254は、判断部253で類似すると判断された部分構文を出力単位として、入力文を分割する。以下に分割手順の例を示す。
図4に示すように、入力文に含まれている構文木(または部分構文木)は、例文蓄積部に格納された例文に含まれる構文木と、類似するか否か判断する。そして類似すると判断された場合、分木分割部254は分割処理を行わずに、入力文に含まれていた当該構文木を出力単位とする。
そして、判断部253が類似しないと判断した場合に、分木分割部254は、現在の構文木の根となる分岐で分割する。そして、判断部253は分木分割部254により分割された部分構文木の各々に対して、例文蓄積部201に蓄積されている例文に含まれている構文木と類似するか否か判断する。
そして、判断部253及び分木分割部254が、当該処理を再帰的に行うことで、例文蓄積部201に蓄積されている例文の構文木と類似する長さ毎に入力文を分割することができる。
翻訳出力単位生成部206は、構文解析部261と、意味的抽象化部262と、出力単位分割部263と、を備え、翻訳文を分割した出力単位を生成する。
構文解析部261は、翻訳文に対して構文解析を行い、単語及び句で構成される構文木を生成する。意味的抽象化部262は、翻訳文の構文木に含まれる単語および句を意味的に抽象化し、単語クラス情報と、句クラス情報を生成する。
出力単位分割部263は、翻訳文に対して、分木分割部254で入力文を分割した出力単位と意味的に類似する単語及び句の組合せ毎に分割して、出力単位を生成する。
対応付部207は、分割部205で分割された入力文の出力単位と、翻訳出力単位生成部206で生成された翻訳文の出力単位とについて、意味的に同等な出力単位同士を対応付ける処理を行う。
音声合成部211は、入力文及び翻訳文に対して音声合成処理を行う。
第1提示部208は、入力文を出力単位毎に、第1操作部101を介して第1言語話者に提示する。提示手段としては、液晶タッチパネル152に入力文のテキスト情報を提示すると共に、音声合成処理された入力文を出力単位毎にスピーカ153から音声出力する。
第2提示部212は、翻訳文を出力単位毎に、第2操作部102を介して第2言語話者に提示する。提示手段は、第1提示部208と、同様に音声及びテキスト情報として、スピーカ163及び液晶タッチパネル162から提示する。
また、第1提示部208及び第2提示部212は、対応付部207において対応付けられた出力単位毎に、逐次的に提示することとする。なお、出力単位の出力順は、翻訳文の語順に従うものとする。
アクション受付部209は、第1操作部101から第1言語話者のアクション、及び第2操作部102から第2言語話者から所定のアクションを受け付ける。所定のアクションとは、例えば第1言語話者又は第2言語話者の発話等とする。そして、アクション受付部209が、第2言語話者による所定のアクションを受け付けることで、第2言語話者のアクションが出力された翻訳文の出力単位を理解したか否か判断することができる。
出力部210は、アクション受付部209が第2言語話者からの所定のアクションを受け付けた場合に、第2言語話者が当該出力単位を理解していない旨を、第1操作部101に対して出力する。
また、出力部210は、第1言語話者または第2言語話者に対して、逐次的に提示された入力文と翻訳文との出力単位に関して、修正のために必要な補助情報を、第1操作部101又は第2操作部102に対して出力する。
理由受付部213は、アクション受付部209が第2言語話者からの所定のアクションを受け付けた場合に、第2操作部102から提示した出力単位が理解不能であることの理由の入力を受け付ける。
そして、理由受付部213が受け付けた理由は、出力部210が第1操作部101に対して出力する。これにより、第1言語話者は、第2言語話者が翻訳文の出力単位を理解できなかった理由を知ることができる。
修正部214は、第1提示部208が提示していた入力文の出力単位や、第2提示部212が提示していた翻訳文の出力単位に対して、修正を行う。例えば、アクション受付部209が第2言語話者から所定のアクションを受け付けた時に、修正部214は、第1提示部208が提示していた入力文の出力単位や、第2提示部212が提示していた翻訳文の出力単位を、第1言語話者が発話した内容に基づいて修正する。
次に、図1に示す機械翻訳装置200が音声の入力を受け付けてから入力文と翻訳文とを出力単位順に提示する処理手順について、図5を用いて説明する。なお、本フローチャートは第1言語話者から音声情報が入力された例について説明する。
入力処理部202は、第1言語話者の音声情報を入力処理する(ステップS401)。次に、音声認識部203が、入力処理した音声情報を認識して、テキスト情報に変換して、入力文を生成する(ステップS402)。
図6に示すように、第1言語話者が「チーズバーガーのピクルス抜きと、ハプシのアイス抜きをお願いします」と発話したものとする。また、「アイス」は「氷」の意図で発話されたものとする。なお、当該発話内容に含まれているハプシは、飲料の銘柄とする。
そして、入力処理部202が入力処理した後、音声認識部203が音声認識して生成された入力文は、「チーズバーガーのピクルス抜きと、武士のあいす抜きをお願いします」とする。つまり、第1言語話者が発話した「ハプシのアイス抜き」が、「武士のあいす抜き」として入力処理及び音声認識処理がなされたものとする。
図5に戻り、翻訳部204が、生成された入力文に対して翻訳処理を行い、翻訳文を生成する(ステップS403)。
図7に示すように、翻訳部204は翻訳文として「Please give me a cheese-burger without pickle and a Samrai without love.」を生成したものとする。図7に示した入力文の「あいす抜きで」の「あいす」は、「氷」の意味を表す「アイス」の意図で第1言語話者が発話されたものであるが、翻訳部204は「愛す」の意味に間違って翻訳している。このため、翻訳文では「without love」となっている。
次に分割部205、翻訳出力単位生成部206及び対応付部207が、入力文及び翻訳文の出力単位を設定し、意味的に類似する出力単位毎に対応付ける処理を行う(ステップS404)。
このステップS404による、入力文及び翻訳文の出力単位を設定し、意味的に類似する出力単位毎に対応付ける処理手順について、図8を用いて説明する。
まず、分割部205が、入力文を出力単位毎に分割する(ステップS801)。なお、出力単位については後述する。
次に、翻訳出力単位生成部206が、翻訳文を分割して、入力文の出力単位と意味的に類似する出力単位を生成する(S802)。
そして、対応付部207は、入力文の出力単位と、意味的に類似する翻訳文の出力単位とを対応付ける(ステップS803)。
次に、ステップS801〜S803の各処理の詳細について説明する。ステップS801における分割部205による入力文の分割処理手順について、図9を用いて説明する。
まず、分割部205の構文解析部251が、入力文の構文解析を行い、構文木を生成する(ステップS901)。なお、本実施の形態では、分割する際に構文解析を行うこととしているが、翻訳部204によって既に入力文と翻訳文が構文解析行われている場合は、その結果を再利用してもよい。
図10は、構文解析部251により生成された入力文の構文木の例を示した図である。また、図10に示すスラッシュ「/」は単語境界を意味している。
次に、意味的抽象化部252は、入力文の構文木の各単語及び各句に対して意味的な抽象化処理を行う(ステップS902)。
各単語の意味的な抽象化の例としては、固有表現抽出技術がある。本実施の形態では、固有表現とは、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名とする。つまり、任意の単語を意味的抽象化することで、これら固有表現を取得することができる。
この固有表現抽出技術は、例えば「言語処理学会第10回年次大会」発表論文集(2004年3月)のpp.5〜8に掲載の論文「固有表現から専門用語」(著者:関根聡)に、当該技術に関する様々な手法が示されている。当該固有表現抽出技術を用いることで、各単語から、人名、地名、組織名、商品名、イベント名、法律名、書籍名のような固有名や、時間表現、個数表現、価格表現のような数量表現や、化学物質名、動物名、植物名、遺伝子名のような種族名という、単語の意味的なクラスに変換することができる。また、本実施の形態ではこのような固有表現抽出技術を用いるが、各単語の意味的抽象化の手法としてはどのような手法を用いても良い。
また、意味的抽象化部252は、複数の単語から構成される句に対しても意味的役割を示すクラスに変換する。この変換手法は、どのような手法を用いても良いが、例えば、「FIT2002」情報技術レターズLD-8 pp.67-78(2002)された記載の論文「意味役割解析に基づく高適合英語文書の検索」(著者:酒井、小山、鈴木、真鍋)に記述されている意味役割解析技術を用いても良い。
かかる変換手法を用いることで、意味的抽象化部252は、句を抽象化して、「要求」、「質問」、「回答」、「意志がある」などの意味的役割を示すクラスにすることができる。
図11に示すように、「チーズバーガー」などの単語は「料理名」などのクラスに、「を/お/願い/し/ます」などの句は「要求」などの役割に変換されていることが確認できる。
次に、判断部253は、入力文又は入力文の構文に、類似する例文又は例文の構文を、例文蓄積部201に対して検索する(ステップS903)。
そして、判断部253は、当該入力文又は入力文の構文と類似する(一致を含む)例文又は例文の構文が、例文蓄積部201に蓄積されているか否か判断する(ステップS904)。そして、判断部253は、蓄積されていないと判断した場合(ステップS904:No)、分木分割部254は入力文の構文木の根となる分岐で分割する(ステップS905)。
そして、判断部253は、分割された部分構文のそれぞれに対して、再び類似する例文又は例文の構文を、例文蓄積部201に対して検索する(ステップS903)。このような処理を再帰的に繰り返すことで、例文蓄積部201に蓄積された例文に含まれる構文と類似する構文毎に、入力文を分割する。
次に、判断部253による検索手法の例について説明する。本実施の形態で用いる検索手法としては、例として、入力文又はその部分構文に含まれる単語、品詞、部分構文、これらの組み合わせや、時系列パターンなどを、共通に多く含む例文を検索するという手法を用いることとする。
また、判断部253が、例文蓄積部201に対して類似文検索を行う際、単語や句を意味的抽象化したクラス、及び意味抽象化していない単語や、句そのもののうちいずれか一つ以上を検索キーとして用いて検索を行う。
また、判断部253は、意味抽象化していない単語や句そのものを検索キーとして用いて類似文の検索を行った場合、例文データ中に莫大な例文が蓄積していない限り、類似文を検出できないことも多い。これに対し、本実施の形態にかかる判断部253は、単語や句の意味的に抽象化を行ったクラスを検索キーとして検索も行っている。これによって、各単語又は句と類似していないが、クラスであれば類似するという場合が増加すると考えられる。つまり、意味的抽象化を行ったクラスを検索キーとして用いることで、例文データのスパースネスの問題を解決できる。
また、本実施の形態にかかる判断部253が、類似文を検索する際、入力文又は入力文の部分構文と、例文又は例文の部分構文との類似の度合いを示す類似度を計算することとする。また、この類似度の算出手法として、語や句が類似する場合は、語のクラスや句の役割のみが類似する場合と比較して、より高い値とすることが望ましい。なぜなら、語や句が類似する場合は、単語のクラスや句の役割のみが類似する場合よりも、より入力文が例文と類似しているとみなすことができるためである。
判断部253による、入力文又は入力文の部分構文と、例文又は例文の部分構文とが類似しているか否かの判定は、算出された類似度が設定された閾値より大きいか否かに基づいて判断する。例えば、判断部253は、算出された類似度が当該閾値よりも大きい値の場合に、当該入力文又は入力文の部分構文と類似していると判断する。また、判断部253は、算出された類似度が当該閾値よりも小さい値の場合に、当該入力文又は入力文の部分構文と類似していないと判断する。また、管理者が当該閾値を調節可能としても良い。管理者は、このような調節を行うことで、検索に適した閾値を設定するができる。
なお、本処理手順では入力文又はその部分構文に対して、類似分又は類似構文の検索を行った例について説明したが、入力文又はその部分構文に限らず、翻訳文又はその部分構文に対して行っても良い。
そして、判断部253が、入力文又は入力文の構文と類似する例文又は例文の構文が、例文蓄積部201に蓄積されていると判断した場合(ステップS904:Yes)、判断部253は、当該構文木に含まれている単語及び句を出力単位として設定する(ステップS906)。
図12に示すように、部分構文木1の構文は例文に含まれている構文と類似せず、部分構文木2による構文は例文に含まれている構文と類似しているものとする。この場合、判断部253が部分構文木2による構文を出力単位とすると共に、分木分割部254が部分構文木1に対してさらに分割処理を行う。
図13に示すように、部分構文木1を分割した部分構文木1―1による構文は例文に含まれている構文と類似せず、部分構文木1−2による構文も例文に含まれている構文と類似しなかったものとする。この場合、分木分割部254が部分構文木1―1及び部分構文木1−2に対してさらに分割処理を行う。
図14に示すように、部分構文木1−1―1による構文、部分構文木1−1−2による構文、部分構文木1−2−1による構文及び部分構文木1―2−2による構文のそれぞれが例文に含まれている構文と類似したものとする。この場合、判断部253が、これら全ての構文木による構文を出力単位とする。
図15に示すように、例文に含まれている構文と類似した構文毎に出力単位が設定されている。上述した処理手順で設定されたために、出力単位毎に文字列の長さが異なることが確認できる。
なお、本実施の形態にかかる判断部253は、図15の「あいす抜き」の部分構文に相当する部分構文木1−2−2や、図12の「お願いします」の部分構文に相当する部分構文木2に対しては例文データ中に類似構文が検出され、それ以外の部分構文でも例文と類似したこととした。しかしながら、これらの部分構文においては、判断部253が、例文の類似構文に類似しなかったために、構文解析結果の構文木のリーフ(葉)に相当する最小の単位を出力単位として設定されたものとしても良い。
つまり、入力文や翻訳文の部分構文のうち、例文データに蓄積されている例文中の部分構文と類似するものは、誤りの可能性が低い部分構文であると考えられる。そこで、本実施の形態では、入力文や翻訳文の部分構文のうち、例文蓄積部201に蓄積されている例文に類似する構文を可能な限り長く抽出する。このような抽出手法により、誤りの可能性が低いと予測される箇所は長い出力単位とし、誤りの可能性が高いと予測される箇所は短い出力単位とすることができる。
図9に戻り、判断部253は、入力文に含まれる全ての構文木について出力単位を設定したか否か判断する(ステップS907)。そして、全ての構文木について出力単位を設定していないと判断した場合(ステップS907:No)、さらに出力単位を設定していない構文木に対して、再びステップS903から処理を開始する。
また、判断部253は、全ての構文木について出力単位を設定したと判断した場合(ステップS907:Yes)、処理を終了する。
上述した処理手順により、誤りの可能性が低いと予測される箇所は長い出力単位とし、誤りの可能性が高いと予測される箇所は短い出力単位として、入力文を分割することができる。また、入力文ではなく翻訳文に対して上述した分割処理を行った場合も同様の効果を得ることができる。
次に、図8のステップS802における翻訳出力単位生成部206による翻訳文の分割処理手順について、図16を用いて説明する。
まず、翻訳出力単位生成部206の構文解析部261は、翻訳文を構文解析して、構文木の生成を行う(ステップS1601)。なお、翻訳部204により構文解析が既に行われている場合、当該結果を再利用しても良い。
図17に示すように、翻訳文はツリー構造(構文木)で生成されるものとする。複数の部分構文木で構成されている。また、図10に示すスラッシュ「/」は単語境界を意味している。
図17は、構文解析部261により生成された翻訳文の構文木の例を示した図である。図17に示すように、構文解析部261は、翻訳文の構文木を生成する。
次に、意味的抽象化部262は、翻訳文の構文木の各単語及び各句に対して意味的な抽象化処理を行う(ステップS1602)。なお、当該処理は、上述した意味的な抽象化手法を用いればよいので、説明を省略する。
図18に示すように、「a cheese-burger」などの単語は「FOOD_DISH」などのクラスに、「Please give me」などの句は「DEMAND」などの役割に変換されていることが確認できる。
そして、出力単位分割部263は、入力文の出力単位と意味的に対応する出力単位毎に分割する処理を行う(ステップS1603)。なお、この分割手法については、どのような手法を用いても良い。
図19に示すように、入力文の出力単位と意味的に類似する構文毎に出力単位が設定されている。このように、一方の文(例えば入力文)の構文木から分割された出力単位は、過不足なく他方の文(例えば翻訳文)の構文木から分割された出力単位と、1対1に意味的に対応する必要がある。
そこで、本実施の形態とは異なるが、このように対応する出力単位を取得する手法の例について説明する。まず、翻訳部は、入力文の構文木に含まれている各単語、あるいは句に対して、第2言語による訳語を決定する。その後、翻訳部が、入力文の構文木中の各単語あるいは句を、決定した訳語に変換する。その後、翻訳出力単位生成部は、翻訳文の構文木を翻訳文の言語の語順にあうように変形処理を行う。これにより、翻訳文と、翻訳文の構文木を生成する。当該手法を用いた場合、翻訳文の構文木は入力文の構文木の単語、あるいは句を訳語に置き換えたものであるから、双方の各部分木は過不足なく他方の各部分木と1対1に意味的に対応することになる。
また、訳語を決定する際に、第一言語話者が意図した意味ではない誤った訳語が決定されることも考えられる。この誤った訳語が決定された場合、当該誤った訳語を含む翻訳文の部分構文木と、それと対応関係にある入力文の部分構文木は、第1言語話者の意図としては意味的には類似しない。しかしながら、話者の意図する意味として類似することは必要ではなく、入力文の単語又は句の組み合わせた部分構文木と、翻訳文の訳語を組み合わせた部分構文木とが、構文解析上対応していればよい。
本実施の形態に戻り、図8のステップS803において、対応付部207は、入力文の出力単位と、意味的に類似する翻訳文の出力単位とを対応付ける。図20に示すように、対応付部207は、翻訳文の出力単位と、入力文の出力単位と、を意味的に対応する出力単位同士で対応付けている。また、対応付部207は、翻訳文の順を、対応付けられた各出力単位の提示順として設定する。
図5に戻り、音声合成部211が、入力文及び翻訳文に対して音声合成処理を行う(ステップS405)。なお、音声合成部211は、出力単位毎に音声出力可能な形式で音声合成処理を行うこととする。
そして、第1提示部208は、第1操作部101に対して、入力文から生成された出力単位を、翻訳文の出力単位順に提示する(ステップS406)。
図21に示すように、第1操作部101は、入力文の出力単位を、スピーカ153から音声出力すると共に、液晶タッチパネル152上に表示処理を行っている。
なお、本実施携帯は、音声出力と表示処理により、出力単位を提示しているが、このような提示手法に制限するものではなく、あらゆる提示手法を用いて良い。
次に、アクション受付部209は、第1操作部101を介して、第1言語話者のアクションを受け付けたか否か判断する(ステップS407)。
図22に示すように、液晶タッチパネル152に提示された「はい」ボタンの押下という、利用者からのアクションを受け付けたことで、修正を行うことと判断できる。なお、液晶タッチパネル152に提示された「はい」ボタンの押下ではなく、第1言語話者の発話などをトリガーとして、修正を行うことしても良い。
図22で示した例では、第1言語話者が液晶タッチパネル152上のボタンの押下により修正を行うか否かを決定しているが、他の例としては、音声コマンドを利用して修正を行うか決定しても良い。例えば、第1言語話者による「修正」等の所定の文言の発声が入力された場合に、アクション受付部209が修正を受け付けたものと判断する。また、音声コマンドとは、発話された音声が入力された場合に、当該音声に対応付けられた所定の制御モードを実行する機能のことをいう。なお、音声コマンドをあらかじめ設定された候補に限定することで、通常の音声認識よりも高い認識精度で、当該音声コマンドを認識することが可能となる。
また、アクション受付部209のアクション受け付け手法は上述した手法に限らず、例えば、第1言語話者からの修正指示が数秒間ない場合、修正不要と判定してもよい。
アクション受付部209が第1言語話者からアクションを受け付けたと判断した場合(ステップS407:Yes)、修正部214の入力文修正部271は、提示していた入力文の出力単位の修正を受け付ける(ステップS408)。そして、修正部214は、第1言語話者から受け付けた内容で、当該出力単位に対して修正を行う(ステップS409)。この場合、修正部214の入力文修正部271が入力文の出力単位を修正すると共に、翻訳文修正部272が対応する翻訳文の出力単位の修正を行うこととする。
なお、修正手法としては、第1言語話者が正しい内容を音声で発話する形式でも良いし、第1言語話者が液晶タッチパネル152に対して正しい内容を入力してもよい。
図23に示すように、修正部214は、第1言語話者の発話を受け付け、当該発話内容で出力単位を修正する。
図23で示した例では、修正部214が第1言語話者のアクションに基づき入力文の出力単位を修正する。このように、本実施の形態では、第1言語話者が、予め発話の音声認識結果を確認することで、音声認識誤りを修正することとしている。
その後、アクション受付部209は、液晶タッチパネル152を介して、再度修正を行うか否かの確認を第1言語話者に対して促す。そして、利用者から「いいえ」ボタン2301の押下を受け付けた場合に、次のステップS410の処理を行うこととする。
また、このような「いいえ」ボタン2301の押下を受け付ける以外に、第1言語話者の発声、又は第1言語話者からの修正指示が数秒間ない場合に、アクション受付部209が再度の修正処理が不要と判定してもよい。このような手法を用いることで、第1言語話者は、1度のみならず、何度でも修正することが可能となる。
上述した例では、修正部214は、音声認識誤りである「武士の」を「ハプシの」に修正するとともに、翻訳文の出力単位「Samurai」を「Hapsi」に修正する。
その後、第2提示部212は、第2操作部102に対して、ステップS406で提示した入力文の出力単位に対応する翻訳文の出力単位を提示する(ステップS410)。これにより、各出力単位を提示する順番は、翻訳文の順番に従うこととなる。
なお、ステップS409で翻訳文の出力単位の修正が行われた場合、第2提示部212は、修正された後の出力単位を提示する。上述した例だと、「Samurai」から「Hapsi」に修正されているため、図24に示すように、「Hapsi」として第2言語話者に対して提示される。
また、図24では、第2操作部102は、翻訳文の出力単位を、スピーカ153から音声出力すると共に、液晶タッチパネル152上に表示処理を行っている。なお、第2提示部212により提示された出力単位は、第1言語話者が誤っているか否かを確認し、誤っている場合については修正が行われた後のものである。このため、第2言語話者は誤って理解することを低減させ、第1言語話者と第2言語話者との会話をスムーズにすることが可能となる。
その後、アクション受付部209が、第2操作部102を介して、第2言語話者の所定のアクションを受け付けたか否か判断する(ステップS411)。
そして、アクション受付部209が所定のアクションを受け付けたと判断した場合(ステップS411:Yes)、修正部214が入力文及び翻訳文の出力単位の修正を行う(ステップS412)。
また、第2言語話者から受け付けるアクションについては、理解可能・不能の判定を行うことができる形式であれば、どのようなアクションでも良い。受け付けるアクションの例として、本実施の形態では「自然発話」、「音声コマンド」、「タッチパネルによる選択」を用いることとする。
自然発話では、第2言語話者により発話された自然な発話、「Yeah!」、「Yep!」、「What!」、「Uh-uh」等を理解可能・不能を示すアクションとして受け付ける。これらアクションの認識方法としては、ファジー推論などの推論規則に基づく手法がある。また、発話中の音素や単語、その組み合わせ、並びなどを素性とし、理解可能・不能をそのラベルとした学習データを事前に作成し、その学習データに基づいて自然な発話を理解可能・不能のどちらかに振り分けるかを機械学習し、第2言語話者の発話を、機械学習結果に従って理解可能・不能のいずれかを示すアクションかを自動判定する手法などがある。
音声コマンドでは、所定の発話「OK.」、「Got it.」、「No.」、「No idea.」などを、「理解可能」及び「理解不能」の何れかを示すか予め対応付けておく。そして、第2言語話者は、当該所定の発話を行うことによって、理解可能・不能を指示することができる。
タッチパネルによる選択では、液晶タッチパネル画面162上に「理解可能」および「理解不能」を表示し、第2言語話者からこれらのうちいずれかのタッチを受け付けることで、理解可能・不能を指示することができる。
図25に示すように、第2提示部212は、「あいす抜き」の誤訳である「without love」を出力単位として提示している。第2提示部212が、このような出力単位を提示した場合、第2言語話者は理解できないものと考えられる。
図26に示すように、第2言語話者は提示された出力単位が理解できなかったため、「What!!」と自然に発話して反応したものとする。そして、アクション受付部209は、当該発話を所定のアクションとして、入力を受け付けるものとする。つまり、アクション受付部209は、上述した自然な発話から理解可能・不能の認識を行う手法で、「What!!」という発話から、第2言語話者が「理解不能」であることを認識してものとする。
次に、第2言語話者のアクションを受け付けた場合に、入力文及び翻訳文の出力単位の修正の手順について、図27を用いて説明する。
まず、理由受付部213は、第2操作部102を介して、第2言語話者から理解できなかった理由の入力を受け付ける(ステップS2501)。
図28に示した例では、第2言語話者は、理解できなかった理由として「no meaning(理解不能)」を選択したものとする。また、理由の受け付け手法としては、例えば音声コマンドを利用して、第2言語話者による「no meaning」等の発声により、理解できなかった理由を受け付けても良い。
そして、出力部210は、第2言語話者が提示された翻訳文の出力単位を理解できなかった旨を、第1操作部101を介して通知する(ステップS2502)。また、出力部210は、当該通知を行う際に、修正する際に参考となる補助情報も通知する。
補助情報としては、ステップS2501で受け付けた理解できなかった理由、入力文に係る構文解析情報、提示された出力単位に含まれる単語又は句による単語クラス情報又は句クラス情報、辞書情報、提示された翻訳文の出力単位をさらに第1言語に翻訳した結果である逆翻訳結果等とする。また、これら以外の情報を補助情報として提示しても良いし、これらを任意に組合せてもよい。
図29に示すように、出力部210は、「お相手は次の箇所が理解できません」2901と文字列で、理解できなかった旨を通知している。また、通知方法としては他に「お相手は次の箇所が理解できません」という文を音声合成し、当該音声により通知する方法もある。
図29に示すように、出力部210は、第2言語話者が理解できなかった翻訳文の出力単位である「without love」に対応付けられた、入力文の出力単位である「あいす抜き」2902を通知している。
また、出力部210は、第2言語話者が理解できなかった理由「no meaning」を訳である「意味が無い」2903を通知している。さらに、出力部210は、「without love」を逆翻訳した結果「愛なしで」2904を通知している。また、出力部210は、「あいす抜き」の意味的抽象化結果である、「[クラス:感情]抜き」2905を通知している。
第1言語話者は、図29に示した通知内容を参照することで、第2言語話者が翻訳文を理解できなかった理由が、翻訳文が常識的な意味をなしていないためであり、言語的な曖昧性のために理解不能なのではないことを認識できる。また、第1言語話者は、「愛なしで」2902や「[クラス:感情]抜き」2905により、「あいす」が感情を意味する「愛す」の意味に誤って翻訳されたことを認識できる。
次に、修正部214の入力文修正部271は、第1言語話者のアクションに基づいて、入力文の出力単位を修正する(ステップS2503)。なお、ステップS2503における入力文の修正は、翻訳誤りの修正を目的としたものである。つまり、音声認識誤りは、上述したステップS409で修正されていることによる。
修正部214の入力文修正部271による修正は、第1言語話者が正しい内容を音声で発話する形式でも良いし、キーボードによるタイピング入力でもよい。図30に示すように、修正部214は、第1言語話者の発話を受け付け、当該発話内容で出力単位を修正する。
図30に示す例では、翻訳誤り「あいす抜き」が「氷抜き」に修正されている例を示している。上述したように、第1言語話者は「あいす」が感情を意味する「愛す」の意味に誤って翻訳されたことを認識しているため、「あいす抜き」の替わりに「氷抜き」と音声発話することで、修正をおこなっている。その他の修正方法としては、液晶タッチパネル152からのソフトキーボード等のタイピング入力により「アイス抜き」を直接入力してもよい。
また、キーボード入力をした場合、「愛須抜き」、「あ椅子抜き」、「相須抜き」などのように正しくない変換結果の中から、正しい変換結果を選択することは時間がかかるという問題もある。そこで、このような問題点を解決する修正方法を以下に説明する。
まず、入力文修正部271の指示により構文解析部251が、変換候補の「アイス抜き」、「愛須抜き」、「あ椅子抜き」、「相須抜き」などを構文解析及び意味的抽象化する。そして、判断部253が、例文蓄積部201中の例文データから類似構文の検索を行う。
そして、入力文修正部271は、検索結果において、類似構文が検出された変換候補、あるいは類似度が大きい順に上位数件の変換候補を新たな変換候補とする。
そして、第1提示部208は、得られた変換候補を、翻訳装置のタッチパネル画面に提示する。そして、第1言語話者は、提示された変換候補のうち正しい候補を選択する。そして、入力文修正部271は、選択された候補を出力単位として設定する。
このような処理を行うことで、多くある変換候補から、正しい可能性が高い候補に絞り込むことができる。これにより、第1言語話者が正しい候補を選択するための作業負担を低減できる。
また、図30に示すように、修正がなされた後、液晶タッチパネル152での選択、第1言語話者の発声、あるいは第1言語話者からの修正指示が数秒間ない場合等に基づいて、入力文修正部271は、再度、修正を行うか否かを判断する。例えば利用者が「いいえ」ボタン3001を選択した場合、修正が終了したものと判断する。このような処理を行うことで、第1言語話者は、何度でも修正することが可能となる。
図27に戻り、翻訳文修正部272は、ステップS2503で修正された入力文の出力単位の修正に伴い、対応付けられた翻訳文の出力単位を修正する(ステップS2504)。上述した例で、入力文の出力単位である「あいす抜きで」が「氷抜きで」に修正されていることに伴い、翻訳文修正部272は、「あいす抜きで」に対応する翻訳文の出力単位である「without love」を、「氷抜きで」を翻訳部204が翻訳した「without ice」に修正する。
上述した処理手順により、入力文の出力単位の誤訳が訂正されたものとする。
図28に戻り、ステップS412による修正処理が終了した後、第2提示部212は、再度、翻訳文の出力単位を提示する(ステップS411)。
図31に示す例では、翻訳文の出力単位が「without Ice」に修正されていることが確認できる。
そして、第2言語話者から所定のアクションを受け付けなかった場合(ステップS411:No)、第2提示部212は、第2言語話者に全ての翻訳文の出力単位を提示したか否か判断する(ステップS413)。出力単位を提示していなかったと判断した場合(ステップS413:No)、第1提示部208による入力文の出力単位の提示から行われる(ステップS406)。
また、第2提示部212は、全ての出力単位を提示したと判断した場合(ステップS413:Yes)、処理を終了する。
なお、本実施の形態では、例文蓄積部201に蓄積された第1言語の例文を用いて入力文を分割してから翻訳文を分割する例について説明した。しかしながら、第1言語の入力文を入力処理し、当該入力文を翻訳して第2言語の翻訳文を生成した後、例文蓄積部201に蓄積された第2言語の例文を用いて翻訳文を分割し、さらに当該分割結果に基づいて翻訳文を分割した出力単位と意味的に対応する単位毎に入力文を分割しても良い。
なお、本実施の形態では、2分木を用いた例について説明したが、構文木を2分木に制限するものではなく3分木又はそれ以上の多分木を用いても良い。
また、本実施の形態では、入力処理した音声情報の音声認識を行って入力文を生成する体について示したが、このような入力手法に限らず、例えば、キーボードによるタイピング入力、タッチパネルによるタッチ入力等を用いて入力しても良い。
上述した実施形態によれば、入力文及び翻訳文を分割する際に、誤りの可能性が低いと予測される箇所は長い単位とし、誤りの可能性が高いと予測される箇所は短い単位で分割することが可能となる。これにより、誤りの可能性が少ない箇所については長い単位で利用者に対して提示し、誤りの可能性が大きい箇所については短い単位で利用者に提示することができる。これにより、翻訳文で誤っている箇所の特定が容易になるとともに、会話をスムーズにすることが可能となる。
また、本実施の形態にかかる機械翻訳装置では、入力文又は翻訳文の確認、修正などが容易に行うことができるので、多言語話者間での効率的な対話を可能としている。
また、機械翻訳装置200では、入力文又は翻訳文に含まれている単語や句を意味的抽象化したクラス情報で、例文蓄積部201に格納された例文に含まれているクラス情報と一致するか否か判断するので、一致する句や単語を含む例文がなくとも、入力文や翻訳文を例文に従って分割することができるので、入力文や翻訳文の誤っている箇所の特定が容易になる。これにより、効率的な会話を可能とすることができる。
図32に示すように、上述した実施の形態にかかる機械翻訳装置200は、ハードウェア構成として、翻訳プログラムなどが格納されているROM3302と、ROM3302内のプログラムに従って当該装置の各部を制御するCPU3301と、当該装置の制御に必要な種々のデータを記憶するRAM(Random Access Memory)3303と、ハードディスク3304と、各部を接続するバス3305と、を備えている。また、機械翻訳装置200は、上述した構成を備えた一般的なコンピュータに適用することができる。
上述した実施の形態にかかる機械翻訳装置200で実行される翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
この場合には、翻訳プログラムは、機械翻訳装置200において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
また、上述した実施の形態にかかる機械翻訳装置200で実行される翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる機械翻訳装置200で実行される翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
実施の形態にかかる機械翻訳装置の機器構成を示した概要図である。 実施の形態にかかる機械翻訳装置の構成を示すブロック図である。 実施の形態にかかる例文蓄積部に蓄積された例文データのデータ形式の例を示した図である。 実施の形態にかかる判断部の判断結果に従って、分木分割部が構文木を分割する処理を示した説明図である。 実施の形態にかかる機械翻訳装置が音声の入力を受け付けてから入力文と翻訳文とを出力単位順に提示する処理手順を示すフローチャートである。 第1言語話者が発話した内容から音声認識して入力文を生成した例を示した説明図である。 実施の形態にかかる翻訳部が入力文を翻訳して翻訳文を生成した例を示した説明図である。 実施の形態にかかる入力文及び翻訳文を出力単位毎に分割して、意味的に一致する出力単位毎に対応付ける処理手順を示すフローチャートである。 実施の形態にかかる分割部による入力文の分割処理手順を示すフローチャートである。 実施の形態にかかる構文解析部により生成された、入力文の構文木の例を示す図である。 実施の形態にかかる意味的抽象化部により意味的な抽象化処理が行われた構文木の例を示した図である。 実施の形態にかかる判断部による、入力文を分割したそれぞれの部分構文木による構文と、例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。 実施の形態にかかる判断部による、入力文を分割した部分構文木をさらに分割したそれぞれの部分構文木による構文に対して例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。 実施の形態にかかる判断部による、図13に示した部分構文木をさらに分割したそれぞれの部分構文木による構文に対して、例文蓄積部に蓄積されていた例文の構文と一致するか否かの判断を示した説明図である。 実施の形態にかかる判断部により入力文から設定された出力単位の例を示した図である。 実施の形態にかかる翻訳出力単位生成部による翻訳文の分割処理手順を示すフローチャートである。 実施の形態にかかる構文解析部により生成された翻訳文の構文木の例を示した図である。 実施の形態にかかる意味的抽象化部により意味的な抽象化処理が行われた構文木の例を示した図である。 実施の形態にかかる出力単位分割部により翻訳文を分割した出力単位の例を示した図である。 実施の形態にかかる対応付部により対応付けられた出力単位の例を示した図である。 実施の形態にかかる第1提示部が、第1操作部に対して入力文の出力単位を提示した例を示した図である。 実施の形態にかかるアクション受付部は、液晶タッチパネルを介して、第1言語話者から修正するための入力を受け付けた例を示した図である。 実施の形態にかかる修正部が、スピーカを介して、第1言語話者の発話から出力単位を修正する例を示した図である。 実施の形態にかかる第2提示部が、第2操作部に対して翻訳文の出力単位を提示した例を示した図である。 実施の形態にかかる第2提示部が、第2操作部に対して翻訳文の出力単位を提示した例を示した図である。 実施の形態にかかるアクション受付部が、スピーカ、第2言語話者から発せられた音声の入力を受け付けた例を示した図である。 第2言語話者のアクションを受け付けた場合に、入力文及び翻訳文の出力単位の修正する処理手順を示したフローチャートである。 第2操作部より第2言語話者から理解できなかった理由を液晶タッチパネルから入力を受け付けている例を示した図である。 実施の形態にかかる出力部が、第1操作部を介して、理解できなかった翻訳文の出力単位に対応する入力文の出力単位を通知した例を示した図である。 実施の形態にかかる修正部が、スピーカを介して、第1言語話者の発話から出力単位を修正する例を示した図である。 実施の形態にかかる第2提示部が、第2操作部に対して、修正された翻訳文の出力単位を再度提示した例を示した図である。 機械検索装置のハードウェア構成を示した図である。
符号の説明
100 機械翻訳装置本体
101 第1操作部
102 第2操作部
151、161 マイク
152、162 液晶タッチパネル
153、163 スピーカ
154、164 コントローラ
200 機械翻訳装置
201 例文蓄積部
202 入力処理部
203 音声認識部
204 翻訳部
205 分割部
206 翻訳出力単位生成部
207 対応付部
207 部
208 第1提示部
209 アクション受付部
210 出力部
211 音声合成部
212 第2提示部
213 理由受付部
214 修正部
251 構文解析部
252 意味的抽象化部
253 判断部
254 分木分割部
261 構文解析部
262 意味的抽象化部
263 出力単位分割部
271 入力文修正部
272 翻訳文修正部
3301 CPU
3302 ROM
3303 RAM
3304 ハードディスク
3305 バス

Claims (10)

  1. 第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部と、
    前記第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定部と、
    前記蓄積部に蓄積された前記組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割部と、
    前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成部と、
    分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付部と、
    を備えることを特徴とする翻訳装置。
  2. 前記蓄積部は、さらに、前記第1の言語の例文に含まれている文字列の組合せを蓄積し、
    前記分割部は、前記蓄積部に蓄積された前記文字列の組合せと、前記第1の言語の文に含まれている複数の文字列の組合せとが類似する場合に、類似した前記第1の言語の文に含まれている複数の前記文字列の組合せ単位で分割すること、
    を特徴とする請求項1に記載の翻訳装置。
  3. 前記第1の言語の前記文字列の組合せ又は前記第2の言語の前記文字列毎に、利用者に対して提示する提示部と、
    前記提示が行われる毎に、利用者からアクションを受け付けるアクション受付部と、
    前記アクションを受け付けたことを、他の利用者に対して出力する出力部と、
    をさらに備えることを特徴とする請求項1又は2に記載の翻訳装置。
  4. 前記第1の言語の文を入力処理する入力処理部と、
    入力された前記第1の言語の文を翻訳して、前記第2の言語の文を生成する翻訳部と、をさらに備え、
    前記生成部は、生成された前記第2の言語の文に含まれる複数の文字列から、前記第1の言語の文を分割した文字列の組合せと意味的に対応する文字列を生成すること、
    を特徴とする請求項1乃至3のいずれか1つに記載の翻訳装置。
  5. 前記第2の言語の文を入力処理する入力処理部と、
    入力された前記第2の言語の文を翻訳して、前記第1の言語の文を生成する翻訳部と、をさらに備え、
    前記生成部は、前記第2の言語の文に含まれる文字列から、前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、前記第2の言語の文字列を生成すること、
    を特徴とする請求項1乃至4のいずれか一つに記載の翻訳装置。
  6. 前記第1の言語の文を構文解析して、前記第1の言語の文に含まれる文字列を組み合わせた構文木情報を生成する構文解析部をさらに備え、
    前記蓄積部は、前記組合せ情報として、例文に含まれている文字列を意味的に抽象化したクラス情報から構成された構文木情報を蓄積し、
    前記分割部は、前記蓄積部に蓄積された前記構文木情報に含まれる部分構文木と、生成された前記構文木情報に含まれる部分構文木を、特定した前記クラス情報で構成した構文木と、が類似する場合に、類似する構文木に含まれる複数の前記クラス情報のそれぞれの抽象化前の複数の前記文字列の組合せ単位で分割すること、
    を特徴とする請求項1乃至5のいずれか一つに記載の翻訳装置。
  7. 前記アクション受付部は、利用者からの発話、音声による指示を示す音声コマンド、又は操作部に対する操作を受け付けること、
    を特徴とする請求項1乃至6のいずれか一つに記載の翻訳装置。
  8. 前記第1の言語による音声情報を入力処理する入力処理部と、
    前記入力処理された前記第1の言語の音声情報から、テキスト情報である前記第1の言語の文を生成する音声認識部と、
    をさらに備えることを特徴とする請求項1に記載の翻訳装置。
  9. 第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、
    第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、
    前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成工程と、
    分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、
    を有することを特徴とする翻訳方法。
  10. 第1の言語の文に含まれている複数の文字列それぞれを意味的に抽象化した、複数のクラス情報を特定するクラス情報特定工程と、
    第1の言語の例文に含まれている複数の文字列のそれぞれを意味的に抽象化した複数のクラス情報の組合せを蓄積する蓄積部に格納されている当該組合せと、特定された前記クラス情報の組合せとが類似する場合に、特定された当該クラス情報の組合せの抽象化前の複数の前記文字列の組合せ単位で分割する分割工程と、
    前記第1の言語の文を分割した複数の前記文字列の組合せと意味的に対応する、第2の言語の文字列を生成する生成工程と、
    分割された前記第1の言語の前記文字列の組合せと、生成された前記第2の言語の文字列とを、対応する意味同士で対応付ける対応付工程と、
    をコンピュータに実行させる翻訳プログラム。
JP2007085976A 2007-03-28 2007-03-28 翻訳装置、方法及びプログラム Pending JP2008243076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007085976A JP2008243076A (ja) 2007-03-28 2007-03-28 翻訳装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085976A JP2008243076A (ja) 2007-03-28 2007-03-28 翻訳装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2008243076A true JP2008243076A (ja) 2008-10-09

Family

ID=39914295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085976A Pending JP2008243076A (ja) 2007-03-28 2007-03-28 翻訳装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2008243076A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101170957B1 (ko) 2012-02-10 2012-08-03 (주)에스디이아이티연구소 영어문장 호환 3원리 학습카드 및 이를 이용한 영어문장 호환 3원리 학습방법
WO2013053114A1 (en) * 2011-10-12 2013-04-18 Genius Link International Limited Translation Apparatus
WO2024042963A1 (ja) * 2022-08-26 2024-02-29 マインドワード株式会社 誤り訂正翻訳装置、誤り訂正翻訳方法及びプログラム並びにその格納媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013053114A1 (en) * 2011-10-12 2013-04-18 Genius Link International Limited Translation Apparatus
KR101170957B1 (ko) 2012-02-10 2012-08-03 (주)에스디이아이티연구소 영어문장 호환 3원리 학습카드 및 이를 이용한 영어문장 호환 3원리 학습방법
WO2024042963A1 (ja) * 2022-08-26 2024-02-29 マインドワード株式会社 誤り訂正翻訳装置、誤り訂正翻訳方法及びプログラム並びにその格納媒体

Similar Documents

Publication Publication Date Title
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7412387B2 (en) Automatic improvement of spoken language
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US9236045B2 (en) Methods and apparatus for proofing of a text input
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US10163436B1 (en) Training a speech processing system using spoken utterances
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
US11093110B1 (en) Messaging feedback mechanism
WO2016067418A1 (ja) 対話制御装置および対話制御方法
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
EP3491641B1 (en) Acoustic model training using corrected terms
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2009047920A (ja) ユーザと音声により対話する装置および方法
JP2007004730A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2008083459A (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US10593319B1 (en) Parallelization of instruction steps
JP2011504624A (ja) 自動同時通訳システム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2006189730A (ja) 音声対話方法および音声対話装置
US11955112B1 (en) Cross-assistant command processing
JP2008243076A (ja) 翻訳装置、方法及びプログラム
JP2010186339A (ja) 通訳装置、方法、及びプログラム