JP2008210132A

JP2008210132A - 原言語による音声を目的言語に翻訳する装置、方法およびプログラム

Info

Publication number: JP2008210132A
Application number: JP2007045954A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-02-26
Filing date: 2007-02-26
Publication date: 2008-09-11
Anticipated expiration: 2027-02-26
Also published as: US20080208563A1; JP5121252B2; US8055495B2; CN101256558A

Abstract

【課題】翻訳精度を向上させる音声翻訳装置を提供する。
【解決手段】関連情報の名称と関連情報の表示位置とを対応づけて記憶する関連情報記憶部１２１と、語句の意味属性を表す意味クラスと原言語の用例と目的言語の用例とを対応づけて記憶する用例記憶部１２２と、関連情報の名称と意味クラスとを対応づけて記憶する辞書記憶部１２３と、音声を受付ける音声受付部１０１と、関連情報の選択を受付ける選択受付部１０２と、受付けた関連情報の表示位置に対応する関連情報の名称を関連情報記憶部１２１から取得し、取得した関連情報の名称に対応する意味クラスを辞書記憶部１２２から取得する取得部１０４と、受付けた音声を認識する認識部１０３と、取得した意味クラスと認識部の認識結果とに対応する目的言語の用例を用例記憶部１２２から取得することにより認識結果を翻訳する翻訳部１０５とを備えた。
【選択図】図１

Description

この発明は、入力された音声を翻訳して音声合成して出力することにより、異なる言語を母語とする人同士が音声によりコミュニケーションを行うことを支援する装置、方法およびプログラムに関するものである。

近年、異なる言語を母語とする人同士のコミュニケーションを支援する音声翻訳装置の実用化に対する期待が高まっている。このような音声翻訳装置は、基本的には、音声を認識する手段、音声認識の結果得られた文字列を翻訳する手段、翻訳の結果得られた文字列を音声で合成する手段を用い、音声認識処理、翻訳処理、音声合成処理を順次実行することにより構成することができる。

ユーザが発話した音声を認識して文字情報を出力する音声認識システムは、すでにパッケージソフトなどの形態で実用化されている。また、書き言葉（テキスト）を入力とした機械翻訳システムについても、同様にパッケージソフトなどの形態で実用化されている。音声合成システムについても、すでに実用に供せられており、これらのソフトウェアを適宜利用することで、音声翻訳装置を実現することは可能である。

音声翻訳の実現にあたっては、様々な音声認識方式や機械翻訳方式を採用することが考えられるが、いずれの方式を採用するにしても音声認識や機械翻訳の精度向上が課題となっている。

例えば、原言語と目的言語との対訳コーパスを用いて翻訳を行う用例ベース機械翻訳では、すべての文を用例として準備しておくことはできないことや、用例の数を増やすほど入力文に対して検索される文が多数になるため、その中からユーザが適切な文を選択する手間が発生することなどの問題が存在する。

また、音声翻訳装置によるコミュニケーションの内容は多岐にわたるため、それらの内容を正しく音声翻訳するためには、大規模な語彙を対象とした音声認識、機械翻訳、および音声合成が必要となる。普通名詞や動詞、形容詞、副詞などのカテゴリの語については、ある程度その数が限られ、それらの語を音声認識や音声翻訳、音声合成が用いる辞書にあらかじめ登録しておくことは可能である。ところが、地名、人名、料理名、店舗名、または会社名などの固有名詞は、日々発生するものであり、あらかじめすべての固有名詞を辞書に登録しておくことは一般に困難である。

このように辞書に訳語が登録されていないことに起因して、海外旅行などで経験するように、その国や地域における地名や店舗名などの固有名詞について、旅行者自らがその現地の言葉で発話しなければならない状況が生じうる。しかし、発音体系が大きく異なる旅行者の場合、現地の言葉としての発音を正しく行うことは難しく、発音した固有名詞が何を指しているかが、相手に伝わらないことも多い。

この問題の最も単純な解決方法として、旅行ガイド情報や地図情報の表示機能を有する携帯端末を利用し、ユーザがその携帯端末のディスプレイ上に表示された旅行ガイド情報や地図情報の特定部分を指し示すことによって、所望の場所を伝えられるようにすることが考えられる。

しかし、場所や地名を指し示すだけでは、ユーザの意図は十分に伝えることができない。例えば、ある施設を指し示しただけでは、その施設に「行きたい」のか、または「行くには何分かかるか」、「今何の催しをやっているか」、「料金はいくらか」などを確認することを意図しているのかを伝えることができない。

そこで、旅行ガイド情報や地図情報などを表示する表示手段と、提示された情報から地名や施設名等を指示入力する手段と、音声翻訳手段とを組合せ、翻訳したユーザの発話を出力することによりユーザの意図を伝える方法が考えられる。

これに関連する技術として、音声認識手段と地図表示手段を有し、音声認識と同時に地図に対してユーザ行ったポインティング動作を認識し、双方の時間的な関係から、発話された文に含まれる指示詞を具体的な地図の位置情報に置き換えた文の意味構造を出力する技術が提案されている（例えば、特許文献１）。

特開平０９−１１４６３４号公報

しかしながら、特許文献１の方法によれば、ユーザの指示内容を参照して指示詞を含む意味表現を解析することにより音声認識の精度を上げることができるが、指示内容を利用して機械翻訳の精度を向上させることができないという問題があった。

本発明は、上記に鑑みてなされたものであって、表示した情報に対してユーザが指示した内容を参照して翻訳精度を向上させることができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、発話に関連する関連情報の名称と、前記関連情報の表示位置とを対応づけて記憶する関連情報記憶部と、語句の意味属性を表す意味クラスと、前記語句を含む原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、前記関連情報の名称と、前記関連情報の名称の前記意味クラスとを対応づけて記憶する辞書記憶部と、前記関連情報の前記表示位置を前記関連情報記憶部から取得し、取得した前記表示位置に前記関連情報を表示する表示部と、原言語により発話された音声を受付ける音声受付部と、受付けた前記音声を認識して原言語による原言語文字列を生成する認識部と、前記表示部に表示された前記関連情報の選択を受付ける選択受付部と、選択を受付けた前記関連情報の前記表示位置に対応する前記関連情報の名称を前記関連情報記憶部から取得し、取得した前記関連情報の名称に対応する前記意味クラスを前記辞書記憶部から取得する取得部と、取得した前記意味クラスと、前記原言語文字列とに対応する前記目的言語の用例を前記用例記憶部から取得することにより、前記原言語文字列を目的言語に翻訳する翻訳部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、指示内容によって翻訳結果の候補を探索する範囲を絞り込めるため、機械翻訳の精度を向上させることができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声翻訳する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。なお、以下では説明の簡略化のため、主に原言語は日本語、目的言語は中国語として説明するが、言語の種別は日本語と中国語に限られるものではなく、他の言語対に関しても適用できるということはいうまでもない。

（第１の実施の形態）
第１の実施の形態にかかる音声翻訳装置は、ユーザの発話内容に関連する地図や料理名などの関連情報を画面に表示し、表示した関連情報からユーザが指示した関連情報の意味クラスと同一の意味クラスに対応づけられた用例のみを用例の探索範囲とするものである。

図１は、第１の実施の形態にかかる音声翻訳装置１００の構成を示すブロック図である。同図に示すように、音声翻訳装置１００は、マイク１１１と、音声入力ボタン１１２と、ポインティングデバイス１１３と、操作パネル１１４と、スピーカ１１５と、関連情報記憶部１２１と、用例記憶部１２２と、辞書記憶部１２３と、音声受付部１０１と、選択受付部１０２と、認識部１０３と、取得部１０４と、翻訳部１０５と、合成部１０６と、出力制御部１０７と、を備えている。

マイク１１１は、ユーザが発話する原言語の音声を入力するものである。音声入力ボタン１１２は、マイク１１１からユーザの発話した音声の取り込みを開始するときに押下するボタンである。なお、後述するように、音声入力ボタン１１２の他の操作ボタンとして、翻訳処理の開始を指示するための翻訳ボタンと、合成音声の出力を指定する音声ボタンとが存在するが、同図では図示を省略する。

ポインティングデバイス１１３は、後述する操作パネル１１４に表示されているオブジェクトを指し示すことにより場所や施設、料理などの関連情報を指定するためのデバイスであり、ペンやマウスなどにより構成される。以下では、ポインティングデバイス１１３としてペンが用いられるものとして説明する。

操作パネル１１４は、音声翻訳装置１００の操作に関する情報を表示する液晶ディスプレイなどの表示部であり、ポインティングデバイス１１３による操作を受付けることにより表示した情報を指定可能に構成されている。

本実施の形態では、操作パネル１１４は、地図形式による場所、施設等の表示、およびリスト形式による施設、料理名等の表示を行う。また、操作パネル１１４は、後述する認識部１０３が生成した認識結果の候補を選択可能に表示する。

スピーカ１１５は、後述する合成部１０６が合成した音声を出力するものである。

関連情報記憶部１２１は、操作パネル１１４に表示する地図や料理名リストなどの関連情報を記憶するものである。図２は、関連情報記憶部１２１に記憶された関連情報のデータ構造の一例を示す説明図である。同図に示すように、関連情報記憶部１２１には、関連情報の目的言語での名称と、当該関連情報を操作パネル１１４に表示するときに必要な座標などを表す表示位置とが対応づけられて格納されている。同図では、画面上のＸ，Ｙ座標により表示位置を指定する例が示されている。

なお、表示位置の指定方法はこれに限られるものではなく、ポインティングデバイス１１３の指示した操作パネル１１４の位置から関連情報を特定可能な方法であればあらゆる方法を適用できる。例えば、操作パネル１１４に地図を表示している場合は、当該地図上での施設等の表示対象の表示位置を関連情報記憶部１２１に記憶するように構成してもよい。また、関連情報記憶部１２１に関連情報の原言語での名称も対応づけて格納するように構成してもよい。

用例記憶部１２２は、翻訳部１０５が翻訳処理に用いる対訳用例を記憶するものである。図３は、用例記憶部１２２に記憶された対訳用例のデータ構造の一例を示す説明図である。同図に示すように、対訳用例は、記号「＜」と記号「＞」とで囲まれたタグを用いたタグ形式で記述されており、タグ「＜ｐｐｉｄ＝“ＮＮＮ"＞」とタグ「＜／ｐ＞」とで囲まれた部分が一つの対訳用例を表す。

この対訳用例のそれぞれは、さらにタグ「＜ｊ＞」とタグ「＜／ｊ＞」とで囲まれた日本語文、タグ「＜ｃ＞」とタグ「＜／ｃ＞」とで囲まれた中国語文、タグ「＜ｓｉｄ＝”ＬＬＬ”＞」とタグ「＜／ｓ＞」とで囲まれた意味クラス情報とを含んでいる。なお、「ＬＬＬ」は数値を表す。

タグ「＜ａｉｄ＝”ＭＭＭ”＞」とタグ「＜／ａ＞」とで囲まれている語は、日本語文と中国語文におけるそれぞれの語を対応付ける数値「ＭＭＭ」が与えられている。また、タグ「＜ｓｉｄ＝”ＬＬＬ”＞」とタグ「＜／ｓ＞」とで囲まれた意味クラス情報は、上述の数値「ＬＬＬ」で対応付けられるタグ「＜ａｉｄ＝“ＬＬＬ"＞」に対応する語の意味属性を表している。

辞書記憶部１２３は、原言語の単語と目的言語の単語とを対応づけた辞書情報を格納するものである。図４は、辞書情報のデータ構造の一例を示す説明図である。同図に示すように、辞書情報として、中国語の単語と、日本語の単語と、各単語の意味属性を表す意味クラスとを対応づけて格納している。なお、一方の言語で他方の言語の訳語が存在しない場合は、記号「−」によって対応する訳語が存在しないことを表す。辞書記憶部１２３は、後述する取得部１０４が関連情報に対応する意味クラスを取得するときに参照される。

なお、関連情報記憶部１２１、用例記憶部１２２、および辞書記憶部１２３は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

音声受付部１０１は、マイク１１１から入力された音声のアナログ信号に対してサンプリングを行い、ステレオのデジタル信号に変換して出力する処理を行うものである。音声受付部１０１の処理では、従来から用いられているＡ／Ｄ変換技術などを適用することができる。

選択受付部１０２は、ポインティングデバイス１１３により操作パネル１１４上で指示された関連情報または認識結果の候補の選択を受付けるものである。

認識部１０３は、音声受付部１０１が出力したデジタル音声信号を入力として、対応する原言語の文字列である認識結果の候補を生成する音声認識処理を行うものである。音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、ダイナミックプログラミング、ニューラルネットワーク、Ｎグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。

なお、認識部１０３は、各候補について、候補の確からしさを表す尤度を算出し、算出した尤度が大きい順に所定数の候補を生成して出力する。また、認識部１０３は、選択受付部１０２が関連情報を受付けた場合、認識結果に含まれる近接場に関する指示代名詞（これ、ここ、この）を、受付けた関連情報の名称で置換する。指示代名詞の置換処理では、上記特許文献１に記載の技術など、従来から用いられているあらゆる技術を利用することができる。

取得部１０４は、選択受付部１０２が受付けた関連情報に対応する意味クラスを辞書記憶部１２３から取得するものである。

翻訳部１０５は、認識部１０３で得られた認識結果を、用例ベース機械翻訳方式により、目的言語の文字列に翻訳するものである。具体的には、翻訳部１０５は、認識結果と一致または類似する原言語の用例を用例記憶部１２２から取得し、取得した原言語の用例に対応する目的言語の用例を取得することにより認識結果の翻訳を行う。

このとき、本実施の形態では、翻訳部１０５は、取得部１０４が取得した意味クラスと同一の意味クラスが対応づけられた用例の中から、適合する用例を探索する。すなわち、翻訳部１０５は、用例の探索範囲を、指示された関連情報の意味クラスと一致する意味クラスに対応する用例のみに絞り込む。これにより、翻訳の精度を向上させることができる。

合成部１０６は、翻訳部１０５で得られた文字列を音声信号に変換する音声合成処理を行うものである。合成部１０６により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。

出力制御部１０７は、操作パネル１１４およびスピーカ１１５に対する各種情報の出力処理を制御するものである。具体的には、出力制御部１０７は、合成部１０６が生成した音声信号をＤＡ変換してスピーカ１１５に出力する処理、生成された認識結果の候補を操作パネル１１４に出力する処理などを行う。

ここで、本実施の形態による音声翻訳処理の全体の流れを表す具体例について説明する。図５は、本実施の形態による音声翻訳処理の動作イメージを示す説明図である。なお、同図では、括弧内の数字により音声翻訳処理の動作順を表している。

まず、ユーザがペンなどのポインティングデバイス１１３によって指定した地図２０１上の場所２０２の指示が受付けられる（１）。次に、音声入力ボタン１１２の押下による発話開始指示が受付けられる（２）。そして、音声入力ボタン１１２が押下された後に、発話されるユーザの音声２０４が取り込まれる（３）。次に、取り込まれた音声信号に基づいて音声認識を行った結果と、（１）で指示された場所に対応する固有名詞とから、妥当性の高い原言語の文を合成した候補が表示される（４）。そして、表示されている文の候補からユーザが指定した候補２０５の選択が受付けられる（５）。次に、翻訳ボタン２０７の押下により、選択された候補２０５の翻訳指示が受付けられる（６）。その後、翻訳処理が実行され、その翻訳結果２０８が表示される（７）。また、音声ボタン２１０の押下により、翻訳結果２０８を合成した音声２０９が出力される（８）。

次に、このように構成された第１の実施の形態にかかる音声翻訳装置１００による音声翻訳処理について説明する。図６−１、図６−２は、第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

なお、本実施の形態の音声翻訳処理は、関連情報記憶部１２１に記憶されている地図や料理名リストなどの関連情報が操作パネル１１４に表示されていることを前提とする。

まず、選択受付部１０２が、ポインティングデバイス１１３の入力、すなわち、ペン入力があったか否かを判断する（ステップＳ６０１）。ここでのペン入力は、表示されている関連情報（以下、オブジェクトという。）をユーザが指示したことを意味する。

ペン入力があった場合は（ステップＳ６０１：ＹＥＳ）、選択受付部１０２は、ポインティングデバイス１１３で指示されたオブジェクトの名称を関連情報記憶部１２１から取得する（ステップＳ６０２）。具体的には、選択受付部１０２は、指示された表示位置に対応するオブジェクトの名称を関連情報記憶部１２１から取得する。なお、関連情報記憶部１２１に目的言語の名称のみが格納されているときは、辞書記憶部１２３を参照して原言語の名称を取得する。ここで取得した原言語の名称を以下ではＡとする。

次に、音声受付部１０１が、音声入力ボタン１１２が押下されたか否かを判断する（ステップＳ６０３）。押下されていない場合は（ステップＳ６０３：ＮＯ）、押下されるまで処理を繰り返す。押下された場合は（ステップＳ６０３：ＹＥＳ）、音声受付部１０１は、マイク１１１から音声の入力を受付ける（ステップＳ６０４）。

次に、認識部１０３は、受付けた音声に対する音声認識処理を実行する（ステップＳ６０５）。なお、認識部１０３は、上述のように、音声認識処理により尤度の高い所定数の認識結果の候補を生成する。

次に、認識部１０３は、認識結果の候補に含まれる指示代名詞を検出し、検出した指示代名詞を、ステップＳ６０２で取得されたオブジェクトの名称Ａで置換する（ステップＳ６０６）。

図７は、認識結果の置換の具体例を示す説明図である。同図は、日本語による原言語音声の認識結果の候補として、「これにどれくらいで行けますか。」を意味する候補７０１と、「これにどこから行けますか。」を意味する候補７０２が生成された場合の例を示している。なお、各候補には、それぞれ「これ」を意味する指示代名詞７０３、７０４が含まれる。

また、この例では、ユーザが操作パネル１１４に表示された地図上で、あるオブジェクトを指示し、指示されたオブジェクトの固有名詞として単語７０５（故宮）が得られたことを前提としている。

この場合、指示代名詞７０３、７０４の部分をそれぞれ単語７０５で置換した候補７０６、７０７がそれぞれ生成される。

図６に戻り、取得部１０４は、指示されたオブジェクトに対応する意味クラスを辞書記憶部１２３から取得する（ステップＳ６０７）。取得した意味クラスは、後述するステップＳ６１６の機械翻訳処理で参照される。

次に、ステップＳ６０１で、ペン入力がないと判断された場合は（ステップＳ６０１：ＮＯ）、音声受付部１０１は、音声入力ボタン１１２が押下されたか否かを判断する（ステップＳ６０７）。押下されていない場合は（ステップＳ６０７：ＮＯ）、ステップＳ６０１に戻って処理を繰り返す。

押下された場合は（ステップＳ６０７：ＹＥＳ）、音声受付部１０１は、マイク１１１から音声の入力を受付ける（ステップＳ６０８）。なお、ステップＳ６０７で音声入力ボタン１１２の押下を検出する場合は、ユーザがオブジェクトを指示せずに（ステップＳ６０１：ＮＯ）音声入力ボタン１１２を押下して発話する場合が該当する。

次に、認識部１０３は、受付けた音声に対する音声認識処理を実行する（ステップＳ６０９）。

ステップＳ６０６で指示代名詞を置換した後、または、ステップＳ６０９で音声認識処理を実行後、出力制御部１０７は、生成された認識結果の候補（以下、候補文という。）を操作パネル１１４に表示する（ステップＳ６１０）。

次に、選択受付部１０２は、さらにペン入力があったか否かを判断する（ステップＳ６１１）。ここでのペン入力は、表示された候補文からいずれか１つの候補文を選択するための入力を意味する。

ペン入力があった場合は（ステップＳ６１１：ＹＥＳ）、選択受付部１０２は、ポインティングデバイス１１３で指示された候補文の選択を受付ける（ステップＳ６１２）。次に、選択受付部１０２は、翻訳ボタンが押下されたか否かを判断する（ステップＳ６１３）。押下されていない場合は（ステップＳ６１３：ＮＯ）、選択受付部１０２は、押下されるまで処理を繰り返す。

ステップＳ６１１で、ペン入力がないと判断された場合は（ステップＳ６１１：ＮＯ）、選択受付部１０２は、翻訳ボタンが押下されたか否かを判断する（ステップＳ６１４）。押下されていない場合は（ステップＳ６１４：ＮＯ）、選択受付部１０２は、ステップＳ６１１に戻って処理を繰り返す。

ステップＳ６１３またはステップＳ６１４で翻訳ボタンが押下されたと判断された場合は（ステップＳ６１３：ＹＥＳ、ステップＳ６１４：ＹＥＳ）、翻訳部１０５は、用例記憶部１２２を参照して適合する用例を取得することにより翻訳を行う機械翻訳処理を実行する（ステップＳ６１５）。

なお、機械翻訳処理は、ステップＳ６１２で選択された候補文、または候補文がユーザにより選択されていないときは、最も尤度の高い候補文など予め定められた規則により選択した候補文を対象として実行される。機械翻訳処理の詳細については後述する。

次に、出力制御部１０７は、機械翻訳処理の翻訳結果を操作パネル１１４に表示する（ステップＳ６１６）。そして、ユーザが音声ボタンを押下することにより合成音声の出力が指示された場合は、合成部１０６が翻訳結果を音声合成する（ステップＳ６１７）。次に、出力制御部１０７が、合成した音声をスピーカ１１５に出力する（ステップＳ６１８）。

次に、ステップＳ６１５の機械翻訳処理の詳細について説明する。図８は、機械翻訳処理の全体の流れを示すフローチャートである。

まず、翻訳部１０５は、ポインティングデバイス１１３（ペン）で指示されたオブジェクトの意味クラスと同一の意味クラスを有する用例を検索対象として定める（ステップＳ８０１）。

次に、翻訳部１０５は、検索対象の用例のうち、候補文と類似する原言語の用例を用例記憶部１２２から取得し、さらに取得した原言語の用例に対応する目的言語の用例を用例記憶部１２２から取得する（ステップＳ８０２）。

次に、翻訳部１０５は、候補文と原言語の用例との相違部分を検出する（ステップＳ８０３）。続いて、翻訳部１０５は、取得した目的言語の用例について、相違部分に対応する目的言語の単語（訳語）を辞書記憶部１２３から取得し、取得した訳語で相違部分を置換する（ステップＳ８０４）。

なお、ステップＳ８０２からステップＳ８０４までの用例検索・相違部分置換処理は、従来から用いられている用例ベース機械翻訳と同様の方法により実行できる。本実施の形態では、用例の探索範囲が、指示されたオブジェクトの意味クラスと同一の意味クラスに対応する用例に絞り込まれる点が（ステップＳ８０１）、従来の手法と異なっている。

図９は、機械翻訳処理の具体例を示す説明図である。同図は、ユーザにより操作パネル１１４上で図４の中国語４０１（故宮）に対応するオブジェクトが指示され（ステップＳ６０１：ＹＥＳ）、施設を意味する図４の意味クラス４０２（施設）が取得されていること（ステップＳ６０７）を前提とした例を示している。また、候補文として、「故宮にどれくらいで行けますか。」を意味する候補文９０３が選択されたことを前提としている。

この例では、図４の意味クラス４０２が取得されているため、意味クラス４０２と同一の意味クラス９０１（施設）を有する用例の中から類似文が検索される（ステップＳ８０２）。

また、候補文９０３（故宮にどれくらいでいけますか。）と、検索された類似文９０２（万里の長城にどれくらいで行けますか。）との相違部分は、単語９０４（万里の長城）と単語９０５（故宮）の部分である（ステップＳ８０３）。

原言語文と目的言語文の対応情報（＜ａｉｄ＝"１"＞）から、目的言語の用例で置換すべき部分は、中国語９０６であることが特定できる。したがって、この中国語９０６を、相違部分である単語９０５に対応する中国語の単語（故宮）で置換した用例９０７が生成される（ステップＳ８０４）。

次に、日英翻訳について本実施の形態の手法を適用した例について説明する。図１０は、日本語を入力として英語に翻訳する場合に処理される各種データの一例を示している。

同図では、「この空港までおいくらですか。」を意味する日本語１００１が入力されるとともに（ステップＳ６０４）、地図上で「ＳａｎＪｏｓｅ」に対応するオブジェクトが指示され（ステップＳ６０１：ＹＥＳ）、対応する名称１００２（ＳａｎＪｏｓｅ）が取得された場合（ステップＳ６０２）の例が示されている。

この場合、指示代名詞が名称１００２で置換された候補文１００３（ＳａｎＪｏｓｅの空港までおいくらですか。）が生成される（ステップＳ６０６）。次に、類似する用例１００４が用例記憶部１２２から取得される（ステップＳ８０２）。なお、この例では日本語の用例と英語の用例とを対応づけた対訳用例が用例記憶部１２２に記憶されているものとする。

そして、用例１００４に対応する英語の用例１００５のうち、候補文との相違部分である空港名の部分が置換された翻訳結果１００６が出力される（ステップＳ８０４）。

（変形例）
上述のフローチャートでは、音声認識結果を表示してユーザに選択させるように構成していたが、音声認識結果のそれぞれについて類似した用例を検索し、検索された用例をユーザに候補文として示して選択させるように構成してもよい。このような方法によれば、音声認識結果に誤りが含まれていたとしても、検索された用例には誤りが含まれていないため、用例を提示することによりユーザに良い印象を与えられるというメリットがある。

以下に、このように構成した第１の実施の形態の変形例にかかる音声翻訳装置１００による音声翻訳処理について説明する。図１１−１、図１１−２は、第１の実施の形態の変形例における音声翻訳処理の全体の流れを示すフローチャートである。

ステップＳ１１０１からステップＳ１１１０までの、オブジェクト選択受付処理、音声受付処理、認識処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６０１からステップＳ６１０までと同様の処理なので、その説明を省略する。

音声認識処理（ステップＳ１１１０）または認識結果の置換処理の後（ステップＳ１１０６）、本変形例では、翻訳部１０５による機械翻訳処理が実行される（ステップＳ１１１１）。また、出力制御部１０７は、機械翻訳処理内で検索された原言語の用例を候補文として操作パネル１１４に表示する（ステップＳ１１１２）。

ステップＳ１１１３からステップＳ１１１６までの、候補文選択受付処理、翻訳ボタン受付処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６１２からステップＳ６１５までと同様の処理なので、その説明を省略する。

次に、出力制御部１０７は、選択された候補文に対応する翻訳結果を、ステップＳ１１１１で実行された機械翻訳処理の翻訳結果の中から取得して操作パネル１１４に表示する（ステップＳ１１１７）。

ステップＳ１１１８からステップＳ１１１９までの、音声合成処理、合成音声出力処理は、第１の実施の形態にかかる音声翻訳装置１００におけるステップＳ６１８からステップＳ６１９までと同様の処理なので、その説明を省略する。

このように、第１の実施の形態にかかる音声翻訳装置では、表示部に表示された地名や料理名などをポインティングデバイスによって指示することにより、発音の困難な固有名詞をユーザが発話する必要がなくなる。また、ユーザが指示と同時に発話した音声に対する音声認識や機械翻訳の解候補の探索範囲を、指示された固有名詞の意味クラスによって絞り込むことができるようになる。このため、機械翻訳の精度を向上させることが可能となる。

（第２の実施の形態）
第２の実施の形態にかかる音声翻訳装置は、指示されたオブジェクトの意味クラスに関する共起情報を用いて音声認識処理の絞込みを行うことにより音声翻訳処理の精度を向上させるものである。

図１２は、第２の実施の形態にかかる音声翻訳装置１２００の構成を示すブロック図である。同図に示すように、音声翻訳装置１２００は、マイク１１１と、音声入力ボタン１１２と、ポインティングデバイス１１３と、操作パネル１１４と、スピーカ１１５と、関連情報記憶部１２１と、用例記憶部１２２と、辞書記憶部１２３と、共起情報記憶部１２２４と、音声受付部１０１と、選択受付部１０２と、認識部１２０３と、取得部１０４と、翻訳部１０５と、合成部１０６と、出力制御部１０７と、を備えている。

第２の実施の形態では、共起情報記憶部１２２４を追加したこと、および認識部１２０３の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる音声翻訳装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

共起情報記憶部１２２４は、意味クラスと、当該意味クラスを有する単語と共に用いられる単語である共起語とを対応づけた共起情報を記憶するものである。図１３は、共起情報のデータ構造の一例を示す説明図である。同図に示すように、共起情報は、意味クラスと、格助詞と、自立語とを含んでいる。このような共起情報により、例えば、意味クラス１３０１（料理名）を有する単語は、格助詞１３０２（に）および自立語１３０３（付く）と共に用いられることが表される。

認識部１２０３は、取得部１０４が取得した意味クラスとともに用いられる共起語を共起情報記憶部１２２４から取得し、音声認識処理の認識結果の候補を、取得した共起語を含む候補に絞り込む点が、第１の実施の形態の認識部１０３と異なっている。

次に、このように構成された第２の実施の形態にかかる音声翻訳装置１２００による音声翻訳処理について説明する。図１４−１、図１４−２は、第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。

第２の実施の形態では、ステップＳ１４１１の認識結果の絞り込み処理が追加された点が、第１の実施の形態の変形例に関するフローチャートを示す図１１と異なっている。その他の処理は、図１１と同様であるため、その説明を省略する。

ステップＳ１４１１では、認識部１２０３が、取得された意味クラスを含む共起情報を共起情報記憶部１２２４から取得し、取得した共起情報に適合する候補のみに認識結果の候補を絞り込む。これにより、音声認識処理の精度向上を図り、結果として音声翻訳処理の精度を向上させることが可能となる。

次に、本実施の形態における音声翻訳処理の具体例について説明する。図１５は、表示された料理名を指示しながら音声を入力した場合に処理される各種データの一例を示す説明図である。また、図１６は、表示された地名を指示しながら音声を入力した場合に処理される各種データの一例を示す説明図である。

なお、図１５および図１６では、類似の日本語の音声が入力されたため、認識結果の候補として２つの同一の候補が生成されたことを前提としている。すなわち、図１５および図１６の例では、同一の候補が生成された場合であっても、指示されたオブジェクトの意味クラスによって認識結果の候補の絞り込みが行われるため、それぞれ異なる適切な候補文が選択されることが示される。

まず、図１５のように料理名が指示された場合は、音声認識結果として認識結果１５０１（これにつくのはどれですか。）と認識結果１５０２（これにいくのはどれですか。）が生成され（ステップＳ１４０５）、指示された料理名の名称１５０３が取得される（ステップＳ１４０２）。

この例の場合、料理名に関するオブジェクトが指示されているため、オブジェクトの意味クラスとして料理名を意味する意味クラス１５０４が取得される（ステップＳ１４０７）。そして、認識結果１５０１と認識結果１５０２との相違部分である単語１５１１と単語１５１２とのうち、意味クラス１５０４に対応する共起情報１５０５に含まれる自立語１５１３と同一の発音を有する単語１５１１を含む認識結果１５０１が取得される（ステップＳ１４１１）。

次に、認識結果１５０１に類似する用例として、用例１５０６（麻婆豆腐に付くのはどのデザートですか。）、用例１５０７（麻婆豆腐の値段はいくらですか。）が検索される（ステップＳ８０２）。

認識結果１５０１との類似度の高い用例１５０６が選択されたとすると、相違部分である単語１５１４に相当する目的言語の単語が、名称１５０３に置換された候補文１５０８が生成され、操作パネル１１４に表示される（ステップＳ１４１３）。

一方、図１６のように地名が指示された場合は、音声認識結果として図１５の認識結果１５０１、認識結果１５０２と同一の認識結果１６０１、認識結果１６０２が生成され（ステップＳ１４０５）、指示された地名の名称１６０３が取得される（ステップＳ１４０２）。

この例の場合、地名に関するオブジェクトが指示されているため、オブジェクトの意味クラスとして地名を意味する意味クラス１６０４が取得される（ステップＳ１４０７）。また、この例の場合、認識結果１６０１と認識結果１６０２との相違部分である単語１６１１と単語１６１２とに対して、各単語をそれぞれ含み、意味クラス１６０４に対応する共起情報がそれぞれ存在する。

すなわち、単語１６１１に対しては、単語１６１１と同一の発音を有する自立語１６１３を含む共起情報１６０５が存在する。また、単語１６１２に対しては、単語１６１２と同一の発音を有する自立語１６１４を含む共起情報１６０６が存在する。

したがって、認識結果１６０１、認識結果１６０２のいずれも候補として残される（ステップＳ１４１１）。

次に、認識結果１６０１および認識結果１６０２に類似する用例として、それぞれ用例１６０７（北京に行くのはどのバスですか。）および用例１６０８（北京に着くまで何分かかりますか。）が検索される（ステップＳ８０２）。

そして、相違部分である単語１６１５に相当する目的言語の単語が、名称１６０３に置換された候補文１６０９および候補文１６１０がそれぞれ生成され、操作パネル１１４に表示される（ステップＳ１４１３）。

このように、第２の実施の形態にかかる音声翻訳装置では、指示されたオブジェクトの意味クラスに関する共起情報を用いて音声認識処理の絞込みを行うことにより音声認識処理を高精度に実行することができる。その結果、音声翻訳処理の精度を向上させることができる。

図１７は、第１または第２の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

第１または第２の実施の形態にかかる音声翻訳装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１または第２の実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、上述した各部（音声受付部、選択受付部、認識部、取得部、翻訳部、合成部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声翻訳装置は、異なる言語を母語とする人同士の対話を支援する音声翻訳装置に適している。

第１の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。関連情報記憶部に記憶された関連情報のデータ構造の一例を示す説明図である。用例記憶部に記憶された対訳用例のデータ構造の一例を示す説明図である。辞書情報のデータ構造の一例を示す説明図である。本実施の形態による音声翻訳処理の動作イメージを示す説明図である。第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。第１の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。認識結果の置換の具体例を示す説明図である。機械翻訳処理の全体の流れを示すフローチャートである。機械翻訳処理の具体例を示す説明図である。日本語を入力として英語に翻訳する場合に処理される各種データの一例を示している図である。第１の実施の形態の変形例における音声翻訳処理の全体の流れを示すフローチャートである。第１の実施の形態の変形例における音声翻訳処理の全体の流れを示すフローチャートである。第２の実施の形態にかかる音声翻訳装置の構成を示すブロック図である。共起情報のデータ構造の一例を示す説明図である。第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。第２の実施の形態における音声翻訳処理の全体の流れを示すフローチャートである。処理される各種データの一例を示す説明図である。処理される各種データの一例を示す説明図である。第１または第２の実施の形態にかかる音声翻訳装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００音声翻訳装置
１０１音声受付部
１０２選択受付部
１０３認識部
１０４取得部
１０５翻訳部
１０６合成部
１０７出力制御部
１１１マイク
１１２音声入力ボタン
１１３ポインティングデバイス
１１４操作パネル
１１５スピーカ
１２１関連情報記憶部
１２２用例記憶部
１２３辞書記憶部
２０１地図
２０２場所
２０４音声
２０５候補
２０７翻訳ボタン
２０８翻訳結果
２０９音声
２１０音声ボタン
４０１中国語
４０２意味クラス
７０１、７０２候補
７０３、７０４指示代名詞
７０５単語
７０６候補
９０１意味クラス
９０２類似文
９０３候補文
９０４、９０５単語
９０６中国語
９０７用例
１００１日本語
１００２名称
１００３候補文
１００４、１００５用例
１００６翻訳結果
１２００音声翻訳装置
１２０３認識部
１２２４共起情報記憶部
１３０１意味クラス
１３０２格助詞
１３０３自立語
１５０１、１５０２認識結果
１５０３名称
１５０４意味クラス
１５０５共起情報
１５０６、１５０７用例
１５０８候補文
１５１１、１５１２、１５１４単語
１５１３自立語
１６０１、１６０２認識結果
１６０３名称
１６０４意味クラス
１６０５、１６０６共起情報
１６０７、１６０８用例
１６０９、１６１０候補文
１６１１、１６１２、１６１５単語
１６１３、１６１４自立語

Claims

発話に関連する関連情報の名称と、前記関連情報の表示位置とを対応づけて記憶する関連情報記憶部と、
語句の意味属性を表す意味クラスと、前記語句を含む原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部と、
前記関連情報の名称と、前記関連情報の名称の前記意味クラスとを対応づけて記憶する辞書記憶部と、
前記関連情報の前記表示位置を前記関連情報記憶部から取得し、取得した前記表示位置に前記関連情報を表示する表示部と、
原言語により発話された音声を受付ける音声受付部と、
受付けた前記音声を認識して原言語による原言語文字列を生成する認識部と、
前記表示部に表示された前記関連情報の選択を受付ける選択受付部と、
選択を受付けた前記関連情報の前記表示位置に対応する前記関連情報の名称を前記関連情報記憶部から取得し、取得した前記関連情報の名称に対応する前記意味クラスを前記辞書記憶部から取得する取得部と、
取得した前記意味クラスと、前記原言語文字列とに対応する前記目的言語の用例を前記用例記憶部から取得することにより、前記原言語文字列を目的言語に翻訳する翻訳部と、
を備えたことを特徴とする音声翻訳装置。
前記認識部は、受付けた前記音声を認識して前記原言語文字列の候補を生成し、
前記選択受付部は、さらに前記表示部に表示された前記候補から、前記候補の選択を受付け、
前記翻訳部は、取得した前記意味クラスと、選択された前記候補とに対応する前記目的言語の用例を前記用例記憶部から取得することにより、前記候補を目的言語に翻訳すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記認識部は、前記候補の確からしさを表す尤度が大きい順に予め定められた個数の前記候補を生成すること、
を特徴とする請求項２に記載の音声翻訳装置。
前記認識部は、受付けた前記音声を認識して前記原言語文字列の候補を生成し、
前記翻訳部は、生成された前記候補のそれぞれについて、前記候補に適合する前記原言語の用例を取得し、取得した前記原言語の用例と、前記取得部が取得した前記意味クラスとに対応する前記目的言語の用例を前記用例記憶部から取得することにより、前記候補を目的言語に翻訳し、
前記選択受付部は、さらに前記表示部に表示された、前記翻訳部が取得した前記原言語の用例から、前記原言語の用例の選択を受付け、
選択された前記原言語の用例に対応する前記目的言語の用例を出力する出力制御部をさらに備えたこと、
を特徴とする請求項１に記載の音声翻訳装置。
前記認識部は、前記候補の確からしさを表す尤度が大きい順に予め定められた個数の前記候補を生成すること、
を特徴とする請求項４に記載の音声翻訳装置。
前記認識部は、前記原言語文字列に含まれる指示代名詞を、取得した前記関連情報の名称で置換すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記関連情報記憶部は、地図上に表示される表示対象の名称を前記関連情報の名称として、前記表示対象の前記地図上での前記表示位置と対応づけて記憶し、
前記辞書記憶部は、前記表示対象の名称と、前記表示対象の名称の前記意味クラスとを対応づけて記憶し、
前記選択受付部は、前記表示部に表示された前記地図上の前記表示位置に表示された前記表示対象の選択を受付け、
前記取得部は、選択を受付けた前記表示対象の前記表示位置に対応する前記表示対象の名称を前記関連情報記憶部から取得し、取得した前記表示対象の名称に対応する前記意味クラスを前記辞書記憶部から取得すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記関連情報記憶部は、前記関連情報の名称と、一覧形式で表示する前記関連情報の一覧上での前記表示位置とを対応づけて記憶し、
前記選択受付部は、前記表示部に表示された前記関連情報の一覧上の前記表示位置に表示された前記関連情報の選択を受付けること、
を特徴とする請求項１に記載の音声翻訳装置。
前記翻訳部が取得した前記目的言語の用例を目的言語の音声に合成する合成部と、
合成された前記目的言語の音声を出力する出力制御部と、をさらに備えたこと、
を特徴とする請求項１に記載の音声翻訳装置。
前記意味クラスと、前記意味クラスが表す意味属性の語句と共に用いられる語句である共起語とを対応づけて記憶する共起情報記憶部をさらに備え、
前記認識部は、前記原言語文字列の候補のうち、前記取得部が取得した前記意味クラスに対応する前記共起語を前記共起情報記憶部から取得し、取得した前記共起語を含む前記候補を前記原言語文字列として選択すること、
を特徴とする請求項１に記載の音声翻訳装置。
音声受付部により、原言語により発話された音声を受付ける音声受付ステップと、
認識部により、受付けた前記音声を認識して原言語による原言語文字列を生成する認識ステップと、
選択受付部により、表示部に表示された、発話に関連する関連情報の選択を受付ける選択受付ステップと、
取得部により、前記関連情報の名称と前記関連情報の表示位置とを対応づけて記憶する関連情報記憶部から、選択を受付けた前記関連情報の前記表示位置に対応する前記関連情報の名称を取得し、前記関連情報の名称と前記関連情報の名称の意味属性を表す意味クラスとを対応づけて記憶する辞書記憶部から、取得した前記関連情報の名称に対応する前記意味クラスを取得する取得ステップと、
翻訳部により、語句の前記意味クラスと、前記語句を含む原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、取得した前記意味クラスと、前記原言語文字列とに対応する前記目的言語の用例を取得することにより、前記認識結果を目的言語に翻訳する翻訳ステップと、
を備えたことを特徴とする音声翻訳方法。
原言語により発話された音声を受付ける音声受付手順と、
受付けた前記音声を認識して原言語による原言語文字列を生成する認識手順と、
表示部に表示された、発話に関連する関連情報の選択を受付ける選択受付手順と、
前記関連情報の名称と前記関連情報の表示位置とを対応づけて記憶する関連情報記憶部から、選択を受付けた前記関連情報の前記表示位置に対応する前記関連情報の名称を取得し、前記関連情報の名称と前記関連情報の名称の意味属性を表す意味クラスとを対応づけて記憶する辞書記憶部から、取得した前記関連情報の名称に対応する前記意味クラスを取得する取得手順と、
語句の前記意味クラスと、前記語句を含む原言語の用例と、前記原言語の用例を翻訳した目的言語の用例とを対応づけて記憶する用例記憶部から、取得した前記意味クラスと、前記原言語文字列とに対応する前記目的言語の用例を取得することにより、前記認識結果を目的言語に翻訳する翻訳手順と、
をコンピュータに実行させる音声翻訳プログラム。