JP2016057986A

JP2016057986A - 音声翻訳装置、方法およびプログラム

Info

Publication number: JP2016057986A
Application number: JP2014185583A
Authority: JP
Inventors: 住田　一男; Kazuo Sumita; 一男住田; 聡史釜谷; Satoshi Kamaya; 一彦阿部; Kazuhiko Abe; 長　健太; Kenta Cho; 健太長
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2016-04-21
Also published as: US20160078020A1; CN105426362A

Abstract

【課題】円滑な音声対話を実現できる。
【解決手段】本実施形態に係る音声翻訳装置は、音声認識部、検出部、変換部および翻訳部を含む。音声認識部は、第１言語による音声を音声認識し、認識結果文字列を生成する。検出部は、前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する。変換部は、前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。翻訳部は、前記変換文字列を前記第１言語とは異なる第２言語に翻訳し、翻訳文字列を生成する。
【選択図】図１

Description

本発明の実施形態は、音声翻訳装置、方法およびプログラムに関する。

近年のグローバル化に伴い、異なる言語を母語とするユーザ同士のコミュニケーションを支援する翻訳デバイスの需要が高まっている。このようなデバイスの一例としては、スマートフォンなどの端末で動作する音声翻訳アプリケーションがある。さらに、会議または講演などの利用を想定した音声翻訳システムもある。

特開２０１１−１８２１２５号公報

しかし、一般的な音声翻訳アプリケーションでは、旅行で想定される会話など簡単な会話での利用しか想定されていない。さらに、会議または講演などでは、話者の話し方に制約を設けることは難しく、自由発話を考慮した処理が必要となるが、上述した音声翻訳システムでは、自由発話が考慮されていない。

本開示は、上述の課題を解決するためになされたものであり、円滑な音声対話を実現できる音声翻訳装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る音声翻訳装置は、音声認識部、検出部、変換部および翻訳部を含む。音声認識部は、第１言語による音声を音声認識し、認識結果文字列を生成する。検出部は、前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する。変換部は、前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。翻訳部は、前記変換文字列を前記第１言語とは異なる第２言語に翻訳し、翻訳文字列を生成する。

第１の実施形態に係る音声翻訳装置を示すブロック図。翻訳単位検出部で用いる判別モデルの作成例を示す図。判別モデルを用いて翻訳単位を検出する一例を示す図。語句変換部で参照される変換辞書の一例を示す図。第１の実施形態に係る音声翻訳装置の動作を示すフローチャート。認識結果文字列の生成タイミングと翻訳単位の検出タイミングとを示す図。音声翻訳装置の各部で出力される文字列の具体例を示す図。第１の実施形態に係る表示部における表示例を示す図。第２の実施形態に係る音声翻訳システムを示すブロック図。データ格納部に格納されるデータの一例を示す図。第２の実施形態に係る音声翻訳サーバの動作を示すフローチャート。端末における音声出力処理を示すフローチャート。第２の実施形態に係る表示部の表示例を示す図。表示部における表示の第１の別例を示す図。表示部における表示の第２の別例を示す図。端末同士で通信を行う場合の端末（音声翻訳装置）を示すブロック図。

以下、図面を参照しながら本実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

なお、以下の実施形態では、英語から日本語への音声翻訳を前提に説明するが、日本語から英語への音声翻訳でもよいし、他の言語の組み合わせでもよく、３言語以上の言語間の音声翻訳を扱う場合も同様に処理すればよい。

（第１の実施形態）
第１の実施形態に係る音声翻訳装置について図１のブロック図を参照して説明する。
第１の実施形態に係る音声翻訳装置１００は、音声取得部１０１、音声認識部１０２、翻訳単位検出部１０３、語句変換部１０４、機械翻訳部１０５および表示部１０６を含む。

音声取得部１０１は、ユーザから第１言語による音声を音声信号として取得する。具体的には、例えば、ユーザの発話をマイクロフォンを介して集音し、集音した発話をアナログデジタル変換することによってデジタル信号である音声信号に変換すればよい。

音声認識部１０２は、音声取得部１０１から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果の文字列である認識結果文字列を生成する。音声認識処理は、ここでは連続した音声を認識する連続音声認識処理を想定し、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いればよい。また、ディープニューラルネットワークを適用した音韻判別手法、ＷＦＳＴ（ＷｅｉｇｈｔｅｄＦｉｎｉｔｅＳｔａｔｅＴｒａｎｓｄｕｃｅｒ）を用いた最適単語系列の探索を音声認識処理として用いてもよく、一般的な音声認識処理を用いればよいため、ここでの詳細な説明を省略する。
音声認識処理は、一般的に単語辞書や言語モデルなどの情報に基づいて、発話の初めから後方へと尤もらしい正解単語系列を順次絞り込んでいく処理が行われる。よって、単語系列が絞り込まれずに未確定である複数の単語系列が存在する場合、以降に取得される音声信号によっては、ある時点で第１位の優先順位である単語系列に代わって、異なる単語系列が第１位の優先順位になってしまう可能性がある。従って、途中段階の音声認識結果を機械翻訳しても正しい翻訳結果を得ることはできない。音声認識結果である単語系列を確定するのは、曖昧性がない言語要素が出現した場合、または発話の休止（例えば、２００ミリ秒以上の無音区間）を検出できた場合であり、それ以前の単語系列を確定することが可能になる。

翻訳単位検出部１０３は、音声認識部１０２から認識結果文字列を受け取り、機械翻訳に適する翻訳単位を検出し、翻訳単位に基づいて認識結果文字列を分割した文字列である翻訳単位文字列を生成する。
一般に人の発話、すなわち自由発話には書き言葉に含まれる句読点などの明確な区切りが存在しない。よって、同時性が高く、品質のよい音声翻訳を実現するには、認識結果文字列を翻訳に適した単位に分割する必要がある。なお、本実施形態で用いる翻訳単位の検出方法は、少なくとも音声のポーズ、または発話中のフィラーを手掛かりとして検出を行うことを想定し、詳細については図２および図３を参照して後述するが、翻訳単位の検出方法については一般的な手法を用いてもよい。

語句変換部１０４は、翻訳単位検出部１０３から翻訳単位文字列を受け取り、翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する。具体的には、語句変換部１０４は、例えば変換辞書を参照して、翻訳単位文字列から不要語を削除し、翻訳単位文字列における口語表現を文語表現に変換することで、変換文字列を生成する。不要語は、例えば、「えーと」「あのー」といったフィラーである。語句変換部１０４で参照する変換辞書の詳細については、図４を参照して説明する。
機械翻訳部１０５は、語句変換部１０４から変換文字列を受け取り、第１言語から第２言語へ翻訳し、翻訳文字列を生成する。機械翻訳部１０５における翻訳処理は、トランスファ翻訳方式、用例翻訳方式、統計翻訳方式、中間言語翻訳方式など、既存の機械翻訳処理を用いればよいので、ここでの説明を省略する。

表示部１０６は、例えば液晶ディスプレイであり、機械翻訳部１０５から変換文字列と翻訳文字列とを受け取り、変換文字列および翻訳文字列とを対応付けて画面に表示する。

なお、音声翻訳装置１００は、変換文字列および翻訳文字列の少なくともどちらか一方を音声として出力する出力部を含んでもよい。

次に、翻訳単位検出部１０３における翻訳単位の検出方法の一例について図２および図３を参照して説明する。

図２は、翻訳単位の判別モデルを作成する一例を示す図である。図２は、翻訳単位検出部を稼働する前に判別モデルをあらかじめ作成しておく際の処理を示している。
図２の例では、学習用のコーパス２０１が形態素解析された、形態素解析結果２０２を示す。ここで、文中にあるラベル＜Ｐ＞は、音声中のポーズを示し、ラベル＜Ｂ＞は、翻訳単位の開始位置となる可能性がある形態素の位置を示す。ラベル＜Ｂ＞は人手であらかじめ付与しておく。
続いて、形態素解析結果２０２に対して、文を分割すべき箇所（クラスＢ）、文を継続すべき箇所（クラスＩ）に対応するラベルを付与した学習データ２０３に変換する。ここでは、ＣＲＦ（ｃｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）による学習を想定している。学習データ２０３を入力として、各形態素列に対して文を分割すべき形態素列であるか、文を継続する形態素列であるかの条件付き確率を判別モデルとして学習する。なお、学習データ２０３において、ラベル＜Ｉ＞は、翻訳単位の途中にある形態素の位置を意味する。

図３は、図２に示す処理によって得られた、２クラス判別モデル（すなわち、クラスＢとクラスＩとに判別するモデル）を用いて翻訳単位を検出する一例を示す図である。
翻訳単位検出部１０３は、認識結果文字列３０１を形態素解析し、形態素解析結果３０２を得る。翻訳単位検出部１０３は、判別モデルを参照して、対象とする形態素列が文を分割すべき形態素列であるか、文を継続すべき形態素列であるかを判定する。例えば、条件付き確率であるＰ（Ｂ｜ｕｐ，ｔｏｄａｙ，＜ｐ＞）の値がＰ（Ｉ｜ｕｐ，ｔｏｄａｙ，＜ｐ＞）の値よりも大きければ、＜ｐ＞は分割位置（翻訳単位）であると判定できる。よって、＜ｐ＞の前段部分である、文字列「ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ」が翻訳単位文字列として生成される。

次に、語句変換部１０４で参照される変換辞書の一例について図４を参照して説明する。
図４は、フィラー４０１と、口語表現４０２および文語表現４０３との一覧を格納する変換辞書を示す。例えば、フィラー４０１として、「んー」「えーっと」が変換辞書に格納されており、翻訳単位文字列中に「んー」「えーっと」という単語が含まれていれば、語句変換部１０４は、翻訳単位文字列から対応する単語を削除する。

また、口語表現４０２と翻訳単位文字列中の口語表現とが一致すれば、口語表現４０２を文語表現４０３に変更する。例えば、口語表現４０２「ｃｕｚ」が翻訳単位文字列中に含まれていれば、口語表現４０２「ｃｕｚ」を文語表現４０３「Ｂｅｃａｕｓｅ」に変換する。

次に、第１の実施形態に係る音声翻訳装置１００の動作について図５のフローチャートを参照して説明する。
ここでは、表示部１０６に変換文字列および翻訳文字列が表示されるまでの処理を示す。また、音声取得部１０１は順次音声を取得し、音声認識部１０２が順次、音声信号の音声認識処理を行うことを想定する。

ステップＳ５０１では、音声認識部１０２が、認識結果文字列を格納するためのバッファを初期化する。バッファは音声認識部１０２に含まれてもよいし、外部のバッファを利用してもよい。
ステップＳ５０２では、音声認識部１０２が、音声認識処理が完了したかどうかを判定する。ここで、音声認識処理が完了したとは、音声認識処理が完了して確定した部分の認識結果文字列をいつでも翻訳単位検出部１０３に出力できる状態をいう。音声認識処理が完了した場合ステップＳ５０３に進み、音声認識処理が完了していない場合ステップＳ５０６に進む。

ステップＳ５０３では、音声認識部１０２が、バッファに格納される認識結果文字列に新たに生成した認識結果文字列を連結する。なお、最初の処理などでバッファが空の場合は、認識結果文字列をそのまま格納する。
ステップＳ５０４では、翻訳単位検出部１０３が、バッファから認識結果文字列を受け取り、認識結果文字列から翻訳単位の検出を試みる。翻訳単位の検出が成功した場合ステップＳ５０５に進み、翻訳単位の検出に失敗する、すなわち翻訳単位が存在しない場合は、ステップＳ５０２に戻り同様の処理を繰り返す。

ステップＳ５０５では、翻訳単位検出部１０３が、検出された翻訳単位に基づいて、翻訳単位文字列を生成する。
ステップＳ５０６では、音声認識部１０２が、経過時間が閾値時間以内であるかどうかを判定する。経過時間が閾値時間以内であるかどうかは、音声認識部１０２において、例えばタイマーなどにより認識結果文字列が生成されてからの経過時間を計測し、経過時間が閾値以内であるかどうかを判定すればよい。経過時間が閾値時間以内であればステップＳ５０２に戻り、同様の処理を繰り返す。経過時間が閾値時間よりも大きければステップＳ５０７に進む。
ステップＳ５０７では、翻訳単位検出部１０３が、バッファに格納される認識結果文字列を翻訳単位文字列として取得する。

ステップＳ５０８では、語句変換部１０４が、翻訳単位文字列から不要語を削除し、口語表現を文語表現に変換し、変換文字列を生成する。
ステップＳ５０９では、機械翻訳部１０５が、変換文字列を第１言語から第２言語へ翻訳し、翻訳文字列を生成する。
ステップＳ５１０では、表示部１０６が、変換文字列および翻訳文字列を対応付けて表示する。以上で第１の実施形態に係る音声翻訳装置１００の動作を終了する。

次に、認識結果文字列の生成タイミングと翻訳単位の検出タイミングとについて図６を参照して説明する。
図６の上段は、音声認識結果である認識結果文字列である。図６の下段は、翻訳単位文字列であり、時系列にそった検出タイミングを示す。

音声認識部１０２は、ユーザが発話を休止し、閾値以上の時間が経過する（例えば、２００ミリ秒以上の休止期間を検出する）と、それ以前の音声認識結果を確定し、音声認識結果が出力可能となる。ここで、図６に示すように、ｔ_１、ｔ_２、ｔ_３、ｔ_４、ｔ_５およびｔ_６で休止期間が検出されると、音声認識部１０２は認識結果文字列を確定する。

すなわち、翻訳単位検出部１０３は、ｔ_２では期間６０１における認識結果文字列を、ｔ_３では期間６０２における認識結果文字列を、ｔ_５では期間６０３における認識結果文字列を、ｔ_６では期間６０４における認識結果文字列を、それぞれ受け取る。

一方、翻訳単位検出部１０３では、取得した認識結果文字列を翻訳単位として検出できる場合とできない場合とがある。
例えば、期間６０１における認識結果文字列「ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ」は、図３で上述した処理により翻訳単位と判定できるので、翻訳単位文字列６１１として生成できる。しかし、期間６０２における認識結果文字列「Ｈｍｍ，Ｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇ」では、休止があるものの文のつながりが切れているかどうかは不明であるため、翻訳単位として判定できない。

そこで、次の期間６０３の音声認識結果を利用できるまで、翻訳単位文字列として決定されずに、図５に示すステップＳ５０３に示されるように、ｔ_５の時点で期間６０２の認識結果文字列と期間６０３の認識結果文字列を連結した文字列を対象として処理を行う。これによって、翻訳単位を検出でき、翻訳単位文字列６１２「ｈｍｍｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇｏｎＭｏｎｄａｙ」を生成できる。

また、翻訳単位を検出した結果、認識結果文字列の後半部分が後続の翻訳単位とすべきと判定される場合がある。例えば、翻訳単位文字列６１２が生成された時点で、期間６０５で生成される認識結果文字列「ｅｒ」は、翻訳単位として判定されないので、後続の音声認識結果が利用できるまで待機する。ｔ_６の時点で期間６０４の認識結果文字列と期間６０５の認識結果文字列とを連結した文字列を翻訳単位文字列６１３「ｅｒｉｓｔｈａｔＯＫｆｏｒｙｏｕ」として検出する。

このように、翻訳単位検出部１０３は、音声認識部１０２により生成される認識結果文字列を時系列順に順次読み込むことで、翻訳単位を検出して翻訳単位文字列を生成する。なお、図６では、休止を検出した場合に音声認識結果が生成される場合を想定するが、音声認識部１０２が、曖昧性のない言語要素を検出した場合に認識結果文字列として決定するようにしてもよい。

次に、音声翻訳装置の各部で出力される文字列の具体例について図７を参照して説明する。
図７に示すように、ユーザから音声７０１「Ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ．Ｈｍｍ，Ｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇｏｎＭｏｎｄａｙ．ＩｓｔｈａｔＯＫｆｏｒｙｏｕ？」を取得したと想定する。
音声認識部１０２が音声７０１を音声認識処理することにより、認識結果文字列７０２「Ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ．Ｈｍｍ，Ｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇｏｎＭｏｎｄａｙ．ＩｓｔｈａｔＯＫｆｏｒｙｏｕ？」を得る。

続いて、翻訳単位検出部１０３が認識結果文字列７０２に対して翻訳単位を検出することで、翻訳単位文字列７０３として３つの文「ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ」「ｈｍｍｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇｏｎＭｏｎｄａｙ」「ＩｓｔｈａｔＯＫｆｏｒｙｏｕ」を生成する。
続いて、語句変換部１０４が翻訳単位文字列７０３に対して、フィラー「ｈｍｍ」を削除し、口語表現「ｃｕｚ」を文語表現「Ｂｅｃａｕｓｅ」に変換して、変換文字列７０４「Ｂｅｃａｕｓｅｔｉｍｅ’ｓｕｐｔｏｄａｙ．」「Ｌｅｔ’ｓｈａｖｅａｎｅｘｔｍｅｅｔｉｎｇｏｎＭｏｎｄａｙ．」「ＩｓｔｈａｔＯＫｆｏｒｙｏｕ？」を生成する。

最後に、機械翻訳部１０５が変換文字列７０４を第１言語から第２言語へ翻訳する。ここでは、英語から日本語へ翻訳し、翻訳文字列７０５「今日は時間切れなので。」「月曜日に次の会議を持ちましょう。」「大丈夫でしょうか？」を生成する。

次に、表示部１０６における表示例について図８を参照して説明する。
図８に示すように、あるユーザの発話として、変換文字列「議論すべき項目は他にありますか？」と対応する翻訳文字列「Ｄｏｙｏｕｈａｖｅａｎｙｏｔｈｅｒｉｔｅｍｓｔｏｂｅｄｉｓｃｕｓｓｅｄ？」とが１組で吹き出し８０１に表示される。これに対する他のユーザの発話として、吹き出し８０２、吹き出し８０３および吹き出し８０４が、時系列に沿って翻訳文字列が生成されるタイミングで表示される。例えば、変換文字列「Ｂｅｃａｕｓｅｔｉｍｅ’ｓｕｐｔｏｄａｙ．」と対応する翻訳文字列「今日は時間切れなので」とが１組となって吹き出し８０２に表示される。

以上に示した第１の実施形態によれば、翻訳単位文字列に対して不要語を削除し、口語表現を文語表現に変換することで、ユーザが意図する機械翻訳結果を得ることができ、円滑な音声対話を実現することができる。

（第２の実施形態）
音声会議システムにおいて音声翻訳装置を利用することを想定する場合、母語として複数の言語により発話が行われることが想定される。この場合、相手の言語に対する理解能力が高く、相手の言語を音声を聞いて理解できる参加者、相手の言語が文字で視認できれば理解できる参加者、相手の言語が全く理解できず自分の言語に翻訳されている必要がある参加者といった、様々な参加者が想定される。
第２の実施形態では、例えば音声会議システムに利用するような、複数のユーザが音声翻訳装置を利用する場合を想定する。

第２の実施形態に係る音声翻訳システムについて図９を参照して説明する。
音声翻訳システム９００は、音声翻訳サーバ９１０および複数の端末９２０を含む。
図９の例では、端末９２０−１、端末９２０−２および端末９２０−ｎ（ｎは３以上の正数）をそれぞれ１人のユーザが利用する場合を想定する。なお、以下では、端末９２０−１を端末９２０の説明の例として説明する。

端末９２０は、ユーザから音声を取得し、音声翻訳サーバ９１０に音声信号を送信する。
音声翻訳サーバ９１０は、受信した音声信号を格納する。さらに、音声信号に基づいて、翻訳単位文字列、変換文字列および翻訳文字列を生成し、それぞれ格納する。音声翻訳サーバ９１０は、変換文字列および翻訳文字列を端末９２０に送信する。変換文字列および翻訳文字列を複数の端末９２０に送信する場合は、音声翻訳サーバ９１０は、変換文字列および翻訳文字列を各端末９２０にブロードキャストすればよい。
端末９２０は、受信した変換文字列および翻訳文字列を表示する。また、ユーザからの指示がある場合は、ユーザにより指示された変換文字列または翻訳文字列に対応する区間の音声信号を音声翻訳サーバ９１０に要求する。
音声翻訳サーバ９１０は、端末９２０からの要求に応じて、変換文字列または翻訳文字列に対応する区間の音声信号である部分音声信号を端末９２０に送信する。
端末９２０は、部分音声信号を音声としてスピーカなどから出力する。

次に、音声翻訳サーバ９１０と端末９２０との詳細について説明する。
音声翻訳サーバ９１０は、音声認識部１０２、翻訳単位検出部１０３、語句変換部１０４、機械翻訳部１０５、データ格納部９１１およびサーバ通信部９１２を含む。
音声認識部１０２、翻訳単位検出部１０３、語句変換部１０４および機械翻訳部１０５は、第１の実施形態と同様の動作を行うのでここでの説明を省略する。
データ格納部９１１は、各端末９２０から、音声信号を受け取り、音声信号を送信した端末の端末ＩＤと対応付けて格納する。また、翻訳単位文字列などを受け取って格納する。データ格納部９１１の詳細については、図１０を参照して後述する。
サーバ通信部９１２は、ネットワーク９３０を介して、端末９２０から音声信号を受信し、翻訳文字列及び変換文字列を端末９２０へ送信するなどのデータ通信を行う。

次に、端末９２０は、音声取得部１０１、指示取得部９２１、音声出力部９２２、表示部１０６および端末通信部９２３を含む。
音声取得部１０１および表示部１０６の動作は第１の実施形態と同様であるので、ここでの説明を省略する。
指示取得部９２１は、ユーザからの指示を取得する。具体的には、例えば、ユーザが指やペンを用いて表示部１０６の表示領域をタッチするといった、ユーザからの入力を指示として取得する。また、マウスなどのポインティングデバイスによるユーザからの入力を指示として取得してもよい。

音声出力部９２２は、後述の端末通信部９２３からデジタル形式の音声信号を受け取り、デジタル形式の音声信号をデジタルアナログ変換（ＤＡ変換）して、アナログ形式の音声信号を、例えばスピーカにより音声として出力する。
端末通信部９２３は、ネットワーク９３０を介して、音声信号を音声翻訳サーバ９１０に送信し、音声翻訳サーバ９１０から音声信号、変換文字列および翻訳文字列などを受信するといったデータ通信を行う。

次に、データ格納部９１１に格納されるデータの一例について図１０を参照して説明する。
データ格納部９１１には、音声翻訳サーバ９１０側の処理結果となるデータを格納する第１データ領域と、端末９２０からの音声信号に関するデータを格納する第２データ領域とを含む。なお、説明の便宜上、データ領域を２つに分けているが、これに限らず、１つのデータ領域としてまとめてもよいし、３つ以上のデータ領域が存在してもよい。

第１データ領域には、端末ＩＤ１００１、文ＩＤ１００２、開始時刻１００３、終了時刻１００４、語句変換結果１００５および機械翻訳結果１００６が、それぞれ対応付けられて格納される。
端末ＩＤ１００１は、端末ごとに付与される識別子である。なお、端末ＩＤ１００１は、利用者のＩＤで代用してもよい。文ＩＤ１００２は、翻訳単位文字列ごとに付与される識別子である。開始時刻１００３は、文ＩＤ１００２が付与される翻訳単位文字列の開始時刻である。終了時刻１００４は、文ＩＤ１００２が付与される翻訳単位文字列の終了時刻である。語句変換結果１００５は、文ＩＤ１００２が付与される翻訳単位文字列から生成される変換文字列である。機械翻訳結果１００６は、変換文字列から生成される翻訳文字列である。ここで、開始時刻１００３と終了時刻１００４とは、対応する語句変換結果１００５および機械翻訳結果１００６のそれぞれの時刻に対応する値である。

第２データ領域には、端末ＩＤ１００１、音声信号１００７、開始時刻１００８および終了時刻１００９を含む。

音声信号１００７は、端末ＩＤ１００１から受信した音声信号である。開始時刻１００８は、音声信号１００７の開始時刻である。終了時刻１００９は、音声信号１００７の終了時刻である。なお、第２データ領域に格納されるデータの単位は、音声認識部１０２で生成される認識結果文字列の単位であるので、開始時刻１００８および終了時刻１００９は認識結果文字列に対応する値となる。すなわち、開始時刻１００８および終了時刻１００９との間の認識結果文字列に対応する音声信号（部分音声信号）が、音声信号１００７として格納される。

なお、端末ＩＤ１００１および文ＩＤ１００２を対応する語句変換結果１００５および機械翻訳結果１００６を端末９２０で記憶してもよい。このようにすることで、端末９２０において、変換文字列および翻訳文字列に対してユーザからの指示がある場合に、対応する音声信号をデータ格納部９１１から早く読み出すことができ、処理効率を上げることができる。

次に、第２の実施形態に係る音声翻訳サーバ９１０の動作について図１１のフローチャートを参照して説明する。
なお、ステップＳ５０１からステップＳ５０９までの処理は第１の実施形態と同様であるので、説明を省略する。
ステップＳ１１０１では、音声認識部１０２が端末９２０から端末ＩＤと音声信号とを受け取り、データ格納部９１１が、音声認識部１０２の処理結果である認識結果文字列に対応する音声信号、開始時刻および終了時刻を対応付けて格納する。
ステップＳ１１０２では、データ格納部９１１が、端末ＩＤ、文ＩＤ、翻訳単位文字列、変換文字列および翻訳文字列と、開始時刻および終了時刻とを対応付けて格納する。
ステップＳ１１０３では、音声翻訳サーバ９１０は、変換文字列と翻訳文字列とを端末９２０に送信する。

次に、端末９２０における音声出力処理について図１２のフローチャートを参照して説明する。
ステップＳ１２０１では、指示取得部９２１が、ユーザからの指示を取得したかどうかを判定する。ユーザからの指示を取得した場合は、ステップＳ１２０２に進み、ユーザからの指示を取得していない場合は、指示を取得するまで待機する。
ステップＳ１２０２では、指示取得部９２１が、端末ＩＤとユーザが指示した文の文ＩＤとに基づいて、音声翻訳サーバ９１０のデータ格納部９１１を参照して対応する開始時刻および終了時刻を取得する。
ステップＳ１２０３では、指示取得部９２１が、端末ＩＤ、開始時刻および終了時刻に基づいて、対応する区間の音声信号（部分音声信号）をデータ格納部９１１から取得する。

ステップＳ１２０４では、音声出力部９２２が、音声信号を出力する。以上で、端末９２０における音声出力処理を終了する。

次に、第２の実施形態に係る表示部１０６の表示例について図１３を参照して説明する。
図１３の例では、図８の吹き出し８０１から吹き出し８０４に加え、アイコン１３０１を表示する。ユーザがアイコン１３０１にタッチすることにより、吹き出しの変換文字列または翻訳文字列に対応する部分音声信号が音声として出力される。

具体的には、例えば、ユーザが吹き出し８０２中の「Ｂｅｃａｕｓｅｔｉｍｅ’ｓｕｐｔｏｄａｙ．」に関する音声を聞きたい場合、吹き出しの横にあるアイコン１３０１をタッチすることにより、「Ｂｅｃａｕｓｅｔｉｍｅ’ｓｕｐｔｏｄａｙ．」に対応する元の音声信号「ｃｕｚｔｉｍｅ’ｓｕｐｔｏｄａｙ」が出力される。

次に、表示部１０６における表示の第１の別例について図１４を参照して説明する。
本実施形態では、音声取得部１０１においてユーザからの発話を取得し、音声翻訳サーバ９１０の音声認識部１０２において音声認識結果である認識結果文字列をバッファにためながら、翻訳単位検出部１０３により前方から翻訳単位の検出が行われる。よって、表示部１０６では、翻訳文字列の表示にタイムラグが生じる可能性がある。

そこで、図１４に示すように、認識結果文字列が得られた時点で、翻訳単位文字列が生成されてから翻訳文字列が生成されるまでの間、認識結果文字列を表示エリア１４０１に表示するようにしてもよい。これによって、認識結果文字列の表示のタイムラグを低減することができる。さらに、翻訳文字列が得られた場合は、表示エリア１４０１に表示された認識結果文字列を削除するようにしてもよい。

次に、表示部１０６における表示の第２の別例について図１５を参照して説明する。
例えば、音声会議などで相手の言語が全く理解できないユーザによっては、相手の言語が表示される必要が無い場合も考えられる。そこで、相手言語である変換文字列または翻訳文字列を非表示にすればよい。図１５に示すように、母語が英語であるユーザの場合には、吹き出し１５０１に英語を表示し、母語が日本語であるユーザの場合には、吹き出し１５０２に日本語を表示すればよい。

一方、相手の言語がある程度理解できるが、聞き取り能力がそれほど高くないユーザの場合には、翻訳文字列は非表示とし、変換文字列を表示するようにしてもよい。

なお、上述の第２の実施形態では、音声認識部１０２、語句変換部１０４および機械翻訳部１０５は音声翻訳サーバ９１０に含まれるが、端末９２０に含まれるようにしてもよい。但し、２以上の言語を用いた会話を支援することを想定する場合は、少なくとも機械翻訳部１０５は、音声翻訳サーバ９１０に含まれることが望ましい。

また、音声翻訳サーバ９１０を用いずに、上述の音声翻訳サーバ９１０の構成と端末９０２の構成とを含む音声認識装置となる端末同士で処理を行ってもよい。端末同士で通信を行う場合の端末のブロック図を図１６に示す。
端末１６００は、音声取得部１０１、音声認識部１０２、翻訳単位検出部１０３、語句変換部１０４、機械翻訳部１０５、表示部１０６、データ格納部９１１、サーバ通信部９１２、指示取得部９２１、音声出力部９２２および端末通信部９２３を含む。これによって、端末１６００同士が通信を行うことにより、音声対話システムと同様の処理を行うことができ、ピアツーピア（Ｐ２Ｐ）システムを実現することができる。

以上に示した第２の実施形態によれば、ユーザの指示に応じて、変換文字列および翻訳文字列に対応する部分音声信号を出力することができる。また、ユーザの理解レベルに応じた表示を選択することができ、円滑な音声対話を行うことができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・音声翻訳装置、１０１・・・音声取得部、１０２・・・音声認識部、１０３・・・翻訳単位検出部、１０４・・・語句変換部、１０５・・・機械翻訳部、１０６・・・表示部、２０１・・・コーパス、２０２，２０３，３０２・・・形態素解析結果、３０１，７０２・・・認識結果文字列、４０１・・・フィラー、４０２・・・口語表現、４０３・・・文語表現、６０１〜６０５・・・期間、６１１〜６１３，７０３・・・翻訳単位文字列、７０１・・・音声、７０４・・・変換文字列、７０５・・・翻訳文字列、８０１〜８０４，１５０１，１５０２・・・吹き出し、９００・・・音声翻訳システム、９１０・・・音声翻訳サーバ、９１１・・・データ格納部、９１２・・・サーバ通信部、９２０，９２０−１〜９２０−ｎ，１６００・・・端末、９２１・・・指示取得部、９２２・・・音声出力部、９２３・・・端末通信部、９３０・・・ネットワーク、１００１・・・端末ＩＤ、１００２・・・文ＩＤ、１００３，１００８・・・開始時刻、１００４，１００９・・・終了時刻、１００５・・・語句変換結果、１００６・・・機械翻訳結果、１００７・・・音声信号、１３０１・・・アイコン、１４０１・・・表示エリア。

Claims

第１言語による音声を音声認識し、認識結果文字列を生成する音声認識部と、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する検出部と、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する変換部と、
前記変換文字列を前記第１言語とは異なる第２言語に翻訳し、翻訳文字列を生成する翻訳部と、を具備することを特徴とする音声翻訳装置。
前記変換部は、前記翻訳単位文字列に含まれる不要語を削除することを特徴とする請求項１に記載の音声翻訳装置。
前記変換部は、前記翻訳単位文字列に含まれる口語表現を文語表現に変換することを特徴とする請求項１または請求項２に記載の音声翻訳装置。
前記変換文字列と前記翻訳文字列とを対応付けて表示する表示部をさらに具備することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記表示部は、前記翻訳単位文字列が生成されてから前記翻訳文字列が生成されるまでの間、前記認識結果文字列を表示することを特徴とする請求項４に記載の音声翻訳装置。
前記表示部は、前記変換文字列または前記翻訳文字列に関して、前記第１言語および前記第２言語のどちらか一方による表記を非表示とすることを特徴とする請求項４または請求項５に記載の音声翻訳装置。
前記検出部は、少なくとも前記音声のポーズ、発話中のフィラーを手掛かりとして検出を行うことを特徴とする請求項１から請求項６のいずれか１項に記載の音声翻訳装置。
前記第１言語による音声を音声信号として取得する音声取得部と、
前記音声信号と、該音声信号の開始時刻と、該音声信号の終了時刻と、該音声信号から生成される翻訳単位文字列と、該翻訳単位文字列から変換される変換文字列と、該変換文字列から生成される翻訳文字列とを格納する格納部と、
ユーザからの指示を取得する指示取得部と、
前記指示により、前記変換文字列または前記翻訳文字列に対応する区間の音声信号である部分音声信号を音声として出力する出力部と、をさらに具備することを特徴とする請求項１から請求項７のいずれか１項に記載の音声翻訳装置。
第１言語による音声を音声認識し、認識結果文字列を生成し、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成し、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換し、
前記変換文字列を前記第１言語とは異なる第２言語に翻訳し、翻訳文字列を生成することを特徴とする音声翻訳方法。
コンピュータを、
第１言語による音声を音声認識し、認識結果文字列を生成する音声認識手段と、
前記認識結果文字列から翻訳に適する翻訳単位を検出し、該翻訳単位に基づいて該認識結果文字列を分割した翻訳単位文字列を生成する検出手段と、
前記翻訳単位文字列を機械翻訳に適する表現である変換文字列に変換する変換手段と、
前記変換文字列を前記第１言語とは異なる第２言語に翻訳し、翻訳文字列を生成する翻訳手段として機能させるための音声翻訳プログラム。