JP2023022150A

JP2023022150A - 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム

Info

Publication number: JP2023022150A
Application number: JP2022186646A
Authority: JP
Inventors: 一川竹; Hajime Kawatake
Original assignee: Pocketalk Corp
Current assignee: Pocketalk Corp
Priority date: 2017-12-06
Filing date: 2022-11-22
Publication date: 2023-02-14
Also published as: US20200012724A1; TW201926079A; WO2019111346A1; CN110149805A; JPWO2019111346A1

Abstract

【課題】受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できる双方向音声翻訳システム、双方向音声翻訳方法及びプログラムを提供する。【解決手段】エンジン決定部（４６）は、第１の言語、第１の話者により入力される音声、第２の言語、及び、第２の話者により入力される音声、の少なくとも１つに基づいて、第１の音声認識エンジン（２２）、第１の翻訳エンジン（２８）、及び、第１の音声合成エンジン（３４）、の組合せと、第２の音声認識エンジン（２２）、第２の翻訳エンジン（２８）、及び、第２の音声合成エンジン（３４）、の組合せとを決定する。【選択図】図３

Description

特許法第３０条第２項適用申請有り平成２９年１０月２３日、ｈｔｔｐｓ：／／ｗｗｗ．ｓｏｕｒｃｅｎｅｘｔ．ｃｏｍ／ｐｒｏｄｕｃｔ／ｐｏｃｋｅｔａｌｋ／、ｈｔｔｐ：／／ｓｏｕｒｃｅｎｅｘｔ．ｃｏ．ｊｐ／ｐｒｅｓｓｒｅｌｅａｓｅ＿ｈｔｍｌ／ＪＳ／２０１７／２０１７１０２３０１／平成２９年１０月２３日、表参道ヒルズ本館Ｂ３階スペースオーでの記者会見平成２９年１０月２３日、日経産業新聞平成２９年１０月２３日付朝刊第７面

本開示は、双方向音声翻訳システム、双方向音声翻訳方法及びプログラムに関する。

特許文献１には、片手での操作性を高めた翻訳機が記載されている。特許文献１に記載の翻訳機では、ケース本体に設けられている翻訳ユニットに含まれる記憶装置に、翻訳プログラム、及び、入力音響モデル、言語モデル、出力音響モデルを有する翻訳データが記録されている。

そして特許文献１に記載の翻訳機では、翻訳ユニットに含まれる処理部が、マイクを介して受け取った第１言語の音声を、入力音響モデル及び言語モデルを用いて第１言語の文字情報に変換する。そして当該処理部が、この第１言語の文字情報を、翻訳モデル及び言語モデルを用いて、第２言語の文字情報に翻訳・変換する。そして当該処理部が、出力音響モデルを用いて第２言語の文字情報を音声に変換し、スピーカを介して第２言語の音声を出力する。

また特許文献１に記載の翻訳機では、第１言語と第２言語の組合せは、予め翻訳機ごとに決定されている。

特開２０１７－１５１６１９号公報

しかし特許文献１に記載の翻訳機では、第１言語を話す第１の話者と第２言語を話す第２の話者との間の双方向の会話において、第１の話者が話す音声の第２言語への翻訳と第２の話者が話す音声の第１言語への翻訳とを交互にスムーズに行うことができない。

また特許文献１に記載の翻訳機では、どのような音声を受け付けたとしても、記録されている所与の翻訳データによる翻訳が行われる。そのため例えば、翻訳前の言語や翻訳後の言語により適した音声認識エンジンや翻訳エンジンが存在してもそのようなエンジンを活用した音声認識や翻訳が実行できない。また例えば、話者の年齢や性別などといった話者の属性の再現により適した翻訳エンジンや音声合成エンジンが存在してもそのようなエンジンを用いた翻訳や音声合成が実行できない。

上記実情に鑑みて、本開示では、受け付ける音声又は当該音声の言語に応じた適切な音声認識エンジン、翻訳エンジン、音声合成エンジンの組合せによる音声翻訳が実行できる双方向音声翻訳システム、双方向音声翻訳方法及びプログラムを提案する。

上記課題を解決するために、本開示に係る双方向音声翻訳システムは、第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳システムであって、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定部と、前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識部と、前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識部により生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳部と、前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳部により翻訳されたテキストを表す音声を合成する第１の音声合成部と、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定部と、前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識部と、前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識部により生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳部と、前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳部により翻訳されたテキストを表す音声を合成する第２の音声合成部と、を含む。

本開示の一態様では、前記第１の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される、前記第１の話者の年齢、年代、及び、性別のうちの少なくとも１つに応じた音声を合成する。

また、本開示の一態様では、前記第１の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される前記第１の話者の感情に応じた音声を合成する。

また、本開示の一態様では、前記第２の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される、前記第１の話者の年齢、年代、及び、性別のうちの少なくとも１つに応じた音声を合成する。

また、本開示の一態様では、前記第２の翻訳部は、前記第２の音声認識部により生成されたテキストに含まれる翻訳対象語についての複数の翻訳候補を決定し、前記複数の翻訳候補のそれぞれについて、当該翻訳候補が前記第１の翻訳部により生成されたテキストに含まれるか否かを確認し、前記翻訳対象語を、前記第１の翻訳部により生成されたテキストに含まれることが確認された語に翻訳する。

また、本開示の一態様では、前記第１の音声合成部は、前記第１の話者による音声の入力スピードに応じたスピードの音声、又は、前記第１の話者による音声の音量に応じた音量の音声を合成する。

また、本開示の一態様では、前記第２の音声合成部は、前記第１の話者による音声の入力スピードに応じたスピードの音声、又は、前記第１の話者による音声の音量に応じた音量の音声を合成する。

また、本開示の一態様では、前記第１の話者による前記第１の言語の音声の入力を受け付け、当該音声を前記第２の言語に翻訳した音声を出力し、前記第２の話者による前記第２の言語の音声の入力を受け付け、当該音声を前記第１の言語に翻訳した音声を出力する端末を含み、前記第１の決定部は、前記端末の位置に基づいて、前記第１の音声認識エンジン、前記第１の翻訳エンジン、及び、前記第１の音声合成エンジン、の組合せを決定し、前記第２の決定部は、前記端末の位置に基づいて、前記第２の音声認識エンジン、前記第２の翻訳エンジン、及び、前記第２の音声合成エンジン、の組合せを決定する。

また、本開示に係る双方向音声翻訳方法は、第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳方法であって、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定ステップと、前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識ステップと、前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識ステップで生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳ステップと、前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳ステップで翻訳されたテキストを表す音声を合成する第１の音声合成ステップと、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定ステップと、前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識ステップと、前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識ステップで生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳ステップと、前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳ステップで翻訳されたテキストを表す音声を合成する第２の音声合成ステップと、を含む。

また、本開示に係るプログラムは、第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行するコンピュータに、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定手順、前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識手順、前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識手順で生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳手順、前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳手順で翻訳されたテキストを表す音声を合成する第１の音声合成手順、前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定手順、前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識手順、前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識手順で生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳手順、前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳手順で翻訳されたテキストを表す音声を合成する第２の音声合成手順、をコンピュータに実行させる。

本開示の一実施形態に係る翻訳システムの全体構成の一例を示す図である。本開示の一実施形態に係る翻訳端末の構成の一例を示す図である。本開示の一実施形態に係るサーバで実装される機能の一例を示す機能ブロック図である。解析対象データの一例を示すである。解析対象データの一例を示すである。ログデータの一例を示す図である。ログデータの一例を示す図である。言語エンジン対応管理データの一例を示す図である。属性エンジン対応管理データの一例を示す図である。本開示の一実施形態に係るサーバにおいて行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について、図面を参照しながら説明する。

図１は、本開示で提案する双方向音声翻訳システムの一例である翻訳システム１の全体構成の一例を示す図である。図１に示すように、本開示で提案する翻訳システム１には、サーバ１０、及び、翻訳端末１２が含まれている。サーバ１０及び翻訳端末１２は、インターネット等のコンピュータネットワーク１４に接続されている。そのためサーバ１０と翻訳端末１２との間はインターネット等のコンピュータネットワーク１４を介して通信可能となっている。

図１に示すように、本実施形態に係るサーバ１０には、例えば、プロセッサ１０ａ、記憶部１０ｂ、通信部１０ｃ、が含まれる。

プロセッサ１０ａは、例えばサーバ１０にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部１０ｂは、例えばＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１０ｂには、プロセッサ１０ａによって実行されるプログラムなどが記憶される。通信部１０ｃは、例えばコンピュータネットワーク１４を介して翻訳端末１２との間でデータを授受するためのネットワークボードなどの通信インタフェースである。サーバ１０は、通信部１０ｃを経由して翻訳端末１２との間で情報の送受信を行う。

図２は、図１に示す翻訳端末１２の構成の一例を示す図である。図２に示すように、本実施形態に係る翻訳端末１２には、例えば、プロセッサ１２ａ、記憶部１２ｂ、通信部１２ｃ、操作部１２ｄ、表示部１２ｅ、マイク１２ｆ、スピーカ１２ｇ、が含まれる。

プロセッサ１２ａは、例えば翻訳端末１２にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。記憶部１２ｂは、例えばＲＯＭやＲＡＭ等の記憶素子などである。記憶部１２ｂには、プロセッサ１２ａによって実行されるプログラムなどが記憶される。

通信部１２ｃは、例えばコンピュータネットワーク１４を介してサーバ１０との間でデータを授受するための通信インタフェースである。ここで通信部１２ｃに、基地局を含む携帯電話回線を経由してインターネット等のコンピュータネットワーク１４と通信を行う３Ｇモジュール等の無線通信モジュールが含まれていてもよい。また通信部１２ｃに、Ｗｉ－Ｆｉ（登録商標）ルータ等を経由してインターネット等のコンピュータネットワーク１４と通信を行う無線ＬＡＮモジュールが含まれていてもよい。

操作部１２ｄは、例えばユーザが行った操作の内容をプロセッサ１２ａに出力する操作部材である。図１に示すように、本実施形態に係る翻訳端末１２には、その前面下部に５個の操作部１２ｄ（１２ｄａ、１２ｄｂ、１２ｄｃ、１２ｄｄ、及び、１２ｄｅ）が設けられている。また操作部１２ｄａ、操作部１２ｄｂ、操作部１２ｄｃ、操作部１２ｄｄ、操作部１２ｄｅのそれぞれは、翻訳端末１２の前面下部において相対的に、左側、右側、上側、下側、中央に配置されている。以下、操作部１２ｄは、タッチセンサであることとするが、操作部１２ｄが例えばボタンなどといったタッチセンサとは異なる操作部材であっても構わない。

表示部１２ｅは、例えば液晶ディスプレイや有機ＥＬディスプレイ等のディスプレイを含んで構成されており、プロセッサ１２ａが生成する画像などを表示させる。図１に示すように、本実施形態に係る翻訳端末１２には、その前面上部に円形の表示部１２ｅが設けられている。

マイク１２ｆは、例えば受け付ける音声を電気信号に変換する音声入力デバイスである。ここでマイク１２ｆが、翻訳端末１２に内蔵されている、人混みでも人の声が認識しやすいノイズキャンセリング機能を備えたデュアルマイクであってもよい。

スピーカ１２ｇは、例えば音声を出力する音声出力デバイスである。ここでスピーカ１２ｇが、翻訳端末１２に内蔵されている、騒がしい場所でも使えるダイナミックスピーカーであってもよい。

本実施形態に係る翻訳システム１では、第１の話者と第２の話者との間の双方向の会話において、第１の話者が話す音声の翻訳と第２の話者が話す音声の翻訳とを交互に行うことができる。

また本実施形態に係る翻訳端末１２では、操作部１２ｄに対して所定の言語設定操作を行うことで、例えば所与の５０の言語などといった複数の言語のうちから、第１の話者が話す音声の言語と第２の話者が話す音声の言語とが設定される。以下、第１の話者が話す音声を第１の言語と呼び、第２の話者が話す音声を第２の言語と呼ぶこととする。そして本実施形態では、表示部１２ｅの左上に設けられている第１言語表示領域１６ａに、例えば第１の言語が用いられる国の国旗の画像などといった、第１の言語を表す画像が配置される。また本実施形態では、表示部１２ｅの右上に設けられている第２言語表示領域１６ｂに、例えば第２の言語が用いられる国の国旗の画像などといった、第２の言語を表す画像が配置される。

そして例えば、第１の話者による第１の言語の音声の入力である、第１の話者による音声入力操作が翻訳端末１２に対して行われたとする。ここで第１の話者による音声入力操作は、例えば第１の話者による操作部１２ｄａに対するタップ操作、操作部１２ｄａがタップされている状態での第１の言語の音声の入力、及び、操作部１２ｄａのタップの解除、を含む一連の操作であってもよい。

すると、表示部１２ｅの下に設けられているテキスト表示領域１８に、第１の話者が入力した音声の音声認識の結果であるテキストが表示される。なお本実施形態に係るテキストとは、１又は複数の節、１又は複数の句、１又は複数の語、１又は複数の文（文章）などを表す文字列を指すこととする。その後、当該テキストを第２の言語に翻訳したテキストがテキスト表示領域１８に表示されるとともに、翻訳したテキストを表す音声、すなわち、第１の話者が入力した第１の言語の音声が表す内容を第２の言語に翻訳した音声がスピーカ１２ｇから出力される。

その後例えば、第２の話者による第２の言語の音声の入力である、第２の話者による音声入力操作が翻訳端末１２に対して行われたとする。ここで第２の話者による音声入力操作は、例えば第２の話者による操作部１２ｄｂに対するタップ操作、操作部１２ｄｂがタップされている状態での第２の言語の音声の入力、及び、操作部１２ｄｂのタップの解除、を含む一連の操作であってもよい。

すると、表示部１２ｅの下に設けられているテキスト表示領域１８に、第２の話者が入力した音声の音声認識の結果であるテキストが表示される。その後、当該テキストを第１の言語に翻訳したテキストがテキスト表示領域１８に表示されるとともに、翻訳したテキストを表す音声、すなわち、第２の話者が入力した第２の言語の音声が表す内容を第１の言語に翻訳した音声がスピーカ１２ｇから出力される。

本実施形態に係る翻訳システム１では、以後、第１の話者による音声入力操作と第２の話者による音声入力操作とが交互に行われる度に、入力された音声の内容を他の言語に翻訳した音声が出力されることとなる。

以下、本実施形態に係るサーバ１０の機能及びサーバ１０で実行される処理についてさらに説明する。

本実施形態に係るサーバ１０では、第１の話者による第１の言語の音声の入力に応じて当該音声を第２の言語に翻訳した音声を合成する処理と第２の話者による第２の言語の音声の入力に応じて当該音声を前記第１の言語に翻訳した音声を合成する処理とが実行される。

図３は、本実施形態に係るサーバ１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るサーバ１０で、図３に示す機能のすべてが実装される必要はなく、また、図３に示す機能以外の機能が実装されていても構わない。

図３に示すように、本実施形態に係るサーバ１０は、機能的には例えば、音声データ受付部２０、複数の音声認識エンジン２２、音声認識部２４、翻訳前テキストデータ送信部２６、複数の翻訳エンジン２８、翻訳部３０、翻訳後テキストデータ送信部３２、複数の音声合成エンジン３４、音声合成部３６、音声データ送信部３８、ログデータ生成部４０、ログデータ記憶部４２、解析部４４、エンジン決定部４６、対応管理データ記憶部４８、を含んでいる。

音声認識エンジン２２、翻訳エンジン２８、音声合成エンジン３４は、プロセッサ１０ａ及び記憶部１０ｂを主として実装される。音声データ受付部２０、翻訳前テキストデータ送信部２６、翻訳後テキストデータ送信部３２、音声データ送信部３８は、通信部１０ｃを主として実装される。音声認識部２４、翻訳部３０、音声合成部３６、ログデータ生成部４０、解析部４４、エンジン決定部４６は、プロセッサ１０ａを主として実装される。ログデータ記憶部４２、対応管理データ記憶部４８は、記憶部１０ｂを主として実装される。

以上の機能は、コンピュータであるサーバ１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１０ａで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ１０に供給される。

本実施形態に係る翻訳システム１では、話者による音声入力操作が行われると、翻訳端末１２が、図４Ａ及び図４Ｂに例示する解析対象データを生成する。そして翻訳端末１２は、生成された解析対象データをサーバ１０に送信する。図４Ａには、第１の話者による音声入力操作が行われた際に生成される解析対象データの一例が示されている。図４Ｂには、第２の話者による音声入力操作が行われた際に生成される解析対象データの一例が示されている。なお図４Ａ及び図４Ｂには、第１の言語が日本語であり第２の言語が英語である場合の解析対象データの一例が示されている。

図４Ａ及び図４Ｂに示すように、解析対象データには、翻訳前音声データとメタデータとが含まれている。

翻訳前音声データは、例えばマイク１２ｆを介して入力された話者の音声を表す音声データである。ここで当該翻訳前音声データが、例えばマイク１２ｆを介して入力される音声に対して符号化及び量子化を行うことで生成される音声データであっても構わない。

そしてメタデータには、端末ＩＤ、入力ＩＤ、話者ＩＤ、時刻データ、翻訳前言語データ、翻訳後言語データ、などが含まれる。

端末ＩＤは、例えば翻訳端末１２の識別情報である。本実施形態では例えば、ユーザに供給されるそれぞれの翻訳端末１２には固有の端末ＩＤの値が割り振られていることとする。

入力ＩＤは、例えば１回の音声入力操作により入力された音声の識別情報であり、本実施形態では例えば、解析対象データの識別情報でもある。本実施形態では翻訳端末１２に対して行われた音声入力操作の順序に従って入力ＩＤの値が割り振られることとする。

話者ＩＤは、例えば話者の識別情報である。本実施形態では例えば、第１の話者による音声入力操作が行われた際には、話者ＩＤの値として１が設定され、第２の話者による音声入力操作が行われた際には、話者ＩＤの値として２が設定されることとする。

時刻データは、例えば、音声入力操作がされた時刻を示すデータである。

翻訳前言語データは、例えば、話者が入力した音声の言語を示すデータである。以下、話者が入力した音声の言語を翻訳前言語と呼ぶこととする。例えば第１の話者による音声入力操作が行われた際には、第１の言語として設定されている言語を示す値が翻訳前言語データの値として設定される。また例えば第２の話者による音声入力操作が行われた際には、第２の言語として設定されている言語を示す値が翻訳前言語データの値として設定される。

翻訳後言語データは、例えば、音声入力操作を行った話者の会話の相手、すなわち、聞き手が聞き取る音声の言語として設定されている言語を示すデータである。以下、聞き手が聞き取る音声の言語を翻訳後言語と呼ぶこととする。例えば第１の話者による音声入力操作が行われた際には、第２の言語として設定されている言語を示す値が翻訳後言語データの値として設定される。また例えば第２の話者による音声入力操作が行われた際には、第１の言語として設定されている言語を示す値が翻訳後言語データの値として設定される。

音声データ受付部２０は、本実施形態では例えば、翻訳端末１２に入力された音声を表す音声データを受け付ける。ここで音声データ受付部２０が、上述のように翻訳端末１２に入力された音声を表す音声データを翻訳前音声データとして含む解析対象データを受け付けてもよい。

複数の音声認識エンジン２２のそれぞれは、本実施形態では例えば、音声の認識結果であるテキストを生成する音声認識処理が実装されたプログラムである。複数の音声認識エンジン２２のそれぞれは、例えば認識可能な言語などといった仕様が異なっている。本実施形態では例えば、音声認識エンジン２２のそれぞれには、当該音声認識エンジン２２の識別情報である音声認識エンジンＩＤが予め割り当てられていることとする。

音声認識部２４は、本実施形態では例えば、話者による音声の入力に応じて、当該音声の認識結果であるテキストを生成する。ここで音声認識部２４が、音声データ受付部２０が受け付ける音声データが表す音声の認識結果であるテキストを生成してもよい。

また音声認識部２４が、後述するようにしてエンジン決定部４６が決定する音声認識エンジン２２が実装する音声認識処理を実行して、音声の認識結果であるテキストを生成してもよい。例えば音声認識部２４が、エンジン決定部４６が決定する音声認識エンジン２２を呼び出して、当該音声認識エンジン２２に音声認識処理を実行させて、当該音声認識処理の結果であるテキストを当該音声認識エンジン２２から受け付けてもよい。

以下、第１の話者による音声入力操作に応じてエンジン決定部４６が決定する音声認識エンジン２２を第１の音声認識エンジン２２と呼ぶこととする。また、第２の話者による音声入力操作に応じてエンジン決定部４６が決定する音声認識エンジン２２を第２の音声認識エンジン２２と呼ぶこととする。

翻訳前テキストデータ送信部２６は、本実施形態では例えば、音声認識部２４が生成するテキストを示す翻訳前テキストデータを翻訳端末１２に送信する。翻訳端末１２は、翻訳前テキストデータ送信部２６が送信する翻訳前テキストデータが示すテキストを受信すると、例えば上述のように当該テキストをテキスト表示領域１８に表示させる。

複数の翻訳エンジン２８のそれぞれは、本実施形態では例えば、テキストを翻訳する翻訳処理が実装されたプログラムである。複数の翻訳エンジン２８のそれぞれは、例えば翻訳可能な言語や翻訳に用いられる辞書などといった仕様が異なっている。本実施形態では例えば、翻訳エンジン２８のそれぞれには、当該翻訳エンジン２８の識別情報である翻訳エンジンＩＤが予め割り当てられていることとする。

翻訳部３０は、本実施形態では例えば、音声認識部２４により生成されたテキストを翻訳したテキストを生成する。ここで翻訳部３０が、後述するようにしてエンジン決定部４６が決定する翻訳エンジン２８が実装する翻訳処理を実行して、音声認識部２４により生成されたテキストを翻訳したテキストを生成してもよい。例えば翻訳部３０が、エンジン決定部４６が決定する翻訳エンジン２８を呼び出して、当該翻訳エンジン２８に翻訳処理を実行させて、当該翻訳処理の結果であるテキストを当該翻訳エンジン２８から受け付けてもよい。

以下、第１の話者による音声入力操作に応じてエンジン決定部４６が決定する翻訳エンジン２８を第１の翻訳エンジン２８と呼ぶこととする。また、第２の話者による音声入力操作に応じてエンジン決定部４６が決定する翻訳エンジン２８を第２の翻訳エンジン２８と呼ぶこととする。

翻訳後テキストデータ送信部３２は、本実施形態では例えば、翻訳部３０により翻訳されたテキストを示す翻訳後テキストデータを翻訳端末１２に送信する。翻訳端末１２は、翻訳後テキストデータ送信部３２が送信する翻訳後テキストデータが示すテキストを受信すると、例えば上述のように当該テキストをテキスト表示領域１８に表示させる。

複数の音声合成エンジン３４のそれぞれは、本実施形態では例えば、テキストを表す音声を合成する音声合成処理が実装されたプログラムである。複数の音声合成エンジン３４のそれぞれは、例えば合成される音声の声質や声色などといった仕様が異なっている。本実施形態では例えば、音声合成エンジン３４のそれぞれには、当該音声合成エンジン３４の識別情報である音声合成エンジンＩＤが予め割り当てられていることとする。

音声合成部３６は、本実施形態では例えば、翻訳部３０により翻訳されたテキストを表す音声を合成する。ここで音声合成部３６が、翻訳部３０により翻訳されたテキストを表す音声を合成した音声データである翻訳後音声データを生成してもよい。ここで音声合成部３６が、後述するようにしてエンジン決定部４６が決定する音声合成エンジン３４が実装する音声合成処理を実行して、翻訳部３０により翻訳されたテキストを表す音声を合成してもよい。例えば音声合成部３６が、エンジン決定部４６が決定する音声合成エンジン３４を呼び出して、当該音声合成エンジン３４に音声合成処理を実行させて、当該音声合成処理の結果である音声データを当該音声合成エンジン３４から受け付けてもよい。

以下、第１の話者による音声入力操作に応じてエンジン決定部４６が決定する音声合成エンジン３４を第１の音声合成エンジン３４と呼ぶこととする。また、第２の話者による音声入力操作に応じてエンジン決定部４６が決定する音声合成エンジン３４を第２の音声合成エンジン３４と呼ぶこととする。

音声データ送信部３８は、本実施形態では例えば、音声合成部３６により合成された音声を表す音声データを翻訳端末１２に送信する。翻訳端末１２は、音声データ送信部３８が送信する翻訳後音声データを受信すると、例えば上述のように当該翻訳後音声データが表す音声をスピーカ１２ｇから音声出力させる。

ログデータ生成部４０は、本実施形態では例えば、図５Ａや図５Ｂに例示する、話者が話す音声の翻訳に関するログを示すログデータを生成してログデータ記憶部４２に記憶させる。

図５Ａには、第１の話者による音声入力操作に応じて生成されるログデータの一例が示されている。図５Ｂには、第２の話者による音声入力操作に応じて生成されるログデータの一例が示されている。

ログデータには例えば、端末ＩＤ、入力ＩＤ、話者ＩＤ、時刻データ、翻訳前テキストデータ、翻訳後テキストデータ、翻訳前言語データ、翻訳後言語データ、年齢データ、性別データ、感情データ、トピックデータ、シーンデータなどが含まれている。

ここで例えば、音声データ受付部２０が受け付ける解析対象データに含まれるメタデータの端末ＩＤの値、入力ＩＤの値、話者ＩＤの値が、それぞれ、生成されるログデータに含まれる端末ＩＤの値、入力ＩＤの値、話者ＩＤの値として設定されてもよい。また例えば、音声データ受付部２０が受け付ける解析対象データに含まれるメタデータの時刻データの値が、生成されるログデータに含まれる時刻データの値として設定されてもよい。また例えば、音声データ受付部２０が受け付ける解析対象データに含まれるメタデータの翻訳前言語データの値、翻訳後言語データの値が、それぞれ、生成されるログデータに含まれる翻訳前言語データの値、翻訳後言語データの値として設定されてもよい。

また例えば、音声入力操作を行った話者の年齢又は年代を示す値が、生成されるログデータに含まれる年齢データの値として設定されてもよい。また例えば、音声入力操作を行った話者の性別を示す値が、生成されるログデータに含まれる性別データの値として設定されてもよい。また例えば、音声入力操作を行った話者の感情を示す値が、生成されるログデータに含まれる感情データの値として設定されてもよい。また例えば、医療、軍事、ＩＴ、旅行などといった、音声入力操作を行った際の会話の内容のトピック（ジャンル）を示す値が生成されるログデータに含まれるトピックデータの値として設定されてもよい。また例えば、会議、商談、雑談、スピーチなどといった、音声入力操作を行った際の会話のシーンを示す値が生成されるログデータに含まれるシーンデータの値として設定されてもよい。

なお後述するように、音声データ受付部２０が受け付ける音声データに対して解析部４４による解析処理が実行されてもよい。そして当該解析処理の実行結果に応じた値が、生成されるログデータに含まれる年齢データの値、性別データの値、感情データの値、トピックデータの値、及び、シーンデータの値として設定されてもよい。

また例えば、音声データ受付部２０が受け付ける音声データに対する音声認識部２４による音声認識結果を示すテキストが、生成されるログデータに含まれる翻訳前テキストデータの値として設定されてもよい。また例えば、当該テキストの翻訳部３０による翻訳結果を示すテキストが、生成されるログデータに含まれる翻訳後テキストデータの値として設定されてもよい。

なお図５Ａ及び図６Ｂには図示されていないが、ログデータに、音声入力操作を行った話者による音声の入力スピードを示す入力スピードデータ、当該音声の音量を示す音量データ、当該音声の声質や声色を示す声質データなどがさらに含まれていてもよい。

ログデータ記憶部４２は、本実施形態では例えば、ログデータ生成部４０が生成するログデータを記憶する。以下、ログデータ記憶部４２に記憶されているログデータのうち、音声データ受付部２０が受け付ける解析対象データに含まれるメタデータの端末ＩＤの値と同じ値の端末ＩＤを含むログデータを、端末対応ログデータと呼ぶこととする。

ここで、ログデータ記憶部４２に記憶される端末対応ログデータの最大数が予め定められていてもよい。例えば、ある端末ＩＤについての端末対応ログデータについては２０個までログデータ記憶部４２に記憶されるようにしてもよい。ここでログデータ記憶部４２に上述の最大数の端末対応ログデータが記憶されている場合、ログデータ生成部４０は、新たな端末対応ログデータをログデータ記憶部４２に記憶する際に最も古い時刻を示す時刻データを含む端末対応ログデータを削除してもよい。

解析部４４は、本実施形態では例えば、音声データ受付部２０が受け付ける音声データや、翻訳部３０による翻訳結果であるテキストに対する解析処理を実行する。

解析部４４は、例えば音声データ受付部２０が受け付ける音声データが表す音声の特徴量のデータを生成してもよい。ここで特徴量のデータには、例えば、スペクトル包絡に基づくデータ、線形予測分析に基づくデータ、ケプストラム等の声道に関するデータや、基本周波数や有声無声判定情報等の音源に関するデータや、スペクトログラムなどが含まれていてもよい。

また解析部４４は、本実施形態では例えば、公知の声紋解析処理等の解析処理を実行することで、例えば、音声入力操作を行った話者の年齢、年代、性別、などといった話者の属性を推定してもよい。例えば音声データ受付部２０が受け付ける音声データが表す音声の特徴量のデータなどに基づいて、音声入力操作を行った話者の属性が推定されてもよい。

なお解析部４４が、例えば翻訳部３０による翻訳結果であるテキストに基づいて、音声入力操作を行った話者の年齢、年代、性別、などといった話者の属性を推定してもよい。例えば公知のテキスト解析処理により、翻訳結果であるテキストに含まれる語に基づいて、音声入力操作を行った話者の属性が推定されてもよい。ここで上述のように、ログデータ生成部４０が、推定される話者の年齢又は年代を示す値を、生成されるログデータに含まれる年齢データの値として設定してもよい。また上述のように、ログデータ生成部４０が、推定される話者の性別を示す値を生成されるログデータに含まれる性別データの値として設定してもよい。

また解析部４４は、本実施形態では例えば、公知の音声感情解析処理等の解析処理を実行することで、例えば、怒り、喜び、平静などといった、音声入力操作を行った話者の感情を推定してもよい。例えば音声データ受付部２０が受け付ける音声データが表す音声の特徴量のデータなどに基づいて、当該音声を入力した話者の感情が推定されてもよい。ここで上述のように、ログデータ生成部４０が、推定される話者の感情を示す値を、生成されるログデータに含まれる感情データの値として設定してもよい。

また解析部４４は例えば、音声データ受付部２０が受け付ける音声データが表す音声の入力スピードや音量を特定してもよい。また解析部４４は例えば、音声データ受付部２０が受け付ける音声データが表す音声の声質や声色を特定してもよい。ここでログデータ生成部４０が、推定される音声入力スピードを示す値、音量を示す値、及び、声質や声色を示す値を、それぞれ、生成されるログデータに含まれる入力スピードデータの値、音量データの値、及び、声質データの値として設定してもよい。

また解析部４４は例えば、音声入力操作を行った際の会話の内容のトピックや、音声入力操作を行った際の会話のシーンなどを推定してもよい。ここで解析部４４は、例えば音声認識部２４が生成するテキスト又は当該テキストに含まれる語に基づいて、トピックやシーンを推定してもよい。

ここで解析部４４は、上述のトピックやシーンを推定する際に、端末対応ログデータに基づいて、トピックやシーンを推定してもよい。例えば端末対応ログデータに含まれる翻訳前テキストデータが示すテキスト若しくは当該テキストに含まれる語、又は、翻訳後テキストデータが示すテキスト若しくは当該テキストに含まれる語に基づいて、トピックやシーンが推定されてもよい。また音声認識部２４が生成するテキスト及び端末対応ログデータに基づいて、トピックやシーンが推定されてもよい。ここでログデータ生成部４０が、推定されるトピックを示す値、及び、シーンを示す値を、それぞれ、生成されるログデータに含まれるトピックデータの値、及び、シーンデータの値として設定してもよい。

エンジン決定部４６は、本実施形態では例えば、音声認識処理を実行する音声認識エンジン２２、翻訳処理を実行する翻訳エンジン２８、及び、音声合成処理を実行する音声合成エンジン３４の組合せを決定する。上述のようにエンジン決定部４６は、第１の話者による音声入力操作に応じて、第１の音声認識エンジン２２、第１の翻訳エンジン２８、第１の音声合成エンジン３４の組合せを決定してもよい。またエンジン決定部４６は、第２の話者による音声入力操作に応じて、第２の音声認識エンジン２２、第２の翻訳エンジン２８、第２の音声合成エンジン３４の組合せを決定してもよい。ここで例えば、当該組合せが、第１の言語、第１の話者により入力される音声、第２の言語、及び、第２の話者により入力される音声、の少なくとも１つに基づいて決定されてもよい。

上述のように音声認識部２４は、第１の音声認識エンジン２２が実装する音声認識処理を実行して、第１の話者による第１の言語の音声の入力に応じて、当該音声の認識結果である第１の言語のテキストを生成してもよい。また翻訳部３０は、第１の翻訳エンジン２８が実装する翻訳処理を実行して、音声認識部２４により生成された第１の言語のテキストを第２の言語に翻訳したテキストを生成してもよい。また音声合成部３６は、第１の音声合成エンジン３４が実装する音声合成処理を実行して、翻訳部３０により第２の言語に翻訳されたテキストを表す音声を合成してもよい。

また音声認識部２４は、第２の音声認識エンジン２２が実装する音声認識処理を実行して、第２の話者による第２の言語の音声の入力に応じて、当該第２の言語の音声の認識結果であるテキストを生成してもよい。また翻訳部３０は、第２の翻訳エンジン２８が実装する翻訳処理を実行して、音声認識部２４により生成された第２の言語のテキストを第１の言語に翻訳したテキストを生成してもよい。また音声合成部３６は、第１の音声合成エンジン３４が実装する音声合成処理を実行して、翻訳部３０により第１の言語に翻訳されたテキストを表す音声を合成してもよい。

例えばエンジン決定部４６は、第１の話者の音声入力操作の際に、翻訳前言語と翻訳後言語との組合せに基づいて、第１の音声認識エンジン２２、第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４、の組合せを決定してもよい。

ここで例えばエンジン決定部４６が、第１の話者の音声入力操作の際に、図６に例示する言語エンジン対応管理データに基づいて、第１の音声認識エンジン２２、第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４、の組合せを決定してもよい。

図６に示すように、言語エンジン対応管理データには、翻訳前言語データ、翻訳後言語データ、音声認識エンジンＩＤ、翻訳エンジンＩＤ、及び、音声合成エンジンＩＤが含まれている。図６には、複数の言語エンジン対応管理データが示されている。言語エンジン対応管理データは、例えば翻訳前言語と翻訳後言語との組合せに適した音声認識エンジン２２、翻訳エンジン２８、音声合成エンジン３４の組合せが予め設定されたデータであってもよい。言語エンジン対応管理データは予め対応管理データ記憶部４８に記憶されていてもよい。

ここで例えば、予め、翻訳前言語データの値が示す言語の音声に対する音声認識処理が可能な音声認識エンジン２２、あるいは、当該音声の認識精度が最も高い音声認識エンジン２２の音声認識エンジンＩＤが特定されていてもよい。そして特定された音声認識エンジンＩＤが、言語エンジン対応管理データにおいて当該翻訳前言語データに関連付けられている音声認識エンジンＩＤとして設定されてもよい。

そして例えばエンジン決定部４６が、第１の話者の音声入力操作の際に音声データ受付部２０が受け付ける解析対象データに含まれるメタデータの翻訳前言語データの値と翻訳後言語データの値との組合せを特定してもよい。そしてエンジン決定部４６が、含まれる翻訳前言語データの値及び翻訳後言語データの値の組合せが、特定される組合せと同じである言語エンジン対応管理データを特定してもよい。そしてエンジン決定部４６が、特定される言語エンジン対応管理データに含まれる音声認識エンジンＩＤ、翻訳エンジンＩＤ、及び、音声合成エンジンＩＤの組合せを特定してもよい。

なおエンジン決定部４６が、含まれる翻訳前言語データの値及び翻訳後言語データの値の組合せが、特定される組合せと同じである複数の言語エンジン対応管理データを特定してもよい。この場合、エンジン決定部４６は、例えば所与の基準に基づいて、複数の言語エンジン対応管理データのうちのいずれかに含まれる音声認識エンジンＩＤ、翻訳エンジンＩＤ、音声合成エンジンＩＤの組合せを特定してもよい。

そしてエンジン決定部４６が、特定された組合せに含まれる音声認識エンジンＩＤにより識別される音声認識エンジン２２を、第１の音声認識エンジン２２として決定してもよい。またエンジン決定部４６が、決定された組合せに含まれる翻訳エンジンＩＤにより識別される翻訳エンジン２８を、第１の翻訳エンジン２８として決定してもよい。またエンジン決定部４６が、決定された組合せに含まれる音声合成エンジンＩＤにより識別される音声合成エンジン３４を、第１の音声合成エンジン３４として決定してもよい。

同様にしてエンジン決定部４６が、第２の話者の音声入力操作の際に、翻訳前言語と翻訳後言語との組合せに基づいて、第２の音声認識エンジン２２、第２の翻訳エンジン２８、及び、第２の音声合成エンジン３４、の組合せを決定してもよい。

以上のようにすれば、翻訳前言語と翻訳後言語の組合せに応じた適切な音声認識エンジン２２、翻訳エンジン２８、音声合成エンジン３４の組合せによる音声翻訳が実行できることとなる。

なおエンジン決定部４６が、翻訳前言語のみに基づいて、第１の音声認識エンジン２２又は第２の音声認識エンジン２２を決定してもよい。

ここで解析部４４が、音声データ受付部２０が受け付ける解析対象データに含まれる翻訳前音声データを解析して、当該翻訳前音声データが表す音声の言語を特定してもよい。そしてエンジン決定部４６が解析部４４により特定される言語に基づいて音声認識エンジン２２、及び、翻訳エンジン２８の少なくとも一方を決定してもよい。

またエンジン決定部４６が、例えば音声入力操作が行われた際の翻訳端末１２の位置に基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４のうちの少なくとも１つを決定してもよい。ここで例えば、翻訳端末１２の位置が属する国に基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４のうちの少なくとも１つが決定されてもよい。また例えば、エンジン決定部４６により決定された翻訳エンジン２８が翻訳端末１２の位置が属する国において使用不可能なものである場合に、残りの翻訳エンジン２８のうちから翻訳処理を実行する翻訳エンジン２８が決定されてもよい。なおこの場合に例えば国を示す国データを含む言語エンジン対応管理データに基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４のうちの少なくとも１つが決定されてもよい。

なお翻訳端末１２の位置は、当該翻訳端末１２が送信する解析対象データのヘッダのＩＰアドレスに基づいて特定されてもよい。また例えば、翻訳端末１２がＧＰＳモジュールを備えている場合は、翻訳端末１２がＧＰＳモジュールにより計測される緯度及び経度などといった翻訳端末１２の位置を示すデータをメタデータとして含む解析対象データをサーバ１０に送信してもよい。そして当該メタデータに含まれる位置を示すデータに基づいて、翻訳端末１２の位置が特定されてもよい。

またエンジン決定部４６は、例えば解析部４４により推定されるトピック又はシーンに基づいて、翻訳処理を実行する翻訳エンジン２８を決定してもよい。ここでエンジン決定部４６は、例えば端末対応ログデータに含まれるトピックデータの値やシーンデータの値に基づいて、翻訳処理を実行する翻訳エンジン２８を決定してもよい。なおこの場合に例えばトピックを示すトピックデータやシーンを示すシーンデータを含む属性エンジン対応管理データに基づいて、翻訳処理を実行する翻訳エンジン２８が決定されてもよい。

また例えばエンジン決定部４６が、第１の話者の音声入力操作の際に、第１の話者の属性に基づいて、第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４、の組合せを決定してもよい。

ここで例えばエンジン決定部４６が、図７に例示する属性エンジン対応管理データに基づいて、第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４、の組合せを決定してもよい。

図７には翻訳前言語として日本語が、翻訳後言語として英語が関連付けられた属性エンジン対応管理データの例が複数示されている。図７に示すように、属性エンジン対応管理データには、年齢データ、性別データ、翻訳エンジンＩＤ、及び、音声合成エンジンＩＤが含まれている。属性エンジン対応管理データは、例えば話者の年齢又は年代、及び、話者の性別などといった話者の再現に適した翻訳エンジン２８と音声合成エンジン３４との組合せが予め設定されたデータであってもよい。ここで属性エンジン対応管理データは予め対応管理データ記憶部４８に記憶されていてもよい。

ここで例えば、予め、年齢データが示す年齢又は年代、及び、性別データが示す性別等の話者の属性の再現が可能な翻訳エンジン２８、あるいは、当該話者の再現精度が最も高い翻訳エンジン２８の翻訳エンジンＩＤが特定されていてもよい。そして特定された翻訳エンジンＩＤが、属性エンジン対応管理データにおいて当該年齢データ及び当該性別データに関連付けられている翻訳エンジンＩＤとして設定されてもよい。

また例えば、予め、年齢データが示す年齢又は年代、及び、性別データが示す性別等の話者の属性の再現が可能な音声合成エンジン３４、あるいは、当該話者の再現精度が最も高い音声合成エンジン３４の音声合成エンジンＩＤが特定されていてもよい。そして特定された音声合成エンジンＩＤが、属性エンジン対応管理データにおいて当該年齢データ及び当該性別データに関連付けられている音声合成エンジンＩＤとして設定されてもよい。

ここで例えばエンジン決定部４６が、第１の話者による音声入力操作の際に、翻訳前言語として日本語を、翻訳後言語として英語を特定したとする。またエンジン決定部４６が、さらに解析部４４による解析結果に基づいて、話者の年齢又は年代を示す値と、話者の性別を示す値との組合せを特定したとする。この場合、エンジン決定部４６は、図７に示す属性エンジン対応管理データのうちから、含まれる年齢データの値と性別データの値との組合せが、特定された組合せと同じであるものを特定してもよい。そしてエンジン決定部４６が、特定される属性エンジン対応管理データに含まれる翻訳エンジンＩＤ、及び、音声合成エンジンＩＤの組合せを特定してもよい。

なおエンジン決定部４６が、図７に示す属性エンジン対応管理データのうちから、含まれる年齢データの値と性別データの値との組合せが、特定された組合せと同じである複数の属性エンジン対応管理データを特定してもよい。この場合、エンジン決定部４６は、例えば所与の基準に基づいて、複数の属性エンジン対応管理データのうちのいずれかに含まれる翻訳エンジンＩＤ、音声合成エンジンＩＤの組合せを特定してもよい。

そしてエンジン決定部４６が、決定された組合せに含まれる翻訳エンジンＩＤにより識別される翻訳エンジン２８を、第１の翻訳エンジン２８として決定してもよい。またエンジン決定部４６が、決定された組合せに含まれる音声合成エンジンＩＤにより識別される音声合成エンジン３４を、第１の音声合成エンジン３４として決定してもよい。

なおエンジン決定部４６が、図６に示す言語エンジン対応管理データに基づいて、音声認識エンジンＩＤ、翻訳エンジンＩＤ、及び、音声合成エンジンＩＤの組合せを複数特定してもよい。そしてこの場合に、エンジン決定部４６が、図７に示す属性エンジン対応管理データに基づいて、特定された複数の組合せのうちのいずれかに絞り込んでもよい。

また以上の例では、第１の話者の年齢又は年代及び話者の性別に組合せに基づく決定を説明したが、第１の話者の他の属性に基づいて第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４、の組合せが決定されてもよい。例えば属性エンジン対応管理データに、話者の感情を示す感情データの値が含まれていてもよい。そしてエンジン決定部４６が、例えば解析部４４により推定される話者の感情と、感情データを含む属性エンジン対応管理データとに基づいて、第１の翻訳エンジン２８と第１の音声合成エンジン３４との組合せを決定してもよい。

同様にしてエンジン決定部４６が、第２の話者の音声入力操作の際に、第２の話者の属性に基づいて、第２の翻訳エンジン２８、及び、第２の音声合成エンジン３４、の組合せを決定してもよい。

以上のようにすれば、第１の話者の性別や年齢に応じた音声が第２の話者に対して出力されることとなる。また第２の話者の性別や年齢に応じた音声が第１の話者に対して出力されることとなる。このようにして話者の年齢又は年代、話者の性別、話者の感情などといった話者の属性に応じた適切な翻訳エンジン２８と音声合成エンジン３４との組合せによる音声翻訳が実行できることとなる。

なおエンジン決定部４６が、第１の話者の属性に基づいて、第１の翻訳エンジン２８及び第１の音声合成エンジン３４の一方を決定してもよい。またエンジン決定部４６が、第２の話者の属性に基づいて、第２の翻訳エンジン２８及び第２の音声合成エンジン３４の一方を決定してもよい。

またエンジン決定部４６は、ログデータ記憶部４２に記憶されている端末対応ログデータに基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４の組合せを決定してもよい。

例えばエンジン決定部４６は、第１の話者による音声入力操作が行われた際に、話者ＩＤの値が１である端末対応ログデータの年齢データ、性別データ、及び、感情データに基づいて、第１の話者の年齢や年代、性別、感情等の第１の話者の属性を推定してもよい。そして当該推定の結果に基づいて第１の翻訳エンジン２８及び第１の音声合成エンジン３４の組合せを決定してもよい。なおこの場合、時刻データが示す時刻が最近であるものから所定数の端末対応ログデータに基づいて第１の話者の年齢や年代、性別、感情等の属性が推定されてもよい。この場合は、第１の話者の性別や年齢に応じた音声が第２の話者に対して出力されることとなる。

またエンジン決定部４６が、第２の話者による音声入力操作が行われた際に、話者ＩＤの値が１である端末対応ログデータの年齢データ、性別データ、及び、感情データに基づいて、第１の話者の年齢や年代、性別、感情等の第１の話者の感情を推定してもよい。そしてエンジン決定部４６が、当該推定の結果に基づいて第２の翻訳エンジン２８及び第２の音声合成エンジン３４の組合せを決定してもよい。この場合は、音声合成部３６は、第２の話者による音声の入力に応じて、第１の話者の年齢や年代、性別、感情などの属性に応じた音声を合成することとなる。なおこの場合、時刻データが示す時刻が最近であるものから所定数の端末対応ログデータに基づいて第２の話者の性別や年齢等の属性が推定されてもよい。

以上のようにすれば、第２の話者による音声入力操作に応じて、第２の話者の会話の相手である第１の話者の年齢や年代、性別、感情等の属性に応じた音声が第１の話者に対して出力されることとなる。

例えば英語を話す子供の女性が第１の話者であり、日本語を話す大人の男性が第２の話者であるとする。このような場合に、第１の話者に対して大人の男性の声質や声色の音声が出力されるよりも子供の女性の声質や声色の音声が出力される方が、第１の話者にとって望ましいことがある。また例えばこのような場合に、子供の女性が知っている可能性が高い、比較的容易な語を含むテキストを合成した音声が出力された方が第１の話者にとって望ましいことがある。例えば以上のような場合に上述のように、第２の話者による音声入力操作に応じて、第１の話者の年齢や年代、性別、感情等の属性に応じた音声が第１の話者に対して出力されることが有効なことがある。

なおエンジン決定部４６は、端末対応ログデータと解析部４４による解析結果の組合せに基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４の組合せを決定してもよい。

またエンジン決定部４６が、第１の話者による音声入力操作の際に、第１の話者による音声の入力スピードに基づいて、第１の翻訳エンジン２８及び第１の音声合成エンジン３４のうちの少なくとも一方を決定してもよい。またエンジン決定部４６が、第１の話者による音声入力操作の際に、第１の話者による音声の音量に基づいて、第１の翻訳エンジン２８及び第１の音声合成エンジン３４のうちの少なくとも一方を決定してもよい。またエンジン決定部４６が、第１の話者による音声入力操作の際に、第１の話者による音声の声質又は声色に基づいて、第１の翻訳エンジン２８及び第１の音声合成エンジン３４のうちの少なくとも一方を決定してもよい。ここで第１の話者による音声の入力スピード、音量、声質、声色などは、例えば、解析部４４による解析結果又は話者ＩＤの値が１である端末対応ログデータに基づいて特定されてもよい。

また音声合成部３６が、第１の話者による音声入力操作の際に、第１の話者による音声の入力スピードに応じたスピードの音声を合成してもよい。ここで例えば、ここで例えば、第１の話者による音声の入力時間と同じ時間あるいは第１の話者による音声の入力時間の所定倍の時間をかけて出力される音声が合成されてもよい。このようにすれば、第１の話者の音声の入力スピードに応じたスピードの音声が第２の話者に対して出力されることとなる。

また音声合成部３６が、第１の話者による音声入力操作の際に、第１の話者による音声の音量に応じた音量の音声を合成してもよい。ここで例えば、第１の話者による音声と音量が同じ又は所定倍である音声が合成されてもよい。このようにすれば、第１の話者の音声の音量に応じた音量の音声が第２の話者に対して出力されることとなる。

また音声合成部３６が、第１の話者による音声入力操作の際に、第１の話者による音声の声質又は声色に応じた声質又は声色の音声を合成してもよい。ここで例えば、第１の話者による音声と声質又は声色が同じである音声が合成されてもよい。ここで例えば、第１の話者とスペクトルが同じである音声が合成されてもよい。このようにすれば、第１の話者の音声の声質又は声色に応じた声質又は声色の音声が第２の話者に対して出力されることとなる。

またエンジン決定部４６が、第２の話者による音声入力操作の際に、第１の話者による音声の入力スピードに基づいて、第２の翻訳エンジン２８及び第２の音声合成エンジン３４のうちの少なくとも一方を決定してもよい。またエンジン決定部４６が、第２の話者による音声入力操作の際に、第１の話者による音声の音量に基づいて、第２の翻訳エンジン２８又は第２の音声合成エンジン３４の少なくとも一方を決定してもよい。ここで第１の話者による音声の入力スピードや音量は、例えば、話者ＩＤの値が１である端末対応ログデータに基づいて特定されてもよい。

また音声合成部３６が、第２の話者による音声入力操作の際に、第１の話者による音声の入力スピードに応じた音量の音声を合成してもよい。ここで例えば、第１の話者による音声の入力時間と同じ時間あるいは第１の話者による音声の入力時間の所定倍の時間をかけて出力される音声が合成されてもよい。

このようにすれば、第２の話者の音声入力操作に応じて、第２の話者の音声の入力スピードとは無関係に、第２の話者の会話の相手である第１の話者の音声の入力スピードに応じたスピードの音声が第１の話者に対して出力されることとなる。すなわち、第１の話者は第１の話者自身が話すスピードに応じたスピードの音声を聞けることとなる。

また音声合成部３６が、第２の話者による音声入力操作の際に、第１の話者による音声の音量に応じた音量の音声を合成してもよい。ここで例えば、第１の話者による音声と音量が同じ又は所定倍である音声が合成されてもよい。

このようにすれば、第２の話者の音声入力操作に応じて、第２の話者の音声の音量とは無関係に、第２の話者の会話の相手である第１の話者の音声の音量に応じた音量の音声が第１の話者に対して出力されることとなる。すなわち、第１の話者は第１の話者自身が話す音声の音量に応じた音量の音声を聞けることとなる。

また音声合成部３６が、第２の話者による音声入力操作の際に、第１の話者による音声の声色や声質に応じた声色や声質の音声を合成してもよい。ここで例えば、第１の話者による音声と声質又は声色が同じである音声が合成されてもよい。ここで例えば、第１の話者とスペクトルが同じである音声が合成されてもよい。

このようにすれば、第２の話者の音声入力操作に応じて、第２の話者の音声の声質又は声色とは無関係に、第２の話者の会話の相手である第１の話者の音声の声質又は声色に応じた声質又は声色の音声が第１の話者に対して出力されることとなる。すなわち、第１の話者は第１の話者自身が話す音声の声質又は声色に応じた声質又は声色の音声を聞けることとなる。

また翻訳部３０は、第２の話者による音声入力操作に応じて、音声認識部２４が生成したテキストに含まれる翻訳対象語について、複数の翻訳候補を決定してもよい。そして翻訳部３０は、決定される複数の翻訳候補のそれぞれについて、第１の話者による音声入力操作に応じて生成されたテキストに含まれる語が存在するか否かを確認してもよい。ここで例えば決定される複数の翻訳候補のそれぞれについて、話者ＩＤの値が１である端末対応ログデータの翻訳前テキストデータが示すテキスト又は翻訳語テキストデータが示すテキストに含まれる語が存在するか否かが確認されてもよい。そして翻訳部３０は、上述の翻訳対象語を、第１の話者による音声入力操作に応じて生成されたテキストに含まれることが確認された語に翻訳してもよい。

このようにすれば第２の話者の会話の相手である第１の話者が最近の会話で音声入力した語が音声出力されるので、会話を違和感なくスムーズに進めることが可能となる。

また翻訳部３０は、解析部４４により推定されるトピック又はシーンに基づいて、専門用語辞書を使用して翻訳処理を実行するか否かを決定してもよい。

なお以上の説明において、第１の音声認識エンジン２２、第１の翻訳エンジン２８、第１の音声合成エンジン３４、第２の音声認識エンジン２２、第２の翻訳エンジン２８、第２の音声合成エンジン３４は、ソフトウェアモジュールと１対１で対応付けられている必要はない。例えば第１の音声認識エンジン２２、第１の翻訳エンジン２８、第１の音声合成エンジン３４のうちのいずれか複数が１つのソフトウェアモジュールにより実装されてもよい。また例えば、第１の翻訳エンジン２８と第２の翻訳エンジン２８とが１つのソフトウェアモジュールにより実装されてもよい。

以下、第１の話者による音声入力操作が実行された際に本実施形態に係るサーバ１０において行われる処理の流れの一例を、図８に示すフロー図を参照しながら説明する。

まず音声データ受付部２０が、解析対象データを翻訳端末１２から受け付ける（Ｓ１０１）。

そして解析部４４が、Ｓ１０１に示す処理で受け付けた解析対象データに含まれる翻訳前音声データに対する解析処理を実行する（Ｓ１０２）。

そしてエンジン決定部４６が、端末対応ログデータやＳ１０２に示す処理での解析処理の実行結果などに基づいて、第１の音声認識エンジン２２、第１の翻訳エンジン２８、及び、第１の音声合成エンジン３４の組合せを決定する（Ｓ１０３）。

そして音声認識部２４が、Ｓ１０３に示す処理で決定された第１の音声認識エンジン２２が実装する音声認識処理を実行して、Ｓ１０１に示す処理で受け付けた解析対象データに含まれる翻訳前音声データが表す音声の認識結果であるテキストを示す翻訳前テキストデータを生成する（Ｓ１０４）。

そして翻訳前テキストデータ送信部２６が、Ｓ１０４に示す処理で生成された翻訳前テキストデータを翻訳端末１２に送信する（Ｓ１０５）。このようにして送信される翻訳前テキストデータは、翻訳端末１２の表示部１２ｅに表示される。

そして翻訳部３０が、第１の翻訳エンジン２８が実装する翻訳処理を実行して、Ｓ１０４に示す処理で生成された翻訳前テキストデータが示すテキストを第２の言語に翻訳したテキストを示す翻訳後テキストデータを生成する（Ｓ１０６）。

そして音声合成部３６が、第１の音声合成エンジン３４が実装する音声合成処理を実行して、Ｓ１０６に示す処理で生成された翻訳後テキストデータが示すテキストを表す音声を合成する（Ｓ１０７）。

そしてログデータ生成部４０が、ログデータを生成してログデータ記憶部４２に記憶させる（Ｓ１０８）。ここでログデータは例えば、Ｓ１０１に示す処理で受け付けた解析対象データに含まれるメタデータ、Ｓ１０２に示す処理での解析結果、Ｓ１０４に示す処理で生成された翻訳前テキストデータ、及び、Ｓ１０６に示す処理で生成された翻訳後テキストデータに基づいて生成されてもよい。

そして音声データ送信部３８が、Ｓ１０７に示す処理で合成された音声を示す翻訳後音声データを翻訳端末１２に送信するとともに、翻訳後テキストデータ送信部３２が、Ｓ１０６に示す処理で生成された翻訳後テキストデータを翻訳端末１２に送信する（Ｓ１０９）。このようにして送信される翻訳後テキストデータは、翻訳端末１２の表示部１２ｅに表示される。またこのようにして送信される翻訳後音声データが表す音声は、翻訳端末１２のスピーカ１２ｇから音声出力される。そして本処理例に示す処理は終了される。

なお第２の話者による音声入力操作が実行された際にも、本実施形態に係るサーバ１０において図８に示すフロー図に示されている処理と同様の処理が実行される。ただしこの場合は、Ｓ１０３に示す処理で、第２の音声認識エンジン２２、第２の翻訳エンジン２８、及び、第２の音声合成エンジン３４の組合せが決定される。またＳ１０４に示す処理で、Ｓ１０３に示す処理で決定された第２の音声認識エンジン２２が実装する音声認識処理が実行される。またＳ１０６に示す処理で、第２の翻訳エンジン２８が実装する翻訳処理が実行される。またＳ１０７に示す処理で、第２の音声合成エンジン３４が実装する音声合成処理が実行される。

なお、本発明は上述の実施形態に限定されるものではない。

例えばサーバ１０の機能が、１台のサーバで実装されても、複数台のサーバで実装されても構わない。

また例えば、音声認識エンジン２２、翻訳エンジン２８、音声合成エンジン３４が、サーバ１０とは異なる、外部のサーバが提供するサービスとして実装されていてもよい。そしてエンジン決定部４６は、音声認識エンジン２２、翻訳エンジン２８、音声合成エンジン３４のそれぞれが実装された外部のサーバを決定してもよい。そして例えば音声認識部２４が、エンジン決定部４６が決定する外部のサーバに対してリクエストを送信して、音声認識処理の結果を当該外部のサーバから受信してもよい。また例えば翻訳部３０が、エンジン決定部４６が決定した外部のサーバに対してリクエストを送信して、翻訳処理の結果を当該外部のサーバから受信してもよい。また例えば音声合成部３６が、エンジン決定部４６が決定した外部のサーバに対してリクエストを送信して、音声合成処理の結果を当該外部のサーバから受信してもよい。ここで例えば、サーバ１０が、上述のサービスのＡＰＩをコールするようにしてもよい。

また例えば、エンジン決定部４６は、図６や図７に示すようなテーブルに基づいて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４の組合せを決定する必要はない。例えば、エンジン決定部４６は、学習済の機械学習モデルを用いて、音声認識エンジン２２、翻訳エンジン２８、及び、音声合成エンジン３４の組合せを決定してもよい。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

１翻訳システム、１０サーバ、１０ａプロセッサ、１０ｂ記憶部、１０ｃ通信部、１２翻訳端末、１２ａプロセッサ、１２ｂ記憶部、１２ｃ通信部、１２ｄ，１２ｄａ，１２ｄｂ，１２ｄｃ，１２ｄｄ，１２ｄｅ操作部、１２ｅ表示部、１２ｆマイク、１２ｇスピーカ、１４コンピュータネットワーク、１６ａ第１言語表示領域、１６ｂ第２言語表示領域、１８テキスト表示領域、２０音声データ受付部、２２音声認識エンジン、２４音声認識部、２６翻訳前テキストデータ送信部、２８翻訳エンジン、３０翻訳部、３２翻訳後テキストデータ送信部、３４音声合成エンジン、３６音声合成部、３８音声データ送信部、４０ログデータ生成部、４２ログデータ記憶部、４４解析部、４６エンジン決定部、４８対応管理データ記憶部。

Claims

第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳システムであって、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定部と、
前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識部と、
前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識部により生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳部と、
前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳部により翻訳されたテキストを表す音声を合成する第１の音声合成部と、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定部と、
前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識部と、
前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識部により生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳部と、
前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳部により翻訳されたテキストを表す音声を合成する第２の音声合成部と、
を含むことを特徴とする双方向音声翻訳システム。
前記第１の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される、前記第１の話者の年齢、年代、及び、性別のうちの少なくとも１つに応じた音声を合成する、
ことを特徴とする請求項１に記載の双方向音声翻訳システム。
前記第１の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される前記第１の話者の感情に応じた音声を合成する、
ことを特徴とする請求項１又は２に記載の双方向音声翻訳システム。
前記第２の音声合成部は、前記第１の話者により入力された音声の特徴量に基づいて推定される、前記第１の話者の年齢、年代、及び、性別のうちの少なくとも１つに応じた音声を合成する、
ことを特徴とする請求項１に記載の双方向音声翻訳システム。
前記第２の翻訳部は、
前記第２の音声認識部により生成されたテキストに含まれる翻訳対象語についての複数の翻訳候補を決定し、
前記複数の翻訳候補のそれぞれについて、当該翻訳候補が前記第１の翻訳部により生成されたテキストに含まれるか否かを確認し、
前記翻訳対象語を、前記第１の翻訳部により生成されたテキストに含まれることが確認された語に翻訳する、
ことを特徴とする請求項１から４のいずれか一項に記載の双方向音声翻訳システム。
前記第１の音声合成部は、前記第１の話者による音声の入力スピードに応じたスピードの音声、又は、前記第１の話者による音声の音量に応じた音量の音声を合成する、
ことを特徴とする請求項１から５のいずれか一項に記載の双方向音声翻訳システム。
前記第２の音声合成部は、前記第１の話者による音声の入力スピードに応じたスピードの音声、又は、前記第１の話者による音声の音量に応じた音量の音声を合成する、
ことを特徴とする請求項１から５のいずれか一項に記載の双方向音声翻訳システム。
前記第１の話者による前記第１の言語の音声の入力を受け付け、当該音声を前記第２の言語に翻訳した音声を出力し、前記第２の話者による前記第２の言語の音声の入力を受け付け、当該音声を前記第１の言語に翻訳した音声を出力する端末を含み、
前記第１の決定部は、前記端末の位置に基づいて、前記第１の音声認識エンジン、前記第１の翻訳エンジン、及び、前記第１の音声合成エンジン、の組合せを決定し、
前記第２の決定部は、前記端末の位置に基づいて、前記第２の音声認識エンジン、前記第２の翻訳エンジン、及び、前記第２の音声合成エンジン、の組合せを決定する、
ことを特徴とする請求項１から７のいずれか一項に記載の双方向音声翻訳システム。
第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行する双方向音声翻訳方法であって、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定ステップと、
前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識ステップと、
前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識ステップで生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳ステップと、
前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳ステップで翻訳されたテキストを表す音声を合成する第１の音声合成ステップと、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定ステップと、
前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識ステップと、
前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識ステップで生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳ステップと、
前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳ステップで翻訳されたテキストを表す音声を合成する第２の音声合成ステップと、
を含むことを特徴とする双方向音声翻訳方法。
第１の話者による第１の言語の音声の入力に応じて、当該音声を第２の言語に翻訳した音声を合成する処理と、第２の話者による前記第２の言語の音声の入力に応じて、当該音声を前記第１の言語に翻訳した音声を合成する処理と、を実行するコンピュータに、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、複数の音声認識エンジンのうちのいずれかである第１の音声認識エンジン、複数の翻訳エンジンのうちのいずれかである第１の翻訳エンジン、及び、複数の音声合成エンジンのうちのいずれかである第１の音声合成エンジン、の組合せを決定する第１の決定手順、
前記第１の音声認識エンジンが実装する音声認識処理を実行して、前記第１の話者による前記第１の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第１の音声認識手順、
前記第１の翻訳エンジンが実装する翻訳処理を実行して、前記第１の音声認識手順で生成されたテキストを前記第２の言語に翻訳したテキストを生成する第１の翻訳手順、
前記第１の音声合成エンジンが実装する音声合成処理を実行して、前記第１の翻訳手順で翻訳されたテキストを表す音声を合成する第１の音声合成手順、
前記第１の言語、前記第１の話者により入力される音声、前記第２の言語、及び、前記第２の話者により入力される音声、の少なくとも１つに基づいて、前記複数の音声認識エンジンのうちのいずれかである第２の音声認識エンジン、前記複数の翻訳エンジンのうちのいずれかである第２の翻訳エンジン、及び、前記複数の音声合成エンジンのうちのいずれかである第２の音声合成エンジン、の組合せを決定する第２の決定手順、
前記第２の音声認識エンジンが実装する音声認識処理を実行して、前記第２の話者による前記第２の言語の音声の入力に応じて、当該音声の認識結果であるテキストを生成する第２の音声認識手順、
前記第２の翻訳エンジンが実装する翻訳処理を実行して、前記第２の音声認識手順で生成されたテキストを前記第１の言語に翻訳したテキストを生成する第２の翻訳手順、
前記第２の音声合成エンジンが実装する音声合成処理を実行して、前記第２の翻訳手順で翻訳されたテキストを表す音声を合成する第２の音声合成手順、
をコンピュータに実行させることを特徴とするプログラム。