JP6353860B2

JP6353860B2 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP6353860B2
Application number: JP2016067697A
Authority: JP
Inventors: 優基井村
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2018-07-04
Anticipated expiration: 2036-03-30
Also published as: JP2017182394A

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店舗の従業員等と外国人客等との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術や音声翻訳アプリケーションソフトが提案されている（例えば特許文献１及び２、非特許文献１参照）。

特開平９−３４８９５号公報特開平２０１４−１６４７５号公報

多言語音声翻訳アプリＶｏｉｃｅＴｒａ＜ボイストラ＞パンフレット［平成２８年３月１１日検索］、インターネット＜ＵＲＬ：http://voicetra.nict.go.jp/dl/voicetra_flyer.pdf＞

近年、かかる翻訳技術は急速に進展しているものの、発話された内容や言い回しによっては、ソース言語（話者が発話した元の言語）による発話内容とは意味が異なる翻訳結果が得られてしまうことがある。このような精度が低い翻訳や誤訳が生じると、話者間の相互理解が困難になってしまい、円滑なコミュニケーションを妨げたり、或いは、話者間で思い違いが発生したりするおそれがある。

そこで、従来の音声翻訳アプリケーションソフト等では、対話者に翻訳結果を伝達する前に、その翻訳結果をソース言語に逆翻訳（折り返し翻訳とも呼ばれる）し、（１）ソース言語による発話内容、（２）他言語による翻訳結果、及び、（３）その逆翻訳結果を、表示デバイス上の一画面に並べてテキスト表示している（例えば非特許文献１における画面表示参照）。話者は、（１）のソース言語による発話内容と（３）の逆翻訳結果との一致度から、（２）の翻訳結果の当否を判断し、翻訳精度が低い又は誤訳である場合、ソース言語による発話をやり直すことができる。

しかし、この場合、同一の言語によるテキストが一画面に並んで表示されるので、それらを視認する話者としては、両方の内容が如何なる意味合いを有するのか、即座に判断し難いことがある。また、話者が、（３）の逆翻訳結果の表示を特に必要としていない場合であっても、それが表示されてしまうため、画面表示が紛雑になって視認性が低下したり、或いは、話者がその逆翻訳結果の表示自体に違和感を覚えたりしてしまう。特に、（１）のソース言語による発話内容と（３）の逆翻訳結果が一致又は類似している場合には、それらの傾向が顕著となる。また、発話の都度、（３）の逆翻訳結果の内容の当否を判断することになるので、会話の円滑な進行が妨げられたり、操作性が低下したりしてしまうといった問題もある。

そこで、本発明は、かかる事情に鑑みてなされたものであり、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、話者のソース言語による音声を入力するための入力部と、入力音声の内容をソース言語とは異なる他言語の内容に翻訳する翻訳部と、他言語による翻訳結果をソース言語の内容に逆翻訳する逆翻訳部と、入力音声の内容と他言語による翻訳結果を表示する表示部を備える。そして、当該音声翻訳装置では、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示するように構成されている。

より具体的には、表示部は、話者の指示を入力するための逆翻訳ボタンを表示し、逆翻訳部が、その逆翻訳ボタンによる話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示するようにしてもよい。

また、入力音声の内容を記憶する記憶部を更に備え、表示部は、話者が、（他言語による）翻訳結果が誤りであることを翻訳部に通知するための通知ボタンを表示し、記憶部が、その通知ボタンによる話者からの通知があった場合に、その翻訳結果が誤りであることを、入力音声の内容に関連付けて記憶するように構成することもできる。

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、逆翻訳部、及び表示部を備える本発明の音声翻訳装置を用いる方法である。すなわち、当該方法は、入力部が、話者のソース言語による音声を入力するステップと、翻訳部が、入力音声の内容をソース言語とは異なる他言語の内容に翻訳するステップと、逆翻訳部が、その他言語による翻訳結果をソース言語の内容に逆翻訳するステップと、表示部が、入力音声の内容と他言語による翻訳結果を表示するステップとを含む。そして、逆翻訳するステップにおいては、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を実行する、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を表示する。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、話者のソース言語による音声を入力するための入力部と、入力音声の内容をソース言語とは異なる他言語の内容に翻訳する翻訳部と、他言語による翻訳結果をソース言語の内容に逆翻訳する逆翻訳部と、入力音声の内容と他言語による翻訳結果を表示する表示部として機能させる。そして、当該音声翻訳プログラムは、逆翻訳部が、話者の指示があった場合にのみ逆翻訳を行うように、又は、表示部が、話者の指示があった場合にのみ逆翻訳結果を出力するように、コンピュータを制御する。

本発明によれば、話者のソース言語による入力音声の内容を異なる他言語の内容に翻訳し、話者の指示があった場合にのみ、その他言語による翻訳結果をソース言語の内容に逆翻訳（折り返し翻訳）する、又は、そのソース言語による逆翻訳結果を表示する。よって、話者の指示の有無に拘わらず、他言語による翻訳結果をソース言語に逆翻訳し、かつ、その逆翻訳結果を、当初の入力音声の内容とともに表示する従来に比して、逆翻訳結果を、当初の入力音声の内容から区別して識別し易くなる。また、かかる従来に比して、画面表示が自然で簡潔となり、その視認性が向上する。さらに、話者は、発話の都度、逆翻訳結果の内容の当否を判断する必要がなく、必要と感じたときに、逆翻訳結果を表示することができるので、会話の円滑な進行が妨げられたり、操作性が低下したりといった不都合が解消される。すなわち、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、話者が使用する情報端末１０にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報を話者に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ等も記憶されている。

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と他言語の音声翻訳の場合、日本語音声コーパス、各他言語音声コーパス、日本語文字（語彙）コーパス、各他言語文字（語彙）コーパス、日本語辞書、各他言語辞書、日本語／各他言語対訳辞書、日本語／各他言語対訳コーパス等）、音声データベース、話者（当該音声翻訳アプリケーションのユーザ等）に関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

（音声翻訳処理）
以上のとおり構成された音声翻訳装置１００における音声翻訳処理の操作及び動作の一例について、以下に説明する。図２は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図３（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、ここでは、会話を行う話者が、日本語（ソース言語）を話す店員（店舗の従業員）と英語（他言語）を話す外国人の客である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

まず、店員が当該音声翻訳アプリケーションを起動する（ステップＳＵ１）と、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、情報端末１０の表示デバイス１６に、客の言語を選択するための言語選択画面が表示される（図３（Ａ）；ステップＳＪ１）。この言語選択画面には、客に言語を尋ねることを店員に促すための日本語のテキストＴ１、客に言語を尋ねる旨の英語のテキストＴ２、及び、想定される複数の代表的な言語（ここでは、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン３１が表示される。さらにその下方には、言語選択画面を閉じて音声翻訳アプリケーションを終了するためのキャンセルボタンＢ１も表示される。

このとき、日本語のテキストＴ１及び英語のテキストＴ２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、店員と客が対面している状態で会話を行う場合、店員は日本語のテキストＴ１を確認し易い一方、客は、英語のテキストＴ２を確認し易くなる。また、日本語のテキストＴ１と英語のテキストＴ２が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。

客の言語が選択されると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、ホーム画面として、日本語と英語の音声入力待機画面が表示デバイス１６に表示される（図３（Ｂ）；ステップＳＪ２）。この音声入力待機画面には、店員と客の言語の何れを発話するかを問う日本語のテキストＴ３、並びに、日本語の音声入力を行うための入力ボタン３２ａ及び英語の音声入力を行うための入力ボタン３２ｂが表示される。

また、この音声入力待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン３３、対話者の言語を手動で選択するための言語選択ボタン３４、それまでになされた音声入力内容の履歴表示を選択するための履歴ボタン３５、予め用意された複数の定型フレーズ（推奨フレーズ）群のなかから所望の定型フレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン３６、及び当該音声翻訳アプリケーションソフトの各種設定を行うための設定ボタン３７も表示される。

次に、図３（Ｂ）に示す音声入力待機画面において、店員が日本語の入力ボタン３２ａをタップして日本語の音声入力を選択すると、店員の日本語による発話内容を受け付ける音声入力画面となる（図３（Ｃ））。この音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、店員の音声入力を促すテキストＴ２、音声入力状態にあることを示すマイク図案３８、及びテキスト入力へ切り替えるための入力切替ボタンＢ２が表示される。さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、会話を終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。

この状態で、店員が客への伝達事項等（例えば「申し訳ございません。満席ですのでこちらで少々おまちください。」といったフレーズ）を発話する（ステップＳＵ２）と、テキストＴ２とともに、その声量の大小を模式的に且つ動的に表す多重円形図案３９が表示され、音声入力レベルが話者へ視覚的にフィードバックされる。それから、発話が終了してマイク図案３８がタップされると、プロセッサ１１は、発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３に（必要に応じて適宜のデータベースに）記憶する。

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日本語／英語対訳辞書、日本語／英語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英語の文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ２１は、入力音声の内容をソース言語（日本語）とは異なる他言語（英語）の内容に翻訳する「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの日本語及び英語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

また、この翻訳処理中に、プロセッサ２１は、入力音声の認識結果（入力音声の内容）を、情報端末１０に送信し、プロセッサ１１は、その認識結果を、図３（Ｄ）に示す翻訳処理中画面に、日本語のテキストＴ５として表示する。なお、このテキスト５としては、入力音声の認識結果をそのまま表示してもよいし、予め記憶資源２３に記憶されている日本語の会話コーパスのなかから、実際の入力音声の内容に対応するものを呼び出して表示してもよい。また、この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストＴ６、及び、処理中であることを表すため円弧の一部が回動するように表示される環状図案４０も表示される（ここまでステップＳＪ３）。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、英語による翻訳結果（対応する英語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、情報端末１０へ送信する。そのテキスト信号を受信したプロセッサ１１は、図３（Ｄ）の翻訳中画面に表示した日本語のテキストＴ５と、その英語による翻訳結果（対訳）のテキストＴ６を、図４（Ａ）に示す翻訳結果表示画面に表示する。また、この翻訳結果表示画面には、テキストＴ５で示す内容が客に伝わることを説明するための日本語のテキストＴ７も表示される。このとおり、プロセッサ１１，２１及び表示デバイス１６が、「表示部」として機能する。

また、この翻訳結果表示画面には、話者が操作可能な各種ボタンが表示される。すなわち、テキストＴ５，Ｔ６の間の画面領域には、図３（Ｂ）のホーム画面へ戻るためのチェックボタンＢ３、及び、英語による翻訳結果のテキストＴ６の内容を日本語に逆翻訳するための逆翻訳ボタンＢ４が表示される。さらに、この翻訳結果表示画面には、翻訳結果の誤りを報告するための誤訳通知ボタンＢ５、対訳のテキストＴ６の内容を再生するための音声出力ボタンＢ６、及び、図３（Ｃ）の音声入力画面に戻って発話をやり直すための再入力ボタンＢ７も表示される（ここまでステップＳＪ５）。

ここで、話者が各種ボタンのタップ操作を行う（ステップＳＵ３）と、情報端末１０のプロセッサ１１からボタン操作信号を受信したプロセッサ２１が、選択された操作の内容（１）〜（４）を判断し（ステップＳＪ６）、それぞれに対応した処理を行う。

（１）逆翻訳
すなわち、店員が逆翻訳ボタンＢ４をタップ（ステップＳＵ３；話者の指示）すると、情報端末１０のプロセッサ１１からその選択信号を受信したプロセッサ２１は、上述した多言語翻訳処理により、英語による翻訳結果のテキストＴ６の内容を日本語に逆翻訳し、その日本語による逆翻訳結果のテキストＴ８を、入力音声の内容のテキストＴ５とともに、図４（Ｂ）に示す逆翻訳結果表示画面に表示する（ステップＳＪ１０）。このとおり、プロセッサ２１は、他言語（英語）による翻訳結果をソース言語（日本語）の内容に逆翻訳する「逆翻訳部」としても機能する。なお、この逆翻訳結果表示画面には、図４（Ａ）に示す翻訳結果表示画面を再表示するための戻るボタンＢ８も表示され、逆翻訳結果を確認した店員がそれをタップすることにより、ステップＳＵ３の各種ボタンのタップ操作に戻ることができる。

（２）誤訳通知
また、そのようにして日本語の逆翻訳結果を確認して、英語の翻訳結果の精度が不十分又は誤訳であると判断した店員は、誤訳通知ボタンＢ５をタップ（ステップＳＵ３；話者からの通知）することにより、その旨をサーバ２０に報告することができる。この場合、プロセッサ２１は、その英語の翻訳結果が誤りであることを、先に記憶資源２３に記憶しておいた入力音声の内容に関連付けて記憶する（ステップＳＪ２０）。それから、店員はステップＳＵ３の各種ボタンのタップ操作を続けることができる。

（３）音声出力
また、そのようにして日本語の逆翻訳結果を確認して、英語の翻訳結果が正確又は妥当であると判断した店員は、音声出力ボタンＢ６をタップ（ステップＳＵ３）することにより、英語による翻訳結果のテキストＴ５の内容を再生することができる。この場合、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末１０へ送信する。その音声信号を受信したプロセッサ１１は、音声入出力デバイス１３を用いて、テキストＴ５の内容の音声を出力する（読み上げる）（ステップＳＪ３０）。それから、店員は、チェックボタンＢ３をタップして、図３（Ｂ）のホーム画面へ戻り、必要に応じて客の発話（ステップＳＵ２）に処理を移行することができる。

（４）再入力
また、逆翻訳結果を確認することなく、或いは、確認した後、店員は、再入力ボタンＢ７をタップ（ステップＳＵ３）することにより、図３（Ｃ）の音声入力画面に戻って発話をやり直すこともできる（ステップＳＵ２）。以上のようにして、店員と客は、会話を進めることができ、会話が終了した後、店員は、当該音声翻訳アプリケーションを適宜終了することができる。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、例えば翻訳結果表示画面（図４（Ａ））に逆翻訳ボタンＢ４を表示する。そして、それがタップ操作された場合（話者の指示があった場合）にのみ、話者の日本語（ソース言語）による入力音声の英語（他言語）の翻訳結果を、日本語（ソース言語）の内容に逆翻訳する。よって、従来の如く、話者の指示の有無に拘わらず、図４（Ｂ）に示すような翻訳結果と逆翻訳結果のテキストを表示する場合に比して、逆翻訳結果を、当初の入力音声の内容から区別して識別し易くなる。

また、かかる従来に比して、図４（Ａ）及び図４（Ｂ）に示すとおり、画面表示が自然で簡潔となり、その視認性が向上する。さらに、話者は、発話の都度、逆翻訳結果の内容の当否を判断する必要がなく、必要と感じたときに、逆翻訳結果を表示することができるので、会話の円滑な進行が妨げられたり、操作性が低下したりといった不都合が解消される。すなわち、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることが可能となる。換言すれば、本発明によれば、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることができる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、図２に示すフローの例えばステップＳＪ３において、ステップＳＪ１０の逆翻訳処理を予め行っておき、逆翻訳ボタンＢ４がタップされた場合、ステップＳＪ１０においては逆翻訳結果の表示のみ行ってもよい。すなわち、この場合、逆翻訳処理を事前に行っておき、話者の指示があった場合にのみ、プロセッサ１１，２１及び表示デバイス１６（表示部）が逆翻訳結果を表示する。さらに、図２に示すフローのステップＳＪ３，ＳＪ５間で音声合成処理（ステップＳＪ４）を行わず、ステップＳＵ３において音声出力ボタンＢ６がタップされた場合に、ステップＳＪ３０において音声合成処理（ステップＳＪ４）を行ってもよい。

また、音声認識、翻訳、音声合成等の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、話者にとって適切な時期に逆翻訳結果を表示させることにより、操作性の低下を抑止し、かつ、話者の会話によるコミュニケーションを円滑ならしめることができる。よって、本発明は、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
３１言語ボタン
３２ａ，３２ｂ入力ボタン
３３お声がけボタン
３４言語選択ボタン
３５履歴ボタン
３６サジェストボタン
３７設定ボタン
３８マイク図案
３９多重円形図案
４０環状図案
１００音声翻訳装置
Ｂ１キャンセルボタン
Ｂ２入力切替ボタン
Ｂ３チェックボタン
Ｂ４逆翻訳ボタン
Ｂ５誤訳通知ボタン
Ｂ６音声出力ボタン
Ｂ７再入力ボタン
Ｂ８戻るボタン
Ｄ２０データベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐ１０，Ｐ２０プログラム
Ｔ１〜Ｔ８テキスト

Claims

話者のソース言語による音声を入力するための入力部と、
入力音声の内容を前記ソース言語とは異なる他言語の内容に翻訳する翻訳部と、
前記他言語による翻訳結果を前記ソース言語の内容に逆翻訳する逆翻訳部と、
前記入力音声の内容と前記他言語による翻訳結果を表示する表示部と、
を備え、
前記逆翻訳部は、前記話者による指示の有無に拘わりなく、前記逆翻訳を予め実行しておき、
前記表示部は、前記話者による前記逆翻訳の結果の表示指示があった場合に、前記ソース言語による前記入力音声の内容とともに、予め実行された前記ソース言語による前記逆翻訳の結果を同一画面に表示する、
音声翻訳装置。
前記表示部は、前記話者による前記逆翻訳の結果の表示指示を入力するための逆翻訳ボタンを表示する、
請求項１記載の音声翻訳装置。
前記入力音声の内容を記憶する記憶部を更に備え、
前記表示部は、前記話者が、前記翻訳結果が誤りであることを前記翻訳部に通知するための通知ボタンを表示し、
前記記憶部は、前記通知ボタンによる前記話者からの通知があった場合に、前記翻訳結果が誤りであることを、前記入力音声の内容に関連付けて記憶する、
請求項１又は２記載の音声翻訳装置。
入力部、翻訳部、逆翻訳部、及び表示部を備える音声翻訳装置を用い、
前記入力部が、話者のソース言語による音声を入力するステップと、
前記翻訳部が、入力音声の内容を前記ソース言語とは異なる他言語の内容に翻訳するステップと、
前記逆翻訳部が、前記他言語による翻訳結果を前記ソース言語の内容に逆翻訳するステップと、
前記表示部が、前記入力音声の内容と前記他言語による翻訳結果を表示するステップと、
を含み、
前記逆翻訳するステップにおいては、前記話者による指示の有無に拘わりなく、前記逆翻訳を予め実行しておき、
前記表示するステップにおいては、前記表示部が、前記話者による前記逆翻訳の結果の表示指示があった場合に、前記ソース言語による前記入力音声の内容とともに、予め実行された前記ソース言語による前記逆翻訳の結果を同一画面に表示する、
音声翻訳方法。
コンピュータを、
話者のソース言語による音声を入力するための入力部と、
入力音声の内容を前記ソース言語とは異なる他言語の内容に翻訳する翻訳部と、
前記他言語による翻訳結果を前記ソース言語の内容に逆翻訳する逆翻訳部と、
前記入力音声の内容と前記他言語による翻訳結果を表示する表示部と、
して機能させ、
前記逆翻訳部は、前記話者による指示の有無に拘わりなく、前記逆翻訳を予め実行しておき、
前記表示部は、前記話者による前記逆翻訳の結果の表示指示があった場合に、前記ソース言語による前記入力音声の内容とともに、予め実行された前記ソース言語による前記逆翻訳の結果を同一画面に表示する、
音声翻訳プログラム。