JP2017126252A

JP2017126252A - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP2017126252A
Application number: JP2016005989A
Authority: JP
Inventors: 知高大越; Tomotaka Ogoshi; 諒俊武藤; Akitoshi Muto
Original assignee: Recruit Lifestyle Co Ltd
Current assignee: Recruit Lifestyle Co Ltd
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2017-07-20
Anticipated expiration: 2036-01-15
Also published as: JP6310950B2

Abstract

【課題】音声翻訳処理において、音声を聞き取りにくい発話環境であっても、音声翻訳後のフレーズを確実に相手に伝えることができ、話者同士の円滑なコミュニケーションを可能にする。
【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声で出力する音声出力部と、前記翻訳内容のテキストを、第１の寸法と該第１の寸法よりも大きい第２の寸法とで切り替えて表示する表示部とを備える。これにより、発話環境に影響を受けることなく、音声翻訳後のフレーズを確実に相手に伝えることが可能となる。
【選択図】図４

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

例えば特許文献１には、互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と顧客（海外からの観光客等）との会話を行うための音声翻訳技術が記載されている。また、例えば非特許文献１には、斯様な音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションが記載されている。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲコンソーシアムホームページ［平成２７年１２月１５日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/app_ja/app.html＞

かかる音声翻訳装置や音声翻訳アプリケーションでは、一般に、話者の発話音声の内容を相手の言語に機械翻訳し、音声合成技術を用いてその翻訳結果が音声で出力される。しかし、例えば屋外や喧騒な場所等の音声を聞き取りにくい発話環境では、音声翻訳装置や情報端末の音声ボリュームを上げたとしても、音声出力された翻訳結果（翻訳後のフレーズ）を相手に伝えることができないことがある。その結果、会話が成立しなかったりコミュニケーションを十分に取れなかったりといった事態が生じ得る。

そこで、本発明は、かかる事情に鑑みてなされたものであり、出力されるフレーズ音声を聞き取りにくい発話環境であっても、翻訳された内容（対訳）を確実に相手に伝えることができ、これにより、互いの言語を理解できない人同士の会話における円滑なコミュニケーションを実現可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための音声入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、その翻訳内容（対訳）を音声で出力する音声出力部と、その翻訳内容のテキストを、第１のサイズとその第１のサイズ（テキストのフォントサイズ、太さ等；以下同様）よりも大きい第２のサイズとで切り替えて表示する表示部とを備える。

また、表示部が、ユーザの指示により、翻訳内容のテキストの第１のサイズと第２のサイズを切り替えるようにしてもよい。具体的には、表示部が例えば情報端末等のディスプレイである場合、そこに第１のサイズで表示された翻訳内容のテキスト（対訳）をユーザがタップした場合に、或いは、ユーザが情報端末を振るように動かした場合に、同じ内容のテキストを第２のサイズで表示し直す例が挙げられる。

或いは、表示部が、音声翻訳装置の外部環境に応じて、翻訳内容のテキストの第１のサイズと第２のサイズを切り替えるようにしてもよい。具体的には、音声翻訳装置の外部の騒音レベルを計測し、その騒音レベルが所定値を超えている場合には、ユーザの指示の有無に拘わらず、第１のサイズで一旦表示された翻訳内容のテキストを第２のサイズで表示し直したり、第１のサイズで一旦表示することなく、最初から第２のサイズで表示したりといった例が挙げられる。

また、本発明の一態様による音声翻訳方法は、音声入力部、翻訳部、音声出力部、及び表示部を備える音声翻訳装置を用い、ユーザの音声を入力するステップと、入力音声の内容を異なる言語の内容に翻訳するステップと、翻訳内容（対訳）を音声で出力するステップと、その翻訳内容のテキストを、第１のサイズとその第１のサイズよりも大きい第２のサイズとで切り替えて表示するステップとを含む。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザの音声を入力するための音声入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容（対訳）を音声で出力する音声出力部と、その翻訳内容のテキストを、第１のサイズとその第１のサイズよりも大きい第２のサイズとで切り替えて表示する表示部として機能させる。

本発明によれば、ユーザが発話した音声が他の言語に翻訳され、その翻訳内容（翻訳結果）が音声で出力されるだけではなく、テキストでも表示される。そのとき、翻訳内容のテキストが第１のサイズとそれよりも大きい第２のサイズで切り替えて表示されるので、その出力音声が聞こえない、又は、聞こえにくかったとしても、その翻訳内容を確実に相手に伝えることができる。その結果、発話環境に影響を受けることなく、互いの言語を理解できない人同士の会話における円滑なコミュニケーションが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるユーザ者装置（情報端末）の構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるサーバの構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｃ）は、情報端末における表示画面の遷移の一例を示す平面図である。（Ａ）乃至（Ｃ）は、情報端末における表示画面の遷移の一例を示す平面図である。情報端末における表示画面の一例を示す平面図である。本発明による音声翻訳装置における処理の流れ（一部）の他の一例を示すフローチャートである。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザ（発話者、他の発話者）が使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３（例えばマイクとスピーカーが別体のものも一体のものも含む）、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて会話の相手方に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられ、好ましくは各種方式のタッチパネルが採用されたものを含む。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数の、プログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。

プログラムＰ１０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、後述する音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。

以上のとおり構成された音声翻訳装置１００における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。

（第１実施形態）
図４は、音声翻訳装置１００における処理の流れ（一部）の一例を示すフローチャートである。また、図５（Ａ）乃至（Ｃ）及び図６（Ａ）乃至（Ｃ）は、情報端末１０における表示画面の遷移の一例を示す平面図である。ここでは、情報端末１０のユーザが日本語を話す飲食店の店員であり、会話の相手が英語を話す顧客である場合の会話（すなわち、入力言語が日本語であり、翻訳言語が英語である会話）を想定する（但し、これに限定されない）。

まず、ユーザ（店員）が、情報端末１０の表示デバイス１６に表示されている音声翻訳アプリケーションソフトのアイコン（図示せず）をタップして当該アプリケーションを起動する（ステップＳＵ１）と、表示デバイス１６に、顧客の言語選択画面が表示される（図５（Ａ）；ステップＳＪ１）。この言語選択画面には、顧客に言語を尋ねる旨の日本語のテキストＴ２１、その旨の英語のテキストＴ２２、及び、想定される複数の代表的な言語（ここでも、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン６１が表示される。

このとき、日本語のテキストＴ２１及び英語のテキストＴ２２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、例えば異なる色の領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、ユーザは日本語のテキストＴ２１を確認し易い一方、顧客は、英語のテキストＴ２２を確認し易くなる。また、テキストＴ２１とテキストＴ２２が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。

それから、ユーザは、図５（Ａ）の言語選択画面に表示されたテキストＴ２１を顧客に提示し、顧客に英語（Ｅｎｇｌｉｓｈ）のボタンをタップしてもらうことで、顧客の言語が選択される（ステップＳＫ１）。これにより、表示デバイスには、ホーム画面として、日本語と英語の音声入力の待機画面が表示される（図５（Ｂ）；ステップＳＪ２）。このホーム画面には、ユーザと顧客の言語の何れを発話するかを問うテキストＴ２３、並びに、日本語の音声入力を行うための日本語入力ボタン６２ａ及び英語の音声入力を行うための英語入力ボタン６２ｂが表示される。また、このホーム画面には、入力内容の履歴を表示するための履歴表示ボタン６３、言語選択画面に戻って顧客の言語を切り替える（言語選択をやり直す）ための言語選択ボタン６４、及び当該アプリケーションソフトの各種設定を行うための設定ボタン６５も表示される。

次に、図５（Ｂ）のホーム画面において、ユーザ（店員）が日本語入力ボタン６２ａをタップして日本語の音声入力を選択する（ステップＳＵ２）と、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図５（Ｃ）；ステップＳＪ３）。この音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストＴ２４、及び、音声入力の待機状態であることを示すマイク図案６６が表示される。なお、その前の画面である図５（Ｂ）において日本語音声入力が選択されたことを示すため、図５（Ｃ）の音声入力画面には、日本語入力ボタン６２ａが表示されない。また、英語入力ボタン６２ｂは、マイク図案６６の背面に、その一部が隠れるように、且つ例えば淡い色彩で表示される（後記の図６（Ａ）及び図６（Ｂ）において同様）。

また、この音声入力画面の下部には、キャンセルボタン６７が表示され、これをタップすることにより、ホーム画面である音声入力の待機画面（図５（Ｂ））へ戻って音声入力をやり直すことができる（後記の図６（Ａ）及び図６（Ｂ）において同様）。この状態で、ユーザが顧客への伝達事項等を日本語で音声入力する（ステップＳＵ３）と、テキストＴ２４とともに、声量の大小を模式的に且つ動的に示す多重円形図案６８が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる（ステップＳＪ４）。

それから、ユーザによる発話が終了し、例えば音声入力が一定期間ないことを情報端末１０のプロセッサ１１が検知すると、プロセッサ１１は、ユーザによる発話内容の受け付けを終了する。次いで、プロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「音声入力部」として機能する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。

次いで、プロセッサ２１は、認識された音声の「読み」（文字）に基づいてテキスト出力用のテキスト信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。このとき、プロセッサ２１は、認識された音声そのものの内容に基づくテキスト信号と、予め記憶資源２３に記憶されている日本語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それに基づくテキスト信号を生成する。そして、通信インターフェイス１４を通してそのテキスト信号を受信した情報端末１０のプロセッサ１１は、ユーザによって入力された日本語の発話内容の認識結果として、認識された音声の内容である日本語のテキストＴ２５を表示する（図６（Ａ）；ステップＳＪ５）。

さらに、プロセッサ２１は、認識された音声の「読み」（文字）を他の言語に翻訳する多言語翻訳処理へ移行する。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換し、記憶資源２３からそれに対応する英語の会話コーパスを選定する。その際、表示デバイス１６には、翻訳中であることを示す日本語のテキストＴ２６、及び、翻訳中であることを示す円形図案６９を含む待機画面が表示される（図６（Ｂ）；ステップＳＪ６）。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。

次に、プロセッサ２１は、記憶資源２３から、音声合成に必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等に対応する英語の会話コーパスを自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

これらの多言語翻訳処理及び音声合成処理が完了すると、プロセッサ２１は、翻訳結果（翻訳内容）である英語の会話コーパスに基づいてテキスト表示用のテキスト信号を生成し、また、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。そして、通信インターフェイス１４を通して、それらのテキスト信号及び音声信号を受信した情報端末１０のプロセッサ１１は、テキストＴ２５に加え、それに対応する日本語の会話コーパスのテキストＴ２７（ここではテキストＴ２５と同じであるが、これに限定されない）、及びその翻訳結果である英語の会話コーパスのテキストＴ２８を会話画面として表示する（図６（Ｃ））。また、同時に、プロセッサ１１は、音声入出力デバイス１３を用いて、翻訳結果である英語のテキストＴ２８の内容（翻訳内容）を音声で出力する（読み上げる）（ステップＳＪ７）。

このとき、図６（Ｃ）の如く、日本語のテキストＴ２５，Ｔ２７と英語のテキストＴ２８も、情報端末１０の表示デバイス１６の画面において、例えば異なる色の領域や線分によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザが日本語のテキストＴ２５，Ｔ２７（入力された内容）を確認し易い一方、顧客は、英語のテキストＴ２８（翻訳された内容）を確認し易くなる。また、それらのテキストＴ２５，Ｔ２７とテキストＴ２８が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。

なお、図６（Ｃ）の会話画面に表示される音声出力ボタン７０をタップすることにより、音声出力が繰り返される。また、この会話画面には、その時点での翻訳を終了する旨のチェックボタン７１が表示され、これをタップすることにより、翻訳処理を終了してホーム画面（図５（Ｂ））に戻ることができる。

ここで、ユーザと顧客の会話が、屋外や喧騒な場所といった音声を聞き取りにくい発話環境で行われている場合、情報端末１０から音声出力される翻訳内容が顧客に伝わらない可能性がある。この場合、本実施形態では、ユーザが、図６（Ｃ）の会話画面における翻訳結果である英語のテキストＴ２８が表示された画面領域をタップする、又は、情報端末１０をシェイクする（振る）こと（ステップＳＵ４）により、そのテキストＴ２８を拡大して表示させることができる。

具体的には、情報端末１０のプロセッサ１１は、ユーザがそのようにしてテキストＴ２８をタップ又は情報端末１０をシェイクして拡大表示を指示したか否かを判断する（ステップＳＪ８）。拡大表示の指示があった場合（ステップＳＪ８においてＹｅｓ）、プロセッサ１１は、テキストＴ２８に代えて、テキストＴ２８と同じ内容のフレーズで且つフォントサイズがテキストＴ２８よりも大きいテキストＴ２８Ｌを、表示デバイス１６に表示する（情報端末１０における表示画面の一例を示す平面図である図７；ステップＳＪ９）。このとき、図７に示す如く、図６（Ｃ）に表示していた日本語コーパスのテキストＴ２７は、画面上から一旦消去してもよい。ユーザは、このようにして拡大表示された英語のテキストＴ２８Ｌを顧客に提示することにより、その内容を顧客に伝達することができる。このとおり、テキストＴ２８の大きさが「第１のサイズ」に相当し、テキストＴ２８Ｌの大きさが「第２のサイズ」に相当する。

次に、そうして顧客がユーザの質問事項を理解することができた場合、今度は、顧客の音声の入力、認識、翻訳、及び音声合成といった音声処理が行われる（ステップＳＪ１０）。この顧客の音声処理では、まず、図６（Ｃ）に表示されているチェックボタン７１をタップしてホーム画面（図５（Ｂ））を表示する。次に、そのホーム画面において、英語入力ボタン６２ｂをタップして顧客による英語の音声入力を選択する。この後の処理は、発話者がユーザから顧客に代わり、日本語の音声入力が英語の音声入力に切り替わり、且つ、英語の音声及びテキスト出力が日本語による音声及びテキスト出力に代わること以外は、図５（Ｃ）、図６（Ａ）〜（Ｃ）、及び図７で説明した処理と基本的に同等であるので、ここでの詳細な説明は省略する。

そして、ユーザと顧客の会話が完了した場合、一連の音声翻訳処理を終了する（ステップＳＪ１１）。なお、ステップＳＪ７で音声出力された翻訳内容を顧客が聞き取って理解することができ、ユーザによるテキストＴ２８の拡大指示がなかった場合（ステップＳＪ８においてＮｏ）には、図７（ステップＳＪ９）に示す画面表示はスキップされ、顧客の音声処理に移行する。

（第２実施形態）
図８は、音声翻訳装置１００における処理の流れ（一部）の他の一例を示すフローチャートである。第２実施形態における音声翻訳処理は、図４に示すステップＳＵ４が実行されず、且つ、ステップＳＪ８に代えてステップＳＪ１２を実行すること以外は、第１実施形態における音声翻訳処理と同等である。よって、ここでは、ステップＳＪ１２の処理について説明し、他の処理についての詳細な説明は省略する。

すなわち、ユーザの発話内容の翻訳結果が音声及びテキストで出力された（ステップＳＪ７）後、情報端末１０のプロセッサ１１は、まず、例えば音声入出力デバイス１３のマイクを用いて、情報端末１０周辺の外部環境音（騒音）をサンプリングして集音する。プロセッサ１１は、測定された騒音量を数値化し、情報端末１０の外部騒音レベルＮｇを決定する。なお、外部騒音レベルＮｇの単位としては、特に制限されず、例えば騒音量の単位である（１）音圧（物理量そのもの；μＰａ等）、（２）物理量を対数で表した相対的な量（音圧レベル；ｄＢ等）、及び（３）人の聴覚に基づいて補正した騒音の相対的な量（音の大きさレベル；ｐｈｏｎ等）の何れかを用いることができる。また、サンプリング時間も適宜設定することができ、極力会話を妨げない時間が好ましく、例えば音声翻訳処理(ステップＳＪ６)の開始直後から数秒〜１０秒程度が挙げられる。

そして、プロセッサ１１は、外部騒音レベルＮｇが、音声が聞き取りにくいレベルとして予め設定された基準騒音レベルＮｔｈ（例えば８０ｄＢ等）を超えているか否かを判定（ステップＳＪ１２）し、Ｎｇ＞Ｎｔｈである場合（ステップＳＪ１２においてＹｅｓ）、前述したテキストの拡大表示（ステップＳＪ９）を実行する。一方、Ｎｇ≦Ｎｔｈである場合（ステップＳＪ１２においてＮｏ）、テキストの拡大表示（ステップＳＪ９）をスキップして顧客の音声処理（ステップＳＪ１０）へと移行する。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザが発話した音声が顧客の言語に翻訳され、その翻訳内容（翻訳結果）が音声とテキストＴ２８で出力される。このとき、ユーザと顧客の発話環境が、屋外や喧騒な場所といった音声を聞き取りにくい発話環境であり、翻訳内容が顧客に伝わらなかった場合、或いは、伝わらないおそれがある場合、ユーザの指示（ステップＳＵ４）により、或いは、情報端末１０の外部環境の騒音レベルに応じて、より大きいサイズのテキストＴ２８Ｌで翻訳内容を再表示させる（ステップＳＪ９）ことができる。したがって、音声を聞き取りにくい発話環境であっても、翻訳内容を確実に相手に伝えることができ、これにより、発話環境に影響を受けることなく（依存せず）、互いの言語を理解できない人同士の会話における円滑なコミュニケーションが可能となる。

また、テキストＴ２８の表示サイズをテキストＴ２８Ｌの表示サイズへ変更するためのユーザの指示が、表示デバイス１６の画面をタップしたり、情報端末１０をシェイクしたりといった簡易な操作であるので、発話者に過度の負担をかけることなく、また、円滑な会話の進行が妨げられることを抑止することができる。

或いは、音声を聞き取りにくい発話環境の場合、ユーザの指示に代えて、プロセッサ１１による騒音レベルの比較判定（ステップＳＪ１２）を実行することにより、テキストＴ２８よりも大きいサイズのテキストＴ２８Ｌによる翻訳内容の再表示をさせる（ステップＳＪ９）こともできる。この場合、発話者の負担を軽減することができ、利便性を向上させて、会話による発話者のコミュニケーションを更に円滑に行うことができる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースのデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

さらに、図８に示すステップＳＪ１２における判定がＹｅｓの場合でもＮｏの場合であっても、その処理の後に、図４に示すステップＳＪ８を実行してもよい、すなわち、翻訳内容のテキストのサイズを切り替える際に、ユーザによる指示による手順と、情報端末１０による騒音レベルの比較判定により手順を組み合わせてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、音声を聞き取りにくい発話環境であっても、音声翻訳後のフレーズを確実に相手に伝えることができ、話者同士の円滑なコミュニケーションを実現することができるので、例えば、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
６１言語ボタン
６２ａ日本語入力ボタン
６２ｂ英語入力ボタン
６３履歴表示ボタン
６４言語選択ボタン
６５設定ボタン
６６マイク図案
６７キャンセルボタン
６８多重円形図案
６９円形図案
７０音声出力ボタン
７１チェックボタン
１００音声翻訳装置
Ｄ２０データベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｎｇ外部騒音レベル
Ｎｔｈ基準騒音レベル
Ｐ１０プログラム
Ｐ２０プログラム
Ｔ２１〜Ｔ２７テキスト
Ｔ２８テキスト（翻訳内容；第１のサイズ）
Ｔ２８Ｌテキスト（翻訳内容；第２のサイズ）

Claims

ユーザの音声を入力するための音声入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声で出力する音声出力部と、
前記翻訳内容のテキストを、第１のサイズと該第１のサイズよりも大きい第２のサイズとで切り替えて表示する表示部と、
を備える音声翻訳装置。
前記表示部は、前記ユーザの指示により、前記第１のサイズと前記第２のサイズを切り替える、
請求項１記載の音声翻訳装置。
前記表示部は、当該音声翻訳装置の外部環境に応じて、前記第１のサイズと前記第２のサイズを切り替える、
請求項１記載の音声翻訳装置。
音声入力部、翻訳部、音声出力部、及び表示部を備える音声翻訳装置を用い、
ユーザの音声を入力するステップと、
入力音声の内容を異なる言語の内容に翻訳するステップと、
翻訳内容を音声で出力するステップと、
前記翻訳内容のテキストを、第１のサイズと該第１のサイズよりも大きい第２のサイズとで切り替えて表示するステップと、
を含む音声翻訳方法。
コンピュータを、
ユーザの音声を入力するための音声入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声で出力する音声出力部と、
前記翻訳内容のテキストを、第１のサイズと該第１のサイズよりも大きい第２のサイズとで切り替えて表示する表示部と、
して機能させる音声翻訳プログラム。