JP6290479B1

JP6290479B1 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP6290479B1
Application number: JP2017039760A
Authority: JP
Inventors: 翔大渡辺
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2018-03-07
Anticipated expiration: 2037-03-02
Also published as: JP2018147112A

Abstract

【課題】ユーザ（話し手又は聞き手）の感情を考慮した音声認識処理及び翻訳処理を実行することにより、ユーザの真意や本音を聞き手に伝えることができ、その結果、ユーザ同士（話し手と聞き手）のコミュニケーションの向上を図る。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、該ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部とを備える。【選択図】図５

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店舗の店員と外国人客との会話を可能ならしめるべく、話し手の発話音声をテキスト化し、そのテキストの内容を聞き手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１）。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲホームページ［平成２９年２月２２日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/qws/slot/u50227/index.html＞

一般に、かかる従来の音声翻訳技術では、発話された音声の認識処理を行ってその音声の読み（文字）を取得し、辞書を用いてその文字を他の言語へ翻訳する。この場合、音声認識処理には、予め構築された音響モデルや言語モデルが適用され、また、翻訳処理には、予め用意された各言語のコーパス等のデータベースが用いられる。しかし、このような音声認識処理及び翻訳処理では、会話の内容によっては、音声翻訳を通して話し手の真意や本音が伝わらず、誤解が生じてしまうことにより両者の十分なコミュニケーションがとれないといった不都合が生じる場合があった。

具体的には、聞き手が不快に感じないように、或いは、聞き手を困惑させないように、話し手が婉曲的な表現を用いること、すなわち、話し手が、否定的又は不都合な含意を有する語句を含む内容をそのまま聞き手に伝えることを避けるために、そのような語句を直接用いずに他の語句に置き換えて発話することが考えられる。これに対し、従来の翻訳技術では、かかる婉曲な表現を踏まえた音声認識処理と翻訳処理を行わず、発話された音声の内容そのものの翻訳結果を取得し、聞き手に伝えることが想定される。その結果、話し手が意図した本来の否定的又は不都合な含意が聞き手に伝わらないおそれがある。

また、例えば、話し手と聞き手の親密度が高い場合、その親密さと好意的な感情を込めた内容を聞き手に伝えるために、話し手は、敢えて、悪い意味、無礼な意味、不都合な意味等を有する語句や表現（言い方）を使用し、場合によっては、話し手の真意や本音とは反対の意味を示す内容を発話することがあり得る。これに対し、従来の翻訳技術では、そのような話し手の真意や本音を考慮した上で音声認識処理と翻訳処理を行うわけではなく、発話された音声の内容そのものの翻訳結果を取得し、聞き手に伝えることが想定される。その結果、話し手の真意や本音が聞き手に伝わらないおそれがある。

そこで、本発明は、かかる事情に鑑みてなされたものであり、ユーザ（話し手又は聞き手）の感情を考慮した音声認識処理及び翻訳処理を実行することにより、ユーザの真意や本音を聞き手に伝えることができ、その結果、ユーザ同士（話し手と聞き手）のコミュニケーションの向上を図ることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部とを備える。

より具体的には、出力部は、感情文字又は感情記号を表示させるためのボタンを、入力された音声の認識結果が表示された画面に表示するように構成しても好適である。

さらには、出力部は、選択された感情文字又は感情記号を、異なる言語に翻訳された内容が表示された画面に表示するように構成しても好適である。

また、所定のフレーズと感情文字又は感情記号との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶する記憶部を備え、翻訳部は、感情文字又は感情記号が入力されたときに、入力された音声に含まれるフレーズと該感情文字又は該感情記号との組み合わせが記憶部に記憶されているか否かを判定し、その組み合わせが記憶されているときに、その組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳を行うようにしてもよい。なお、「フレーズ」には、文、節、句、語、及び数字が含まれるものとする。

或いは、所定のフレーズと感情文字又は感情記号との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶する記憶部を備え、出力部は、入力された音声に含まれるフレーズが、所定のフレーズに含まれるときに、その所定のフレーズと感情文字又は感情記号との組み合わせの一覧を、ユーザが選択可能なように表示し、翻訳部は、選択された組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳を行うようにしてもよい。

また、本発明の一態様による音声翻訳方法は、入力部、認識部、提示部、翻訳部、及び出力部を備える音声翻訳装置を用い、入力部が、ユーザの音声を入力するステップと、認識部が、入力された音声を認識するステップと、提示部が、ユーザが音声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示するステップと、翻訳部が、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳するステップと、出力部が、異なる言語に翻訳された内容を、音声及び／又はテキストで出力するステップとを含む。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザの音声を入力するための入力部と、入力された音声を認識する認識部と、ユーザが前声を入力する前、入力している間、又は入力した後に、ユーザの感情を表現するための感情文字又は感情記号を、ユーザが選択可能なように提示する提示部と、認識された音声の内容と選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部として機能させる。

本発明によれば、ユーザ（話し手又は聞き手）による音声の入力とともに、そのユーザの感情を表現するための感情文字又は感情記号を選択し、認識された入力音声の内容だけでなく、それとともに選択された感情文字又は感情記号に基づいて、認識された音声の内容を異なる言語の内容に翻訳して出力するので、言わば、ユーザの感情を考慮した翻訳処理を実行することにより、話し手の真意や本音を聞き手に伝えることができ、その結果、ユーザ同士（話し手と聞き手）のコミュニケーションの向上を図ることが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザが使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザ（話し手と聞き手）に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、会話の一方のユーザ（話し手）が会話の他方のユーザ（聞き手）へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、後述するフレーズデータ等も記憶されている。

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、音声データベース、ユーザに関する情報を管理するための管理用データベース、後述する階層構造を有するフレーズデータベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

（通常の音声翻訳による会話）
以上のとおり構成された音声翻訳装置１００における処理操作及び動作の一例について、以下に説明する。ここでは、ユーザ同士（話し手と聞き手）の会話及び／又は会話準備における通常の音声翻訳処理の一例について説明する。図２は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図３（Ａ）乃至（Ｄ）及び図４（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者の言語が日本語であり、他方の話者の言語が中国語である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

まず、ユーザ（話し手）が当該アプリケーションを起動する（ステップＳＵ１）と、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、情報端末１０の表示デバイス１６に、ユーザ（聞き手）の言語を選択するための言語選択画面が表示される（図３（Ａ）；ステップＳＪ１）。この言語選択画面には、聞き手に言語を尋ねることを話し手に促すための日本語のテキストＴ１、聞き手に言語を尋ねる旨の英語のテキストＴ２、及び、想定される複数の代表的な言語（ここでは、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン３１が表示される。さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンＢ１も表示される。

このとき、図３（Ａ）に示す如く、日本語のテキストＴ１及び英語のテキストＴ２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、話し手と聞き手が対面している状態で会話を行う場合、話し手は日本語のテキストＴ１を確認し易い一方、聞き手は、英語のテキストＴ２を確認し易くなる。また、日本語のテキストＴ１と英語のテキストＴ２が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。

話し手がその言語選択画面における英語のテキストＴ２の表示を聞き手に提示し、聞き手に「中国語」のボタンをタップしてもらうことにより、又は、聞き手が自ら、聞き手の言語である「中国語」を選択することができる。こうして聞き手の言語が選択されると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、ホーム画面として、日本語と中国語の音声入力の待機画面が表示デバイス１６に表示される（図３（Ｂ）；ステップＳＪ２）。この音声入力待機画面には、日本語の音声入力を行うためのマイクを図案化した入力ボタン３２ａ及び中国語の音声入力を行うためのマイクを図案化した入力ボタン３２ｂが表示される。また、入力ボタン３２ａ，３２ｂよりも画面の縁側には、それぞれ、日本語を中国語に変換することを示す日本語のテキストＴ３、及び、中国語を日本語に変換することを示す中国語のテキストＴ４が表示される。さらに、入力ボタン３２ａ，３２ｂよりも画面の中央側には、それぞれ、マイクを図案化した入力ボタン３２ａ，３２ｂをタップして会話を始めることを促す日本語のテキストＴ５及び中国語のテキストＴ６が表示される。

またさらに、この音声入力待機画面には、ユーザが予め登録しておいたフレーズ群を表示させるための登録フレーズボタンＢ２、音声入力に代えてテキストで入力するためのテキスト入力ボタンＢ３、及び当該アプリケーションソフトの各種設定を行うための設定ボタンＢ４も表示される。

次に、図３（Ｂ）に示す音声入力待機画面において、ユーザ（話し手）が日本語の入力ボタン３２ａをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図３（Ｃ））。この音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末１０のマイクに向かって音声入力を行うように促す日本語のテキストＴ６、相手が音声入力中であることを示す中国語のテキストＴ７、マイクを図案化した入力ボタン３２ａ、及び、その入力ボタン３２ａを囲うような多重円形図案３３が表示される。この多重円形図案３３は、音声入力状態にあることを示し、声量の大小を模式的に且つ動的に表すように、声量に応じて表示される円部分の大きさが変化する。これにより、音声入力レベルがユーザへ視覚的にフィードバックされる。

さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。また、入力ボタン３２ａの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための日本語のテキストＴ８が表示される。

この状態で、話し手が聞き手への伝達事項等を発話する（ステップＳＵ２）と、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

それから、発話が終了して日本語のテキストＴ８がタップ（タッチ）されると、プロセッサ１１は、発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「音声認識サーバ」としても機能する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３（記憶部）に（必要に応じて適宜のデータベースに）記憶する。

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。ここでは、聞き手の言語として中国語が選択されているので、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、中国語辞書、日本語／中国語対訳辞書、日本語／中国語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する中国語を抽出し、それらを中国語の文法に従って並び替えて自然な中国語の句、節、文等へと変換する。このとおり、プロセッサ２１は、入力音声の内容を第１言語（日本語）とは異なる第２言語（中国語）の内容に翻訳する「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの日本語及び中国語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

また、この翻訳処理中に、情報端末１０のプロセッサ１１は、図３（Ｄ）に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストＴ９及び中国語のテキストＴ１０、並びに、翻訳処理中であることを表すための円弧の一部が回動するように表示される環状図案３４も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、中国語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である中国語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、中国語による翻訳結果（対応する中国語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、情報端末１０へ送信する。そのテキスト信号を受信したプロセッサ１１は、音声認識した入力音声の内容を示す日本語のテキストＴ１１と、その中国語による翻訳結果（対訳）のテキストＴ１２を、図４（Ａ）に示す翻訳結果表示画面に表示する。

また、この翻訳結果表示画面には、図３（Ｂ）のホーム画面にも表示されたマイクを図案化した日本語の入力ボタン３２ａ及び中国語の入力ボタン３２ｂが表示され、それらの近傍には、それぞれ、日本語及び中国語であることを示すテキストＴ１３，Ｔ１４が表示される。

さらに、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末１０へ送信する。その音声信号を受信したプロセッサ１１は、テキストＴ１３，Ｔ１４の表示とともに、音声入出力デバイス１３（出力部）を用いて、中国語のテキストＴ１２の内容の音声を出力する（読み上げる）（ステップＳＪ７）。

さらに、テキストＴ１１の近傍には、音声入力に代えてテキストで入力するためのテキスト入力ボタンＢ５が表示され、画面下部には、図３（Ｂ）のホーム画面へ戻るためのチェックボタンＢ６、及び、翻訳結果の誤りを報告するための誤訳通知ボタンＢ７が表示される。またさらに、この翻訳結果表示画面には、ユーザ（話し手と聞き手）の感情を表現するための感情文字又は感情記号（以下まとめて「感情文字」という）を表示させるための表示ボタンＢ８も表示される。

ここで、テキスト入力ボタンＢ５をタップすると、図４（Ｂ）に示すテキスト入力画面が表示される。このテキスト入力画面には、図４（Ａ）に表示された日本語のテキストＴ１１が淡いグレースケールで表示される。日本語のキーボードＫからテキスト入力を開始すると、テキストＴ１１が消去され、その場所に新たに入力されたテキストの内容が表示される。また、テキスト入力画面の上部には、入力したテキストをキャンセルして消去するための消去ボタンＢ９が表示され、キーボードＫの直上には、入力したテキストを翻訳するための翻訳ボタンＢ１０が表示される。この翻訳ボタンＢ１０がタップされると、先述の翻訳処理と音声合成処理が行われ、図４（Ａ）に示す翻訳結果表示画面と同様の画面が表示される。

その後、聞き手が回答する場合、図４（Ａ）の翻訳結果表示画面に表示された中国語の入力ボタン３２ｂをタップして中国語の音声入力を選択すると、聞き手の中国語による発話内容を受け付ける音声入力画面となる（図４（Ｃ））。この音声入力画面が表示されると、図３（Ｃ）に示す音声入力画面と同様に、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末１０のマイクに向かって音声入力を行うように促す中国語のテキストＴ１５、相手が音声入力中であることを示す日本語のテキストＴ１６、マイクを図案化した入力ボタン３２ｂ、及び、その入力ボタン３２ｂを囲うような多重円形図案３３が表示される。

さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。また、入力ボタン３２ｂの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための中国語のテキストＴ１７が表示される。

この状態で、聞き手が話し手への回答事項等を発話する（ステップＳＵ２）と、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。それから、発話が終了して中国語のテキストＴ１４がタップ（タッチ）されると、プロセッサ１１は、発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、中国語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３に（必要に応じて適宜のデータベースに）記憶する。

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、中国語文字コーパス、中国語辞書、日本語辞書、中国語／日本語対訳辞書、中国語／日本語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて中国語の句、節、文等へ変換し、その変換結果に対応する日本語を抽出し、それらを日本語の文法に従って並び替えて自然な日本語の句、節、文等へと変換する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの中国御及び日本語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

また、この翻訳処理中に、情報端末１０のプロセッサ１１は、図４（Ｄ）に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストＴ９及び中国語のテキストＴ１０、並びに、翻訳処理中であることを表すため円弧の一部が回動するように表示される環状図案３４も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。

次いで、プロセッサ２１は、日本語による翻訳結果（対応する日本語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、情報端末１０へ送信する。そのテキスト信号を受信したプロセッサ１１は、音声認識した入力音声の内容を示す中国語のテキストと、その日本語による翻訳結果（対訳）のテキストを、図４（Ａ）に示す翻訳結果表示画面と同様に表示する。

（ユーザの感情を考慮した音声翻訳による会話）
次に、ユーザ同士（話し手と聞き手）の会話及び／又は会話準備において、ユーザが自分の感情を表現するための感情文字又は感情記号を選択し、その感情を考慮して音声翻訳を行う場合の処理操作及び動作の一例について、以下に説明する。図５は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図６（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者の言語が日本語であり、他方の話者の言語が英語である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

ここでの処理手順は、図２に示す多言語翻訳（ステップＳＪ５）と音声合成（ステップＳＪ６）の間に、感情文字の選択（ステップＳＵ３）、及び、その選択された感情文字で表現されるユーザの感情を考慮した多言語翻訳、つまり入力音声の内容と感情文字に基づく多言語翻訳（ステップＳＪ５０）を実施すること以外は、図２に示す「通常の音声翻訳による会話」における処理手順と同様である。

すなわち、ユーザ（話し手）が当該アプリケーションを起動して（ステップＳＵ１）、ユーザ（聞き手）の言語を選択するための言語選択画面を表示し（図３（Ａ）；ステップＳＪ１）、さらに、聞き手の言語を選択して日本語と英語の音声入力待機画面を表示デバイス１６に表示する（図３（Ｂ）と同様；ステップＳＪ２）。それから、話し手が日本語の入力ボタン３２ａをタップして聞き手への伝達事項等を発話して（ステップＳＵ２）、音声入力を行い（ステップＳＪ３）、入力された音声の音声認識処理を実施した後（ステップＳＪ４）、一旦、多言語翻訳処理を実行する（ステップＳＪ５）。

ここで、一例として、図４（Ａ）に示すフレーズと異なり、聞き手が「君は本当に馬鹿だな」というフレーズを発話した場合の英語への翻訳結果を図６（Ａ）に示す。図６（Ａ）は、図４（Ａ）と同様の翻訳結果表示画面であり、音声認識した入力音声の内容を示す日本語のテキストＴ１８と、その英語による翻訳結果（対訳）のテキストＴ１９が表示される。また、この翻訳結果表示画面におけるその他の各種ボタンＢ５，Ｂ６，Ｂ７，Ｂ８は、図４（Ａ）における翻訳結果表示画面に表示されるものと同じである。

この際、図６（Ａ）における翻訳結果表示画面に表示された日本語のテキストＴ１８としては、発話された内容である「君は本当に馬鹿だな」と表示され、その英語による翻訳結果のテキストＴ１９には、その本来のフレーズどおりの意味である例えば「Ｙｏｕａｒｅｓｏｓｔｕｐｉｄ．」と表示される。ところで、話し手は、聞き手への親しみを込めて、敢えて失礼な言い方として「君は本当に馬鹿だな」という表現を用いる場合があり得るが、この場合に、その本来のフレーズどおりの意味である「Ｙｏｕａｒｅｓｏｓｔｕｐｉｄ．」と翻訳してしまうと、話し手の真意や本音が聞き手に伝わらないばかりか、誤解を招いてコミュニケーションを阻害してしまうおそれがある。

そこで、かかる場合に、話し手は、図６（Ａ）に示す翻訳結果表示画面に表示されているユーザの感情を表現する感情文字を表示させるための表示ボタンＢ８をタップして、図６（Ｂ）に示す感情文字入出力画面を表示させることができる。表示ボタンＢ８がタップされると、プロセッサ１１，２１は、感情文字入出力画面の下部に、感情文字キーボードＥを表示し、各種ジャンルの絵文字、顔文字、アスキーアート等（ここでは、絵文字のみ表示）を、ユーザ（話し手）が適宜選択できるような一覧表示によって提示する。このとおり、プロセッサ１１，２１が、「提示部」として機能する。ユーザ（話し手）は、各種ジャンルのタブをタップする等して一覧表示を切り替え、所望の感情文字をタップして選択入力することができる。例えば、話し手が、親しみを込める意味で、ハート型の目を有する顔マークＥ１を選択すると、感情文字キーボードＥの上方に、入力音声の認識内容である日本語のテキストＴ１８（「君は本当に馬鹿だな」）とともに、その選択された顔マークＥ１が表示される。

ここで、サーバ２０の記憶資源２３には、複数の所定の日本語のフレーズの各々と感情文字との組み合わせが保存（記憶）されており、さらに、それらの各フレーズと感情文字の組み合わせについて、対応する英語による内容が関連付けられて記憶されている。

本実施形態の例では、例えば、「ばか・だ」というフレーズについて、図６（Ｂ）に示す顔マークＥ１、及び、その顔マークＥ１と同種のハート型図形が含まれている顔マークや、笑っている系の顔マークとの各種組み合わせに対して、「バカ・だ」という本来の意味の「ｓｔｕｐｉｄ」とはほぼ反対の意味を有する「ｃｕｔｅ」や「ｌｏｖｅｌｙ」等といった訳文を記憶しておく。一方、「ばか・だ」というフレーズについて、図６（Ｂ）に示す顔マークＥ１の如く、しかめ面や泣いている表情の顔マーク、及び、怒っている表情の顔マークとの各種組み合わせに対しては、「バカ・だ」という本来の意味の「ｓｔｕｐｉｄ」や「ｓｉｌｌｙ」といった訳文を記憶しておく。

そして、サーバ２０のプロセッサ２１は、感情文字キーボードＥから感情文字が入力された場合（ステップＳＵ３）、入力された音声を解析して認識されるその音声の内容に含まれるフレーズ（「馬鹿・だ」）と該感情文字の組み合わせが記憶資源２３に記憶されているか否かを判定する。上記の例では、話し手が、「君は本当に馬鹿だな」という音声入力とともに、顔マークＥ１を選択して入力すると、プロセッサ２１は、その音声に含まれるフレーズの組み合わせの一つである「馬鹿・だ」と顔マークＥ１の組み合わせが記憶資源に２３に予め記憶されていると判定する。この場合、プロセッサ２１は、「馬鹿・だ」と顔マークＥ１の組み合わせに関連付けて記憶されていた「ｃｕｔｅ」又は「ｌｏｖｅｌｙ」が、話し手が意図している訳語であるとして、その英語フレーズを用い、「君は本当に馬鹿だな」という音声入力の内容を、図６（Ｂ）の英語のテキストＴ２０に示す如く「Ｙｏｕａｒｅｓｏｃｕｔｅ！」と翻訳する（ステップＳＪ５０）。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行し（ステップＳＪ６）、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。

それから、プロセッサ２１は、英語による翻訳結果（対応する英語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、プロセッサ１１へ送信する。そのテキスト信号を受信したプロセッサ１１は、図６（Ｂ）に示す感情文字入出力画面において、音声認識した入力音声の内容を示す日本語のテキストＴ１８及び顔マークＥ１とともに、その英語による翻訳結果（対訳）のテキストＴ２０を表示する。この場合、英語のテキストＴ２０の近傍にも、話し手が選択した顔マークＥ１を表示してもよい。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザ（話し手又は聞き手）による音声の入力とともに、そのユーザの感情を表現するための顔マークＥ１のような感情文字を選択し、認識された入力音声の内容だけでなく、それとともに選択された感情文字に基づいて、認識された音声の内容を異なる言語の内容に翻訳して出力する。すなわち、ユーザの感情を考慮した翻訳処理を実行することにより、話し手の真意や本音を聞き手に伝えることができ、その結果、ユーザ同士（話し手と聞き手）のコミュニケーションの向上を図ることが可能となる。

また、所定のフレーズと感情文字との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて、予め記憶資源２３に記憶しておき、入力音声にその所定のフレーズが含まれ且つ感情文字が選択された場合に、記憶資源２３にその組み合わせが含まれているか判定し、その組み合わせが記憶されているときに、その組み合わせに関連付けて記憶されている異なる言語の内容を用いて翻訳を行うので、翻訳処理の速度を向上させることができる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、所定のフレーズと感情文字との組み合わせと、その組み合わせのそれぞれに対する異なる言語の内容とを関連付けて記憶資源２３に記憶させておいた上で、以下の処理を実施してもよい。すなわち、入力音声に含まれるフレーズ（上記の例では、「馬鹿・だ」）が、記憶された所定のフレーズに含まれるときに、その所定のフレーズと感情文字（上記の例では、顔マークＥ１，Ｅ２等）との組み合わせの一覧を、ユーザが選択可能なように表示し、ユーザによって選択された組み合わせに関連付けて記憶されている異なる言語の内容を用いて、翻訳処理を行ってもよい。

また、音声認識、翻訳、音声合成等の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、ユーザの感情を考慮した翻訳処理を実行することにより、話し手の真意や本音を聞き手に伝えることができ、その結果、ユーザ同士（話し手と聞き手）のコミュニケーションの向上を図ることができるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０…情報端末、１１…プロセッサ、１２…記憶資源、１３…音声入出力デバイス、１４…通信インターフェイス、１５…入力デバイス、１６…表示デバイス、１７…カメラ、２０…サーバ、２１…プロセッサ、２２…通信インターフェイス、２３…記憶資源、３１…言語ボタン、３２ａ、３２ｂ…入力ボタン、３３…多重円形図案、３４…環状図案、１００…音声翻訳装置、Ｂ１…キャンセルボタン、Ｂ２…登録フレーズボタン、Ｂ３…テキスト入力ボタン、Ｂ４…設定ボタン、Ｂ５…テキスト入力ボタン、Ｂ６…チェックボタン、Ｂ７…誤訳通知ボタン、Ｂ８…表示ボタン、Ｂ９…消去ボタン、Ｂ１０…翻訳ボタン、Ｄ２０…データベース、Ｅ…感情文字キーボード、Ｅ１，Ｅ２…顔マーク、Ｋ…キーボード、Ｌ２０…モジュール、Ｍ２０…モデル、Ｎ…ネットワーク、Ｐ１０，Ｐ２０…プログラム、ＳＪ１〜ＳＪ７，ＳＪ５０，ＳＵ１〜ＳＵ３…ステップ、Ｔ１〜Ｔ２０…テキスト。

Claims

ユーザの音声を入力するための入力部と、
前記入力された音声を認識する認識部と、
前記ユーザが前記音声を入力する前、入力している間、又は入力した後に、該ユーザの感情を表現するための感情文字又は感情記号を、該ユーザが選択可能なように提示する提示部と、
前記認識された音声の内容と前記選択された感情文字又は感情記号に基づいて、前記認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、
前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部と、
所定のフレーズと前記感情文字又は前記感情記号との組み合わせと、該組み合わせのそれぞれに対する前記異なる言語の内容とを関連付けて記憶する記憶部と、
を備え、
前記出力部は、前記入力された音声に含まれるフレーズが、前記所定のフレーズに含まれるときに、該所定のフレーズと前記感情文字又は前記感情記号との組み合わせの一覧を、前記ユーザが選択可能なように表示し、
前記翻訳部は、前記選択された組み合わせに関連付けて記憶されている前記異なる言語の内容を用いて、前記翻訳を行う、
音声翻訳装置。
前記出力部は、前記感情文字又は前記感情記号を表示させるためのボタンを、前記入力された音声の認識結果が表示された画面に表示する、
請求項１記載の音声翻訳装置。
前記出力部は、前記選択された感情文字又は感情記号を、前記異なる言語に翻訳された内容が表示された画面に表示する、
請求項１又は２記載の音声翻訳装置。
入力部、認識部、提示部、翻訳部、出力部、及び記憶部を備える音声翻訳装置を用い、
前記入力部が、ユーザの音声を入力するステップと、
前記認識部が、前記入力された音声を認識するステップと、
前記提示部が、前記ユーザが前記音声を入力する前、入力している間、又は入力した後に、該ユーザの感情を表現するための感情文字又は感情記号を、該ユーザが選択可能なように提示するステップと、
前記翻訳部が、前記認識された音声の内容と前記選択された感情文字又は感情記号に基づいて、前記認識された音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力するステップと、
前記記憶部が、所定のフレーズと前記感情文字又は前記感情記号との組み合わせと、該組み合わせのそれぞれに対する前記異なる言語の内容とを関連付けて記憶するステップと、
を含み、
前記出力部は、前記入力された音声に含まれるフレーズが、前記所定のフレーズに含まれるときに、該所定のフレーズと前記感情文字又は前記感情記号との組み合わせの一覧を、前記ユーザが選択可能なように表示し、
前記翻訳部は、前記選択された組み合わせに関連付けて記憶されている前記異なる言語の内容を用いて、前記翻訳を行う、
音声翻訳方法。
コンピュータを、
ユーザの音声を入力するための入力部と、
前記入力された音声を認識する認識部と、
前記ユーザが前記音声を入力する前、入力している間、又は入力した後に、該ユーザの感情を表現するための感情文字又は感情記号を、該ユーザが選択可能なように提示する提示部と、
前記認識された音声の内容と前記選択された感情文字又は感情記号に基づいて、前記認識された音声の内容を異なる言語の内容に翻訳する翻訳部と、
前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部と、
所定のフレーズと前記感情文字又は前記感情記号との組み合わせと、該組み合わせのそれぞれに対する前記異なる言語の内容とを関連付けて記憶する記憶部と、
して機能させ、
前記出力部は、前記入力された音声に含まれるフレーズが、前記所定のフレーズに含まれるときに、該所定のフレーズと前記感情文字又は前記感情記号との組み合わせの一覧を、前記ユーザが選択可能なように表示し、
前記翻訳部は、前記選択された組み合わせに関連付けて記憶されている前記異なる言語の内容を用いて、前記翻訳を行う、
音声翻訳プログラム。