JP5998298B1

JP5998298B1 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP5998298B1
Application number: JP2016004337A
Authority: JP
Inventors: 知高大越; 諒俊武藤
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2016-09-28
Anticipated expiration: 2036-01-13
Also published as: JP2017126152A; WO2017122657A1

Abstract

【課題】音声翻訳処理において、会話における頻出フレーズを発話する手間を省き、ユーザの負担を軽減し且つ利便性を向上させることができ、また、誤訳の発生を防止する。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部と、その入力音声の内容を記憶する記憶部と、その入力音声の内容を異なる言語の内容に翻訳する翻訳部と、その翻訳内容（対訳）を音声及び／又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部とを備える。そして、記憶部が、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。さらに、翻訳部が、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。【選択図】図４

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と顧客（海外からの観光客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１参照）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１参照）。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲコンソーシアムホームページ［平成２７年１２月３日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/app_ja/app.html＞

ところで、例えば店員と顧客の会話では、頻繁に使用されるフレーズ（質問事項、案内事項、説明等）や定型的な内容を発話することが多くある。例えば、飲食店であれば、店員が顧客の注文の内容を尋ねたり、料理の素材を説明したりする際に、同じ言い回し又は同じ内容のフレーズが出現し得る。

しかし、上記従来の音声翻訳装置では、そういった頻出フレーズであっても、ユーザ（店員）が、その都度（毎回）発話する必要がある。また、そもそも、入力された音声の内容が、その言語の基本的な文型になっていないと、翻訳エンジンによる機械翻訳において、誤訳が生じてしまう可能性が高くなる傾向にある。よって、実質的に同じ内容のフレーズであっても、例えば発話した語順等が若干異なっただけでも、誤訳が生じてしまい、たとえ頻出フレーズであっても、発話をし直さなければならない事態も起こり得る。それらの結果、ユーザ（利用者、発話者）の負担の増加や利便性の低下を招いてしまうおそれがある。

そこで、本発明は、かかる事情に鑑みてなされたものであり、会話によく出現するフレーズを発話する手間を省くことにより、ユーザの負担を軽減し且つ利便性を向上させることができるとともに、誤訳の発生を防止することができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、まず、ユーザの音声を入力するための入力部と、その入力音声の内容を記憶する記憶部と、その入力音声の内容を異なる言語の内容に翻訳する翻訳部と、その翻訳内容（対訳）を音声及び／又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部とを備える。そして、記憶部が、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。さらに、翻訳部が、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。ここで、「特定の入力内容」としては、会話において、ユーザが使用する頻出フレーズ（よく使う言い回し）や定型文の内容を例示することができる。

また、本発明の一態様による音声翻訳装置は、ユーザの属性（例えば性別、職業、業種、業態等）に関する情報を取得する情報取得部を更に備え、記憶部が、特定の入力内容を、ユーザの属性に関連付けて記憶するように構成してもよい。この場合、履歴表示部が、ユーザの属性に応じて、履歴の表示を切り替えるようにしてもよい。

また、本発明の一態様による音声翻訳装置は、ユーザの属性に関連付けて記憶された特定の入力内容から、属性毎のライブラリを作成するライブラリ作成部を更に備えてもよい。このとき、属性毎のライブラリを、ユーザと他のユーザ（つまり複数のユーザ間）で共有可能なものとすることもできる。

また、本発明の一態様による音声翻訳方法は、入力部、記憶部、翻訳部、出力部、及び履歴表示部を備える音声翻訳装置を用い、ユーザの音声を入力するステップと、入力音声の内容を記憶するステップと、入力音声の内容を異なる言語の内容に翻訳するステップと、翻訳内容を音声及び／又はテキストで出力するステップと、入力内容の履歴を表示するステップとを含む。そして、記憶するステップにおいては、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶する。また、履歴を表示するステップにおいては、特定の入力内容をユーザが選択可能に表示する。さらに、翻訳するステップにおいては、特定の入力内容が選択されたときに、その特定の入力内容を異なる言語の内容に翻訳する。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザの音声を入力するための入力部と、入力音声の内容を記憶する記憶部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び／又はテキストで出力する出力部と、入力内容の履歴を表示する履歴表示部として機能させる。そして、本発明の一態様による音声翻訳プログラムは、記憶部に、ユーザの指示により、又は、入力頻度に基づいて、履歴のなかから、特定の入力内容を他の入力内容と区別して記憶させる。また、履歴表示部に、特定の入力内容をユーザが選択可能に表示させる。さらに、翻訳部に、特定の入力内容が選択されたときに、特定の入力内容を異なる言語の内容に翻訳させる。

なお、「属性」に関する情報を取得する方法としては、ユーザが音声翻訳装置に係るサービスを使用する際、又は、音声翻訳プログラムであるアプリケーションを情報端末等のコンピュータにインストールして使用する際のユーザ情報の登録画面に記入してもらったり、音声翻訳装置を利用する際に属性に関する質問アンケートに回答してもらったりといった例が挙げられる。

本発明によれば、ユーザが発話した音声の入力内容の履歴を保持し、そのなかから、頻出フレーズ等の特定の入力内容を記憶し、その特定の入力内容をユーザが選択可能に表示する。そして、その特定の入力内容のなかから所望のフレーズを選択することにより、頻出フレーズ等を都度発話する手間を省くことができ、その結果、ユーザの負担を軽減し且つ利便性を向上させることができる。しかも、誤訳の発生を防止することが可能となるので、音声翻訳の精度を簡易に且つ効果的に向上させることもできる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるユーザ者装置（情報端末）の構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるサーバの構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザ（発話者、他の発話者）が使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth：登録商標）、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて会話の相手方に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３（記憶部）を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数の、プログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。

プログラムＰ１０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、後述する音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。

以上のとおり構成された音声翻訳装置１００における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。

（第１実施形態）
図４は、本実施形態の音声翻訳装置１００における処理の流れ（一部）の一例を示すフローチャートである。また、図５（Ａ）乃至（Ｄ）は、情報端末１０における表示画面の遷移の一例を示す平面図である。ここでは、情報端末１０のユーザが日本語を話す飲食店の店員であり、会話の相手が英語を話す顧客である場合の会話、すなわち、入力言語が日本語であり、翻訳言語が英語である会話を想定する（但し、これに限定されない）。

まず、ユーザ（店員）が当該アプリケーションを起動する（ステップＳＵ１）と、表示デバイス１６に、顧客の言語選択画面が表示される（図５（Ａ）；ステップＳＪ１）。この言語選択画面には、顧客に言語を尋ねる旨の日本語のテキストＴ２１、その旨の英語のテキストＴ２２、及び、想定される複数の代表的な言語（ここでも、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン６１が表示される。

このとき、図５（Ａ）に示す如く、日本語のテキストＴ２１及び英語のテキストＴ２２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、ユーザは日本語のテキストＴ２１を確認し易い一方、顧客は、英語のテキストＴ２２を確認し易くなる。また、テキストＴ２１とテキストＴ２２が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。

ユーザは、その言語選択画面のテキストＴ２２の表示を顧客に提示し、顧客に英語（Ｅｎｇｌｉｓｈ）のボタンをタップしてもらうことにより、又は、自ら顧客の言語を選択することができる。こうして顧客の言語が選択されると、ホーム画面として、日本語と英語の音声入力の待機画面が表示される（図５（Ｂ）；ステップＳＪ２）。この待機画面には、ユーザと顧客の言語の何れを発話するかを問うテキストＴ２３、並びに、日本語の音声入力を行うための日本語入力ボタン６２ａ及び英語の音声入力を行うための英語入力ボタン６２ｂが表示される。また、この待機画面には、入力内容の履歴を表示するための履歴ボタン６３、言語選択画面に戻って顧客の言語を切り替える（言語選択をやり直す）ための言語選択ボタン６４、及び当該アプリケーションソフトの各種設定を行うための設定ボタン６５も表示される。

次いで、図４には、ユーザが履歴ボタン６３をタップするか否かに着目した場合分け（ステップＳＵ２）のフローを示したが、通常の音声翻訳処理においては、図５（Ｂ）に示す待機画面から音声入力を行うことができる。ここでは、その場合（つまり、ステップＳＵ２において「Ｎｏ」）の音声翻訳処理の流れについて先に説明する。

［通常の音声翻訳処理］
すなわち、この待機画面において、ユーザ（店員）が日本語入力ボタン６２ａをタップして日本語の音声入力を選択すると音声入力が可能な状態となる。この状態で、ユーザが顧客への伝達事項等を発話すると、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。

ここで、入力音声が認識された場合、プロセッサ２１は、認識された音声の「読み」（文字）を他の言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる（画面表示を図示せず）。

また、プロセッサ２１は、認識された入力音声の内容を記憶資源２３に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してその音声信号を受信し、音声出力処理を行う（ステップＳＪ７）。

［履歴表示からの翻訳処理］
一方、図５（Ｂ）に示す待機画面において、ユーザが履歴ボタンをタップしてそれまでの入力音声の履歴表示を選択する（ステップＳＵ２において「Ｙｅｓ」）と、情報端末１０のプロセッサ１１は、履歴を表示するための指令信号をサーバ２０へ送信する。その指令信号を受信したサーバ２０のプロセッサ２１は、記憶資源２３に記憶保持された入力音声の内容を読み出し、例えば図５（Ｃ）に示す履歴表示画面を表示デバイス１６に表示する（ステップＳＪ８）。この履歴表示画面には、それまでに音声入力されて翻訳処理が行われた内容が例えばフレーズ単位でテキスト表示される。また、その画面において、テキストが一覧表示されたリストの上方には、入力音声の内容のリストの順番を、例えば「最新順」と「頻度順」で切り替えるための表示順選択ボタン６６が表示される。ユーザは、その表示順選択ボタン６６を適宜タップすることにより、「最新順」のリストと「頻度順」のリストを所望に切り替えることができる。

さらに、図５（Ｃ）に示す履歴表示画面においては、各入力音声の内容のテキストに、例えばピン形状図案Ｐが付帯的に表示される。ユーザがこのピン形状図案Ｐをタップすることにより、履歴表示画面に表示されている各入力音声の内容のなかから、ユーザが頻繁に発話する内容や定型文的な内容を選択して、言わばピンすることによって「クリップ」しておくことができる。

例えば、ユーザが、図５（Ｃ）にリストされた入力内容のうち、テキストＴ３１，Ｔ３２，Ｔ３３で表示された入力内容（特定の入力内容）のピン形状図案Ｐをタップする（ステップＳＵ３において「Ｙｅｓ」）。そうすると、情報端末１０のプロセッサ１１は、テキストＴ３１，Ｔ３２，Ｔ３３の入力内容を画面の上方領域Ｒ１に移動してまとめて表示する一方、他の入力内容を画面の下方領域Ｒ２に移動してまとめて表示し、両者を視覚的に区別する（ステップＳＪ４）。また、上方領域Ｒ１の近傍には、ピンでクリップされた入力内容であることを示すテキストＴ２３が明示される。

さらに、このとき、情報端末１０のプロセッサ１１は、ユーザによりテキストＴ３１，Ｔ３２，Ｔ３３の入力内容が選択されたことを示す指令信号をサーバ２０へ送信する。その指令信号を受信したサーバ２０のプロセッサ２１は、記憶資源２３に保持されているテキストＴ３１，Ｔ３２，Ｔ３３の入力内容（特定の入力内容）にフラグを立てる等して、他の入力内容と区別して改めて記憶する。

また、図５（Ｄ）に示す履歴表示画面において、ピンでクリップされた各テキストＴ３１，Ｔ３２，Ｔ３３の入力内容には、ピン形状図案Ｐに代えて×印図案６７が付帯的に表示される。ユーザは、必要に応じて、その×印図案６７をタップすることにより、各テキストＴ３１，Ｔ３２，Ｔ３３のピンを外すことができる。その場合、サーバ２０のプロセッサ２１は、情報端末１０のプロセッサ１１からの指令信号により、記憶資源２３に例えばフラグを立てて記憶されている入力内容から、そのフラグを外す。

次に、ユーザは、顧客に対する質問事項等を発話することに代えて、ピンでクリップしたテキストＴ３１，Ｔ３２，Ｔ３３のなかから所望の入力内容を選択することができる。例えば、ユーザがテキストＴ３１の部分をタップして選択する（ステップＳＵ４において「Ｙｅｓ」）と、情報端末１０のプロセッサ１１からその指令信号がサーバ２０へ送信される。その指令信号を受信したサーバ２０のプロセッサ２１は、選択されたテキストＴ３１の内容について、多言語翻訳処理（ステップＳＪ５）、音声合成処理（ステップＳＪ６）、及び音声出力処理（ステップＳＪ７）を順次実行する。これにより、ユーザは、音声入力を行うことなく、所望のフレーズ等（特定の入力内容）の対訳を出力させることができる。

一方、ステップＳＵ３においてピンでクリップすべき入力内容が選択されなかった場合（ステップＳＵ３において「Ｎｏ」）、又は、ステップＳＵ４において発話に代えて特定の入力内容が選択されなかった場合（ステップＳＵ４において「Ｎｏ」）、サーバ２０のプロセッサ２１は、前述したステップＳＪ３〜ＳＪ７に示す通常の音声翻訳処理を順次実行する。具体的には、図５（Ｃ）又は図５（Ｄ）に示す履歴表示画面において、ユーザが閉じるボタン６８をタップすることにより、表示デバイス１６には図５（Ｂ）に示す待機画面が再表示され、通常の音声翻訳処理に戻入することができる。

（第２実施形態）
ユーザが、頻出フレーズや定型文といった何らかの特定の入力内容を一旦ピンしてクリップすると、図５（Ｂ）に示す待機画面において履歴ボタン６３を選択した場合、図５（Ｃ）に示す履歴表示画面の表示がなされずに、図５（Ｄ）に示す履歴表示画面が表示されるように構成してもよい。この場合、図４に示すフローにおいては、ステップＳＵ２が実効されると、ステップＳＪ８，ＳＵ３がスキップされて、ステップＳＪ９が実行されることとなる。

（第３実施形態）
本実施形態では、ユーザが音声翻訳アプリケーションを起動（図４に示すステップＳＵ１）すると、例えば、音声翻訳の対象言語を選択する待機画面（図５（Ｂ））が情報端末１０の表示デバイス１６に表示される前に、或いは、対象言語を選択した後に、ユーザに関する情報を入力してもらうための情報登録画面が、情報端末１０の表示デバイス１６に表示される。ユーザに関する情報としては特に制限されないが、ユーザ（又はユーザの店舗）の職業、業種、業態、年齢、性別、出身地、居住地等の属性情報が含まれる。

この状態で、ユーザがユーザ情報を入力すると、情報端末１０のプロセッサ１１は、その情報入力に基づいて情報信号を生成し、その情報信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体又はプロセッサ１１が「情報取得部」としても機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその情報信号を受信すると、処理を一旦、図４に示すステップＳＪ２以降の処理へ移行する。それから、ユーザが、ステップＳＵ３においてクリップしたい例えばテキストＴ３１，Ｔ３２，Ｔ３３で表示された入力内容を選択する（ステップＳＵ３において「Ｙｅｓ」）と、第１実施形態又は第２実施形態と同様に、図５（Ｃ）又は図５（Ｄ）に示す履歴表示画面が表示される。一方、サーバ２０のプロセッサ２１は、記憶資源２３に保持されているテキストＴ３１，Ｔ３２，Ｔ３３の入力内容（特定の入力内容）にフラグを立てる等して、他の入力内容と区別するとともに、それらをユーザの属性に関連付けて改めて記憶する。

ここで、音声翻訳アプリケーションを複数のユーザが利用する場合、記憶資源２３には、各ユーザの属性に関連付けられてクリップされた特定の入力内容が順次蓄積されていくこととなる。そこで、本実施形態では、情報端末１０からユーザの属性情報が入力され、且つ、履歴ボタン６３がタップされた場合、プロセッサ１１，２１は、そのユーザの属性の一部（又は全部）と一致する属性に関連付けてクリップされた特定の入力内容を、図５（Ｃ）又は図５（Ｄ）に示す履歴表示画面に表示する。

このとき、プロセッサ２１により、ユーザの属性のうち、特にユーザ（又はユーザの店舗）の職業、業種、及び業態の何れかに基づいて、特定の入力内容を抽出又は絞り込むようにすると特に有用である。また、プロセッサ２１は、そのようにして、ユーザの属性によって抽出又は絞り込まれた特定の入力内容とそれに対応する翻訳内容を、属性毎のライブラリとしてまとめ、記憶資源２３に記憶するようにしてもよい。このようにして作成された属性毎のライブラリは、複数のユーザ間で共有するようにすると、更に有用である。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザが発話した音声の入力内容の履歴のなかから、頻出フレーズや定型文等の特定の入力内容をいわばクリップして記憶することができる。よって、ユーザが、頻出フレーズや定型文等を簡易に呼び出すことができ、ユーザがそれらを都度発話する手間を省くことができる。その結果、ユーザの負担を軽減し且つ利便性を向上させることが可能になるとともに、誤訳の発生を有効に防止することもできるので、音声翻訳の精度を簡易に且つ効果的に向上させることも実現できる。

さらに、クリップされた特定の入力内容を、ユーザの属性に関連付けて記憶し、また、履歴表示画面に表示することにより、そのユーザの属性に応じた頻出フレーズや定型文等を効率よく選択することが可能となる。その結果、ユーザにとって必要な頻出フレーズや定型文等を見つけやすくなるので、ユーザの負担を更に軽減し且つ利便性を更に向上させることができる。特に、ユーザが店員であり、業務において顧客と会話する場合、頻出フレーズ等が更に定型化されることが予想されるところ、ユーザの属性として職業、業種、及び業態の何れかに基づいて、特定の入力内容を抽出又は絞り込むことにより、ユーザの利便性を更に一層高め、且つ、音声翻訳の更なる高精度化及び高効率化を実現することができる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースのデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

さらに、例えば図５（Ｃ）又は図５（Ｄ）に示す履歴表示画面に表示された特定の入力内容から、ユーザが手動操作によってピンすることに代えて、例えば、その特定の入力内容の頻度が所定の頻度よりも高いものをサーバ２０のプロセッサ２１が抽出し、それらをクリップしたデータベースやライブラリを自動で生成してもよい。この場合、図５（Ｃ）又は図５（Ｄ）に示す表示順選択ボタン６６を「頻度順」に切り替えた画面に、プロセッサ２１によって入力頻度に基づいて抽出された入力内容を表示することができる。またさらに、クリップされた特定の入力内容とともに、一度実行された所定言語の翻訳結果を併せて（特定の入力内容に関連付けて）記憶してもよい。例えば図４に示すフローにおいて、ユーザがテキストＴ３１の部分をタップして選択した場合（ステップＳＵ４において「Ｙｅｓ」）、多言語翻訳処理（ステップＳＪ５）をスキップして音声合成処理（ステップＳＪ６）を実行するようにしてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、音声翻訳処理におけるユーザの負担を軽減し且つ利便性を向上させることができ、しかも、誤訳の発生を防止して音声翻訳の精度を簡易に且つ効果的に向上させ得るので、例えば、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
６１言語ボタン
６２ａ日本語入力ボタン
６２ｂ英語入力ボタン
６３履歴ボタン
６４言語選択ボタン
６５設定ボタン
６６表示順選択ボタン
６７ ×印図案
６８閉じるボタン
１００音声翻訳装置
Ｄ２０データベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐピン形状図案
Ｐ１０プログラム
Ｐ２０プログラム
Ｒ１上方領域
Ｒ２下方領域
Ｔ２１，Ｔ２２，Ｔ２３テキスト
Ｔ３１，Ｔ３２，Ｔ３３テキスト（特定の入力内容）

Claims

ユーザの音声を入力するための入力部と、
入力音声の内容を記憶する記憶部と、
前記入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び／又はテキストで出力する出力部と、
前記入力内容の履歴を表示する履歴表示部と、
を備え、
前記履歴表示部は、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示し、
前記記憶部は、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに、該特定の入力内容を他の入力内容と区別して記憶し、
前記履歴表示部は、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示し、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示し、
前記翻訳部は、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳する、
音声翻訳装置。
前記履歴表示部は、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示するときに、前記ユーザが該特定の入力内容から不要な入力内容を除去可能であることを示す図案を、該特定の入力内容に付帯して表示する、
請求項１記載の音声翻訳装置。
前記ユーザの属性に関する情報を取得する情報取得部を更に備え、
前記記憶部は、前記特定の入力内容を前記ユーザの属性に関連付けて記憶し、
前記履歴表示部は、前記ユーザの属性に応じて、前記履歴の表示を切り替える、
請求項１又は２記載の音声翻訳装置。
前記ユーザの属性に関連付けて記憶された前記特定の入力内容から、前記属性毎のライブラリを作成するライブラリ作成部を更に備える、
請求項３記載の音声翻訳装置。
前記属性毎のライブラリは、前記ユーザと他のユーザが共有可能なものである、
請求項４記載の音声翻訳装置。
入力部、記憶部、翻訳部、出力部、及び履歴表示部を備える音声翻訳装置を用い、
ユーザの音声を入力するステップと、
入力音声の内容を記憶するステップと、
前記入力音声の内容を異なる言語の内容に翻訳するステップと、
翻訳内容を音声及び／又はテキストで出力するステップと、
前記入力内容の履歴を表示するステップと、
を含み、
前記履歴を表示するステップにおいては、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示し、
前記記憶するステップにおいては、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに、該特定の入力内容を他の入力内容と区別して記憶し、
前記履歴を表示するステップにおいては、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示し、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示し、
前記翻訳するステップにおいては、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳する、
音声翻訳方法。
コンピュータを、
ユーザの音声を入力するための入力部と、
入力音声の内容を記憶する記憶部と、
前記入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び／又はテキストで出力する出力部と、
前記入力内容の履歴を表示する履歴表示部と、
して機能させ、
前記履歴表示部に、前記ユーザが前記履歴のなかから特定の入力内容を選択可能であることを示す図案を、前記履歴における各入力内容に付帯して表示させ、
前記記憶部に、前記ユーザが前記図案を用いて前記履歴のなかから前記特定の入力内容を選択したときに、該特定の入力内容を他の入力内容と区別して記憶させ、
前記履歴表示部に、前記特定の入力内容と前記他の入力内容を視覚的に区別して表示させ、かつ、前記ユーザが該視覚的に区別して表示された前記特定の入力内容のなかから所望の入力内容を選択可能に表示させ、
前記翻訳部に、前記ユーザにより前記所望の入力内容が選択されたときに、該所望の入力内容を異なる言語の内容に翻訳させる、
音声翻訳プログラム。