JP2018173910A

JP2018173910A - 音声翻訳システム及び音声翻訳プログラム

Info

Publication number: JP2018173910A
Application number: JP2017072979A
Authority: JP
Inventors: 諒俊武藤; Akitoshi Muto
Original assignee: Recruit Lifestyle Co Ltd
Current assignee: Recruit Lifestyle Co Ltd
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-11-08

Abstract

【課題】互いの言語を理解できない人同士であっても、自然な状況で円滑な会話を進めることができる音声翻訳システム等を提供することを目的とする。【解決手段】音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、音声の入力及び出力が可能であると共に、上記音声翻訳装置と無線接続された音声入出力装置とを備え、音声翻訳装置は、音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して音声入出力装置から音声出力させる。【選択図】図１

Description

本発明は、音声翻訳システム及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と顧客（海外からの観光客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１参照）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１参照）。

特開平９−３４８９５号公報

ＶｏｉｃｅＴｒａホームページ［平成２９年３月３１日検索］、インターネット＜ＵＲＬ：http://voicetra.nict.go.jp/index.html＞

ここで、上記従来の音声翻訳アプリケーションソフトにおける処理の概略を、図１６（Ａ）乃至（Ｄ）を参照して以下に説明する。なお、図１６（Ａ）乃至（Ｄ）は、上記非特許文献１に記載された内容に基づいて、情報端末における表示画面の遷移の一例を再構成した平面図である。

まず、情報端末９０にインストールされている当該アプリケーションを起動すると、例えば日本語と英語の音声入力の待機画面が表示される（図１６（Ａ））。なお、この画面において、選択ボタン９１をタップすると複数の言語が表示され、適宜の２種類の言語を選択することができ、また、国旗を表す言語切替ボタン（国旗ボタン）９２の何れかをタップすることにより入力言語を切り替えることができる。この図１６（Ａ）では、入力言語が日本語であり、翻訳言語が英語である状態を示す。

この待機画面において、マイクボタン９３をタップすると、マイクの図案と入力音量のレベル表示が表示され、発話内容を受け付ける音声入力画面となる（図１６（Ｂ））。この状態で、ユーザ（質問者）が質問事項等を日本語で発話した後、終了ボタン９４をタップすると、入力された発話内容の認識及び翻訳が行われるとともに、認識中の表示を含む待機画面が表示される（図１６（Ｃ））。

翻訳が完了すると、音声入力及びそれに対応する日本語の会話コーパスのテキスト９５，９６、及びその翻訳文である英語の会話コーパスのテキスト９７の表示を含む会話画面が表示され、同時にテキスト９７を読み上げる英語音声が出力される（図１６（Ｄ））。なお、ここではテキスト９５，９６が同一の場合について例示したが、両者が異なる場合もあり得る。

そして、英語の音声を聞いた回答者がその内容を理解することができた場合、或いは、音声が理解しづらくてもテキスト９７を見て理解することができた場合、今度は、言語切替ボタン９２で英語入力に切り替え、図１６（Ａ）〜（Ｄ）と同様のステップにより、会話の相手（回答者）が英語で発話した回答内容を日本語で質問者へ伝えることができる。また、会話画面（図１６（Ｄ））には、音声入力の内容に対応するテキスト９５，９６が意図した内容と違う場合に、ユーザ（質問者）が発話をやり直すための再入力ボタン９８、会話の相手（回答者）が翻訳された内容を理解できずユーザに内容を言い換えてもらうための要請ボタン９９、及び、ユーザ又は会話の相手が音声を再度再生するためのリピート再生ボタン１００も表示される。

このとおり、従来の音声翻訳アプリケーションソフトによれば、ユーザ（質問者）による音声入力とその翻訳結果の音声出力と、相手（回答者）による音声入力とその翻訳結果の音声出力により、両者の会話を行うことができる。その一方、上記のように１台の情報端末９０を用いて会話を行う場合、ユーザとその話し相手はかなり接近して会話しなければならず、或いは、ユーザと話し相手との間で、話者が変わるたびに情報端末９０を受け渡さなければならない。そのため、例えば上述した店員と顧客との会話の場面でも、店員は顧客に付ききりになる必要があり、自然な状況で円滑な会話を進めることが困難であり、不便であった。

そこで、本発明は、かかる事情に鑑みてなされたものであり、互いの言語を理解できない人同士であっても、自然な状況で円滑な会話を進めることができる音声翻訳システム及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳システムは、音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、音声の入力及び出力が可能であると共に、前記音声翻訳装置と無線接続された音声入出力装置と、を備え、前記音声翻訳装置は、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させるものである。

上記音声翻訳システムにおいて、前記音声入出力装置は、入力された音声を音声信号に変換して前記音声翻訳装置に無線送信すると共に、前記音声翻訳装置から無線送信された音声信号を音声に変換して出力するものであり、前記音声翻訳装置は、入力された音声を音声信号に変換すると共に、音声信号を音声に変換して出力する音声入出力部と、前記音声入出力部に入力された音声に基づく音声信号と、前記音声入出力装置に入力された音声に基づいて該音声入出力装置から送信された音声信号とのいずれか一方の入力を受け付ける音声信号受付部と、前記音声信号受付部が入力を受け付けた音声信号の内容を異なる言語に翻訳した内容の音声信号を取得する翻訳処理部と、前記翻訳処理部により取得された前記翻訳した内容の音声信号を、前記音声入出力デバイスと前記音声入出力装置とのいずれか一方に出力する音声信号出力部と、を有し、前記音声信号受付部が前記音声入出力デバイスからの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力装置に出力し、前記音声信号受付部が前記音声入出力装置からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力部に出力してもよい。

上記音声翻訳システムにおいて、前記音声翻訳装置は、前記音声信号受付部への音声信号の入力元と、前記音声信号出力部からの音声信号の出力先とを連動して切り替える切替部をさらに備えてもよい。

上記音声翻訳システムにおいて、前記音声翻訳装置は、当該音声翻訳装置に対する入力操作を受け付ける入力デバイスをさらに有し、前記切替部は、前記入力デバイスに対してなされた操作に応じて、前記入力元及び前記出力先を切り替えてもよい。

上記音声翻訳システムにおいて、前記音声入出力装置は、当該音声入力装置に対する入力操作を受け付ける入力スイッチをさらに有し、前記切替部は、前記入力スイッチに対してなされた操作に応じて、前記入力元及び前記出力先を切り替えてもよい。

上記音声翻訳システムにおいて、前記音声翻訳装置は、前記音声信号受付部が入力を受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとの少なくともいずれかを画面に表示するテキスト表示部をさらに有してもよい。

上記音声翻訳システムにおいて、前記テキスト表示部は、前記音声信号受付部が受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとを、互いに異なる向きに表示してもよい。

本発明の別の態様である音声翻訳プログラムは、コンピュータと、該コンピュータと無線接続された音声入出力装置と、を備える音声翻訳システムにおいて、前記コンピュータを、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該コンピュータから音声出力すると共に、当該コンピュータに入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる音声翻訳装置として機能させるものである。

本発明によれば、音声翻訳装置と音声入出力装置とを無線接続し、音声翻訳装置に入力された音声の翻訳を音声入出力装置から音声出力し、音声入出力装置に入力された音声の翻を音声翻訳装置から音声出力するので、ユーザとその話し相手のいずれか一方が音声入出力装置を使用し、他方が音声翻訳装置を使用することで、ユーザとその話し相手が互いに接近して会話したり、話者が変わるたびに音声翻訳装置を受け渡したりする必要がなくなり、自然な状況で円滑な会話を進めることが可能となる。

本発明による音声翻訳システムを含むネットワーク構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置（情報端末）の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声入出力装置（インカム）の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置の機能の一例を概略的に示すブロック図である。本発明による音声翻訳システムにおける処理の流れ（一部）の一例を示すフローチャートである。本発明による音声翻訳システムの使用状況を例示する模式図である。本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳システムの使用状況を例示する模式図である。本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳システムの使用状況を例示する模式図である。本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置における表示画面の変形例を示す平面図である。本発明による音声翻訳装置における表示画面の変形例を示す平面図である。（Ａ）乃至（Ｄ）は、従来の音声翻訳装置における表示画面の遷移の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

図１は、本発明による音声翻訳システムを含むネットワーク構成の一例を概略的に示すシステムブロック図である。本発明における音声翻訳システム１は、音声翻訳装置として機能する情報端末１０と、該情報端末１０と無線通信可能な音声入出力装置として機能するインカム２０とを備える。情報端末１０は、ネットワークＮを介してサーバ装置Ｓに接続されてもよい。

ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。この他、ネットワークＮに、飲食店における料理の注文情報を即時にキッチンに送信するオーダーエントリーシステムＥなどを接続してもよい。

サーバ装置Ｓは、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。サーバ装置Ｓは、プログラム、並びに、このプログラムの実行中に使用される各種モジュール、各種データベース、及び各種モデル等を格納する記憶資源を備えている。

各種モジュールは、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、上記プログラムの動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールとしては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。また、各種データベースとしては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）や、音声信号データベース等が挙げられる。また、各種モデルとしては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。

図２は、本発明による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態における情報端末１０は、例えば、タッチパネル等のユーザインターフェース及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェース１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラム）が動作することにより、本発明の一実施形態による音声翻訳装置として機能するものである。音声翻訳アプリケーションソフトは、例えばサーバ装置ＳからネットワークＮを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。プロセッサ１１が音声翻訳アプリケーションソフトを実行することにより実現される機能の詳細については後述する。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための出力デバイスドライバプログラム等が挙げられる。

音声入出力デバイス１３は、例えば、入力された音声を電気的な信号（音声信号）に変換する一般的なマイクロフォン（音声入力部）、及び音声信号を音声として再生可能なサウンドプレイヤ（音声出力部）である。また、通信インターフェース１４は、例えばサーバ装置Ｓ及びインカム２０との接続インターフェースを提供するものであり、無線通信インターフェース及び／又は有線通信インターフェースから構成される。

入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェースを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェースとして各種の情報をユーザ及びその会話の相手方に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

図３は、本発明による音声入出力装置（インカム）の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態におけるインカム２０は、無線接続された他の機器との間で通話可能な相互通信式構内電話（インターコミュニケーション）である。インカム２０は、音声入力デバイス２１、音声出力デバイス２２、通信インターフェース２３、及び入力スイッチ２４を備えている。

音声入力デバイス２１は、入力された音声を音声信号に変換する一般的なマイクロフォンである。また、音声出力デバイス２２は、音声信号を音声として再生可能なサウンドプレイヤである。音声入力デバイス２１及び音声出力デバイス２２は、ユーザの頭部に装着可能なヘッドセットの形態であってもよく、この場合、ユーザはハンズフリーで通話することができる。

通信インターフェース２３は、例えば情報端末１０との接続インターフェースを提供するものであり、例えばブルートゥース（Bluetooth：登録商標）やＷｉＦｉ(Wireless Fidelity)等に対応する無線通信インターフェースから構成される。入力スイッチ２４は、例えばボタン式のスイッチであり、電源のオンオフ、音声入力の開始や終了、ボリュームの調整といった各種操作を受け付ける。

図４は、本発明による音声翻訳装置の機能の一例を概略的に示すブロック図である。プロセッサ１１がプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行することにより実現される機能部には、図４に示すように、音声信号受付部３１、翻訳処理部３２、音声信号出力部３３、切替部３４、及びテキスト表示処理部３５が含まれる。

音声信号受付部３１は、音声入出力デバイス１３に入力された音声に基づく音声信号と、インカム２０に入力された音声に基づきインカム２０から無線送信された音声信号とのいずれか一方の入力を受け付ける。

翻訳処理部３２は、音声信号受付部３１が受け付けた音声信号の内容を、異なる言語に翻訳する翻訳処理を実行する。詳細には、翻訳処理部３２は、音声信号受付部３１が受け付けた音声信号を、通信インターフェース１４及びネットワークＮを介してサーバ装置Ｓに送信し、この音声信号が表す「音」を「読み」（テキスト）に変換したテキストと、このテキストの内容を他の言語に翻訳したテキストと、翻訳したテキストを音声として読み上げるための音声信号とを要求する。このとき、サーバ装置Ｓは、記憶資源から必要なモジュール、データベース、及びモデル（即ち、音声認識モジュール、日本語又はその他の言語の音声コーパス、音響モデル、言語モデル等）を呼び出し、受信した音声信号により表される音声について音声認識処理を行うことにより、この音声をテキストに変換したデータを情報端末１０に送信する。また、サーバ装置Ｓは、記憶資源から必要なモジュール及びデータベース（翻訳モジュール、並びに、日英翻訳を行う場合には、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である音声の「読み」（テキスト）を構成する句、節、文等に対応する翻訳語の言語を抽出し、それらを当該言語の文法に従って並び替えて自然な句、節、文等へと変換することにより翻訳を行い、翻訳されたテキストを表すデータを情報端末１０に送信する。さらに、サーバ装置Ｓは、記憶資源から必要なモジュール、データベース、及びモデル（音声合成モジュール、日本語又はその他の言語の音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳されたテキストを自然な音声に変換した音声信号を生成し、情報端末１０に送信する。このように、翻訳処理部３２は、サーバ装置Ｓと協働して翻訳処理部３２としての機能を実現する。

音声信号出力部３３は、翻訳処理部３２が取得した翻訳後の言語による音声信号を、音声入出力デバイス１３とインカム２０とのいずれか一方に出力する。

切替部３４は、音声信号受付部３１への音声信号の入力元と、音声信号出力部３３からの音声信号の出力先とを連動して切り替える。詳細には、切替部３４は、情報端末１０の音声入出力デバイス１３から音声信号の入力を受け付けた場合には、インカム２０に音声信号を無線送信し、インカム２０から無線送信された音声信号の入力を受け付けた場合には、情報端末１０の音声入出力デバイス１３に音声信号を出力するように、上記音声信号の入力元及び出力先を切り替える。切替部３４は、情報端末１０の入力デバイス１５に対する操作に応じて音声信号の入力元及び出力先の切り替えを行ってもよいし、インカム２０の入力スイッチ２４に対する操作に応じて上記切り替えを行ってもよい。或いは、音声入出力デバイス１３への音声の入力と、インカム２０への音声の入力とのうち、先に行われた方を優先して音声信号の入力を受け付けることとしてもよい。

テキスト表示処理部３５は、音声認識された翻訳前のテキストと、これを翻訳したテキストとの少なくともいずれかを表示デバイス１６に表示させる。

以上のとおり構成された音声翻訳システム１において、音声翻訳アプリケーションソフトを実行したときの操作及び動作手順の一例について、以下に更に説明する。
（実施形態）

図５は、本実施形態の音声翻訳システムにおける処理の流れ（一部）の一例を示すフローチャートである。また、図６、図９、図１２は、音声翻訳システム１の使用状況を例示する模式図である。図７、図８、図１０、図１１、図１３は、情報端末１０における表示画面の遷移の一例を示す平面図である。ここでは、図６に示すように、日本語を話す飲食店の店員２と、英語を話す顧客３とが会話する場面を想定する。この場合、店員２がインカム２０を装着し、顧客３が情報端末１０を持って会話を行う（但し、これに限定されない）。なお、店員２は、オーダーエントリーシステムＥ（図１）に注文内容を送信するためのオーダー端末ｅ１に入力しながら会話を行ってもよい。

まず、店員２は、情報端末１０とインカム２０とをペアリングすることにより、両者を無線接続する（ステップＳＵ１）。続いて、店員２が、情報端末１０の表示デバイス１６に表示されている音声翻訳アプリケーションソフトのアイコン（図示せず）をタップするなどして当該アプリケーションを起動すると（ステップＳＵ２）、表示デバイス１６に、顧客の言語選択画面が表示される（ステップＳＪ１；図７）。この言語選択画面には、顧客の言語を選択する旨の説明を記した日本語と英語のテキストＴ１、及び、想定される複数の代表的な言語（ここでは、英語、中国語（例えば書体により２種類）、韓国語）を示す言語ボタン４１が表示される。

店員２は言語選択画面のテキストＴ１の表示を顧客に提示し、顧客に英語（Ｅｎｇｌｉｓｈ）のボタンをタップさせることで言語を選択してもらう（ステップＳＫ１）。それにより、情報端末１０において、翻訳言語として英語が設定され（ステップＳＪ２）、日本語と英語との間で翻訳を行うモードとなる。その後、表示デバイス１６に、音声入力画面が表示される（ステップＳＪ３；図８）。この音声入力画面には、音声入力ボタン４２、音声入力ボタン４２にタップする旨の指示を英語で記したテキストＴ２、及び終了ボタン４３が表示される。

店員２が、例えばインカム２０に設けられた入力スイッチ２４を押すなどの音声入力操作を行うと（ステップＳＵ３）、情報端末１０における音声信号入出力モードが、インカム２０から音声信号を取得し、情報端末１０の音声入出力デバイス１３に音声信号を出力するモードに切り替えられる（ステップＳＪ４）。

店員２が、インカム２０に日本語で音声を入力すると（ステップＳＵ４；図９）、入力された音声が音声信号に変換されて情報端末１０に送信される（ステップＳＩ１）。この音声信号は、通信インターフェース１４を介して音声信号受付部３１に受け付けられ（ステップＳＪ５）、翻訳処理部３２に順次入力される。翻訳処理部３２は、サーバ装置Ｓと協働して音声認識処理を行う（ステップＳＪ６）。このとき、表示デバイス１６に、インカム２０に入力された音声の大小を模式的に且つ動的に表す波形図案４４を表示することにより（図１０）、インカム２０からの音声信号の入力を受付中であることを示してもよい。

インカム２０からの音声信号の入力が終了し、例えば音声信号の入力が一定期間ないことを音声信号受付部３１が検知すると、音声信号受付部３１は、インカム２０からの音声信号の入力受付を終了する。すると、翻訳処理部３２は、それまでに入力された音声信号の内容について、サーバ装置Ｓと協働して翻訳処理を行う（ステップＳＪ７）。詳細には、翻訳処理部３２は、サーバ装置Ｓに送信された日本語の音声信号の内容の翻訳をサーバ装置Ｓに要求し、翻訳後の英語のテキストと、このテキストを英語の音声で出力するための音声信号とを取得する。このとき、表示デバイス１６に、翻訳中である旨を示す英語のテキストＴ３を表示してもよい（図１０）。

テキスト表示処理部３５は、翻訳処理部３２が取得した翻訳後の英語のテキストＴ４を表示デバイス１６に表示させる（ステップＳＪ８；図１１）。また、音声信号出力部３３は、翻訳処理部３２が取得した英語の音声信号を音声入出力デバイス１３に出力し、翻訳後の英語の音声を出力させる（ステップＳＪ９）。なお、この間（ステップＳＪ４〜ＳＪ９）、音声入出力デバイス１３から音声信号受付部３１への音声信号の入力は遮断される。その後、表示デバイス１６の画面は、再び音声入力画面に遷移する（ステップＳＪ１０；図８）。

顧客３が、例えば音声入力画面に表示された音声入力ボタン４２をタップするなどの音声入力操作を行うと（ステップＳＫ２）、情報端末１０における音声信号入出力モードが、音声入出力デバイス１３から音声信号を取得し、インカム２０に音声信号を出力するモードに切り替えられる（ステップＳＪ１１）。なお、このとき、音声入力ボタン４２の色を変化させたり、点滅させたりして、音声信号入出力モードが切り替えられたことを示してもよい。

顧客３が、音声入出力デバイス１３に英語で音声を入力すると（ステップＳＫ３；図１２）、入力された音声が音声信号に変換されて音声信号受付部３１に受け付けられ（ステップＳＪ１２）、翻訳処理部３２に順次入力される。翻訳処理部３２は、サーバ装置Ｓと協働して音声認識処理を行い（ステップＳＪ１３）、顧客３が発話した内容（英語）のテキストを表示デバイス１６に順次表示する（ステップＳＪ１４）。顧客３は、表示デバイス１６に表示された英語のテキストＴ５（図１３）を見て、発話した内容が自身の意図に沿ったものであるか否かを確認することができる。

音声入出力デバイス１３からの音声信号の入力が終了し、例えば音声信号の入力が一定期間ないことを音声信号受付部３１が検知すると、音声信号受付部３１は、音声入出力デバイス１３からの音声信号の入力受付を終了する。すると、翻訳処理部３２は、それまでに入力された音声信号の内容について、サーバ装置Ｓと協働して翻訳処理を行う（ステップＳＪ１５）。詳細には、翻訳処理部３２は、サーバ装置Ｓに送信された英語の音声信号の翻訳をサーバ装置Ｓに要求し、翻訳後の日本語のテキストと、このテキストを日本語の音声で出力するための音声信号とを取得する。

音声信号出力部３３は、翻訳処理部３２が取得した日本語の音声信号を、通信インターフェース１４を介してインカム２０に送信する（ステップＳＪ１６）。インカム２０は、情報端末１０から日本語の音声信号を受信すると（ステップＳＩ２）、受信した音声信号に基づき、翻訳された日本語の音声を出力する（ステップＳＩ３）。なお、この間（ステップＳＪ１１〜ＳＩ３）、インカム２０から無線送信された音声信号の音声信号受付部３１への入力は遮断される。その後、表示デバイス１６の画面は、再び音声入力画面に遷移する（ステップＳＪ１７；図８）。

このようにして、店員２と顧客３との間で会話が進められる。そして会話が終了すると、店員２は顧客３から情報端末１０を受け取り、例えば音声入力画面（図８）に表示された終了ボタン４３をタップするなどの終了操作を行うと、音声翻訳システム１における一連の翻訳処理が終了する（ステップＳＵ５）。

以上説明したように、本実施形態によれば、音声翻訳装置として機能する情報端末１０と、音声入出力装置として機能するインカム２０とを無線接続し、情報端末１０に入力された音声の内容の翻訳をインカム２０から音声出力し、インカム２０に入力された音声の内容の翻訳を情報端末１０から音声出力するので、インカム２０を装着した店員２と情報端末１０を持つ顧客３との間で、円滑に会話を行うことが可能となる。特に、本実施形態においては、情報端末１０を顧客３専用の音声翻訳装置として使用するので、１台の音声翻訳装置に音声を入力し又は出力される音声を聞くために店員２と顧客３が接近したり、店員２と顧客３との間で話者が変わるたびに音声翻訳装置を受け渡したりする必要がなくなり、自然な状況で、流れを途切れさせることなく会話を進めることができる。

また、本実施形態によれば、情報端末１０とインカム２０とを無線接続するので、店員２は顧客３に付ききりになる必要がなくなり、顧客３との距離が多少離れていても会話を行うことができる。従って、店員２は、情報端末１０及びインカム２０を介して顧客３と会話しながら、顧客３から受けた注文をキッチンに即座に伝えるなど、機動的動くことが可能となる。

また、本実施形態によれば、インカム２０に入力された音声の内容の翻訳を、情報端末１０から音声で出力すると共に、テキストで画面にも表示するので、顧客３は、音声を聞き漏らしたときでも翻訳の内容を画面で確認することができる。また、本実施形態によれば、情報端末１０に入力された音声の認識結果をテキストで画面に表示するので、顧客３は、自身が発話した内容を画面で確認することができる。
（変形例１）

図１４及び図１５は、本発明による音声翻訳装置における表示画面の変形例を示す平面図である。上記実施形態においては、顧客３のみが情報端末１０の画面を見ることを想定し、顧客３が情報端末１０に入力した音声の認識結果であるテキストと、店員２がインカム２０に入力した音声の内容を翻訳したテキストとを画面に表示することとした。しかしながら、店員２及び顧客３の双方が情報端末１０の画面を見ることを想定し、情報端末１０及びインカム２０の各々に入力された音声の認識結果であるテキストと、これらの翻訳後のテキストとを全て画面に表示することとしてもよい。この際、図６に示すように、店員２と顧客３が対面して会話している場合には、店員２と顧客３は互いに反対側から情報端末１０の画面を見ることになるため、図１４及び図１５に示すように、日本語のテキストと英語のテキストとを、互いに反対向きに表示するとよい。

図１４は、インカム２０を装着した店員２が発話しているときに情報端末１０に表示される画面の例を示している。この画面には、店員２が発話した内容を表す日本語のテキストＴ１１と、それを英語に翻訳したテキストＴ１２とが互いに反対向きに表示されている。また、テキストＴ１１とテキストＴ１２との間には、翻訳の向き（日本語→英語）を示す方向マーク４５が表示されている。

図１５は、情報端末１０を持った顧客３が発話しているときに情報端末１０に表示される画面の例を示している。この画面には、顧客３が発話した内容を表す英語のテキストＴ１４と、それを日本語に翻訳したテキストＴ１５とが互いに反対向きに表示されている。また、テキストＴ１４とテキストＴ１５との間には、翻訳の向き（英語→日本語）を示す方向マーク４６が表示されている。なお、図１４、図１５に示すいずれの画面においても、終了ボタン４３は、画面の店員２側に表示するとよい。
（変形例２）

上記実施形態においては、情報端末１０を音声翻訳装置として機能させたが、これに加えて、情報端末１０を、オーダーエントリーシステムＥ（図１参照）において料理の注文を入力するための端末装置（オーダー端末）として機能させてもよい。情報端末１０をオーダー端末として機能させるためには、情報端末１０にオーダー用アプリケーションプログラムを予めインストールし、起動させればよい。

この場合、情報端末１０（オーダー端末）の画面にメニューを表示し、表示されたメニューの中から顧客所望のメニューを選択することにより、注文内容が情報端末１０に入力されるようにしてもよい。この際の選択操作は、顧客３自身が行ってもよいし、店員２が代わりに行ってもよい。或いは、表示されたメニューの中から顧客所望のメニューを音声で読み上げることにより、注文内容が情報端末１０に入力されるようにしてもよい。この際の読み上げは、情報端末１０の音声入出力デバイス１３から行ってもよいし、インカム２０から行ってもよい。

情報端末１０は、注文内容が入力されるたびに、ネットワークＮを介して注文内容をオーダーエントリーシステムＥに送信してもよい。或いは、情報端末１０は、入力された注文内容を記憶し、一連の注文が終了した後で注文内容をリスト表示させ、顧客３及び／又は店員２に確認させた後で、注文内容をまとめてオーダーエントリーシステムＥに送信してもよい。後者の場合、オーダーエントリーシステムＥへの注文内容の送信は、情報端末１０に設けられた入力デバイス１５に対する操作（例えば画面に表示された注文ボタンへのタップ操作）により実行されるようにしてもよいし、インカム２０に設けられた入力スイッチ２４に対する操作により実行されるようにしてもよい。

なお、上記実施形態及び変形例において、情報端末１０は、翻訳処理部３２における一連の処理の全てを、必ずしもサーバ装置Ｓと協働して行う必要はない。例えば、情報端末１０の記憶資源１２にコーパスなどのデータベース、モジュール、モデル等を記憶させておくことにより、一連の処理の一部又は全てを情報端末１０が実行してもよい。また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

以上説明した実施形態及び変形例は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

本発明によれば、音声翻訳を介しつつも、自然な状況で円滑な会話を実現することが可能となるので、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１音声翻訳システム
２店員
３顧客
１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェース
１５入力デバイス
１６表示デバイス
１７カメラ
２０インカム
２１音声入力デバイス
２２音声出力デバイス
２３通信インターフェース
２４入力スイッチ
３１音声信号受付部
３２翻訳処理部
３３音声信号出力部
３４切替部
３５テキスト表示処理部
４１言語ボタン
４２音声入力ボタン
４３終了ボタン
４４波形図案
４５，４６方向マーク
４６方向マーク
Ｅオーダーエントリーシステム
Ｎ通信ネットワーク
Ｐ１０プログラム
Ｓサーバ装置
Ｔ１〜Ｔ５，Ｔ１１，Ｔ１２，Ｔ１４，Ｔ１５テキスト

Claims

音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、
音声の入力及び出力が可能であると共に、前記音声翻訳装置と無線接続された音声入出力装置と、を備え、
前記音声翻訳装置は、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる、音声翻訳システム。
前記音声翻訳装置は、入力された音声の内容を、ネットワークを介して接続されるサーバに送信し、前記サーバから翻訳を取得する、
請求項１記載の音声翻訳システム。
前記音声入出力装置は、入力された音声を音声信号に変換して前記音声翻訳装置に無線送信すると共に、前記音声翻訳装置から無線送信された音声信号を音声に変換して出力するものであり、
前記音声翻訳装置は、
入力された音声を音声信号に変換すると共に、音声信号を音声に変換して出力する音声入出力部と、
前記音声入出力部に入力された音声に基づく音声信号と、前記音声入出力装置に入力された音声に基づいて該音声入出力装置から送信された音声信号とのいずれか一方の入力を受け付ける音声信号受付部と、
前記音声信号受付部が入力を受け付けた音声信号の内容を異なる言語に翻訳した内容の音声信号を取得する翻訳処理部と、
前記翻訳処理部により取得された前記翻訳した内容の音声信号を、前記音声入出力部と前記音声入出力装置とのいずれか一方に出力する音声信号出力部と、を有し、
前記音声信号受付部が前記音声入出力部からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力装置に出力し、
前記音声信号受付部が前記音声入出力装置からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力部に出力する、
請求項１又は２に記載の音声翻訳システム。
前記音声翻訳装置は、前記音声信号受付部への音声信号の入力元と、前記音声信号出力部からの音声信号の出力先とを連動して切り替える切替部をさらに備える、請求項３記載の音声翻訳システム。
前記音声翻訳装置は、当該音声翻訳装置に対する入力操作を受け付ける入力デバイスをさらに有し、
前記切替部は、前記入力デバイスに対してなされた操作に応じて、前記入力元及び前記出力先を切り替える、請求項４記載の音声翻訳システム。
前記音声入出力装置は、当該音声入力装置に対する入力操作を受け付ける入力スイッチをさらに有し、
前記切替部は、前記入力スイッチに対してなされた操作に応じて、前記入力元及び前記出力先を切り替える、請求項４記載の音声翻訳システム。
前記音声翻訳装置は、前記音声信号受付部が入力を受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとの少なくともいずれかを画面に表示するテキスト表示部をさらに有する、請求項１乃至６のいずれかに記載の音声翻訳システム。
前記テキスト表示部は、前記音声信号受付部が受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとを、互いに異なる向きに表示する、請求項７記載の音声翻訳システム。
コンピュータと、該コンピュータと無線接続された音声入出力装置と、を備える音声翻訳システムにおいて、前記コンピュータを、
前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該コンピュータから音声出力すると共に、当該コンピュータに入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる音声翻訳装置として機能させる音声翻訳プログラム。