JP2018173910A - 音声翻訳システム及び音声翻訳プログラム - Google Patents

音声翻訳システム及び音声翻訳プログラム Download PDF

Info

Publication number
JP2018173910A
JP2018173910A JP2017072979A JP2017072979A JP2018173910A JP 2018173910 A JP2018173910 A JP 2018173910A JP 2017072979 A JP2017072979 A JP 2017072979A JP 2017072979 A JP2017072979 A JP 2017072979A JP 2018173910 A JP2018173910 A JP 2018173910A
Authority
JP
Japan
Prior art keywords
speech
input
voice
translation
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017072979A
Other languages
English (en)
Inventor
諒俊 武藤
Akitoshi Muto
諒俊 武藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Lifestyle Co Ltd
Original Assignee
Recruit Lifestyle Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Lifestyle Co Ltd filed Critical Recruit Lifestyle Co Ltd
Priority to JP2017072979A priority Critical patent/JP2018173910A/ja
Publication of JP2018173910A publication Critical patent/JP2018173910A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】互いの言語を理解できない人同士であっても、自然な状況で円滑な会話を進めることができる音声翻訳システム等を提供することを目的とする。【解決手段】音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、音声の入力及び出力が可能であると共に、上記音声翻訳装置と無線接続された音声入出力装置とを備え、音声翻訳装置は、音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して音声入出力装置から音声出力させる。【選択図】図1

Description

本発明は、音声翻訳システム及び音声翻訳プログラムに関する。
互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と顧客(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。
特開平9−34895号公報
VoiceTraホームページ[平成29年3月31日検索]、インターネット<URL:http://voicetra.nict.go.jp/index.html>
ここで、上記従来の音声翻訳アプリケーションソフトにおける処理の概略を、図16(A)乃至(D)を参照して以下に説明する。なお、図16(A)乃至(D)は、上記非特許文献1に記載された内容に基づいて、情報端末における表示画面の遷移の一例を再構成した平面図である。
まず、情報端末90にインストールされている当該アプリケーションを起動すると、例えば日本語と英語の音声入力の待機画面が表示される(図16(A))。なお、この画面において、選択ボタン91をタップすると複数の言語が表示され、適宜の2種類の言語を選択することができ、また、国旗を表す言語切替ボタン(国旗ボタン)92の何れかをタップすることにより入力言語を切り替えることができる。この図16(A)では、入力言語が日本語であり、翻訳言語が英語である状態を示す。
この待機画面において、マイクボタン93をタップすると、マイクの図案と入力音量のレベル表示が表示され、発話内容を受け付ける音声入力画面となる(図16(B))。この状態で、ユーザ(質問者)が質問事項等を日本語で発話した後、終了ボタン94をタップすると、入力された発話内容の認識及び翻訳が行われるとともに、認識中の表示を含む待機画面が表示される(図16(C))。
翻訳が完了すると、音声入力及びそれに対応する日本語の会話コーパスのテキスト95,96、及びその翻訳文である英語の会話コーパスのテキスト97の表示を含む会話画面が表示され、同時にテキスト97を読み上げる英語音声が出力される(図16(D))。なお、ここではテキスト95,96が同一の場合について例示したが、両者が異なる場合もあり得る。
そして、英語の音声を聞いた回答者がその内容を理解することができた場合、或いは、音声が理解しづらくてもテキスト97を見て理解することができた場合、今度は、言語切替ボタン92で英語入力に切り替え、図16(A)〜(D)と同様のステップにより、会話の相手(回答者)が英語で発話した回答内容を日本語で質問者へ伝えることができる。また、会話画面(図16(D))には、音声入力の内容に対応するテキスト95,96が意図した内容と違う場合に、ユーザ(質問者)が発話をやり直すための再入力ボタン98、会話の相手(回答者)が翻訳された内容を理解できずユーザに内容を言い換えてもらうための要請ボタン99、及び、ユーザ又は会話の相手が音声を再度再生するためのリピート再生ボタン100も表示される。
このとおり、従来の音声翻訳アプリケーションソフトによれば、ユーザ(質問者)による音声入力とその翻訳結果の音声出力と、相手(回答者)による音声入力とその翻訳結果の音声出力により、両者の会話を行うことができる。その一方、上記のように1台の情報端末90を用いて会話を行う場合、ユーザとその話し相手はかなり接近して会話しなければならず、或いは、ユーザと話し相手との間で、話者が変わるたびに情報端末90を受け渡さなければならない。そのため、例えば上述した店員と顧客との会話の場面でも、店員は顧客に付ききりになる必要があり、自然な状況で円滑な会話を進めることが困難であり、不便であった。
そこで、本発明は、かかる事情に鑑みてなされたものであり、互いの言語を理解できない人同士であっても、自然な状況で円滑な会話を進めることができる音声翻訳システム及び音声翻訳プログラムを提供することを目的とする。
上記課題を解決するため、本発明の一態様による音声翻訳システムは、音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、音声の入力及び出力が可能であると共に、前記音声翻訳装置と無線接続された音声入出力装置と、を備え、前記音声翻訳装置は、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させるものである。
上記音声翻訳システムにおいて、前記音声入出力装置は、入力された音声を音声信号に変換して前記音声翻訳装置に無線送信すると共に、前記音声翻訳装置から無線送信された音声信号を音声に変換して出力するものであり、前記音声翻訳装置は、入力された音声を音声信号に変換すると共に、音声信号を音声に変換して出力する音声入出力部と、前記音声入出力部に入力された音声に基づく音声信号と、前記音声入出力装置に入力された音声に基づいて該音声入出力装置から送信された音声信号とのいずれか一方の入力を受け付ける音声信号受付部と、前記音声信号受付部が入力を受け付けた音声信号の内容を異なる言語に翻訳した内容の音声信号を取得する翻訳処理部と、前記翻訳処理部により取得された前記翻訳した内容の音声信号を、前記音声入出力デバイスと前記音声入出力装置とのいずれか一方に出力する音声信号出力部と、を有し、前記音声信号受付部が前記音声入出力デバイスからの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力装置に出力し、前記音声信号受付部が前記音声入出力装置からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力部に出力してもよい。
上記音声翻訳システムにおいて、前記音声翻訳装置は、前記音声信号受付部への音声信号の入力元と、前記音声信号出力部からの音声信号の出力先とを連動して切り替える切替部をさらに備えてもよい。
上記音声翻訳システムにおいて、前記音声翻訳装置は、当該音声翻訳装置に対する入力操作を受け付ける入力デバイスをさらに有し、前記切替部は、前記入力デバイスに対してなされた操作に応じて、前記入力元及び前記出力先を切り替えてもよい。
上記音声翻訳システムにおいて、前記音声入出力装置は、当該音声入力装置に対する入力操作を受け付ける入力スイッチをさらに有し、前記切替部は、前記入力スイッチに対してなされた操作に応じて、前記入力元及び前記出力先を切り替えてもよい。
上記音声翻訳システムにおいて、前記音声翻訳装置は、前記音声信号受付部が入力を受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとの少なくともいずれかを画面に表示するテキスト表示部をさらに有してもよい。
上記音声翻訳システムにおいて、前記テキスト表示部は、前記音声信号受付部が受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとを、互いに異なる向きに表示してもよい。
本発明の別の態様である音声翻訳プログラムは、コンピュータと、該コンピュータと無線接続された音声入出力装置と、を備える音声翻訳システムにおいて、前記コンピュータを、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該コンピュータから音声出力すると共に、当該コンピュータに入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる音声翻訳装置として機能させるものである。
本発明によれば、音声翻訳装置と音声入出力装置とを無線接続し、音声翻訳装置に入力された音声の翻訳を音声入出力装置から音声出力し、音声入出力装置に入力された音声の翻を音声翻訳装置から音声出力するので、ユーザとその話し相手のいずれか一方が音声入出力装置を使用し、他方が音声翻訳装置を使用することで、ユーザとその話し相手が互いに接近して会話したり、話者が変わるたびに音声翻訳装置を受け渡したりする必要がなくなり、自然な状況で円滑な会話を進めることが可能となる。
本発明による音声翻訳システムを含むネットワーク構成の一例を概略的に示すシステムブロック図である。 本発明による音声翻訳装置(情報端末)の好適な一実施形態を概略的に示すシステムブロック図である。 本発明による音声入出力装置(インカム)の好適な一実施形態を概略的に示すシステムブロック図である。 本発明による音声翻訳装置の機能の一例を概略的に示すブロック図である。 本発明による音声翻訳システムにおける処理の流れ(一部)の一例を示すフローチャートである。 本発明による音声翻訳システムの使用状況を例示する模式図である。 本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 本発明による音声翻訳システムの使用状況を例示する模式図である。 本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 本発明による音声翻訳システムの使用状況を例示する模式図である。 本発明による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 本発明による音声翻訳装置における表示画面の変形例を示す平面図である。 本発明による音声翻訳装置における表示画面の変形例を示す平面図である。 (A)乃至(D)は、従来の音声翻訳装置における表示画面の遷移の一例を示す平面図である。
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
図1は、本発明による音声翻訳システムを含むネットワーク構成の一例を概略的に示すシステムブロック図である。本発明における音声翻訳システム1は、音声翻訳装置として機能する情報端末10と、該情報端末10と無線通信可能な音声入出力装置として機能するインカム20とを備える。情報端末10は、ネットワークNを介してサーバ装置Sに接続されてもよい。
ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。この他、ネットワークNに、飲食店における料理の注文情報を即時にキッチンに送信するオーダーエントリーシステムEなどを接続してもよい。
サーバ装置Sは、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。サーバ装置Sは、プログラム、並びに、このプログラムの実行中に使用される各種モジュール、各種データベース、及び各種モデル等を格納する記憶資源を備えている。
各種モジュールは、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、上記プログラムの動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールとしては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。また、各種データベースとしては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)や、音声信号データベース等が挙げられる。また、各種モデルとしては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。
図2は、本発明による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態における情報端末10は、例えば、タッチパネル等のユーザインターフェース及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェース14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラム)が動作することにより、本発明の一実施形態による音声翻訳装置として機能するものである。音声翻訳アプリケーションソフトは、例えばサーバ装置SからネットワークNを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。プロセッサ11が音声翻訳アプリケーションソフトを実行することにより実現される機能の詳細については後述する。
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための出力デバイスドライバプログラム等が挙げられる。
音声入出力デバイス13は、例えば、入力された音声を電気的な信号(音声信号)に変換する一般的なマイクロフォン(音声入力部)、及び音声信号を音声として再生可能なサウンドプレイヤ(音声出力部)である。また、通信インターフェース14は、例えばサーバ装置S及びインカム20との接続インターフェースを提供するものであり、無線通信インターフェース及び/又は有線通信インターフェースから構成される。
入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェースを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
表示デバイス16は、画像表示インターフェースとして各種の情報をユーザ及びその会話の相手方に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
図3は、本発明による音声入出力装置(インカム)の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態におけるインカム20は、無線接続された他の機器との間で通話可能な相互通信式構内電話(インターコミュニケーション)である。インカム20は、音声入力デバイス21、音声出力デバイス22、通信インターフェース23、及び入力スイッチ24を備えている。
音声入力デバイス21は、入力された音声を音声信号に変換する一般的なマイクロフォンである。また、音声出力デバイス22は、音声信号を音声として再生可能なサウンドプレイヤである。音声入力デバイス21及び音声出力デバイス22は、ユーザの頭部に装着可能なヘッドセットの形態であってもよく、この場合、ユーザはハンズフリーで通話することができる。
通信インターフェース23は、例えば情報端末10との接続インターフェースを提供するものであり、例えばブルートゥース(Bluetooth:登録商標)やWiFi(Wireless Fidelity)等に対応する無線通信インターフェースから構成される。入力スイッチ24は、例えばボタン式のスイッチであり、電源のオンオフ、音声入力の開始や終了、ボリュームの調整といった各種操作を受け付ける。
図4は、本発明による音声翻訳装置の機能の一例を概略的に示すブロック図である。プロセッサ11がプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行することにより実現される機能部には、図4に示すように、音声信号受付部31、翻訳処理部32、音声信号出力部33、切替部34、及びテキスト表示処理部35が含まれる。
音声信号受付部31は、音声入出力デバイス13に入力された音声に基づく音声信号と、インカム20に入力された音声に基づきインカム20から無線送信された音声信号とのいずれか一方の入力を受け付ける。
翻訳処理部32は、音声信号受付部31が受け付けた音声信号の内容を、異なる言語に翻訳する翻訳処理を実行する。詳細には、翻訳処理部32は、音声信号受付部31が受け付けた音声信号を、通信インターフェース14及びネットワークNを介してサーバ装置Sに送信し、この音声信号が表す「音」を「読み」(テキスト)に変換したテキストと、このテキストの内容を他の言語に翻訳したテキストと、翻訳したテキストを音声として読み上げるための音声信号とを要求する。このとき、サーバ装置Sは、記憶資源から必要なモジュール、データベース、及びモデル(即ち、音声認識モジュール、日本語又はその他の言語の音声コーパス、音響モデル、言語モデル等)を呼び出し、受信した音声信号により表される音声について音声認識処理を行うことにより、この音声をテキストに変換したデータを情報端末10に送信する。また、サーバ装置Sは、記憶資源から必要なモジュール及びデータベース(翻訳モジュール、並びに、日英翻訳を行う場合には、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である音声の「読み」(テキスト)を構成する句、節、文等に対応する翻訳語の言語を抽出し、それらを当該言語の文法に従って並び替えて自然な句、節、文等へと変換することにより翻訳を行い、翻訳されたテキストを表すデータを情報端末10に送信する。さらに、サーバ装置Sは、記憶資源から必要なモジュール、データベース、及びモデル(音声合成モジュール、日本語又はその他の言語の音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳されたテキストを自然な音声に変換した音声信号を生成し、情報端末10に送信する。このように、翻訳処理部32は、サーバ装置Sと協働して翻訳処理部32としての機能を実現する。
音声信号出力部33は、翻訳処理部32が取得した翻訳後の言語による音声信号を、音声入出力デバイス13とインカム20とのいずれか一方に出力する。
切替部34は、音声信号受付部31への音声信号の入力元と、音声信号出力部33からの音声信号の出力先とを連動して切り替える。詳細には、切替部34は、情報端末10の音声入出力デバイス13から音声信号の入力を受け付けた場合には、インカム20に音声信号を無線送信し、インカム20から無線送信された音声信号の入力を受け付けた場合には、情報端末10の音声入出力デバイス13に音声信号を出力するように、上記音声信号の入力元及び出力先を切り替える。切替部34は、情報端末10の入力デバイス15に対する操作に応じて音声信号の入力元及び出力先の切り替えを行ってもよいし、インカム20の入力スイッチ24に対する操作に応じて上記切り替えを行ってもよい。或いは、音声入出力デバイス13への音声の入力と、インカム20への音声の入力とのうち、先に行われた方を優先して音声信号の入力を受け付けることとしてもよい。
テキスト表示処理部35は、音声認識された翻訳前のテキストと、これを翻訳したテキストとの少なくともいずれかを表示デバイス16に表示させる。
以上のとおり構成された音声翻訳システム1において、音声翻訳アプリケーションソフトを実行したときの操作及び動作手順の一例について、以下に更に説明する。
(実施形態)
図5は、本実施形態の音声翻訳システムにおける処理の流れ(一部)の一例を示すフローチャートである。また、図6、図9、図12は、音声翻訳システム1の使用状況を例示する模式図である。図7、図8、図10、図11、図13は、情報端末10における表示画面の遷移の一例を示す平面図である。ここでは、図6に示すように、日本語を話す飲食店の店員2と、英語を話す顧客3とが会話する場面を想定する。この場合、店員2がインカム20を装着し、顧客3が情報端末10を持って会話を行う(但し、これに限定されない)。なお、店員2は、オーダーエントリーシステムE(図1)に注文内容を送信するためのオーダー端末e1に入力しながら会話を行ってもよい。
まず、店員2は、情報端末10とインカム20とをペアリングすることにより、両者を無線接続する(ステップSU1)。続いて、店員2が、情報端末10の表示デバイス16に表示されている音声翻訳アプリケーションソフトのアイコン(図示せず)をタップするなどして当該アプリケーションを起動すると(ステップSU2)、表示デバイス16に、顧客の言語選択画面が表示される(ステップSJ1;図7)。この言語選択画面には、顧客の言語を選択する旨の説明を記した日本語と英語のテキストT1、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、韓国語)を示す言語ボタン41が表示される。
店員2は言語選択画面のテキストT1の表示を顧客に提示し、顧客に英語(English)のボタンをタップさせることで言語を選択してもらう(ステップSK1)。それにより、情報端末10において、翻訳言語として英語が設定され(ステップSJ2)、日本語と英語との間で翻訳を行うモードとなる。その後、表示デバイス16に、音声入力画面が表示される(ステップSJ3;図8)。この音声入力画面には、音声入力ボタン42、音声入力ボタン42にタップする旨の指示を英語で記したテキストT2、及び終了ボタン43が表示される。
店員2が、例えばインカム20に設けられた入力スイッチ24を押すなどの音声入力操作を行うと(ステップSU3)、情報端末10における音声信号入出力モードが、インカム20から音声信号を取得し、情報端末10の音声入出力デバイス13に音声信号を出力するモードに切り替えられる(ステップSJ4)。
店員2が、インカム20に日本語で音声を入力すると(ステップSU4;図9)、入力された音声が音声信号に変換されて情報端末10に送信される(ステップSI1)。この音声信号は、通信インターフェース14を介して音声信号受付部31に受け付けられ(ステップSJ5)、翻訳処理部32に順次入力される。翻訳処理部32は、サーバ装置Sと協働して音声認識処理を行う(ステップSJ6)。このとき、表示デバイス16に、インカム20に入力された音声の大小を模式的に且つ動的に表す波形図案44を表示することにより(図10)、インカム20からの音声信号の入力を受付中であることを示してもよい。
インカム20からの音声信号の入力が終了し、例えば音声信号の入力が一定期間ないことを音声信号受付部31が検知すると、音声信号受付部31は、インカム20からの音声信号の入力受付を終了する。すると、翻訳処理部32は、それまでに入力された音声信号の内容について、サーバ装置Sと協働して翻訳処理を行う(ステップSJ7)。詳細には、翻訳処理部32は、サーバ装置Sに送信された日本語の音声信号の内容の翻訳をサーバ装置Sに要求し、翻訳後の英語のテキストと、このテキストを英語の音声で出力するための音声信号とを取得する。このとき、表示デバイス16に、翻訳中である旨を示す英語のテキストT3を表示してもよい(図10)。
テキスト表示処理部35は、翻訳処理部32が取得した翻訳後の英語のテキストT4を表示デバイス16に表示させる(ステップSJ8;図11)。また、音声信号出力部33は、翻訳処理部32が取得した英語の音声信号を音声入出力デバイス13に出力し、翻訳後の英語の音声を出力させる(ステップSJ9)。なお、この間(ステップSJ4〜SJ9)、音声入出力デバイス13から音声信号受付部31への音声信号の入力は遮断される。その後、表示デバイス16の画面は、再び音声入力画面に遷移する(ステップSJ10;図8)。
顧客3が、例えば音声入力画面に表示された音声入力ボタン42をタップするなどの音声入力操作を行うと(ステップSK2)、情報端末10における音声信号入出力モードが、音声入出力デバイス13から音声信号を取得し、インカム20に音声信号を出力するモードに切り替えられる(ステップSJ11)。なお、このとき、音声入力ボタン42の色を変化させたり、点滅させたりして、音声信号入出力モードが切り替えられたことを示してもよい。
顧客3が、音声入出力デバイス13に英語で音声を入力すると(ステップSK3;図12)、入力された音声が音声信号に変換されて音声信号受付部31に受け付けられ(ステップSJ12)、翻訳処理部32に順次入力される。翻訳処理部32は、サーバ装置Sと協働して音声認識処理を行い(ステップSJ13)、顧客3が発話した内容(英語)のテキストを表示デバイス16に順次表示する(ステップSJ14)。顧客3は、表示デバイス16に表示された英語のテキストT5(図13)を見て、発話した内容が自身の意図に沿ったものであるか否かを確認することができる。
音声入出力デバイス13からの音声信号の入力が終了し、例えば音声信号の入力が一定期間ないことを音声信号受付部31が検知すると、音声信号受付部31は、音声入出力デバイス13からの音声信号の入力受付を終了する。すると、翻訳処理部32は、それまでに入力された音声信号の内容について、サーバ装置Sと協働して翻訳処理を行う(ステップSJ15)。詳細には、翻訳処理部32は、サーバ装置Sに送信された英語の音声信号の翻訳をサーバ装置Sに要求し、翻訳後の日本語のテキストと、このテキストを日本語の音声で出力するための音声信号とを取得する。
音声信号出力部33は、翻訳処理部32が取得した日本語の音声信号を、通信インターフェース14を介してインカム20に送信する(ステップSJ16)。インカム20は、情報端末10から日本語の音声信号を受信すると(ステップSI2)、受信した音声信号に基づき、翻訳された日本語の音声を出力する(ステップSI3)。なお、この間(ステップSJ11〜SI3)、インカム20から無線送信された音声信号の音声信号受付部31への入力は遮断される。その後、表示デバイス16の画面は、再び音声入力画面に遷移する(ステップSJ17;図8)。
このようにして、店員2と顧客3との間で会話が進められる。そして会話が終了すると、店員2は顧客3から情報端末10を受け取り、例えば音声入力画面(図8)に表示された終了ボタン43をタップするなどの終了操作を行うと、音声翻訳システム1における一連の翻訳処理が終了する(ステップSU5)。
以上説明したように、本実施形態によれば、音声翻訳装置として機能する情報端末10と、音声入出力装置として機能するインカム20とを無線接続し、情報端末10に入力された音声の内容の翻訳をインカム20から音声出力し、インカム20に入力された音声の内容の翻訳を情報端末10から音声出力するので、インカム20を装着した店員2と情報端末10を持つ顧客3との間で、円滑に会話を行うことが可能となる。特に、本実施形態においては、情報端末10を顧客3専用の音声翻訳装置として使用するので、1台の音声翻訳装置に音声を入力し又は出力される音声を聞くために店員2と顧客3が接近したり、店員2と顧客3との間で話者が変わるたびに音声翻訳装置を受け渡したりする必要がなくなり、自然な状況で、流れを途切れさせることなく会話を進めることができる。
また、本実施形態によれば、情報端末10とインカム20とを無線接続するので、店員2は顧客3に付ききりになる必要がなくなり、顧客3との距離が多少離れていても会話を行うことができる。従って、店員2は、情報端末10及びインカム20を介して顧客3と会話しながら、顧客3から受けた注文をキッチンに即座に伝えるなど、機動的動くことが可能となる。
また、本実施形態によれば、インカム20に入力された音声の内容の翻訳を、情報端末10から音声で出力すると共に、テキストで画面にも表示するので、顧客3は、音声を聞き漏らしたときでも翻訳の内容を画面で確認することができる。また、本実施形態によれば、情報端末10に入力された音声の認識結果をテキストで画面に表示するので、顧客3は、自身が発話した内容を画面で確認することができる。
(変形例1)
図14及び図15は、本発明による音声翻訳装置における表示画面の変形例を示す平面図である。上記実施形態においては、顧客3のみが情報端末10の画面を見ることを想定し、顧客3が情報端末10に入力した音声の認識結果であるテキストと、店員2がインカム20に入力した音声の内容を翻訳したテキストとを画面に表示することとした。しかしながら、店員2及び顧客3の双方が情報端末10の画面を見ることを想定し、情報端末10及びインカム20の各々に入力された音声の認識結果であるテキストと、これらの翻訳後のテキストとを全て画面に表示することとしてもよい。この際、図6に示すように、店員2と顧客3が対面して会話している場合には、店員2と顧客3は互いに反対側から情報端末10の画面を見ることになるため、図14及び図15に示すように、日本語のテキストと英語のテキストとを、互いに反対向きに表示するとよい。
図14は、インカム20を装着した店員2が発話しているときに情報端末10に表示される画面の例を示している。この画面には、店員2が発話した内容を表す日本語のテキストT11と、それを英語に翻訳したテキストT12とが互いに反対向きに表示されている。また、テキストT11とテキストT12との間には、翻訳の向き(日本語→英語)を示す方向マーク45が表示されている。
図15は、情報端末10を持った顧客3が発話しているときに情報端末10に表示される画面の例を示している。この画面には、顧客3が発話した内容を表す英語のテキストT14と、それを日本語に翻訳したテキストT15とが互いに反対向きに表示されている。また、テキストT14とテキストT15との間には、翻訳の向き(英語→日本語)を示す方向マーク46が表示されている。なお、図14、図15に示すいずれの画面においても、終了ボタン43は、画面の店員2側に表示するとよい。
(変形例2)
上記実施形態においては、情報端末10を音声翻訳装置として機能させたが、これに加えて、情報端末10を、オーダーエントリーシステムE(図1参照)において料理の注文を入力するための端末装置(オーダー端末)として機能させてもよい。情報端末10をオーダー端末として機能させるためには、情報端末10にオーダー用アプリケーションプログラムを予めインストールし、起動させればよい。
この場合、情報端末10(オーダー端末)の画面にメニューを表示し、表示されたメニューの中から顧客所望のメニューを選択することにより、注文内容が情報端末10に入力されるようにしてもよい。この際の選択操作は、顧客3自身が行ってもよいし、店員2が代わりに行ってもよい。或いは、表示されたメニューの中から顧客所望のメニューを音声で読み上げることにより、注文内容が情報端末10に入力されるようにしてもよい。この際の読み上げは、情報端末10の音声入出力デバイス13から行ってもよいし、インカム20から行ってもよい。
情報端末10は、注文内容が入力されるたびに、ネットワークNを介して注文内容をオーダーエントリーシステムEに送信してもよい。或いは、情報端末10は、入力された注文内容を記憶し、一連の注文が終了した後で注文内容をリスト表示させ、顧客3及び/又は店員2に確認させた後で、注文内容をまとめてオーダーエントリーシステムEに送信してもよい。後者の場合、オーダーエントリーシステムEへの注文内容の送信は、情報端末10に設けられた入力デバイス15に対する操作(例えば画面に表示された注文ボタンへのタップ操作)により実行されるようにしてもよいし、インカム20に設けられた入力スイッチ24に対する操作により実行されるようにしてもよい。
なお、上記実施形態及び変形例において、情報端末10は、翻訳処理部32における一連の処理の全てを、必ずしもサーバ装置Sと協働して行う必要はない。例えば、情報端末10の記憶資源12にコーパスなどのデータベース、モジュール、モデル等を記憶させておくことにより、一連の処理の一部又は全てを情報端末10が実行してもよい。また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
以上説明した実施形態及び変形例は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
本発明によれば、音声翻訳を介しつつも、自然な状況で円滑な会話を実現することが可能となるので、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。
1 音声翻訳システム
2 店員
3 顧客
10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェース
15 入力デバイス
16 表示デバイス
17 カメラ
20 インカム
21 音声入力デバイス
22 音声出力デバイス
23 通信インターフェース
24 入力スイッチ
31 音声信号受付部
32 翻訳処理部
33 音声信号出力部
34 切替部
35 テキスト表示処理部
41 言語ボタン
42 音声入力ボタン
43 終了ボタン
44 波形図案
45,46 方向マーク
46 方向マーク
E オーダーエントリーシステム
N 通信ネットワーク
P10 プログラム
S サーバ装置
T1〜T5,T11,T12,T14,T15 テキスト

Claims (9)

  1. 音声の入力及び出力が可能であり、入力された音声の内容を異なる言語に翻訳して音声として出力する音声翻訳装置と、
    音声の入力及び出力が可能であると共に、前記音声翻訳装置と無線接続された音声入出力装置と、を備え、
    前記音声翻訳装置は、前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該音声翻訳装置から音声出力すると共に、当該音声翻訳装置に入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる、音声翻訳システム。
  2. 前記音声翻訳装置は、入力された音声の内容を、ネットワークを介して接続されるサーバに送信し、前記サーバから翻訳を取得する、
    請求項1記載の音声翻訳システム。
  3. 前記音声入出力装置は、入力された音声を音声信号に変換して前記音声翻訳装置に無線送信すると共に、前記音声翻訳装置から無線送信された音声信号を音声に変換して出力するものであり、
    前記音声翻訳装置は、
    入力された音声を音声信号に変換すると共に、音声信号を音声に変換して出力する音声入出力部と、
    前記音声入出力部に入力された音声に基づく音声信号と、前記音声入出力装置に入力された音声に基づいて該音声入出力装置から送信された音声信号とのいずれか一方の入力を受け付ける音声信号受付部と、
    前記音声信号受付部が入力を受け付けた音声信号の内容を異なる言語に翻訳した内容の音声信号を取得する翻訳処理部と、
    前記翻訳処理部により取得された前記翻訳した内容の音声信号を、前記音声入出力部と前記音声入出力装置とのいずれか一方に出力する音声信号出力部と、を有し、
    前記音声信号受付部が前記音声入出力部からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力装置に出力し、
    前記音声信号受付部が前記音声入出力装置からの音声信号の入力を受け付けた場合、前記音声信号出力部は、前記翻訳した内容の音声信号を前記音声入出力部に出力する、
    請求項1又は2に記載の音声翻訳システム。
  4. 前記音声翻訳装置は、前記音声信号受付部への音声信号の入力元と、前記音声信号出力部からの音声信号の出力先とを連動して切り替える切替部をさらに備える、請求項3記載の音声翻訳システム。
  5. 前記音声翻訳装置は、当該音声翻訳装置に対する入力操作を受け付ける入力デバイスをさらに有し、
    前記切替部は、前記入力デバイスに対してなされた操作に応じて、前記入力元及び前記出力先を切り替える、請求項4記載の音声翻訳システム。
  6. 前記音声入出力装置は、当該音声入力装置に対する入力操作を受け付ける入力スイッチをさらに有し、
    前記切替部は、前記入力スイッチに対してなされた操作に応じて、前記入力元及び前記出力先を切り替える、請求項4記載の音声翻訳システム。
  7. 前記音声翻訳装置は、前記音声信号受付部が入力を受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとの少なくともいずれかを画面に表示するテキスト表示部をさらに有する、請求項1乃至6のいずれかに記載の音声翻訳システム。
  8. 前記テキスト表示部は、前記音声信号受付部が受け付けた音声信号の内容を表すテキストと、前記翻訳した内容のテキストとを、互いに異なる向きに表示する、請求項7記載の音声翻訳システム。
  9. コンピュータと、該コンピュータと無線接続された音声入出力装置と、を備える音声翻訳システムにおいて、前記コンピュータを、
    前記音声入出力装置に入力された音声の内容を異なる言語に翻訳して当該コンピュータから音声出力すると共に、当該コンピュータに入力された音声の内容を異なる言語に翻訳して前記音声入出力装置から音声出力させる音声翻訳装置として機能させる音声翻訳プログラム。
JP2017072979A 2017-03-31 2017-03-31 音声翻訳システム及び音声翻訳プログラム Pending JP2018173910A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017072979A JP2018173910A (ja) 2017-03-31 2017-03-31 音声翻訳システム及び音声翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017072979A JP2018173910A (ja) 2017-03-31 2017-03-31 音声翻訳システム及び音声翻訳プログラム

Publications (1)

Publication Number Publication Date
JP2018173910A true JP2018173910A (ja) 2018-11-08

Family

ID=64107434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017072979A Pending JP2018173910A (ja) 2017-03-31 2017-03-31 音声翻訳システム及び音声翻訳プログラム

Country Status (1)

Country Link
JP (1) JP2018173910A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022113189A1 (ja) * 2020-11-25 2022-06-02 マクセル株式会社 音声翻訳処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62286172A (ja) * 1986-06-04 1987-12-12 Ricoh Co Ltd 文書処理装置
JP2005513619A (ja) * 2001-12-17 2005-05-12 ジャヤラトゥヌ,ネヴィル リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62286172A (ja) * 1986-06-04 1987-12-12 Ricoh Co Ltd 文書処理装置
JP2005513619A (ja) * 2001-12-17 2005-05-12 ジャヤラトゥヌ,ネヴィル リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022113189A1 (ja) * 2020-11-25 2022-06-02 マクセル株式会社 音声翻訳処理装置

Similar Documents

Publication Publication Date Title
US8411824B2 (en) Methods and systems for a sign language graphical interpreter
US20140324412A1 (en) Translation device, translation system, translation method and program
US20210304743A1 (en) Voice assistant management
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
JP6290479B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6141483B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2020113150A (ja) 音声翻訳対話システム
JP6353860B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6310950B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6250209B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2018173910A (ja) 音声翻訳システム及び音声翻訳プログラム
JP5998298B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
US20090055167A1 (en) Method for translation service using the cellular phone
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2017086434A1 (ja) 音声翻訳プログラム、音声翻訳装置、及びその制御方法
TW201346597A (zh) 多語言即時翻譯系統
TWM515143U (zh) 語音翻譯系統及翻譯處理裝置
JP6198879B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2007004391A1 (ja) 対話支援装置
JP7519441B2 (ja) 使用者端末、及びその制御方法
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6334589B2 (ja) 定型フレーズ作成装置及びプログラム、並びに、会話支援装置及びプログラム
JP2016091195A (ja) 情報送受信プログラム及びシステム
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
JP2004094721A (ja) 携帯電話装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181025