JP2016171565A

JP2016171565A - ウェアラブル装置及び翻訳システム

Info

Publication number: JP2016171565A
Application number: JP2016018575A
Authority: JP
Inventors: 石川　智一; Tomokazu Ishikawa; 智一石川
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2015-03-13
Filing date: 2016-02-03
Publication date: 2016-09-23
Anticipated expiration: 2036-02-03
Also published as: JP6603875B2

Abstract

【課題】異言語の話者間の会話を翻訳する際に会話の自然さを損ないにくいウェアラブル翻訳装置を提供する。
【解決手段】ウェアラブル翻訳装置１は、ユーザの身体に装着可能であるウェアラブル翻訳装置１であって、ユーザから第１言語の音声を取得して第１言語の音声信号を生成するマイクロホン装置１３と、第１言語の音声信号から変換された第２言語の音声信号を取得する制御回路１１とを備える。また、第２言語の音声信号に対して所定の処理を実行する音声処理回路１５と、処理された第２言語の音声信号を音声として出力するスピーカ装置１６とを備える。また、音声処理回路１５は、スピーカ装置１６の上方にユーザの発声器が位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザの発声器の位置に向けて移動させる。
【選択図】図１

Description

本開示は、異言語の話者間の会話を自動的かつリアルタイムに翻訳するために、ユーザの身体に装着して使用されるウェアラブル装置及び翻訳システムに関する。

音声認識、機械翻訳、及び音声合成の技術の発達により、異言語の話者間の会話を自動的かつリアルタイムに翻訳する翻訳装置が知られている。このような翻訳装置のなかには、携帯型又はウェアラブル型のものもある。

例えば、特許文献１は、騒音下の野外でも自然に近い形で自動翻訳通話を実現する自動翻訳装置を開示している。

特開２００７−２７２２６０号公報特開２０１２−０９３７０５号公報国際公開第２００９／１０１７７８号特開２００９−２９６１１０号公報

翻訳装置の利便性を向上するためには、例えば、翻訳装置の使用時に翻訳装置の存在をなるべく話者及び聴取者に意識させず、翻訳装置が介在しても自然な会話であると話者及び聴取者が認識できるようにすることが求められる。

本開示は、異言語の話者間の会話を翻訳する際に会話の自然さを保つウェアラブル装置及び翻訳システムを提供する。

本開示の態様に係るウェアラブル翻訳装置は、ユーザの身体に装着可能であるウェアラブル翻訳装置であって、ユーザから第１言語の音声を取得して第１言語の音声信号を生成するマイクロホン装置と、第１言語の音声信号から変換された第２言語の音声信号を取得する制御回路とを備える。また、第２言語の音声信号に対して所定の処理を実行する音声処理回路と、処理された第２言語の音声信号を音声として出力するスピーカ装置とを備える。また、音声処理回路は、スピーカ装置の上方にユーザの発声器が位置することが検出された場合、同検出に応じて、スピーカ装置の音像をスピーカ装置の位置からユーザの発声器の位置に向けて移動させる。

本開示の態様に係るウェアラブル装置及び翻訳システムは、異言語の話者間の会話を翻訳する際に会話の自然さを保つのに有効である。

第１の実施の形態に係る翻訳システムの構成を示すブロック図第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置をユーザが装着した状態の第１の例を示す図第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置をユーザが装着した状態の第２の例を示す図第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置をユーザが装着した状態の第３の例を示す図第１の実施の形態に係る翻訳システムの動作を示すシーケンス図第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置のスピーカ装置からユーザの発声器までの距離の測定を説明する図第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置を使用したときの音像の上昇を説明する図第２の実施の形態に係る翻訳システムのウェアラブル翻訳装置をユーザが装着した状態の例を示す図第３の実施の形態に係る翻訳システムの構成を示すブロック図第４の実施の形態に係る翻訳システムの構成を示すブロック図第４の実施の形態に係る翻訳システムの動作を示すシーケンス図第５の実施の形態に係る翻訳システムのウェアラブル翻訳装置の構成を示すブロック図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細な説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（第１の実施の形態）
以下、図１〜図７を参照して、第１の実施の形態に係る翻訳システムについて説明する。

［１−１．構成］
図１は、第１の実施の形態に係る翻訳システムの構成を示すブロック図である。翻訳システム１００は、ウェアラブル翻訳装置１、アクセスポイント装置２、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５を含む。

ウェアラブル翻訳装置１は、ユーザの身体の所定位置に装着可能である。ウェアラブル翻訳装置１は、例えばユーザの胸部又は腹部に装着される。ウェアラブル翻訳装置１は、アクセスポイント装置２と無線通信する。アクセスポイント装置２は、例えばインターネットを介して、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５と通信する。従って、ウェアラブル翻訳装置１は、アクセスポイント装置２を介して、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５と通信する。音声認識サーバ装置３は音声信号をテキストに変換する。機械翻訳サーバ装置４は第１言語のテキストを第２言語のテキストに変換する。音声合成サーバ装置５はテキストを音声信号に変換する。

音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５はそれぞれ、ＣＰＵ等の制御回路やメモリを備えたコンピュータ装置である。音声認識サーバ装置３においては、所定のプログラムに従って制御回路が第１言語の音声信号を第１言語のテキストに変換する処理を実行する。機械翻訳サーバ装置４においては、所定のプログラムに従って制御回路が第１言語のテキストを第２言語のテキストに変換する処理を実行する。音声合成サーバ装置５は、所定のプログラムに従って制御回路が第２言語のテキストを第２言語の音声信号に変換する。なお、本実施の形態では、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５はそれぞれ別のコンピュータ装置により構成されているが、単一のサーバ装置により構成されていてもよいし、複数のサーバ装置により構成され、分散させた機能を実行するようにしてもよい。

本実施の形態では、ウェアラブル翻訳装置１のユーザが第１言語の話者であり、当該ユーザに対面する第２言語の話者と会話する場合について説明する。なお、以下の説明では、第２言語の話者は発話せず、聴取者としてのみ会話に参加するものとする。

ウェアラブル翻訳装置１は、制御回路１１、距離測定装置１２、マイクロホン装置１３、無線通信回路１４、音声処理回路１５、及びスピーカ装置１６を備える。距離測定装置１２は、スピーカ装置１６からユーザの発声器３１ａ（図２〜図４）までの距離を測定する。ここで、発声器とは、ユーザの口だけでなく、ユーザの顎や鼻下部分等の口周辺部を含む部分であり、スピーカ装置１６からの距離情報が入手可能な部分である。

マイクロホン装置１３は、ユーザから第１言語の音声を取得して第１言語の音声信号を生成する。無線通信回路１４は、アクセスポイント装置２を介して、ウェアラブル翻訳装置１の外部の音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５と通信する。制御回路１１は、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５から、無線通信回路１４を介して、第１言語の音声信号から翻訳された第２言語の音声信号を取得する。音声処理回路１５は、第２言語の音声信号に対して所定の処理を実行する。スピーカ装置１６は、処理された第２言語の音声信号を音声として出力する。

図２は、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１をユーザ３１が装着した状態の第１の例を示す図である。ウェアラブル翻訳装置１は、例えばストラップ２１でもってユーザ３１の首にかけられることにより、ユーザ３１の胸部又は腹部に位置するように装着される。マイクロホン装置１３は、例えば、図２のようにユーザ３１がウェアラブル翻訳装置１を装着したときに、地面に対して鉛直方向に並ぶ少なくとも２つのマイクロホンを含むマイクロホンアレーである。マイクロホン装置１３は、マイクロホン装置１３からユーザの発声器３１ａ向かう方向にビームを有する。スピーカ装置１６は、図２のように、ユーザ３１がウェアラブル翻訳装置１を装着したときに、ユーザ３１に対面する聴取者に向かって音声を出力するように設けられる。

図３は、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１をユーザ３１が装着した状態の第２の例を示す図である。ウェアラブル翻訳装置１は、ユーザ３１の衣服の胸部又は腹部にピンなどで装着されてもよい。ウェアラブル翻訳装置１は、例えば名札型に構成されてもよい。

図４は、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１をユーザ３１が装着した状態の第３の例を示す図である。ウェアラブル翻訳装置１は、例えばベルト２２でユーザ３１の腕に装着されてもよい。

従来、翻訳装置の使用時に翻訳装置のスピーカが話者の発声器３１ａ（例えば口）から離れていると、翻訳された音声が発声器３１ａとは異なる場所から聴こえてくることにより、聴取者が違和感を覚えるという問題がある。翻訳装置の利便性を向上するためには、翻訳装置の使用時に翻訳装置の存在をなるべく話者及び聴取者に意識させず、翻訳装置が介在しても自然な会話であると話者自身が認識できるようにすることが求められる。

このため、本実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１において、音声処理回路１５は、以下に説明するように、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させる。なお、音声処理回路１５は、ユーザ３１の発声器３１ａが検出されない場合、スピーカ装置１６の音像を移動させない。

［１−２．動作］
図５は、第１の実施の形態に係る翻訳システム１００の動作を示すシーケンス図である。ユーザ３１からマイクロホン装置１３を介して第１言語の音声信号が入力されたとき、制御回路１１は、入力された音声信号を音声認識サーバ装置３に送る。音声認識サーバ装置３は、入力された音声信号に対して音声認識を行って、認識された第１言語のテキストを生成し、制御回路１１に送る。制御回路１１は、音声認識サーバ装置３から第１言語のテキストが送られると、第１言語から第２言語に翻訳することを指示する制御信号とともに、第１言語のテキストを機械翻訳サーバ装置４に送る。機械翻訳サーバ装置４は、第１言語のテキストの機械翻訳を行って、翻訳された第２言語のテキストを生成し、制御回路１１に送る。制御回路１１は、機械翻訳サーバ装置４から第２言語のテキストが送られると、第２言語のテキストを音声合成サーバ装置５に送る。音声合成サーバ装置５は、第２言語のテキストの音声合成を行って、合成された第２言語の音声信号を生成し、制御回路１１に送る。制御回路１１は、音声合成サーバ装置５から第２言語の音声信号が送られると、第２言語の音声信号を音声処理回路１５に送る。音声処理回路１５は、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出された場合は、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させるように、第２言語の音声信号の処理を行う。音声処理回路１５は、処理された音声信号をスピーカ装置１６から音声として出力する。

なお、音声処理回路１５は、ウェアラブル翻訳装置１から所定の距離内に発声器３１ａが位置することが検出されない場合や、ウェアラブル翻訳装置１に対し発声器３１ａが所定の方向（例えば、上方の方向）に位置することが検出されない場合は、処理を終了し、音声出力を行わない。

図６は、第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置１のスピーカ装置１６からユーザ３１の発声器３１ａまでの距離の測定を説明する図である。距離測定装置１２は、例えば、図６のようにユーザ３１がウェアラブル翻訳装置１を装着したときに、ウェアラブル翻訳装置１の上面に位置するように設けられる。距離測定装置１２は、スピーカ及びマイクロホンを備える。距離測定装置１２は、距離測定装置１２のスピーカでユーザ３１の発声器３１ａに向けてインパルス信号を放射し、距離測定装置１２のマイクロホンでユーザ３１の下あごで反射されたインパルス信号を受信する。これにより、距離測定装置１２は距離測定装置１２からユーザ３１の下あごまでの距離Ｄを測定する。距離測定装置１２からスピーカ装置１６までの距離は既知である。したがって、ユーザ３１の下あごから口までの距離は異なるユーザであっても大きな違いはないので、距離Ｄを測定することによりスピーカ装置１６からユーザ３１の発声器３１ａまでの距離を得ることができる。

なお、ここでは、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することを検出する一例として、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離を測定したが、他の検出方法でもよい。つまり、スピーカ装置１６の音像をユーザ３１の発声器３１ａに向けて移動できるように、ウェアラブル翻訳装置１と発声器３１ａとの間の距離及び方向が検出できればよい。

また、ユーザ３１がウェアラブル翻訳装置１を図３又は図４のように装着するとき、距離測定装置１２は、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離に替えて、スピーカ装置１６に対するユーザ３１の発声器３１ａの相対位置を測定してもよい。距離測定装置１２は、例えば特許文献２の技術を用いて、スピーカ装置１６に対するユーザ３１の発声器３１ａの相対位置を測定してもよい。

以上のように、取得されたスピーカ装置１６からユーザ３１の発声器３１ａまでの距離情報は、制御回路１１Ｃに送られ、制御回路１１Ｃによりスピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出される。

図７は、第１の実施の形態に係る翻訳システムのウェアラブル翻訳装置１を使用したときの音像の上昇を説明する図である。ユーザ３１は第１言語の話者であり、かつ、ユーザ３１は、第２言語の話者である聴取者３２と対面している。ユーザ３１及び聴取者３２が会話する通常の状況下では、ユーザ３１及び聴取者３２の両方が立った状態又は座った状態で、１〜３ｍ離れて対面している。ユーザ３１が例えば図２のようにウェアラブル翻訳装置１を装着したとき、ウェアラブル翻訳装置１は、ユーザ３１の発声器３１ａの下方であって、首の直下から腰までの範囲のどこかにある。また、聴取者３２の聴覚器（両耳）は、地面に対して平行な水平面内にある。この場合、音声の特定周波数成分を調整することにより、音像を上昇させることができる。音声処理回路１５は、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させるように、第２言語の音声信号の特定周波数成分を調整（強調）する。

例えば、特許文献３の技術を適用すると、音声処理回路１５は以下のように動作する。音声処理回路１５は、スピーカ装置１６から聴取者３２に向けて出力される音声の音圧周波数特性が第１のピークと第２のピークを有するように周波数特性を形成する。第１のピークの中心周波数を６ｋＨｚ±１５％の範囲内に設定する。第２のピークの中心周波数を１３ｋＨｚ±２０％の範囲内に設定する。第１のピークのレベルを３ｄＢ以上１２ｄＢ以下の範囲内に設定し、第２のピークのレベルを３ｄＢ以上２５ｄＢ以下の範囲内に設定してもよい。第１のピークまたは第２のピークは、スピーカ装置１６自体の音圧周波数特性に基づいて設定されてもよい。スピーカ装置１６から出力される音声の音圧周波数特性は、中心周波数が８ｋＨｚ±１０％においてディップが形成された特性曲線を有してもよい。ディップは、スピーカ装置１６自体の音圧周波数特性に基づいて設定されてもよい。第１のピークまたは第２のピークのレベルまたはＱ値は調整可能にされてもよい。音声処理回路１５は、スピーカ装置１６から聴取者３２に向けて出力される音声の音圧周波数特性における高域レベルを、所定レベルだけブーストするよう構成してもよい。

以上のように、音声処理回路１５は所定の周波数特性を有する音声信号を形成することにより、スピーカ装置１６がユーザ３１の発声器３１ａから離れていても、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａに向けて上昇させる。これにより、図７に示すように、仮想的なスピーカ装置１６’の位置に音像を形成することができる。

第２言語の音声信号の特定周波数成分をｆ、スピーカ装置１６から仮想的なスピーカ装置１６’までの距離をｄ１、スピーカ装置１６から聴取者３２の耳までの距離をｄ２、スピーカ装置１６から出力される音声信号をＳ２（ｆ）（ただし、ｆは周波数を表す）、スピーカ装置１６から仮想的なスピーカ装置１６’までの伝達関数をＨ１（ｆ，ｄ１）、仮想的なスピーカ装置１６’から聴取者３２の耳までの伝達関数をＨ３（ｆ，ｄ２）とする。このとき、聴取者３２が聴く音声信号は、（１）式となる。

Ｓ２（ｆ）・Ｈ１（ｆ，ｄ１）・Ｈ３（ｆ，ｄ２）（１）
音声処理回路１５は、例えば１０ｃｍのオーダーの分解能で、スピーカ装置１６の音像を移動させることができる。

ウェアラブル翻訳装置１は、ウェアラブル翻訳装置１が実質的に静止しているか否かを検出するための重力センサを備えてもよい。ウェアラブル翻訳装置１が静止していない場合、スピーカ装置１６からユーザ３１の発声器３１ａまでの正確な距離を測定できないと考えられる。この場合、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離の測定を中止してもよい。それに代わって、ウェアラブル翻訳装置１が静止していない場合、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離をおおまかに測定し、音声処理回路１５は、おおまかに測定された距離に基づいて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させてもよい。

距離測定装置１２は、最初に、例えば、ユーザ３１がウェアラブル翻訳装置１を装着したときに、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離をおおまかに測定する。音声処理回路１５は、おおまかに測定された距離に基づいて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させてもよい。その後、距離測定装置１２は、スピーカ装置１６からユーザ３１の発声器３１ａまでのより正確な距離を測定する。音声処理回路１５は、測定された正確な距離に基づいて、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離に基づいて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させてもよい。

［１−３．効果等］
第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１は、ユーザ３１の身体に装着可能であるウェアラブル翻訳装置１であって、ユーザ３１から第１言語の音声を取得して第１言語の音声信号を生成するマイクロホン装置１３と、第１言語の音声信号から変換された第２言語の音声信号を取得する制御回路１１とを備える。また、第２言語の音声信号に対して所定の処理を実行する音声処理回路１５と、処理された第２言語の音声信号を音声として出力するスピーカ装置１６とを備える。また、音声処理回路１５は、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させる。

上記ウェアラブル翻訳装置１によれば、異言語の話者間の会話を翻訳する際に、会話の自然さを損ないにくいウェアラブル翻訳装置１を提供することができる。これにより、ウェアラブル型の翻訳装置に特有の「簡易さ」及び「身軽感」などの翻訳体験をユーザに提供することができる。さらに、音声処理回路１５が合成された音声の音像をユーザ３１の発声器３１ａの位置に向けて移動させるので、ユーザ３１自身があたかも外国語を話しているかのような翻訳体験を提供することができる。

また、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１によれば、ウェアラブル翻訳装置１はユーザ３１の胸部又は腹部に装着されてもよい。これにより、ウェアラブル型の翻訳装置に特有の「簡易さ」及び「身軽感」などの翻訳体験をユーザに提供することができる。

また、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１によれば、音声処理回路１５は、第２言語の音声信号の特定周波数成分を調整してもよい。このように、音声の特定周波数成分を調整することにより、音像を上昇させることができる。

また、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１によれば、マイクロホン装置１３は、マイクロホン装置１３からユーザ３１の発声器３１ａに向かう方向にビームを有してもよい。これにより、ユーザ３１の発話以外の雑音（例えば、図７の聴取者３２の発話）による影響を受けにくくなる。

また、第１の実施の形態に係る翻訳システム１００のウェアラブル翻訳装置１は、スピーカ装置１６からユーザ３１の発声器３１ａまでの距離を測定する距離測定装置１２をさらに備えてもよい。これにより、スピーカ装置１６からユーザ３１の発声器３１ａまでの実際の距離に基づいて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて適切に移動させることができる。

また、第１の実施の形態に係る翻訳システム１００は、ウェアラブル翻訳装置１、ウェアラブル翻訳装置１の外部に、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５を備える。また、音声認識サーバ装置３は、第１言語の音声信号を第１言語のテキストに変換する。また、機械翻訳サーバ装置４は、第１言語のテキストを第２言語のテキストに変換する。また、音声合成サーバ装置５は、第２言語のテキストを第２言語の音声信号に変換する。また、制御回路１１は、音声合成サーバ装置５から無線通信回路１４を介して第２言語の音声信号を取得する。これにより、ウェアラブル翻訳装置１の構成を簡単化することができる。例えば、音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５は、ウェアラブル翻訳装置１の製造者又は販売者とは異なるサードパーティ（クラウドサービス）によって提供されてもよい。クラウドサービスを用いることにより、例えば、多言語のウェアラブル翻訳装置を低コストで提供することができる。

（第２の実施の形態）
次に、図８を参照して、第２の実施の形態に係る翻訳システムのウェアラブル翻訳装置について説明する。

なお、第１の実施の形態における翻訳システム１００及びウェアラブル翻訳装置１と同様の構成については同様の符号を付し、その説明は省略する場合がある。

［２−１．構成］
図８は、第２の実施の形態に係る翻訳システムのウェアラブル翻訳装置１Ａをユーザ３１が装着した状態の例を示す図である。ウェアラブル翻訳装置１Ａは、図１のスピーカ装置１６に代えて、複数のスピーカ１６ａ，１６ｂを含むスピーカ装置１６Ａを備える。他の点では、図８のウェアラブル翻訳装置１Ａは、図１のウェアラブル翻訳装置１と同様に構成される。

［２−２．動作］
スピーカ装置１６Ａの２つのスピーカ１６ａ，１６ｂは、互いに近接して配置され、ステレオダイポール再生を行う。音声処理回路１５は、スピーカ装置１６Ａからユーザ３１の発声器３１ａまでの距離と、ユーザ３１に対面する仮想的人物の頭部伝達関数とに基づいて、スピーカ装置１６Ａの音像をスピーカ装置１６Ａの位置からユーザ３１の発声器３１ａの位置に向けて移動させるように、第２言語の音声信号をフィルタリングする。頭部伝達関数は、例えば、ユーザ３１の正面に１〜３ｍ離れて対面している聴取者を仮定して計算される。これにより、第１の実施の形態（図７）と同様に、スピーカ装置１６Ａがユーザ３１の発声器３１ａから離れていても、スピーカ装置１６Ａの音像をスピーカ装置１６Ａの位置からユーザ３１の発声器３１ａに向けて上昇させることができる。

それに代わって、ウェアラブル翻訳装置１Ａを図３又は図４のように装着するとき、音声処理回路１５は、スピーカ装置１６Ａから出力される音声が所定方向にビームを有するように、第２言語の音声信号を分配し、分配された各音声信号の位相を調整してもよい。これにより、スピーカ装置１６Ａから出力される音声のビームの方向を変化させることができる。

スピーカ装置１６Ａから出力される音声のビームの方向を変化させるために、例えば、特許文献４の技術を適用してもよい。

［２−３．効果等］
第２の実施の形態に係るウェアラブル翻訳装置１Ａによれば、スピーカ装置１６Ａは、互いに近接して配置された２つのスピーカ１６ａ，１６ｂを含み、ステレオダイポール再生を行ってもよい。音声処理回路１５は、スピーカ装置１６Ａからユーザ３１の発声器３１ａまでの距離と、ユーザ３１に対面する仮想的人物の頭部伝達関数とに基づいて、第２言語の音声信号をフィルタリングしてもよい。これにより、ステレオダイポール再生の技術を用いて、スピーカ装置１６Ａの音像をスピーカ装置１６Ａの位置からユーザ３１の発声器３１ａの位置に向けて移動させることができる。

第２の実施の形態に係るウェアラブル翻訳装置１Ａによれば、スピーカ装置１６Ａは複数のスピーカ１６ａ，１６ｂを含んでもよい。音声処理回路１５は、スピーカ装置１６Ａから出力される音声が所定方向にビームを有するように、第２言語の音声信号を分配し、分配された各音声信号の位相を調整してもよい。これにより、ウェアラブル翻訳装置１Ａがユーザ３１の発声器３１ａの下方に位置していなくても、スピーカ装置１６Ａの音像をスピーカ装置１６Ａの位置からユーザ３１の発声器３１ａの位置に向けて移動させることができる。

（第３の実施の形態）
次に、図９を参照して、第３の実施の形態に係る翻訳システムについて説明する。

［３−１．構成］
図９は、第３の実施の形態に係る翻訳システム３００の構成を示すブロック図である。図９の翻訳システム３００のウェアラブル翻訳装置１Ｂは、図１の距離測定装置１２に代えて、ユーザ入力装置１７を備える。他の点では、図９のウェアラブル翻訳装置１Ｂは、図１のウェアラブル翻訳装置１と同様に構成される。

［３−２．動作］
ユーザ入力装置１７は、スピーカ装置１６からユーザの発声器３１ａまでの距離を指定するユーザ入力を取得する。なお、ユーザ入力装置１７は、タッチパネルやボタン等によって構成される。

ウェアラブル翻訳装置１Ｂには予め決められた複数の距離（例えば、遠（６０ｃｍ）、中（４０ｃｍ）、近（２０ｃｍ））が選択可能に設定される。ユーザは、ユーザ入力装置１７を用いてこれらの距離のうちの１つを選択することができる。制御回路１１Ｃは、ユーザ入力装置１７からの入力信号（距離の選択）に応じてスピーカ装置１６からユーザの発声器３１ａまでの距離（図７のｄ１）を決定する。これにより、制御回路１１Ｃは、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することを検出する。

［３−３．効果等］
第３の実施の形態に係る翻訳システム３００によれば、ウェアラブル翻訳装置１Ｂは、スピーカ装置１６からユーザの発声器３１ａまでの距離を指定するユーザ入力を取得するユーザ入力装置１７を備える。図１の距離測定装置１２を除去したことにより、図９のウェアラブル翻訳装置１Ｂの構成は、図１のウェアラブル翻訳装置１よりも簡単化される。

（第４の実施の形態）
次に、図１０及び図１１を参照して、第４の実施の形態に係る翻訳システムについて説明する。

［４−１．構成］
図１０は、第４の実施の形態に係る翻訳システム４００の構成を示すブロック図である。翻訳システム４００は、ウェアラブル翻訳装置１、アクセスポイント装置２、及び翻訳サーバ装置４１を含む。翻訳サーバ装置４１は、音声認識サーバ装置３Ａ、機械翻訳サーバ装置４Ａ、及び音声合成サーバ装置５Ａを備える。図１０のウェアラブル翻訳装置１及びアクセスポイント装置２は、図１のウェアラブル翻訳装置１及びアクセスポイント装置２と同様に構成される。図１０の音声認識サーバ装置３Ａ、機械翻訳サーバ装置４Ａ、及び音声合成サーバ装置５Ａは、図１の音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５と同様の機能をそれぞれ有する。アクセスポイント装置２は、例えばインターネットを介して、翻訳サーバ装置４１と通信する。従って、ウェアラブル翻訳装置１は、アクセスポイント装置２を介して翻訳サーバ装置４１と通信する。

［４−２．動作］
図１１は、第４の実施の形態に係る翻訳システム４００の動作を示すシーケンス図である。ユーザ３１からマイクロホン装置１３を介して、第１言語の音声信号が入力されたとき、制御回路１１は、入力された音声信号を翻訳サーバ装置４１に送る。翻訳サーバ装置４１の音声認識サーバ装置３Ａは、入力された音声信号に対して音声認識を行って、認識された第１言語のテキストを生成し、機械翻訳サーバ装置４Ａに送る。機械翻訳サーバ装置４Ａは、第１言語のテキストの機械翻訳を行って、翻訳された第２言語のテキストを生成し、音声合成サーバ装置５Ａに送る。音声合成サーバ装置５Ａは、第２言語のテキストの音声合成を行って、合成された第２言語の音声信号を生成し、制御回路１１に送る。制御回路１１は、翻訳サーバ装置４１から第２言語の音声信号が送られると、第２言語の音声信号を音声処理回路１５に送る。音声処理回路１５は、スピーカ装置１６の上方にユーザ３１の発声器３１ａが位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザ３１の発声器３１ａの位置に向けて移動させるように、第２言語の音声信号の処理を行い、処理された音声信号をスピーカ装置１６から音声として出力する。

［４−３．効果等］
第４の実施の形態に係る翻訳システム４００は、音声認識サーバ装置３Ａ、機械翻訳サーバ装置４Ａ、及び音声合成サーバ装置５Ａを、一体の翻訳サーバ装置４１として備えてもよい。これにより、第１の実施の形態に係る翻訳システムよりも通信回数を削減することにより、通信にかかる時間及び電力消費を削減することができる。

（第５の実施の形態）
次に、図１２を参照して、第５の実施の形態に係るウェアラブル翻訳装置について説明する。

［５−１．構成］
図１２は、第５の実施の形態に係るウェアラブル翻訳装置１Ｃの構成を示すブロック図である。図１２のウェアラブル翻訳装置１Ｃは、図１の音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５の機能を有する。ウェアラブル翻訳装置１Ｃは、制御回路１１Ｃ、距離測定装置１２、マイクロホン装置１３、音声処理回路１５、スピーカ装置１６、音声認識回路５１、機械翻訳回路５２、及び音声合成回路５３を備える。図１２の距離測定装置１２、マイクロホン装置１３、音声処理回路１５、スピーカ装置１６は、図１の対応する構成要素と同様に構成される。音声認識回路５１、機械翻訳回路５２、及び音声合成回路５３は、図１の音声認識サーバ装置３、機械翻訳サーバ装置４、及び音声合成サーバ装置５と同様の機能をそれぞれ有する。制御回路１１Ｃは、音声認識回路５１、機械翻訳回路５２、及び音声合成回路５３から、第１言語の音声信号から翻訳された第２言語の音声信号を取得する。

［５−２．動作］
ユーザからマイクロホン装置１３を介して第１言語の音声信号が入力されたとき、制御回路１１Ｃは、入力された音声信号を音声認識回路５１に送る。音声認識回路５１は、入力された音声信号に対して音声認識を行って、認識された第１言語のテキストを生成し、制御回路１１Ｃに送る。制御回路１１Ｃは、音声認識回路５１から第１言語のテキストが送られると、第１言語から第２言語に翻訳することを指示する制御信号とともに、第１言語のテキストを機械翻訳回路５２に送る。機械翻訳回路５２は、第１言語のテキストの機械翻訳を行って、翻訳された第２言語のテキストを生成し、制御回路１１Ｃに送る。制御回路１１Ｃは、機械翻訳回路５２から第２言語のテキストが送られると、第２言語のテキストを音声合成回路５３に送る。音声合成回路５３は、第２言語のテキストの音声合成を行って、合成された第２言語の音声信号を生成し、制御回路１１Ｃに送る。制御回路１１Ｃは、音声合成回路５３から第２言語の音声信号が送られると、第２言語の音声信号を音声処理回路１５に送る。音声処理回路１５は、スピーカ装置１６の上方にユーザの発声器３１ａが位置することが検出された場合、同検出に応じて、スピーカ装置１６の音像をスピーカ装置１６の位置からユーザの発声器３１ａの位置に向けて移動させるように、第２言語の音声信号の処理を行い、処理された音声信号をスピーカ装置１６から音声として出力する。

音声認識回路５１は、入力された音声信号に対して音声認識を行って、認識された第１言語のテキストを生成した後、制御回路１１Ｃにではなく、機械翻訳回路５２に送ってもよい。同様に、機械翻訳回路５２は、第１言語のテキストの機械翻訳を行って、翻訳された第２言語のテキストを生成した後、制御回路１１Ｃにではなく、音声合成回路５３に送ってもよい。

［５−３．効果等］
第５の実施の形態に係るウェアラブル翻訳装置１Ｃは、第１言語の音声信号を第１言語のテキストに変換する音声認識回路５１と、第１言語のテキストを第２言語のテキストに変換する機械翻訳回路５２と、第２言語のテキストを第２言語の音声信号に変換する音声合成回路５３とをさらに備えてもよい。制御回路１１Ｃは、音声合成回路５３から第２言語の音声信号を取得してもよい。これにより、ウェアラブル翻訳装置１Ｃは外部のサーバ装置と通信することなく、異言語の話者間の会話を翻訳することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、第１〜第５の実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、第１〜第５の実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

以下に、他の実施の形態を例示する。

第１〜第４の実施の形態では、ウェアラブル翻訳装置の通信回路の一例として無線通信回路１４を用いて説明したが、通信回路は、外部の音声認識サーバ装置、機械翻訳サーバ装置、及び音声合成サーバ装置と通信可能なものであればよい。従って、ウェアラブル翻訳装置は外部の音声認識サーバ装置、機械翻訳サーバ装置、及び音声合成サーバ装置に有線接続されていてもよい。

第１〜第５の実施の形態では、ウェアラブル翻訳装置の制御回路、通信回路、及び音声処理回路を別個のブロックとして示したが、これらの回路は単一の集積回路チップとして構成されてもよい。また、ウェアラブル翻訳装置の制御回路、通信回路、及び音声処理回路の機能は、汎用のプロセッサ上で実行されるプログラムによって実装されてもよい。

第１〜第５の実施の形態では、１人のユーザ（話者）のみがウェアラブル翻訳装置を使用する場合について説明したが、互いに会話しようとする複数の話者のそれぞれがウェアラブル翻訳装置を用いてもよい。

第１〜第５の実施の形態では、スピーカ装置の音像をスピーカ装置の位置からユーザの発声器３１ａの位置に向けて移動させるものとして説明したが、スピーカ装置の音像をスピーカ装置の位置からユーザの発声器３１ａ以外の位置に向けて移動させてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示によれば、異言語の話者間の会話を翻訳する際に会話の自然さを損ないにくいウェアラブル装置を提供することができる。

１，１Ａ，１Ｂ，１Ｃウェアラブル翻訳装置
２アクセスポイント装置
３，３Ａ音声認識サーバ装置
４，４Ａ機械翻訳サーバ装置
５，５Ａ音声合成サーバ装置
１１，１１Ｃ制御回路
１２距離測定装置
１３マイクロホン装置
１４無線通信回路
１５音声処理回路
１６，１６Ａスピーカ装置
１６ａ，１６ｂスピーカ
１６’ 仮想的なスピーカ装置
１７ユーザ入力装置
２１ストラップ
２２ベルト
３１ユーザ（話者）
３２聴取者
４１翻訳サーバ装置
５１音声認識回路
５２機械翻訳回路
５３音声合成回路

Claims

ユーザの身体に装着可能であるウェアラブル装置であって、
前記ユーザから第１言語の音声を取得して第１言語の音声信号を生成するマイクロホン装置と、
前記第１言語の音声信号から変換された第２言語の音声信号を取得する制御回路と、
前記第２言語の音声信号に対して所定の処理を実行する音声処理回路と、
前記処理された第２言語の音声信号を音声として出力するスピーカ装置とを備え、
前記音声処理回路は、前記スピーカ装置の上方に前記ユーザの発声器が位置することが検出された場合、前記検出に応じて、前記スピーカ装置の音像を前記スピーカ装置の位置から前記ユーザの前記発声器の位置に向けて移動させる、
ウェアラブル装置。
前記ユーザの発声器が検出されない場合、前記音声処理回路は、前記スピーカ装置の音像を移動させない、
請求項１記載のウェアラブル装置。
前記音声処理回路は、前記第２言語の音声信号の特定周波数成分を調整する、
請求項１記載のウェアラブル装置。
前記スピーカ装置は、互いに近接して配置された２つのスピーカを含み、ステレオダイポール再生を行い、
前記音声処理回路は、前記スピーカ装置から前記ユーザの発声器までの距離と、前記ユーザに対面する仮想的人物の頭部伝達関数とに基づいて、前記第２言語の音声信号をフィルタリングする、
請求項１記載のウェアラブル装置。
前記スピーカ装置は、複数のスピーカを含み、
前記音声処理回路は、前記スピーカ装置から出力される音声が所定方向にビームを有するように、前記第２言語の音声信号を分配し、前記分配された音声信号の位相を調整する、
請求項１に記載のウェアラブル装置。
前記マイクロホン装置は、前記マイクロホン装置から前記ユーザの前記発声器に向かう方向にビームを有する、
請求項１に記載のウェアラブル装置。
前記スピーカ装置から前記ユーザの前記発声器までの距離を測定する距離測定装置をさらに備える、
請求項１に記載のウェアラブル装置。
前記スピーカ装置から前記ユーザの前記発声器までの距離を指定するユーザ入力を取得するユーザ入力装置をさらに備える、
請求項１に記載のウェアラブル装置。
前記第１言語の音声信号を第１言語のテキストに変換する音声認識回路と、
前記第１言語のテキストを第２言語のテキストに変換する機械翻訳回路と、
前記第２言語のテキストを第２言語の音声信号に変換する音声合成回路とをさらに備え、
前記制御回路は、前記音声合成回路から前記第２言語の音声信号を取得する、
請求項１に記載のウェアラブル装置。
通信回路をさらに備える請求項１に記載のウェアラブル装置、及び
前記ウェアラブル翻訳装置に接続可能な、音声認識サーバ装置と、機械翻訳サーバ装置と、及び音声合成サーバ装置とを備える翻訳システムであって、
前記音声認識サーバ装置は、前記第１言語の音声信号を第１言語のテキストに変換し、
前記機械翻訳サーバ装置は、前記第１言語のテキストを第２言語のテキストに変換し、
前記音声合成サーバ装置は、前記第２言語のテキストを第２言語の音声信号に変換し、
前記制御回路は、前記音声合成サーバ装置から前記通信回路を介して前記第２言語の音声信号を取得する、
翻訳システム。
前記音声認識サーバ装置、前記機械翻訳サーバ装置、及び前記音声合成サーバ装置を、一体の翻訳サーバ装置として備える、
請求項１０に記載の翻訳システム。