本開示の一態様に係る音声翻訳装置は、音声翻訳装置であって、前記音声翻訳装置の使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンと、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定部と、使用者、前記会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定部により推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第1言語と前記第1言語と異なる第2言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御部と、前記制御部により決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得た、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳部と、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ部とを備える。
この構成により、使用者とその会話相手とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを1度押すのみで、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われる。これにより、操作性を向上することができる。また、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者と会話相手とは、ボタン操作により会話が中断されないので、会話音声翻訳装置を介した会話をより自然に行うことができる。
ここで、例えば、前記翻訳部は、前記認識処理部と、前記翻訳処理部とを備えるとしてもよい。
この構成により、通信ができないまたは不安定な環境下においても、使用者と会話相手とは、音声翻訳装置を介した会話をより自然に行うことができる。
また、例えば、前記翻訳部は、ネットワークを介してサーバと接続可能であり、前記サーバは、前記認識処理部と前記翻訳処理部との少なくも一方を備えるとしてもよい。
この構成により、音声翻訳装置の小型化及び軽量化を実現できる。また、この構成により、認識性能及び翻訳性能が漸次向上する、クラウド上のサーバに備えられる認識処理部と翻訳処理部とを用いることができ、使用者及び会話相手の発話内容をより精度よく認識してより精度よく翻訳できる。よって、使用者と会話相手とは、音声翻訳装置を介した会話をより自然に行うことができようになる。
また、例えば、さらに、前記マイクロホンアレイ部により取得される前記音響信号を一定時間遅延させる遅延部と、前記遅延部により遅延された前記音響信号を信号処理することにより、所定方向に収音の指向性を制御した音響信号であるビームを形成するビームフォーマ部とを備え、前記ビームフォーマ部は、前記所定方向として、前記音源方向推定部により推定された前記音源方向にビームを形成するとしてもよい。
この構成により、ビームフォーマ部で形成されるビームを使用者または会話相手に向けることができるので、使用者または会話相手の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。
また、例えば、さらに、スピーカを備え、前記翻訳部は、さらに、テキスト合成処理部に前記翻訳テキスト文を前記他方の言語の音声データに変換させて得た翻訳音声データを取得して、前記スピーカに伝達し、前記スピーカは、伝達された前記翻訳音声データに従って、前記翻訳テキスト文の音声を出音するとしてもよい。
これにより、使用者と会話相手とは相手の発話内容を意味する文字を読んで会話する手間を解消でき、操作性をより向上することができる。また、使用者と会話相手とは音声のみを用いて会話することができるので、音声翻訳装置を介した会話をより自然に行うことができる。
また、例えば、前記ディスプレイの形状は、カード状であり、前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが逆さまになるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させるとしてもよい。また、前記ディスプレイの形状は、カード状であり、前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを中心として、前記ディスプレイの第1辺に対して前記使用者が位置し、前記第1辺と垂直方向の前記第1辺と異なる第2辺に対して前記会話相手が位置する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させるとしてもよい。
これにより、使用者及び会話相手それぞれに対して、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。
また、例えば、前記ディスプレイの形状は、カード状であり、前記複数のレイアウト情報は、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係、前記ディスプレイの1つの辺に対して前記使用者及び前記会話相手がこの順または逆順に横に並ぶ位置関係、及び、前記ディスプレイを中心として、前記ディスプレイの第1辺に対して前記使用者が位置し、前記第1辺と垂直方向の前記第1辺と異なる第2辺に対して前記会話相手が位置する位置関係を含むとしてもよい。
これにより、使用者及び会話相手の位置に応じて、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。
また、例えば、さらに、前記マイクロホンアレイ部により取得される前記音響信号に音声が含まれるか否かを判定する音声判定部を備え、前記制御部は、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が、前記一のレイアウト情報に示される前記使用者または前記会話相手の位置関係を満たす場合にのみ、前記翻訳方向を決定するとしてもよい。
この構成により、非定常なノイズを音声として認識してしまう誤検出を防止し、使用者または会話相手の発話のみを検出できる。よって、ノイズによる誤動作を抑制できるので、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。
また、例えば、さらに、前記翻訳開始ボタンが前記使用者に操作されることにより翻訳開始を指示した場合に、予め選択された前記一のレイアウト情報を初期化し、前記音声判定部の判定結果及び前記音源方向推定部の推定結果に基づいて、前記記憶部に記憶されている複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として、選択するレイアウト選択制御部を備えるとしてもよい。
これにより、使用者と会話相手との位置関係が予め設定していた位置関係と異なっていた場合でも、使用者及び会話相手の位置に応じた、発話内容の文字の正しい向きで表示することができるので、使用者及び会話相手に対して読みやすく表示することができる。
ここで、例えば、前記レイアウト選択制御部は、予め選択された前記一のレイアウト情報を初期化後、最初に、前記音声判定部により前記音響信号に音声が含まれると判定されたときに前記音源方向推定部により推定された前記音源方向を前記使用者が位置する方向と推定し、前記使用者が位置する方向の推定後、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が前記使用者が位置する方向と異なる方向であるときに、前記異なる方向を、前記会話相手が位置する方向と決定し、決定した、前記使用者が位置する方向と前記会話相手が位置する方向とを用いて、複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として選択する。
また、本開示の一態様に係る音声翻訳方法は、使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法であって、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第1言語と前記第1言語と異なる第2言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ制御ステップとを含む。
これにより、使用者とその会話相手とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを1度押すのみで、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われる。よって、操作性を向上することができる。また、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者と会話相手とは、ボタン操作により会話が中断されないので、会話音声翻訳装置を介した会話をより自然に行うことができる。
また、本開示の一態様に係るプログラムは、使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法を実行するプログラムであって、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第1言語と前記第1言語と異なる第2言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ制御ステップとをコンピュータに実行させる。
これにより、使用者とその会話相手とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを1度押すのみで、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われる。よって、操作性を向上することができる。また、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者と会話相手とは、ボタン操作により会話が中断されないので、会話音声翻訳装置を介した会話をより自然に行うことができる。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。
以下、本開示の一態様に係る音声翻訳装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
《概要》
図1は、実施の形態1における音声翻訳装置100の外観と使用場面の一例を示す図である。
音声翻訳装置100は、第1言語で発話する使用者51と、第2言語で発話する会話相手52との間の会話を双方向に翻訳する装置である。つまり、音声翻訳装置100は、使用者51とその会話相手52の異なる2つの言語間において、使用者51とその会話相手52の発声したそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する装置である。このような音声翻訳装置100は、例えばカードのような長尺状の形状で構成され、カード型端末、スマートホン及びタブレットなどの携帯端末で実現される。音声翻訳装置100は、図1に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイを有するマイクロホンアレイ部200と、翻訳結果をテキストとして表示するディスプレイ300とを備えている。なお、ディスプレイ300は、縦向きまたは横向きにされた状態で用いられる。
図1では、第1言語を話す使用者51が下側に位置し、第2言語を話す会話相手52が上側に位置して、音声翻訳装置100を縦方向に使用して対面しながら会話する例が示されている。本実施の形態では、音声翻訳装置100は、翻訳開始時に翻訳開始ボタン(不図示)を1度押すのみで、使用者51と会話相手52との発話に応じて認識言語と翻訳言語との切替を自動で行う。
《装置構成》
図2は、実施の形態1における音声翻訳装置100の構成の一例を示す図である。
音声翻訳装置100は、図2に示すように、翻訳開始指示部10と、記憶部11と、音源方向推定部12と、制御部13と、翻訳部14と、ディスプレイ部15とを備える。音声翻訳装置100は、さらに、マイクロホンアレイ部200を備えるとしてもよい。つまり、音声翻訳装置100がマイクロホンアレイ部200を備えることは必須ではない。
[マイクロホンアレイ部200]
マイクロホンアレイ部200は、音声信号を取得する。より具体的には、マイクロホンアレイ部200は、互いに離間して配置された2以上のマイクロホンユニットからなるマイクロホンアレイを備え、音を収音し、収音した音から電気信号に変換した音響信号を取得する。マイクロホンアレイ部200は、取得した音響信号を制御部13に出力する。なお、マイクロホンアレイ部200は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部200は音声翻訳装置100に装着されることで機能する。
なお、マイクロホンアレイ部200は、音声翻訳装置100の周囲すなわち音声翻訳装置100を中心に360度の方向で人間の音声を収音する必要がある。また、人間の音声を収音するためには、50Hz~7kHzの帯域の音を収音できればよい。このため、マイクロホンアレイ部200は、1次元に配列されたマイクロホンアレイではなく2次元に配列されたマイクロホンアレイで構成されるとよい。また、2次元に配列されたマイクロホンアレイはマイクロホンユニット間を一定距離以内として離間されて配列された複数のマイクロホンユニットで構成されるとよい。
図3A~図3Cはそれぞれ、実施の形態1におけるマイクロホンアレイ部200を構成するマイクロホンアレイの実装例の説明図である。
すなわち、マイクロホンアレイ部200は、図3Aに示すようにL字状に複数のマイクロホンユニットが配列されたL字型のマイクロホンアレイ201Aで構成されてもよい。また、マイクロホンアレイ部200は、図3Bに示すように円状に複数のマイクロホンユニットが配列された円配列型のマイクロホンアレイ201Bで構成されてもよい。マイクロホンアレイ部200は、円弧状に複数のマイクロホンユニットが配列された円弧配列型のマイクロホンアレイ201Cで構成されてもよい。
[翻訳開始指示部10]
翻訳開始指示部10は、音声翻訳装置100の使用者51または使用者51の会話相手52に操作されることにより、音声翻訳装置100に対して翻訳開始の指示を行う。本実施の形態では、翻訳開始指示部10は、例えば翻訳開始ボタンであり、翻訳開始ボタンが押下されるなどで翻訳開始ボタンが操作されると、音声翻訳装置100に対して翻訳開始の指示を行う。
[記憶部11]
記憶部11は、HDD(Hard Disk Drive)またはメモリなどで構成されている。
本実施の形態では、記憶部11は、使用者51、会話相手52、及び、ディスプレイ300の異なる位置関係を示す複数のレイアウト情報を記憶している。記憶部11は、記憶している複数のレイアウト情報のうち、一のレイアウト情報が予め選択されている。
また、記憶部11は、音声翻訳装置100を中心とした座標系と、音声翻訳装置100を中心とした領域が分割された分割エリアそれぞれに割り当てられたインデックスとを記憶する。
ここで、まず、本実施の形態における複数のレイアウト情報の具体例について説明する。図4A~図4Eはそれぞれ、実施の形態1における記憶部11に記憶されているレイアウト情報の一例を示す図である。
図4Aに示すレイアウト情報は、音声翻訳装置100を縦方向に、かつ、使用者51及び会話相手52が対面して使用する場合の位置関係を示している。より具体的には、ディスプレイ300を上下に区切る中心線L1の下側に第1言語を話す使用者51が位置し、中心線L1の上側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが対面する位置関係を示している。また、図4Aに示すレイアウト情報は、縦方向に使用される音声翻訳装置100の下側の音源方向61に第1言語を話す使用者51が位置し、上側の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図4Aには、ディスプレイ300を挟んで使用者51と会話相手52とが対面する位置関係を示すレイアウト情報が示されている。
図4Bに示すレイアウト情報は、音声翻訳装置100を縦方向に、かつ、使用者51が左側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ300を左右に区切る中心線L2の左側に第1言語を話す使用者51が位置し、中心線L2の右側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが音声翻訳装置100の下側で横に並んでいる位置関係を示している。また、図4Bに示すレイアウト情報は、縦方向に使用される音声翻訳装置100の左下方向の音源方向61に第1言語を話す使用者51が位置し、右下方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。同様に、図4Cに示すレイアウト情報は、音声翻訳装置100を縦方向に、かつ、使用者51が右側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ300を左右に区切る中心線L2の右側に第1言語を話す使用者51が位置し、中心線L2の左側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが音声翻訳装置100の下側で横に並んでいる位置関係を示している。また、図4Cに示すレイアウト情報は、縦方向に使用される音声翻訳装置100の右下方向の音源方向61に第1言語を話す使用者51が位置し、左下方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図4B及び図4Cには、ディスプレイ300の1つの辺に対して使用者51及び会話相手52がこの順または逆順に横に並ぶ位置関係を示すレイアウト情報が示されている。
図4Dに示すレイアウト情報は、音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ300を区切る右下がり斜線L3の左下側すなわち音声翻訳装置100の下側に使用者51が位置し、右下がり斜線L3の右上側すなわち音声翻訳装置100の右側に会話相手52が位置し、使用者51と会話相手52とが直角位置に位置する位置関係を示している。また、図4Dに示すレイアウト情報は、縦方向に使用される音声翻訳装置100の下方向の音源方向61に第1言語を話す使用者51が位置し、右方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。同様に、図4Eに示すレイアウト情報は、音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が左側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ300を区切る左下がり斜線L4の右下側すなわち音声翻訳装置100の下側に使用者51が位置し、左下がり斜線L4の左上側すなわち音声翻訳装置100の左側に会話相手52が位置し、使用者51と会話相手52とが直角位置に位置する位置関係を示している。また、図4Eに示すレイアウト情報は、縦方向に使用される音声翻訳装置100の下方向の音源方向61に第1言語を話す使用者51が位置し、左方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図4D及び図4Eには、ディスプレイ300を中心として、ディスプレイ300の第1辺に対して使用者51が位置し、第1辺と垂直方向の第1辺と異なる第2辺に対して会話相手52が位置する位置関係を示すレイアウト情報が示されている。
次に、本実施の形態における音声翻訳装置100を中心とした座標系と、音声翻訳装置100を中心とした領域が分割された分割エリアそれぞれに割り当てられたインデックスとについて説明する。
図5は、実施の形態1における記憶部11に記憶されている座標系と分割エリアと分割エリアそれぞれに割り当てられたインデックスとの一例を示す図である。
記憶部11に記憶されてる座標系は、図5に示すように、音声翻訳装置100の中心を原点としたxy座標系であり、ディスプレイ300の平面と略平行となる平面におけるxy座標系である。また、記憶部11に記憶されてる分割エリアは、xy座標系の平面で表される領域を一定角度ごとに分割した領域であり、分割エリアそれぞれにインデックスが割り当てられている。つまり、記憶部11は分割エリアとともに分割エリアそれぞれに割り当てられたインデックスを記憶している。図5に示す分割エリアはxy座標系の平面で表される領域を30度ごとに分割した領域である。図5に示す分割エリアには、第1象限のx軸と接する分割エリアから反時計周りにA~Lのインデックスが割り当てられている。
なお、一定角度は30度にかぎらない。推定したい音源方向の粒度に応じて30度~180度までで適宜決めればよい。例えば、縦方向に使用される音声翻訳装置100の下側か上側に音源があることを推定すればよい場合には、一定角度は180度としてもよい。
[音源方向推定部12]
音源方向推定部12は、マイクロホンアレイ部200により取得された音響信号を信号処理することにより、音源方向を推定する。より具体的には、音源方向推定部12は、マイクロホンアレイ部200を構成する複数のマイクロホンユニットのそれぞれに到達する音の到達時間差と複数のマイクロホンユニットのそれぞれの位置座標と音速とから音源方向を推定する。
[制御部13]
制御部13は、CPU(Central Processing Unit)と、メモリとなどにより実現される。本実施の形態では、制御部13は、翻訳開始指示部10により翻訳開始の指示が行われたとき、記憶部11に記憶されている予め選択された一のレイアウト情報などと、音源方向推定部12により推定された音源方向とに基づいて、翻訳部14とディスプレイ部15とを制御する。より具体的には、制御部13は、予め選択された一のレイアウト情報に示される位置関係を用いて、翻訳開始指示部10により翻訳開始が指示された後において音源方向推定部12により推定された音源方向に基づき、音声を発した発話者が使用者51及び会話相手52のうちの一方の者であることを特定する。
ここで、使用者51または会話相手52を特定する方法について説明する。図6A~図6Eは、実施の形態1における音声翻訳装置100を縦方向に使用する場合に使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
図6Aは、予め選択された一のレイアウト情報が図4Aに示される音声翻訳装置100を縦方向に、かつ、使用者51及び会話相手52が対面して使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図6Aに示すインデックスIもしくはJの場合、図4Aに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図6Aに示すインデックスCもしくはDの場合、図4Aに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
図6Bは、予め選択された一のレイアウト情報が図4Bに示される音声翻訳装置100を縦方向に、かつ、使用者51が左側となる横並びで使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図6Bに示すインデックスHもしくはIの場合、図4Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図6Bに示すインデックスJもしくはKの場合、図4Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図6Cは、予め選択された一のレイアウト情報が図4Cに示される音声翻訳装置100を縦方向に、かつ、使用者51が右側となる横並びで使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図6Cに示すインデックスJもしくはKの場合、図4Cに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図6Cに示すインデックスHもしくはIの場合、図4Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図6Dは、予め選択された一のレイアウト情報が図4Dに示される音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図6Dに示すインデックスIもしくはJの場合、図4Dに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図6Dに示すインデックスAもしくはLの場合、図4Dに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図6Eは、予め選択された一のレイアウト情報が図4Dに示される音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が左側となる直角位置で使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図6Eに示すインデックスIもしくはJの場合、図4Eに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図6Eに示すインデックスFもしくはGの場合、図4Eに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、制御部13は、第1言語と、第1言語と異なる第2言語のうち音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する。
より具体的には、制御部13は、発話者が使用者51であると特定した場合、音響信号の内容を認識する言語(以下、認識言語とも称する)を第1言語とし、音響信号の内容を翻訳する言語(以下、翻訳言語とも称する)を第2言語とする翻訳方向を決定する。なお、制御部13は、発話者が使用者51であると特定した場合、第1言語から第2言語への方向とする翻訳方向を決定するとしてもよい。また、制御部13は、発話者が会話相手52であると特定した場合、認識言語を第2言語とし、翻訳言語を第1言語とする翻訳方向を決定する。制御部13は、決定した翻訳方向に従って翻訳部14を制御する。なお、制御部13は、発話者が会話相手52であると特定した場合、第2言語から第1言語への方向とする翻訳方向を決定するとしてもよい。
また、制御部13は、予め選択された一のレイアウト情報に示される位置関係に応じて、ディスプレイ部15を制御して、音響信号の内容を認識言語で示すテキスト文と、翻訳言語で示す翻訳テキスト文との文字の向きを、使用者51及び会話相手52が読みやすい向きに表示させる。なお、制御部13は、ディスプレイ部15を制御しないで、特定した発話者が使用者51及び会話相手52のうちの一方の者であることと、決定した翻訳方向と、予め選択された一のレイアウト情報とをディスプレイ部15に伝達してもよい。
[翻訳部14]
翻訳部14は、例えば図2に示すように認識処理部141と翻訳処理部142と備える。
<認識処理部141>
認識処理部141は、制御部13により決定された翻訳方向に従って、音響信号の内容を、第1言語及び第2言語の一方の言語すなわち認識言語で認識し、音響信号の内容を示すテキスト文を生成する。例えば、認識処理部141は、制御部13により決定された翻訳方向が認識言語を第1言語とし、翻訳言語を第2言語とする場合、音響信号の内容を第1言語で認識し、音響信号の内容を示す第1言語のテキスト文を生成する。また、認識処理部141は、制御部13により決定された翻訳方向が認識言語を第2言語とし、翻訳言語を第1言語とする場合、音響信号の内容を第2言語で認識し、音響信号の内容を示す第2言語のテキスト文を生成する。
なお、認識処理部141は、翻訳部14に備えられておらず、クラウドなどのサーバに備えられるとしてもよい。この場合、翻訳部14は、ネットワークを介してサーバと接続可能であり、制御部13により決定された翻訳方向に従って、認識処理部141に一方の言語で認識させて得た、音響信号の内容を示すテキスト文を取得すればよい。
<翻訳処理部142>
翻訳処理部142は、制御部13により決定された翻訳方向に従って、音響信号の内容を、第1言語及び第2言語の他方の言語すなわち翻訳言語で翻訳し、音響信号の内容を示す翻訳テキスト文を生成する。例えば、翻訳処理部142は、制御部13により決定された翻訳方向が認識言語を第1言語とし、翻訳言語を第2言語とする場合、第1言語で認識された音響信号の内容を示すテキスト文を第2言語で翻訳し、音響信号の内容を示す第2言語の翻訳テキスト文を生成する。また、翻訳処理部142は、制御部13により決定された翻訳方向が認識言語を第2言語とし、翻訳言語を第1言語とする場合、第2言語で認識された音響信号の内容を示すテキスト文を第1言語で翻訳し、音響信号の内容を示す第1言語の翻訳テキスト文を生成する。
なお、翻訳処理部142は、翻訳部14に備えられておらず、クラウドなどのサーバに備えられるとしてもよい。この場合、翻訳部14は、ネットワークを介してサーバと接続可能であり、制御部13により決定された翻訳方向に従って、翻訳処理部142に、一方の言語で生成された音響信号の内容を示すテキスト文を、他方の言語で翻訳させることで得た音響信号の内容を示す翻訳テキスト文を取得すればよい。
このように、翻訳部14は、認識処理部141と翻訳処理部142とを備えてもよいし、クラウドなどのサーバに認識処理部141及び翻訳処理部142の少なくとも一方が備えられてもよい。認識処理部141及び翻訳処理部142の少なくとも一方がサーバに備えられた場合、翻訳部14は、認識処理部141及び翻訳処理部142の少なくとも一方と通信などで接続すればよい。
[ディスプレイ部15]
ディスプレイ部15は、予め選択された一のレイアウト情報に示される位置関係に応じて、画面レイアウトと表示する文字の向きとを決定し、翻訳部14が取得したテキスト文と翻訳テキスト文とを表示する。より具体的には、ディスプレイ部15は、制御部13により特定された一方の者の位置に対応するディスプレイ300の領域に、テキスト文を表示させ、一方と異なる他方の者の位置に対応する、ディスプレイ300の領域に翻訳テキスト文を表示させる。
ここで、ディスプレイ部15が表示するディスプレイ300の表示画面の一例について説明する。図7A~図7Dは、実施の形態1における音声翻訳装置100を縦方向に使用する場合にディスプレイ300に表示される表示画面の一例を示す図である。以下では、第1言語が日本語、第2言語が英語であるとして説明する。
図7Aには、予め選択された一のレイアウト情報が図4Aに示される音声翻訳装置100を縦方向に、かつ、使用者51及び会話相手52が対面して使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図7Aでは、ディスプレイ300の下側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の上側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図7Aでは、英語の翻訳テキスト文は、日本語のテキスト文の文字とは反対の向きで表示されている。
つまり、ディスプレイ部15は、図4Aに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を上下に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ300を挟んで使用者51と会話相手52とが対面する位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが逆さまになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。
図7Bには、予め選択された一のレイアウト情報が図4B及び図4Cに示される音声翻訳装置100を縦方向に、かつ、使用者51及び会話相手52が横並びで使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図7Bでも、ディスプレイ300の下側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の上側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図7Bでは、英語の翻訳テキスト文は、日本語のテキスト文の文字とは同じ向きで表示されている。
つまり、ディスプレイ部15は、図4B及び図4Cに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を上下に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字と、文字の向きが同じになるようにして英語の翻訳テキスト文の文字を表示。このように、予め選択された一のレイアウト情報が、ディスプレイ300の1つの辺に対して使用者51及び会話相手52がこの順または逆順に横に並ぶ位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが同じになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。
図7Cには、予め選択された一のレイアウト情報が図4Dに示される音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図7Cでも、ディスプレイ300の下側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の上側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図7Cでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは左に90度に回転された向きで表示されている。
つまり、ディスプレイ部15は、図4Dに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を上下に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字を左に90度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。
また、図7Dには、予め選択された一のレイアウト情報が図4Eに示される音声翻訳装置100を縦方向に、かつ、使用者51からみて会話相手52が左側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図7Dでも、ディスプレイ300の下側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の上側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図7Dでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは右に90度に回転された向きで表示されている。
つまり、ディスプレイ部15は、図4Eに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を上下に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字を右に90度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。
これらのように、予め選択された一のレイアウト情報が、ディスプレイ300を中心として、ディスプレイ300の第1辺に対して使用者51が位置し、第1辺と垂直方向の第1辺と異なる第2辺に対して会話相手52が位置する位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応するディスプレイ300の領域においてテキスト文と翻訳テキスト文とを表示させる。
なお、図7A~図7Dを用いて、認識言語が日本語で翻訳言語が英語のときの表示画面の一例について説明したが、認識言語が英語で翻訳言語が日本語であってもよい。この場合の一例を図8A及び図8Bを用いて説明する。
図8A及び図8Bは、実施の形態1におけるディスプレイ300に表示される表示画面の一例を示す図である。図8Aは、図7Aと同じ図であるため説明を省略する。
図8Bには、予め選択された一のレイアウト情報が図4Aに示される音声翻訳装置100を縦方向に、かつ、使用者51及び会話相手52が対面して使用する場合に、認識言語が英語で翻訳言語が日本語のときの表示画面の一例が示されている。翻訳方向を除いて、図8Bは図8Aと同様の図となるため、詳細な説明は省略する。
[音声翻訳装置100の動作]
以上のように構成される音声翻訳装置100が行う動作処理について説明する。
図9は、実施の形態1における音声翻訳装置100が行う動作処理を示すフローチャートである。
まず、音声翻訳装置100は、マイクロホンアレイ部200により取得された音響信号から、音源方向を推定する(S11)。より具体的には、音声翻訳装置100は、マイクロホンアレイ部200により取得された音響信号を信号処理することにより、音源方向を推定する。
次に、音声翻訳装置100は、予め選択された一のレイアウト情報に示される位置関係を用いて、翻訳開始の指示後において推定された音源方向に基づき、発話者を特定し、かつ、翻訳方向を決定する(S12)。より具体的には、音声翻訳装置100は、翻訳開始ボタンにより翻訳開始が指示された後においてステップS11において推定された音源方向に基づき、音声を発した発話者が使用者51及び会話相手52のうちの一方の者であることを特定する。ここで、音声翻訳装置100は、使用者51、会話相手52、及び、ディスプレイ300の異なる位置関係を示し、記憶部11に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、発話者を特定する。そして、音声翻訳装置100は、特定した発話者に応じて、第1言語と、第1言語と異なる第2言語のうち、当該音響信号の内容を認識する一方の言語である認識言語と、翻訳する他方の言語である翻訳言語とを示す翻訳方向を決定する。
次に、音声翻訳装置100では、ステップS12で決定された翻訳方向に従って、音響信号の内容を示すテキスト文、及び、テキスト文を翻訳した翻訳テキスト文を取得する(S13)。より具体的には、音声翻訳装置100は、ステップS12において決定された翻訳方向に従って、認識処理部141に音響信号を認識言語で認識させて得た、音響信号の内容を示すテキスト文を取得する。また、音声翻訳装置100は、ステップS12において決定された翻訳方向に従って、翻訳処理部142に当該テキスト文を翻訳言語で翻訳させて得る、音響信号の内容に対応する翻訳テキスト文を取得する。
次に、音声翻訳装置100は、テキスト文を、特定した一方の者の位置に対応するディスプレイ300の領域に表示させ、翻訳テキスト文を、他方の者の位置に対応するディスプレイ300の領域に翻訳テキスト文を表示させる(S14)。より具体的には、音声翻訳装置100は、ステップS13において特定された一方の者の位置に対応するディスプレイ300の領域に、テキスト文を表示させ、一方と異なる他方の者の位置に対応する、ディスプレイ300の領域に翻訳テキスト文を表示させる。
[効果]
以上のように、本実施の形態の音声翻訳装置100によれば、使用者51とその会話相手52とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを1度押すのみで、使用者51と会話相手52との発話に応じて認識言語と翻訳言語との切替が自動で行われる。これにより、操作性を向上することができる。また、使用者51と会話相手52との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者51と会話相手52とは、ボタン操作により会話が中断されないので、音声翻訳装置100を介した会話をより自然に行うことができる。
また、本実施の形態の音声翻訳装置100によれば、使用者51及び会話相手52の位置に応じて、使用者51及び会話相手52のそれぞれに対して、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者51と会話相手52とは、音声翻訳装置100を介した会話をより自然に行うことができる。
なお、本実施の形態の音声翻訳装置100では、クラウド上のサーバに備えられる認識処理部141と翻訳処理部142とを用いてもよい。これにより、音声翻訳装置100は、認識処理部141と翻訳処理部142を備えず、簡単な通信装置を備えればよいので、小型化及び軽量化を実現できる。また、本実施の形態の音声翻訳装置100は、認識性能及び翻訳性能が漸次向上する、クラウド上のサーバに備えられる認識処理部141と翻訳処理部142とを用いることで、使用者51及び会話相手52の発話内容をより精度よく認識してより精度よく翻訳できる。よって、使用者51と会話相手52とは、音声翻訳装置100を介した会話をより自然に行うことができようになる。
本実施の形態の音声翻訳装置100では、認識処理部141と翻訳処理部142とを備えてもよい。この場合、通信ができないまたは不安定な環境下においても使用できる。これにより、通信ができないまたは不安定な環境下においても、使用者51と会話相手52とは、音声翻訳装置100を介した会話をより自然に行うことができる。
また、実施の形態1では、説明を簡単にするため、音声翻訳装置100を縦向きにされた状態で使用する場合を例に挙げて説明したが、横向きにされた状態で使用してもよく同様のことが言える。
以下では、音声翻訳装置100を横向きにされた状態で使用した場合における複数のレイアウト情報の具体例と使用者51または会話相手52を特定する方法について説明する。
図10A~図10Eはそれぞれ、実施の形態1における記憶部11に記憶されているレイアウト情報の一例を示す図である。
図10Aに示すレイアウト情報は、音声翻訳装置100を横方向に、かつ、使用者51及び会話相手52が対面して使用する場合の位置関係を示している。より具体的には、ディスプレイ300を上下に区切る中心線L5の下側に第1言語を話す使用者51が位置し、中心線L5の上側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが対面する位置関係を示している。また、図10Aに示すレイアウト情報は、横方向に使用される音声翻訳装置100の下側の音源方向61に第1言語を話す使用者51が位置し、上側の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図10Aには、ディスプレイ300を挟んで使用者51と会話相手52とが対面する位置関係を示すレイアウト情報が示されている。
図10Bに示すレイアウト情報は、音声翻訳装置100を横方向に、かつ、使用者51が左側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ300を左右に区切る中心線L6の左側に第1言語を話す使用者51が位置し、中心線L6の右側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが音声翻訳装置100の下側で横に並んでいる位置関係を示している。また、図10Bに示すレイアウト情報は、横方向に使用される音声翻訳装置100の左下方向の音源方向61に第1言語を話す使用者51が位置し、右下方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。同様に、図10Cに示すレイアウト情報は、音声翻訳装置100を横方向に、かつ、使用者51が右側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ300を左右に区切る中心線L6の右側に第1言語を話す使用者51が位置し、中心線L6の左側に第2言語を話す会話相手52が位置し、使用者51と会話相手52とが音声翻訳装置100の下側で横に並んでいる位置関係を示している。また、図10Cに示すレイアウト情報は、横方向に使用される音声翻訳装置100の右下方向の音源方向61に第1言語を話す使用者51が位置し、左下方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図10B及び図10Cには、ディスプレイ300の1つの辺に対して使用者51及び会話相手52がこの順または逆順に横に並ぶ位置関係を示すレイアウト情報が示されている。
また、図10Dに示すレイアウト情報は、音声翻訳装置100を横方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ300を区切る右下がり斜線L7の左下側すなわち音声翻訳装置100の下側に使用者51が位置し、右下がり斜線L7の右上側すなわち音声翻訳装置100の右側に会話相手52が位置し、使用者51と会話相手52とが直角位置に位置する位置関係を示している。また、図10Dに示すレイアウト情報は、横方向に使用される音声翻訳装置100の下方向の音源方向61に第1言語を話す使用者51が位置し、右方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。同様に、図10Eに示すレイアウト情報は、音声翻訳装置100を横方向に、かつ、使用者51からみて会話相手52が左側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ300を区切る左下がり斜線L8の右下側すなわち音声翻訳装置100の下側に使用者51が位置し、左下がり斜線L8の左上側すなわち音声翻訳装置100の左側に会話相手52が位置し、使用者51と会話相手52とが直角位置に位置する位置関係を示している。また、図10Eに示すレイアウト情報は、横方向に使用される音声翻訳装置100の下方向の音源方向61に第1言語を話す使用者51が位置し、左方向の音源方向62に第2言語を話す会話相手52が位置する位置関係を示しているとしてもよい。このように、図10D及び図10Eには、ディスプレイ300を中心として、ディスプレイ300の第1辺に対して使用者51が位置し、第1辺と垂直方向の第1辺と異なる第2辺に対して会話相手52が位置する位置関係を示すレイアウト情報が示されている。
図11A~図11Eは、実施の形態1における音声翻訳装置100を横方向に使用する場合に使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
図11Aは、予め選択された一のレイアウト情報が図10Aに示される音声翻訳装置100を横方向に、かつ、使用者51及び会話相手52が対面して使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図11Aに示すインデックスFもしくはGの場合、図10Aに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図11Aに示すインデックスAもしくはLの場合、図10Aに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
図11Bは、予め選択された一のレイアウト情報が図10Bに示される音声翻訳装置100を横方向に、かつ、使用者51が左側となる横並びで使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図11Bに示すインデックスEもしくはFの場合、図10Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図11Bに示すインデックスGもしくはHの場合、図10Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図11Cは、予め選択された一のレイアウト情報が図10Cに示される音声翻訳装置100を横方向に、かつ、使用者51が右側となる横並びで使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図11Cに示すインデックスGもしくはHの場合、図10Cに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図11Cに示すインデックスEもしくはFの場合、図10Bに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図11Dは、予め選択された一のレイアウト情報が図10Dに示される音声翻訳装置100を横方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図11Dに示すインデックスFもしくはGの場合、図10Dに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図11Dに示すインデックスIもしくはJの場合、図10Dに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
また、図11Eは、予め選択された一のレイアウト情報が図10Dに示される音声翻訳装置100を横方向に、かつ、使用者51からみて会話相手52が左側となる直角位置で使用する場合に、使用者51及び会話相手52が位置する分割エリアのインデックスを示す図である。
すなわち、制御部13は、音源方向推定部12により推定された音源方向が、図11Eに示すインデックスFもしくはGの場合、図10Eに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者51であることを特定する。制御部13は、音源方向推定部12により推定された音源方向が、図11Eに示すインデックスCもしくはDの場合、図10Eに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手52であることを特定する。
次に、音声翻訳装置100を横向きにされた状態で用いた場合において、ディスプレイ部15が表示するディスプレイ300の表示画面の一例について説明する。
図12A~図12Cは、実施の形態1における音声翻訳装置100を横方向に使用する場合にディスプレイ300に表示される表示画面の一例を示す図である。以下では、第1言語が日本語、第2言語が英語であるとして説明する。
図12Aには、予め選択された一のレイアウト情報が図10Aに示される音声翻訳装置100を横方向に、かつ、使用者51及び会話相手52が対面して使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図12Aでは、ディスプレイ300の左側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の右側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図12Aでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは反対の向きで表示されている。
つまり、ディスプレイ部15は、図10Aに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を左右に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字と文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ300を挟んで使用者51と会話相手52とが対面する位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが逆さまになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。
図12Bには、予め選択された一のレイアウト情報が図10B及び図10Cに示される音声翻訳装置100を横方向に、かつ、使用者51及び会話相手52が横並びで使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図12Bでも、ディスプレイ300の左側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の右側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図12Bでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは同じ向きで表示されている。
つまり、ディスプレイ部15は、図10B及び図10Cに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を左右に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字との文字の向きが同じになるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ300の1つの辺に対して使用者51及び会話相手52がこの順または逆順に横に並ぶ位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが同じになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。
図12Cには、予め選択された一のレイアウト情報が図10Dに示される音声翻訳装置100を横方向に、かつ、使用者51からみて会話相手52が右側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図12Cでも、ディスプレイ300の左側の領域に、「道案内をしましょうか?」と日本語のテキスト文が表示され、ディスプレイ300の右側の領域に、「Can I help you find your way?」と英語の翻訳テキスト文が表示されている。さらに、図12Cでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは左に90度に回転された向きで表示されている。
つまり、ディスプレイ部15は、図10Dに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ300の領域を左右に分割した第1言語側の領域と第2言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部15は、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文の文字を左に90度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。
このように、予め選択された一のレイアウト情報が、ディスプレイ300を中心として、ディスプレイ300の第1辺に対して使用者51が位置し、第1辺と垂直方向の第1辺と異なる第2辺に対して会話相手52が位置する位置関係を示すとする。この場合、ディスプレイ部15は、テキスト文と翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応するディスプレイ300の領域においてテキスト文と翻訳テキスト文とを表示させる。
なお、図12A~図12Cを用いて、認識言語が日本語で翻訳言語が英語のときの表示画面の一例について説明したが、認識言語が英語で翻訳言語が日本語であってもよい。
(変形例1)
図13は、実施の形態1の変形例1における音声翻訳装置100Aの構成の一例を示す図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
本変形例における音声翻訳装置100Aは、図2に示す音声翻訳装置100に対して、制御部13Aの構成が異なり、遅延部16とビームフォーマ部17とが追加されている。以下、実施の形態1と異なる点を中心に説明する。
[遅延部16]
遅延部16は、マイクロホンアレイ部200により取得される音響信号を一定時間遅延させる。遅延部16は、一定時間遅延させた音響信号をビームフォーマ部17に出力する。なお、一定時間は、音源方向推定部12が方向推定に要する時間分であればよく、secオーダの時間となる。
[ビームフォーマ部17]
ビームフォーマ部17は、遅延部16により遅延された音響信号を信号処理することにより、所定方向に収音の指向性を制御した音響信号であるビームを形成する。本変形例では、所定方向として、音源方向推定部12により推定された音源方向にビームを形成する。
[制御部13A]
制御部13Aは、音源方向推定部12により推定された音源方向に基づき、発話者が使用者51であると特定したときには、ビームフォーマ部17の指向性を音源方向61に向けるように制御する。一方、制御部13Aは、音源方向推定部12により推定された音源方向に基づき、発話者が会話相手52であると特定したときには、ビームフォーマ部17の指向性を音源方向62に向けるように制御する。制御部13Aのその他の機能について制御部13と同じであるため説明を省略する。
[効果]
以上のように、本変形例の音声翻訳装置100Aによれば、ビームを使用者51または会話相手52に向けることができるので、使用者51または会話相手52の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。より具体的には、本変形例の音声翻訳装置100Aによれば、発話者が使用者51であると特定したときには、使用者51の方向に、発話者が会話相手52であると特定したときには会話相手52にビームフォーマ部17の指向性を向けて収音できる。これにより、発話者が発話している音源方向以外の方向からの雑音を除去して収音することができるので、音響信号の認識精度を向上させることができる。
(変形例2)
図14は、実施の形態1の変形例2における音声翻訳装置100Cの構成の一例を示す図である。図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
本変形例における音声翻訳装置100Cは、図2に示す音声翻訳装置100に対して、制御部13Bの構成が異なり、音声判定部18が追加されている。以下、実施の形態1と異なる点を中心に説明する。
[音声判定部18]
音声判定部18は、マイクロホンアレイ部200により取得される音響信号に音声が含まれるか否かを判定する。より具体的には、音声判定部18は、マイクロホンアレイ部200により取得される音響信号が音声、または、音声以外の非音声を示すか否かを判定する。
[制御部13B]
制御部13Bは、音声判定部18により音響信号に音声が含まれると判定され、かつ、音源方向推定部12により推定された音源方向が、予め選択された一のレイアウト情報に示される使用者51または会話相手52の位置関係を満たす場合にのみ、翻訳方向を決定する。
なお、制御部13Bのその他の機能について制御部13と同じであるため説明を省略する。
[効果]
以上のように、本変形例の音声翻訳装置100Bによれば、非定常なノイズを音声として認識してしまう誤検出を防止し、使用者51または会話相手52の発話のみを検出できる。よって、ノイズによる誤動作を抑制できるので、使用者51と会話相手52とは、音声翻訳装置100Bを介した会話をより自然に行うことができる。より具体的には、本変形例の音声翻訳装置100Bによれば、使用者51または会話相手52の発話のみを示す音響信号を用いることができるので、音響信号の認識精度及び翻訳精度を向上させることができる。
(実施例)
上記の音声翻訳装置100は、変形例1の音声翻訳装置100A及び変形例2の音声翻訳装置100Bを組み合わせたものであってもよい。この場合の具体的構成を、実施例における音声翻訳装置100Cとして以下説明する。
《装置構成》
図15は、実施の形態1の実施例における音声翻訳装置100Cの構成の一例を示す図である。図2、図13及び図14と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音声翻訳装置100Cは、図2、図13及び図14に示す音声翻訳装置100などに対して、翻訳部14Cの構成が異なり、DA変換部19及びスピーカ20が追加され、翻訳開始指示部10が翻訳開始ボタン10aとして構成されている。また、図15に示すマイクロホンアレイ部200Cは、図2にマイクロホンアレイ部200に対して、AD変換部202が明示され、マイクロホンアレイ201が明示されている点で構成が異なる。以下、実施の形態1と異なる点を中心に説明する。
[AD変換部202]
AD変換部202は、アナログデジタル変換部であり、図15ではADCと表記されている。AD変換部202は、マイクロホンアレイ201により取得されるアナログ信号である音響信号をデジタル信号である音響信号に変換する。AD変換部202は、変換した音響信号を音声翻訳装置100Cに出力する。
[翻訳開始ボタン10a]
翻訳開始ボタン10aは、ボタンまたはスイッチから構成され、音声翻訳装置100Cの使用者51または会話相手52に操作されると、音声翻訳装置100Cに対して翻訳開始の指示を行う。
[制御部13C]
制御部13Cは、翻訳開始ボタン10aが押されると、音声判定部18の結果、音源方向推定部12の結果、及び、選択されたレイアウト情報から、発話者を特定することによりビームフォーマ部17の指向性の方向を決定し、翻訳部14に翻訳させるかを決定する。より具体的には、制御部13Cは、音声判定部18により音響信号に音声が含まれると判定され、かつ、音源方向推定部12により推定された音源方向が、予め選択された一のレイアウト情報に示される使用者51または会話相手52の位置関係を満たす場合、翻訳部14に翻訳させると決定する。
また、制御部13Cは、翻訳部14に翻訳させる場合には、翻訳方向を決定して、決定した翻訳方向を翻訳部14に伝達する。
なお、制御部13Cは、翻訳部14に翻訳させないことを決定した場合、翻訳方向を決定しないで、その旨を翻訳部14に伝達すればよい。制御部13Cのその他の機能について制御部13、13A、13Bと同じであるため説明を省略する。
[翻訳部14C]
翻訳部14Cは、さらに、テキスト合成処理部に翻訳テキスト文を他方の言語の音声データに変換させて得た翻訳音声データを取得して、スピーカ20に伝達する。本実施例では、翻訳部14Cは、第1音声認識部141Aと、第2音声認識部141Bと、第1テキスト翻訳部142Aと、第2テキスト翻訳部142Bと、第1テキスト合成部143Aと、第2テキスト合成部143Bとを備える。また、翻訳部14Cは、入力言語選択スイッチ144と、出力言語選択スイッチ145と、認識表示選択スイッチ146と、翻訳表示選択スイッチ147とを備える。
<認識処理部141>
第1音声認識部141Aと、第2音声認識部141Bとは、認識処理部141の一例である。ここで、認識処理部141は、制御部13Cにより決定された翻訳方向に従って、音響信号の内容を、第1言語及び第2言語の一方の言語すなわち認識言語で認識し、音響信号の内容を示すテキスト文を生成する。
第1音声認識部141Aは、第1言語の音声認識を行う。より具体的には、第1音声認識部141Aは、入力言語選択スイッチ144を介して伝達された、ビームフォーマ部17から出力された音響信号の内容を、第1言語で認識する。そして、第1音声認識部141Aは、認識結果として、音響信号の内容を示す第1言語のテキスト文を生成する。
第2音声認識部141Bは、第2言語の音声認識を行う。より具体的には、第2音声認識部141Bは、入力言語選択スイッチ144を介して伝達された、ビームフォーマ部17から出力された音響信号の内容を、第2言語で認識する。そして、第2音声認識部141Bは、認識結果として、音響信号の内容を示す第2言語のテキスト文を生成する。
<翻訳処理部142>
第1テキスト翻訳部142Aと、第2テキスト翻訳部142Bとは、翻訳処理部142の一例である。ここで、翻訳処理部142は、制御部13Cにより決定された翻訳方向に従って、音響信号の内容を、第1言語及び第2言語の他方の言語すなわち翻訳言語で翻訳し、音響信号の内容を示す翻訳テキスト文を生成する。
第1テキスト翻訳部142Aは、第1音声認識部141Aの出力データを第2言語に翻訳する。より具体的には、第1テキスト翻訳部142Aは、第1音声認識部141Aが生成した出力データである音響信号の内容を示す第1言語のテキスト文を、第2言語で翻訳し、音響信号の内容を示す第2言語の翻訳テキスト文を生成する。
第2テキスト翻訳部142Bは、第2音声認識部141Bの出力データを第1言語に翻訳する。より具体的には、第2テキスト翻訳部142Bは、第2音声認識部141Bが生成した出力データである音響信号の内容を示す第2言語のテキスト文を、第1言語で翻訳し、音響信号の内容を示す第1言語の翻訳テキスト文を生成する。
<テキスト合成処理部>
第1テキスト合成部143Aと、第2テキスト合成部143Bとは、テキスト合成処理部の一例である。ここで、テキスト合成処理部は、制御部13Cにより決定された翻訳方向に従って、翻訳言語で翻訳された翻訳テキスト文を音声データに変換する。
第1テキスト合成部143Aは、第1テキスト翻訳部142Aの出力データを第2言語の音声データに変換する。より具体的には、第1テキスト合成部143Aは、第1テキスト翻訳部142Aが生成した出力データである第2言語の翻訳テキスト文を、第2言語の音声データに変換する。
第2テキスト合成部143Bは、第2テキスト翻訳部142Bの出力データを第1言語の音声データに変換する。より具体的には、第2テキスト合成部143Bは、第2テキスト翻訳部142Bが生成した出力データである第1言語の翻訳テキスト文を、第1言語の音声データに変換する。
<入力言語選択スイッチ144>
入力言語選択スイッチ144は、制御部13Cにより伝達された翻訳方向に従って、ビームフォーマ部17の出力の切替を行う。例えば、入力言語選択スイッチ144は、翻訳方向が第1言語から第2言語の方向である、すなわち認識言語を第1言語とし、翻訳言語を第2言語とする場合、図15に示すA側に倒れ、ビームフォーマ部17の出力を第1音声認識部141Aに伝達する。また、例えば、入力言語選択スイッチ144は、翻訳方向が第2言語から第1言語の方向である、すなわち認識言語を第2言語とし、翻訳言語を第1言語とする場合、図15に示すB側に倒れ、ビームフォーマ部17の出力を第2音声認識部141Bに伝達する。
なお、入力言語選択スイッチ144は、制御部13Cが翻訳部14に翻訳させないことを決定した場合、図15に示すC側に倒れた状態である中間状態を保持する。
<出力言語選択スイッチ145>
出力言語選択スイッチ145は、制御部13Cにより伝達された翻訳方向に従って、テキスト合成処理部の出力の切替を行う。例えば、出力言語選択スイッチ145は、翻訳方向が第1言語から第2言語の方向である場合、図15に示すA側に倒れ、第1テキスト合成部143Aの出力である第2言語の音声データを選択し、DA変換部19に伝達する。例えば、出力言語選択スイッチ145は、翻訳方向が第2言語から第1言語の方向である場合、図15に示すB側に倒れ、第2テキスト合成部143Bの出力である第1言語の音声データを選択し、DA変換部19に伝達する。
なお、出力言語選択スイッチ145は、制御部13Cが翻訳部14に翻訳させないことを決定した場合、図15に示すC側に倒れた状態である中間状態を保持する。
<認識表示選択スイッチ146>
認識表示選択スイッチ146は、制御部13Cにより伝達された翻訳方向に従って、認識処理部141の出力の切替を行う。例えば、認識表示選択スイッチ146は、翻訳方向が第1言語から第2言語への方向である場合、図15に示すA側に倒れ、第1音声認識部141Aの出力である第1言語のテキスト文を選択し、ディスプレイ部15に伝達する。また、例えば、認識表示選択スイッチ146は、翻訳方向が第2言語から第1言語の方向である場合、図15に示すB側に倒れ、第2音声認識部141Bの出力である第2言語のテキスト文を選択し、ディスプレイ部15に伝達する。
なお、認識表示選択スイッチ146は、制御部13Cが翻訳部14に翻訳させないことを決定した場合、図15に示すC側に倒れた状態である中間状態を保持する。
<翻訳表示選択スイッチ147>
翻訳表示選択スイッチ147は、制御部13Cにより伝達された翻訳方向に従って、翻訳処理部142の出力の切替を行う。例えば、翻訳表示選択スイッチ147は、翻訳方向が第1言語から第2言語への方向である場合、図15に示すA側に倒れ、第1テキスト翻訳部142Aの出力である第2言語の翻訳テキスト文を選択し、ディスプレイ部15に伝達する。また、例えば、翻訳表示選択スイッチ147は、翻訳方向が第2言語から第1言語の方向である場合、図15に示すB側に倒れ、第2テキスト翻訳部142Bの出力である第1言語の翻訳テキスト文を選択し、ディスプレイ部15に伝達する。
なお、翻訳表示選択スイッチ147は、制御部13Cが翻訳部14に翻訳させないことを決定した場合、図15に示すC側に倒れた状態である中間状態を保持する。
[DA変換部19]
DA変換部19は、デジタルアナログ変換部であり、図15ではDACと表記されている。DA変換部19は、翻訳部14Cから出力されたデジタル信号である音声信号を、アナログ信号である音声信号に変換する。DA変換部19は、変換した音声信号をスピーカ20に出力する。
[スピーカ20]
スピーカ20は、伝達された翻訳音声データに従って、翻訳テキスト文の音声を出音する。本実施例では、スピーカ20は、DA変換部19より入力された、翻訳テキスト文の音声信号を再生して出音する。
[音声翻訳装置100Cの動作]
以上のように構成される音声翻訳装置100Cが行う動作処理について説明する。
図16は、実施の形態1の実施例における音声翻訳装置100Cが行う動作処理を示すフローチャートである。ここでは、予め選択されたレイアウト情報が、図4Aに示すように、音声翻訳装置100Cを縦方向に、かつ、使用者51及び会話相手52が対面して使用する場合の位置関係を示すものであるとして説明する。また、ここでも第1言語は日本語、第2言語は英語であるとして説明する。
まず、音声翻訳装置100Cの使用前に、図4Aに示すレイアウト情報が、使用者51もしくは会話相手52により、記憶部11に記憶されている複数のレイアウト情報から、一のレイアウト情報が選択される。すると、音声翻訳装置100Cは、選択信号SELで指定された、使用者51もしくは会話相手52により選択された一のレイアウト情報を記憶部11から読み込み(S101)、制御部13Cに通知する。そして、音声翻訳装置100Cは、ディスプレイ部15に、画面レイアウトのパターンを指示する(S102)。本実施例では、音声翻訳装置100Cは、ディスプレイ部15に、選択された一のレイアウト情報に従った図7Aに示す画面レイアウトを指定する。これにより、音声翻訳装置100Cは、ディスプレイ部15に、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示させることができる。
次に、使用者51または会話相手52に翻訳開始ボタン10aが押下されるとする(S103)。すると、翻訳開始ボタン10aは音声翻訳装置100Cに対して翻訳開始の指示を行う。
次に、音声翻訳装置100Cは、翻訳開始の指示を受けると、音声が判定されたか否かを確認し(S104)、音声が判定された場合(S104でyes)、音源方向が推定されたかを確認する(S105)。音声翻訳装置100Cは、音源方向が推定された場合(S105でyes)、推定された音源方向が、読み込んだレイアウト情報の示す位置関係に合致するかを判定する(S106)。
ステップS106において、推定された音源方向が、読み込んだレイアウト情報の示す位置関係に合致する場合(S106でyes)、音声翻訳装置100Cは、そのレイアウト情報と音源方向とから入力言語選択スイッチ144などを切り替える(S107)。具体的には、音声翻訳装置100Cは、検出された音源方向が、読み込んだレイアウト情報の示す位置関係に合致する場合、決定した翻訳方向に応じて、入力言語選択スイッチ144などを図15に示すA側またはB側に倒す。
そして、音声翻訳装置100Cは、ステップS105で推定した音源方向に基づき、指向性の方向を決定し、ビームフォーマ部17のパラメータを変更して指向性を制御する(S108)。
例えば、図16の構成を用いて説明すると、翻訳開始ボタン10aが押され、使用者51が発話した場合、発話音声は、マイクロホンアレイ201に入力され、AD変換部202でデジタル信号である音響信号に変換される。AD変換部202から出力された音響信号は、音源方向推定部12、遅延部16及び音声判定部18に入力される。遅延部16は、音源方向推定部12で方向推定に要する時間分だけ音響信号を遅延させてビームフォーマ部17に出力する。また、音声判定部18は、音声と音声以外の非音声とを判定することで、入力された音響信号が音声を示すか否かを判定する。音源方向推定部12は、入力された音響信号から音源方向を推定する。音源方向が推定されると推定した音源方向を制御部13に出力し、未推定では音源方向未推定の旨を出力する。制御部13Cでは、音声判定部18で音声と判定され、かつ、音源方向推定部12で、音源方向が図6Aに示すインデックスIもしくはJである場合、発話者が使用者51であると特定し、日本語から英語への方向である翻訳方向を決定する。
このようにして、音声翻訳装置100Cは、ステップS107で決定した翻訳方向に従って、音響信号の内容を示すテキスト文、及び、テキスト文を翻訳した翻訳テキスト文を取得する。そして、音声翻訳装置100Cは、第1言語側の領域に日本語のテキスト文を表示し、第2言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。
なお、ステップS106で音声が判定されない場合(S104でno)、ステップS105で音源方向が未推定の場合(S105でno)、及び、ステップS107で、検出された音源方向が、読み込んだレイアウト情報の示す位置関係に合致しない場合(S106でno)、ステップS109に進む。
ステップS109では、音声翻訳装置100Cは、入力言語選択スイッチ144などを中間状態に設定する。これにより、音声翻訳装置100Cは、ディスプレイ部15に入力待ちの状態を表示させ、意味不明な表示をさせることを抑制できるだけでなく、ノイズなどの非音声を示す音響信号に対して翻訳処理を行わなくてよいので省電力化を図れる。
[効果]
以上のように、本実施例の音声翻訳装置100Cによれば、ビームを使用者51または会話相手52に向けることができるので、使用者51または会話相手52の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。より具体的には、本実施例の音声翻訳装置100Cによれば、発話者が使用者51であると特定したときには、使用者51の方向に、発話者が会話相手52であると特定したときには会話相手52にビームフォーマ部17の指向性を向けて収音できる。これにより、発話者が発話している音源方向以外の方向からの雑音を除去することができるので、音響信号の認識精度を向上させることができる。
また、本実施例の音声翻訳装置100Cによれば、使用者51と会話相手52とは相手の発話内容が相手側の言語に翻訳されて音声で出力されるので、使用者51と会話相手52とは相手の発話内容を意味する文字を読んで会話する手間を解消でき、操作性をより向上することができる。これにより、使用者51と会話相手52とは音声のみを用いて会話することができるので、音声翻訳装置100Cを介した会話をより自然に行うことができる。
(実施の形態2)
実施の形態1では、一のレイアウト情報が予め選択されており、固定であるとして説明したが、これに限らない。使用者51及び会話相手52の位置が、予め選択した一のレイアウト情報が示す位置関係と異なる場合に、他のレイアウト情報が再選択されるとしてもよい。以下では、実施の形態1などと異なるところを中心に説明する。
図17は、実施の形態2における音声翻訳装置100Dの構成の一例を示す図である。図15と同様の要素には同一の符号を付しており、詳細な説明は省略する。
本実施の形態における音声翻訳装置100Dは、実施の形態1の実施例に係る音声翻訳装置100Cに対して、レイアウト選択制御部21が追加されている点で構成が異なる。その他の構成は、実施の形態1の実施例で説明した通りの動作を行う。
[レイアウト選択制御部21]
レイアウト選択制御部21は、翻訳開始ボタン10aが使用者51に操作されることにより翻訳開始を指示した場合に、予め選択された一のレイアウト情報を初期化する。そして、レイアウト選択制御部21は、音声判定部18の判定結果及び音源方向推定部12の推定結果に基づいて、記憶部11に記憶されている複数のレイアウト情報から一つのレイアウト情報を、一のレイアウト情報として、選択する。
より具体的には、レイアウト選択制御部21は、予め選択された一のレイアウト情報を初期化後、最初に、音声判定部18により音響信号に音声が含まれると判定されたときに音源方向推定部12により推定された音源方向を使用者51が位置する方向と推定する。レイアウト選択制御部21は、使用者51が位置する方向の推定後、音声判定部18により音響信号に音声が含まれると判定され、かつ、音源方向推定部12により推定された音源方向が使用者51が位置する方向と異なる方向であるときに、当該異なる方向を、会話相手52が位置する方向と決定する。そして、レイアウト選択制御部21は、決定した、使用者51が位置する方向と会話相手52が位置する方向とを用いて、複数のレイアウト情報から一つのレイアウト情報を、一のレイアウト情報として選択する。
つまり、本実施の形態では、音声翻訳装置100Dが使用される方向が既知であることと、翻訳開始ボタン10aの押下などの操作は使用者51が行い、かつ使用者51が最初に発話することとを前提としている。この場合、レイアウト選択制御部21は、翻訳開始ボタン10aが押され、音声判定部18が音響信号に含まれる音声を最初に判定すると、当該音響信号から音源方向推定部12が推定した音源方向を用いて使用者51の方向を決定することができる。また、レイアウト選択制御部21は、2回目の発話の音声を示す音響信号が判定され、かつ使用者51以外の方向からの音源方向が推定された場合に会話相手52の方向を決定することができる。これにより、レイアウト選択制御部21は、記憶部11に記憶される複数のレイアウト情報から、決定した使用者51の方向と会話相手52の方向とに合致する位置関係を示すレイアウト情報を新たに選択することができる。
[音声翻訳装置100Dの動作]
以上のように構成される音声翻訳装置100Dが行う動作処理について説明する。
図18は、実施の形態2における音声翻訳装置100Dが行う動作処理を示すフローチャートである。
まず、音声翻訳装置100Dには、使用者51により、使用予定だった一のレイアウト情報が選択されている。このため、音声翻訳装置100Dは、選択信号SELで指定された、使用者51により選択された一のレイアウト情報を記憶部11から読み込み(S201)、制御部13Cに通知している。なお、一のレイアウト情報ではなく、音声翻訳装置100Dが使用される向き(縦方向、横方向)のみ使用者51により、予め設定されるとしてもよい。
この状態において、音声翻訳装置100すなわちレイアウト選択制御部21は、使用者51により翻訳開始ボタン10aが押下されたか否かを確認している(S202)。
レイアウト選択制御部21は、使用者51により翻訳開始ボタン10aが押下されたことを確認すると(S202でyes)、音声が判定されたか否かを確認する(S203)。レイアウト選択制御部21は、音声が判定された場合(S203でyes)、音源方向が推定されたかを確認する(S204)。レイアウト選択制御部21は、音源方向が推定された場合(S204でyes)、翻訳開始の指示後において、最初に、推定された音源方向であるか否かを判定する(S205)。なお、ステップS203で音声が判定されない場合(S203でno)、及び、ステップS204で音源方向が未推定の場合(S204でno)、ステップS203に戻る。
ステップS205において、翻訳開始の指示後において、最初に、推定された音源方向である場合(S205でyes)、レイアウト選択制御部21は、その音源方向から、使用者51すなわち第1言語の発話者の方向を決定し(S206)、ステップS203に進む。
一方、ステップS205において、翻訳開始の指示後において、最初に、推定された音源方向でない場合(S205でno)、レイアウト選択制御部21は、会話相手52すなわち第2言語の発話者の方向が未決定かどうかを確認する(S207)。レイアウト選択制御部21は、ステップS204で推定された音源方向が第1言語の発話者(すなわち使用者51)と異なるか否かを判定する(S208)。そして、レイアウト選択制御部21は、ステップS207で推定された音源方向が第1言語の発話者(すなわち使用者51)と異なる場合(S208でyes)、ステップS204で推定された音源方向から第2言語の発話者(会話相手52)の方向を決定する(S209)。なお、ステップS207において、第2言語の発話者の方向が未決定ではない場合(S207でno)、及び、ステップS208において、ステップS207で推定された音源方向が第1言語の発話者(すなわち使用者51)と同じ場合には、ステップS203に戻る。
次に、ステップS210において、レイアウト選択制御部21は、ステップS206で決定した第1言語の発話者(すなわち使用者51)と、ステップS209で決定した第2言語の発話者(すなわち会話相手52)とに従って、レイアウト情報を選択する(S210)。より具体的には、レイアウト選択制御部21は、記憶部11に記憶される複数のレイアウト情報から、決定した使用者51の方向と会話相手52の方向とに合致する位置関係を示すレイアウト情報を新たに選択する。すると、音声翻訳装置100Dは、新たに選択された一のレイアウト情報を記憶部11から読み込み、制御部13Cに通知する。
そして、音声翻訳装置100Dは、ディスプレイ部15に、新たに選択された一のレイアウト情報に応じた画面レイアウトのパターンを指示する(S211)。
[効果]
以上のように、本実施例の音声翻訳装置100Dによれば、使用者51と会話相手52との位置関係が予め設定していた位置関係と異なっていた場合でも、使用者51及び会話相手52の位置に応じた、発話内容の文字の正しい向きで表示することができるので、使用者51及び会話相手52に対して読みやすく表示することができる。これにより、操作性をより向上することができる。
以上、本開示の一つまたは複数の態様に係る音声翻訳装置などについて、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態などに限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。
(1)上記の音声翻訳装置100、100A~100Dを構成する、認識処理部141及び翻訳処理部142を備える翻訳部14の認識処理及び翻訳処理はクラウド上で行われてもよい。この場合、認識処理部141及び翻訳処理部142はクラウドとの通信を行い、対象のデータをクラウドに送信し、認識処理及び翻訳処理されたデータを取得すればよい。同様に、上記の音声翻訳装置100C、100Dを構成するテキスト合成処理部のテキスト合成処理はクラウド上で行われてもよい。この場合、テキスト合成処理部はクラウドとの通信を行い、対象のデータである翻訳テキスト文をクラウドに送信し、翻訳テキスト文を音声データに変換されたデータを取得すればよい。
(2)上記の音声翻訳装置などでは、異なる言語を話す2人の話者が意思の疎通を図るためのツールとして用いられ、一方の話者の音声を他方の話者の言語に翻訳することを相互に行うとして説明したが、これに限らない。上記の音声翻訳装置などは、2以上の異なる言語を話す複数の話者が意思の疎通を図るためのツールとして用いられてもよい。この場合、音声翻訳装置は、複数の話者のうちの一の話者が発話した言語を認識し、認識した言語での発話内容を、複数の他の話者の1以上の異なる言語に翻訳すればよい。そして、ディスプレイ300を囲む複数の他の話者が位置する領域に翻訳した言語での翻訳テキスト文を、当該一の話者が位置する領域に認識した言語のテキスト文を表示すればよい。
(3)上記の音声翻訳装置などは、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(4)上記の音声翻訳装置などを構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(5)上記の音声翻訳装置などを構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。