JP7171402B2

JP7171402B2 - 音声翻訳装置、音声翻訳方法及びそのプログラム

Info

Publication number: JP7171402B2
Application number: JP2018230066A
Authority: JP
Inventors: 博基古川; 剛樹西川; 敦坂口; 亘平林田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2018-03-29
Filing date: 2018-12-07
Publication date: 2022-11-15
Anticipated expiration: 2038-12-07
Also published as: JP2019174786A

Description

本開示は、音声翻訳装置、音声翻訳方法及びそのプログラムに関する。

例えば特許文献１には、使用者とその会話相手との２つの言語間において、使用者とその会話相手との発話内容のそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する技術について開示されている。

特許第３８９１０２３号公報

しかしながら、特許文献１に開示される技術では、使用者とその会話相手とのそれぞれは、毎回ボタン操作を行ってから発話する必要があり、操作が煩雑であるという課題がある。

本開示は、上述の事情を鑑みてなされたもので、操作性を向上することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。

本開示の一態様に係る音声翻訳装置は、音声翻訳装置であって、前記音声翻訳装置の使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンと、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定部と、使用者、前記会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定部により推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第１言語と前記第１言語と異なる第２言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御部と、前記制御部により決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得た、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳部と、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ部とを備える。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示によれば、操作性を向上することができる音声翻訳装置などを実現できる。

図１は、実施の形態１における音声翻訳装置の外観と使用場面の一例を示す図である。図２は、実施の形態１における音声翻訳装置の構成の一例を示す図である。図３Ａは、実施の形態１におけるマイクロホンアレイ部を構成するマイクロホンアレイの実装例の説明図である。図３Ｂは、実施の形態１におけるマイクロホンアレイ部を構成するマイクロホンアレイの実装例の説明図である。図３Ｃは、実施の形態１におけるマイクロホンアレイ部を構成するマイクロホンアレイの実装例の説明図である。図４Ａは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図４Ｂは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図４Ｃは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図４Ｄは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図４Ｅは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図５は、実施の形態１における記憶部に記憶されている座標系と分割エリアと分割エリアそれぞれに割り当てられたインデックスとの一例を示す図である。図６Ａは、実施の形態１における音声翻訳装置を縦方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図６Ｂは、実施の形態１における音声翻訳装置を縦方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図６Ｃは、実施の形態１における音声翻訳装置を縦方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図６Ｄは、実施の形態１における音声翻訳装置を縦方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図６Ｅは、実施の形態１における音声翻訳装置を縦方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図７Ａは、実施の形態１における音声翻訳装置を縦方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図７Ｂは、実施の形態１における音声翻訳装置を縦方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図７Ｃは、実施の形態１における音声翻訳装置を縦方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図７Ｄは、実施の形態１における音声翻訳装置を縦方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図８Ａは、実施の形態１におけるディスプレイに表示される表示画面の一例を示す図である。図８Ｂは、実施の形態１におけるディスプレイに表示される表示画面の一例を示す図である。図９は、実施の形態１における音声翻訳装置が行う動作処理を示すフローチャートである。図１０Ａは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図１０Ｂは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図１０Ｃは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図１０Ｄは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図１０Ｅは、実施の形態１における記憶部に記憶されているレイアウト情報の一例を示す図である。図１１Ａは、実施の形態１における音声翻訳装置を横方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図１１Ｂは、実施の形態１における音声翻訳装置を横方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図１１Ｃは、実施の形態１における音声翻訳装置を横方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図１１Ｄは、実施の形態１における音声翻訳装置を横方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図１１Ｅは、実施の形態１における音声翻訳装置を横方向に使用する場合に使用者及び会話相手が位置する分割エリアのインデックスを示す図である。図１２Ａは、実施の形態１における音声翻訳装置を横方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図１２Ｂは、実施の形態１における音声翻訳装置を横方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図１２Ｃは、実施の形態１における音声翻訳装置を横方向に使用する場合にディスプレイに表示される表示画面の一例を示す図である。図１３は、実施の形態１の変形例１における音声翻訳装置の構成の一例を示す図である。図１４は、実施の形態１の変形例２における音声翻訳装置の構成の一例を示す図である。図１５は、実施の形態１の実施例における音声翻訳装置の構成の一例を示す図である。図１６は、実施の形態１の実施例における音声翻訳装置が行う動作処理を示すフローチャートである。図１７は、実施の形態２における音声翻訳装置の構成の一例を示す図である。図１８は、実施の形態２における音声翻訳装置が行う動作処理を示すフローチャートである。

この構成により、使用者とその会話相手とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを１度押すのみで、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われる。これにより、操作性を向上することができる。また、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者と会話相手とは、ボタン操作により会話が中断されないので、会話音声翻訳装置を介した会話をより自然に行うことができる。

ここで、例えば、前記翻訳部は、前記認識処理部と、前記翻訳処理部とを備えるとしてもよい。

この構成により、通信ができないまたは不安定な環境下においても、使用者と会話相手とは、音声翻訳装置を介した会話をより自然に行うことができる。

また、例えば、前記翻訳部は、ネットワークを介してサーバと接続可能であり、前記サーバは、前記認識処理部と前記翻訳処理部との少なくも一方を備えるとしてもよい。

この構成により、音声翻訳装置の小型化及び軽量化を実現できる。また、この構成により、認識性能及び翻訳性能が漸次向上する、クラウド上のサーバに備えられる認識処理部と翻訳処理部とを用いることができ、使用者及び会話相手の発話内容をより精度よく認識してより精度よく翻訳できる。よって、使用者と会話相手とは、音声翻訳装置を介した会話をより自然に行うことができようになる。

また、例えば、さらに、前記マイクロホンアレイ部により取得される前記音響信号を一定時間遅延させる遅延部と、前記遅延部により遅延された前記音響信号を信号処理することにより、所定方向に収音の指向性を制御した音響信号であるビームを形成するビームフォーマ部とを備え、前記ビームフォーマ部は、前記所定方向として、前記音源方向推定部により推定された前記音源方向にビームを形成するとしてもよい。

この構成により、ビームフォーマ部で形成されるビームを使用者または会話相手に向けることができるので、使用者または会話相手の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。

また、例えば、さらに、スピーカを備え、前記翻訳部は、さらに、テキスト合成処理部に前記翻訳テキスト文を前記他方の言語の音声データに変換させて得た翻訳音声データを取得して、前記スピーカに伝達し、前記スピーカは、伝達された前記翻訳音声データに従って、前記翻訳テキスト文の音声を出音するとしてもよい。

これにより、使用者と会話相手とは相手の発話内容を意味する文字を読んで会話する手間を解消でき、操作性をより向上することができる。また、使用者と会話相手とは音声のみを用いて会話することができるので、音声翻訳装置を介した会話をより自然に行うことができる。

また、例えば、前記ディスプレイの形状は、カード状であり、前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが逆さまになるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させるとしてもよい。また、前記ディスプレイの形状は、カード状であり、前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを中心として、前記ディスプレイの第１辺に対して前記使用者が位置し、前記第１辺と垂直方向の前記第１辺と異なる第２辺に対して前記会話相手が位置する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させるとしてもよい。

これにより、使用者及び会話相手それぞれに対して、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。

また、例えば、前記ディスプレイの形状は、カード状であり、前記複数のレイアウト情報は、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係、前記ディスプレイの１つの辺に対して前記使用者及び前記会話相手がこの順または逆順に横に並ぶ位置関係、及び、前記ディスプレイを中心として、前記ディスプレイの第１辺に対して前記使用者が位置し、前記第１辺と垂直方向の前記第１辺と異なる第２辺に対して前記会話相手が位置する位置関係を含むとしてもよい。

これにより、使用者及び会話相手の位置に応じて、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。

また、例えば、さらに、前記マイクロホンアレイ部により取得される前記音響信号に音声が含まれるか否かを判定する音声判定部を備え、前記制御部は、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が、前記一のレイアウト情報に示される前記使用者または前記会話相手の位置関係を満たす場合にのみ、前記翻訳方向を決定するとしてもよい。

この構成により、非定常なノイズを音声として認識してしまう誤検出を防止し、使用者または会話相手の発話のみを検出できる。よって、ノイズによる誤動作を抑制できるので、使用者と会話相手とは、会話音声翻訳装置を介した会話をより自然に行うことができる。

また、例えば、さらに、前記翻訳開始ボタンが前記使用者に操作されることにより翻訳開始を指示した場合に、予め選択された前記一のレイアウト情報を初期化し、前記音声判定部の判定結果及び前記音源方向推定部の推定結果に基づいて、前記記憶部に記憶されている複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として、選択するレイアウト選択制御部を備えるとしてもよい。

これにより、使用者と会話相手との位置関係が予め設定していた位置関係と異なっていた場合でも、使用者及び会話相手の位置に応じた、発話内容の文字の正しい向きで表示することができるので、使用者及び会話相手に対して読みやすく表示することができる。

ここで、例えば、前記レイアウト選択制御部は、予め選択された前記一のレイアウト情報を初期化後、最初に、前記音声判定部により前記音響信号に音声が含まれると判定されたときに前記音源方向推定部により推定された前記音源方向を前記使用者が位置する方向と推定し、前記使用者が位置する方向の推定後、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が前記使用者が位置する方向と異なる方向であるときに、前記異なる方向を、前記会話相手が位置する方向と決定し、決定した、前記使用者が位置する方向と前記会話相手が位置する方向とを用いて、複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として選択する。

また、本開示の一態様に係る音声翻訳方法は、使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法であって、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第１言語と前記第１言語と異なる第２言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ制御ステップとを含む。

これにより、使用者とその会話相手とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを１度押すのみで、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われる。よって、操作性を向上することができる。また、使用者と会話相手との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者と会話相手とは、ボタン操作により会話が中断されないので、会話音声翻訳装置を介した会話をより自然に行うことができる。

また、本開示の一態様に係るプログラムは、使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法を実行するプログラムであって、マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示し、記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向に基づき、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、第１言語と前記第１言語と異なる第２言語のうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を表示させるディスプレイ制御ステップとをコンピュータに実行させる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。

以下、本開示の一態様に係る音声翻訳装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
《概要》
図１は、実施の形態１における音声翻訳装置１００の外観と使用場面の一例を示す図である。

音声翻訳装置１００は、第１言語で発話する使用者５１と、第２言語で発話する会話相手５２との間の会話を双方向に翻訳する装置である。つまり、音声翻訳装置１００は、使用者５１とその会話相手５２の異なる２つの言語間において、使用者５１とその会話相手５２の発声したそれぞれの言語を認識し、発話内容を互いの相手の言語に翻訳する装置である。このような音声翻訳装置１００は、例えばカードのような長尺状の形状で構成され、カード型端末、スマートホン及びタブレットなどの携帯端末で実現される。音声翻訳装置１００は、図１に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイを有するマイクロホンアレイ部２００と、翻訳結果をテキストとして表示するディスプレイ３００とを備えている。なお、ディスプレイ３００は、縦向きまたは横向きにされた状態で用いられる。

図１では、第１言語を話す使用者５１が下側に位置し、第２言語を話す会話相手５２が上側に位置して、音声翻訳装置１００を縦方向に使用して対面しながら会話する例が示されている。本実施の形態では、音声翻訳装置１００は、翻訳開始時に翻訳開始ボタン（不図示）を１度押すのみで、使用者５１と会話相手５２との発話に応じて認識言語と翻訳言語との切替を自動で行う。

《装置構成》
図２は、実施の形態１における音声翻訳装置１００の構成の一例を示す図である。

音声翻訳装置１００は、図２に示すように、翻訳開始指示部１０と、記憶部１１と、音源方向推定部１２と、制御部１３と、翻訳部１４と、ディスプレイ部１５とを備える。音声翻訳装置１００は、さらに、マイクロホンアレイ部２００を備えるとしてもよい。つまり、音声翻訳装置１００がマイクロホンアレイ部２００を備えることは必須ではない。

［マイクロホンアレイ部２００］
マイクロホンアレイ部２００は、音声信号を取得する。より具体的には、マイクロホンアレイ部２００は、互いに離間して配置された２以上のマイクロホンユニットからなるマイクロホンアレイを備え、音を収音し、収音した音から電気信号に変換した音響信号を取得する。マイクロホンアレイ部２００は、取得した音響信号を制御部１３に出力する。なお、マイクロホンアレイ部２００は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部２００は音声翻訳装置１００に装着されることで機能する。

なお、マイクロホンアレイ部２００は、音声翻訳装置１００の周囲すなわち音声翻訳装置１００を中心に３６０度の方向で人間の音声を収音する必要がある。また、人間の音声を収音するためには、５０Ｈｚ～７ｋＨｚの帯域の音を収音できればよい。このため、マイクロホンアレイ部２００は、１次元に配列されたマイクロホンアレイではなく２次元に配列されたマイクロホンアレイで構成されるとよい。また、２次元に配列されたマイクロホンアレイはマイクロホンユニット間を一定距離以内として離間されて配列された複数のマイクロホンユニットで構成されるとよい。

図３Ａ～図３Ｃはそれぞれ、実施の形態１におけるマイクロホンアレイ部２００を構成するマイクロホンアレイの実装例の説明図である。

すなわち、マイクロホンアレイ部２００は、図３Ａに示すようにＬ字状に複数のマイクロホンユニットが配列されたＬ字型のマイクロホンアレイ２０１Ａで構成されてもよい。また、マイクロホンアレイ部２００は、図３Ｂに示すように円状に複数のマイクロホンユニットが配列された円配列型のマイクロホンアレイ２０１Ｂで構成されてもよい。マイクロホンアレイ部２００は、円弧状に複数のマイクロホンユニットが配列された円弧配列型のマイクロホンアレイ２０１Ｃで構成されてもよい。

［翻訳開始指示部１０］
翻訳開始指示部１０は、音声翻訳装置１００の使用者５１または使用者５１の会話相手５２に操作されることにより、音声翻訳装置１００に対して翻訳開始の指示を行う。本実施の形態では、翻訳開始指示部１０は、例えば翻訳開始ボタンであり、翻訳開始ボタンが押下されるなどで翻訳開始ボタンが操作されると、音声翻訳装置１００に対して翻訳開始の指示を行う。

［記憶部１１］
記憶部１１は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはメモリなどで構成されている。

本実施の形態では、記憶部１１は、使用者５１、会話相手５２、及び、ディスプレイ３００の異なる位置関係を示す複数のレイアウト情報を記憶している。記憶部１１は、記憶している複数のレイアウト情報のうち、一のレイアウト情報が予め選択されている。

また、記憶部１１は、音声翻訳装置１００を中心とした座標系と、音声翻訳装置１００を中心とした領域が分割された分割エリアそれぞれに割り当てられたインデックスとを記憶する。

ここで、まず、本実施の形態における複数のレイアウト情報の具体例について説明する。図４Ａ～図４Ｅはそれぞれ、実施の形態１における記憶部１１に記憶されているレイアウト情報の一例を示す図である。

図４Ａに示すレイアウト情報は、音声翻訳装置１００を縦方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を上下に区切る中心線Ｌ_１の下側に第１言語を話す使用者５１が位置し、中心線Ｌ_１の上側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが対面する位置関係を示している。また、図４Ａに示すレイアウト情報は、縦方向に使用される音声翻訳装置１００の下側の音源方向６１に第１言語を話す使用者５１が位置し、上側の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図４Ａには、ディスプレイ３００を挟んで使用者５１と会話相手５２とが対面する位置関係を示すレイアウト情報が示されている。

図４Ｂに示すレイアウト情報は、音声翻訳装置１００を縦方向に、かつ、使用者５１が左側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を左右に区切る中心線Ｌ_２の左側に第１言語を話す使用者５１が位置し、中心線Ｌ_２の右側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが音声翻訳装置１００の下側で横に並んでいる位置関係を示している。また、図４Ｂに示すレイアウト情報は、縦方向に使用される音声翻訳装置１００の左下方向の音源方向６１に第１言語を話す使用者５１が位置し、右下方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。同様に、図４Ｃに示すレイアウト情報は、音声翻訳装置１００を縦方向に、かつ、使用者５１が右側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を左右に区切る中心線Ｌ_２の右側に第１言語を話す使用者５１が位置し、中心線Ｌ_２の左側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが音声翻訳装置１００の下側で横に並んでいる位置関係を示している。また、図４Ｃに示すレイアウト情報は、縦方向に使用される音声翻訳装置１００の右下方向の音源方向６１に第１言語を話す使用者５１が位置し、左下方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図４Ｂ及び図４Ｃには、ディスプレイ３００の１つの辺に対して使用者５１及び会話相手５２がこの順または逆順に横に並ぶ位置関係を示すレイアウト情報が示されている。

図４Ｄに示すレイアウト情報は、音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を区切る右下がり斜線Ｌ_３の左下側すなわち音声翻訳装置１００の下側に使用者５１が位置し、右下がり斜線Ｌ_３の右上側すなわち音声翻訳装置１００の右側に会話相手５２が位置し、使用者５１と会話相手５２とが直角位置に位置する位置関係を示している。また、図４Ｄに示すレイアウト情報は、縦方向に使用される音声翻訳装置１００の下方向の音源方向６１に第１言語を話す使用者５１が位置し、右方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。同様に、図４Ｅに示すレイアウト情報は、音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が左側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を区切る左下がり斜線Ｌ_４の右下側すなわち音声翻訳装置１００の下側に使用者５１が位置し、左下がり斜線Ｌ_４の左上側すなわち音声翻訳装置１００の左側に会話相手５２が位置し、使用者５１と会話相手５２とが直角位置に位置する位置関係を示している。また、図４Ｅに示すレイアウト情報は、縦方向に使用される音声翻訳装置１００の下方向の音源方向６１に第１言語を話す使用者５１が位置し、左方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図４Ｄ及び図４Ｅには、ディスプレイ３００を中心として、ディスプレイ３００の第１辺に対して使用者５１が位置し、第１辺と垂直方向の第１辺と異なる第２辺に対して会話相手５２が位置する位置関係を示すレイアウト情報が示されている。

次に、本実施の形態における音声翻訳装置１００を中心とした座標系と、音声翻訳装置１００を中心とした領域が分割された分割エリアそれぞれに割り当てられたインデックスとについて説明する。

図５は、実施の形態１における記憶部１１に記憶されている座標系と分割エリアと分割エリアそれぞれに割り当てられたインデックスとの一例を示す図である。

記憶部１１に記憶されてる座標系は、図５に示すように、音声翻訳装置１００の中心を原点としたｘｙ座標系であり、ディスプレイ３００の平面と略平行となる平面におけるｘｙ座標系である。また、記憶部１１に記憶されてる分割エリアは、ｘｙ座標系の平面で表される領域を一定角度ごとに分割した領域であり、分割エリアそれぞれにインデックスが割り当てられている。つまり、記憶部１１は分割エリアとともに分割エリアそれぞれに割り当てられたインデックスを記憶している。図５に示す分割エリアはｘｙ座標系の平面で表される領域を３０度ごとに分割した領域である。図５に示す分割エリアには、第１象限のｘ軸と接する分割エリアから反時計周りにＡ～Ｌのインデックスが割り当てられている。

なお、一定角度は３０度にかぎらない。推定したい音源方向の粒度に応じて３０度～１８０度までで適宜決めればよい。例えば、縦方向に使用される音声翻訳装置１００の下側か上側に音源があることを推定すればよい場合には、一定角度は１８０度としてもよい。

［音源方向推定部１２］
音源方向推定部１２は、マイクロホンアレイ部２００により取得された音響信号を信号処理することにより、音源方向を推定する。より具体的には、音源方向推定部１２は、マイクロホンアレイ部２００を構成する複数のマイクロホンユニットのそれぞれに到達する音の到達時間差と複数のマイクロホンユニットのそれぞれの位置座標と音速とから音源方向を推定する。

［制御部１３］
制御部１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、メモリとなどにより実現される。本実施の形態では、制御部１３は、翻訳開始指示部１０により翻訳開始の指示が行われたとき、記憶部１１に記憶されている予め選択された一のレイアウト情報などと、音源方向推定部１２により推定された音源方向とに基づいて、翻訳部１４とディスプレイ部１５とを制御する。より具体的には、制御部１３は、予め選択された一のレイアウト情報に示される位置関係を用いて、翻訳開始指示部１０により翻訳開始が指示された後において音源方向推定部１２により推定された音源方向に基づき、音声を発した発話者が使用者５１及び会話相手５２のうちの一方の者であることを特定する。

ここで、使用者５１または会話相手５２を特定する方法について説明する。図６Ａ～図６Ｅは、実施の形態１における音声翻訳装置１００を縦方向に使用する場合に使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

図６Ａは、予め選択された一のレイアウト情報が図４Ａに示される音声翻訳装置１００を縦方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ａに示すインデックスＩもしくはＪの場合、図４Ａに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ａに示すインデックスＣもしくはＤの場合、図４Ａに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

図６Ｂは、予め選択された一のレイアウト情報が図４Ｂに示される音声翻訳装置１００を縦方向に、かつ、使用者５１が左側となる横並びで使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｂに示すインデックスＨもしくはＩの場合、図４Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｂに示すインデックスＪもしくはＫの場合、図４Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図６Ｃは、予め選択された一のレイアウト情報が図４Ｃに示される音声翻訳装置１００を縦方向に、かつ、使用者５１が右側となる横並びで使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｃに示すインデックスＪもしくはＫの場合、図４Ｃに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｃに示すインデックスＨもしくはＩの場合、図４Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図６Ｄは、予め選択された一のレイアウト情報が図４Ｄに示される音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｄに示すインデックスＩもしくはＪの場合、図４Ｄに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｄに示すインデックスＡもしくはＬの場合、図４Ｄに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図６Ｅは、予め選択された一のレイアウト情報が図４Ｄに示される音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が左側となる直角位置で使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｅに示すインデックスＩもしくはＪの場合、図４Ｅに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図６Ｅに示すインデックスＦもしくはＧの場合、図４Ｅに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、制御部１３は、第１言語と、第１言語と異なる第２言語のうち音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する。

より具体的には、制御部１３は、発話者が使用者５１であると特定した場合、音響信号の内容を認識する言語（以下、認識言語とも称する）を第１言語とし、音響信号の内容を翻訳する言語（以下、翻訳言語とも称する）を第２言語とする翻訳方向を決定する。なお、制御部１３は、発話者が使用者５１であると特定した場合、第１言語から第２言語への方向とする翻訳方向を決定するとしてもよい。また、制御部１３は、発話者が会話相手５２であると特定した場合、認識言語を第２言語とし、翻訳言語を第１言語とする翻訳方向を決定する。制御部１３は、決定した翻訳方向に従って翻訳部１４を制御する。なお、制御部１３は、発話者が会話相手５２であると特定した場合、第２言語から第１言語への方向とする翻訳方向を決定するとしてもよい。

また、制御部１３は、予め選択された一のレイアウト情報に示される位置関係に応じて、ディスプレイ部１５を制御して、音響信号の内容を認識言語で示すテキスト文と、翻訳言語で示す翻訳テキスト文との文字の向きを、使用者５１及び会話相手５２が読みやすい向きに表示させる。なお、制御部１３は、ディスプレイ部１５を制御しないで、特定した発話者が使用者５１及び会話相手５２のうちの一方の者であることと、決定した翻訳方向と、予め選択された一のレイアウト情報とをディスプレイ部１５に伝達してもよい。

［翻訳部１４］
翻訳部１４は、例えば図２に示すように認識処理部１４１と翻訳処理部１４２と備える。

＜認識処理部１４１＞
認識処理部１４１は、制御部１３により決定された翻訳方向に従って、音響信号の内容を、第１言語及び第２言語の一方の言語すなわち認識言語で認識し、音響信号の内容を示すテキスト文を生成する。例えば、認識処理部１４１は、制御部１３により決定された翻訳方向が認識言語を第１言語とし、翻訳言語を第２言語とする場合、音響信号の内容を第１言語で認識し、音響信号の内容を示す第１言語のテキスト文を生成する。また、認識処理部１４１は、制御部１３により決定された翻訳方向が認識言語を第２言語とし、翻訳言語を第１言語とする場合、音響信号の内容を第２言語で認識し、音響信号の内容を示す第２言語のテキスト文を生成する。

なお、認識処理部１４１は、翻訳部１４に備えられておらず、クラウドなどのサーバに備えられるとしてもよい。この場合、翻訳部１４は、ネットワークを介してサーバと接続可能であり、制御部１３により決定された翻訳方向に従って、認識処理部１４１に一方の言語で認識させて得た、音響信号の内容を示すテキスト文を取得すればよい。

＜翻訳処理部１４２＞
翻訳処理部１４２は、制御部１３により決定された翻訳方向に従って、音響信号の内容を、第１言語及び第２言語の他方の言語すなわち翻訳言語で翻訳し、音響信号の内容を示す翻訳テキスト文を生成する。例えば、翻訳処理部１４２は、制御部１３により決定された翻訳方向が認識言語を第１言語とし、翻訳言語を第２言語とする場合、第１言語で認識された音響信号の内容を示すテキスト文を第２言語で翻訳し、音響信号の内容を示す第２言語の翻訳テキスト文を生成する。また、翻訳処理部１４２は、制御部１３により決定された翻訳方向が認識言語を第２言語とし、翻訳言語を第１言語とする場合、第２言語で認識された音響信号の内容を示すテキスト文を第１言語で翻訳し、音響信号の内容を示す第１言語の翻訳テキスト文を生成する。

なお、翻訳処理部１４２は、翻訳部１４に備えられておらず、クラウドなどのサーバに備えられるとしてもよい。この場合、翻訳部１４は、ネットワークを介してサーバと接続可能であり、制御部１３により決定された翻訳方向に従って、翻訳処理部１４２に、一方の言語で生成された音響信号の内容を示すテキスト文を、他方の言語で翻訳させることで得た音響信号の内容を示す翻訳テキスト文を取得すればよい。

このように、翻訳部１４は、認識処理部１４１と翻訳処理部１４２とを備えてもよいし、クラウドなどのサーバに認識処理部１４１及び翻訳処理部１４２の少なくとも一方が備えられてもよい。認識処理部１４１及び翻訳処理部１４２の少なくとも一方がサーバに備えられた場合、翻訳部１４は、認識処理部１４１及び翻訳処理部１４２の少なくとも一方と通信などで接続すればよい。

［ディスプレイ部１５］
ディスプレイ部１５は、予め選択された一のレイアウト情報に示される位置関係に応じて、画面レイアウトと表示する文字の向きとを決定し、翻訳部１４が取得したテキスト文と翻訳テキスト文とを表示する。より具体的には、ディスプレイ部１５は、制御部１３により特定された一方の者の位置に対応するディスプレイ３００の領域に、テキスト文を表示させ、一方と異なる他方の者の位置に対応する、ディスプレイ３００の領域に翻訳テキスト文を表示させる。

ここで、ディスプレイ部１５が表示するディスプレイ３００の表示画面の一例について説明する。図７Ａ～図７Ｄは、実施の形態１における音声翻訳装置１００を縦方向に使用する場合にディスプレイ３００に表示される表示画面の一例を示す図である。以下では、第１言語が日本語、第２言語が英語であるとして説明する。

図７Ａには、予め選択された一のレイアウト情報が図４Ａに示される音声翻訳装置１００を縦方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図７Ａでは、ディスプレイ３００の下側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の上側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図７Ａでは、英語の翻訳テキスト文は、日本語のテキスト文の文字とは反対の向きで表示されている。

つまり、ディスプレイ部１５は、図４Ａに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を上下に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ３００を挟んで使用者５１と会話相手５２とが対面する位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが逆さまになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。

図７Ｂには、予め選択された一のレイアウト情報が図４Ｂ及び図４Ｃに示される音声翻訳装置１００を縦方向に、かつ、使用者５１及び会話相手５２が横並びで使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図７Ｂでも、ディスプレイ３００の下側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の上側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図７Ｂでは、英語の翻訳テキスト文は、日本語のテキスト文の文字とは同じ向きで表示されている。

つまり、ディスプレイ部１５は、図４Ｂ及び図４Ｃに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を上下に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字と、文字の向きが同じになるようにして英語の翻訳テキスト文の文字を表示。このように、予め選択された一のレイアウト情報が、ディスプレイ３００の１つの辺に対して使用者５１及び会話相手５２がこの順または逆順に横に並ぶ位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが同じになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。

図７Ｃには、予め選択された一のレイアウト情報が図４Ｄに示される音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図７Ｃでも、ディスプレイ３００の下側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の上側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図７Ｃでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは左に９０度に回転された向きで表示されている。

つまり、ディスプレイ部１５は、図４Ｄに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を上下に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字を左に９０度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。

また、図７Ｄには、予め選択された一のレイアウト情報が図４Ｅに示される音声翻訳装置１００を縦方向に、かつ、使用者５１からみて会話相手５２が左側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図７Ｄでも、ディスプレイ３００の下側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の上側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図７Ｄでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは右に９０度に回転された向きで表示されている。

つまり、ディスプレイ部１５は、図４Ｅに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を上下に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字を右に９０度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。

これらのように、予め選択された一のレイアウト情報が、ディスプレイ３００を中心として、ディスプレイ３００の第１辺に対して使用者５１が位置し、第１辺と垂直方向の第１辺と異なる第２辺に対して会話相手５２が位置する位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応するディスプレイ３００の領域においてテキスト文と翻訳テキスト文とを表示させる。

なお、図７Ａ～図７Ｄを用いて、認識言語が日本語で翻訳言語が英語のときの表示画面の一例について説明したが、認識言語が英語で翻訳言語が日本語であってもよい。この場合の一例を図８Ａ及び図８Ｂを用いて説明する。

図８Ａ及び図８Ｂは、実施の形態１におけるディスプレイ３００に表示される表示画面の一例を示す図である。図８Ａは、図７Ａと同じ図であるため説明を省略する。

図８Ｂには、予め選択された一のレイアウト情報が図４Ａに示される音声翻訳装置１００を縦方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合に、認識言語が英語で翻訳言語が日本語のときの表示画面の一例が示されている。翻訳方向を除いて、図８Ｂは図８Ａと同様の図となるため、詳細な説明は省略する。

［音声翻訳装置１００の動作］
以上のように構成される音声翻訳装置１００が行う動作処理について説明する。

図９は、実施の形態１における音声翻訳装置１００が行う動作処理を示すフローチャートである。

まず、音声翻訳装置１００は、マイクロホンアレイ部２００により取得された音響信号から、音源方向を推定する（Ｓ１１）。より具体的には、音声翻訳装置１００は、マイクロホンアレイ部２００により取得された音響信号を信号処理することにより、音源方向を推定する。

次に、音声翻訳装置１００は、予め選択された一のレイアウト情報に示される位置関係を用いて、翻訳開始の指示後において推定された音源方向に基づき、発話者を特定し、かつ、翻訳方向を決定する（Ｓ１２）。より具体的には、音声翻訳装置１００は、翻訳開始ボタンにより翻訳開始が指示された後においてステップＳ１１において推定された音源方向に基づき、音声を発した発話者が使用者５１及び会話相手５２のうちの一方の者であることを特定する。ここで、音声翻訳装置１００は、使用者５１、会話相手５２、及び、ディスプレイ３００の異なる位置関係を示し、記憶部１１に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係を用いて、発話者を特定する。そして、音声翻訳装置１００は、特定した発話者に応じて、第１言語と、第１言語と異なる第２言語のうち、当該音響信号の内容を認識する一方の言語である認識言語と、翻訳する他方の言語である翻訳言語とを示す翻訳方向を決定する。

次に、音声翻訳装置１００では、ステップＳ１２で決定された翻訳方向に従って、音響信号の内容を示すテキスト文、及び、テキスト文を翻訳した翻訳テキスト文を取得する（Ｓ１３）。より具体的には、音声翻訳装置１００は、ステップＳ１２において決定された翻訳方向に従って、認識処理部１４１に音響信号を認識言語で認識させて得た、音響信号の内容を示すテキスト文を取得する。また、音声翻訳装置１００は、ステップＳ１２において決定された翻訳方向に従って、翻訳処理部１４２に当該テキスト文を翻訳言語で翻訳させて得る、音響信号の内容に対応する翻訳テキスト文を取得する。

次に、音声翻訳装置１００は、テキスト文を、特定した一方の者の位置に対応するディスプレイ３００の領域に表示させ、翻訳テキスト文を、他方の者の位置に対応するディスプレイ３００の領域に翻訳テキスト文を表示させる（Ｓ１４）。より具体的には、音声翻訳装置１００は、ステップＳ１３において特定された一方の者の位置に対応するディスプレイ３００の領域に、テキスト文を表示させ、一方と異なる他方の者の位置に対応する、ディスプレイ３００の領域に翻訳テキスト文を表示させる。

［効果］
以上のように、本実施の形態の音声翻訳装置１００によれば、使用者５１とその会話相手５２とが発話を開始する度にボタン操作をしなくても、翻訳開始時に翻訳開始ボタンを１度押すのみで、使用者５１と会話相手５２との発話に応じて認識言語と翻訳言語との切替が自動で行われる。これにより、操作性を向上することができる。また、使用者５１と会話相手５２との発話に応じて認識言語と翻訳言語との切替が自動で行われることにより、使用者５１と会話相手５２とは、ボタン操作により会話が中断されないので、音声翻訳装置１００を介した会話をより自然に行うことができる。

また、本実施の形態の音声翻訳装置１００によれば、使用者５１及び会話相手５２の位置に応じて、使用者５１及び会話相手５２のそれぞれに対して、発話内容の文字を正しい向きで表示することで読みやすくさせることができる。よって、使用者５１と会話相手５２とは、音声翻訳装置１００を介した会話をより自然に行うことができる。

なお、本実施の形態の音声翻訳装置１００では、クラウド上のサーバに備えられる認識処理部１４１と翻訳処理部１４２とを用いてもよい。これにより、音声翻訳装置１００は、認識処理部１４１と翻訳処理部１４２を備えず、簡単な通信装置を備えればよいので、小型化及び軽量化を実現できる。また、本実施の形態の音声翻訳装置１００は、認識性能及び翻訳性能が漸次向上する、クラウド上のサーバに備えられる認識処理部１４１と翻訳処理部１４２とを用いることで、使用者５１及び会話相手５２の発話内容をより精度よく認識してより精度よく翻訳できる。よって、使用者５１と会話相手５２とは、音声翻訳装置１００を介した会話をより自然に行うことができようになる。

本実施の形態の音声翻訳装置１００では、認識処理部１４１と翻訳処理部１４２とを備えてもよい。この場合、通信ができないまたは不安定な環境下においても使用できる。これにより、通信ができないまたは不安定な環境下においても、使用者５１と会話相手５２とは、音声翻訳装置１００を介した会話をより自然に行うことができる。

また、実施の形態１では、説明を簡単にするため、音声翻訳装置１００を縦向きにされた状態で使用する場合を例に挙げて説明したが、横向きにされた状態で使用してもよく同様のことが言える。

以下では、音声翻訳装置１００を横向きにされた状態で使用した場合における複数のレイアウト情報の具体例と使用者５１または会話相手５２を特定する方法について説明する。

図１０Ａ～図１０Ｅはそれぞれ、実施の形態１における記憶部１１に記憶されているレイアウト情報の一例を示す図である。

図１０Ａに示すレイアウト情報は、音声翻訳装置１００を横方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を上下に区切る中心線Ｌ_５の下側に第１言語を話す使用者５１が位置し、中心線Ｌ_５の上側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが対面する位置関係を示している。また、図１０Ａに示すレイアウト情報は、横方向に使用される音声翻訳装置１００の下側の音源方向６１に第１言語を話す使用者５１が位置し、上側の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図１０Ａには、ディスプレイ３００を挟んで使用者５１と会話相手５２とが対面する位置関係を示すレイアウト情報が示されている。

図１０Ｂに示すレイアウト情報は、音声翻訳装置１００を横方向に、かつ、使用者５１が左側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を左右に区切る中心線Ｌ_６の左側に第１言語を話す使用者５１が位置し、中心線Ｌ_６の右側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが音声翻訳装置１００の下側で横に並んでいる位置関係を示している。また、図１０Ｂに示すレイアウト情報は、横方向に使用される音声翻訳装置１００の左下方向の音源方向６１に第１言語を話す使用者５１が位置し、右下方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。同様に、図１０Ｃに示すレイアウト情報は、音声翻訳装置１００を横方向に、かつ、使用者５１が右側となる横並びで使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を左右に区切る中心線Ｌ_６の右側に第１言語を話す使用者５１が位置し、中心線Ｌ_６の左側に第２言語を話す会話相手５２が位置し、使用者５１と会話相手５２とが音声翻訳装置１００の下側で横に並んでいる位置関係を示している。また、図１０Ｃに示すレイアウト情報は、横方向に使用される音声翻訳装置１００の右下方向の音源方向６１に第１言語を話す使用者５１が位置し、左下方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図１０Ｂ及び図１０Ｃには、ディスプレイ３００の１つの辺に対して使用者５１及び会話相手５２がこの順または逆順に横に並ぶ位置関係を示すレイアウト情報が示されている。

また、図１０Ｄに示すレイアウト情報は、音声翻訳装置１００を横方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を区切る右下がり斜線Ｌ_７の左下側すなわち音声翻訳装置１００の下側に使用者５１が位置し、右下がり斜線Ｌ_７の右上側すなわち音声翻訳装置１００の右側に会話相手５２が位置し、使用者５１と会話相手５２とが直角位置に位置する位置関係を示している。また、図１０Ｄに示すレイアウト情報は、横方向に使用される音声翻訳装置１００の下方向の音源方向６１に第１言語を話す使用者５１が位置し、右方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。同様に、図１０Ｅに示すレイアウト情報は、音声翻訳装置１００を横方向に、かつ、使用者５１からみて会話相手５２が左側となる直角位置で使用する場合の位置関係を示している。より具体的には、ディスプレイ３００を区切る左下がり斜線Ｌ_８の右下側すなわち音声翻訳装置１００の下側に使用者５１が位置し、左下がり斜線Ｌ_８の左上側すなわち音声翻訳装置１００の左側に会話相手５２が位置し、使用者５１と会話相手５２とが直角位置に位置する位置関係を示している。また、図１０Ｅに示すレイアウト情報は、横方向に使用される音声翻訳装置１００の下方向の音源方向６１に第１言語を話す使用者５１が位置し、左方向の音源方向６２に第２言語を話す会話相手５２が位置する位置関係を示しているとしてもよい。このように、図１０Ｄ及び図１０Ｅには、ディスプレイ３００を中心として、ディスプレイ３００の第１辺に対して使用者５１が位置し、第１辺と垂直方向の第１辺と異なる第２辺に対して会話相手５２が位置する位置関係を示すレイアウト情報が示されている。

図１１Ａ～図１１Ｅは、実施の形態１における音声翻訳装置１００を横方向に使用する場合に使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

図１１Ａは、予め選択された一のレイアウト情報が図１０Ａに示される音声翻訳装置１００を横方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ａに示すインデックスＦもしくはＧの場合、図１０Ａに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ａに示すインデックスＡもしくはＬの場合、図１０Ａに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

図１１Ｂは、予め選択された一のレイアウト情報が図１０Ｂに示される音声翻訳装置１００を横方向に、かつ、使用者５１が左側となる横並びで使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｂに示すインデックスＥもしくはＦの場合、図１０Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｂに示すインデックスＧもしくはＨの場合、図１０Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図１１Ｃは、予め選択された一のレイアウト情報が図１０Ｃに示される音声翻訳装置１００を横方向に、かつ、使用者５１が右側となる横並びで使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｃに示すインデックスＧもしくはＨの場合、図１０Ｃに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｃに示すインデックスＥもしくはＦの場合、図１０Ｂに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図１１Ｄは、予め選択された一のレイアウト情報が図１０Ｄに示される音声翻訳装置１００を横方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｄに示すインデックスＦもしくはＧの場合、図１０Ｄに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｄに示すインデックスＩもしくはＪの場合、図１０Ｄに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

また、図１１Ｅは、予め選択された一のレイアウト情報が図１０Ｄに示される音声翻訳装置１００を横方向に、かつ、使用者５１からみて会話相手５２が左側となる直角位置で使用する場合に、使用者５１及び会話相手５２が位置する分割エリアのインデックスを示す図である。

すなわち、制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｅに示すインデックスＦもしくはＧの場合、図１０Ｅに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が使用者５１であることを特定する。制御部１３は、音源方向推定部１２により推定された音源方向が、図１１Ｅに示すインデックスＣもしくはＤの場合、図１０Ｅに示す、予め選択された一のレイアウト情報に示される位置関係から、発話者が会話相手５２であることを特定する。

次に、音声翻訳装置１００を横向きにされた状態で用いた場合において、ディスプレイ部１５が表示するディスプレイ３００の表示画面の一例について説明する。

図１２Ａ～図１２Ｃは、実施の形態１における音声翻訳装置１００を横方向に使用する場合にディスプレイ３００に表示される表示画面の一例を示す図である。以下では、第１言語が日本語、第２言語が英語であるとして説明する。

図１２Ａには、予め選択された一のレイアウト情報が図１０Ａに示される音声翻訳装置１００を横方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図１２Ａでは、ディスプレイ３００の左側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の右側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図１２Ａでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは反対の向きで表示されている。

つまり、ディスプレイ部１５は、図１０Ａに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を左右に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字と文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ３００を挟んで使用者５１と会話相手５２とが対面する位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが逆さまになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。

図１２Ｂには、予め選択された一のレイアウト情報が図１０Ｂ及び図１０Ｃに示される音声翻訳装置１００を横方向に、かつ、使用者５１及び会話相手５２が横並びで使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図１２Ｂでも、ディスプレイ３００の左側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の右側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図１２Ｂでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは同じ向きで表示されている。

つまり、ディスプレイ部１５は、図１０Ｂ及び図１０Ｃに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を左右に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字との文字の向きが同じになるようにして英語の翻訳テキスト文の文字を表示する。このように、予め選択された一のレイアウト情報が、ディスプレイ３００の１つの辺に対して使用者５１及び会話相手５２がこの順または逆順に横に並ぶ位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが同じになるように、対応するディスプレイの領域においてテキスト文と翻訳テキスト文とを表示させる。

図１２Ｃには、予め選択された一のレイアウト情報が図１０Ｄに示される音声翻訳装置１００を横方向に、かつ、使用者５１からみて会話相手５２が右側となる直角位置で使用する場合に、認識言語が日本語で翻訳言語が英語のときの表示画面の一例が示されている。図１２Ｃでも、ディスプレイ３００の左側の領域に、「道案内をしましょうか？」と日本語のテキスト文が表示され、ディスプレイ３００の右側の領域に、「ＣａｎＩｈｅｌｐｙｏｕｆｉｎｄｙｏｕｒｗａｙ？」と英語の翻訳テキスト文が表示されている。さらに、図１２Ｃでは、英語の翻訳テキスト文の文字は、日本語のテキスト文の文字とは左に９０度に回転された向きで表示されている。

つまり、ディスプレイ部１５は、図１０Ｄに示すような、予め選択された一のレイアウト情報に示される位置関係から、ディスプレイ３００の領域を左右に分割した第１言語側の領域と第２言語側の領域とで構成する画面レイアウトを決定する。そして、ディスプレイ部１５は、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文の文字を左に９０度回転した向きになるようにして英語の翻訳テキスト文の文字を表示する。

このように、予め選択された一のレイアウト情報が、ディスプレイ３００を中心として、ディスプレイ３００の第１辺に対して使用者５１が位置し、第１辺と垂直方向の第１辺と異なる第２辺に対して会話相手５２が位置する位置関係を示すとする。この場合、ディスプレイ部１５は、テキスト文と翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応するディスプレイ３００の領域においてテキスト文と翻訳テキスト文とを表示させる。

なお、図１２Ａ～図１２Ｃを用いて、認識言語が日本語で翻訳言語が英語のときの表示画面の一例について説明したが、認識言語が英語で翻訳言語が日本語であってもよい。

（変形例１）
図１３は、実施の形態１の変形例１における音声翻訳装置１００Ａの構成の一例を示す図である。図２と同様の要素には同一の符号を付しており、詳細な説明は省略する。

本変形例における音声翻訳装置１００Ａは、図２に示す音声翻訳装置１００に対して、制御部１３Ａの構成が異なり、遅延部１６とビームフォーマ部１７とが追加されている。以下、実施の形態１と異なる点を中心に説明する。

［遅延部１６］
遅延部１６は、マイクロホンアレイ部２００により取得される音響信号を一定時間遅延させる。遅延部１６は、一定時間遅延させた音響信号をビームフォーマ部１７に出力する。なお、一定時間は、音源方向推定部１２が方向推定に要する時間分であればよく、ｓｅｃオーダの時間となる。

［ビームフォーマ部１７］
ビームフォーマ部１７は、遅延部１６により遅延された音響信号を信号処理することにより、所定方向に収音の指向性を制御した音響信号であるビームを形成する。本変形例では、所定方向として、音源方向推定部１２により推定された音源方向にビームを形成する。

［制御部１３Ａ］
制御部１３Ａは、音源方向推定部１２により推定された音源方向に基づき、発話者が使用者５１であると特定したときには、ビームフォーマ部１７の指向性を音源方向６１に向けるように制御する。一方、制御部１３Ａは、音源方向推定部１２により推定された音源方向に基づき、発話者が会話相手５２であると特定したときには、ビームフォーマ部１７の指向性を音源方向６２に向けるように制御する。制御部１３Ａのその他の機能について制御部１３と同じであるため説明を省略する。

［効果］
以上のように、本変形例の音声翻訳装置１００Ａによれば、ビームを使用者５１または会話相手５２に向けることができるので、使用者５１または会話相手５２の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。より具体的には、本変形例の音声翻訳装置１００Ａによれば、発話者が使用者５１であると特定したときには、使用者５１の方向に、発話者が会話相手５２であると特定したときには会話相手５２にビームフォーマ部１７の指向性を向けて収音できる。これにより、発話者が発話している音源方向以外の方向からの雑音を除去して収音することができるので、音響信号の認識精度を向上させることができる。

（変形例２）
図１４は、実施の形態１の変形例２における音声翻訳装置１００Ｃの構成の一例を示す図である。図２と同様の要素には同一の符号を付しており、詳細な説明は省略する。

本変形例における音声翻訳装置１００Ｃは、図２に示す音声翻訳装置１００に対して、制御部１３Ｂの構成が異なり、音声判定部１８が追加されている。以下、実施の形態１と異なる点を中心に説明する。

［音声判定部１８］
音声判定部１８は、マイクロホンアレイ部２００により取得される音響信号に音声が含まれるか否かを判定する。より具体的には、音声判定部１８は、マイクロホンアレイ部２００により取得される音響信号が音声、または、音声以外の非音声を示すか否かを判定する。

［制御部１３Ｂ］
制御部１３Ｂは、音声判定部１８により音響信号に音声が含まれると判定され、かつ、音源方向推定部１２により推定された音源方向が、予め選択された一のレイアウト情報に示される使用者５１または会話相手５２の位置関係を満たす場合にのみ、翻訳方向を決定する。

なお、制御部１３Ｂのその他の機能について制御部１３と同じであるため説明を省略する。

［効果］
以上のように、本変形例の音声翻訳装置１００Ｂによれば、非定常なノイズを音声として認識してしまう誤検出を防止し、使用者５１または会話相手５２の発話のみを検出できる。よって、ノイズによる誤動作を抑制できるので、使用者５１と会話相手５２とは、音声翻訳装置１００Ｂを介した会話をより自然に行うことができる。より具体的には、本変形例の音声翻訳装置１００Ｂによれば、使用者５１または会話相手５２の発話のみを示す音響信号を用いることができるので、音響信号の認識精度及び翻訳精度を向上させることができる。

（実施例）
上記の音声翻訳装置１００は、変形例１の音声翻訳装置１００Ａ及び変形例２の音声翻訳装置１００Ｂを組み合わせたものであってもよい。この場合の具体的構成を、実施例における音声翻訳装置１００Ｃとして以下説明する。

《装置構成》
図１５は、実施の形態１の実施例における音声翻訳装置１００Ｃの構成の一例を示す図である。図２、図１３及び図１４と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音声翻訳装置１００Ｃは、図２、図１３及び図１４に示す音声翻訳装置１００などに対して、翻訳部１４Ｃの構成が異なり、ＤＡ変換部１９及びスピーカ２０が追加され、翻訳開始指示部１０が翻訳開始ボタン１０ａとして構成されている。また、図１５に示すマイクロホンアレイ部２００Ｃは、図２にマイクロホンアレイ部２００に対して、ＡＤ変換部２０２が明示され、マイクロホンアレイ２０１が明示されている点で構成が異なる。以下、実施の形態１と異なる点を中心に説明する。

［ＡＤ変換部２０２］
ＡＤ変換部２０２は、アナログデジタル変換部であり、図１５ではＡＤＣと表記されている。ＡＤ変換部２０２は、マイクロホンアレイ２０１により取得されるアナログ信号である音響信号をデジタル信号である音響信号に変換する。ＡＤ変換部２０２は、変換した音響信号を音声翻訳装置１００Ｃに出力する。

［翻訳開始ボタン１０ａ］
翻訳開始ボタン１０ａは、ボタンまたはスイッチから構成され、音声翻訳装置１００Ｃの使用者５１または会話相手５２に操作されると、音声翻訳装置１００Ｃに対して翻訳開始の指示を行う。

［制御部１３Ｃ］
制御部１３Ｃは、翻訳開始ボタン１０ａが押されると、音声判定部１８の結果、音源方向推定部１２の結果、及び、選択されたレイアウト情報から、発話者を特定することによりビームフォーマ部１７の指向性の方向を決定し、翻訳部１４に翻訳させるかを決定する。より具体的には、制御部１３Ｃは、音声判定部１８により音響信号に音声が含まれると判定され、かつ、音源方向推定部１２により推定された音源方向が、予め選択された一のレイアウト情報に示される使用者５１または会話相手５２の位置関係を満たす場合、翻訳部１４に翻訳させると決定する。

また、制御部１３Ｃは、翻訳部１４に翻訳させる場合には、翻訳方向を決定して、決定した翻訳方向を翻訳部１４に伝達する。

なお、制御部１３Ｃは、翻訳部１４に翻訳させないことを決定した場合、翻訳方向を決定しないで、その旨を翻訳部１４に伝達すればよい。制御部１３Ｃのその他の機能について制御部１３、１３Ａ、１３Ｂと同じであるため説明を省略する。

［翻訳部１４Ｃ］
翻訳部１４Ｃは、さらに、テキスト合成処理部に翻訳テキスト文を他方の言語の音声データに変換させて得た翻訳音声データを取得して、スピーカ２０に伝達する。本実施例では、翻訳部１４Ｃは、第１音声認識部１４１Ａと、第２音声認識部１４１Ｂと、第１テキスト翻訳部１４２Ａと、第２テキスト翻訳部１４２Ｂと、第１テキスト合成部１４３Ａと、第２テキスト合成部１４３Ｂとを備える。また、翻訳部１４Ｃは、入力言語選択スイッチ１４４と、出力言語選択スイッチ１４５と、認識表示選択スイッチ１４６と、翻訳表示選択スイッチ１４７とを備える。

＜認識処理部１４１＞
第１音声認識部１４１Ａと、第２音声認識部１４１Ｂとは、認識処理部１４１の一例である。ここで、認識処理部１４１は、制御部１３Ｃにより決定された翻訳方向に従って、音響信号の内容を、第１言語及び第２言語の一方の言語すなわち認識言語で認識し、音響信号の内容を示すテキスト文を生成する。

第１音声認識部１４１Ａは、第１言語の音声認識を行う。より具体的には、第１音声認識部１４１Ａは、入力言語選択スイッチ１４４を介して伝達された、ビームフォーマ部１７から出力された音響信号の内容を、第１言語で認識する。そして、第１音声認識部１４１Ａは、認識結果として、音響信号の内容を示す第１言語のテキスト文を生成する。

第２音声認識部１４１Ｂは、第２言語の音声認識を行う。より具体的には、第２音声認識部１４１Ｂは、入力言語選択スイッチ１４４を介して伝達された、ビームフォーマ部１７から出力された音響信号の内容を、第２言語で認識する。そして、第２音声認識部１４１Ｂは、認識結果として、音響信号の内容を示す第２言語のテキスト文を生成する。

＜翻訳処理部１４２＞
第１テキスト翻訳部１４２Ａと、第２テキスト翻訳部１４２Ｂとは、翻訳処理部１４２の一例である。ここで、翻訳処理部１４２は、制御部１３Ｃにより決定された翻訳方向に従って、音響信号の内容を、第１言語及び第２言語の他方の言語すなわち翻訳言語で翻訳し、音響信号の内容を示す翻訳テキスト文を生成する。

第１テキスト翻訳部１４２Ａは、第１音声認識部１４１Ａの出力データを第２言語に翻訳する。より具体的には、第１テキスト翻訳部１４２Ａは、第１音声認識部１４１Ａが生成した出力データである音響信号の内容を示す第１言語のテキスト文を、第２言語で翻訳し、音響信号の内容を示す第２言語の翻訳テキスト文を生成する。

第２テキスト翻訳部１４２Ｂは、第２音声認識部１４１Ｂの出力データを第１言語に翻訳する。より具体的には、第２テキスト翻訳部１４２Ｂは、第２音声認識部１４１Ｂが生成した出力データである音響信号の内容を示す第２言語のテキスト文を、第１言語で翻訳し、音響信号の内容を示す第１言語の翻訳テキスト文を生成する。

＜テキスト合成処理部＞
第１テキスト合成部１４３Ａと、第２テキスト合成部１４３Ｂとは、テキスト合成処理部の一例である。ここで、テキスト合成処理部は、制御部１３Ｃにより決定された翻訳方向に従って、翻訳言語で翻訳された翻訳テキスト文を音声データに変換する。

第１テキスト合成部１４３Ａは、第１テキスト翻訳部１４２Ａの出力データを第２言語の音声データに変換する。より具体的には、第１テキスト合成部１４３Ａは、第１テキスト翻訳部１４２Ａが生成した出力データである第２言語の翻訳テキスト文を、第２言語の音声データに変換する。

第２テキスト合成部１４３Ｂは、第２テキスト翻訳部１４２Ｂの出力データを第１言語の音声データに変換する。より具体的には、第２テキスト合成部１４３Ｂは、第２テキスト翻訳部１４２Ｂが生成した出力データである第１言語の翻訳テキスト文を、第１言語の音声データに変換する。

＜入力言語選択スイッチ１４４＞
入力言語選択スイッチ１４４は、制御部１３Ｃにより伝達された翻訳方向に従って、ビームフォーマ部１７の出力の切替を行う。例えば、入力言語選択スイッチ１４４は、翻訳方向が第１言語から第２言語の方向である、すなわち認識言語を第１言語とし、翻訳言語を第２言語とする場合、図１５に示すＡ側に倒れ、ビームフォーマ部１７の出力を第１音声認識部１４１Ａに伝達する。また、例えば、入力言語選択スイッチ１４４は、翻訳方向が第２言語から第１言語の方向である、すなわち認識言語を第２言語とし、翻訳言語を第１言語とする場合、図１５に示すＢ側に倒れ、ビームフォーマ部１７の出力を第２音声認識部１４１Ｂに伝達する。

なお、入力言語選択スイッチ１４４は、制御部１３Ｃが翻訳部１４に翻訳させないことを決定した場合、図１５に示すＣ側に倒れた状態である中間状態を保持する。

＜出力言語選択スイッチ１４５＞
出力言語選択スイッチ１４５は、制御部１３Ｃにより伝達された翻訳方向に従って、テキスト合成処理部の出力の切替を行う。例えば、出力言語選択スイッチ１４５は、翻訳方向が第１言語から第２言語の方向である場合、図１５に示すＡ側に倒れ、第１テキスト合成部１４３Ａの出力である第２言語の音声データを選択し、ＤＡ変換部１９に伝達する。例えば、出力言語選択スイッチ１４５は、翻訳方向が第２言語から第１言語の方向である場合、図１５に示すＢ側に倒れ、第２テキスト合成部１４３Ｂの出力である第１言語の音声データを選択し、ＤＡ変換部１９に伝達する。

なお、出力言語選択スイッチ１４５は、制御部１３Ｃが翻訳部１４に翻訳させないことを決定した場合、図１５に示すＣ側に倒れた状態である中間状態を保持する。

＜認識表示選択スイッチ１４６＞
認識表示選択スイッチ１４６は、制御部１３Ｃにより伝達された翻訳方向に従って、認識処理部１４１の出力の切替を行う。例えば、認識表示選択スイッチ１４６は、翻訳方向が第１言語から第２言語への方向である場合、図１５に示すＡ側に倒れ、第１音声認識部１４１Ａの出力である第１言語のテキスト文を選択し、ディスプレイ部１５に伝達する。また、例えば、認識表示選択スイッチ１４６は、翻訳方向が第２言語から第１言語の方向である場合、図１５に示すＢ側に倒れ、第２音声認識部１４１Ｂの出力である第２言語のテキスト文を選択し、ディスプレイ部１５に伝達する。

なお、認識表示選択スイッチ１４６は、制御部１３Ｃが翻訳部１４に翻訳させないことを決定した場合、図１５に示すＣ側に倒れた状態である中間状態を保持する。

＜翻訳表示選択スイッチ１４７＞
翻訳表示選択スイッチ１４７は、制御部１３Ｃにより伝達された翻訳方向に従って、翻訳処理部１４２の出力の切替を行う。例えば、翻訳表示選択スイッチ１４７は、翻訳方向が第１言語から第２言語への方向である場合、図１５に示すＡ側に倒れ、第１テキスト翻訳部１４２Ａの出力である第２言語の翻訳テキスト文を選択し、ディスプレイ部１５に伝達する。また、例えば、翻訳表示選択スイッチ１４７は、翻訳方向が第２言語から第１言語の方向である場合、図１５に示すＢ側に倒れ、第２テキスト翻訳部１４２Ｂの出力である第１言語の翻訳テキスト文を選択し、ディスプレイ部１５に伝達する。

なお、翻訳表示選択スイッチ１４７は、制御部１３Ｃが翻訳部１４に翻訳させないことを決定した場合、図１５に示すＣ側に倒れた状態である中間状態を保持する。

［ＤＡ変換部１９］
ＤＡ変換部１９は、デジタルアナログ変換部であり、図１５ではＤＡＣと表記されている。ＤＡ変換部１９は、翻訳部１４Ｃから出力されたデジタル信号である音声信号を、アナログ信号である音声信号に変換する。ＤＡ変換部１９は、変換した音声信号をスピーカ２０に出力する。

［スピーカ２０］
スピーカ２０は、伝達された翻訳音声データに従って、翻訳テキスト文の音声を出音する。本実施例では、スピーカ２０は、ＤＡ変換部１９より入力された、翻訳テキスト文の音声信号を再生して出音する。

［音声翻訳装置１００Ｃの動作］
以上のように構成される音声翻訳装置１００Ｃが行う動作処理について説明する。

図１６は、実施の形態１の実施例における音声翻訳装置１００Ｃが行う動作処理を示すフローチャートである。ここでは、予め選択されたレイアウト情報が、図４Ａに示すように、音声翻訳装置１００Ｃを縦方向に、かつ、使用者５１及び会話相手５２が対面して使用する場合の位置関係を示すものであるとして説明する。また、ここでも第１言語は日本語、第２言語は英語であるとして説明する。

まず、音声翻訳装置１００Ｃの使用前に、図４Ａに示すレイアウト情報が、使用者５１もしくは会話相手５２により、記憶部１１に記憶されている複数のレイアウト情報から、一のレイアウト情報が選択される。すると、音声翻訳装置１００Ｃは、選択信号ＳＥＬで指定された、使用者５１もしくは会話相手５２により選択された一のレイアウト情報を記憶部１１から読み込み（Ｓ１０１）、制御部１３Ｃに通知する。そして、音声翻訳装置１００Ｃは、ディスプレイ部１５に、画面レイアウトのパターンを指示する（Ｓ１０２）。本実施例では、音声翻訳装置１００Ｃは、ディスプレイ部１５に、選択された一のレイアウト情報に従った図７Ａに示す画面レイアウトを指定する。これにより、音声翻訳装置１００Ｃは、ディスプレイ部１５に、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示させることができる。

次に、使用者５１または会話相手５２に翻訳開始ボタン１０ａが押下されるとする（Ｓ１０３）。すると、翻訳開始ボタン１０ａは音声翻訳装置１００Ｃに対して翻訳開始の指示を行う。

次に、音声翻訳装置１００Ｃは、翻訳開始の指示を受けると、音声が判定されたか否かを確認し（Ｓ１０４）、音声が判定された場合（Ｓ１０４でｙｅｓ）、音源方向が推定されたかを確認する（Ｓ１０５）。音声翻訳装置１００Ｃは、音源方向が推定された場合（Ｓ１０５でｙｅｓ）、推定された音源方向が、読み込んだレイアウト情報の示す位置関係に合致するかを判定する（Ｓ１０６）。

ステップＳ１０６において、推定された音源方向が、読み込んだレイアウト情報の示す位置関係に合致する場合（Ｓ１０６でｙｅｓ）、音声翻訳装置１００Ｃは、そのレイアウト情報と音源方向とから入力言語選択スイッチ１４４などを切り替える（Ｓ１０７）。具体的には、音声翻訳装置１００Ｃは、検出された音源方向が、読み込んだレイアウト情報の示す位置関係に合致する場合、決定した翻訳方向に応じて、入力言語選択スイッチ１４４などを図１５に示すＡ側またはＢ側に倒す。

そして、音声翻訳装置１００Ｃは、ステップＳ１０５で推定した音源方向に基づき、指向性の方向を決定し、ビームフォーマ部１７のパラメータを変更して指向性を制御する（Ｓ１０８）。

例えば、図１６の構成を用いて説明すると、翻訳開始ボタン１０ａが押され、使用者５１が発話した場合、発話音声は、マイクロホンアレイ２０１に入力され、ＡＤ変換部２０２でデジタル信号である音響信号に変換される。ＡＤ変換部２０２から出力された音響信号は、音源方向推定部１２、遅延部１６及び音声判定部１８に入力される。遅延部１６は、音源方向推定部１２で方向推定に要する時間分だけ音響信号を遅延させてビームフォーマ部１７に出力する。また、音声判定部１８は、音声と音声以外の非音声とを判定することで、入力された音響信号が音声を示すか否かを判定する。音源方向推定部１２は、入力された音響信号から音源方向を推定する。音源方向が推定されると推定した音源方向を制御部１３に出力し、未推定では音源方向未推定の旨を出力する。制御部１３Ｃでは、音声判定部１８で音声と判定され、かつ、音源方向推定部１２で、音源方向が図６Ａに示すインデックスＩもしくはＪである場合、発話者が使用者５１であると特定し、日本語から英語への方向である翻訳方向を決定する。

このようにして、音声翻訳装置１００Ｃは、ステップＳ１０７で決定した翻訳方向に従って、音響信号の内容を示すテキスト文、及び、テキスト文を翻訳した翻訳テキスト文を取得する。そして、音声翻訳装置１００Ｃは、第１言語側の領域に日本語のテキスト文を表示し、第２言語側の領域に、テキスト文との文字の向きが反対になるようにして英語の翻訳テキスト文の文字を表示する。

なお、ステップＳ１０６で音声が判定されない場合（Ｓ１０４でｎｏ）、ステップＳ１０５で音源方向が未推定の場合（Ｓ１０５でｎｏ）、及び、ステップＳ１０７で、検出された音源方向が、読み込んだレイアウト情報の示す位置関係に合致しない場合（Ｓ１０６でｎｏ）、ステップＳ１０９に進む。

ステップＳ１０９では、音声翻訳装置１００Ｃは、入力言語選択スイッチ１４４などを中間状態に設定する。これにより、音声翻訳装置１００Ｃは、ディスプレイ部１５に入力待ちの状態を表示させ、意味不明な表示をさせることを抑制できるだけでなく、ノイズなどの非音声を示す音響信号に対して翻訳処理を行わなくてよいので省電力化を図れる。

［効果］
以上のように、本実施例の音声翻訳装置１００Ｃによれば、ビームを使用者５１または会話相手５２に向けることができるので、使用者５１または会話相手５２の発話を周囲ノイズを低減して収音できる。これにより、騒音レベルが高い環境下でも使用できる。より具体的には、本実施例の音声翻訳装置１００Ｃによれば、発話者が使用者５１であると特定したときには、使用者５１の方向に、発話者が会話相手５２であると特定したときには会話相手５２にビームフォーマ部１７の指向性を向けて収音できる。これにより、発話者が発話している音源方向以外の方向からの雑音を除去することができるので、音響信号の認識精度を向上させることができる。

また、本実施例の音声翻訳装置１００Ｃによれば、使用者５１と会話相手５２とは相手の発話内容が相手側の言語に翻訳されて音声で出力されるので、使用者５１と会話相手５２とは相手の発話内容を意味する文字を読んで会話する手間を解消でき、操作性をより向上することができる。これにより、使用者５１と会話相手５２とは音声のみを用いて会話することができるので、音声翻訳装置１００Ｃを介した会話をより自然に行うことができる。

（実施の形態２）
実施の形態１では、一のレイアウト情報が予め選択されており、固定であるとして説明したが、これに限らない。使用者５１及び会話相手５２の位置が、予め選択した一のレイアウト情報が示す位置関係と異なる場合に、他のレイアウト情報が再選択されるとしてもよい。以下では、実施の形態１などと異なるところを中心に説明する。

図１７は、実施の形態２における音声翻訳装置１００Ｄの構成の一例を示す図である。図１５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

本実施の形態における音声翻訳装置１００Ｄは、実施の形態１の実施例に係る音声翻訳装置１００Ｃに対して、レイアウト選択制御部２１が追加されている点で構成が異なる。その他の構成は、実施の形態１の実施例で説明した通りの動作を行う。

［レイアウト選択制御部２１］
レイアウト選択制御部２１は、翻訳開始ボタン１０ａが使用者５１に操作されることにより翻訳開始を指示した場合に、予め選択された一のレイアウト情報を初期化する。そして、レイアウト選択制御部２１は、音声判定部１８の判定結果及び音源方向推定部１２の推定結果に基づいて、記憶部１１に記憶されている複数のレイアウト情報から一つのレイアウト情報を、一のレイアウト情報として、選択する。

より具体的には、レイアウト選択制御部２１は、予め選択された一のレイアウト情報を初期化後、最初に、音声判定部１８により音響信号に音声が含まれると判定されたときに音源方向推定部１２により推定された音源方向を使用者５１が位置する方向と推定する。レイアウト選択制御部２１は、使用者５１が位置する方向の推定後、音声判定部１８により音響信号に音声が含まれると判定され、かつ、音源方向推定部１２により推定された音源方向が使用者５１が位置する方向と異なる方向であるときに、当該異なる方向を、会話相手５２が位置する方向と決定する。そして、レイアウト選択制御部２１は、決定した、使用者５１が位置する方向と会話相手５２が位置する方向とを用いて、複数のレイアウト情報から一つのレイアウト情報を、一のレイアウト情報として選択する。

つまり、本実施の形態では、音声翻訳装置１００Ｄが使用される方向が既知であることと、翻訳開始ボタン１０ａの押下などの操作は使用者５１が行い、かつ使用者５１が最初に発話することとを前提としている。この場合、レイアウト選択制御部２１は、翻訳開始ボタン１０ａが押され、音声判定部１８が音響信号に含まれる音声を最初に判定すると、当該音響信号から音源方向推定部１２が推定した音源方向を用いて使用者５１の方向を決定することができる。また、レイアウト選択制御部２１は、２回目の発話の音声を示す音響信号が判定され、かつ使用者５１以外の方向からの音源方向が推定された場合に会話相手５２の方向を決定することができる。これにより、レイアウト選択制御部２１は、記憶部１１に記憶される複数のレイアウト情報から、決定した使用者５１の方向と会話相手５２の方向とに合致する位置関係を示すレイアウト情報を新たに選択することができる。

［音声翻訳装置１００Ｄの動作］
以上のように構成される音声翻訳装置１００Ｄが行う動作処理について説明する。

図１８は、実施の形態２における音声翻訳装置１００Ｄが行う動作処理を示すフローチャートである。

まず、音声翻訳装置１００Ｄには、使用者５１により、使用予定だった一のレイアウト情報が選択されている。このため、音声翻訳装置１００Ｄは、選択信号ＳＥＬで指定された、使用者５１により選択された一のレイアウト情報を記憶部１１から読み込み（Ｓ２０１）、制御部１３Ｃに通知している。なお、一のレイアウト情報ではなく、音声翻訳装置１００Ｄが使用される向き（縦方向、横方向）のみ使用者５１により、予め設定されるとしてもよい。

この状態において、音声翻訳装置１００すなわちレイアウト選択制御部２１は、使用者５１により翻訳開始ボタン１０ａが押下されたか否かを確認している（Ｓ２０２）。

レイアウト選択制御部２１は、使用者５１により翻訳開始ボタン１０ａが押下されたことを確認すると（Ｓ２０２でｙｅｓ）、音声が判定されたか否かを確認する（Ｓ２０３）。レイアウト選択制御部２１は、音声が判定された場合（Ｓ２０３でｙｅｓ）、音源方向が推定されたかを確認する（Ｓ２０４）。レイアウト選択制御部２１は、音源方向が推定された場合（Ｓ２０４でｙｅｓ）、翻訳開始の指示後において、最初に、推定された音源方向であるか否かを判定する（Ｓ２０５）。なお、ステップＳ２０３で音声が判定されない場合（Ｓ２０３でｎｏ）、及び、ステップＳ２０４で音源方向が未推定の場合（Ｓ２０４でｎｏ）、ステップＳ２０３に戻る。

ステップＳ２０５において、翻訳開始の指示後において、最初に、推定された音源方向である場合（Ｓ２０５でｙｅｓ）、レイアウト選択制御部２１は、その音源方向から、使用者５１すなわち第１言語の発話者の方向を決定し（Ｓ２０６）、ステップＳ２０３に進む。

一方、ステップＳ２０５において、翻訳開始の指示後において、最初に、推定された音源方向でない場合（Ｓ２０５でｎｏ）、レイアウト選択制御部２１は、会話相手５２すなわち第２言語の発話者の方向が未決定かどうかを確認する（Ｓ２０７）。レイアウト選択制御部２１は、ステップＳ２０４で推定された音源方向が第１言語の発話者（すなわち使用者５１）と異なるか否かを判定する（Ｓ２０８）。そして、レイアウト選択制御部２１は、ステップＳ２０７で推定された音源方向が第１言語の発話者（すなわち使用者５１）と異なる場合（Ｓ２０８でｙｅｓ）、ステップＳ２０４で推定された音源方向から第２言語の発話者（会話相手５２）の方向を決定する（Ｓ２０９）。なお、ステップＳ２０７において、第２言語の発話者の方向が未決定ではない場合（Ｓ２０７でｎｏ）、及び、ステップＳ２０８において、ステップＳ２０７で推定された音源方向が第１言語の発話者（すなわち使用者５１）と同じ場合には、ステップＳ２０３に戻る。

次に、ステップＳ２１０において、レイアウト選択制御部２１は、ステップＳ２０６で決定した第１言語の発話者（すなわち使用者５１）と、ステップＳ２０９で決定した第２言語の発話者（すなわち会話相手５２）とに従って、レイアウト情報を選択する（Ｓ２１０）。より具体的には、レイアウト選択制御部２１は、記憶部１１に記憶される複数のレイアウト情報から、決定した使用者５１の方向と会話相手５２の方向とに合致する位置関係を示すレイアウト情報を新たに選択する。すると、音声翻訳装置１００Ｄは、新たに選択された一のレイアウト情報を記憶部１１から読み込み、制御部１３Ｃに通知する。

そして、音声翻訳装置１００Ｄは、ディスプレイ部１５に、新たに選択された一のレイアウト情報に応じた画面レイアウトのパターンを指示する（Ｓ２１１）。

［効果］
以上のように、本実施例の音声翻訳装置１００Ｄによれば、使用者５１と会話相手５２との位置関係が予め設定していた位置関係と異なっていた場合でも、使用者５１及び会話相手５２の位置に応じた、発話内容の文字の正しい向きで表示することができるので、使用者５１及び会話相手５２に対して読みやすく表示することができる。これにより、操作性をより向上することができる。

以上、本開示の一つまたは複数の態様に係る音声翻訳装置などについて、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態などに限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。

（１）上記の音声翻訳装置１００、１００Ａ～１００Ｄを構成する、認識処理部１４１及び翻訳処理部１４２を備える翻訳部１４の認識処理及び翻訳処理はクラウド上で行われてもよい。この場合、認識処理部１４１及び翻訳処理部１４２はクラウドとの通信を行い、対象のデータをクラウドに送信し、認識処理及び翻訳処理されたデータを取得すればよい。同様に、上記の音声翻訳装置１００Ｃ、１００Ｄを構成するテキスト合成処理部のテキスト合成処理はクラウド上で行われてもよい。この場合、テキスト合成処理部はクラウドとの通信を行い、対象のデータである翻訳テキスト文をクラウドに送信し、翻訳テキスト文を音声データに変換されたデータを取得すればよい。

（２）上記の音声翻訳装置などでは、異なる言語を話す２人の話者が意思の疎通を図るためのツールとして用いられ、一方の話者の音声を他方の話者の言語に翻訳することを相互に行うとして説明したが、これに限らない。上記の音声翻訳装置などは、２以上の異なる言語を話す複数の話者が意思の疎通を図るためのツールとして用いられてもよい。この場合、音声翻訳装置は、複数の話者のうちの一の話者が発話した言語を認識し、認識した言語での発話内容を、複数の他の話者の１以上の異なる言語に翻訳すればよい。そして、ディスプレイ３００を囲む複数の他の話者が位置する領域に翻訳した言語での翻訳テキスト文を、当該一の話者が位置する領域に認識した言語のテキスト文を表示すればよい。

（３）上記の音声翻訳装置などは、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（４）上記の音声翻訳装置などを構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（５）上記の音声翻訳装置などを構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

本開示は、異なる言語を話す話者が意思の疎通を図るためのツールとして用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに利用できる。

１０翻訳開始指示部
１１記憶部
１２音源方向推定部
１３、１３Ａ、１３Ｂ、１３Ｃ制御部
１４、１４Ｃ翻訳部
１５ディスプレイ部
１６遅延部
１７ビームフォーマ部
１８音声判定部
１９ＤＡ変換部
２０スピーカ
２１レイアウト選択制御部
５１使用者
５２会話相手
６１、６２音源方向
１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｄ音声翻訳装置
１４１認識処理部
１４１Ａ第１音声認識部
１４１Ｂ第２音声認識部
１４２翻訳処理部
１４２Ａ第１テキスト翻訳部
１４２Ｂ第２テキスト翻訳部
１４３Ａ第１テキスト合成部
１４３Ｂ第２テキスト合成部
１４４入力言語選択スイッチ
１４５出力言語選択スイッチ
１４６認識表示選択スイッチ
１４７翻訳表示選択スイッチ
２００、２００Ｃマイクロホンアレイ部
２０１、２０１Ａ、２０１Ｂ、２０１Ｃマイクロホンアレイ
２０２ＡＤ変換部

Claims

音声翻訳装置であって、
前記音声翻訳装置の使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンと、
マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定部と、
それぞれ、前記音声翻訳装置を基準とした使用者、前記会話相手、及び、ディスプレイの異なる位置関係を示す複数のレイアウト情報であって記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係と、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定部により推定された音源方向とから、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、前記使用者が使用する第１言語と前記第１言語と異なる前記会話相手が使用する第２言語であって予め決められた第１言語と第２言語とのうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御部と、
前記制御部により決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得た、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳部と、
特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を同時に表示させるディスプレイ部とを備える、
音声翻訳装置。
前記翻訳部は、
前記認識処理部と、前記翻訳処理部とを備える、
請求項１に記載の音声翻訳装置。
前記翻訳部は、ネットワークを介してサーバと接続可能であり、
前記サーバは、前記認識処理部と前記翻訳処理部との少なくも一方を備える、
請求項１に記載の音声翻訳装置。
さらに、
前記マイクロホンアレイ部により取得される前記音響信号を一定時間遅延させる遅延部と、
前記遅延部により遅延された前記音響信号を信号処理することにより、所定方向に収音の指向性を制御した音響信号であるビームを形成するビームフォーマ部とを備え、
前記ビームフォーマ部は、前記所定方向として、前記音源方向推定部により推定された前記音源方向にビームを形成する、
請求項１～３のいずれか１項に記載の音声翻訳装置。
さらに、スピーカを備え、
前記翻訳部は、さらに、テキスト合成処理部に前記翻訳テキスト文を前記他方の言語の音声データに変換させて得た翻訳音声データを取得して、前記スピーカに伝達し、
前記スピーカは、伝達された前記翻訳音声データに従って、前記翻訳テキスト文の音声を出音する、
請求項１～４のいずれか１項に記載の音声翻訳装置。
前記ディスプレイの形状は、カード状であり、
前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが逆さまになるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させる、
請求項１～５のいずれか１項に記載の音声翻訳装置。
前記ディスプレイの形状は、カード状であり、
前記ディスプレイ部は、前記一のレイアウト情報が、前記ディスプレイを中心として、前記ディスプレイの第１辺に対して前記使用者が位置し、前記第１辺と垂直方向の前記第１辺と異なる第２辺に対して前記会話相手が位置する位置関係を示す場合、前記テキスト文と前記翻訳テキスト文との文字の向きが直角に回転された向きとなるように、対応する前記ディスプレイの領域において前記テキスト文と前記翻訳テキスト文とを表示させる、
請求項１～５のいずれか１項に記載の音声翻訳装置。
前記ディスプレイの形状は、カード状であり、
前記複数のレイアウト情報は、前記ディスプレイを挟んで前記使用者と前記会話相手とが対面する位置関係、前記ディスプレイの１つの辺に対して前記使用者及び前記会話相手がこの順または逆順に横に並ぶ位置関係、及び、前記ディスプレイを中心として、前記ディスプレイの第１辺に対して前記使用者が位置し、前記第１辺と垂直方向の前記第１辺と異なる第２辺に対して前記会話相手が位置する位置関係を含む、
請求項１～５のいずれか１項に記載の音声翻訳装置。
さらに、前記マイクロホンアレイ部により取得される前記音響信号に音声が含まれるか否かを判定する音声判定部を備え、
前記制御部は、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が、前記一のレイアウト情報に示される前記使用者または前記会話相手の位置関係を満たす場合にのみ、前記翻訳方向を決定する、
請求項１～８のいずれか１項に記載の音声翻訳装置。
さらに、前記翻訳開始ボタンが前記使用者に操作されることにより翻訳開始を指示した場合に、予め選択された前記一のレイアウト情報を初期化し、前記音声判定部の判定結果及び前記音源方向推定部の推定結果に基づいて、前記記憶部に記憶されている複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として、選択するレイアウト選択制御部を備える、
請求項９に記載の音声翻訳装置。
前記レイアウト選択制御部は、
予め選択された前記一のレイアウト情報を初期化後、最初に、前記音声判定部により前記音響信号に音声が含まれると判定されたときに前記音源方向推定部により推定された前記音源方向を前記使用者が位置する方向と推定し、
前記使用者が位置する方向の推定後、前記音声判定部により前記音響信号に音声が含まれると判定され、かつ、前記音源方向推定部により推定された前記音源方向が前記使用者が位置する方向と異なる方向であるときに、前記異なる方向を、前記会話相手が位置する方向と決定し、
決定した、前記使用者が位置する方向と前記会話相手が位置する方向とを用いて、複数のレイアウト情報から一つのレイアウト情報を、前記一のレイアウト情報として選択する、
請求項１０に記載の音声翻訳装置。
使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法であって、
マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、
それぞれ、前記音声翻訳装置を基準とした使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示す複数のレイアウト情報であって記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係と、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向とから、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、前記使用者が使用する第１言語と前記第１言語と異なる前記会話相手が使用する第２言語であって予め決められた第１言語と第２言語とのうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、
前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、
特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を同時に表示させるディスプレイ制御ステップとを含む、
音声翻訳方法。
使用者または前記使用者の会話相手に操作されることにより翻訳開始を指示する翻訳開始ボタンとを有する音声翻訳装置の音声翻訳方法を実行するプログラムであって、
マイクロホンアレイ部により取得された音響信号を信号処理することにより、音源方向を推定する音源方向推定ステップと、
それぞれ、前記音声翻訳装置を基準とした使用者、前記使用者の会話相手、及び、ディスプレイの異なる位置関係を示す複数のレイアウト情報であって記憶部に記憶されている複数のレイアウト情報のうち、予め選択された一のレイアウト情報に示される位置関係と、前記翻訳開始ボタンにより翻訳開始が指示された後において前記音源方向推定ステップにおいて推定された音源方向とから、音声を発した発話者が前記使用者及び前記会話相手のうちの一方の者であることを特定し、かつ、前記使用者が使用する第１言語と前記第１言語と異
なる前記会話相手が使用する第２言語であって予め決められた第１言語と第２言語とのうち前記音響信号の内容を認識する一方の言語と翻訳する他方の言語とを示す翻訳方向を決定する制御ステップと、
前記制御ステップにおいて決定された前記翻訳方向に従って、認識処理部に前記音響信号を前記一方の言語で認識させて得た、前記音響信号の内容を示すテキスト文、及び、翻訳処理部に当該テキスト文を他方の言語で翻訳させて得る、前記音響信号の内容を示す翻訳テキスト文を取得する翻訳ステップと、
特定された前記一方の者の位置に対応する前記ディスプレイの領域に、前記テキスト文を表示させ、前記一方と異なる他方の者の位置に対応する、前記ディスプレイの領域に前記翻訳テキスト文を同時に表示させるディスプレイ制御ステップとをコンピュータに実行させる、
プログラム。