JP2019174784A

JP2019174784A - 音声翻訳装置、音声翻訳方法及びそのプログラム

Info

Publication number: JP2019174784A
Application number: JP2018216723A
Authority: JP
Inventors: 亘平林田; Kohei Hayashida; 敦坂口; Atsushi Sakaguchi; 野村　和也; Kazuya Nomura; 和也野村; 古川　博基; Hiromoto Furukawa; 博基古川; 剛樹西川; Tsuyoki Nishikawa
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2018-03-29
Filing date: 2018-11-19
Publication date: 2019-10-10
Anticipated expiration: 2038-11-19
Also published as: JP7223561B2

Abstract

【課題】騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる音声翻訳装置を提供する。【解決手段】マイクロホンアレイ部２０で取得した音声信号から、方向が異なる第１ビームと第２ビームとを形成するビームフォーマ部１１と、ユーザの操作により、第１ビーム及び第２ビームのうちの一方が指定される方向指定部１２と、指定された一方をＳＮ比における信号成分とし、指定されなかった他方を雑音成分としてＳＮ比を計算するＳＮ比計算部１７と、計算されたＳＮ比を用いて、指定された一方の認識が困難かを判定し、困難であると判定した場合、当該困難を解消する発話方法を決定する表示決定部１３Ａと、表示決定部１３Ａで決定された発話方法をディスプレイ３０に表示するディスプレイ部１６Ａと、を備える。【選択図】図７

Description

本開示は、音声翻訳装置、音声翻訳方法及びそのプログラムに関する。

異なる言語を話す話者が意思の疎通を図るためのツールとして、一方の話者の音声を他方の話者の言語に翻訳することを相互に行う音声翻訳装置がある。しかし、このような音声翻訳装置では、騒音等の影響で話者の音声を正しく認識できず、正しく翻訳できない場合がある。

例えば特許文献１には、音声認識処理で誤認識された内容を簡易な発話により訂正することができる技術が提案されている。これにより、最初に発話した内容を全て発話し直すことなく、容易に誤認識された内容を訂正できる。

特開２００５−２８３７９７号公報

しかしながら、特許文献１に開示される技術では、騒音環境に変化がない場合、再度行った発話も音声認識処理で誤認識される場合がある。そして、このような場合、ユーザはどうすれば音声翻訳装置が正しく音声認識するのかわからない。

本開示は、上述の事情を鑑みてなされたもので、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。

本開示の一態様に係る音声翻訳装置は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマ部と、前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマ部と、ユーザの操作により、第１ビームフォーマ部の出力及び第２ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、前記方向指定部により指定された前記一方の出力が、前記第１ビームフォーマ部により形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識部と、前記第１認識部が認識した前記第１内容を第２言語に翻訳する第１翻訳部と、前記方向指定部により指定された前記一方の出力が、前記第２ビームフォーマ部により形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識部と、前記第２認識部が認識した前記第２内容を前記第１言語に翻訳する第２翻訳部と、前記方向指定部により指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定部により指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算部と、前記ＳＮ比計算部により計算された前記ＳＮ比を用いて、前記方向指定部により指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、前記第１翻訳部の出力もしくは前記第２翻訳部の出力、または、前記表示決定部で決定された前記発話方法をディスプレイに表示するディスプレイ部と、を備える。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示によれば、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知する音声翻訳装置等を実現できる。

図１は、実施の形態１における音声翻訳装置の外観の一例を示す図である。図２は、実施の形態１における音声翻訳装置の使用場面の一例を示す図である。図３は、実施の形態１における音声翻訳装置の収音方向について示す図である。図４Ａは、実施の形態１における音声翻訳装置を利用するユーザの位置関係について示す図である。図４Ｂは、実施の形態１における音声翻訳装置を利用するユーザの位置関係について示す図である。図５は、実施の形態１における音声翻訳装置の構成の一例を示す図である。図６Ａは、実施の形態１におけるディスプレイ部により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。図６Ｂは、実施の形態１におけるディスプレイ部により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。図７は、実施の形態２における音声翻訳装置の構成の一例を示す図である。図８Ａは、実施の形態２におけるディスプレイ部により表示される発話方法の一例を示す図である。図８Ｂは、実施の形態２におけるディスプレイ部により表示される発話方法の一例を示す図である。図８Ｃは、実施の形態２におけるディスプレイ部により表示される発話方法の一例を示す図である。図８Ｄは、実施の形態２におけるディスプレイ部により表示される発話方法の一例を示す図である。図９Ａは、実施の形態２におけるディスプレイ部により表示される発話方法の別の一例を示す図である。図９Ｂは、実施の形態２におけるディスプレイ部により表示される発話方法の別の一例を示す図である。図９Ｃは、実施の形態２におけるディスプレイ部により表示される発話方法の別の一例を示す図である。図９Ｄは、実施の形態２におけるディスプレイ部により表示される発話方法の別の一例を示す図である。図１０は、実施の形態２における音声翻訳装置が行う動作処理を示すフローチャートである。図１１は、実施の形態２の変形例１における音声翻訳装置の構成の一例を示す図である。図１２Ａは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータの一例を示す図である。図１２Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータの一例を示す図である。図１３Ａは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータの別の一例を示す図である。図１３Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータの別の一例を示す図である。図１４Ａは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータのさらに別の一例を示す図である。図１４Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータのさらに別の一例を示す図である。図１５Ａは、実施の形態２の変形例２におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。図１５Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。図１５Ｃは、実施の形態２の変形例２におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。図１６Ａは、実施の形態２の変形例２におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。図１６Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。図１６Ｃは、実施の形態２の変形例２におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。図１７Ａは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。図１７Ｂは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。図１７Ｃは、実施の形態２の変形例２におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。図１８は、実施の形態２の変形例３における音声翻訳装置の構成の一例を示す図である。図１９は、実施の形態２の変形例４における音声翻訳装置の構成の一例を示す図である。

この構成により、ＳＮ比を用いて、音声認識が困難であることを判定することができ、困難であることを判定した場合、ユーザに適切な発話方法を通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。これにより、正しく音声認識できるようになり正しく翻訳できるようになる。

ここで、例えば、前記表示決定部は、前記ＳＮ比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記ＳＮ比を前記閾値以上にする行動内容を決定するとしてもよい。

これにより、ＳＮ比を改善するような発話方法をユーザに通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させる行動としてＳＮ比を改善する行動を通知することができる。

また、例えば、前記表示決定部は、前記ＳＮ比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記ＳＮ比を前記閾値以上にする行動内容を決定するとしてもよい。

これにより、ユーザに当該困難を解消させる行動として、マイクロホンアレイ部に近づいて発話することを通知するとともに、マイクロホンアレイ部で取得した音声信号をそのまま用いて認識処理及び翻訳処理を行うことで、音声の認識性能を改善することができる。ここで、マイクロホンアレイ部に近づいた状態で発話された場合、ビームを形成しても音声の認識性能が低下するときがあるからである。

また、例えば、前記表示決定部は、さらに、前記方向指定部により指定された前記一方の出力の音量を計算し、計算した前記音量を前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記音量のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。

これにより、適切な音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した音声のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。

また、例えば、前記表示決定部は、さらに、前記ＳＮ比計算部により計算された前記ＳＮ比を、前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記ＳＮ比のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。

これにより、適切なＳＮ比のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適したＳＮ比のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。

また、例えば、前記表示決定部は、さらに、前記第１ビームフォーマ部の出力、及び、前記第２ビームフォーマ部の出力のうち、前記方向指定部により指定された前記一方の出力の音量を信号音量として計算し、前記マイクロホンアレイ部で取得した音声信号の音量を雑音音量として計算し、計算した前記信号音量及び前記雑音音量を前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記信号音量及び前記雑音音量のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。

これにより、適切な信号音量及び雑音音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した信号音量及び雑音音量のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。

また、例えば、前記ディスプレイ部は、前記レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、前記ディスプレイに表示するとしてもよい。

これにより、音声の認識処理に適した、レベルメータのレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。

また、例えば、前記ディスプレイ部は、前記レベルメータの色を前記レベルの大きさに応じて異ならせて表示するとしてもよい。

また、例えば、前記ディスプレイ部は、さらに、前記レベルの大きさに応じた通知を、前記ディスプレイに表示するとしてもよい。

また、例えば、前記マイクロホンアレイ部が取得した音声信号、または、前記方向指定部により指定された前記一方の出力を用いて、騒音特性を計算する騒音特性計算部を備え、前記表示決定部は、さらに、前記騒音特性計算部により計算された前記騒音特性を用いて、前記一方の出力が認識困難かを判定するとしてもよい。

また、例えば、さらに、前記方向指定部で指定された前記一方の出力の音声区間を判定する音声判定部を備え、前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記一方の出力が認識困難かを判定するとしてもよい。

これにより、音声の認識が困難かどうかの判定精度を向上することができる。

また、例えば、前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記ユーザの操作が誤っていたかを判定するとしてもよい。

また、本開示の一態様に係る音声翻訳装置は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマ部と、前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマ部と、ユーザの操作により、第１ビームフォーマ部の出力及び第２ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、前記方向指定部により指定された前記一方の出力が、前記第１ビームフォーマ部により形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識部と、前記第１認識部が認識した前記第１内容を第２言語に翻訳する第１翻訳部と、前記方向指定部により指定された前記一方の出力が、前記第２ビームフォーマ部により形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識部と、前記第２認識部が認識した前記第２内容を前記第１言語に翻訳する第２翻訳部と、前記方向指定部への指定内容と、第１ビームフォーマ部の出力の大きさと、第２ビームフォーマ部の出力の大きさとから、前記ユーザの誤操作の有無を判定し、前記ユーザの誤操作が有ると判定した場合、前記誤操作を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、前記表示決定部の判定結果に応じて、前記第１翻訳部の出力もしくは前記第２翻訳部の出力、または、前記表示決定部で決定された内容をディスプレイに表示するディスプレイ部と、を備える。

この構成により、ユーザが誤操作したかを判定し、ユーザに適切な発話方法を通知することができる。つまり、ユーザが誤操作したことを判定した場合、ユーザに当該誤操作を解消させるための行動を通知することができる。ユーザが誤操作した場合、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、誤操作を解消させることで正しく音声認識できるようになり正しく翻訳できるようになる。

また、本開示の一態様に係る音声翻訳方法は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマステップと、前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマステップと、ユーザの操作により、前記第１ビームフォーマステップにおける出力及び前記第２ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第１ビームフォーマステップにおいて形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識ステップと、前記第１認識ステップにおいて認識された前記第１内容を第２言語に翻訳する第１翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第２ビームフォーマステップにおいて形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識ステップと、前記第２認識ステップにおいて認識した前記第２内容を前記第１言語に翻訳する第２翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算ステップと、前記ＳＮ比計算ステップにおいて計算された前記ＳＮ比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、前記第１翻訳ステップにおける出力または前記第２翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記内容とをディスプレイに表示するディスプレイステップと、を含む。

これにより、ＳＮ比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識等が困難な場合は、ユーザに適切な発話方法を通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。この結果、正しく音声認識できるようになり正しく翻訳できるようになる。

また、本開示の一態様に係るプログラムは、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマステップと、前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマステップと、ユーザの操作により、前記第１ビームフォーマステップにおける出力及び前記第２ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第１ビームフォーマステップにおいて形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識ステップと、前記第１認識ステップにおいて認識された前記第１内容を第２言語に翻訳する第１翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第２ビームフォーマステップにおいて形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識ステップと、前記第２認識ステップにおいて認識した前記第２内容を前記第１言語に翻訳する第２翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算ステップと、前記ＳＮ比計算ステップにおいて計算された前記ＳＮ比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、前記第１翻訳ステップにおける出力または前記第２翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記発話方法とをディスプレイに表示するディスプレイステップと、をコンピュータに実行させる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。

以下、本開示の一態様に係る音声翻訳装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
《概要》
図１は、実施の形態１における音声翻訳装置１０の外観の一例を示す図である。図２は、実施の形態１における音声翻訳装置１０の使用場面の一例を示す図である。

音声翻訳装置１０は、第１言語で発話する第１話者５１と、第２言語で発話する第２話者５２との間の会話を翻訳する装置である。つまり、音声翻訳装置１０は、異なる言語の２人の話者により使用され、双方向に翻訳する装置である。このような音声翻訳装置１０は、例えばカードのような長尺状の形状で構成され、タブレットなど１つの携帯端末で実現される。音声翻訳装置１０は、図１に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイ部２０と、翻訳結果をテキストとして表示するディスプレイ３０とを備えている。

図１では、第１言語として日本語を話す第１話者５１が左側に位置し、第２言語として英語を話す第２話者５２が右側に位置して、音声翻訳装置１０を横並びで使用しながら会話する例が示されている。

日本語を話す第１話者５１が発話する場合、第１話者５１は「日本語」と表示されたボタン３１を押して発話する。ここで、例えば、第１話者５１は、「日本語」と表示されたボタン３１を押下後、例えば「東京駅は何処ですか？」と発話したとする。この場合、図２に示すように、ディスプレイ３０の左側領域に、日本語の認識結果である「東京駅は何処ですか？」が示され、ディスプレイ３０の右側領域に、音声翻訳装置１０による英語の翻訳結果である「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」が示される。

同様に、英語を話す第２話者５２が発話する場合、第２話者５２は「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話する。ここで、例えば、第２話者５２は、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押下後、例えば「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」と発話したとする。この場合、上記同様に、ディスプレイ３０の右側領域に、英語の認識結果である「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」が示され、ディスプレイ３０の左側領域に、音声翻訳装置１０による日本語の翻訳結果である「東京駅は何処ですか？」が示される。

このように、音声翻訳装置１０は、第１言語と第２言語のうち、どちらの言語からどちらの言語に翻訳するかを、ユーザによるボタン操作等で切り替える。

図３は、実施の形態１における音声翻訳装置１０の収音方向について示す図である。図１及び図２と同様の要素には同一の符号を付している。

第１話者５１が「日本語」と表示されたボタン３１を押して発話する場合には、音声翻訳装置１０から見て第１話者５１が位置する方向である収音方向６１に収音の指向性が制御される。一方、第２話者５２が「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話する場合には、音声翻訳装置１０から見て第２話者５２が位置する方向である収音方向６２に収音の指向性が制御される。

このように、音声翻訳装置１０は、異なる方向である収音方向６１及び収音方向６２をユーザによるボタン操作等を受けて切り替える。ここで、収音方向６１及び収音方向６２は、予め決められた方向であり、マイクロホンアレイ部２０の指向性を制御することで実現される。

以上のように、実施の形態１における音声翻訳装置１０は、ユーザによるボタン操作等を受けて収音方向と言語とを切り替える。

なお、実施の形態１における音声翻訳装置１０が有するディスプレイ３０は、長尺状の形状である。このディスプレイ３０は、縦向きまたは横向きにされた状態で用いられる。

図４Ａ及び図４Ｂは、実施の形態１における音声翻訳装置１０を利用するユーザの位置関係について示す図である。図１〜図３と同様の要素には同一の符号を付しており、詳細な説明を省略する。

図４Ａに示すように、ユーザすなわち第１話者５１及び第２話者５２が、横並びの状態で音声翻訳装置１０を利用する場合、ディスプレイ３０を横向きにした状態で利用する。一方、図４Ｂに示すように、ユーザすなわち第１話者５１及び第２話者５２が、対面する状態で音声翻訳装置１０を利用する場合、ディスプレイ３０を縦向きにした状態で利用する。この場合、「日本語」と表示されたボタン３１ａは第１話者５１に向けて表示され、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２ａは第２話者５２に向けて表示される。また、音声翻訳装置１０は、マイクロホンアレイ部２０の指向性を制御することで、収音方向６１ａを第１話者５１に向け、収音方向６２ａを第２話者５２に向ける。

《装置構成》
図５は、実施の形態１における音声翻訳装置１０の構成の一例を示す図である。

音声翻訳装置１０は、図５に示すように、ビームフォーマ部１１と、方向指定部１２と、表示決定部１３と、認識部１４と、翻訳部１５と、ディスプレイ部１６とを備える。音声翻訳装置１０は、さらに、マイクロホンアレイ部２０を備えるとしてもよい。つまり、音声翻訳装置１０がマイクロホンアレイ部２０を備えることは必須ではない。

［マイクロホンアレイ部２０］
マイクロホンアレイ部２０は、音声信号を取得する。より具体的には、マイクロホンアレイ部２０は、互いに離間して配置された２以上のマイクロホンユニットから構成され、音声を収音し、収音した音声から電気信号に変換した音声信号を取得する。マイクロホンアレイ部２０は、取得した音声信号をビームフォーマ部１１に出力する。なお、マイクロホンアレイ部２０は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部２０は音声翻訳装置１０に装着されることで機能する。

［ビームフォーマ部１１］
ビームフォーマ部１１は、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、予め決められた方向に收音の指向性を制御すなわち予め決められた方向にビームを形成する。ここで、例えば図３に示されるように、ビームフォーマ部１１は、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、収音方向６１を第１話者５１に向ける、または、収音方向６２を第２話者５２に向ける。収音方向６１及び収音方向６２は、形成されたビームの方向であり、互いに異なる方向である。

本実施の形態では、ビームフォーマ部１１は、図５に示すように、第１ビームフォーマ部１１１と第２ビームフォーマ部１１２とを備える。

第１ビームフォーマ部１１１は、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算し、第１ビームを形成する。ここで、第１方向は、音声翻訳装置１０から見て第１話者５１が位置することが予定されている方向である。例えば、図４Ａに示す例では、すなわち、第１話者５１及び第２話者５２が横並びの状態で音声翻訳装置１０を利用する場合、第１方向は、収音方向６１である。図４Ｂに示す例では、すなわち、第１話者５１及び第２話者５２対面する状態で音声翻訳装置１０を利用する場合、第１方向は、収音方向６１ａである。

第２ビームフォーマ部１１２は、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算し、第２ビームを形成する。ここで、第２方向は、音声翻訳装置１０から見て第２話者５２が位置することが予定されている方向である。例えば、図４Ａに示す例では、すなわち、第１話者５１及び第２話者５２が横並びの状態で音声翻訳装置１０を利用する場合、第２方向は、収音方向６２である。図４Ｂに示す例では、すなわち、第１話者５１及び第２話者５２対面する状態で音声翻訳装置１０を利用する場合、第２方向は、収音方向６２ａである。

［方向指定部１２］
方向指定部１２は、ユーザにより操作されることにより、ビームフォーマ部１１の収音の指向性の制御方法と認識部１４に認識させる言語とを指定する。方向指定部１２は、指定した制御方法すなわち指定内容を表示決定部１３に通知する。

例えば、図３に示される例では、ユーザすなわち第１話者５１が「日本語」と表示されたボタン３１を押すと、ビームフォーマ部１１の収音の指向性は収音方向６１に指定される。これとともに、認識部１４に認識させる言語が日本語に指定され、収音方向６１に指定されたことが表示決定部１３に通知される。一方、ユーザすなわち第２話者５２が「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押すと、ビームフォーマ部１１の収音の指向性は収音方向６２に指定される。これとともに、認識部１４に認識させる言語が英語に指定され、収音方向６２に指定されたことが表示決定部１３に通知される。

本実施の形態では、方向指定部１２は、ユーザの操作により、第１ビームフォーマ部１１１の出力及び第２ビームフォーマ部１１２の出力のうちの一方の出力が指定される。より具体的には、方向指定部１２は、ユーザの操作により、第１ビームフォーマ部１１１の出力及び第２ビームフォーマ部１１２の出力を切り替える。第１ビームフォーマ部１１１及び第２ビームフォーマ部１１２は、それぞれマイクロホンアレイ部２０で取得した音声信号を信号処理することにより、第１ビーム及び第２ビームを常に形成しているからである。

このようにして、方向指定部１２は、第１ビームフォーマ部１１１が形成する第１ビーム及び第２ビームフォーマ部１１２が形成する第２ビームのうちのいずれかを表示決定部１３及び認識部１４に出力させることができる。

［表示決定部１３］
表示決定部１３は、ユーザの操作による方向指定部１２への指定と、ビームフォーマ部１１が形成したビームにより収音した音声信号（発話を示す音声信号）の大きさとに基づいて、ユーザの誤操作の有無を判定する。表示決定部１３は、ユーザの誤操作が有ると判定した場合、正しい操作方法など誤操作を解消する発話方法を決定し、ディスプレイ部１６に出力する。

本実施の形態では、表示決定部１３は、方向指定部１２への指定内容と、第１ビームフォーマ部１１１の出力の大きさと、第２ビームフォーマ部１１２の出力の大きさとから、ユーザの誤操作の有無を判定する。

例えば、表示決定部１３は、方向指定部１２において第２ビームフォーマ部１１２の出力が指定されているとすると、（第１ビームフォーマ部１１１の出力＞第２ビームフォーマ部１１２の出力）であれば、ユーザの誤操作が有ると判定する。また、表示決定部１３は、方向指定部１２において第１ビームフォーマ部１１１の出力が指定されているとすると、（第１ビームフォーマ部１１１の出力＜第２ビームフォーマ部１１２の出力）であれば、ユーザの誤操作が有ると判定する。

ここで、ユーザの誤操作であると判定できる理由について、図３を用いて説明する。ユーザの操作により第２ビームフォーマ部１１２の出力が指定されることは、当該ユーザが収音方向６２に位置する第２話者５２であり、第２言語を話すことを予定していることを意味する。しかし、第１ビームフォーマ部１１１の出力＞第２ビームフォーマ部１１２の出力である場合、当該ユーザは、予定していた収音方向６２と異なる収音方向６１に実際には位置していることを意味する。これらから、次のような誤操作が発生したことがわかる。すなわち、ユーザは、日本語を英語に翻訳したい日本語を話す第１話者５１であるが、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を誤って押して発話した。あるいは、ユーザは、英語を日本語に翻訳したい英語を話す第２話者５２であり、収音方向６２に位置すべきだったが、収音方向６１に位置しながら「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話した。

同様に、ユーザの操作により第１ビームフォーマ部１１１の出力が指定されることは、当該ユーザが収音方向６１に位置する第１話者５１であり、第１言語を話すことを予定していることを意味する。しかし、第１ビームフォーマ部１１１の出力＜第２ビームフォーマ部１１２の出力である場合、当該ユーザは、予定していた収音方向６１と異なる収音方向６２に実際には位置していることを意味する。これらから、次のような誤操作が発生したことがわかる。すなわち、ユーザは、英語を日本語に翻訳したい英語を話す第２話者５２であるが、「日本語」と表示されたボタン３１を誤って押して発話した。あるいは、ユーザは、日本語を英語に翻訳したい日本語を話す第１話者５１であり、収音方向６１に位置すべきだったが、収音方向６２に位置しながら「日本語」と表示されたボタン３１を押して発話した。

このようにして、ユーザの誤操作を判定できる。

また、表示決定部１３は、例えば、ユーザの誤操作が有ると判定した場合、誤操作を解消する発話方法であってユーザに通知するための発話方法を決定する。

ここでの発話方法は、例えば、正しい操作方法、または正しい位置において再度の発話を促すことである。例えば、方向指定部１２において第２ビームフォーマ部１１２の出力が指定され、（第１ビームフォーマ部１１１の出力＞第２ビームフォーマ部１１２の出力）である場合、「日本語」と表示されたボタン３１を押すことを促す発話方法を決定してもよい。また、例えば、方向指定部１２において第１ビームフォーマ部１１１の出力が指定され、（第１ビームフォーマ部１１１の出力＜第２ビームフォーマ部１１２の出力）である場合、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押すことを促す発話方法を決定してもよい。

［認識部１４］
認識部１４は、方向指定部１２により、ビームフォーマ部１１の出力を認識させる言語が指定される。そして、認識部１４は、指定された言語でビームフォーマ部１１の出力を認識する。

本実施の形態では、認識部１４は、図５に示すように、第１認識部１４１と第２認識部１４２とを備える。

第１認識部１４１は、方向指定部１２により指定された一方の出力が、第１ビームフォーマ部１１１により形成された第１ビームである場合、第１ビームに対して第１言語で認識処理を行うことにより、第１ビームの内容を第１言語による第１内容として認識する。ここで、第１言語は、第１話者５１が話す予定の言語であり、例えば日本語である。図４Ａに示す例では、第１言語は、収音方向６１に位置する第１話者５１が話す予定の日本語である。図４Ｂに示す例では、第１言語は、収音方向６１ａに位置する第１話者５１が話す予定の日本語である。

第２認識部１４２は、方向指定部１２により指定された一方の出力が、第２ビームフォーマ部１１２により形成された第２ビームである場合、第２ビームに対して第２言語で認識処理を行うことにより、第２ビームの内容を、第２言語による第２内容として認識する。ここで、第２言語は、第２話者５２が話す予定の言語であり、例えば英語である。図４Ａに示す例では、第２言語は、収音方向６２に位置する第２話者５２が話す予定の英語である。図４Ｂに示す例では、第２言語は、収音方向６２ａに位置する第２話者５２が話す予定の英語である。

［翻訳部１５］
翻訳部１５は、認識部１４が認識した言語に応じて、認識部１４が認識した内容を翻訳する。そして、翻訳部１５は、翻訳した内容をディスプレイ部１６に出力する。例えば、翻訳部１５は、認識部１４が認識した言語が日本語であれば、認識部１４が認識した内容を英語に翻訳する。一方、翻訳部１５は、認識部１４が認識した言語が英語であれば、認識部１４が認識した内容を日本語に翻訳する。

本実施の形態では、翻訳部１５は、図５に示すように、第１翻訳部１５１と第２翻訳部１５２とを備える。

第１翻訳部１５１は、第１認識部１４１が認識した第１内容を第２言語に翻訳する。より具体的には、第１翻訳部１５１は、第１認識部１４１が認識した日本語の内容を、英語に翻訳する。第１翻訳部１５１は、翻訳した英語の内容をディスプレイ部１６に出力する。

第２翻訳部１５２は、第２認識部１４２が認識した第２内容を第１言語に翻訳する。より具体的には、第２翻訳部１５２は、第２認識部１４２が認識した英語の内容を、日本語に翻訳する。第２翻訳部１５２は、翻訳した日本語の内容をディスプレイ部１６に出力する。

［ディスプレイ部１６］
ディスプレイ部１６は、表示決定部１３の判定結果に応じて、第１翻訳部１５１の出力もしくは第２翻訳部１５２の出力、または、表示決定部１３で決定された内容をディスプレイ３０に表示する。

より具体的には、ディスプレイ部１６は、表示決定部１３によりユーザの誤操作は無いことが判定された場合、第１翻訳部１５１が翻訳した第１内容もしくは第２翻訳部１５２が翻訳した第２内容を表示する。一方、ディスプレイ部１６は、表示決定部１３によりユーザが誤操作したと判定された場合、表示決定部１３が決定した誤操作を解消する発話方法を表示する。

図６Ａ及び図６Ｂは、実施の形態１におけるディスプレイ部１６により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。図１〜図４Ｂと同様の要素には同一の符号を付している。

図６Ａには、ディスプレイ３０が横向きの状態で使用される場合に、話者５３が「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話したものの、誤操作と判定されたときの発話方法の一例が示されている。この場合、ディスプレイ部１６は、表示決定部１３が決定した誤操作を解消する発話方法を示すメッセージまたは通知内容を表示する。図６Ａでは、ディスプレイ３０の左側領域に、「日本語ボタンを押して下さい」と表示され、ディスプレイ３０の右側領域に、「ＩｆｙｏｕｗａｎｔｔｏｔｒａｎｓｌａｔｅＥｎｇｌｉｓｈ，ｔａｌｋｔｈｉｓｄｉｒｅｃｔｉｏｎ．」と矢印３３の方向に移動するよう促すメッセージが表示されている。

図６Ｂには、ディスプレイ３０が縦向きの状態で使用される場合に、話者５３が「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話したものの誤操作と判定されたときの発話方法の一例が示されている。この場合も、ディスプレイ部１６は、表示決定部１３が決定した誤操作を解消する発話方法を表示する。図６Ｂでは、ディスプレイ３０の下側領域に、「日本語ボタンを押して下さい」と、「ＩｆｙｏｕｗａｎｔｔｏｔｒａｎｓｌａｔｅＥｎｇｌｉｓｈｔａｌｋｏｐｐｏｓｉｔｅｓｉｄｅ．」とディスプレイ３０の反対側に移動するよう促すメッセージとが表示されている。

このように、ディスプレイ部１６は、表示決定部１３が決定した誤操作を解消する発話方法として、第１言語及び第２言語による通知（メッセージ）を同時にディスプレイ３０に表示する。これにより、話者５３は自分の言語の通知を読むことで、正しい操作方法がわかる。

［効果］
以上のように、本実施の形態の音声翻訳装置１０によれば、ユーザが誤操作したかを判定し、ユーザに適切な発話方法を通知することができる。つまり、ユーザの誤操作を判定した場合、ユーザに当該誤操作を解消させるための行動を通知することができる。ユーザが誤操作した場合、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、誤操作を解消させることで、音声翻訳装置１０は、正しく音声認識できるようになり正しく翻訳できるようになる。

（実施の形態２）
実施の形態１では、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、ユーザの誤操作が発生した場合、ユーザに誤操作を解消させるための行動を促す発話方法を通知した。実施の形態２では、騒音等により音声認識が困難である場合に、ユーザに当該困難を解消させるための行動を促す発話方法を通知することについて説明する。以下では、実施の形態１と異なるところを中心に説明する。

図７は、実施の形態２における音声翻訳装置１０Ａの構成の一例を示す図である。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音声翻訳装置１０Ａは、実施の形態１に係る音声翻訳装置１０に対して、表示決定部１３Ａとディスプレイ部１６Ａの構成が異なり、Ｓ／Ｎ比計算部１７が追加されている。

［Ｓ／Ｎ比計算部１７］
Ｓ／Ｎ比計算部１７は、ビームフォーマ部１１が形成するビームにより収音した音声信号を用いて、ＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）を計算する。本実施の形態では、Ｓ／Ｎ比計算部１７は、方向指定部１２により指定された一方の出力をＳＮ比における信号成分とし、方向指定部１２により指定されなかった他方の出力を雑音成分としてＳＮ比を計算する。

［表示決定部１３Ａ］
表示決定部１３Ａは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比に基づいて、ユーザが行った発話の音声認識が困難であるかを判定する。そして、表示決定部１３Ａは、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部１６Ａに出力する。

本実施の形態では、表示決定部１３Ａは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比を用いて、方向指定部１２により指定された一方の出力の認識が困難かを判定する。表示決定部１３は、指定された一方の出力の認識が困難であると判定した場合、当該困難を解消する発話方法であってユーザに通知するための発話方法を決定する。

例えば、表示決定部１３Ａは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比が閾値未満である場合、音声認識が困難と判定し、発話方法として、ＳＮ比を閾値以上にする行動内容を決定する。つまり、発話方法としては、音声認識における騒音の影響を抑制するためにユーザに促す行動であってＳＮ比を閾値以上にする行動（行動内容）が決定される。例えば、マイクロホンアレイ部２０の近くでの再度の発話を促したり、大きな声での再度の発話を促したり、静かな場所での発話を促したり、騒音源から離れた位置での発話を促したりする行動内容が決定される。

なお、表示決定部１３Ａは、さらに、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無の判定方法の詳細は実施の形態１で説明した通りであるので、説明を省略する。

［ディスプレイ部１６Ａ］
ディスプレイ部１６Ａは、表示決定部１３Ａの判定結果に応じて、第１翻訳部１５１の出力もしくは第２翻訳部１５２の出力、または、表示決定部１３Ａで決定された発話方法をディスプレイ３０に表示する。

より具体的には、ディスプレイ部１６Ａは、表示決定部１３Ａにより音声認識が困難ではないと判定された場合、第１翻訳部１５１が翻訳した第１内容もしくは第２翻訳部１５２が翻訳した第２内容を表示する。一方、ディスプレイ部１６Ａは、表示決定部１３により音声認識が困難であると判定された場合、表示決定部１３Ａが決定した当該困難を解消する発話方法を表示する。

図８Ａ〜図８Ｄは、実施の形態２におけるディスプレイ部１６Ａにより表示される発話方法の一例を示す図である。図１〜図４Ｂと同様の要素には同一の符号を付している。図８Ａ〜図８Ｄには、ディスプレイ３０が横向きの状態で使用され、第１話者５１の発話の音声認識が困難であると判定された場合に、発話方法として示されるメッセージ３４の例が示されている。

より具体的には、図８Ａに示すように、ディスプレイ３０の左側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「マイクの近くでお話ください」とのメッセージ３４が表示されてもよい。また、図８Ｂに示すように、ディスプレイ３０の左側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「大きな声でお話ください」とのメッセージ３４が表示されてもよい。また、図８Ｃに示すように、ディスプレイ３０の左側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「静かな場所でお使いください」とのメッセージ３４が表示されてもよい。また、図８Ｄに示すように、ディスプレイ３０の左側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「騒音源から離れてください」とのメッセージ３４が表示されてもよい。いずれにせよ、ディスプレイ３０の左側領域に、発話方法としてＳＮ比を閾値以上にする行動を促すメッセージ３４が表示されればよい。これにより、ユーザである第１話者５１に、音声認識における騒音の影響を抑制するための行動であってＳＮ比を閾値以上にする行動を行わせることができる。

図９Ａ〜図９Ｄは、実施の形態２におけるディスプレイ部１６Ａにより表示される発話方法の別の一例を示す図である。図１〜図４Ｂと同様の要素には同一の符号を付している。図９Ａ〜図９Ｄには、ディスプレイ３０が横向きの状態で使用され、第２話者５２の発話の音声認識が困難であると判定された場合に、発話方法として示されるメッセージ３５の例が示されている。

より具体的には、図９Ａに示すように、ディスプレイ３０の右側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「Ｍｏｖｅｃｌｏｓｅｒｔｏｍｉｃｒｏｐｈｏｎｅ．」とのメッセージ３５が表示されてもよい。また、図９Ｂに示すように、ディスプレイ３０の右側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「Ｐｌｅａｓｅｓｐｅａｋｌｏｕｄｅｒ．」とのメッセージ３５が表示されてもよい。また、図９Ｃに示すように、ディスプレイ３０の右側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「Ｐｌｅａｓｅｕｓｅｉｎａｑｕｉｅｔｐｌａｃｅ．」とのメッセージ３５が表示されてもよい。また、図９Ｄに示すように、ディスプレイ３０の右側領域に、発話方法としてＳＮ比を閾値以上にする行動を促す「Ｐｌｅａｓｅｋｅｅｐａｗａｙｆｒｏｍｎｏｉｓｅｓｏｕｒｃｅ．」とのメッセージ３５が表示されてもよい。いずれにせよ、ディスプレイ３０の右側領域に、発話方法としてＳＮ比を閾値以上にする行動を促すメッセージ３５が表示されればよい。これにより、ユーザである第２話者５２に、音声認識における騒音の影響を抑制するための行動であってＳＮ比を閾値以上にする行動を行わせることができる。

このように、ディスプレイ部１６は、音声認識困難な状況での発話方法をユーザに通知できるので、ユーザに音声認識が困難である状況を解消させるための行動を行わせることができる。

なお、表示決定部１３Ａが、さらに、ユーザの誤操作の有無を判定する場合、ディスプレイ部１６Ａは、表示決定部１３Ａが決定した誤操作を解消する発話方法をディスプレイ３０に表示してもよい。発話方法の表示の詳細は実施の形態１で説明した通りであるので、説明を省略する。

［音声翻訳装置１０Ａの動作］
以上のように構成される音声翻訳装置１０Ａが行う動作処理について説明する。

図１０は、実施の形態２における音声翻訳装置１０Ａが行う動作処理を示すフローチャートである。

まず、音声翻訳装置１０Ａは、マイクロホンアレイ部２０で取得した音声信号を信号処理して第１ビームを形成する（Ｓ１１）。より具体的には、音声翻訳装置１０Ａは、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算し、第１ビームを形成する。

次に、音声翻訳装置１０Ａは、マイクロホンアレイ部２０で取得した音声信号を信号処理して第２ビームを形成する（Ｓ１２）。より具体的には、音声翻訳装置１０Ａは、マイクロホンアレイ部２０で取得した音声信号を信号処理することにより、第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算し、第２ビームを形成する。

次に、音声翻訳装置１０Ａでは、ユーザの操作により、第１ビームフォーマ部１１１または第２ビームフォーマ部１１２の出力が指定される（Ｓ１３）。より具体的には、音声翻訳装置１０Ａでは、ユーザの操作により、第１ビームフォーマ部１１１の出力及び第２ビームフォーマ部１１２の出力のうちの一方の出力が指定される。

次に、音声翻訳装置１０Ａは、指定された出力を信号成分とし、指定されなかった出力を雑音成分としてＳＮ比を計算する（Ｓ１４）。より具体的には、音声翻訳装置１０Ａは、ステップＳ１３において指定された一方の出力をＳＮ比における信号成分とし、ステップＳ１３において指定されなかった他方の出力を雑音成分としてＳＮ比を計算する。

次に、音声翻訳装置１０Ａは、指定された出力の認識が困難か否かを判定する（Ｓ１５）。より具体的には、音声翻訳装置１０Ａは、ステップＳ１４において計算されたＳＮ比を用いて、ステップＳ１３において指定された一方の出力の認識が困難かを判定する。

ステップＳ１５において、音声翻訳装置１０Ａは、指定された出力の認識が困難であると判定した場合（Ｓ１５でＹｅｓ）、当該困難を解消する発話方法であってユーザに通知するための発話方法を決定する（Ｓ１６）。そして、音声翻訳装置１０Ａは、決定された発話方法をディスプレイ３０に表示する（Ｓ１７）。

一方、ステップＳ１５において、音声翻訳装置１０Ａは、指定された出力の認識が困難でないと判定した場合（Ｓ１５でＮｏ）、ステップＳ１３において指定された一方の出力を判定する（Ｓ１８）。ステップＳ１３において指定された一方の出力が第１ビームフォーマ出力であれば（Ｓ１８で第１ビームフォーマ出力）、ステップＳ１９に進む。なお、ステップＳ１３において指定された一方の出力が第２ビームフォーマ出力であれば（Ｓ１８で第２ビームフォーマ出力）、ステップＳ２２に進む。

ステップＳ１９において、音声翻訳装置１０Ａは、第１ビームフォーマ出力の内容を、第１言語による第１内容として認識する。より具体的には、音声翻訳装置１０Ａは、第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、第１ビームフォーマ出力の内容を第１言語による第１内容として認識する。次に、ステップＳ２０では、音声翻訳装置１０Ａは、ステップＳ１９において認識した第１内容を第２言語に翻訳する。そして、ステップＳ２１では、音声翻訳装置１０Ａは、翻訳した第２言語の第１内容をディスプレイ３０に表示する。

一方、ステップＳ２２では、音声翻訳装置１０Ａは、第２ビームフォーマ出力の内容を、第２言語による第２内容として認識する。より具体的には、音声翻訳装置１０Ａは、第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、第２ビームフォーマ出力の内容を第２言語による第２内容として認識する。次に、ステップＳ２３では、音声翻訳装置１０Ａは、ステップＳ２２において認識した第２内容を第１言語に翻訳する。そして、ステップＳ２４では、音声翻訳装置１０Ａは、翻訳した第１言語の第２内容をディスプレイ３０に表示する。

［効果］
以上のように、本実施の形態の音声翻訳装置１０Ａによれば、ＳＮ比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識が困難な場合は、ユーザに適切な発話方法を通知することができる。つまり、音声翻訳装置１０Ａは、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。これにより、音声翻訳装置１０Ａは、正しく音声認識できるようになり正しく翻訳できるようになる。

ここで、例えば、音声翻訳装置１０Ａは、ＳＮ比が閾値未満である場合、音声認識が困難と判定し、発話方法として、ＳＮ比を閾値以上にする発話方法を示す内容を決定してもよい。これにより、ＳＮ比を改善するような発話方法をユーザに通知することができる。つまり、音声翻訳装置１０Ａは、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させる行動としてＳＮ比を改善する行動を通知することができる。この結果、音声翻訳装置１０Ａは、ユーザに当該困難を解消する行動をさせることができるので、正しく音声認識できるようになり正しく翻訳できるようになる。

（変形例１）
次に、変形例１について説明する。以下では、実施の形態２と異なるところを中心に説明する。

図１１は、実施の形態２の変形例１における音声翻訳装置１０Ｂの構成の一例を示す図である。図７と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音声翻訳装置１０Ｂは、図７に示す音声翻訳装置１０Ａに対して、表示決定部１３Ｂの構成が異なる。

［表示決定部１３Ｂ］
表示決定部１３Ｂは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比に基づいて、ユーザが行った発話の音声認識が困難であるかを判定する。表示決定部１３Ｂは、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定し、ディスプレイ部１６Ａに出力する。

本変形例では、表示決定部１３Ｂは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比が閾値未満であり、かつ、発話方法として、マイクロホンアレイ部へ近づいて発話する旨を示す内容を決定する。より具体的には、表示決定部１３Ｂは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比が閾値未満かに応じて、方向指定部１２により指定された一方の出力の認識が困難かを判定する。表示決定部１３は、指定された一方の出力の認識が困難であると判定した場合、当該困難を解消する発話方法として、マイクロホンアレイ部２０へ近づいて発話する行動を促す内容を決定する。

この場合、表示決定部１３Ｂは、方向指定部１２により指定された一方の出力に対応する第１認識部１４１または第２認識部１４２の入力を、一方の出力からマイクロホンアレイ部２０の出力に切り替える。そして、表示決定部１３Ｂは、マイクロホンアレイ部２０が取得した音声信号を一方の出力に対応する第１認識部１４１または第２認識部１４２に入力させる。

なお、表示決定部１３Ｂは、さらに、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無の判定方法の詳細は実施の形態１で説明した通りであるので、説明を省略する。

［効果］
以上のように、本変形例の音声翻訳装置１０Ｂによれば、ＳＮ比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識が困難な場合は、ユーザに当該困難を解消させる行動として、マイクロホンアレイ部２０に近づいて発話することを通知する。これとともに、本実施の形態の音声翻訳装置１０Ｂは、マイクロホンアレイ部２０で取得した音声信号をそのまま用いて認識処理及び翻訳処理を行うことで、発話者の発話の音声認識性能を改善する。発話者がマイクロホンアレイ部２０に近づいた状態で発話する場合、ビームを形成するのに適した距離よりも短い位置から発話されたときには、所望の音声が正しく得られず変形し、何も処理しない場合よりも音声認識性能が低下する場合があるためである。

（変形例２）
実施の形態２及びその変形例１では、騒音等により音声認識が困難である場合、ユーザに、当該困難を解消させるための行動を促す発話方法について説明したが、これに限らない。騒音等の環境下であっても音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示を行ってもよい。以下、音声認識が困難とならないような行動を、ユーザの発話時に促す表示の例について変形例２として説明する。

まず、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、ビームフォーマ部１１で形成されるビームの音量のレベルを示すレベルメータをディスプレイ部１６Ａが表示する場合について説明する。すなわち、表示決定部１３Ａ及び１３Ｂは、さらに、方向指定部１２により指定された一方の出力の音量を計算し、計算した音量をディスプレイ３０に表示することを決定してもよい。そして、ディスプレイ部１６Ａは、さらに、当該音量のレベルを示すレベルメータをディスプレイ３０に表示すればよい。

図１２Ａ及び図１２Ｂは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示されるレベルメータの一例を示す図である。図３等と同様の要素には同一の符号を付しており、詳細な説明を省略する。図１２Ａ及び図１２Ｂに示すように、ディスプレイ３０には、ビームフォーマ部１１で形成されるビームの音量のレベルを示すレベルメータ３６が表示されている。レベルメータ３６は、収音方向からの発話の音量に応じて音量のレベルが増減する。

より具体的には、図１２Ａには、第１話者５１が収音方向６１に位置しながら、「日本語」と表示されたボタン３１を押して発話したとき、レベルメータ３６の音量のレベルが増減する様子が示されている。そして、第１話者５１は、レベルメータ３６の音量のレベルの増減を見ることで、正しい位置である収音方向６１に位置しながら発話しているがわかる。また、第１話者５１は、レベルメータ３６の音量のレベルの増減を見ることで、適切な音量で発話できているかを確認できる。これにより、第１話者５１に、認識部１４の認識処理に適した音量での発話を促すことができるので、認識部１４の認識性能を改善することができる。

一方、図１２Ｂには、第１話者５１が収音方向６１に位置せずに、「日本語」と表示されたボタン３１を押して発話したとき、レベルメータ３６の音量のレベルが無反応（ゼロ）である様子が示されている。そして、第１話者５１は、レベルメータ３６の音量のレベルが無反応であることを見ることで、正しい位置で発話していないことがわかる。これにより、第１話者５１に、正しい位置である収音方向６１に移動して発話することを促せるので、音声認識が困難とならないような行動を、第１話者５１に促すことができる。

なお、図１２Ａ及び図１２Ｂでは、音声翻訳装置１０Ａ及び１０Ｂを第１話者５１が使用する場合について説明したが、これに限らない。音声翻訳装置１０Ａ及び１０Ｂを第２話者５２が使用してもよく、同様のことが言える。

次に、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、Ｓ／Ｎ比計算部１７で計算されるＳ／Ｎ比のレベルを示すレベルメータをディスプレイ部１６Ａが表示する場合について説明する。すなわち、表示決定部１３Ａ及び１３Ｂは、さらに、Ｓ／Ｎ比計算部１７により計算されたＳＮ比を、ディプレイ３０に表示することを決定してもよい。そして、ディスプレイ部１６Ａは、当該ＳＮ比のレベルを示すレベルメータをディスプレイ３０に表示すればよい。

図１３Ａ及び図１３Ｂは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示されるレベルメータの別の一例を示す図である。図１３Ａ及び図１３Ｂに示すように、ディスプレイ３０には、Ｓ／Ｎ比計算部１７で計算されるＳＮ比のレベルを示すレベルメータ３６ａが表示されている。レベルメータ３６ａは、計算されたＳＮ比の値に応じて音量のレベルが増減する。

より具体的には、図１３Ａに示すように、計算されたＳＮ比の値が高い場合、レベルメータ３６ａが示すＳＮ比のレベルは高い。一方、図１３Ｂに示すように、計算されたＳＮ比の値が低い場合、レベルメータ３６ａが示すＳＮ比のレベルは低い。よって、例えば第１話者５１などのユーザは、レベルメータ３６ａのＳＮ比のレベルの増減を見ることで、適切な音量で発話できているかを確認できる。これにより、ユーザに、認識部１４の認識処理に適した音量での発話を促すことができるので、認識部１４の認識性能を改善することができる。

なお、図１３Ａ及び図１３Ｂでは、第１ビームフォーマ部１１１の出力がＳＮ比における信号成分として計算された場合の例が示されているが、これに限らない。第２ビームフォーマ部１１２の出力がＳＮ比における信号成分として計算されてもよく、同様のことが言える。

次に、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、ビームフォーマ部１１で形成されるビームから計算できる信号レベルと雑音レベルとを示すレベルメータをディスプレイ部１６Ａが表示する場合について説明する。すなわち、表示決定部１３Ａ及び１３Ｂは、さらに、第１ビームフォーマ部１１１の出力、及び、第２ビームフォーマ部１１２の出力のうち、方向指定部１２により指定された一方の出力の音量を信号音量として計算し、マイクロホンアレイ部２０で取得した音声信号の音量を雑音音量として計算してもよい。この場合、表示決定部１３Ａ及び１３Ｂは、計算した信号音量及び雑音音量をディスプレイ３０に表示することを決定してもよい。そして、ディスプレイ部１６Ａは、さらに、当該信号音量及び当該雑音音量のレベルを示すレベルメータをディスプレイ３０に表示すればよい。

図１４Ａ及び図１４Ｂは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示されるレベルメータのさらに別の一例を示す図である。図１４Ａ及び図１４Ｂに示すように、ディスプレイ３０には、ビームフォーマ部１１で形成されるビームの音量のレベルを信号音量のレベルとして示すレベルメータ３６ｂが表示されている。また、ディスプレイ３０には、マイクロホンアレイ部２０で取得した音声信号の音量のレベルを雑音音量のレベルとして示すレベルメータ３６ｃが表示されている。

より具体的には、第１話者５１が正しい収音方向６１において適切な音量で発話した場合には、図１４Ａに示すように、レベルメータ３６ｂが示す信号音量のレベルの方がレベルメータ３６ｃが示す雑音音量のレベルよりも高くなる。一方、第１話者５１が正しい収音方向６１において小さな声など不適切な音量で発話した場合には、図１４Ｂに示すように、レベルメータ３６ｂが示す信号音量のレベルの方がレベルメータ３６ｃが示す雑音音量のレベルよりも低くなる。よって、第１話者５１などのユーザは、レベルメータ３６ｂ及びレベルメータ３６ｃを比較して見ることで、適切な音量で発話できているかを確認できる。これにより、ユーザに、認識部１４の認識処理に適した音量での発話を促すことができるので、認識部１４の認識性能を改善することができる。

なお、図１４Ａ及び図１４Ｂでは、音声翻訳装置１０Ａ及び１０Ｂを第１話者５１が使用する場合について説明したが、これに限らない。音声翻訳装置１０Ａ及び１０Ｂを第２話者５２が使用してもよく、同様のことが言える。

［効果］
以上のように、本変形例の音声翻訳装置１０Ａ及び１０Ｂによれば、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促すことができる。より具体的には、本変形例によれば、適切な音量のレベル、ＳＮ比のレベル、または、信号音量及び雑音音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した音量のレベル、ＳＮ比のレベル、または、信号音量及び雑音音量のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。

なお、上記では、計算した音量、ＳＮ比、または、信号音量及び雑音音量のレベルをそのままレベルメータに表示していたが、これに限らない。ディスプレイ部１６Ａは、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、ディスプレイ３０に表示させてよい。ここで、下限の閾値と上限の閾値とは、適切な音量等のレベルの範囲を考慮し、予め設定される。これにより直感的に適切な音量等のレベルで発話できているかをユーザが確認しながら発話できる。この場合の一例について図１５Ａ〜図１５Ｃを用いて説明する。

図１５Ａ〜図１５Ｃは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示される上下限の範囲が設定されているレベルメータ３６ｄの一例を示す図である。より具体的には、図１５Ａには、音量等のレベルが予め設定された下限閾値未満の場合に、レベルメータ３６ｄの音量等のレベルが無反応である様子が示されている。図１５Ｂには、音量等のレベルが予め設定された下限閾値以上かつ上限閾値未満の場合に、レベルメータ３６ｄの音量等のレベルが増減している様子が示されている。図１５Ｃには、音量等のレベルが予め設定された上限閾値以上の場合に、レベルメータ３６ｄの音量等のレベルが一杯の状態である様子が示されている。よって、例えば第１話者５１などのユーザは、上下限の範囲が設定されているレベルメータ３６ｄの音量等のレベルの増減を見ることで、直感的に適切な音量等のレベルで発話できているかを確認しながら発話できる。

ここで、図１５Ａ〜図１５Ｃにおいて、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させる場合、音量等のレベルをモノトーンではなく色を異ならせて表現してもよい。つまり、ディスプレイ部１６Ａは、レベルメータの色を音量等のレベルの大きさに応じて異ならせて表示してもよい。この場合の一例について図１６Ａ〜図１６Ｃを用いて説明する。

図１６Ａ〜図１６Ｃは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータ３６ｅの一例を示す図である。図１５Ａ〜図１５Ｃと同様の要素には同一の符号を付しており、詳細な説明を省略する。

より具体的には、図１６Ａには、音量等のレベルが予め設定された下限閾値未満の場合、レベルメータ３６ｅの音量等のレベルが例えば赤など初期の色の１セグメントで表現されている様子が示されている。図１６Ｂには、音量等のレベルが予め設定された下限閾値以上かつ上限閾値未満の場合、レベルメータ３６ｅの音量等のレベルが例えば緑など初期の色以外のセグメントの増減で表現されている様子が示されている。図１６Ｃには、音量等のレベルが予め設定された上限閾値以上の場合、レベルメータ３６ｅの音量等のレベルが例えば赤など、下限閾値以上かつ上限閾値未満の場合と異なる色のセグメントで表現されている様子が示されている。よって、例えば第１話者５１などのユーザは、上下限の範囲が設定されているレベルメータ３６ｅの音量等のレベルの色を見ることで、直感的に適切な音量等のレベルで発話できているかを確認しながら発話できる。

また、図１６Ａ〜図１６Ｃにおいて、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させ、かつ、色を異ならせて表現する場合には、さらに、ユーザに行動を促す発話方法を示すメッセージをディスプレイ３０に表示してもよい。すなわち、ディスプレイ部１６Ａは、さらに、音量等のレベルの大きさに応じた通知を、ディスプレイ３０に表示してもよい。この場合の一例について図１７Ａ〜図１７Ｃを用いて説明する。

図１７Ａ〜図１７Ｃは、実施の形態２の変形例２におけるディスプレイ部１６Ａにより表示されるレベルメータ３６ｆとメッセージ３７の一例を示す図である。図１６Ａ〜図１６Ｃと同様の要素には同一の符号を付しており、詳細な説明を省略する。

より具体的には、図１７Ａには、音量等のレベルが下限閾値未満の場合、レベルメータ３６ｆの音量等のレベルが初期の色の１セグメントで表現されるとともに、「マイクの近くでお話ください」とのメッセージ３７が示されている。図１７Ｂには、音量等のレベルが下限閾値以上かつ上限閾値未満の場合、レベルメータ３６ｆの音量等のレベルが初期の色以外のセグメントの増減で表現されるとともに、「認識可能」とのメッセージ３７が示されている。図１７Ｃには、音量等のレベルが上限閾値以上の場合に、レベルメータ３６ｆの音量等のレベルが下限閾値以上、上限閾値未満の場合と異なる色のセグメントで表現されるとともに、「マイクから離れてお話ください」とのメッセージ３７が示されている。よって、例えば第１話者５１などのユーザは、レベルメータ３６ｆの音量等のレベルの色を見るだけでなくメッセージ３７を確認することで、適切な音量等のレベルで発話できているかを確認しながら発話できる。

（変形例３）
変形例１では、ＳＮ比を用いて、音声認識が困難であるかを判定していたが、これに限らない。以下では、変形例１と異なるところを中心に説明する。

図１８は、実施の形態２の変形例３における音声翻訳装置１０Ｃの構成の一例を示す図である。図１１と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音声翻訳装置１０Ｃは、図７に示す音声翻訳装置１０Ｂに対して、表示決定部１３Ｃの構成が異なり、騒音特性計算部１８が追加されている。

［騒音特性計算部１８］
騒音特性計算部１８は、ビームフォーマ部１１が形成するビームにより収音して得た音声信号を用いて、騒音特性を計算する。本変形例では、騒音特性計算部１８は、マイクロホンアレイ部２０が取得した音声信号、または、方向指定部１２により指定された一方の出力を用いて、騒音特性を計算する。

例えば、騒音特性計算部１８は、騒音特性として、尖度を計算してもよい。ここで、尖度は、信号の度数分布が正規分布からどれだけ尖っているかを表す統計量であり、信号の時間変化（定常性／非定常性）を表す指標である。尖度は、マイクロホンアレイ部２０が取得した音声信号またはビームフォーマ部１１が形成するビームフォーマの時間的な変化が小さいか大きいかを示す指標に用いることができる。

また、騒音特性計算部１８は、騒音特性として、音声モデルとの類似度を計算してもよい。騒音特性計算部１８は、方向指定部１２で指定されていない出力を用いて、指定されていない出力である第１ビームまたは第２ビームと、音声モデルとの類似度を計算する。この類似度は、音声らしさを示す。そして、音声モデルとの類似度が高いほど、音声の周波数成分と似た騒音（音声らしさ）が含まれていることを示すので音声認識が困難であることがわかる。

［表示決定部１３Ｃ］
表示決定部１３Ｃは、さらに、騒音特性計算部１８により計算された騒音特性を用いて、方向指定部１２により指定された一方の出力が認識困難かを判定する。表示決定部１３Ｃは、騒音特性を用いて、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部１６Ａに出力する。

例えば、騒音特性計算部１８が、騒音特性として、尖度を計算するとする。この場合、表示決定部１３Ｃは、騒音特性計算部１８により計算された尖度が閾値以上であれば、音声認識が困難であると判定し発話方法を決定する。そして、表示決定部１３Ｃは、決定した発話方法をディスプレイ部１６Ａに出力する。

一方、騒音特性計算部１８が、騒音特性として、音声モデルとの類似度を計算するとする。この場合、表示決定部１３Ｃは、騒音特性計算部１８により計算された音声モデルとの類似度が閾値以上であれば、音声認識が困難である判定し、発話方法を決定する。そして、表示決定部１３Ｃは、決定した発話方法をディスプレイ部１６Ａに出力すればよい。

なお、表示決定部１３Ｃは、Ｓ／Ｎ比計算部１７により計算されたＳＮ比と騒音特性計算部１８により計算された騒音特性とを用いて、ユーザが行った発話の音声認識が困難であるかを判定してもよい。また、表示決定部１３Ｃは、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無を判定する方法の詳細は実施の形態１で説明した通りであるので、説明を省略する。

［効果］
以上のように、本変形例の音声翻訳装置１０Ｃによれば、少なくとも騒音特性計算部１８が計算する騒音特性を用いて、騒音により音声認識が困難であるかをより精度よく判定することができる。つまり、音声の認識が困難かどうかの判定精度を向上することができる。

このように、音声翻訳装置１０Ｃは、騒音等により音声認識が困難であることを精度よく判定することができるので、音声認識困難な騒音状況においてユーザに当該困難を解消させるための行動を決定し通知することができる。これにより、正しく音声認識できるようになり正しく翻訳できるようになる。

（変形例４）
次に、変形例４について説明する。以下では、変形例３と異なるところを中心に説明する。

図１９は、実施の形態２の変形例４における音声翻訳装置１０Ｄの構成の一例を示す図である。図１１及び図１８と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音声翻訳装置１０Ｄは、図１８に示す音声翻訳装置１０Ｃに対して、表示決定部１３ＤとＳ／Ｎ比計算部１７Ｄと騒音特性計算部１８Ｄの構成が異なり、音声判定部１９が追加されている。

［音声判定部１９］
音声判定部１９は、ビームフォーマ部１１が形成するビームにより収音して得た音声信号が音声を示すか音声以外の非音声を示すかを判定することで、当該音声信号の音声区間を判定する。本変形例では、音声判定部１９は、方向指定部１２で指定された一方の出力の音声区間を判定する。

［Ｓ／Ｎ比計算部１７Ｄ］
Ｓ／Ｎ比計算部１７Ｄは、ビームフォーマ部１１が形成するビームにより収音した音声信号のうち音声判定部１９により判定された音声区間の音声信号を用いて、ＳＮ比を計算する。本変形例では、Ｓ／Ｎ比計算部１７は、方向指定部１２により指定された一方の出力のうち、音声判定部１９により判定された音声区間の出力をＳＮ比における信号成分とし、指定された当該一方の出力のうち音声判定部１９により判定された非音声区間を雑音成分としてＳＮ比を計算する。

［騒音特性計算部１８Ｄ］
騒音特性計算部１８Ｄは、ビームフォーマ部１１が形成するビームにより収音して得た音声信号のうち、音声判定部１９により判定された非音声区間の出力を用いて、騒音特性を計算する。本変形例では、騒音特性計算部１８Ｄは、方向指定部１２により指定された一方の出力のうち音声判定部１９により判定された非音声区間の出力を用いて、騒音特性を計算する。

ここで、騒音特性は、上述したように、尖度であってもよいし、音声モデルとの類似度であってもよい。騒音特性が音声モデルとの類似度である場合、騒音特性計算部１８は、方向指定部１２により指定された一方の出力のうち音声判定部１９により判定された非音声区間の出力と音声モデルとの類似度とを計算する。

［表示決定部１３Ｄ］
表示決定部１３Ｄは、音声判定部１９により判定された音声区間を用いて、方向指定部１２により指定された一方の出力が認識困難かを判定する。本変形例では、表示決定部１３Ｄは、騒音特性計算部１８Ｄにより計算された騒音特性を用いて、方向指定部１２により指定された一方の出力が認識困難かを判定する。表示決定部１３Ｄは、騒音特性を用いて、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部１６Ａに出力する。

なお、表示決定部１３Ｄは、Ｓ／Ｎ比計算部１７Ｄにより計算されたＳＮ比と騒音特性計算部１８により計算された騒音特性とを用いて、ユーザが行った発話の音声認識が困難であるかを判定してもよい。また、表示決定部１３Ｄは、ユーザの誤操作の有無を判定してもよい。つまり、表示決定部１３Ｄは、さらに、音声判定部１９により判定された音声区間を用いて、ユーザの操作が誤っていたかを判定してもよい。この場合、表示決定部１３Ｄは、ユーザの操作による方向指定部１２への指定と、ビームフォーマ部１１が形成したビームにより収音した音声信号のうち音声判定部１９により判定された音声区間の音声信号の大きさとに基づいて、ユーザの誤操作の有無を判定すればよい。ユーザの誤操作の有無の判定方法についての詳細は実施の形態１で説明した通りであるので、説明を省略する。

［効果］
以上のように、本変形例の音声翻訳装置１０Ｄによれば、ＳＮ比及び騒音特性の計算の精度を向上することができるので、音声認識が困難であるかの判定をより精度よく行うことができる。さらに、本変形例の音声翻訳装置１０Ｄによれば、ユーザが誤操作したかの判定をより精度よく行うことができる。

以上、本開示の一つまたは複数の態様に係る音声翻訳装置等について、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。

（１）上記の音声翻訳装置を構成する認識部１４の認識処理及び翻訳部１５の翻訳処理はクラウド上で行われてもよい。この場合、認識部１４及び翻訳部１５はクラウドとの通信を行い、対象のデータをクラウドに送信し、認識処理及び翻訳処理されたデータを取得すればよい。

（２）上記の音声翻訳装置等では、異なる言語を話す２人の話者が意思の疎通を図るためのツールとして用いられ、一方の話者の音声を他方の話者の言語に翻訳することを相互に行うとして説明したが、これに限らない。上記の音声翻訳装置等は、異なる言語を話す複数の話者が意思の疎通を図るためのツールとして用いられてもよい。この場合、ビームフォーマ部は、音声翻訳装置のディスプレイ３０を囲む複数の話者が位置する領域として割り当てられた領域それぞれに収音方向を向ければよい。そして、一の話者の音声を複数の他の話者それぞれの言語に翻訳して複数の話者が位置する領域に表示すればよい。

（３）上記の音声翻訳装置等は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（４）上記の音声翻訳装置等を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（５）上記の音声翻訳装置等を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

本開示は、異なる言語を話す話者が意思の疎通を図るためのツールとして用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに利用できる。

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ音声翻訳装置
１１ビームフォーマ部
１２方向指定部
１３、１３Ａ、１３Ｂ、１３Ｃ、１３Ｄ表示決定部
１４認識部
１５翻訳部
１６、１６Ａ、１６Ｂ、１６Ｃ、１６Ｄディスプレイ部
１７、１７ＤＳ／Ｎ比計算部
１８、１８Ｄ騒音特性計算部
１９音声判定部
２０マイクロホンアレイ部
３０ディスプレイ
３１、３１ａ、３２、３２ａボタン
３４、３５、３７メッセージ
３６、３６ａ、３６ｂ、３６ｃ、３６ｄ、３６ｅ、３６ｆレベルメータ
５１第１話者
５２第２話者
６１、６１ａ、６２、６２ａ収音方向
１１１第１ビームフォーマ部
１１２第２ビームフォーマ部
１４１第１認識部
１４２第２認識部
１５１第１翻訳部
１５２第２翻訳部

Claims

マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマ部と、
前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマ部と、
ユーザの操作により、第１ビームフォーマ部の出力及び第２ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、
前記方向指定部により指定された前記一方の出力が、前記第１ビームフォーマ部により形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識部と、
前記第１認識部が認識した前記第１内容を第２言語に翻訳する第１翻訳部と、
前記方向指定部により指定された前記一方の出力が、前記第２ビームフォーマ部により形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識部と、
前記第２認識部が認識した前記第２内容を前記第１言語に翻訳する第２翻訳部と、
前記方向指定部により指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定部により指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算部と、
前記ＳＮ比計算部により計算された前記ＳＮ比を用いて、前記方向指定部により指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、
前記第１翻訳部の出力もしくは前記第２翻訳部の出力、または、前記表示決定部で決定された前記発話方法をディスプレイに表示するディスプレイ部と、を備える、
音声翻訳装置。
前記表示決定部は、
前記ＳＮ比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記ＳＮ比を前記閾値以上にする行動内容を決定する、
請求項１に記載の音声翻訳装置。
前記表示決定部は、
前記ＳＮ比が閾値未満であり、かつ、前記発話方法として、前記マイクロホンアレイ部へ近づいて発話する旨を示す内容を決定した場合、前記方向指定部により指定された前記一方の出力に対応する前記第１認識部または前記第２認識部の入力を、前記一方の出力から前記マイクロホンアレイ部の出力に切り替えて、前記マイクロホンアレイ部が取得した音声信号を指定された前記一方の出力に対応する前記第１認識部または前記第２認識部に入力させる、
請求項２に記載の音声翻訳装置。
前記表示決定部は、さらに、
前記方向指定部により指定された前記一方の出力の音量を計算し、計算した前記音量を前記ディスプレイに表示することを決定し、
前記ディスプレイ部は、さらに、前記音量のレベルを示すレベルメータを前記ディスプレイに表示する、
請求項１〜３のいずれか１項に記載の音声翻訳装置。
前記表示決定部は、さらに、
前記ＳＮ比計算部により計算された前記ＳＮ比を、前記ディスプレイに表示することを決定し、
前記ディスプレイ部は、さらに、前記ＳＮ比のレベルを示すレベルメータを前記ディスプレイに表示する、
請求項１〜３のいずれか１項に記載の音声翻訳装置。
前記表示決定部は、さらに、
前記第１ビームフォーマ部の出力、及び、前記第２ビームフォーマ部の出力のうち、前記方向指定部により指定された前記一方の出力の音量を信号音量として計算し、前記マイクロホンアレイ部で取得した音声信号の音量を雑音音量として計算し、計算した前記信号音量及び前記雑音音量を前記ディスプレイに表示することを決定し、
前記ディスプレイ部は、さらに、前記信号音量及び前記雑音音量のレベルを示すレベルメータを前記ディスプレイに表示する、
請求項１〜３のいずれか１項に記載の音声翻訳装置。
前記ディスプレイ部は、前記レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、前記ディスプレイに表示する、
請求項４〜６のいずれか１項に記載の音声翻訳装置。
前記ディスプレイ部は、
前記レベルメータの色を前記レベルの大きさに応じて異ならせて表示する、
請求項４〜７のいずれか１項に記載の音声翻訳装置。
前記ディスプレイ部は、さらに、
前記レベルの大きさに応じた通知を、前記ディスプレイに表示する、
請求項４〜８のいずれか１項に記載の音声翻訳装置。
前記マイクロホンアレイ部が取得した音声信号、または、前記方向指定部により指定された前記一方の出力を用いて、騒音特性を計算する騒音特性計算部を備え、
前記表示決定部は、さらに、前記騒音特性計算部により計算された前記騒音特性を用いて、前記一方の出力が認識困難かを判定する、
請求項１〜７のいずれか１項に記載の音声翻訳装置。
さらに、前記方向指定部で指定された前記一方の出力の音声区間を判定する音声判定部を備え、
前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記一方の出力が認識困難かを判定する、
請求項１〜８のいずれか１項に記載の音声翻訳装置。
前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記ユーザの操作が誤っていたかを判定する、
請求項１１に記載の音声翻訳装置。
マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマ部と、
前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマ部と、
ユーザの操作により、第１ビームフォーマ部の出力及び第２ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、
前記方向指定部により指定された前記一方の出力が、前記第１ビームフォーマ部により形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識部と、
前記第１認識部が認識した前記第１内容を第２言語に翻訳する第１翻訳部と、
前記方向指定部により指定された前記一方の出力が、前記第２ビームフォーマ部により形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識部と、
前記第２認識部が認識した前記第２内容を前記第１言語に翻訳する第２翻訳部と、
前記方向指定部への指定内容と、第１ビームフォーマ部の出力の大きさと、第２ビームフォーマ部の出力の大きさとから、前記ユーザの誤操作の有無を判定し、前記ユーザの誤操作が有ると判定した場合、前記誤操作を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、
前記表示決定部の判定結果に応じて、前記第１翻訳部の出力もしくは前記第２翻訳部の出力、または、前記表示決定部で決定された内容をディスプレイに表示するディスプレイ部と、を備える、
音声翻訳装置。
マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマステップと、
前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマステップと、
ユーザの操作により、前記第１ビームフォーマステップにおける出力及び前記第２ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、
前記方向指定ステップにおいて指定された前記一方の出力が、前記第１ビームフォーマステップにおいて形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識ステップと、
前記第１認識ステップにおいて認識された前記第１内容を第２言語に翻訳する第１翻訳ステップと、
前記方向指定ステップにおいて指定された前記一方の出力が、前記第２ビームフォーマステップにおいて形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識ステップと、
前記第２認識ステップにおいて認識した前記第２内容を前記第１言語に翻訳する第２翻訳ステップと、
前記方向指定ステップにおいて指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算ステップと、
前記ＳＮ比計算ステップにおいて計算された前記ＳＮ比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、
前記第１翻訳ステップにおける出力または前記第２翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記内容とをディスプレイに表示するディスプレイステップと、を含む、
音声翻訳方法。
マイクロホンアレイ部で取得した音声信号を信号処理することにより、第１方向に収音の指向性を制御した音声信号である第１ビームフォーマ出力を計算する第１ビームフォーマステップと、
前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第１方向とは異なる第２方向に収音の指向性を制御した音声信号である第２ビームフォーマ出力を計算する第２ビームフォーマステップと、
ユーザの操作により、前記第１ビームフォーマステップにおける出力及び前記第２ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、
前記方向指定ステップにおいて指定された前記一方の出力が、前記第１ビームフォーマステップにおいて形成された第１ビームである場合、前記第１ビームフォーマ出力に対して第１言語で認識処理を行うことにより、前記第１ビームフォーマ出力の内容を第１言語による第１内容として認識する第１認識ステップと、
前記第１認識ステップにおいて認識された前記第１内容を第２言語に翻訳する第１翻訳ステップと、
前記方向指定ステップにおいて指定された前記一方の出力が、前記第２ビームフォーマステップにおいて形成された第２ビームである場合、前記第２ビームフォーマ出力に対して第２言語で認識処理を行うことにより、前記第２ビームフォーマ出力の内容を、前記第２言語による第２内容として認識する第２認識ステップと、
前記第２認識ステップにおいて認識した前記第２内容を前記第１言語に翻訳する第２翻訳ステップと、
前記方向指定ステップにおいて指定された前記一方の出力をＳＮ比（ＳｉｇｎａｌｔｏＮｏｉｓｅｒａｔｉｏ）における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてＳＮ比を計算するＳＮ比計算ステップと、
前記ＳＮ比計算ステップにおいて計算された前記ＳＮ比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、
前記第１翻訳ステップにおける出力または前記第２翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記発話方法とをディスプレイに表示するディスプレイステップと、をコンピュータに実行させる、
プログラム。