JP2019174784A - 音声翻訳装置、音声翻訳方法及びそのプログラム - Google Patents

音声翻訳装置、音声翻訳方法及びそのプログラム Download PDF

Info

Publication number
JP2019174784A
JP2019174784A JP2018216723A JP2018216723A JP2019174784A JP 2019174784 A JP2019174784 A JP 2019174784A JP 2018216723 A JP2018216723 A JP 2018216723A JP 2018216723 A JP2018216723 A JP 2018216723A JP 2019174784 A JP2019174784 A JP 2019174784A
Authority
JP
Japan
Prior art keywords
unit
output
beamformer
display
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018216723A
Other languages
English (en)
Other versions
JP7223561B2 (ja
Inventor
亘平 林田
Kohei Hayashida
亘平 林田
敦 坂口
Atsushi Sakaguchi
敦 坂口
野村 和也
Kazuya Nomura
和也 野村
古川 博基
Hiromoto Furukawa
博基 古川
剛樹 西川
Tsuyoki Nishikawa
剛樹 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to US16/363,407 priority Critical patent/US11238852B2/en
Priority to CN201910231608.8A priority patent/CN110335589B/zh
Publication of JP2019174784A publication Critical patent/JP2019174784A/ja
Application granted granted Critical
Publication of JP7223561B2 publication Critical patent/JP7223561B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる音声翻訳装置を提供する。【解決手段】マイクロホンアレイ部20で取得した音声信号から、方向が異なる第1ビームと第2ビームとを形成するビームフォーマ部11と、ユーザの操作により、第1ビーム及び第2ビームのうちの一方が指定される方向指定部12と、指定された一方をSN比における信号成分とし、指定されなかった他方を雑音成分としてSN比を計算するSN比計算部17と、計算されたSN比を用いて、指定された一方の認識が困難かを判定し、困難であると判定した場合、当該困難を解消する発話方法を決定する表示決定部13Aと、表示決定部13Aで決定された発話方法をディスプレイ30に表示するディスプレイ部16Aと、を備える。【選択図】図7

Description

本開示は、音声翻訳装置、音声翻訳方法及びそのプログラムに関する。
異なる言語を話す話者が意思の疎通を図るためのツールとして、一方の話者の音声を他方の話者の言語に翻訳することを相互に行う音声翻訳装置がある。しかし、このような音声翻訳装置では、騒音等の影響で話者の音声を正しく認識できず、正しく翻訳できない場合がある。
例えば特許文献1には、音声認識処理で誤認識された内容を簡易な発話により訂正することができる技術が提案されている。これにより、最初に発話した内容を全て発話し直すことなく、容易に誤認識された内容を訂正できる。
特開2005−283797号公報
しかしながら、特許文献1に開示される技術では、騒音環境に変化がない場合、再度行った発話も音声認識処理で誤認識される場合がある。そして、このような場合、ユーザはどうすれば音声翻訳装置が正しく音声認識するのかわからない。
本開示は、上述の事情を鑑みてなされたもので、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる音声翻訳装置、音声翻訳方法及びそのプログラムを提供することを目的とする。
本開示の一態様に係る音声翻訳装置は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマ部と、前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマ部と、ユーザの操作により、第1ビームフォーマ部の出力及び第2ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、前記方向指定部により指定された前記一方の出力が、前記第1ビームフォーマ部により形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識部と、前記第1認識部が認識した前記第1内容を第2言語に翻訳する第1翻訳部と、前記方向指定部により指定された前記一方の出力が、前記第2ビームフォーマ部により形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識部と、前記第2認識部が認識した前記第2内容を前記第1言語に翻訳する第2翻訳部と、前記方向指定部により指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定部により指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算部と、前記SN比計算部により計算された前記SN比を用いて、前記方向指定部により指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、前記第1翻訳部の出力もしくは前記第2翻訳部の出力、または、前記表示決定部で決定された前記発話方法をディスプレイに表示するディスプレイ部と、を備える。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。
本開示によれば、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知する音声翻訳装置等を実現できる。
図1は、実施の形態1における音声翻訳装置の外観の一例を示す図である。 図2は、実施の形態1における音声翻訳装置の使用場面の一例を示す図である。 図3は、実施の形態1における音声翻訳装置の収音方向について示す図である。 図4Aは、実施の形態1における音声翻訳装置を利用するユーザの位置関係について示す図である。 図4Bは、実施の形態1における音声翻訳装置を利用するユーザの位置関係について示す図である。 図5は、実施の形態1における音声翻訳装置の構成の一例を示す図である。 図6Aは、実施の形態1におけるディスプレイ部により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。 図6Bは、実施の形態1におけるディスプレイ部により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。 図7は、実施の形態2における音声翻訳装置の構成の一例を示す図である。 図8Aは、実施の形態2におけるディスプレイ部により表示される発話方法の一例を示す図である。 図8Bは、実施の形態2におけるディスプレイ部により表示される発話方法の一例を示す図である。 図8Cは、実施の形態2におけるディスプレイ部により表示される発話方法の一例を示す図である。 図8Dは、実施の形態2におけるディスプレイ部により表示される発話方法の一例を示す図である。 図9Aは、実施の形態2におけるディスプレイ部により表示される発話方法の別の一例を示す図である。 図9Bは、実施の形態2におけるディスプレイ部により表示される発話方法の別の一例を示す図である。 図9Cは、実施の形態2におけるディスプレイ部により表示される発話方法の別の一例を示す図である。 図9Dは、実施の形態2におけるディスプレイ部により表示される発話方法の別の一例を示す図である。 図10は、実施の形態2における音声翻訳装置が行う動作処理を示すフローチャートである。 図11は、実施の形態2の変形例1における音声翻訳装置の構成の一例を示す図である。 図12Aは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータの一例を示す図である。 図12Bは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータの一例を示す図である。 図13Aは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータの別の一例を示す図である。 図13Bは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータの別の一例を示す図である。 図14Aは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータのさらに別の一例を示す図である。 図14Bは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータのさらに別の一例を示す図である。 図15Aは、実施の形態2の変形例2におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。 図15Bは、実施の形態2の変形例2におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。 図15Cは、実施の形態2の変形例2におけるディスプレイ部により表示される上下限の範囲が設定されているレベルメータの一例を示す図である。 図16Aは、実施の形態2の変形例2におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。 図16Bは、実施の形態2の変形例2におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。 図16Cは、実施の形態2の変形例2におけるディスプレイ部により表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータの一例を示す図である。 図17Aは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。 図17Bは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。 図17Cは、実施の形態2の変形例2におけるディスプレイ部により表示されるレベルメータとメッセージの一例を示す図である。 図18は、実施の形態2の変形例3における音声翻訳装置の構成の一例を示す図である。 図19は、実施の形態2の変形例4における音声翻訳装置の構成の一例を示す図である。
本開示の一態様に係る音声翻訳装置は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマ部と、前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマ部と、ユーザの操作により、第1ビームフォーマ部の出力及び第2ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、前記方向指定部により指定された前記一方の出力が、前記第1ビームフォーマ部により形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識部と、前記第1認識部が認識した前記第1内容を第2言語に翻訳する第1翻訳部と、前記方向指定部により指定された前記一方の出力が、前記第2ビームフォーマ部により形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識部と、前記第2認識部が認識した前記第2内容を前記第1言語に翻訳する第2翻訳部と、前記方向指定部により指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定部により指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算部と、前記SN比計算部により計算された前記SN比を用いて、前記方向指定部により指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、前記第1翻訳部の出力もしくは前記第2翻訳部の出力、または、前記表示決定部で決定された前記発話方法をディスプレイに表示するディスプレイ部と、を備える。
この構成により、SN比を用いて、音声認識が困難であることを判定することができ、困難であることを判定した場合、ユーザに適切な発話方法を通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。これにより、正しく音声認識できるようになり正しく翻訳できるようになる。
ここで、例えば、前記表示決定部は、前記SN比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記SN比を前記閾値以上にする行動内容を決定するとしてもよい。
これにより、SN比を改善するような発話方法をユーザに通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させる行動としてSN比を改善する行動を通知することができる。
また、例えば、前記表示決定部は、前記SN比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記SN比を前記閾値以上にする行動内容を決定するとしてもよい。
これにより、ユーザに当該困難を解消させる行動として、マイクロホンアレイ部に近づいて発話することを通知するとともに、マイクロホンアレイ部で取得した音声信号をそのまま用いて認識処理及び翻訳処理を行うことで、音声の認識性能を改善することができる。ここで、マイクロホンアレイ部に近づいた状態で発話された場合、ビームを形成しても音声の認識性能が低下するときがあるからである。
また、例えば、前記表示決定部は、さらに、前記方向指定部により指定された前記一方の出力の音量を計算し、計算した前記音量を前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記音量のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。
これにより、適切な音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した音声のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記表示決定部は、さらに、前記SN比計算部により計算された前記SN比を、前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記SN比のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。
これにより、適切なSN比のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適したSN比のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記表示決定部は、さらに、前記第1ビームフォーマ部の出力、及び、前記第2ビームフォーマ部の出力のうち、前記方向指定部により指定された前記一方の出力の音量を信号音量として計算し、前記マイクロホンアレイ部で取得した音声信号の音量を雑音音量として計算し、計算した前記信号音量及び前記雑音音量を前記ディスプレイに表示することを決定し、前記ディスプレイ部は、さらに、前記信号音量及び前記雑音音量のレベルを示すレベルメータを前記ディスプレイに表示するとしてもよい。
これにより、適切な信号音量及び雑音音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した信号音量及び雑音音量のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記ディスプレイ部は、前記レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、前記ディスプレイに表示するとしてもよい。
これにより、音声の認識処理に適した、レベルメータのレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記ディスプレイ部は、前記レベルメータの色を前記レベルの大きさに応じて異ならせて表示するとしてもよい。
これにより、音声の認識処理に適した、レベルメータのレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記ディスプレイ部は、さらに、前記レベルの大きさに応じた通知を、前記ディスプレイに表示するとしてもよい。
これにより、音声の認識処理に適した、レベルメータのレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、前記マイクロホンアレイ部が取得した音声信号、または、前記方向指定部により指定された前記一方の出力を用いて、騒音特性を計算する騒音特性計算部を備え、前記表示決定部は、さらに、前記騒音特性計算部により計算された前記騒音特性を用いて、前記一方の出力が認識困難かを判定するとしてもよい。
これにより、音声の認識処理に適した、レベルメータのレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
また、例えば、さらに、前記方向指定部で指定された前記一方の出力の音声区間を判定する音声判定部を備え、前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記一方の出力が認識困難かを判定するとしてもよい。
これにより、音声の認識が困難かどうかの判定精度を向上することができる。
また、例えば、前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記ユーザの操作が誤っていたかを判定するとしてもよい。
これにより、音声の認識が困難かどうかの判定精度を向上することができる。
また、本開示の一態様に係る音声翻訳装置は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマ部と、前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマ部と、ユーザの操作により、第1ビームフォーマ部の出力及び第2ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、前記方向指定部により指定された前記一方の出力が、前記第1ビームフォーマ部により形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識部と、前記第1認識部が認識した前記第1内容を第2言語に翻訳する第1翻訳部と、前記方向指定部により指定された前記一方の出力が、前記第2ビームフォーマ部により形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識部と、前記第2認識部が認識した前記第2内容を前記第1言語に翻訳する第2翻訳部と、前記方向指定部への指定内容と、第1ビームフォーマ部の出力の大きさと、第2ビームフォーマ部の出力の大きさとから、前記ユーザの誤操作の有無を判定し、前記ユーザの誤操作が有ると判定した場合、前記誤操作を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、前記表示決定部の判定結果に応じて、前記第1翻訳部の出力もしくは前記第2翻訳部の出力、または、前記表示決定部で決定された内容をディスプレイに表示するディスプレイ部と、を備える。
この構成により、ユーザが誤操作したかを判定し、ユーザに適切な発話方法を通知することができる。つまり、ユーザが誤操作したことを判定した場合、ユーザに当該誤操作を解消させるための行動を通知することができる。ユーザが誤操作した場合、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、誤操作を解消させることで正しく音声認識できるようになり正しく翻訳できるようになる。
また、本開示の一態様に係る音声翻訳方法は、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマステップと、前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマステップと、ユーザの操作により、前記第1ビームフォーマステップにおける出力及び前記第2ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第1ビームフォーマステップにおいて形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識ステップと、前記第1認識ステップにおいて認識された前記第1内容を第2言語に翻訳する第1翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第2ビームフォーマステップにおいて形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識ステップと、前記第2認識ステップにおいて認識した前記第2内容を前記第1言語に翻訳する第2翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算ステップと、前記SN比計算ステップにおいて計算された前記SN比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、前記第1翻訳ステップにおける出力または前記第2翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記内容とをディスプレイに表示するディスプレイステップと、を含む。
これにより、SN比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識等が困難な場合は、ユーザに適切な発話方法を通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。この結果、正しく音声認識できるようになり正しく翻訳できるようになる。
また、本開示の一態様に係るプログラムは、マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマステップと、前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマステップと、ユーザの操作により、前記第1ビームフォーマステップにおける出力及び前記第2ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第1ビームフォーマステップにおいて形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識ステップと、前記第1認識ステップにおいて認識された前記第1内容を第2言語に翻訳する第1翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力が、前記第2ビームフォーマステップにおいて形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識ステップと、前記第2認識ステップにおいて認識した前記第2内容を前記第1言語に翻訳する第2翻訳ステップと、前記方向指定ステップにおいて指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算ステップと、前記SN比計算ステップにおいて計算された前記SN比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、前記第1翻訳ステップにおける出力または前記第2翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記発話方法とをディスプレイに表示するディスプレイステップと、をコンピュータに実行させる。
これにより、SN比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識等が困難な場合は、ユーザに適切な発話方法を通知することができる。つまり、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。この結果、正しく音声認識できるようになり正しく翻訳できるようになる。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。
以下、本開示の一態様に係る音声翻訳装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
《概要》
図1は、実施の形態1における音声翻訳装置10の外観の一例を示す図である。図2は、実施の形態1における音声翻訳装置10の使用場面の一例を示す図である。
音声翻訳装置10は、第1言語で発話する第1話者51と、第2言語で発話する第2話者52との間の会話を翻訳する装置である。つまり、音声翻訳装置10は、異なる言語の2人の話者により使用され、双方向に翻訳する装置である。このような音声翻訳装置10は、例えばカードのような長尺状の形状で構成され、タブレットなど1つの携帯端末で実現される。音声翻訳装置10は、図1に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイ部20と、翻訳結果をテキストとして表示するディスプレイ30とを備えている。
図1では、第1言語として日本語を話す第1話者51が左側に位置し、第2言語として英語を話す第2話者52が右側に位置して、音声翻訳装置10を横並びで使用しながら会話する例が示されている。
日本語を話す第1話者51が発話する場合、第1話者51は「日本語」と表示されたボタン31を押して発話する。ここで、例えば、第1話者51は、「日本語」と表示されたボタン31を押下後、例えば「東京駅は何処ですか?」と発話したとする。この場合、図2に示すように、ディスプレイ30の左側領域に、日本語の認識結果である「東京駅は何処ですか?」が示され、ディスプレイ30の右側領域に、音声翻訳装置10による英語の翻訳結果である「Where is Tokyo Station?」が示される。
同様に、英語を話す第2話者52が発話する場合、第2話者52は「English」と表示されたボタン32を押して発話する。ここで、例えば、第2話者52は、「English」と表示されたボタン32を押下後、例えば「Where is Tokyo Station?」と発話したとする。この場合、上記同様に、ディスプレイ30の右側領域に、英語の認識結果である「Where is Tokyo Station?」が示され、ディスプレイ30の左側領域に、音声翻訳装置10による日本語の翻訳結果である「東京駅は何処ですか?」が示される。
このように、音声翻訳装置10は、第1言語と第2言語のうち、どちらの言語からどちらの言語に翻訳するかを、ユーザによるボタン操作等で切り替える。
図3は、実施の形態1における音声翻訳装置10の収音方向について示す図である。図1及び図2と同様の要素には同一の符号を付している。
第1話者51が「日本語」と表示されたボタン31を押して発話する場合には、音声翻訳装置10から見て第1話者51が位置する方向である収音方向61に収音の指向性が制御される。一方、第2話者52が「English」と表示されたボタン32を押して発話する場合には、音声翻訳装置10から見て第2話者52が位置する方向である収音方向62に収音の指向性が制御される。
このように、音声翻訳装置10は、異なる方向である収音方向61及び収音方向62をユーザによるボタン操作等を受けて切り替える。ここで、収音方向61及び収音方向62は、予め決められた方向であり、マイクロホンアレイ部20の指向性を制御することで実現される。
以上のように、実施の形態1における音声翻訳装置10は、ユーザによるボタン操作等を受けて収音方向と言語とを切り替える。
なお、実施の形態1における音声翻訳装置10が有するディスプレイ30は、長尺状の形状である。このディスプレイ30は、縦向きまたは横向きにされた状態で用いられる。
図4A及び図4Bは、実施の形態1における音声翻訳装置10を利用するユーザの位置関係について示す図である。図1〜図3と同様の要素には同一の符号を付しており、詳細な説明を省略する。
図4Aに示すように、ユーザすなわち第1話者51及び第2話者52が、横並びの状態で音声翻訳装置10を利用する場合、ディスプレイ30を横向きにした状態で利用する。一方、図4Bに示すように、ユーザすなわち第1話者51及び第2話者52が、対面する状態で音声翻訳装置10を利用する場合、ディスプレイ30を縦向きにした状態で利用する。この場合、「日本語」と表示されたボタン31aは第1話者51に向けて表示され、「English」と表示されたボタン32aは第2話者52に向けて表示される。また、音声翻訳装置10は、マイクロホンアレイ部20の指向性を制御することで、収音方向61aを第1話者51に向け、収音方向62aを第2話者52に向ける。
《装置構成》
図5は、実施の形態1における音声翻訳装置10の構成の一例を示す図である。
音声翻訳装置10は、図5に示すように、ビームフォーマ部11と、方向指定部12と、表示決定部13と、認識部14と、翻訳部15と、ディスプレイ部16とを備える。音声翻訳装置10は、さらに、マイクロホンアレイ部20を備えるとしてもよい。つまり、音声翻訳装置10がマイクロホンアレイ部20を備えることは必須ではない。
[マイクロホンアレイ部20]
マイクロホンアレイ部20は、音声信号を取得する。より具体的には、マイクロホンアレイ部20は、互いに離間して配置された2以上のマイクロホンユニットから構成され、音声を収音し、収音した音声から電気信号に変換した音声信号を取得する。マイクロホンアレイ部20は、取得した音声信号をビームフォーマ部11に出力する。なお、マイクロホンアレイ部20は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部20は音声翻訳装置10に装着されることで機能する。
[ビームフォーマ部11]
ビームフォーマ部11は、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、予め決められた方向に收音の指向性を制御すなわち予め決められた方向にビームを形成する。ここで、例えば図3に示されるように、ビームフォーマ部11は、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、収音方向61を第1話者51に向ける、または、収音方向62を第2話者52に向ける。収音方向61及び収音方向62は、形成されたビームの方向であり、互いに異なる方向である。
本実施の形態では、ビームフォーマ部11は、図5に示すように、第1ビームフォーマ部111と第2ビームフォーマ部112とを備える。
第1ビームフォーマ部111は、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算し、第1ビームを形成する。ここで、第1方向は、音声翻訳装置10から見て第1話者51が位置することが予定されている方向である。例えば、図4Aに示す例では、すなわち、第1話者51及び第2話者52が横並びの状態で音声翻訳装置10を利用する場合、第1方向は、収音方向61である。図4Bに示す例では、すなわち、第1話者51及び第2話者52対面する状態で音声翻訳装置10を利用する場合、第1方向は、収音方向61aである。
第2ビームフォーマ部112は、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算し、第2ビームを形成する。ここで、第2方向は、音声翻訳装置10から見て第2話者52が位置することが予定されている方向である。例えば、図4Aに示す例では、すなわち、第1話者51及び第2話者52が横並びの状態で音声翻訳装置10を利用する場合、第2方向は、収音方向62である。図4Bに示す例では、すなわち、第1話者51及び第2話者52対面する状態で音声翻訳装置10を利用する場合、第2方向は、収音方向62aである。
[方向指定部12]
方向指定部12は、ユーザにより操作されることにより、ビームフォーマ部11の収音の指向性の制御方法と認識部14に認識させる言語とを指定する。方向指定部12は、指定した制御方法すなわち指定内容を表示決定部13に通知する。
例えば、図3に示される例では、ユーザすなわち第1話者51が「日本語」と表示されたボタン31を押すと、ビームフォーマ部11の収音の指向性は収音方向61に指定される。これとともに、認識部14に認識させる言語が日本語に指定され、収音方向61に指定されたことが表示決定部13に通知される。一方、ユーザすなわち第2話者52が「English」と表示されたボタン32を押すと、ビームフォーマ部11の収音の指向性は収音方向62に指定される。これとともに、認識部14に認識させる言語が英語に指定され、収音方向62に指定されたことが表示決定部13に通知される。
本実施の形態では、方向指定部12は、ユーザの操作により、第1ビームフォーマ部111の出力及び第2ビームフォーマ部112の出力のうちの一方の出力が指定される。より具体的には、方向指定部12は、ユーザの操作により、第1ビームフォーマ部111の出力及び第2ビームフォーマ部112の出力を切り替える。第1ビームフォーマ部111及び第2ビームフォーマ部112は、それぞれマイクロホンアレイ部20で取得した音声信号を信号処理することにより、第1ビーム及び第2ビームを常に形成しているからである。
このようにして、方向指定部12は、第1ビームフォーマ部111が形成する第1ビーム及び第2ビームフォーマ部112が形成する第2ビームのうちのいずれかを表示決定部13及び認識部14に出力させることができる。
[表示決定部13]
表示決定部13は、ユーザの操作による方向指定部12への指定と、ビームフォーマ部11が形成したビームにより収音した音声信号(発話を示す音声信号)の大きさとに基づいて、ユーザの誤操作の有無を判定する。表示決定部13は、ユーザの誤操作が有ると判定した場合、正しい操作方法など誤操作を解消する発話方法を決定し、ディスプレイ部16に出力する。
本実施の形態では、表示決定部13は、方向指定部12への指定内容と、第1ビームフォーマ部111の出力の大きさと、第2ビームフォーマ部112の出力の大きさとから、ユーザの誤操作の有無を判定する。
例えば、表示決定部13は、方向指定部12において第2ビームフォーマ部112の出力が指定されているとすると、(第1ビームフォーマ部111の出力>第2ビームフォーマ部112の出力)であれば、ユーザの誤操作が有ると判定する。また、表示決定部13は、方向指定部12において第1ビームフォーマ部111の出力が指定されているとすると、(第1ビームフォーマ部111の出力<第2ビームフォーマ部112の出力)であれば、ユーザの誤操作が有ると判定する。
ここで、ユーザの誤操作であると判定できる理由について、図3を用いて説明する。ユーザの操作により第2ビームフォーマ部112の出力が指定されることは、当該ユーザが収音方向62に位置する第2話者52であり、第2言語を話すことを予定していることを意味する。しかし、第1ビームフォーマ部111の出力>第2ビームフォーマ部112の出力である場合、当該ユーザは、予定していた収音方向62と異なる収音方向61に実際には位置していることを意味する。これらから、次のような誤操作が発生したことがわかる。すなわち、ユーザは、日本語を英語に翻訳したい日本語を話す第1話者51であるが、「English」と表示されたボタン32を誤って押して発話した。あるいは、ユーザは、英語を日本語に翻訳したい英語を話す第2話者52であり、収音方向62に位置すべきだったが、収音方向61に位置しながら「English」と表示されたボタン32を押して発話した。
同様に、ユーザの操作により第1ビームフォーマ部111の出力が指定されることは、当該ユーザが収音方向61に位置する第1話者51であり、第1言語を話すことを予定していることを意味する。しかし、第1ビームフォーマ部111の出力<第2ビームフォーマ部112の出力である場合、当該ユーザは、予定していた収音方向61と異なる収音方向62に実際には位置していることを意味する。これらから、次のような誤操作が発生したことがわかる。すなわち、ユーザは、英語を日本語に翻訳したい英語を話す第2話者52であるが、「日本語」と表示されたボタン31を誤って押して発話した。あるいは、ユーザは、日本語を英語に翻訳したい日本語を話す第1話者51であり、収音方向61に位置すべきだったが、収音方向62に位置しながら「日本語」と表示されたボタン31を押して発話した。
このようにして、ユーザの誤操作を判定できる。
また、表示決定部13は、例えば、ユーザの誤操作が有ると判定した場合、誤操作を解消する発話方法であってユーザに通知するための発話方法を決定する。
ここでの発話方法は、例えば、正しい操作方法、または正しい位置において再度の発話を促すことである。例えば、方向指定部12において第2ビームフォーマ部112の出力が指定され、(第1ビームフォーマ部111の出力>第2ビームフォーマ部112の出力)である場合、「日本語」と表示されたボタン31を押すことを促す発話方法を決定してもよい。また、例えば、方向指定部12において第1ビームフォーマ部111の出力が指定され、(第1ビームフォーマ部111の出力<第2ビームフォーマ部112の出力)である場合、「English」と表示されたボタン32を押すことを促す発話方法を決定してもよい。
[認識部14]
認識部14は、方向指定部12により、ビームフォーマ部11の出力を認識させる言語が指定される。そして、認識部14は、指定された言語でビームフォーマ部11の出力を認識する。
本実施の形態では、認識部14は、図5に示すように、第1認識部141と第2認識部142とを備える。
第1認識部141は、方向指定部12により指定された一方の出力が、第1ビームフォーマ部111により形成された第1ビームである場合、第1ビームに対して第1言語で認識処理を行うことにより、第1ビームの内容を第1言語による第1内容として認識する。ここで、第1言語は、第1話者51が話す予定の言語であり、例えば日本語である。図4Aに示す例では、第1言語は、収音方向61に位置する第1話者51が話す予定の日本語である。図4Bに示す例では、第1言語は、収音方向61aに位置する第1話者51が話す予定の日本語である。
第2認識部142は、方向指定部12により指定された一方の出力が、第2ビームフォーマ部112により形成された第2ビームである場合、第2ビームに対して第2言語で認識処理を行うことにより、第2ビームの内容を、第2言語による第2内容として認識する。ここで、第2言語は、第2話者52が話す予定の言語であり、例えば英語である。図4Aに示す例では、第2言語は、収音方向62に位置する第2話者52が話す予定の英語である。図4Bに示す例では、第2言語は、収音方向62aに位置する第2話者52が話す予定の英語である。
[翻訳部15]
翻訳部15は、認識部14が認識した言語に応じて、認識部14が認識した内容を翻訳する。そして、翻訳部15は、翻訳した内容をディスプレイ部16に出力する。例えば、翻訳部15は、認識部14が認識した言語が日本語であれば、認識部14が認識した内容を英語に翻訳する。一方、翻訳部15は、認識部14が認識した言語が英語であれば、認識部14が認識した内容を日本語に翻訳する。
本実施の形態では、翻訳部15は、図5に示すように、第1翻訳部151と第2翻訳部152とを備える。
第1翻訳部151は、第1認識部141が認識した第1内容を第2言語に翻訳する。より具体的には、第1翻訳部151は、第1認識部141が認識した日本語の内容を、英語に翻訳する。第1翻訳部151は、翻訳した英語の内容をディスプレイ部16に出力する。
第2翻訳部152は、第2認識部142が認識した第2内容を第1言語に翻訳する。より具体的には、第2翻訳部152は、第2認識部142が認識した英語の内容を、日本語に翻訳する。第2翻訳部152は、翻訳した日本語の内容をディスプレイ部16に出力する。
[ディスプレイ部16]
ディスプレイ部16は、表示決定部13の判定結果に応じて、第1翻訳部151の出力もしくは第2翻訳部152の出力、または、表示決定部13で決定された内容をディスプレイ30に表示する。
より具体的には、ディスプレイ部16は、表示決定部13によりユーザの誤操作は無いことが判定された場合、第1翻訳部151が翻訳した第1内容もしくは第2翻訳部152が翻訳した第2内容を表示する。一方、ディスプレイ部16は、表示決定部13によりユーザが誤操作したと判定された場合、表示決定部13が決定した誤操作を解消する発話方法を表示する。
図6A及び図6Bは、実施の形態1におけるディスプレイ部16により表示されるユーザの誤操作を解消する発話方法の一例を示す図である。図1〜図4Bと同様の要素には同一の符号を付している。
図6Aには、ディスプレイ30が横向きの状態で使用される場合に、話者53が「English」と表示されたボタン32を押して発話したものの、誤操作と判定されたときの発話方法の一例が示されている。この場合、ディスプレイ部16は、表示決定部13が決定した誤操作を解消する発話方法を示すメッセージまたは通知内容を表示する。図6Aでは、ディスプレイ30の左側領域に、「日本語ボタンを押して下さい」と表示され、ディスプレイ30の右側領域に、「If you want to translate English,talk this direction.」と矢印33の方向に移動するよう促すメッセージが表示されている。
図6Bには、ディスプレイ30が縦向きの状態で使用される場合に、話者53が「English」と表示されたボタン32を押して発話したものの誤操作と判定されたときの発話方法の一例が示されている。この場合も、ディスプレイ部16は、表示決定部13が決定した誤操作を解消する発話方法を表示する。図6Bでは、ディスプレイ30の下側領域に、「日本語ボタンを押して下さい」と、「If you want to translate English talk opposite side.」とディスプレイ30の反対側に移動するよう促すメッセージとが表示されている。
このように、ディスプレイ部16は、表示決定部13が決定した誤操作を解消する発話方法として、第1言語及び第2言語による通知(メッセージ)を同時にディスプレイ30に表示する。これにより、話者53は自分の言語の通知を読むことで、正しい操作方法がわかる。
[効果]
以上のように、本実施の形態の音声翻訳装置10によれば、ユーザが誤操作したかを判定し、ユーザに適切な発話方法を通知することができる。つまり、ユーザの誤操作を判定した場合、ユーザに当該誤操作を解消させるための行動を通知することができる。ユーザが誤操作した場合、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、誤操作を解消させることで、音声翻訳装置10は、正しく音声認識できるようになり正しく翻訳できるようになる。
(実施の形態2)
実施の形態1では、ユーザの誤操作により正しい音声認識等が困難となる可能性が高いことから、ユーザの誤操作が発生した場合、ユーザに誤操作を解消させるための行動を促す発話方法を通知した。実施の形態2では、騒音等により音声認識が困難である場合に、ユーザに当該困難を解消させるための行動を促す発話方法を通知することについて説明する。以下では、実施の形態1と異なるところを中心に説明する。
図7は、実施の形態2における音声翻訳装置10Aの構成の一例を示す図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音声翻訳装置10Aは、実施の形態1に係る音声翻訳装置10に対して、表示決定部13Aとディスプレイ部16Aの構成が異なり、S/N比計算部17が追加されている。
[S/N比計算部17]
S/N比計算部17は、ビームフォーマ部11が形成するビームにより収音した音声信号を用いて、SN比(Signal to Noise ratio)を計算する。本実施の形態では、S/N比計算部17は、方向指定部12により指定された一方の出力をSN比における信号成分とし、方向指定部12により指定されなかった他方の出力を雑音成分としてSN比を計算する。
[表示決定部13A]
表示決定部13Aは、S/N比計算部17により計算されたSN比に基づいて、ユーザが行った発話の音声認識が困難であるかを判定する。そして、表示決定部13Aは、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部16Aに出力する。
本実施の形態では、表示決定部13Aは、S/N比計算部17により計算されたSN比を用いて、方向指定部12により指定された一方の出力の認識が困難かを判定する。表示決定部13は、指定された一方の出力の認識が困難であると判定した場合、当該困難を解消する発話方法であってユーザに通知するための発話方法を決定する。
例えば、表示決定部13Aは、S/N比計算部17により計算されたSN比が閾値未満である場合、音声認識が困難と判定し、発話方法として、SN比を閾値以上にする行動内容を決定する。つまり、発話方法としては、音声認識における騒音の影響を抑制するためにユーザに促す行動であってSN比を閾値以上にする行動(行動内容)が決定される。例えば、マイクロホンアレイ部20の近くでの再度の発話を促したり、大きな声での再度の発話を促したり、静かな場所での発話を促したり、騒音源から離れた位置での発話を促したりする行動内容が決定される。
なお、表示決定部13Aは、さらに、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無の判定方法の詳細は実施の形態1で説明した通りであるので、説明を省略する。
[ディスプレイ部16A]
ディスプレイ部16Aは、表示決定部13Aの判定結果に応じて、第1翻訳部151の出力もしくは第2翻訳部152の出力、または、表示決定部13Aで決定された発話方法をディスプレイ30に表示する。
より具体的には、ディスプレイ部16Aは、表示決定部13Aにより音声認識が困難ではないと判定された場合、第1翻訳部151が翻訳した第1内容もしくは第2翻訳部152が翻訳した第2内容を表示する。一方、ディスプレイ部16Aは、表示決定部13により音声認識が困難であると判定された場合、表示決定部13Aが決定した当該困難を解消する発話方法を表示する。
図8A〜図8Dは、実施の形態2におけるディスプレイ部16Aにより表示される発話方法の一例を示す図である。図1〜図4Bと同様の要素には同一の符号を付している。図8A〜図8Dには、ディスプレイ30が横向きの状態で使用され、第1話者51の発話の音声認識が困難であると判定された場合に、発話方法として示されるメッセージ34の例が示されている。
より具体的には、図8Aに示すように、ディスプレイ30の左側領域に、発話方法としてSN比を閾値以上にする行動を促す「マイクの近くでお話ください」とのメッセージ34が表示されてもよい。また、図8Bに示すように、ディスプレイ30の左側領域に、発話方法としてSN比を閾値以上にする行動を促す「大きな声でお話ください」とのメッセージ34が表示されてもよい。また、図8Cに示すように、ディスプレイ30の左側領域に、発話方法としてSN比を閾値以上にする行動を促す「静かな場所でお使いください」とのメッセージ34が表示されてもよい。また、図8Dに示すように、ディスプレイ30の左側領域に、発話方法としてSN比を閾値以上にする行動を促す「騒音源から離れてください」とのメッセージ34が表示されてもよい。いずれにせよ、ディスプレイ30の左側領域に、発話方法としてSN比を閾値以上にする行動を促すメッセージ34が表示されればよい。これにより、ユーザである第1話者51に、音声認識における騒音の影響を抑制するための行動であってSN比を閾値以上にする行動を行わせることができる。
図9A〜図9Dは、実施の形態2におけるディスプレイ部16Aにより表示される発話方法の別の一例を示す図である。図1〜図4Bと同様の要素には同一の符号を付している。図9A〜図9Dには、ディスプレイ30が横向きの状態で使用され、第2話者52の発話の音声認識が困難であると判定された場合に、発話方法として示されるメッセージ35の例が示されている。
より具体的には、図9Aに示すように、ディスプレイ30の右側領域に、発話方法としてSN比を閾値以上にする行動を促す「Move closer to microphone.」とのメッセージ35が表示されてもよい。また、図9Bに示すように、ディスプレイ30の右側領域に、発話方法としてSN比を閾値以上にする行動を促す「Please speak louder.」とのメッセージ35が表示されてもよい。また、図9Cに示すように、ディスプレイ30の右側領域に、発話方法としてSN比を閾値以上にする行動を促す「Please use in a quiet place.」とのメッセージ35が表示されてもよい。また、図9Dに示すように、ディスプレイ30の右側領域に、発話方法としてSN比を閾値以上にする行動を促す「Please keep away from noise source.」とのメッセージ35が表示されてもよい。いずれにせよ、ディスプレイ30の右側領域に、発話方法としてSN比を閾値以上にする行動を促すメッセージ35が表示されればよい。これにより、ユーザである第2話者52に、音声認識における騒音の影響を抑制するための行動であってSN比を閾値以上にする行動を行わせることができる。
このように、ディスプレイ部16は、音声認識困難な状況での発話方法をユーザに通知できるので、ユーザに音声認識が困難である状況を解消させるための行動を行わせることができる。
なお、表示決定部13Aが、さらに、ユーザの誤操作の有無を判定する場合、ディスプレイ部16Aは、表示決定部13Aが決定した誤操作を解消する発話方法をディスプレイ30に表示してもよい。発話方法の表示の詳細は実施の形態1で説明した通りであるので、説明を省略する。
[音声翻訳装置10Aの動作]
以上のように構成される音声翻訳装置10Aが行う動作処理について説明する。
図10は、実施の形態2における音声翻訳装置10Aが行う動作処理を示すフローチャートである。
まず、音声翻訳装置10Aは、マイクロホンアレイ部20で取得した音声信号を信号処理して第1ビームを形成する(S11)。より具体的には、音声翻訳装置10Aは、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算し、第1ビームを形成する。
次に、音声翻訳装置10Aは、マイクロホンアレイ部20で取得した音声信号を信号処理して第2ビームを形成する(S12)。より具体的には、音声翻訳装置10Aは、マイクロホンアレイ部20で取得した音声信号を信号処理することにより、第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算し、第2ビームを形成する。
次に、音声翻訳装置10Aでは、ユーザの操作により、第1ビームフォーマ部111または第2ビームフォーマ部112の出力が指定される(S13)。より具体的には、音声翻訳装置10Aでは、ユーザの操作により、第1ビームフォーマ部111の出力及び第2ビームフォーマ部112の出力のうちの一方の出力が指定される。
次に、音声翻訳装置10Aは、指定された出力を信号成分とし、指定されなかった出力を雑音成分としてSN比を計算する(S14)。より具体的には、音声翻訳装置10Aは、ステップS13において指定された一方の出力をSN比における信号成分とし、ステップS13において指定されなかった他方の出力を雑音成分としてSN比を計算する。
次に、音声翻訳装置10Aは、指定された出力の認識が困難か否かを判定する(S15)。より具体的には、音声翻訳装置10Aは、ステップS14において計算されたSN比を用いて、ステップS13において指定された一方の出力の認識が困難かを判定する。
ステップS15において、音声翻訳装置10Aは、指定された出力の認識が困難であると判定した場合(S15でYes)、当該困難を解消する発話方法であってユーザに通知するための発話方法を決定する(S16)。そして、音声翻訳装置10Aは、決定された発話方法をディスプレイ30に表示する(S17)。
一方、ステップS15において、音声翻訳装置10Aは、指定された出力の認識が困難でないと判定した場合(S15でNo)、ステップS13において指定された一方の出力を判定する(S18)。ステップS13において指定された一方の出力が第1ビームフォーマ出力であれば(S18で第1ビームフォーマ出力)、ステップS19に進む。なお、ステップS13において指定された一方の出力が第2ビームフォーマ出力であれば(S18で第2ビームフォーマ出力)、ステップS22に進む。
ステップS19において、音声翻訳装置10Aは、第1ビームフォーマ出力の内容を、第1言語による第1内容として認識する。より具体的には、音声翻訳装置10Aは、第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、第1ビームフォーマ出力の内容を第1言語による第1内容として認識する。次に、ステップS20では、音声翻訳装置10Aは、ステップS19において認識した第1内容を第2言語に翻訳する。そして、ステップS21では、音声翻訳装置10Aは、翻訳した第2言語の第1内容をディスプレイ30に表示する。
一方、ステップS22では、音声翻訳装置10Aは、第2ビームフォーマ出力の内容を、第2言語による第2内容として認識する。より具体的には、音声翻訳装置10Aは、第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、第2ビームフォーマ出力の内容を第2言語による第2内容として認識する。次に、ステップS23では、音声翻訳装置10Aは、ステップS22において認識した第2内容を第1言語に翻訳する。そして、ステップS24では、音声翻訳装置10Aは、翻訳した第1言語の第2内容をディスプレイ30に表示する。
[効果]
以上のように、本実施の形態の音声翻訳装置10Aによれば、SN比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識が困難な場合は、ユーザに適切な発話方法を通知することができる。つまり、音声翻訳装置10Aは、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させるための行動を通知することができる。これにより、音声翻訳装置10Aは、正しく音声認識できるようになり正しく翻訳できるようになる。
ここで、例えば、音声翻訳装置10Aは、SN比が閾値未満である場合、音声認識が困難と判定し、発話方法として、SN比を閾値以上にする発話方法を示す内容を決定してもよい。これにより、SN比を改善するような発話方法をユーザに通知することができる。つまり、音声翻訳装置10Aは、騒音等により音声認識が困難であることを判定し、ユーザに当該困難を解消させる行動としてSN比を改善する行動を通知することができる。この結果、音声翻訳装置10Aは、ユーザに当該困難を解消する行動をさせることができるので、正しく音声認識できるようになり正しく翻訳できるようになる。
(変形例1)
次に、変形例1について説明する。以下では、実施の形態2と異なるところを中心に説明する。
図11は、実施の形態2の変形例1における音声翻訳装置10Bの構成の一例を示す図である。図7と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音声翻訳装置10Bは、図7に示す音声翻訳装置10Aに対して、表示決定部13Bの構成が異なる。
[表示決定部13B]
表示決定部13Bは、S/N比計算部17により計算されたSN比に基づいて、ユーザが行った発話の音声認識が困難であるかを判定する。表示決定部13Bは、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定し、ディスプレイ部16Aに出力する。
本変形例では、表示決定部13Bは、S/N比計算部17により計算されたSN比が閾値未満であり、かつ、発話方法として、マイクロホンアレイ部へ近づいて発話する旨を示す内容を決定する。より具体的には、表示決定部13Bは、S/N比計算部17により計算されたSN比が閾値未満かに応じて、方向指定部12により指定された一方の出力の認識が困難かを判定する。表示決定部13は、指定された一方の出力の認識が困難であると判定した場合、当該困難を解消する発話方法として、マイクロホンアレイ部20へ近づいて発話する行動を促す内容を決定する。
この場合、表示決定部13Bは、方向指定部12により指定された一方の出力に対応する第1認識部141または第2認識部142の入力を、一方の出力からマイクロホンアレイ部20の出力に切り替える。そして、表示決定部13Bは、マイクロホンアレイ部20が取得した音声信号を一方の出力に対応する第1認識部141または第2認識部142に入力させる。
なお、表示決定部13Bは、さらに、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無の判定方法の詳細は実施の形態1で説明した通りであるので、説明を省略する。
[効果]
以上のように、本変形例の音声翻訳装置10Bによれば、SN比を用いて、正しく音声認識できる見込みがあるかを判定し、正しい音声認識が困難な場合は、ユーザに当該困難を解消させる行動として、マイクロホンアレイ部20に近づいて発話することを通知する。これとともに、本実施の形態の音声翻訳装置10Bは、マイクロホンアレイ部20で取得した音声信号をそのまま用いて認識処理及び翻訳処理を行うことで、発話者の発話の音声認識性能を改善する。発話者がマイクロホンアレイ部20に近づいた状態で発話する場合、ビームを形成するのに適した距離よりも短い位置から発話されたときには、所望の音声が正しく得られず変形し、何も処理しない場合よりも音声認識性能が低下する場合があるためである。
(変形例2)
実施の形態2及びその変形例1では、騒音等により音声認識が困難である場合、ユーザに、当該困難を解消させるための行動を促す発話方法について説明したが、これに限らない。騒音等の環境下であっても音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示を行ってもよい。以下、音声認識が困難とならないような行動を、ユーザの発話時に促す表示の例について変形例2として説明する。
まず、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、ビームフォーマ部11で形成されるビームの音量のレベルを示すレベルメータをディスプレイ部16Aが表示する場合について説明する。すなわち、表示決定部13A及び13Bは、さらに、方向指定部12により指定された一方の出力の音量を計算し、計算した音量をディスプレイ30に表示することを決定してもよい。そして、ディスプレイ部16Aは、さらに、当該音量のレベルを示すレベルメータをディスプレイ30に表示すればよい。
図12A及び図12Bは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示されるレベルメータの一例を示す図である。図3等と同様の要素には同一の符号を付しており、詳細な説明を省略する。図12A及び図12Bに示すように、ディスプレイ30には、ビームフォーマ部11で形成されるビームの音量のレベルを示すレベルメータ36が表示されている。レベルメータ36は、収音方向からの発話の音量に応じて音量のレベルが増減する。
より具体的には、図12Aには、第1話者51が収音方向61に位置しながら、「日本語」と表示されたボタン31を押して発話したとき、レベルメータ36の音量のレベルが増減する様子が示されている。そして、第1話者51は、レベルメータ36の音量のレベルの増減を見ることで、正しい位置である収音方向61に位置しながら発話しているがわかる。また、第1話者51は、レベルメータ36の音量のレベルの増減を見ることで、適切な音量で発話できているかを確認できる。これにより、第1話者51に、認識部14の認識処理に適した音量での発話を促すことができるので、認識部14の認識性能を改善することができる。
一方、図12Bには、第1話者51が収音方向61に位置せずに、「日本語」と表示されたボタン31を押して発話したとき、レベルメータ36の音量のレベルが無反応(ゼロ)である様子が示されている。そして、第1話者51は、レベルメータ36の音量のレベルが無反応であることを見ることで、正しい位置で発話していないことがわかる。これにより、第1話者51に、正しい位置である収音方向61に移動して発話することを促せるので、音声認識が困難とならないような行動を、第1話者51に促すことができる。
なお、図12A及び図12Bでは、音声翻訳装置10A及び10Bを第1話者51が使用する場合について説明したが、これに限らない。音声翻訳装置10A及び10Bを第2話者52が使用してもよく、同様のことが言える。
次に、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、S/N比計算部17で計算されるS/N比のレベルを示すレベルメータをディスプレイ部16Aが表示する場合について説明する。すなわち、表示決定部13A及び13Bは、さらに、S/N比計算部17により計算されたSN比を、ディプレイ30に表示することを決定してもよい。そして、ディスプレイ部16Aは、当該SN比のレベルを示すレベルメータをディスプレイ30に表示すればよい。
図13A及び図13Bは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示されるレベルメータの別の一例を示す図である。図13A及び図13Bに示すように、ディスプレイ30には、S/N比計算部17で計算されるSN比のレベルを示すレベルメータ36aが表示されている。レベルメータ36aは、計算されたSN比の値に応じて音量のレベルが増減する。
より具体的には、図13Aに示すように、計算されたSN比の値が高い場合、レベルメータ36aが示すSN比のレベルは高い。一方、図13Bに示すように、計算されたSN比の値が低い場合、レベルメータ36aが示すSN比のレベルは低い。よって、例えば第1話者51などのユーザは、レベルメータ36aのSN比のレベルの増減を見ることで、適切な音量で発話できているかを確認できる。これにより、ユーザに、認識部14の認識処理に適した音量での発話を促すことができるので、認識部14の認識性能を改善することができる。
なお、図13A及び図13Bでは、第1ビームフォーマ部111の出力がSN比における信号成分として計算された場合の例が示されているが、これに限らない。第2ビームフォーマ部112の出力がSN比における信号成分として計算されてもよく、同様のことが言える。
次に、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促す表示の例として、ビームフォーマ部11で形成されるビームから計算できる信号レベルと雑音レベルとを示すレベルメータをディスプレイ部16Aが表示する場合について説明する。すなわち、表示決定部13A及び13Bは、さらに、第1ビームフォーマ部111の出力、及び、第2ビームフォーマ部112の出力のうち、方向指定部12により指定された一方の出力の音量を信号音量として計算し、マイクロホンアレイ部20で取得した音声信号の音量を雑音音量として計算してもよい。この場合、表示決定部13A及び13Bは、計算した信号音量及び雑音音量をディスプレイ30に表示することを決定してもよい。そして、ディスプレイ部16Aは、さらに、当該信号音量及び当該雑音音量のレベルを示すレベルメータをディスプレイ30に表示すればよい。
図14A及び図14Bは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示されるレベルメータのさらに別の一例を示す図である。図14A及び図14Bに示すように、ディスプレイ30には、ビームフォーマ部11で形成されるビームの音量のレベルを信号音量のレベルとして示すレベルメータ36bが表示されている。また、ディスプレイ30には、マイクロホンアレイ部20で取得した音声信号の音量のレベルを雑音音量のレベルとして示すレベルメータ36cが表示されている。
より具体的には、第1話者51が正しい収音方向61において適切な音量で発話した場合には、図14Aに示すように、レベルメータ36bが示す信号音量のレベルの方がレベルメータ36cが示す雑音音量のレベルよりも高くなる。一方、第1話者51が正しい収音方向61において小さな声など不適切な音量で発話した場合には、図14Bに示すように、レベルメータ36bが示す信号音量のレベルの方がレベルメータ36cが示す雑音音量のレベルよりも低くなる。よって、第1話者51などのユーザは、レベルメータ36b及びレベルメータ36cを比較して見ることで、適切な音量で発話できているかを確認できる。これにより、ユーザに、認識部14の認識処理に適した音量での発話を促すことができるので、認識部14の認識性能を改善することができる。
なお、図14A及び図14Bでは、音声翻訳装置10A及び10Bを第1話者51が使用する場合について説明したが、これに限らない。音声翻訳装置10A及び10Bを第2話者52が使用してもよく、同様のことが言える。
[効果]
以上のように、本変形例の音声翻訳装置10A及び10Bによれば、音声認識が困難とならないような行動を、ユーザの発話時にユーザに促すことができる。より具体的には、本変形例によれば、適切な音量のレベル、SN比のレベル、または、信号音量及び雑音音量のレベルで発話できているかをユーザが確認しながら発話できる。よって、音声の認識処理に適した音量のレベル、SN比のレベル、または、信号音量及び雑音音量のレベルでの発話をユーザに促すことができるので、音声の認識性能をより改善することができる。
なお、上記では、計算した音量、SN比、または、信号音量及び雑音音量のレベルをそのままレベルメータに表示していたが、これに限らない。ディスプレイ部16Aは、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、ディスプレイ30に表示させてよい。ここで、下限の閾値と上限の閾値とは、適切な音量等のレベルの範囲を考慮し、予め設定される。これにより直感的に適切な音量等のレベルで発話できているかをユーザが確認しながら発話できる。この場合の一例について図15A〜図15Cを用いて説明する。
図15A〜図15Cは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示される上下限の範囲が設定されているレベルメータ36dの一例を示す図である。より具体的には、図15Aには、音量等のレベルが予め設定された下限閾値未満の場合に、レベルメータ36dの音量等のレベルが無反応である様子が示されている。図15Bには、音量等のレベルが予め設定された下限閾値以上かつ上限閾値未満の場合に、レベルメータ36dの音量等のレベルが増減している様子が示されている。図15Cには、音量等のレベルが予め設定された上限閾値以上の場合に、レベルメータ36dの音量等のレベルが一杯の状態である様子が示されている。よって、例えば第1話者51などのユーザは、上下限の範囲が設定されているレベルメータ36dの音量等のレベルの増減を見ることで、直感的に適切な音量等のレベルで発話できているかを確認しながら発話できる。
ここで、図15A〜図15Cにおいて、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させる場合、音量等のレベルをモノトーンではなく色を異ならせて表現してもよい。つまり、ディスプレイ部16Aは、レベルメータの色を音量等のレベルの大きさに応じて異ならせて表示してもよい。この場合の一例について図16A〜図16Cを用いて説明する。
図16A〜図16Cは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示される音量等のレベルの色が変化する、上下限の範囲が設定されているレベルメータ36eの一例を示す図である。図15A〜図15Cと同様の要素には同一の符号を付しており、詳細な説明を省略する。
より具体的には、図16Aには、音量等のレベルが予め設定された下限閾値未満の場合、レベルメータ36eの音量等のレベルが例えば赤など初期の色の1セグメントで表現されている様子が示されている。図16Bには、音量等のレベルが予め設定された下限閾値以上かつ上限閾値未満の場合、レベルメータ36eの音量等のレベルが例えば緑など初期の色以外のセグメントの増減で表現されている様子が示されている。図16Cには、音量等のレベルが予め設定された上限閾値以上の場合、レベルメータ36eの音量等のレベルが例えば赤など、下限閾値以上かつ上限閾値未満の場合と異なる色のセグメントで表現されている様子が示されている。よって、例えば第1話者51などのユーザは、上下限の範囲が設定されているレベルメータ36eの音量等のレベルの色を見ることで、直感的に適切な音量等のレベルで発話できているかを確認しながら発話できる。
また、図16A〜図16Cにおいて、レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させ、かつ、色を異ならせて表現する場合には、さらに、ユーザに行動を促す発話方法を示すメッセージをディスプレイ30に表示してもよい。すなわち、ディスプレイ部16Aは、さらに、音量等のレベルの大きさに応じた通知を、ディスプレイ30に表示してもよい。この場合の一例について図17A〜図17Cを用いて説明する。
図17A〜図17Cは、実施の形態2の変形例2におけるディスプレイ部16Aにより表示されるレベルメータ36fとメッセージ37の一例を示す図である。図16A〜図16Cと同様の要素には同一の符号を付しており、詳細な説明を省略する。
より具体的には、図17Aには、音量等のレベルが下限閾値未満の場合、レベルメータ36fの音量等のレベルが初期の色の1セグメントで表現されるとともに、「マイクの近くでお話ください」とのメッセージ37が示されている。図17Bには、音量等のレベルが下限閾値以上かつ上限閾値未満の場合、レベルメータ36fの音量等のレベルが初期の色以外のセグメントの増減で表現されるとともに、「認識可能」とのメッセージ37が示されている。図17Cには、音量等のレベルが上限閾値以上の場合に、レベルメータ36fの音量等のレベルが下限閾値以上、上限閾値未満の場合と異なる色のセグメントで表現されるとともに、「マイクから離れてお話ください」とのメッセージ37が示されている。よって、例えば第1話者51などのユーザは、レベルメータ36fの音量等のレベルの色を見るだけでなくメッセージ37を確認することで、適切な音量等のレベルで発話できているかを確認しながら発話できる。
(変形例3)
変形例1では、SN比を用いて、音声認識が困難であるかを判定していたが、これに限らない。以下では、変形例1と異なるところを中心に説明する。
図18は、実施の形態2の変形例3における音声翻訳装置10Cの構成の一例を示す図である。図11と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音声翻訳装置10Cは、図7に示す音声翻訳装置10Bに対して、表示決定部13Cの構成が異なり、騒音特性計算部18が追加されている。
[騒音特性計算部18]
騒音特性計算部18は、ビームフォーマ部11が形成するビームにより収音して得た音声信号を用いて、騒音特性を計算する。本変形例では、騒音特性計算部18は、マイクロホンアレイ部20が取得した音声信号、または、方向指定部12により指定された一方の出力を用いて、騒音特性を計算する。
例えば、騒音特性計算部18は、騒音特性として、尖度を計算してもよい。ここで、尖度は、信号の度数分布が正規分布からどれだけ尖っているかを表す統計量であり、信号の時間変化(定常性/非定常性)を表す指標である。尖度は、マイクロホンアレイ部20が取得した音声信号またはビームフォーマ部11が形成するビームフォーマの時間的な変化が小さいか大きいかを示す指標に用いることができる。
また、騒音特性計算部18は、騒音特性として、音声モデルとの類似度を計算してもよい。騒音特性計算部18は、方向指定部12で指定されていない出力を用いて、指定されていない出力である第1ビームまたは第2ビームと、音声モデルとの類似度を計算する。この類似度は、音声らしさを示す。そして、音声モデルとの類似度が高いほど、音声の周波数成分と似た騒音(音声らしさ)が含まれていることを示すので音声認識が困難であることがわかる。
[表示決定部13C]
表示決定部13Cは、さらに、騒音特性計算部18により計算された騒音特性を用いて、方向指定部12により指定された一方の出力が認識困難かを判定する。表示決定部13Cは、騒音特性を用いて、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部16Aに出力する。
例えば、騒音特性計算部18が、騒音特性として、尖度を計算するとする。この場合、表示決定部13Cは、騒音特性計算部18により計算された尖度が閾値以上であれば、音声認識が困難であると判定し発話方法を決定する。そして、表示決定部13Cは、決定した発話方法をディスプレイ部16Aに出力する。
一方、騒音特性計算部18が、騒音特性として、音声モデルとの類似度を計算するとする。この場合、表示決定部13Cは、騒音特性計算部18により計算された音声モデルとの類似度が閾値以上であれば、音声認識が困難である判定し、発話方法を決定する。そして、表示決定部13Cは、決定した発話方法をディスプレイ部16Aに出力すればよい。
なお、表示決定部13Cは、S/N比計算部17により計算されたSN比と騒音特性計算部18により計算された騒音特性とを用いて、ユーザが行った発話の音声認識が困難であるかを判定してもよい。また、表示決定部13Cは、ユーザの誤操作の有無を判定してもよい。ユーザの誤操作の有無を判定する方法の詳細は実施の形態1で説明した通りであるので、説明を省略する。
[効果]
以上のように、本変形例の音声翻訳装置10Cによれば、少なくとも騒音特性計算部18が計算する騒音特性を用いて、騒音により音声認識が困難であるかをより精度よく判定することができる。つまり、音声の認識が困難かどうかの判定精度を向上することができる。
このように、音声翻訳装置10Cは、騒音等により音声認識が困難であることを精度よく判定することができるので、音声認識困難な騒音状況においてユーザに当該困難を解消させるための行動を決定し通知することができる。これにより、正しく音声認識できるようになり正しく翻訳できるようになる。
(変形例4)
次に、変形例4について説明する。以下では、変形例3と異なるところを中心に説明する。
図19は、実施の形態2の変形例4における音声翻訳装置10Dの構成の一例を示す図である。図11及び図18と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音声翻訳装置10Dは、図18に示す音声翻訳装置10Cに対して、表示決定部13DとS/N比計算部17Dと騒音特性計算部18Dの構成が異なり、音声判定部19が追加されている。
[音声判定部19]
音声判定部19は、ビームフォーマ部11が形成するビームにより収音して得た音声信号が音声を示すか音声以外の非音声を示すかを判定することで、当該音声信号の音声区間を判定する。本変形例では、音声判定部19は、方向指定部12で指定された一方の出力の音声区間を判定する。
[S/N比計算部17D]
S/N比計算部17Dは、ビームフォーマ部11が形成するビームにより収音した音声信号のうち音声判定部19により判定された音声区間の音声信号を用いて、SN比を計算する。本変形例では、S/N比計算部17は、方向指定部12により指定された一方の出力のうち、音声判定部19により判定された音声区間の出力をSN比における信号成分とし、指定された当該一方の出力のうち音声判定部19により判定された非音声区間を雑音成分としてSN比を計算する。
[騒音特性計算部18D]
騒音特性計算部18Dは、ビームフォーマ部11が形成するビームにより収音して得た音声信号のうち、音声判定部19により判定された非音声区間の出力を用いて、騒音特性を計算する。本変形例では、騒音特性計算部18Dは、方向指定部12により指定された一方の出力のうち音声判定部19により判定された非音声区間の出力を用いて、騒音特性を計算する。
ここで、騒音特性は、上述したように、尖度であってもよいし、音声モデルとの類似度であってもよい。騒音特性が音声モデルとの類似度である場合、騒音特性計算部18は、方向指定部12により指定された一方の出力のうち音声判定部19により判定された非音声区間の出力と音声モデルとの類似度とを計算する。
[表示決定部13D]
表示決定部13Dは、音声判定部19により判定された音声区間を用いて、方向指定部12により指定された一方の出力が認識困難かを判定する。本変形例では、表示決定部13Dは、騒音特性計算部18Dにより計算された騒音特性を用いて、方向指定部12により指定された一方の出力が認識困難かを判定する。表示決定部13Dは、騒音特性を用いて、音声認識が困難であると判定した場合、ユーザに当該困難を解消させるための行動を促す発話方法を決定しディスプレイ部16Aに出力する。
なお、表示決定部13Dは、S/N比計算部17Dにより計算されたSN比と騒音特性計算部18により計算された騒音特性とを用いて、ユーザが行った発話の音声認識が困難であるかを判定してもよい。また、表示決定部13Dは、ユーザの誤操作の有無を判定してもよい。つまり、表示決定部13Dは、さらに、音声判定部19により判定された音声区間を用いて、ユーザの操作が誤っていたかを判定してもよい。この場合、表示決定部13Dは、ユーザの操作による方向指定部12への指定と、ビームフォーマ部11が形成したビームにより収音した音声信号のうち音声判定部19により判定された音声区間の音声信号の大きさとに基づいて、ユーザの誤操作の有無を判定すればよい。ユーザの誤操作の有無の判定方法についての詳細は実施の形態1で説明した通りであるので、説明を省略する。
[効果]
以上のように、本変形例の音声翻訳装置10Dによれば、SN比及び騒音特性の計算の精度を向上することができるので、音声認識が困難であるかの判定をより精度よく行うことができる。さらに、本変形例の音声翻訳装置10Dによれば、ユーザが誤操作したかの判定をより精度よく行うことができる。
以上、本開示の一つまたは複数の態様に係る音声翻訳装置等について、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。
(1)上記の音声翻訳装置を構成する認識部14の認識処理及び翻訳部15の翻訳処理はクラウド上で行われてもよい。この場合、認識部14及び翻訳部15はクラウドとの通信を行い、対象のデータをクラウドに送信し、認識処理及び翻訳処理されたデータを取得すればよい。
(2)上記の音声翻訳装置等では、異なる言語を話す2人の話者が意思の疎通を図るためのツールとして用いられ、一方の話者の音声を他方の話者の言語に翻訳することを相互に行うとして説明したが、これに限らない。上記の音声翻訳装置等は、異なる言語を話す複数の話者が意思の疎通を図るためのツールとして用いられてもよい。この場合、ビームフォーマ部は、音声翻訳装置のディスプレイ30を囲む複数の話者が位置する領域として割り当てられた領域それぞれに収音方向を向ければよい。そして、一の話者の音声を複数の他の話者それぞれの言語に翻訳して複数の話者が位置する領域に表示すればよい。
(3)上記の音声翻訳装置等は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(4)上記の音声翻訳装置等を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(5)上記の音声翻訳装置等を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
本開示は、異なる言語を話す話者が意思の疎通を図るためのツールとして用いられる音声翻訳装置、音声翻訳方法及びそのプログラムに利用できる。
10、10A、10B、10C、10D 音声翻訳装置
11 ビームフォーマ部
12 方向指定部
13、13A、13B、13C、13D 表示決定部
14 認識部
15 翻訳部
16、16A、16B、16C、16D ディスプレイ部
17、17D S/N比計算部
18、18D 騒音特性計算部
19 音声判定部
20 マイクロホンアレイ部
30 ディスプレイ
31、31a、32、32a ボタン
34、35、37 メッセージ
36、36a、36b、36c、36d、36e、36f レベルメータ
51 第1話者
52 第2話者
61、61a、62、62a 収音方向
111 第1ビームフォーマ部
112 第2ビームフォーマ部
141 第1認識部
142 第2認識部
151 第1翻訳部
152 第2翻訳部

Claims (15)

  1. マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマ部と、
    前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマ部と、
    ユーザの操作により、第1ビームフォーマ部の出力及び第2ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、
    前記方向指定部により指定された前記一方の出力が、前記第1ビームフォーマ部により形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識部と、
    前記第1認識部が認識した前記第1内容を第2言語に翻訳する第1翻訳部と、
    前記方向指定部により指定された前記一方の出力が、前記第2ビームフォーマ部により形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識部と、
    前記第2認識部が認識した前記第2内容を前記第1言語に翻訳する第2翻訳部と、
    前記方向指定部により指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定部により指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算部と、
    前記SN比計算部により計算された前記SN比を用いて、前記方向指定部により指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、
    前記第1翻訳部の出力もしくは前記第2翻訳部の出力、または、前記表示決定部で決定された前記発話方法をディスプレイに表示するディスプレイ部と、を備える、
    音声翻訳装置。
  2. 前記表示決定部は、
    前記SN比が閾値未満である場合、前記認識が困難と判定し、前記発話方法として、前記SN比を前記閾値以上にする行動内容を決定する、
    請求項1に記載の音声翻訳装置。
  3. 前記表示決定部は、
    前記SN比が閾値未満であり、かつ、前記発話方法として、前記マイクロホンアレイ部へ近づいて発話する旨を示す内容を決定した場合、前記方向指定部により指定された前記一方の出力に対応する前記第1認識部または前記第2認識部の入力を、前記一方の出力から前記マイクロホンアレイ部の出力に切り替えて、前記マイクロホンアレイ部が取得した音声信号を指定された前記一方の出力に対応する前記第1認識部または前記第2認識部に入力させる、
    請求項2に記載の音声翻訳装置。
  4. 前記表示決定部は、さらに、
    前記方向指定部により指定された前記一方の出力の音量を計算し、計算した前記音量を前記ディスプレイに表示することを決定し、
    前記ディスプレイ部は、さらに、前記音量のレベルを示すレベルメータを前記ディスプレイに表示する、
    請求項1〜3のいずれか1項に記載の音声翻訳装置。
  5. 前記表示決定部は、さらに、
    前記SN比計算部により計算された前記SN比を、前記ディスプレイに表示することを決定し、
    前記ディスプレイ部は、さらに、前記SN比のレベルを示すレベルメータを前記ディスプレイに表示する、
    請求項1〜3のいずれか1項に記載の音声翻訳装置。
  6. 前記表示決定部は、さらに、
    前記第1ビームフォーマ部の出力、及び、前記第2ビームフォーマ部の出力のうち、前記方向指定部により指定された前記一方の出力の音量を信号音量として計算し、前記マイクロホンアレイ部で取得した音声信号の音量を雑音音量として計算し、計算した前記信号音量及び前記雑音音量を前記ディスプレイに表示することを決定し、
    前記ディスプレイ部は、さらに、前記信号音量及び前記雑音音量のレベルを示すレベルメータを前記ディスプレイに表示する、
    請求項1〜3のいずれか1項に記載の音声翻訳装置。
  7. 前記ディスプレイ部は、前記レベルメータのレベルを下限の閾値から上限の閾値までの範囲で変化させて、前記ディスプレイに表示する、
    請求項4〜6のいずれか1項に記載の音声翻訳装置。
  8. 前記ディスプレイ部は、
    前記レベルメータの色を前記レベルの大きさに応じて異ならせて表示する、
    請求項4〜7のいずれか1項に記載の音声翻訳装置。
  9. 前記ディスプレイ部は、さらに、
    前記レベルの大きさに応じた通知を、前記ディスプレイに表示する、
    請求項4〜8のいずれか1項に記載の音声翻訳装置。
  10. 前記マイクロホンアレイ部が取得した音声信号、または、前記方向指定部により指定された前記一方の出力を用いて、騒音特性を計算する騒音特性計算部を備え、
    前記表示決定部は、さらに、前記騒音特性計算部により計算された前記騒音特性を用いて、前記一方の出力が認識困難かを判定する、
    請求項1〜7のいずれか1項に記載の音声翻訳装置。
  11. さらに、前記方向指定部で指定された前記一方の出力の音声区間を判定する音声判定部を備え、
    前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記一方の出力が認識困難かを判定する、
    請求項1〜8のいずれか1項に記載の音声翻訳装置。
  12. 前記表示決定部は、さらに、前記音声判定部により判定された前記音声区間を用いて、前記ユーザの操作が誤っていたかを判定する、
    請求項11に記載の音声翻訳装置。
  13. マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマ部と、
    前記マイクロホンアレイ部で取得した音声信号を信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマ部と、
    ユーザの操作により、第1ビームフォーマ部の出力及び第2ビームフォーマ部の出力のうちの一方の出力が指定される方向指定部と、
    前記方向指定部により指定された前記一方の出力が、前記第1ビームフォーマ部により形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識部と、
    前記第1認識部が認識した前記第1内容を第2言語に翻訳する第1翻訳部と、
    前記方向指定部により指定された前記一方の出力が、前記第2ビームフォーマ部により形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識部と、
    前記第2認識部が認識した前記第2内容を前記第1言語に翻訳する第2翻訳部と、
    前記方向指定部への指定内容と、第1ビームフォーマ部の出力の大きさと、第2ビームフォーマ部の出力の大きさとから、前記ユーザの誤操作の有無を判定し、前記ユーザの誤操作が有ると判定した場合、前記誤操作を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定部と、
    前記表示決定部の判定結果に応じて、前記第1翻訳部の出力もしくは前記第2翻訳部の出力、または、前記表示決定部で決定された内容をディスプレイに表示するディスプレイ部と、を備える、
    音声翻訳装置。
  14. マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマステップと、
    前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマステップと、
    ユーザの操作により、前記第1ビームフォーマステップにおける出力及び前記第2ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力が、前記第1ビームフォーマステップにおいて形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識ステップと、
    前記第1認識ステップにおいて認識された前記第1内容を第2言語に翻訳する第1翻訳ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力が、前記第2ビームフォーマステップにおいて形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識ステップと、
    前記第2認識ステップにおいて認識した前記第2内容を前記第1言語に翻訳する第2翻訳ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算ステップと、
    前記SN比計算ステップにおいて計算された前記SN比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、
    前記第1翻訳ステップにおける出力または前記第2翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記内容とをディスプレイに表示するディスプレイステップと、を含む、
    音声翻訳方法。
  15. マイクロホンアレイ部で取得した音声信号を信号処理することにより、第1方向に収音の指向性を制御した音声信号である第1ビームフォーマ出力を計算する第1ビームフォーマステップと、
    前記マイクロホンアレイ部で取得した音声信号処理することにより、前記第1方向とは異なる第2方向に収音の指向性を制御した音声信号である第2ビームフォーマ出力を計算する第2ビームフォーマステップと、
    ユーザの操作により、前記第1ビームフォーマステップにおける出力及び前記第2ビームフォーマステップにおける出力のうちの一方の出力が指定される方向指定ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力が、前記第1ビームフォーマステップにおいて形成された第1ビームである場合、前記第1ビームフォーマ出力に対して第1言語で認識処理を行うことにより、前記第1ビームフォーマ出力の内容を第1言語による第1内容として認識する第1認識ステップと、
    前記第1認識ステップにおいて認識された前記第1内容を第2言語に翻訳する第1翻訳ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力が、前記第2ビームフォーマステップにおいて形成された第2ビームである場合、前記第2ビームフォーマ出力に対して第2言語で認識処理を行うことにより、前記第2ビームフォーマ出力の内容を、前記第2言語による第2内容として認識する第2認識ステップと、
    前記第2認識ステップにおいて認識した前記第2内容を前記第1言語に翻訳する第2翻訳ステップと、
    前記方向指定ステップにおいて指定された前記一方の出力をSN比(Signal to Noise ratio)における信号成分とし、前記方向指定ステップにおいて指定されなかった他方の出力を雑音成分としてSN比を計算するSN比計算ステップと、
    前記SN比計算ステップにおいて計算された前記SN比を用いて、前記方向指定ステップにおいて指定された前記一方の出力の認識が困難かを判定し、前記困難であると判定した場合、前記困難を解消する発話方法であって前記ユーザに通知するための発話方法を決定する表示決定ステップと、
    前記第1翻訳ステップにおける出力または前記第2翻訳ステップにおける出力と、前記表示決定ステップにおいて決定された前記発話方法とをディスプレイに表示するディスプレイステップと、をコンピュータに実行させる、
    プログラム。
JP2018216723A 2018-03-29 2018-11-19 音声翻訳装置、音声翻訳方法及びそのプログラム Active JP7223561B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/363,407 US11238852B2 (en) 2018-03-29 2019-03-25 Speech translation device, speech translation method, and recording medium therefor
CN201910231608.8A CN110335589B (zh) 2018-03-29 2019-03-26 语音翻译装置、语音翻译方法及记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862649917P 2018-03-29 2018-03-29
US62/649,917 2018-03-29

Publications (2)

Publication Number Publication Date
JP2019174784A true JP2019174784A (ja) 2019-10-10
JP7223561B2 JP7223561B2 (ja) 2023-02-16

Family

ID=68166886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018216723A Active JP7223561B2 (ja) 2018-03-29 2018-11-19 音声翻訳装置、音声翻訳方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP7223561B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022171300A (ja) * 2021-04-30 2022-11-11 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073061A (ja) * 2000-09-05 2002-03-12 Matsushita Electric Ind Co Ltd 音声認識装置及びその方法
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
US20140188455A1 (en) * 2012-12-29 2014-07-03 Nicholas M. Manuselis System and method for dual screen language translation
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073061A (ja) * 2000-09-05 2002-03-12 Matsushita Electric Ind Co Ltd 音声認識装置及びその方法
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
US20140188455A1 (en) * 2012-12-29 2014-07-03 Nicholas M. Manuselis System and method for dual screen language translation
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022171300A (ja) * 2021-04-30 2022-11-11 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム
JP7482459B2 (ja) 2022-09-05 2024-05-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Also Published As

Publication number Publication date
JP7223561B2 (ja) 2023-02-16

Similar Documents

Publication Publication Date Title
EP3614377B1 (en) Object recognition method, computer device and computer readable storage medium
EP2911149B1 (en) Determination of an operational directive based at least in part on a spatial audio property
US7684985B2 (en) Techniques for disambiguating speech input using multimodal interfaces
US9293134B1 (en) Source-specific speech interactions
US11238852B2 (en) Speech translation device, speech translation method, and recording medium therefor
US9494683B1 (en) Audio-based gesture detection
KR20150093482A (ko) 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
JP2017117371A (ja) 制御方法、制御装置およびプログラム
KR20160014297A (ko) 전자 장치 및 이의 제어 방법
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
EP3540565A1 (en) Control method for translation device, translation device, and program
US11076219B2 (en) Automated control of noise reduction or noise masking
CN107945806B (zh) 基于声音特征的用户识别方法及装置
US11182567B2 (en) Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
JP7223561B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
WO2017166495A1 (zh) 一种语音信号处理方法及装置
CN110335589B (zh) 语音翻译装置、语音翻译方法及记录介质
JP2006251061A (ja) 音声対話装置および音声対話方法
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
JP7171402B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2018022086A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JP2020024310A (ja) 音声処理システム及び音声処理方法
KR102114102B1 (ko) 뉴럴 네트워크를 통한 음성 증폭 시스템
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R151 Written notification of patent or utility model registration

Ref document number: 7223561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151