JP2019174785A

JP2019174785A - 音源方向推定装置、音源方向推定方法及びそのプログラム

Info

Publication number: JP2019174785A
Application number: JP2018227318A
Authority: JP
Inventors: 亘平林田; Kohei Hayashida; 丈郎金森; Takeo Kanamori
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2018-03-29
Filing date: 2018-12-04
Publication date: 2019-10-10
Anticipated expiration: 2038-12-04
Also published as: JP7079189B2

Abstract

【課題】演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を提供する。【解決手段】マイクロホンアレイ部２０により取得された音響信号から、マイクペア間の位相差である第１位相差を計算する位相差計算部１１と、位相差データベース部１３に予め計算されて保持された方向毎の位相差である第２位相差と、計算された第１位相差との類似度を計算する類似度計算部１２と、類似度計算部１２により計算される類似度が最大となる方向を探索し、探索した方向を音源方向と推定するピーク探索部１４と、計算された類似度と推定された音源方向と取得された音響信号から得られる音響特徴量とを用いて、音響特徴量を補正した特徴量を算出する特徴量算出部１５と、特徴量算出部１５により算出された特徴量を用いて、取得された音響信号が音声を示すか否かを判別する音声／非音声判別部１６と、を備える。【選択図】図５

Description

本開示は、音源方向推定装置、音源方向推定方法及びそのプログラムに関する。

異なる言語を話す話者が意思の疎通を図るためのツールとして、一方の話者の音声を他方の話者の言語に翻訳することを相互に行う音声翻訳装置がある。しかし、このような音声翻訳装置では、騒しい環境などの雑音環境下では、雑音の影響で話者の音声を正しく認識できず、正しく翻訳できない場合がある。

例えば特許文献１には雑音環境下において話者の音声を高品質に得るため、話者の方向を推定し、話者方向以外の雑音を抑圧することで、音声を高品質に抽出する技術について開示されている。

特開２００２−１８６０８４号公報

しかしながら、特許文献１に開示される技術では、話者方向を推定した上で雑音抑圧処理を実行するため、演算量が増大してしまう。

本開示は、上述の事情を鑑みてなされたもので、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置、音源方向推定方法及びそのプログラムを提供することを目的とする。

本開示の一態様に係る音源方向推定装置は、２以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する位相差計算部と、位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第２位相差と、前記位相差計算部により計算された前記第１位相差との類似度を計算する類似度計算部と、前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置等を実現できる。

図１は、実施の形態における音声翻訳装置の外観の一例を示す図である。図２は、実施の形態における音声翻訳装置の使用場面の一例を示す図である。図３は、実施の形態における音声翻訳装置の使用場面の一例を示す図である。図４Ａは、実施の形態における音声翻訳装置を利用するユーザの位置関係について示す図である。図４Ｂは、実施の形態における音声翻訳装置を利用するユーザの位置関係について示す図である。図５は、実施の形態における音源方向推定装置の構成の一例を示す図である。図６は、図５に示す特徴量算出部の詳細構成の一例を示す図である。図７は、実施の形態における特徴量算出部の詳細構成の一例を示す図である。図８は、図７に示す次元圧縮部が用いるフィルタバンクの一例を示す図である。図９は、図５に示す音声／非音声判別部が用いるニューラルネットワークの概観構成の一例を示す図である。図１０は、実施の形態における音源方向推定装置が行う動作処理を示すフローチャートである。図１１は、実施の形態の変形例１における音源方向推定装置の構成の一例を示す図である。図１２は、実施の形態の変形例２における音源方向推定装置の構成の一例を示す図である。

この構成により、音源方向を推定する処理で得られる結果を用いて音響特徴量を補正して得た特徴量を用いることで、音響特徴量を用いる場合と比較して、演算量の増加を抑制しつつ、雑音環境下でも精度よく当該音響信号が音声を示すかを判定できる。つまり、この構成によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を実現できる。

ここで、例えば、さらに、前記類似度計算部により計算される前記類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する時間平均計算部を備え、前記ピーク探索部は、前記類似度が最大となる方向として、前記時間平均計算部により計算される前記時間平均類似度が最大となる方向を探索するとしてもよい。

これにより、時間平均した類似度から音源方向を推定することで、発話者の方向（以降発話方向と称する）を、音源方向としてより確実に推定できる。このため、音響信号が音声を示す場合には音声の特徴がより反映された特徴量を用いることができるので、雑音環境下での音声判別の精度をより向上することができる。

また、例えば、前記音声判別部は、複数層からなるニューラルネットワークを用いて、前記特徴量算出部により算出された前記特徴量から、前記マイクロホンアレイ部により取得された音響信号が音声を示すか否かを判別するとしてもよい。

この構成によれば、ニューラルネットワークを、音響特徴量を補正して得た特徴量の、雑音環境に応じた膨大なパターンに対する音声判別を精度よく学習させることができるので、雑音環境下での音声判別の精度をより向上することができる。

また、例えば、前記特徴量算出部は、前記音響特徴量を、前記類似度計算部により計算される前記類似度で、前記ピーク探索部が推定する前記音源方向に近いほど大きい値となるよう重み付けし、重み付けした前記音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした前記音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、前記特徴量として算出するとしてもよい。

これにより、演算量の増加をより抑制しつつ、雑音環境下での音声判別を精度よく行うことができる。

また、例えば、さらに、前記マイクロホンアレイ部により取得された前記音響信号が音声を示していると前記音声判別部により判定されている所定期間において、前記ピーク探索部により推定される複数の前記音源方向の度数を計算し、計算した前記度数のうち閾値より大きい度数に対応する前記音源方向を、前記音源方向推定装置が真に推定する音源方向として出力する度数分布計算部を備えるとしてもよい。

これにより、発話方向を、音源方向としてより確実に推定できる。

また、本開示の一態様に係る音源方向推定方法は、２以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する位相差計算ステップと、位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第２位相差と、前記位相差計算ステップにおいて計算された前記第１位相差との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、を含む。

また、本開示の一態様に係るプログラムは、た場合の前記方向毎の位相差である第２位相差と、前記位相差計算ステップにおいて計算された前記第１位相差との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、をコンピュータに実行させる。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭ等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。

以下、本開示の一態様に係る音源方向推定装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
《概要》
図１は、本実施の形態における音声翻訳装置１の外観の一例を示す図である。図２及び図３は、本実施の形態における音声翻訳装置１の使用場面の一例を示す図である。

音声翻訳装置１は、第１言語で発話する第１話者５１と、第２言語で発話する第２話者５２との間の会話を翻訳する装置である。つまり、音声翻訳装置１は、異なる言語の２人の話者により使用され、双方向に翻訳する装置である。このような音声翻訳装置１は、例えばカードのような長尺状の形状で構成され、タブレットなど１つの携帯端末で実現される。音声翻訳装置１は、図１に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイ部２０と、翻訳結果をテキストとして表示するディスプレイ３０とを備えている。

図１では、第１言語として日本語を話す第１話者５１が左側に位置し、第２言語として英語を話す第２話者５２が右側に位置して、音声翻訳装置１を横並びで使用しながら会話する例が示されている。

日本語を話す第１話者５１が発話する場合、第１話者５１は「日本語」と表示されたボタン３１を押して発話する。ここで、例えば、第１話者５１は、「日本語」と表示されたボタン３１を押下後、例えば「東京駅は何処ですか？」と発話したとする。この場合、図２に示すように、ディスプレイ３０の左側領域に、日本語の認識結果である「東京駅は何処ですか？」が示され、ディスプレイ３０の右側領域に、音声翻訳装置１による英語の翻訳結果である「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」が示される。本実施の形態では、音声翻訳装置１から見て第１話者５１が位置する方向である収音方向６１に収音の指向性が制御される。両矢印で示される収音方向６１の範囲は、音源方向として推定された第１話者５１の方向に応じて変更されてもよい。これにより、雑音環境下でも音声判別を精度よく行うことができるので、音声翻訳装置１は、第１話者５１の音声を正しく音声認識できるようになり正しく翻訳できるようになる。

同様に、英語を話す第２話者５２が発話する場合、第２話者５２は「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押して発話する。ここで、例えば、第２話者５２は、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２を押下後、例えば「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」と発話したとする。この場合、図３に示すように、ディスプレイ３０の右側領域に、英語の認識結果である「ＷｈｅｒｅｉｓＴｏｋｙｏＳｔａｔｉｏｎ？」が示され、ディスプレイ３０の左側領域に、音声翻訳装置１による日本語の翻訳結果である「東京駅は何処ですか？」が示される。本実施の形態では、音声翻訳装置１から見て第２話者５２が位置する方向である収音方向６２に収音の指向性が制御される。両矢印で示される収音方向６２の範囲は、音源方向として推定された第２話者５２の方向に応じて変更されてもよい。これにより、雑音環境下でも音声判別を精度よく行うことができるので、音声翻訳装置１は、第２話者５２の音声を正しく音声認識できるようになり正しく翻訳できるようになる。

このように、音声翻訳装置１は、第１言語と第２言語のうち、どちらの言語からどちらの言語に翻訳するかを、ユーザによるボタン操作等を受けて切り替えることができる。より具体的には、音声翻訳装置１は、ユーザによるボタン操作等を受けた時、マイクロホンアレイ部２０を用いて話者方向を推定し、推定した話者方向に指向性を制御することで収音方向６１及び収音方向６２を切り替える。これにより、音声翻訳装置１は、話者の音声を高音質に抽出することができるので、より正しく音声認識できるようになり正しく翻訳できるようになる。ここで、音声翻訳装置１は、収音方向６１及び収音方向６２を切り替えるとともに、推定した話者方向を含む所定の方向範囲に切り替えた収音方向６１または収音方向６２を絞ってもよい。また、音声翻訳装置１は、ボタン３１及びボタン３２のうちのどちらがボタン操作されたかにかかわらず、推定した話者方向に応じてどちらの言語からどちらの言語に翻訳するかを切り替えてもよい。

なお、本実施の形態における音声翻訳装置１が有するディスプレイ３０は、長尺状の形状である。このディスプレイ３０は、縦向きまたは横向きにされた状態で用いられる。

図４Ａ及び図４Ｂは、本実施の形態における音声翻訳装置１を利用するユーザの位置関係について示す図である。図１〜図３と同様の要素には同一の符号を付しており、詳細な説明を省略する。

図４Ａに示すように、ユーザすなわち第１話者５１及び第２話者５２が、横並びの状態で音声翻訳装置１を利用する場合、ディスプレイ３０を横向きにした状態で利用する。一方、図４Ｂに示すように、ユーザすなわち第１話者５１及び第２話者５２が、対面する状態で音声翻訳装置１を利用する場合、ディスプレイ３０を縦向きにした状態で利用する。この場合、「日本語」と表示されたボタン３１ａは第１話者５１に向けて表示され、「Ｅｎｇｌｉｓｈ」と表示されたボタン３２ａは第２話者５２に向けて表示される。また、音声翻訳装置１は、マイクロホンアレイ部２０の指向性を制御することで、収音方向６１ａを第１話者５１に向け、収音方向６２ａを第２話者５２に向ける。

《装置構成》
図５は、本実施の形態における音源方向推定装置１０の構成の一例を示す図である。

音源方向推定装置１０は、上述した音声翻訳装置１に搭載されて機能してもよい。音源方向推定装置１０は、図５に示すように、位相差計算部１１と、位相差データベース部１２と、類似度計算部１３と、ピーク探索部１４と、特徴量算出部１５と、音声／非音声判別部１６とを備える。音源方向推定装置１０は、さらに、マイクロホンアレイ部２０を備えるとしてもよい。つまり、音源方向推定装置１０がマイクロホンアレイ部２０を備えることは必須ではない。

［マイクロホンアレイ部２０］
マイクロホンアレイ部２０は、音響信号を取得する。より具体的には、マイクロホンアレイ部２０は、互いに離間して配置された２以上のマイクロホンユニットから構成され、音波を収音し、収音した音波を電気信号に変換した音響信号を取得する。なお、マイクロホンアレイ部２０は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部２０は音源方向推定装置１０に装着されることで機能する。

本実施の形態では、マイクロホンアレイ部２０は、例えばＭ個（Ｍは２以上の自然数）のマイクロホンユニットから構成される。第ｍ番目のマイクロホンユニットは、収音した音波を電気信号に変換した音響信号ｘ_ω、ｍを取得する。ここで、ωは離散周波数を表し、音響信号ｘ_ω、ｍは、（式１）のように表すことができる。｜ｘ_ω、ｍ｜は音響信号ｘ_ω、ｍの振幅を表し、ｅｘｐ（―ｊωτ_ｍ）は遅延τ_ｍでの音響信号ｘ_ω、ｍの位相を表す。

ｘ_ω、ｍ＝｜ｘ_ω、ｍ｜・ｅｘｐ（―ｊωτ_ｍ）・・・（式１）

［位相差計算部１１］
位相差計算部１１は、マイクロホンアレイ部２０により取得された音響信号から、２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する。

本実施の形態では、位相差計算部１１は、マイクロホンアレイ部２０で取得した音響信号から、マイクペア間すなわち音響信号間の位相差を示す第１相関行列（Ｒ_ω）を計算する。より具体的には、位相差計算部１１は、下記の（式２）で表される、マイクロホンアレイ部２０が取得する音響信号ｘ_ωが周波数領域に変換された信号Ｘ_ωの位相Ａωを用いて、下記の（式３）で第１相関行列Ｒ_ωを計算する。（式３）においてＨは複素共役転置を表す。

第１相関行列Ｒ_ωの各要素は、各マイクロホンユニットに到来する実環境に存在する音波の位相差情報が蓄えられたものに相当する。

［位相差データベース部１２］
位相差データベース部１２は、予め計算されたマイクロホンアレイ部２０のマイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の方向毎の位相差である第２位相差を保持する。位相差データベース部１２は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはメモリ等で構成される。

本実施の形態では、位相差データベース部１２は、マイクロホンアレイ部２０のアレイ配列から算出された方向別の相関行列である複数の第２相関行列を予め記憶する。より具体的には、位相差データベース部１２には、ある方向に音源が存在すると仮定した場合に、マイクロホンアレイ部２０のマイクペア間での音波の位相差関係を示す方向ベクトルが予め計算されて記憶されている。なお、方向ベクトルは、マイクロホンアレイ部２０を配置した筐体による音波の反射及び回折などの影響を考慮するため、実際の筐体を使用して計測して求めてもよい。例えば、まず全周波数帯域に成分を持つ白色雑音などの音源Ｓを用意する。次に、マイクロホンアレイ部２０で収音し、周波数領域に変換された信号Ｓ_ｍを取得する。そして、下記の（式４）及び（式５）を用いて、音源方向が水平角θ、仰角φの場合の筺体の影響が考慮された方向ベクトルｄ_ω（θ，φ）を計算すればよい。

ここで、Ｓ_ω，ｌ、Ｓ_{ω，ｍ，ｌ}（θ，φ）はそれぞれｌフレーム目の音源Ｓ、第ｍ番目のマイクロホンユニットで収音し周波数領域に変換された信号を表す。また、Ｌは平均化に用いるフレーム数を表す。音源方向（θ，φ）のうち、方向θは水平方向を表し、方向φは仰角方向を表す。

なお、方向θは、音声翻訳装置１のディスプレイ３０を横向きにした状態で使用されるときには、０°〜１８０°であればよいし、音声翻訳装置１のディスプレイ３０を縦向きにした状態で使用されるときには、０°〜３６０°であればよい。つまり、上記の所定の方向範囲内は、０°〜１８０°であってもよいし、０°〜３６０°であってもよい。方向φは例えば１０,２０または３０°であってもよい。

［類似度計算部１３］
類似度計算部１３は、位相差データベース部１２に保持された第２位相差と、位相差計算部１１により計算された第１位相差との類似度を計算する。なお、類似度計算部１３は、類似度の平均をさらに計算して用いてもよい。

本実施の形態では、類似度計算部１３は、位相差データベース部１２に保持されている方向ベクトルｄ_ω（θ，φ）と、位相差計算部１１により計算された第１相関行列Ｒ_ωとの類似度である空間スペクトルＰ_ω（θ，φ）を計算する。より具体的には、類似度計算部１３は、音源方向（θ，φ），周波数ωにおける空間スペクトルＰ_ω（θ，φ）を下記の（式６）を用いて計算する。

なお、音源方向（θ，φ）が音源方向の真値と一致した場合、空間スペクトルＰ_ω（θ，φ）は大きな値となる。

したがって、類似度計算部１３は、音源の存在が想定される全ての音源方向について、方向推定の対象となる音源が成分を持つ周波数帯域で空間スペクトルＰ_ω（θ，φ）の計算を行う。

そして、類似度計算部１３は、周波数毎に計算した空間スペクトルＰ_ω（θ，φ）の平均である平均空間スペクトルを、下記の（式７）を用いて計算する。

ここで、｛ω_ｋ：ｋ＝１、…、Ｎ_ω｝は平均化を行う離散周波数を表し、ｗ_ｋは周波数重みを表す。離散周波数は例えば３００Ｈｚ〜３３００Ｈｚの間で設定される。周波数重みは、例えば３００Ｈｚ〜３３００Ｈｚのうちの例えば１００Ｈｚを重視して使うことを意味する。このため、ｗ_ｋは、方向推定の対象とする音源（音声）の特性に応じて設定される。

［ピーク探索部１４］
ピーク探索部１４は、類似度計算部１３により計算される類似度が最大となる方向を探索し、探索した方向を音源方向と推定する。

本実施の形態では、ピーク探索部１４は、下記の（式８）に示すように、平均空間スペクトル

が最大となる音源方向の探索を行う。

探索結果として、ピーク探索部１４は、平均空間スペクトル

が最大となる音源方向

を得る。

［特徴量算出部１５］
図６は、図５に示す特徴量算出部１５の詳細構成の一例を示す図である。

特徴量算出部１５は、類似度計算部１３により計算される類似度と、ピーク探索部１４が推定する音源方向と、マイクロホンアレイ部２０により取得された音響信号から得られる音響特徴量とを用いて、音響特徴量を補正した特徴量を算出する。

本実施の形態では、特徴量算出部１５は、図６に示すように音響特徴量計算部１５１と、補正部１５２とを備える。

音響特徴量計算部１５１は、マイクロホンアレイ部２０が取得した音響信号から、音響特徴量を計算する。より具体的には、音響特徴量計算部１５１は、マイクロホンアレイ部２０が取得した音響信号ｘ_ｍを周波数領域に変換する計算を行い、周波数領域に変換した信号を音響特徴量Ｘ_ω,mとして得る。

補正部１５２は、ピーク探索部１４が推定する音源方向に基づく重みで、音響特徴量計算部１５１により計算された音響特徴量を補正した特徴量を計算する。より具体的には、補正部１５２は、音響特徴量を、類似度計算部１３により計算される類似度で、ピーク探索部１４が推定する音源方向に近いほど大きい値となるよう重み付けする。補正部１５２は、下記の（式９）で示すように、ピーク探索部１４が推定する音源方向が代入された類似度を、重みとして、音響特徴量Ｘ_ｌ,ωを補正した特徴量Ｓ_ｌ，ｗを計算する。

ここで、ｌは、時間フレームを表す。時間フレームを導入するのは、短い時間だと音声の特徴がよく現れないため、一定の時間で平均化するためである。

類似度

の値は、雑音の影響が大きいと小さくなる。このため、（式９）では、雑音の影響が大きい周波数を小さく重み付けしている。これにより、後述する音声／非音声判別部１６の判別精度が向上する。

なお、上記の特徴量Ｓ_ｌ，ｗを用いて音声／非音声判別部１６が判別処理を行うには演算量を要するので、演算量を抑制するために、特徴量Ｓ_ｌ，ｗを軽量化したものを特徴量としてもよい。以下、この場合について説明する。

図７は、本実施の形態における特徴量算出部１５Ａの詳細構成の一例を示す図である。図６と同様の要素には同一の符号を付しており、詳細な説明は省略する。図８は、図７に示す次元圧縮部１５３が用いるフィルタバンクの一例を示す図である。

特徴量算出部１５Ａは、図７に示すように音響特徴量計算部１５１と、補正部１５２と、次元圧縮部１５３と、特徴量抽出部１５４とを備える。図７に示す特徴量算出部１５Ａは、図６に示す特徴量算出部１５に対して、次元圧縮部１５３及び特徴量抽出部１５４の構成が追加されている。

次元圧縮部１５３は、補正部１５２により重み付けされた音響特徴量の次元をメルフィルタバンクを用いて圧縮する。より具体的には、次元圧縮部１５３は、下記の（式１０）及び（式１１）で示されるフィルタバンクを、補正部１５２が計算した特徴量Ｓ_ｌ，ｗに適用することで特徴量Ｓ_ｌ，ｗの次元を圧縮する。

ここで、ｊは、フィルタバンクの次数を表し、ａ_ｊ，ｋはｊ次元目のフィルタバンクに対応する窓関数を表す。本実施の形態では、次元圧縮部１５３は、図８に示す７次元のメルフィルタバンクを用いて、補正部１５２が計算した特徴量Ｓ_ｌ，ｗの次元を７次元に圧縮する。

特徴量抽出部１５４は、圧縮した重み付けした音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、特徴量として算出する。より具体的には、特徴量抽出部１５４は、音声の時間的な変動を反映させるため、時系列で差分を取り、特徴量とする。すなわち、特徴量抽出部１５４は、計算したフィルタバンク出力と、過去の離散的な複数の時点に計算したフィルタバンク出力との時系列差分Ｄ_ｌを計算し、計算した時系列差分Ｄ_ｌを特徴量とする。ここで、フィルタバンク出力とは、（式１０）に示されるＣ_ｌであり、フィルタバンクが適用されて次元が圧縮された特徴量Ｓ_ｌ，ｗである。

本実施の形態では、特徴量抽出部１５４は、例えば下記の（式１２）に示すように、時系列上で飛び飛びの過去の６時点において計算したフィルタバンク出力との時系列差分Ｄ_ｌを計算し特徴量Ｄ_ｌとしている。

なお、ここでのフィルタバンク出力は、７次元であるので特徴量Ｄ_ｌは４２次元となる。また、「あ」など音素１つの平均発話長が数百ｍｓｅｃ程度のため、時間フレームを最大３２フレーム（標本化周波数１６０００Ｈｚ、フレーム長８ｍｓｅｃで２５６ｍｓｅｃ間隔）としている。

このように、特徴量算出部１５Ａは、音響特徴量を、類似度計算部１３により計算される類似度で、ピーク探索部１４が推定する音源方向に近いほど大きい値となるよう重み付けする。さらに、特徴量算出部１５Ａは、重み付けした音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、特徴量として算出する。換言すると、特徴量算出部１５Ａは、フィルタバンクを用いて特徴量Ｓ_ｌ，ｗの次元を圧縮しつつも、音声の時間的な変動を反映させた特徴量Ｄ_ｌを算出する。

そして、算出した特徴量Ｄ_ｌは、後述する音声／非音声判別部１６の音声判別処理に用いられる。

［音声／非音声判別部１６］
音声／非音声判別部１６は、音声判別部の一例であり、特徴量算出部１５、１５Ａにより算出された特徴量を用いて、マイクロホンアレイ部２０により取得された音響信号が音声を示すか否かを判別する。音声／非音声判別部１６は、複数層からなるニューラルネットワークを用いて、特徴量算出部１５、１５Ａにより算出された特徴量から、マイクロホンアレイ部２０により取得された音響信号が音声を示すか否かを判別してもよい。

本実施の形態では、音声／非音声判別部１６は、特徴量算出部１５Ａにより算出された特徴量Ｄ_ｌを入力として、例えば図９に示すニューラルネットワークを用いて、マイクロホンアレイ部２０により取得された音響信号が音声を示すか否かを判別する。

図９は、図５に示す音声／非音声判別部１６が用いるニューラルネットワークの概観構成の一例を示す図である。図９に示すニューラルネットワークは、入力層と、３層の全結合層からなる中間層と、全結合層からなる出力層とから構成されており、活性化関数にＲｅＬＵを用いている。

活性化関数にＲｅＬＵを用いたｆ層目のニューラルネットワークの出力Ｚ_ｆは、下記の（式１３）により計算される。

（式１３）において、Ｗ_ｆと、ｂ_ｆとは、ｆ層目（ｆ＝１，…，Ｆ，）のニューラルネットワークの重み係数とバイアス項とをそれぞれ表す。

ここで、図９に示すニューラルネットワークには特徴量Ｄ_ｌが入力されるため、０層目すなわち入力層Ｚ_０の出力はＤ_ｌである。また、図９に示すニューラルネットワークの出力層は、２次元（２つのユニット）からなり、それぞれが音声または非音声を判別結果として出力する。つまり、図９に示すニューラルネットワークでは、１方の出力層ｚ_４（１）は（式１４）に示すように音声が入力された場合１を、非音声が入力された場合０を出力するように、他方の出力層ｚ_４（２）は（式１５）に示すように音声が入力された場合０を、非音声が入力された場合１を出力するように、学習されている。

なお、音声／非音声判別部１６が判別処理を行うために用いるニューラルネットワークは図９に示すものに限らない。プーリング層をさらに有していてもよいし、他の構成からなる複数の中間層で構成されていてもよいし、上記の（式１４）、（式１５）に示す出力がされるように学習できるのであれば、中間層及び出力層の構成はどのような態様でも構わない。

［音源方向推定装置１０の動作］
以上のように構成される音源方向推定装置１０が行う動作処理について説明する。

図１０は、本実施の形態における音源方向推定装置１０が行う動作処理を示すフローチャートである。

まず、音源方向推定装置１０は、マイクロホンアレイ部２０で取得した音響信号から第１位相差を計算する（Ｓ１０）。より具体的には、音源方向推定装置１０は、２以上のマイクロホンユニットから構成されるマイクロホンアレイ部２０により取得された音響信号から、２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する。

次に、音源方向推定装置１０は、計算した第１位相差と、保持している第２位相差との類似度を計算する（Ｓ１１）。より具体的には、音源方向推定装置１０は、位相差データベース部１２に保持された、予め計算されたマイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の方向毎の位相差である第２位相差と、ステップＳ１０において計算された第１位相差との類似度を計算する。

次に、音源方向推定装置１０は、ステップＳ１１で計算した類似度が最大となる方向を探索する（Ｓ１２）。より具体的には、音源方向推定装置１０は、ステップＳ１１において計算された類似度が最大となる方向を探索し、探索した方向を音源方向と推定する。

次に、音源方向推定装置１０は、計算した類似度と探索した音源方向とを用いて、マイクロホンアレイ部２０で取得した音響信号から特徴量を算出する（Ｓ１３）。より具体的には、音源方向推定装置１０は、ステップＳ１１において計算される類似度と、ステップＳ１２において推定される音源方向と、マイクロホンアレイ部により取得された音響信号から得られる音響特徴量とを用いて、当該音響特徴量を補正した特徴量を算出する。

次に、音源方向推定装置１０は、ステップＳ１３で算出した特徴量を用いて、音声か否かを判別する（Ｓ１４）。より具体的には、音源方向推定装置１０は、ステップＳ１３において算出された特徴量を用いて、マイクロホンアレイ部２０により取得された音響信号が音声を示すか否かを判別する。

ステップＳ１４において、音源方向推定装置１０は、音声を判別した場合（Ｓ１４で音声）、ステップＳ１２で探索した音源方向が話者方向であるとして出力する（Ｓ１５）。

一方、ステップＳ１４において、音源方向推定装置１０は、音声ではないことすなわち非音声を判別した場合（Ｓ１４で非音声）、ステップＳ１０に戻る。

［効果］
以上のように、本実施の形態の音源方向推定装置１０によれば、音源方向を推定する処理で得られる結果を用いて音響特徴量を補正すること特徴量を得る。そして、この特徴量を音声判別に用いることにより、音響特徴量を音声判別に用いる場合と比較して、演算量の増加を抑制しつつ、雑音環境下でも精度よく当該音響信号が音声を示すかを判定できる。つまり、本実施の形態の音源方向推定装置１０によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を実現できる。

ここで、音源方向推定装置１０は、さらに、算出した特徴量にフィルタバンクを用いることで、算出した特徴量の次元を圧縮し、その後、音声の時間的な変動を反映させた特徴量を算出してもよい。これにより、演算量の増加をより抑制しつつ、雑音環境下での音声判別を精度よく行うことができる。

また、音源方向推定装置１０は、複数層からなるニューラルネットワークを用いて、算出した特徴量から、マイクロホンアレイ部２０により取得された音響信号が音声を示すか否かを判別してもよい。これにより、ニューラルネットワークに、音響特徴量を補正して得た特徴量の、雑音環境に応じた膨大なパターンに対する音声判別を精度よく学習させることができるので、雑音環境下での音声判別の精度をより向上することができる。

以上のように、音源方向推定装置１０は、騒しい環境などの雑音環境下でも、音声判別を精度よく行えるので、音声判別時の音源方向すなわち話者方向を音源方向としてより確実に推定できる。これにより、音源方向推定装置１０を搭載した音声翻訳装置１は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置１０を搭載した音声翻訳装置１は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。

（変形例１）
図１１は、本実施の形態の変形例１における音源方向推定装置１０Ａの構成の一例を示す図である。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音源方向推定装置１０Ａは、図５に示す音源方向推定装置１０に対して、度数分布計算部１７が追加されている点で構成が異なる。

［度数分布計算部１７］
度数分布計算部１７は、マイクロホンアレイ部により取得された音響信号が音声を示していると音声／非音声判別部１６により判定されている所定期間において、ピーク探索部１４により推定される複数の音源方向の度数を計算する。度数分布計算部１７は、計算した度数のうち閾値より大きい度数に対応する音源方向を、音源方向推定装置１０Ａが真に推定する音源方向として出力する。

本変形例では、度数分布計算部１７は、連続する時刻においてピーク探索部１４により探索される、類似度が最大となる音源方向から、音源方向における度数すなわちヒストグラムを計算する。より具体的には、度数分布計算部１７は、Ｌフレーム分の音響信号における平均空間スペクトル

が最大となる音源方向

から、探索する音源方向（θ，φ）におけるヒストグラムｈ（θ，φ）を下記の（式１６）及び（式１７）を用いて計算する。

ここで、

は、時間フレームｌにおける音源方向を表す。Ｐ_ｔｈは、空間スペクトルの閾値を表す。

度数分布計算部１７は、（式１６）及び（式１７）に示されるように、平均空間スペクトル

が閾値Ｐ_ｔｈよりも大きく、かつ、出力層ｚ_４（１）の出力が閾値Ｚ_ｔｈよりも大きく音声と判別された時間フレームでの

を用いて、ヒストグラムｈ（θ，φ）を計算する。そして、度数分布計算部１７は、下記の（式１８）に示すように、ヒストグラムｈ（θ，φ）の値が閾値Ｌ_ｔｈよりも大きくなった時に、その時の方向を、音源方向推定装置１０Ａが真に推定する音源方向

と確定する。

なお、度数分布計算部１７は、ヒストグラムｈ（θ，φ）の値が閾値Ｌ_ｔｈを超えない場合、音源方向推定装置１０Ａが推定する音源方向を確定せず不定とすればよい。

［効果］
以上のように、本変形例の音源方向推定装置１０Ａによれば、音声と判別されている期間においてピーク探索部１４により探索された複数の音源方向のヒストグラムを計算することで、発話者の方向である発話方向を、音源方向としてより確実に推定できる。

これにより、音源方向推定装置１０Ａを搭載した音声翻訳装置１は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置１０を搭載した音声翻訳装置１は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。

（変形例２）
図１２は、本実施の形態の変形例２における音源方向推定装置１０Ｂの構成の一例を示す図である。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

音源方向推定装置１０Ｂは、図５に示す音源方向推定装置１０に対して、時間平均計算部１８が追加されており、ピーク探索部１４Ｂの構成が異なる。以下、異なる点を中心に説明する。

［時間平均計算部１８］
時間平均計算部１８は、類似度計算部１３により計算される類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する。つまり、本変形例では、時間平均計算部１８は、類似度計算部１３により計算される類似度における一定の時間毎の平均を計算する。

短い時間における第１位相差には、音声中の無音時間の位相を反映してしまう場合もある。つまり、この場合、音声区間の一部についての音声判別処理にもかかわらず音声と判別されず、音声判別の精度を損ねるおそれがある。

これに対して、音声は比較的長時間発生する傾向がある上、発話者は、周囲の騒音と比べると、音源方向推定装置１０Ａの近くに存在し、かつ、特定の方向から発話する。このため、時間平均類似度を用いると、第１位相差には無音を含む音声時間が反映されるので、音声区間についての音声判別の精度が向上する。

［ピーク探索部１４Ｂ］
ピーク探索部１４Ｂは、類似度が最大となる方向として、時間平均計算部１８により計算される時間平均類似度が最大となる方向を探索する。

［効果］
以上のように、本変形例２の音源方向推定装置１０Ｂによれば、時間平均類似度を用いて、音声と判別されたときの音源方向を、発話者の方向である発話方向として推定するので、より確実に発話方向を推定できる。

これにより、音源方向推定装置１０Ｂを搭載した音声翻訳装置１は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置１０Ｂを搭載した音声翻訳装置１は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。

以上、本開示の一つまたは複数の態様に係る音源方向推定装置等について、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。

（１）上記の音源方向推定装置等は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の音源方向推定装置等を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の音源方向推定装置等を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

本開示は、異なる言語を話す話者が意思の疎通を図るためのツールとして用いられる音声翻訳装置などに用いられる方向推定装置、方向推定方法及びそのプログラムに利用できる。

１音声翻訳装置
１０、１０Ａ、１０Ｂ音源方向推定装置
１１位相差計算部
１２位相差データベース部
１３類似度計算部
１４、１４Ｂピーク探索部
１５、１５Ａ特徴量算出部
１６音声／非音声判別部
１７度数分布計算部
１８時間平均計算部
２０マイクロホンアレイ部
３１、３１ａ、３２、３２ａボタン
５１第１話者
５２第２話者
６１、６１ａ、６２、６２ａ収音方向
１５１音響特徴量計算部
１５２補正部
１５３次元圧縮部
１５４特徴量抽出部

Claims

２以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する位相差計算部と、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第２位相差と、前記位相差計算部により計算された前記第１位相差との類似度を計算する類似度計算部と、
前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、
前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える、
音源方向推定装置。
さらに、前記類似度計算部により計算される前記類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する時間平均計算部を備え、
前記ピーク探索部は、前記類似度が最大となる方向として、前記時間平均計算部により計算される前記時間平均類似度が最大となる方向を探索する、
請求項１に記載の音源方向推定装置。
前記音声判別部は、複数層からなるニューラルネットワークを用いて、前記特徴量算出部により算出された前記特徴量から、前記マイクロホンアレイ部により取得された音響信号が音声を示すか否かを判別する、
請求項１または２に記載の音源方向推定装置。
前記特徴量算出部は、前記音響特徴量を、前記類似度計算部により計算される前記類似度で、前記ピーク探索部が推定する前記音源方向に近いほど大きい値となるよう重み付けし、重み付けした前記音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした前記音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、前記特徴量として算出する、
請求項１〜３のいずれか１項に記載の音源方向推定装置。
さらに、前記マイクロホンアレイ部により取得された前記音響信号が音声を示していると前記音声判別部により判定されている所定期間において、前記ピーク探索部により推定される複数の前記音源方向の度数を計算し、計算した前記度数のうち閾値より大きい度数に対応する前記音源方向を、前記音源方向推定装置が真に推定する音源方向として出力する度数分布計算部を備える、
請求項１〜４のいずれか１項に記載の音源方向推定装置。
２以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する位相差計算ステップと、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第２位相差と、前記位相差計算ステップにおいて計算された前記第１位相差との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、を含む、
音源方向推定方法。
２以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記２以上のマイクロホンユニットにおけるマイクペア間の位相差である第１位相差を計算する位相差計算ステップと、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第２位相差と、前記位相差計算ステップにおいて計算された前記第１位相差との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、をコンピュータに実行させる、
プログラム。