JP2019174785A - 音源方向推定装置、音源方向推定方法及びそのプログラム - Google Patents

音源方向推定装置、音源方向推定方法及びそのプログラム Download PDF

Info

Publication number
JP2019174785A
JP2019174785A JP2018227318A JP2018227318A JP2019174785A JP 2019174785 A JP2019174785 A JP 2019174785A JP 2018227318 A JP2018227318 A JP 2018227318A JP 2018227318 A JP2018227318 A JP 2018227318A JP 2019174785 A JP2019174785 A JP 2019174785A
Authority
JP
Japan
Prior art keywords
sound source
phase difference
unit
calculated
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018227318A
Other languages
English (en)
Other versions
JP7079189B2 (ja
Inventor
亘平 林田
Kohei Hayashida
亘平 林田
丈郎 金森
Takeo Kanamori
丈郎 金森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to US16/368,147 priority Critical patent/US10524051B2/en
Publication of JP2019174785A publication Critical patent/JP2019174785A/ja
Application granted granted Critical
Publication of JP7079189B2 publication Critical patent/JP7079189B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を提供する。【解決手段】マイクロホンアレイ部20により取得された音響信号から、マイクペア間の位相差である第1位相差を計算する位相差計算部11と、位相差データベース部13に予め計算されて保持された方向毎の位相差である第2位相差と、計算された第1位相差との類似度を計算する類似度計算部12と、類似度計算部12により計算される類似度が最大となる方向を探索し、探索した方向を音源方向と推定するピーク探索部14と、計算された類似度と推定された音源方向と取得された音響信号から得られる音響特徴量とを用いて、音響特徴量を補正した特徴量を算出する特徴量算出部15と、特徴量算出部15により算出された特徴量を用いて、取得された音響信号が音声を示すか否かを判別する音声/非音声判別部16と、を備える。【選択図】図5

Description

本開示は、音源方向推定装置、音源方向推定方法及びそのプログラムに関する。
異なる言語を話す話者が意思の疎通を図るためのツールとして、一方の話者の音声を他方の話者の言語に翻訳することを相互に行う音声翻訳装置がある。しかし、このような音声翻訳装置では、騒しい環境などの雑音環境下では、雑音の影響で話者の音声を正しく認識できず、正しく翻訳できない場合がある。
例えば特許文献1には雑音環境下において話者の音声を高品質に得るため、話者の方向を推定し、話者方向以外の雑音を抑圧することで、音声を高品質に抽出する技術について開示されている。
特開2002−186084号公報
しかしながら、特許文献1に開示される技術では、話者方向を推定した上で雑音抑圧処理を実行するため、演算量が増大してしまう。
本開示は、上述の事情を鑑みてなされたもので、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置、音源方向推定方法及びそのプログラムを提供することを目的とする。
本開示の一態様に係る音源方向推定装置は、2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算部と、位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算部により計算された前記第1位相差との類似度を計算する類似度計算部と、前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。
本開示によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置等を実現できる。
図1は、実施の形態における音声翻訳装置の外観の一例を示す図である。 図2は、実施の形態における音声翻訳装置の使用場面の一例を示す図である。 図3は、実施の形態における音声翻訳装置の使用場面の一例を示す図である。 図4Aは、実施の形態における音声翻訳装置を利用するユーザの位置関係について示す図である。 図4Bは、実施の形態における音声翻訳装置を利用するユーザの位置関係について示す図である。 図5は、実施の形態における音源方向推定装置の構成の一例を示す図である。 図6は、図5に示す特徴量算出部の詳細構成の一例を示す図である。 図7は、実施の形態における特徴量算出部の詳細構成の一例を示す図である。 図8は、図7に示す次元圧縮部が用いるフィルタバンクの一例を示す図である。 図9は、図5に示す音声/非音声判別部が用いるニューラルネットワークの概観構成の一例を示す図である。 図10は、実施の形態における音源方向推定装置が行う動作処理を示すフローチャートである。 図11は、実施の形態の変形例1における音源方向推定装置の構成の一例を示す図である。 図12は、実施の形態の変形例2における音源方向推定装置の構成の一例を示す図である。
本開示の一態様に係る音源方向推定装置は、2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算部と、位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算部により計算された前記第1位相差との類似度を計算する類似度計算部と、前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える。
この構成により、音源方向を推定する処理で得られる結果を用いて音響特徴量を補正して得た特徴量を用いることで、音響特徴量を用いる場合と比較して、演算量の増加を抑制しつつ、雑音環境下でも精度よく当該音響信号が音声を示すかを判定できる。つまり、この構成によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を実現できる。
ここで、例えば、さらに、前記類似度計算部により計算される前記類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する時間平均計算部を備え、前記ピーク探索部は、前記類似度が最大となる方向として、前記時間平均計算部により計算される前記時間平均類似度が最大となる方向を探索するとしてもよい。
これにより、時間平均した類似度から音源方向を推定することで、発話者の方向(以降発話方向と称する)を、音源方向としてより確実に推定できる。このため、音響信号が音声を示す場合には音声の特徴がより反映された特徴量を用いることができるので、雑音環境下での音声判別の精度をより向上することができる。
また、例えば、前記音声判別部は、複数層からなるニューラルネットワークを用いて、前記特徴量算出部により算出された前記特徴量から、前記マイクロホンアレイ部により取得された音響信号が音声を示すか否かを判別するとしてもよい。
この構成によれば、ニューラルネットワークを、音響特徴量を補正して得た特徴量の、雑音環境に応じた膨大なパターンに対する音声判別を精度よく学習させることができるので、雑音環境下での音声判別の精度をより向上することができる。
また、例えば、前記特徴量算出部は、前記音響特徴量を、前記類似度計算部により計算される前記類似度で、前記ピーク探索部が推定する前記音源方向に近いほど大きい値となるよう重み付けし、重み付けした前記音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした前記音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、前記特徴量として算出するとしてもよい。
これにより、演算量の増加をより抑制しつつ、雑音環境下での音声判別を精度よく行うことができる。
また、例えば、さらに、前記マイクロホンアレイ部により取得された前記音響信号が音声を示していると前記音声判別部により判定されている所定期間において、前記ピーク探索部により推定される複数の前記音源方向の度数を計算し、計算した前記度数のうち閾値より大きい度数に対応する前記音源方向を、前記音源方向推定装置が真に推定する音源方向として出力する度数分布計算部を備えるとしてもよい。
これにより、発話方向を、音源方向としてより確実に推定できる。
また、本開示の一態様に係る音源方向推定方法は、2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算ステップと、位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、を含む。
また、本開示の一態様に係るプログラムは、た場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、をコンピュータに実行させる。
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせを用いて実現されてもよい。
以下、本開示の一態様に係る音源方向推定装置について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
《概要》
図1は、本実施の形態における音声翻訳装置1の外観の一例を示す図である。図2及び図3は、本実施の形態における音声翻訳装置1の使用場面の一例を示す図である。
音声翻訳装置1は、第1言語で発話する第1話者51と、第2言語で発話する第2話者52との間の会話を翻訳する装置である。つまり、音声翻訳装置1は、異なる言語の2人の話者により使用され、双方向に翻訳する装置である。このような音声翻訳装置1は、例えばカードのような長尺状の形状で構成され、タブレットなど1つの携帯端末で実現される。音声翻訳装置1は、図1に示すように、発話を取得する複数のマイクロホンからなるマイクロホンアレイ部20と、翻訳結果をテキストとして表示するディスプレイ30とを備えている。
図1では、第1言語として日本語を話す第1話者51が左側に位置し、第2言語として英語を話す第2話者52が右側に位置して、音声翻訳装置1を横並びで使用しながら会話する例が示されている。
日本語を話す第1話者51が発話する場合、第1話者51は「日本語」と表示されたボタン31を押して発話する。ここで、例えば、第1話者51は、「日本語」と表示されたボタン31を押下後、例えば「東京駅は何処ですか?」と発話したとする。この場合、図2に示すように、ディスプレイ30の左側領域に、日本語の認識結果である「東京駅は何処ですか?」が示され、ディスプレイ30の右側領域に、音声翻訳装置1による英語の翻訳結果である「Where is Tokyo Station?」が示される。本実施の形態では、音声翻訳装置1から見て第1話者51が位置する方向である収音方向61に収音の指向性が制御される。両矢印で示される収音方向61の範囲は、音源方向として推定された第1話者51の方向に応じて変更されてもよい。これにより、雑音環境下でも音声判別を精度よく行うことができるので、音声翻訳装置1は、第1話者51の音声を正しく音声認識できるようになり正しく翻訳できるようになる。
同様に、英語を話す第2話者52が発話する場合、第2話者52は「English」と表示されたボタン32を押して発話する。ここで、例えば、第2話者52は、「English」と表示されたボタン32を押下後、例えば「Where is Tokyo Station?」と発話したとする。この場合、図3に示すように、ディスプレイ30の右側領域に、英語の認識結果である「Where is Tokyo Station?」が示され、ディスプレイ30の左側領域に、音声翻訳装置1による日本語の翻訳結果である「東京駅は何処ですか?」が示される。本実施の形態では、音声翻訳装置1から見て第2話者52が位置する方向である収音方向62に収音の指向性が制御される。両矢印で示される収音方向62の範囲は、音源方向として推定された第2話者52の方向に応じて変更されてもよい。これにより、雑音環境下でも音声判別を精度よく行うことができるので、音声翻訳装置1は、第2話者52の音声を正しく音声認識できるようになり正しく翻訳できるようになる。
このように、音声翻訳装置1は、第1言語と第2言語のうち、どちらの言語からどちらの言語に翻訳するかを、ユーザによるボタン操作等を受けて切り替えることができる。より具体的には、音声翻訳装置1は、ユーザによるボタン操作等を受けた時、マイクロホンアレイ部20を用いて話者方向を推定し、推定した話者方向に指向性を制御することで収音方向61及び収音方向62を切り替える。これにより、音声翻訳装置1は、話者の音声を高音質に抽出することができるので、より正しく音声認識できるようになり正しく翻訳できるようになる。ここで、音声翻訳装置1は、収音方向61及び収音方向62を切り替えるとともに、推定した話者方向を含む所定の方向範囲に切り替えた収音方向61または収音方向62を絞ってもよい。また、音声翻訳装置1は、ボタン31及びボタン32のうちのどちらがボタン操作されたかにかかわらず、推定した話者方向に応じてどちらの言語からどちらの言語に翻訳するかを切り替えてもよい。
なお、本実施の形態における音声翻訳装置1が有するディスプレイ30は、長尺状の形状である。このディスプレイ30は、縦向きまたは横向きにされた状態で用いられる。
図4A及び図4Bは、本実施の形態における音声翻訳装置1を利用するユーザの位置関係について示す図である。図1〜図3と同様の要素には同一の符号を付しており、詳細な説明を省略する。
図4Aに示すように、ユーザすなわち第1話者51及び第2話者52が、横並びの状態で音声翻訳装置1を利用する場合、ディスプレイ30を横向きにした状態で利用する。一方、図4Bに示すように、ユーザすなわち第1話者51及び第2話者52が、対面する状態で音声翻訳装置1を利用する場合、ディスプレイ30を縦向きにした状態で利用する。この場合、「日本語」と表示されたボタン31aは第1話者51に向けて表示され、「English」と表示されたボタン32aは第2話者52に向けて表示される。また、音声翻訳装置1は、マイクロホンアレイ部20の指向性を制御することで、収音方向61aを第1話者51に向け、収音方向62aを第2話者52に向ける。
《装置構成》
図5は、本実施の形態における音源方向推定装置10の構成の一例を示す図である。
音源方向推定装置10は、上述した音声翻訳装置1に搭載されて機能してもよい。音源方向推定装置10は、図5に示すように、位相差計算部11と、位相差データベース部12と、類似度計算部13と、ピーク探索部14と、特徴量算出部15と、音声/非音声判別部16とを備える。音源方向推定装置10は、さらに、マイクロホンアレイ部20を備えるとしてもよい。つまり、音源方向推定装置10がマイクロホンアレイ部20を備えることは必須ではない。
[マイクロホンアレイ部20]
マイクロホンアレイ部20は、音響信号を取得する。より具体的には、マイクロホンアレイ部20は、互いに離間して配置された2以上のマイクロホンユニットから構成され、音波を収音し、収音した音波を電気信号に変換した音響信号を取得する。なお、マイクロホンアレイ部20は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部20は音源方向推定装置10に装着されることで機能する。
本実施の形態では、マイクロホンアレイ部20は、例えばM個(Mは2以上の自然数)のマイクロホンユニットから構成される。第m番目のマイクロホンユニットは、収音した音波を電気信号に変換した音響信号xω、mを取得する。ここで、ωは離散周波数を表し、音響信号xω、mは、(式1)のように表すことができる。|xω、m|は音響信号xω、mの振幅を表し、exp(―jωτ)は遅延τでの音響信号xω、mの位相を表す。
ω、m=|xω、m|・exp(―jωτ) ・・・(式1)
[位相差計算部11]
位相差計算部11は、マイクロホンアレイ部20により取得された音響信号から、2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する。
本実施の形態では、位相差計算部11は、マイクロホンアレイ部20で取得した音響信号から、マイクペア間すなわち音響信号間の位相差を示す第1相関行列(Rω)を計算する。より具体的には、位相差計算部11は、下記の(式2)で表される、マイクロホンアレイ部20が取得する音響信号xωが周波数領域に変換された信号Xωの位相Aωを用いて、下記の(式3)で第1相関行列Rωを計算する。(式3)においてHは複素共役転置を表す。
Figure 2019174785
Figure 2019174785
第1相関行列Rωの各要素は、各マイクロホンユニットに到来する実環境に存在する音波の位相差情報が蓄えられたものに相当する。
[位相差データベース部12]
位相差データベース部12は、予め計算されたマイクロホンアレイ部20のマイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の方向毎の位相差である第2位相差を保持する。位相差データベース部12は、例えばHDD(Hard Disk Drive)またはメモリ等で構成される。
本実施の形態では、位相差データベース部12は、マイクロホンアレイ部20のアレイ配列から算出された方向別の相関行列である複数の第2相関行列を予め記憶する。より具体的には、位相差データベース部12には、ある方向に音源が存在すると仮定した場合に、マイクロホンアレイ部20のマイクペア間での音波の位相差関係を示す方向ベクトルが予め計算されて記憶されている。なお、方向ベクトルは、マイクロホンアレイ部20を配置した筐体による音波の反射及び回折などの影響を考慮するため、実際の筐体を使用して計測して求めてもよい。例えば、まず全周波数帯域に成分を持つ白色雑音などの音源Sを用意する。次に、マイクロホンアレイ部20で収音し、周波数領域に変換された信号Sを取得する。そして、下記の(式4)及び(式5)を用いて、音源方向が水平角θ、仰角φの場合の筺体の影響が考慮された方向ベクトルdω(θ,φ)を計算すればよい。
Figure 2019174785
Figure 2019174785
ここで、Sω,l、Sω,m,l(θ,φ)はそれぞれlフレーム目の音源S、第m番目のマイクロホンユニットで収音し周波数領域に変換された信号を表す。また、Lは平均化に用いるフレーム数を表す。音源方向(θ,φ)のうち、方向θは水平方向を表し、方向φは仰角方向を表す。
なお、方向θは、音声翻訳装置1のディスプレイ30を横向きにした状態で使用されるときには、0°〜180°であればよいし、音声翻訳装置1のディスプレイ30を縦向きにした状態で使用されるときには、0°〜360°であればよい。つまり、上記の所定の方向範囲内は、0°〜180°であってもよいし、0°〜360°であってもよい。方向φは例えば10,20または30°であってもよい。
[類似度計算部13]
類似度計算部13は、位相差データベース部12に保持された第2位相差と、位相差計算部11により計算された第1位相差との類似度を計算する。なお、類似度計算部13は、類似度の平均をさらに計算して用いてもよい。
本実施の形態では、類似度計算部13は、位相差データベース部12に保持されている方向ベクトルdω(θ,φ)と、位相差計算部11により計算された第1相関行列Rωとの類似度である空間スペクトルPω(θ,φ)を計算する。より具体的には、類似度計算部13は、音源方向(θ,φ),周波数ωにおける空間スペクトルPω(θ,φ)を下記の(式6)を用いて計算する。
Figure 2019174785
なお、音源方向(θ,φ)が音源方向の真値と一致した場合、空間スペクトルPω(θ,φ)は大きな値となる。
したがって、類似度計算部13は、音源の存在が想定される全ての音源方向について、方向推定の対象となる音源が成分を持つ周波数帯域で空間スペクトルPω(θ,φ)の計算を行う。
そして、類似度計算部13は、周波数毎に計算した空間スペクトルPω(θ,φ)の平均である平均空間スペクトルを、下記の(式7)を用いて計算する。
Figure 2019174785
ここで、{ω:k=1、…、Nω}は平均化を行う離散周波数を表し、wは周波数重みを表す。離散周波数は例えば300Hz〜3300Hzの間で設定される。周波数重みは、例えば300Hz〜3300Hzのうちの例えば100Hzを重視して使うことを意味する。このため、wは、方向推定の対象とする音源(音声)の特性に応じて設定される。
[ピーク探索部14]
ピーク探索部14は、類似度計算部13により計算される類似度が最大となる方向を探索し、探索した方向を音源方向と推定する。
本実施の形態では、ピーク探索部14は、下記の(式8)に示すように、平均空間スペクトル
Figure 2019174785
が最大となる音源方向の探索を行う。
Figure 2019174785
探索結果として、ピーク探索部14は、平均空間スペクトル
Figure 2019174785
が最大となる音源方向
Figure 2019174785
を得る。
[特徴量算出部15]
図6は、図5に示す特徴量算出部15の詳細構成の一例を示す図である。
特徴量算出部15は、類似度計算部13により計算される類似度と、ピーク探索部14が推定する音源方向と、マイクロホンアレイ部20により取得された音響信号から得られる音響特徴量とを用いて、音響特徴量を補正した特徴量を算出する。
本実施の形態では、特徴量算出部15は、図6に示すように音響特徴量計算部151と、補正部152とを備える。
音響特徴量計算部151は、マイクロホンアレイ部20が取得した音響信号から、音響特徴量を計算する。より具体的には、音響特徴量計算部151は、マイクロホンアレイ部20が取得した音響信号xを周波数領域に変換する計算を行い、周波数領域に変換した信号を音響特徴量Xω,mとして得る。
補正部152は、ピーク探索部14が推定する音源方向に基づく重みで、音響特徴量計算部151により計算された音響特徴量を補正した特徴量を計算する。より具体的には、補正部152は、音響特徴量を、類似度計算部13により計算される類似度で、ピーク探索部14が推定する音源方向に近いほど大きい値となるよう重み付けする。補正部152は、下記の(式9)で示すように、ピーク探索部14が推定する音源方向が代入された類似度を、重みとして、音響特徴量Xl,ωを補正した特徴量Sl,wを計算する。
Figure 2019174785
ここで、lは、時間フレームを表す。時間フレームを導入するのは、短い時間だと音声の特徴がよく現れないため、一定の時間で平均化するためである。
類似度
Figure 2019174785
の値は、雑音の影響が大きいと小さくなる。このため、(式9)では、雑音の影響が大きい周波数を小さく重み付けしている。これにより、後述する音声/非音声判別部16の判別精度が向上する。
なお、上記の特徴量Sl,wを用いて音声/非音声判別部16が判別処理を行うには演算量を要するので、演算量を抑制するために、特徴量Sl,wを軽量化したものを特徴量としてもよい。以下、この場合について説明する。
図7は、本実施の形態における特徴量算出部15Aの詳細構成の一例を示す図である。図6と同様の要素には同一の符号を付しており、詳細な説明は省略する。図8は、図7に示す次元圧縮部153が用いるフィルタバンクの一例を示す図である。
特徴量算出部15Aは、図7に示すように音響特徴量計算部151と、補正部152と、次元圧縮部153と、特徴量抽出部154とを備える。図7に示す特徴量算出部15Aは、図6に示す特徴量算出部15に対して、次元圧縮部153及び特徴量抽出部154の構成が追加されている。
次元圧縮部153は、補正部152により重み付けされた音響特徴量の次元をメルフィルタバンクを用いて圧縮する。より具体的には、次元圧縮部153は、下記の(式10)及び(式11)で示されるフィルタバンクを、補正部152が計算した特徴量Sl,wに適用することで特徴量Sl,wの次元を圧縮する。
Figure 2019174785
Figure 2019174785
ここで、jは、フィルタバンクの次数を表し、aj,kはj次元目のフィルタバンクに対応する窓関数を表す。本実施の形態では、次元圧縮部153は、図8に示す7次元のメルフィルタバンクを用いて、補正部152が計算した特徴量Sl,wの次元を7次元に圧縮する。
特徴量抽出部154は、圧縮した重み付けした音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、特徴量として算出する。より具体的には、特徴量抽出部154は、音声の時間的な変動を反映させるため、時系列で差分を取り、特徴量とする。すなわち、特徴量抽出部154は、計算したフィルタバンク出力と、過去の離散的な複数の時点に計算したフィルタバンク出力との時系列差分Dを計算し、計算した時系列差分Dを特徴量とする。ここで、フィルタバンク出力とは、(式10)に示されるCであり、フィルタバンクが適用されて次元が圧縮された特徴量Sl,wである。
本実施の形態では、特徴量抽出部154は、例えば下記の(式12)に示すように、時系列上で飛び飛びの過去の6時点において計算したフィルタバンク出力との時系列差分Dを計算し特徴量Dとしている。
Figure 2019174785
なお、ここでのフィルタバンク出力は、7次元であるので特徴量Dは42次元となる。また、「あ」など音素1つの平均発話長が数百msec程度のため、時間フレームを最大32フレーム(標本化周波数16000Hz、フレーム長8msecで256msec間隔)としている。
このように、特徴量算出部15Aは、音響特徴量を、類似度計算部13により計算される類似度で、ピーク探索部14が推定する音源方向に近いほど大きい値となるよう重み付けする。さらに、特徴量算出部15Aは、重み付けした音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、特徴量として算出する。換言すると、特徴量算出部15Aは、フィルタバンクを用いて特徴量Sl,wの次元を圧縮しつつも、音声の時間的な変動を反映させた特徴量Dを算出する。
そして、算出した特徴量Dは、後述する音声/非音声判別部16の音声判別処理に用いられる。
[音声/非音声判別部16]
音声/非音声判別部16は、音声判別部の一例であり、特徴量算出部15、15Aにより算出された特徴量を用いて、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別する。音声/非音声判別部16は、複数層からなるニューラルネットワークを用いて、特徴量算出部15、15Aにより算出された特徴量から、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別してもよい。
本実施の形態では、音声/非音声判別部16は、特徴量算出部15Aにより算出された特徴量Dを入力として、例えば図9に示すニューラルネットワークを用いて、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別する。
図9は、図5に示す音声/非音声判別部16が用いるニューラルネットワークの概観構成の一例を示す図である。図9に示すニューラルネットワークは、入力層と、3層の全結合層からなる中間層と、全結合層からなる出力層とから構成されており、活性化関数にReLUを用いている。
活性化関数にReLUを用いたf層目のニューラルネットワークの出力Zは、下記の(式13)により計算される。
Figure 2019174785
(式13)において、Wと、bとは、f層目(f=1,…,F,)のニューラルネットワークの重み係数とバイアス項とをそれぞれ表す。
ここで、図9に示すニューラルネットワークには特徴量Dが入力されるため、0層目すなわち入力層Zの出力はDである。また、図9に示すニューラルネットワークの出力層は、2次元(2つのユニット)からなり、それぞれが音声または非音声を判別結果として出力する。つまり、図9に示すニューラルネットワークでは、1方の出力層z(1)は(式14)に示すように音声が入力された場合1を、非音声が入力された場合0を出力するように、他方の出力層z(2)は(式15)に示すように音声が入力された場合0を、非音声が入力された場合1を出力するように、学習されている。
Figure 2019174785
Figure 2019174785
なお、音声/非音声判別部16が判別処理を行うために用いるニューラルネットワークは図9に示すものに限らない。プーリング層をさらに有していてもよいし、他の構成からなる複数の中間層で構成されていてもよいし、上記の(式14)、(式15)に示す出力がされるように学習できるのであれば、中間層及び出力層の構成はどのような態様でも構わない。
[音源方向推定装置10の動作]
以上のように構成される音源方向推定装置10が行う動作処理について説明する。
図10は、本実施の形態における音源方向推定装置10が行う動作処理を示すフローチャートである。
まず、音源方向推定装置10は、マイクロホンアレイ部20で取得した音響信号から第1位相差を計算する(S10)。より具体的には、音源方向推定装置10は、2以上のマイクロホンユニットから構成されるマイクロホンアレイ部20により取得された音響信号から、2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する。
次に、音源方向推定装置10は、計算した第1位相差と、保持している第2位相差との類似度を計算する(S11)。より具体的には、音源方向推定装置10は、位相差データベース部12に保持された、予め計算されたマイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の方向毎の位相差である第2位相差と、ステップS10において計算された第1位相差との類似度を計算する。
次に、音源方向推定装置10は、ステップS11で計算した類似度が最大となる方向を探索する(S12)。より具体的には、音源方向推定装置10は、ステップS11において計算された類似度が最大となる方向を探索し、探索した方向を音源方向と推定する。
次に、音源方向推定装置10は、計算した類似度と探索した音源方向とを用いて、マイクロホンアレイ部20で取得した音響信号から特徴量を算出する(S13)。より具体的には、音源方向推定装置10は、ステップS11において計算される類似度と、ステップS12において推定される音源方向と、マイクロホンアレイ部により取得された音響信号から得られる音響特徴量とを用いて、当該音響特徴量を補正した特徴量を算出する。
次に、音源方向推定装置10は、ステップS13で算出した特徴量を用いて、音声か否かを判別する(S14)。より具体的には、音源方向推定装置10は、ステップS13において算出された特徴量を用いて、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別する。
ステップS14において、音源方向推定装置10は、音声を判別した場合(S14で音声)、ステップS12で探索した音源方向が話者方向であるとして出力する(S15)。
一方、ステップS14において、音源方向推定装置10は、音声ではないことすなわち非音声を判別した場合(S14で非音声)、ステップS10に戻る。
[効果]
以上のように、本実施の形態の音源方向推定装置10によれば、音源方向を推定する処理で得られる結果を用いて音響特徴量を補正すること特徴量を得る。そして、この特徴量を音声判別に用いることにより、音響特徴量を音声判別に用いる場合と比較して、演算量の増加を抑制しつつ、雑音環境下でも精度よく当該音響信号が音声を示すかを判定できる。つまり、本実施の形態の音源方向推定装置10によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を実現できる。
ここで、音源方向推定装置10は、さらに、算出した特徴量にフィルタバンクを用いることで、算出した特徴量の次元を圧縮し、その後、音声の時間的な変動を反映させた特徴量を算出してもよい。これにより、演算量の増加をより抑制しつつ、雑音環境下での音声判別を精度よく行うことができる。
また、音源方向推定装置10は、複数層からなるニューラルネットワークを用いて、算出した特徴量から、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別してもよい。これにより、ニューラルネットワークに、音響特徴量を補正して得た特徴量の、雑音環境に応じた膨大なパターンに対する音声判別を精度よく学習させることができるので、雑音環境下での音声判別の精度をより向上することができる。
以上のように、音源方向推定装置10は、騒しい環境などの雑音環境下でも、音声判別を精度よく行えるので、音声判別時の音源方向すなわち話者方向を音源方向としてより確実に推定できる。これにより、音源方向推定装置10を搭載した音声翻訳装置1は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置10を搭載した音声翻訳装置1は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。
(変形例1)
図11は、本実施の形態の変形例1における音源方向推定装置10Aの構成の一例を示す図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音源方向推定装置10Aは、図5に示す音源方向推定装置10に対して、度数分布計算部17が追加されている点で構成が異なる。
[度数分布計算部17]
度数分布計算部17は、マイクロホンアレイ部により取得された音響信号が音声を示していると音声/非音声判別部16により判定されている所定期間において、ピーク探索部14により推定される複数の音源方向の度数を計算する。度数分布計算部17は、計算した度数のうち閾値より大きい度数に対応する音源方向を、音源方向推定装置10Aが真に推定する音源方向として出力する。
本変形例では、度数分布計算部17は、連続する時刻においてピーク探索部14により探索される、類似度が最大となる音源方向から、音源方向における度数すなわちヒストグラムを計算する。より具体的には、度数分布計算部17は、Lフレーム分の音響信号における平均空間スペクトル
Figure 2019174785
が最大となる音源方向
Figure 2019174785
から、探索する音源方向(θ,φ)におけるヒストグラムh(θ,φ)を下記の(式16)及び(式17)を用いて計算する。
Figure 2019174785
Figure 2019174785
ここで、
Figure 2019174785
は、時間フレームlにおける音源方向を表す。Pthは、空間スペクトルの閾値を表す。
度数分布計算部17は、(式16)及び(式17)に示されるように、平均空間スペクトル
Figure 2019174785
が閾値Pthよりも大きく、かつ、出力層z(1)の出力が閾値Zthよりも大きく音声と判別された時間フレームでの
Figure 2019174785
を用いて、ヒストグラムh(θ,φ)を計算する。そして、度数分布計算部17は、下記の(式18)に示すように、ヒストグラムh(θ,φ)の値が閾値Lthよりも大きくなった時に、その時の方向を、音源方向推定装置10Aが真に推定する音源方向
Figure 2019174785
と確定する。
Figure 2019174785
なお、度数分布計算部17は、ヒストグラムh(θ,φ)の値が閾値Lthを超えない場合、音源方向推定装置10Aが推定する音源方向を確定せず不定とすればよい。
[効果]
以上のように、本変形例の音源方向推定装置10Aによれば、音声と判別されている期間においてピーク探索部14により探索された複数の音源方向のヒストグラムを計算することで、発話者の方向である発話方向を、音源方向としてより確実に推定できる。
これにより、音源方向推定装置10Aを搭載した音声翻訳装置1は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置10を搭載した音声翻訳装置1は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。
(変形例2)
図12は、本実施の形態の変形例2における音源方向推定装置10Bの構成の一例を示す図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
音源方向推定装置10Bは、図5に示す音源方向推定装置10に対して、時間平均計算部18が追加されており、ピーク探索部14Bの構成が異なる。以下、異なる点を中心に説明する。
[時間平均計算部18]
時間平均計算部18は、類似度計算部13により計算される類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する。つまり、本変形例では、時間平均計算部18は、類似度計算部13により計算される類似度における一定の時間毎の平均を計算する。
短い時間における第1位相差には、音声中の無音時間の位相を反映してしまう場合もある。つまり、この場合、音声区間の一部についての音声判別処理にもかかわらず音声と判別されず、音声判別の精度を損ねるおそれがある。
これに対して、音声は比較的長時間発生する傾向がある上、発話者は、周囲の騒音と比べると、音源方向推定装置10Aの近くに存在し、かつ、特定の方向から発話する。このため、時間平均類似度を用いると、第1位相差には無音を含む音声時間が反映されるので、音声区間についての音声判別の精度が向上する。
[ピーク探索部14B]
ピーク探索部14Bは、類似度が最大となる方向として、時間平均計算部18により計算される時間平均類似度が最大となる方向を探索する。
[効果]
以上のように、本変形例2の音源方向推定装置10Bによれば、時間平均類似度を用いて、音声と判別されたときの音源方向を、発話者の方向である発話方向として推定するので、より確実に発話方向を推定できる。
これにより、音源方向推定装置10Bを搭載した音声翻訳装置1は、推定した話者方向に指向性を制御することで、騒しい環境などの雑音環境下でも、話者の音声を高音質に抽出することができる。この結果、音源方向推定装置10Bを搭載した音声翻訳装置1は、騒しい環境などの雑音環境下でも、より正しく音声認識できるようになり正しく翻訳できるという効果を奏する。
以上、本開示の一つまたは複数の態様に係る音源方向推定装置等について、実施の形態及び変形例に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。例えば、以下のような場合も本開示に含まれる。
(1)上記の音源方向推定装置等は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各構成要素は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の音源方向推定装置等を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の音源方向推定装置等を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
本開示は、異なる言語を話す話者が意思の疎通を図るためのツールとして用いられる音声翻訳装置などに用いられる方向推定装置、方向推定方法及びそのプログラムに利用できる。
1 音声翻訳装置
10、10A、10B 音源方向推定装置
11 位相差計算部
12 位相差データベース部
13 類似度計算部
14、14B ピーク探索部
15、15A 特徴量算出部
16 音声/非音声判別部
17 度数分布計算部
18 時間平均計算部
20 マイクロホンアレイ部
31、31a、32、32a ボタン
51 第1話者
52 第2話者
61、61a、62、62a 収音方向
151 音響特徴量計算部
152 補正部
153 次元圧縮部
154 特徴量抽出部

Claims (7)

  1. 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算部と、
    位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算部により計算された前記第1位相差との類似度を計算する類似度計算部と、
    前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、
    前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、
    前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える、
    音源方向推定装置。
  2. さらに、前記類似度計算部により計算される前記類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する時間平均計算部を備え、
    前記ピーク探索部は、前記類似度が最大となる方向として、前記時間平均計算部により計算される前記時間平均類似度が最大となる方向を探索する、
    請求項1に記載の音源方向推定装置。
  3. 前記音声判別部は、複数層からなるニューラルネットワークを用いて、前記特徴量算出部により算出された前記特徴量から、前記マイクロホンアレイ部により取得された音響信号が音声を示すか否かを判別する、
    請求項1または2に記載の音源方向推定装置。
  4. 前記特徴量算出部は、前記音響特徴量を、前記類似度計算部により計算される前記類似度で、前記ピーク探索部が推定する前記音源方向に近いほど大きい値となるよう重み付けし、重み付けした前記音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした前記音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、前記特徴量として算出する、
    請求項1〜3のいずれか1項に記載の音源方向推定装置。
  5. さらに、前記マイクロホンアレイ部により取得された前記音響信号が音声を示していると前記音声判別部により判定されている所定期間において、前記ピーク探索部により推定される複数の前記音源方向の度数を計算し、計算した前記度数のうち閾値より大きい度数に対応する前記音源方向を、前記音源方向推定装置が真に推定する音源方向として出力する度数分布計算部を備える、
    請求項1〜4のいずれか1項に記載の音源方向推定装置。
  6. 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算ステップと、
    位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
    前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
    前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、を含む、
    音源方向推定方法。
  7. 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算ステップと、
    位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、
    前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
    前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
    前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、をコンピュータに実行させる、
    プログラム。
JP2018227318A 2018-03-29 2018-12-04 音源方向推定装置、音源方向推定方法及びそのプログラム Active JP7079189B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/368,147 US10524051B2 (en) 2018-03-29 2019-03-28 Sound source direction estimation device, sound source direction estimation method, and recording medium therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862649751P 2018-03-29 2018-03-29
US62/649,751 2018-03-29

Publications (2)

Publication Number Publication Date
JP2019174785A true JP2019174785A (ja) 2019-10-10
JP7079189B2 JP7079189B2 (ja) 2022-06-01

Family

ID=68166860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018227318A Active JP7079189B2 (ja) 2018-03-29 2018-12-04 音源方向推定装置、音源方向推定方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP7079189B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022244173A1 (ja) * 2021-05-20 2022-11-24
CN118409278A (zh) * 2024-04-24 2024-07-30 南京理工大学 一种基于双级搜索mvdr的远场多声源快速定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2015161551A (ja) * 2014-02-26 2015-09-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2015161551A (ja) * 2014-02-26 2015-09-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022244173A1 (ja) * 2021-05-20 2022-11-24
JP7286057B2 (ja) 2021-05-20 2023-06-02 三菱電機株式会社 集音装置、集音方法、及び集音プログラム
CN118409278A (zh) * 2024-04-24 2024-07-30 南京理工大学 一种基于双级搜索mvdr的远场多声源快速定位方法

Also Published As

Publication number Publication date
JP7079189B2 (ja) 2022-06-01

Similar Documents

Publication Publication Date Title
EP3387648B1 (en) Localization algorithm for sound sources with known statistics
US10524051B2 (en) Sound source direction estimation device, sound source direction estimation method, and recording medium therefor
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
CN1148720C (zh) 说话者识别
Thakur et al. Speech recognition using euclidean distance
US10748544B2 (en) Voice processing device, voice processing method, and program
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
EP1500087A1 (en) On-line parametric histogram normalization for noise robust speech recognition
Erzin Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings
CN110176243B (zh) 语音增强方法、模型训练方法、装置和计算机设备
JP6985221B2 (ja) 音声認識装置及び音声認識方法
WO2013030134A1 (en) Method and apparatus for acoustic source separation
JP2019174785A (ja) 音源方向推定装置、音源方向推定方法及びそのプログラム
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
Marti et al. Automatic speech recognition in cocktail-party situations: A specific training for separated speech
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
JP2009116278A (ja) 話者認証の登録及び評価のための方法及び装置
JP3531342B2 (ja) 音声処理装置および音声処理方法
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법
KR20130125014A (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Li et al. Beamformed feature for learning-based dual-channel speech separation
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R151 Written notification of patent or utility model registration

Ref document number: 7079189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151