JP2019054344A - フィルタ係数算出装置、収音装置、その方法、及びプログラム - Google Patents
フィルタ係数算出装置、収音装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2019054344A JP2019054344A JP2017175898A JP2017175898A JP2019054344A JP 2019054344 A JP2019054344 A JP 2019054344A JP 2017175898 A JP2017175898 A JP 2017175898A JP 2017175898 A JP2017175898 A JP 2017175898A JP 2019054344 A JP2019054344 A JP 2019054344A
- Authority
- JP
- Japan
- Prior art keywords
- filter coefficient
- vector
- coefficient calculation
- sound
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
y(f,l)=x(f,l)+v(f,l) (2)
のようにターゲット音の直接波のマルチチャネル信号x(f,l)と、反射残響成分および雑音のマルチチャネル信号v(f,l)からなる。
R(f,l)=E[y(f,l)yH(f,l)] (3)
で算出する。ただしE[ ]は期待値をとることを意味する。またyH(f,l)は、y(f,l)を転置し複素共役をとったベクトルである。実際の処理では通常E[ ]の代わりに短時間平均を用いる。
h(f,l)=arg min hH(f,l)R(f,l)h(f,l) (4)
拘束条件
hH(f,l)a(f)=1
上記の最適化問題は、周波数fにおいてターゲット音を無歪みで出力するという拘束条件のもとで、フィルタ係数ベクトルh(f,l)をNチャネルマイクロホン信号y(f,l)に適用した際に得られる値のパワーが最小になるようにフィルタ係数ベクトルh(f,l)を求めている。
z(f,l)=hH(f,l)y(f,l) (5)
これにより、ターゲット音以外の成分を極力抑えてターゲット音を取り出すことができる。全周波数での処理結果を短時間逆フーリエ変換部108において短時間逆フーリエ変換することで、ターゲット音を取り出すことができる。
図3は第一実施形態に係る収音装置の機能ブロック図を、図4はその処理フローを示す。
短時間フーリエ変換部107は、Nチャネルの時間領域のマイクロホン信号yn(t)を入力とし、フレームl(エル)毎に周波数領域のマイクロホン信号Yn(f,l)に短時間フーリエ変換し(S107)、出力する。その周波数f、フレームlでの変換結果を
ステアリングベクトル決定部102は、ステアリングベクトルa(f)を求め(S102)、出力する。ステアリングベクトルの決定方法には様々な公知の技術を利用できる。例えば、ステアリングベクトル決定部102は、Nチャネルの周波数領域のマイクロホン信号y(f,l)を入力とし、非特許文献2の方法により、ステアリングベクトルa(f)を求める。
アレーフィルタ推定部204は、Nチャネルの周波数領域のマイクロホン信号y(f,l)とステアリングベクトルa(f)とを入力とし、ステアリングベクトルa(f)をもとに、以下の拘束条件付き最適化問題を解いて、フィルタ係数ベクトルh(f,l)を求め(S204)、出力する。
hH(f,l)a(f)=1
ただし、|・|1は、ベクトル各成分の絶対値の総和すなわちL1ノルムを取ることを意味する。従来の最適化では、2乗ノルムすなわちL2ノルムを用いるコスト関数が良く使われてきた。本実施形態では、L2ノルムの代わりにL1ノルムを用いてコスト関数を最適化することで、スパースなベクトル、すなわち、0を多く含むベクトルが得られる。L1ノルムを用いてコスト関数を最適化する方法は、近年、圧縮センシングの分野で知られている(参考文献1参照)。
(参考文献1)田中利幸、「圧縮センシングの数理」、IEICE Fundamental Review, vol. 4, no. 1, pp. 39-47, 2010
アレーフィルタリング部105は、Nチャネルの周波数領域のマイクロホン信号y(f,l)とフィルタ係数ベクトルh(f,l)とを入力とし、次式のようにNチャネルマイクロホン信号y(f,l)にフィルタ係数ベクトルh(f,l)を適用し、周波数領域の出力信号z(f,l)を求め(S105)、出力する。
z(f,l)=hH(f,l)y(f,l) (5)
短時間逆フーリエ変換部108は、周波数領域の出力信号z(f,l)を入力とし、全周波数での処理結果を短時間逆フーリエ変換し(S108)、時間領域の出力信号z(t)を得、出力する。
以上の構成により、Nチャネルマイクロホン信号からターゲット音を従来よりクリアに抽出することができる。
本実施形態では、収音装置として説明したが、アレーフィルタ推定部のみからなるフィルタ係数算出装置であっても、マイクロホン信号からターゲット音を従来よりクリアに抽出するためのフィルタ係数を求めることができる。また、収音装置は、アレーフィルタ推定部とアレーフィルタリング部のみを含む構成としてもよい。別装置からNチャネルの周波数領域のマイクロホン信号y(f,l)とステアリングベクトルa(f)とを受け取り、周波数領域の出力信号z(f,l)を求め、別装置に出力する構成としてもよい。
第一実施形態と異なる部分を中心に説明する。
図5はステアリングベクトル決定部302の機能ブロック図を、図6はその処理フローの例を示す。
ノイズ・到来波分解部3021は、Nチャネルマイクロホン信号y(f,l)の空間相関行列R(f,l)から、周波数fにおける複数到来波の強度および各マイクロホンのノイズパワーを推定し(S3021)、出力する。
R(f,l)=E[y(f,l)y(f,l)H] (22)
(参考文献2)P. Stoica, P. Babu, and J. Li, "SPICE A sparse covariance-based estimation method for array processing", IEEE Transactions on signal processing, vol. 59, no. 2, 2011, 629-638.
A(f)H=[a1(f) a2(f) … aK(f) IN] (23)
を用いて、参考文献2では
R(f,l)=A(f)HV(f,l)A(f) (24)
の形に行列R(f,l)を行列A(f)H、対角行列V(f,l)と行列A(f)の積に分解する。この分解により、対角行列V(f,l)に含まれるk番目の方向からの平面波の強度の推定値pk(f,l)と、n番目のマイクロホン91−nのノイズパワーの推定値qn(f,l)とが得られる。なお実際には、上記の分解は、
||(A(f)HV(f,l)A(f))-1/2(R(f,l)-A(f)HV(f,l)A(f))R(f,l)-1/2||2 (25)
を最小にする対角行列V(f,l)を求めることに対応する。なお、この式(25)で||x||は行列xのフロベニウスノルムをとることを意味する。
ターゲット方向判定部3022は、ターゲット音の到来方向の推定値ktを求め(S3022)、推定値ktに対応するステアリングベクトルa(f)=akt(f)を出力する。例えば、ターゲット方向判定部3022は、対角行列V(f,l)を入力とし、対角行列V(f,l)に含まれる各到来方向kの強度の推定値pk(f,l)を用いて、強度が所定の値より大きい方向をターゲット音の到来方向と判定し、判定結果(到来方向の推定値)ktを求める。この例では、ターゲット方向判定部3022は、音声パワーが集中している帯域100〜500Hzの強度の推定値pk(f,l)を用いてターゲット音の到来方向の推定値ktを求める。この帯域で各到来方向kの強度は
このような構成とすることで、第一実施形態と同様の効果を得ることができる。なお、本実施形態では、空間相関行列を算出し、利用しているが、空間相関行列はターゲット音の到来方向を推定するために利用しているのであって、フィルタ係数ベクトルを求める最適化問題に利用しているのではない。そのため、推定誤差のある相関行列からマイクロホンアレイのフィルタ係数ベクトルが求め、理想の収音ビームからズレが生じ、雑音や残響の抑え込みが本来より弱くなるという問題は生じない。
第一実施形態と異なる部分を中心に説明する。
アレーフィルタ推定部404は、Nチャネルの周波数領域のマイクロホン信号y(f,l)とステアリングベクトルa(f)とを入力とし、ステアリングベクトルa(f)をもとに、以下の拘束条件付き最適化問題を解いて、フィルタ係数ベクトルh(f,l)を求め(S404)、出力する。
hH(f,l)a(f)=1
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、ノルムの大きいフィルタ係数ベクトルh(f,l)を推定することを防ぎ、雑音抑圧性能や非ターゲット音抑圧性能の劣化を抑えることができる。なお、本実施形態と第二実施形態を組合せてもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- Nを2以上の整数の何れかとし、N個のマイクロホンからなるマイクロホンアレーにおける音源方向に対するステアリングベクトルをもとに、ターゲット音を無歪みで出力するという拘束条件のもとで、マイクロホンアレーの周波数領域のNチャネルマイクロホン信号にフィルタ係数ベクトルを適用して得られる値が疎になるように前記フィルタ係数ベクトルを求める、
フィルタ係数算出装置。 - 請求項1または請求項2のフィルタ係数算出装置であって、
前記拘束条件は、
ターゲット音を無歪みで出力し、かつ、フィルタ係数ベクトルのノルムが所定の値以下であるという条件を含む、
フィルタ係数算出装置。 - 請求項1から請求項4の何れかのフィルタ係数算出装置を含む収音装置であって、
マイクロホンアレーの周波数領域のNチャネルマイクロホン信号に前記フィルタ係数ベクトルを適用して周波数領域の出力信号z(f,l)を求めるアレーフィルタリング部を含む、
収音装置。 - Nを2以上の整数の何れかとし、N個のマイクロホンからなるマイクロホンアレーにおける音源方向に対するステアリングベクトルをもとに、ターゲット音を無歪みで出力するという拘束条件のもとで、マイクロホンアレーの周波数領域のNチャネルマイクロホン信号にフィルタ係数ベクトルを適用して得られる値が疎になるように前記フィルタ係数ベクトルを求める、
フィルタ係数算出方法。 - 請求項6のフィルタ係数算出方法を含む収音方法であって、
マイクロホンアレーの周波数領域のNチャネルマイクロホン信号に前記フィルタ係数ベクトルを適用して周波数領域の出力信号z(f,l)を求めるアレーフィルタリングステップを含む、
収音方法。 - 請求項1から請求項4の何れかのフィルタ係数算出装置、または、請求項5の収音装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017175898A JP6815956B2 (ja) | 2017-09-13 | 2017-09-13 | フィルタ係数算出装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017175898A JP6815956B2 (ja) | 2017-09-13 | 2017-09-13 | フィルタ係数算出装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019054344A true JP2019054344A (ja) | 2019-04-04 |
JP6815956B2 JP6815956B2 (ja) | 2021-01-20 |
Family
ID=66013821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017175898A Active JP6815956B2 (ja) | 2017-09-13 | 2017-09-13 | フィルタ係数算出装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6815956B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021161437A1 (ja) * | 2020-02-13 | 2021-08-19 | ||
CN113628634A (zh) * | 2021-08-20 | 2021-11-09 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113782046A (zh) * | 2021-09-09 | 2021-12-10 | 清华大学 | 一种用于远距离语音识别的麦克风阵列拾音方法及系统 |
-
2017
- 2017-09-13 JP JP2017175898A patent/JP6815956B2/ja active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021161437A1 (ja) * | 2020-02-13 | 2021-08-19 | ||
WO2021161437A1 (ja) * | 2020-02-13 | 2021-08-19 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
CN113628634A (zh) * | 2021-08-20 | 2021-11-09 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113628634B (zh) * | 2021-08-20 | 2023-10-03 | 随锐科技集团股份有限公司 | 一种指向信息引导的实时语音分离方法和装置 |
CN113782046A (zh) * | 2021-09-09 | 2021-12-10 | 清华大学 | 一种用于远距离语音识别的麦克风阵列拾音方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6815956B2 (ja) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
US10123113B2 (en) | Selective audio source enhancement | |
Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
EP2884491A1 (en) | Extraction of reverberant sound using microphone arrays | |
JP2007526511A (ja) | 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置 | |
JP6987075B2 (ja) | オーディオ源分離 | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
JP2017505461A (ja) | いくつかの入力オーディオ信号の残響を除去するための信号処理の装置、方法、およびコンピュータプログラム | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
Herzog et al. | Direction preserving wiener matrix filtering for ambisonic input-output systems | |
CN113345465B (zh) | 语音分离方法、装置、设备及计算机可读存储介质 | |
CN117782625A (zh) | 车辆故障声学检测方法、系统、控制装置及存储介质 | |
JP6517124B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP2022500710A (ja) | 音響源用の結合音源定位及び分離方法 | |
Dam et al. | Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
Dehghan Firoozabadi et al. | A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers | |
JP2013113866A (ja) | 残響除去方法、残響除去装置、プログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6989031B2 (ja) | 伝達関数推定装置、方法及びプログラム | |
Toma et al. | Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6815956 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |