JP2021197566A - 音源分離装置、音源分離方法、およびプログラム - Google Patents
音源分離装置、音源分離方法、およびプログラム Download PDFInfo
- Publication number
- JP2021197566A JP2021197566A JP2020100287A JP2020100287A JP2021197566A JP 2021197566 A JP2021197566 A JP 2021197566A JP 2020100287 A JP2020100287 A JP 2020100287A JP 2020100287 A JP2020100287 A JP 2020100287A JP 2021197566 A JP2021197566 A JP 2021197566A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- scan
- microphones
- acoustic signal
- source separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims description 41
- 238000012546 transfer Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 9
- 210000003813 thumb Anatomy 0.000 description 9
- 238000004088 simulation Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
上述した(2)によれば、細分化した領域毎にサブビームフォーマを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出でき細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離できる。
上述した(3)〜(5)によれば、コスト関数Jを用いることで、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。
収音部2は、N(Nは2以上の整数)のマイクロホン21−1、…、マイクロホン21−Nを備える。なお、以下の説明において、マイクロホン21−1、…、マイクロホン21−Nのうち1つを特定しない場合は、マイクロホン21という。
音源分離装置3は、取得部31、伝達関数記憶部32、ビームパターン記憶部33、音源分離部34、および出力部35を備える。
音源分離部34は、分離部341、評価部342、および選択部343(評価部)を備える。
次に、マイクロホン21の配置例を説明する。
図2は、本実施形態に係るマイクロホン21の配置例を示す図である。N個のマイクロホン21は、間隔(第1間隔)がd毎に等間隔で、21−1,2−2,…,21−(N−1)、21−(N−1)の順に、例えば直線g11上に配置されている。一端のマイクロホン21−1を参照マイクロホンとする。なお、マイクロホン21の個数N、間隔dは、例えば後述するコスト等に応じて選択するようにしてもよい。
符号g12は、マイクロホン21に入力される平面波を表している。方位角θは、マイクロホン21が配置される直線g11と、入力される平面波g12とのなす角であり、反時計回りに増加するとする。音波の音速をc(340.29m/s)で表す。
また、混合信号Z∈CN×1は、次式(2)のように表すことができる。
次に、点音源のビームフォーマの基本式について説明する。
ビームフォーマは、係数ベクトルW∈CNch×1で表される。ビームフォーマの方向周波数応答は、次式(3)のように定義される「パターン」である。
次に、本実施形態で用いるスキャンアンドサム ビームフォーマについて説明する。
本実施形態では、1つのビームフォーマで面ビームパターンを設計する代わりに、点音源のサブビームフォーマをフォーカス到来方向に変更し、目的の面音源が存在する領域を適切なスキャン角度でスキャンする。本実施形態では、このサブビームフォーマを、面ビームフォーマに統合する。本実施形態では、この手法をスキャンアンドサム ビームフォーマ法(またはスキャンアンドサム法)と呼ぶ。
なお、スキャンアンドサム法は、面音源が多数の点音源の組み合わせに分解できるというモデルに基づいている。
次に、スキャンアンドサム ビームフォーマで用いる式について説明する。
理想的なパターンD(θ)は、次式(4)のような方位角次元である。
本実施形態で用いるスキャンアンドサム ビームフォーマの式は、次式(5)のように表される。
なお、式(5)から,P(θ)はPθi(θ)をe−b+1個加算した関数であることから、θscanの関数であり,これを明示的に示すために、Pθscan(θ)と表すこととすれば、スキャンアンドサム ビームフォーマは、次式(6)のように表すこともできる。
また、式(3)と式(5)より、スキャンアンドサム ビームフォーマの係数ベクトルWは、次式(7)のように表される。
次に、エラー分析の基準について説明する。
スキャンアンドサムのパターンが、目的のパターンを正確に近似しているかを確認するため、スキャンアンドサムビームパターンと理想的なパターンの違いを評価する。式(6)より、Pθi(θ)はマイクロホン数Nの関数であり、かつ、このφiの間隔はθiの間隔と同じθscanであることから、P(θ)はNおよびθscanの関数となる。これを明示的に示すため、P(θ)をPN,θscan(θ)と再定義する。このとき,評価のための基準のMSE(Mean Square Error;平均二乗誤差)は、次式(10)のように定式化できる。
ここで、マイクロホンの数(N)は物理的なコストと見なすことができる。この理由は、マイクロホンの数が増えると、それを収容するためにより大きな装置を必要とし、多くのハードウェアが必要になるためである。
式(5)において、サブビームフォーマの数(NS)がスキャン角度に反比例するため、スキャン角度(θscan)は計算コストと見なすことができる。さらにPθiを計算する必要がある。
MSEのスライス間の重み付け(最初の2項目)およびコスト領域(最後の2項目)は、λi(i=1,2,3)の値を変更することで調整できる。
パフォーマンスとコストのトレードオフは最適化の問題は、次式(13)のように表すことができる。
本実施形態によれば、コスト関数Jの導入によって、面音源を抽出するための最適なマイクロホンの数、所望の領域を分割する間隔を選択することができる。
本実施形態のスキャンアンドサム ビームフォーマを実装および最適化する方法に関するガイドラインは以下である。
第1の例では、DSサブビームフォーマのPθiを選択した例を説明する。
DSサブビームフォーマは、空間フィルタの中で最も基本的であり、実装の単純さと強いノイズに対する堅牢性に特化しているが、信号機能に適応しないためDS設計は一般に最適ではない。
この設定でのMSEの値は40.8であり、図11より小さな値であることが確認されたが、ビームパターンの高レベルのサイドローブは、分離率が悪い。
第2の例では、MVDRサブビームフォーマのPθiを選択した例を説明する。
MVDRサブビームフォーマは、振幅と位相の両方で高い指向性と低い歪みを備えた適応フィルタであり、混合物の瞬時値によって推定できる混合信号の定位情報と空間相関を利用する。したがって、MVDR設計は一般的なシナリオで実用的になる。
図14は、サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのMSE曲面を示す図である。各軸は、図11と同じである。図15は、サブビームフォーマがMVDRスキャンアンドサム ビームフォーマのコスト曲面を示す図である。各軸は、図12と同じである。
DSスキャンアンドサム ビームフォーマの例から、望ましい特性には、少ないマイクロホン数でサブビームフォーマの高い指向性を実現する能力と、位相のシフトを防ぐ能力が含まれていると言える。これらの機能は、MVDRフィルタにつながる。
なお、図17に示す例では、マイクロホン数Nを100、θscanの角度を5°で計算している。マイクロホンの数を増やした場合は、マイクロホンの指向性が非常に高くなるため、ビームパターンのメインローブが狭くなるが、サブビームフォーマの接続領域にギャップが現れるほどスキャン角度が不十分になる。この結果、対象領域の情報が失われる面パターンが生じてしまう。
このため、本実施形態では、音源分離部34(図1)が、コスト関数Jを用いて評価を行うことで、適切なマイクロホン数、スキャン角度を選択するようにした。
次に、評価結果を説明する。
以下の評価では、MVDRサブビームフォーマのPθiを使用して、本実施形態のスキャンアンドサム ビームフォーマの性能を評価するために、数値シミュレーションを行った。数値シミュレーションでは、設計ガイドラインに従って、マイクロホンの間隔dを2cm、マイクロホン数Nを20、θscanの角度を0.5°に設定した。この場合、コストは、コスト関数Jの推奨パラメーター設定よりわずかに大きくなる。
SARは、アルゴリズムの音質を評価できる。これは、優れたアルゴリズムが乱れ(artifacts)をほとんど生成しないためである。
SDRは、干渉、乱れ、およびノイズに関連する歪みを評価することができる。
遷移帯域(通過帯域と減衰帯域の間の帯域)を備えた実用的な空間フィルタの場合、バッファ空間を0°とした分離が最も困難であるが、SIRは混合状態と比較して約18dB(=4.7+13.0)改善された。
図18のように、バッファ空間の角度を大きくすると、SIRは更に改善された。MVDRサブビームフォーマでは、乱れノイズ(artifact noise)が空間的特徴の不確実な推定によって発生する。この結果、バッファ空間が狭くなる程、SARが低下し、SDRが約9dB改善された。
本実施形態のスキャンアンドサム ビームフォーマを用いて音源分離を行った結果、図19に示すように、適切に面音源を分離することができた。
さらに、本実施形態では、選択したビームパターンの品質を評価ために、パフォーマンスとコストのバランスをとるコスト関数Jを備えたMSEを用いることで、精度良く評価できる。また、本実施形態によれば、評価したMSEによって、最適なマイクロホン数とスキャン角度をもとめることができる。
また、数値シミュレーションにより、本実施形態によれば、困難な状況で3つの面音源の混合物のSIRが改善された。
これにより、本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できる。
本実施形態によれば、抑圧したい領域にある音源を適切に抑圧することができ、面音源を適切に分離できるので、人間とロボットの相互作用などのアプリケーションで、ロボットのパフォーマンスが向上することができる。
Claims (7)
- 音響信号を収音する、第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、
所望の領域を第2間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する音源分離部と、
を備える音源分離装置。 - 前記サブビームのパターンは、次式で表され、
請求項1に記載の音源分離装置。 - コスト関数Jと、前記マイクロホンの数と、前記第2間隔と、の関係を算出する評価部と、
前記評価部が算出した前記コスト関数と、前記マイクロホンの数と、前記第2間隔と、の関係において、コスト関数が最小になる前記マイクロホンの数と、前記第2間隔を選択する選択部と、
をさらに備える請求項1または請求項2に記載の音源分離装置。 - 前記評価部は、
前記コスト関数Jと、前記マイクロホンの数Nと、スキャン角度θscanを三次元グラフに表し、前記コスト関数Jが最小となる前記マイクロホンの数Nと、スキャン角度θscanを選択することで、最適な前記マイクロホンの数Nと、スキャン角度θscanを求め、
前記音源分離部は、
前記評価部によって選択された最適な前記マイクロホンの数Nと、スキャン角度θscanに更新する、
請求項4に記載の音源分離装置。 - 第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイが、音響信号を収音し、
音源分離部が、所望の領域を第2間隔で細分化し、
前記音源分離部が、前記細分化された領域それぞれに対して、音響信号を、前記細分化した領域の方位角θに対応するサブビームを用いてビームフォーミング法によって分離して抽出し、
前記音源分離部が、前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離する、
音源分離方法。 - コンピュータに、
第1間隔で配置されるN(Nは2以上の整数)個のマイクロホンを有するマイクロホンアレイに音響信号を収音させ、
所望の領域を第2間隔で細分化させ、
前記細分化された領域それぞれに対して、前記細分化された領域の方位角θに対応するサブビームを用いてビームフォーミング法によって前記音響信号を分離して抽出させ、
前記抽出された音響信号を加算することにより前記所望の領域の音響信号を分離させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020100287A JP7316614B2 (ja) | 2020-06-09 | 2020-06-09 | 音源分離装置、音源分離方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020100287A JP7316614B2 (ja) | 2020-06-09 | 2020-06-09 | 音源分離装置、音源分離方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021197566A true JP2021197566A (ja) | 2021-12-27 |
JP7316614B2 JP7316614B2 (ja) | 2023-07-28 |
Family
ID=79196148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020100287A Active JP7316614B2 (ja) | 2020-06-09 | 2020-06-09 | 音源分離装置、音源分離方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7316614B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005253071A (ja) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 |
JP2011203162A (ja) * | 2010-03-26 | 2011-10-13 | Nippon Expressway Research Institute Co Ltd | 騒音対策効果量の推計方法 |
JP2018064215A (ja) * | 2016-10-13 | 2018-04-19 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP2018074252A (ja) * | 2016-10-25 | 2018-05-10 | キヤノン株式会社 | 音響システム及びその制御方法、信号生成装置、コンピュータプログラム |
-
2020
- 2020-06-09 JP JP2020100287A patent/JP7316614B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005253071A (ja) * | 2004-03-02 | 2005-09-15 | Microsoft Corp | マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 |
JP2011203162A (ja) * | 2010-03-26 | 2011-10-13 | Nippon Expressway Research Institute Co Ltd | 騒音対策効果量の推計方法 |
JP2018064215A (ja) * | 2016-10-13 | 2018-04-19 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP2018074252A (ja) * | 2016-10-25 | 2018-05-10 | キヤノン株式会社 | 音響システム及びその制御方法、信号生成装置、コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7316614B2 (ja) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3384684B1 (en) | Conference system with a microphone array system and a method of speech acquisition in a conference system | |
Yan et al. | Optimal modal beamforming for spherical microphone arrays | |
Benesty et al. | Conventional beamforming techniques | |
Ryan et al. | Array optimization applied in the near field of a microphone array | |
US7991166B2 (en) | Microphone apparatus | |
JP2004507767A (ja) | 目的信号源から雑音環境に放射される信号を処理するシステム及び方法 | |
US20220060818A1 (en) | Microphone arrays | |
Trucco et al. | A stochastic approach to the synthesis of a robust frequency-invariant filter-and-sum beamformer | |
Tager | Near field superdirectivity (NFSD) | |
Xia et al. | Noise reduction method for acoustic sensor arrays in underwater noise | |
Neo et al. | Robust microphone arrays using subband adaptive filters | |
Zheng et al. | A microphone array system for multimedia applications with near-field signal targets | |
Frank et al. | Constant-beamwidth linearly constrained minimum variance beamformer | |
Karo et al. | Source localization with feedback beamforming | |
JP2021197566A (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP3100563B2 (ja) | 受信信号処理装置 | |
Levin et al. | Robust beamforming using sensors with nonidentical directivity patterns | |
Hossein et al. | Performance investigation of acoustic microphone array beamformer to enhance the speech quality | |
Repetto et al. | Designing superdirective microphone arrays with a frequency-invariant beam pattern | |
Nordholm et al. | Performance limits of the broadband generalized sidelobe cancelling structure in an isotropic noise field | |
Ward et al. | Broadband microphone arrays for speech acquisition | |
Zhong et al. | Design and assessment of a scan-and-sum beamformer for surface sound source separation | |
Levin et al. | Near-field superdirectivity: An analytical perspective | |
Zhong et al. | Assessment of a beamforming implementation developed for surface sound source separation | |
CN114023307B (zh) | 声音信号处理方法、语音识别方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200709 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20201009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20201009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230707 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7316614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |