JP7420153B2 - 音源分離装置、音源分離方法、およびプログラム - Google Patents
音源分離装置、音源分離方法、およびプログラム Download PDFInfo
- Publication number
- JP7420153B2 JP7420153B2 JP2021577778A JP2021577778A JP7420153B2 JP 7420153 B2 JP7420153 B2 JP 7420153B2 JP 2021577778 A JP2021577778 A JP 2021577778A JP 2021577778 A JP2021577778 A JP 2021577778A JP 7420153 B2 JP7420153 B2 JP 7420153B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- separation
- signal
- mixed signal
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 80
- 238000000034 method Methods 0.000 claims description 31
- 230000035945 sensitivity Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 description 12
- 238000005457 optimization Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
この発明の実施形態は、複数の音源信号が混合した混合信号から各目的音源を分離するための音声処理アルゴリズムを実行する音源分離装置および方法である。この音声処理アルゴリズムは、(1)時間領域で定義される混合信号を周波数領域の混合信号に変換する信号変換ステップ、(2)現時点kで推定されている分離フィルタを、信号変換ステップで求められた周波数領域の混合信号に適用することで、現時点kにおける周波数領域の分離信号を推定する分離信号推定ステップ、(3)信号変換ステップで求められた周波数領域の混合信号と分離信号推定ステップで求められた周波数領域の分離信号とを用いて、現時点kで推定されている分離フィルタに関する尤度と到来方向に基づいた正則化とそれぞれの勾配を計算する勾配計算ステップ、(4)勾配計算ステップで計算された勾配を用いて、分離フィルタを更新するフィルタ更新ステップ、および(5)分離信号推定ステップで求められた周波数領域の分離信号を時間領域で定義される分離信号に変換する信号逆変換ステップを含むことを特徴とする。
〔参考文献1〕D. E. Rumelhart, G. E. Hinton, R. J. Williams, et al., "Learning representations by back-propagating errors," Cognitive modeling, vol. 5, no. 3, pp. 1, 1988.
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図3に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (6)
- 複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離装置であって、
分離フィルタを用いて前記混合信号から前記分離信号を推定する分離信号推定部と、
前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新するフィルタ更新部と、を含む
音源分離装置。 - 請求項2に記載の音源信号分離装置であって、
前記コスト関数の第3項で考慮する周波数ビンfは、音源が発する音の周波数特性に基づいて定める、
音源分離装置。 - 複数の音源から到来した音を含む混合信号から音源ごとの分離信号を独立ベクトル分析で推定する音源分離方法であって、
分離信号推定部が、分離フィルタを用いて、前記混合信号から前記分離信号を推定し、
フィルタ更新部が、前記混合信号の分離の程度を評価するコスト関数であって、前記混合信号の尤度と前記音源方向への前記分離フィルタの感度とを含むコスト関数を用いて、前記混合信号の分離が最適化されるように前記分離フィルタを更新する
音源分離方法。 - 請求項1から4のいずれかに記載の音源分離装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/005470 WO2021161437A1 (ja) | 2020-02-13 | 2020-02-13 | 音源分離装置、音源分離方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021161437A1 JPWO2021161437A1 (ja) | 2021-08-19 |
JP7420153B2 true JP7420153B2 (ja) | 2024-01-23 |
Family
ID=77292199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021577778A Active JP7420153B2 (ja) | 2020-02-13 | 2020-02-13 | 音源分離装置、音源分離方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230079569A1 (ja) |
JP (1) | JP7420153B2 (ja) |
WO (1) | WO2021161437A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008306712A (ja) | 2007-06-08 | 2008-12-18 | Honda Motor Co Ltd | 音源分離システム |
US20100183178A1 (en) | 2009-01-21 | 2010-07-22 | Siemens Aktiengesellschaft | Blind source separation method and acoustic signal processing system for improving interference estimation in binaural wiener filtering |
JP2011191337A (ja) | 2010-03-11 | 2011-09-29 | Nara Institute Of Science & Technology | 雑音抑制装置、方法、及びプログラム |
US20160099008A1 (en) | 2014-10-06 | 2016-04-07 | Oticon A/S | Hearing device comprising a low-latency sound source separation unit |
JP2018121108A (ja) | 2017-01-23 | 2018-08-02 | 日本電信電話株式会社 | 分離行列設計装置、フィルタ係数算出装置、その方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8880395B2 (en) * | 2012-05-04 | 2014-11-04 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjunction with source direction information |
JP6815956B2 (ja) * | 2017-09-13 | 2021-01-20 | 日本電信電話株式会社 | フィルタ係数算出装置、その方法、及びプログラム |
-
2020
- 2020-02-13 JP JP2021577778A patent/JP7420153B2/ja active Active
- 2020-02-13 US US17/799,211 patent/US20230079569A1/en active Pending
- 2020-02-13 WO PCT/JP2020/005470 patent/WO2021161437A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008306712A (ja) | 2007-06-08 | 2008-12-18 | Honda Motor Co Ltd | 音源分離システム |
US20100183178A1 (en) | 2009-01-21 | 2010-07-22 | Siemens Aktiengesellschaft | Blind source separation method and acoustic signal processing system for improving interference estimation in binaural wiener filtering |
JP2011191337A (ja) | 2010-03-11 | 2011-09-29 | Nara Institute Of Science & Technology | 雑音抑制装置、方法、及びプログラム |
US20160099008A1 (en) | 2014-10-06 | 2016-04-07 | Oticon A/S | Hearing device comprising a low-latency sound source separation unit |
JP2018121108A (ja) | 2017-01-23 | 2018-08-02 | 日本電信電話株式会社 | 分離行列設計装置、フィルタ係数算出装置、その方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021161437A1 (ja) | 2021-08-19 |
WO2021161437A1 (ja) | 2021-08-19 |
US20230079569A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3504703B1 (en) | A speech recognition method and apparatus | |
US11676022B2 (en) | Systems and methods for learning for domain adaptation | |
US10783875B2 (en) | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network | |
WO2019017403A1 (ja) | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
CN113454717A (zh) | 语音识别装置和方法 | |
Wu et al. | Acoustic to articulatory mapping with deep neural network | |
JP2020086434A (ja) | 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置 | |
CN114267366A (zh) | 通过离散表示学习进行语音降噪 | |
Sivasankaran et al. | Discriminative importance weighting of augmented training data for acoustic model training | |
He et al. | Single channel blind source separation under deep recurrent neural network | |
KR20230141828A (ko) | 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들 | |
JP7420153B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6567478B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 | |
JP2021157145A (ja) | 推論器および推論器の学習方法 | |
JP2020034870A (ja) | 信号解析装置、方法、及びプログラム | |
US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
WO2020121860A1 (ja) | 音響信号処理装置、その方法、およびプログラム | |
Morito et al. | Reduction of computational cost using two-stage deep neural network for training for denoising and sound source identification | |
CN115910047B (zh) | 数据处理方法、模型训练方法、关键词检测方法及设备 | |
WO2024038522A1 (ja) | 信号処理装置、信号処理方法、プログラム | |
EP4369254A1 (en) | Training framework method with non-linear enhanced kernel reparameterization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7420153 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |