CN113241090B - 一种基于最小体积约束的多通道盲声源分离方法 - Google Patents
一种基于最小体积约束的多通道盲声源分离方法 Download PDFInfo
- Publication number
- CN113241090B CN113241090B CN202110427529.1A CN202110427529A CN113241090B CN 113241090 B CN113241090 B CN 113241090B CN 202110427529 A CN202110427529 A CN 202110427529A CN 113241090 B CN113241090 B CN 113241090B
- Authority
- CN
- China
- Prior art keywords
- sound source
- minimum volume
- multichannel
- separation
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012899 de-mixing Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2133—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于最小体积约束的多通道盲声源分离方法,首先将接受到的多通道混合信号通过解混合矩阵,得到声源的近似估计,再通过短时傅里叶变换得到估计的每个通道时频图矩阵,然后通过最小体积约束的独立低秩矩阵分析,最终更新解混合矩阵。本发明显著提高了混响环境中估计的声源信号失真比,保证了混和声源信号在重构过程中的鲁棒性和可识别性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种零多通道盲声源分离方法。
背景技术
盲声源分离是在未知记录环境、混合系统和声源位置的先验条件下,从接收到的混合声源中分离出原始源信号。盲声源分离的一种典型方法是基于概率模型的无监督学习,可以分为单通道源分离和多通道源分离,对于多通道源分离方法通常由一个表示源图像时频结构的源模型以及代表其通道间协方差结构的空间模型组成。广泛使用的源模型是基于非负矩阵分解(NMF)的低秩模型来缓解排列问题,空间模型中每个源的时频点通常被假设为多元复数高斯。
多通道源分离的代表是多通道非负矩阵分解(MNMF),它包含一个低秩的源模型和一个满秩的空间模型。这个满秩的空间模型能够代表多种声源在回声条件下的方向性,但是多通道非负矩阵分解由于需要迭代估计大量无约束的空间协方差矩阵,所以会趋向于陷入不良的局部最优。为了解决这个问题,学者们提出了独立低秩矩阵分析方法(ILRMA),其假设空间模型的秩为1,对于定向源表现较好,本质上讲,独立低秩矩阵分析方法的空间模型和源模型分别是独立的矢量分析和非负矩阵分解,是通过迭代进行优化的。
基于非负矩阵分解的方法,如多通道非负矩阵分解,独立低秩矩阵分析以及其变体都使用非负矩阵分解将给定的频谱分解为几个谱基矩阵和时间激活矩阵。尽管源图像的空间特性为分解的唯一性约束NMF的碱基,但却无法保证每个声源的谱内容是可辨别的,需要具有提高源分离性能的潜力。
发明内容
为了克服现有技术的不足,本发明提供了一种基于最小体积约束的多通道盲声源分离方法,首先将接受到的多通道混合信号通过解混合矩阵,得到声源的近似估计,再通过短时傅里叶变换得到估计的每个通道时频图矩阵,然后通过最小体积约束的独立低秩矩阵分析,最终更新解混合矩阵。本发明显著提高了混响环境中估计的声源信号失真比,保证了混和声源信号在重构过程中的鲁棒性和可识别性。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:多通道盲声源分离问题公式化表示;
假设多通道混合声源的短时傅立叶变换STFT为 其中i=1,…,I,j=1,…,J和m=1,…,M分别表示频点、时间帧和麦克风,I表示频点数量,J表示时间帧数量,M表示麦克风数量,T表示转置;
声源表示为N是声源的数量,n=1,…,N是声源的索引;
假设每个声源都是点源,混合声源与每个声源具有以下联系:
xij=Aisij (1)
其中Ai是在第i个频点的混合矩阵;
待求解分离信号yij表示为:
yij=Wixij (2)
其中Wi为(Ai)-1的估计,表示为Wi=[wi,1,…,wi,M]H,H表示埃尔米特转置;
步骤2:通过Xij=xijxij H对声源功率谱进行建模,并使用非负矩阵分解Xij:
其中K是基向量的数量,vik,n是频谱基础矩阵的第n个声源的元素,tkj,n是时间激活矩阵/>的第n个声源的元素,/>是空间协方差第n个声源的第i个频段;
将所有声源在全部频带上的频段Ri,n完整表示为一个张量Xij在全部时频箱的完整表示作为一个张量/>
步骤3:最小体积多通道声源分离;
采用基于最小体积的多通道非负矩阵分解,定义目标函数为:
其中1是一个全1向量,vol(Vn)表示最小体积正则化:
其中,δ为正常数,IK是K维的单位矩阵,是近似损失;
步骤4:以式(4)作为目标函数进行训练,求得Wi,最终得到分离信号yij,实现多通道盲声源的分离。
优选地,所述δ=0.5。
本发明的有益效果如下:
1、本发明方法的最小体积约束显著提高了混响环境中估计的声源信号失真比。
2、本发明方法保证了混和声源信号在重构过程中的鲁棒性和可识别性。
附图说明
图1为本发明方法结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于最小体积约束的多通道盲声源分离方法,包括以下步骤:
步骤1:多通道盲声源分离问题公式化表示;
假设多通道混合声源的短时傅立叶变换STFT为 其中i=1,…,I,j=1,…,J和m=1,…,M分别表示频点、时间帧和麦克风,I表示频点数量,J表示时间帧数量,M表示麦克风数量,T表示转置;
声源表示为N是声源的数量,n=1,…,N是声源的索引;
假设每个声源都是点源,混合声源与每个声源具有以下联系:
xij=Aisij (1)
其中Ai是在第i个频点的混合矩阵;如果Ai是可逆的并且M=N,就能找到一个分开矩阵(Ai)-1恢复sij;
声源分离的问题就转化为寻找一个(Ai)-1的估计,表示为Wi=[wi,1,…,wi,M]H,将Wi应用于xij时,获得了分离信号yij:
yij=Wixij (2)
H表示埃尔米特转置,yij是sij的估计;
步骤2:通过Xij=xijxij H对声源功率谱进行建模,并使用非负矩阵分解Xij:
其中K是基向量的数量,vik,n是频谱基础矩阵的第n个声源的元素,tkj,n是时间激活矩阵/>的第n个声源的元素,/>是空间协方差第n个声源的第i个频段;
将所有声源在全部频带上的频段Ri,n完整表示为一个张量Xij在全部时频箱的完整表示作为一个张量/>
步骤3:最小体积多通道声源分离;
由于在(3)式中存在Vn的几种有效解,因此MNMF源模型的分解不是唯一的。为了提高ILRMA的可识别性,采用基于最小体积的多通道非负矩阵分解的方法(MinVol)。MinVol的原理如图1所示。
目标函数为:
其中1是一个全1向量,vol(Vn)表示最小体积正则化:
其中,δ为一个小的正常数,IK是K维的单位矩阵,是近似损失;
使用最小体积多通道声源分离的原因是,最大限度地减小Vn的体积使Vn的列在单位单纯形内彼此尽可能接近。对于不同的数据分布假设,损失l的选择应有所不同。由于假设数据是乘法伽马分布,所以选择IS散度作为损失。IS散度是β散度家族中唯一具有尺度不变性质的散度。这表明低功率时频箱的分布与高功率时频箱的分布在散度计算时同样重要。
步骤4:以式(4)作为目标函数进行训练,求得Wi,最终得到分离信号yij,实现多通道盲声源的分离。
具体实施例:
(1)数据准备:
根据SISEC挑战的环境,构造了一个M=N=2,即麦克风个数和声源数都为2的多通道语音分离任务。使用华尔街日报(WSJ0)语料库作为声源,评估了所有性别组合的比较方法。
生成两个测试条件,分别表示为条件1和条件2。在这两种情况下,房间大小都被设置为6×6×3米;两个说话者被安置在距离两个麦克风中心2米的地方。两种情况的区别是:(i)麦克风间距分别为5.66cm和2.83cm,(ii)两个说话者的入射角分别为40°和40°与40°和20°。使用图像源模型生成房间脉冲响应,混响时间T60从[130,150,200,250,300,350,400,450,500]ms中选择。对于每种性别组合和每种条件下的每个T60,生成了200个混合物进行评估。采样频率设置为16khz。
(2)数据处理:
最小体积约束的多通道盲声源分离算法(MinVol)的δ参数设置为0.5。MinVol对δ的选择不敏感,因为它只用于防止(5)式无穷大。比较了MinVol与AuxIVA、MNMF和ILRMA方法。对于每种方法,设置短时傅里叶变换(STFT)的帧长度和帧移位分别为64ms与32ms。每一帧应用了汉明窗。默认情况下,在MNMF、ILRMA和MinVol中基向量的个数设置为10。评价指标为信号失真率(SDR)。
(3)对比结果
表1 信号失真率(SDR)平均提高(dB)
首先在消声环境中进行实验。比较几种方法对混合语音的平均SDR改进。本发明提出的MinVol的性能明显优于MNMF。与AuxIVA和ILRMA相比,MinVol的SDR平均提高了约3dB。然后比较了在混响环境下各方法的性能,MinVol方法得到的SDR改善曲线始终高于对比方法得到的SDR改善曲线。
为了清楚地显示MinVol相对于参考方法的总体改进,将不同性别组合的SDR改进和每种条件的T60取平均值。平均结果列于表1。从表中可以看出,在条件1中,所提出的MinVol所带来的平均SDR提升比ILRMA高2dB,条件2中所带来的平均SDR提升比ILRMA高3dB。
Claims (2)
1.一种基于最小体积约束的多通道盲声源分离方法,其特征在于,包括以下步骤:
步骤1:多通道盲声源分离问题公式化表示;
假设多通道混合声源的短时傅立叶变换STFT为 其中i=1,…,I,j=1,…,J和m=1,…,M分别表示频点、时间帧和麦克风,I表示频点数量,J表示时间帧数量,M表示麦克风数量,T表示转置;
声源表示为N是声源的数量,n=1,…,N是声源的索引;
假设每个声源都是点源,混合声源与每个声源具有以下联系:
xij=Aisij (1)
其中Ai是在第i个频点的混合矩阵;
待求解分离信号yij表示为:
yij=Wixij (2)
其中Wi为(Ai)-1的估计,表示为Wi=[wi,1,…,wi,M]H,H表示埃尔米特转置;
步骤2:通过Xij=xijxij H对声源功率谱进行建模,并使用非负矩阵分解Xij:
其中K是基向量的数量,vik,n是频谱基础矩阵的第n个声源的元素,tkj,n是时间激活矩阵/>的第n个声源的元素,/>是空间协方差第n个声源的第i个频段;
将所有声源在全部频带上的频段Ri,n完整表示为一个张量Xij在全部时频箱的完整表示作为一个张量/>
步骤3:最小体积多通道声源分离;
采用基于最小体积的多通道非负矩阵分解,定义目标函数为:
其中1是一个全1向量,vol(Vn)表示最小体积正则化:
其中,δ为正常数,IK是K维的单位矩阵,是近似损失;
步骤4:以式(4)作为目标函数进行训练,求得Wi,最终得到分离信号yij,实现多通道盲声源的分离。
2.根据权利要求1所述的一种基于最小体积约束的多通道盲声源分离方法,其特征在于,所述δ=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427529.1A CN113241090B (zh) | 2021-04-21 | 2021-04-21 | 一种基于最小体积约束的多通道盲声源分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427529.1A CN113241090B (zh) | 2021-04-21 | 2021-04-21 | 一种基于最小体积约束的多通道盲声源分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113241090A CN113241090A (zh) | 2021-08-10 |
CN113241090B true CN113241090B (zh) | 2023-10-17 |
Family
ID=77128630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110427529.1A Active CN113241090B (zh) | 2021-04-21 | 2021-04-21 | 一种基于最小体积约束的多通道盲声源分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113241090B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220453B (zh) * | 2022-01-12 | 2022-08-16 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243483A (zh) * | 2018-10-17 | 2019-01-18 | 西安交通大学 | 一种含噪频域卷积盲源分离方法 |
CN111739551A (zh) * | 2020-06-24 | 2020-10-02 | 广东工业大学 | 一种基于低秩与稀疏张量分解的多通道心肺音去噪系统 |
CN111986695A (zh) * | 2019-05-24 | 2020-11-24 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6622159B2 (ja) * | 2016-08-31 | 2019-12-18 | 株式会社東芝 | 信号処理システム、信号処理方法およびプログラム |
-
2021
- 2021-04-21 CN CN202110427529.1A patent/CN113241090B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243483A (zh) * | 2018-10-17 | 2019-01-18 | 西安交通大学 | 一种含噪频域卷积盲源分离方法 |
CN111986695A (zh) * | 2019-05-24 | 2020-11-24 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
CN111739551A (zh) * | 2020-06-24 | 2020-10-02 | 广东工业大学 | 一种基于低秩与稀疏张量分解的多通道心肺音去噪系统 |
Non-Patent Citations (1)
Title |
---|
基于时频稀疏约束的多通道声源分离算法;黄镒东;应忍冬;;信息技术(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113241090A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11783849B2 (en) | Enhanced multi-channel acoustic models | |
Gannot et al. | A consolidated perspective on multimicrophone speech enhancement and source separation | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
Taherian et al. | Robust speaker recognition based on single-channel and multi-channel speech enhancement | |
Wang et al. | Rank-1 constrained multichannel Wiener filter for speech recognition in noisy environments | |
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
Hansen | Signal subspace methods for speech enhancement | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN111312275B (zh) | 一种基于子带分解的在线声源分离增强系统 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
Habets et al. | Dereverberation | |
Van Kuyk et al. | On the information rate of speech communication | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Yang et al. | Deep ad-hoc beamforming based on speaker extraction for target-dependent speech separation | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
Higuchi et al. | Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model | |
Parada et al. | Reverberant speech recognition exploiting clarity index estimation | |
Di Persia et al. | Objective quality evaluation in blind source separation for speech recognition in a real room | |
Gao et al. | Joint training of DNNs by incorporating an explicit dereverberation structure for distant speech recognition | |
Higuchi et al. | A unified approach for underdetermined blind signal separation and source activity detection by multichannel factorial hidden Markov models | |
Kühne et al. | A new evidence model for missing data speech recognition with applications in reverberant multi-source environments | |
Arberet et al. | A tractable framework for estimating and combining spectral source models for audio source separation | |
Mirsamadi et al. | Multichannel feature enhancement in distributed microphone arrays for robust distant speech recognition in smart rooms | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
Aroudi et al. | DBNET: DOA-driven beamforming network for end-to-end farfield sound source separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |