CN115713943A - 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 - Google Patents
基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 Download PDFInfo
- Publication number
- CN115713943A CN115713943A CN202211413063.0A CN202211413063A CN115713943A CN 115713943 A CN115713943 A CN 115713943A CN 202211413063 A CN202211413063 A CN 202211413063A CN 115713943 A CN115713943 A CN 115713943A
- Authority
- CN
- China
- Prior art keywords
- short
- sound source
- voice signal
- time
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公布了一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。训练阶段,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征。基于复空间角中心高斯混合聚类模型,计算各目标声源的掩蔽值,作为双向长短时记忆网络的训练目标,损失函数采用均方误差损失。测试阶段,根据双向长短时记忆网络输出的各目标声源在参考通道测试语音信号中的掩蔽估计值,计算多通道测试语音信号的协方差矩阵并进行广义特征值分解,基于各目标声源预期信噪比增益最大化准则,得到各目标声源的波束成形器系数,从而分离得到各目标声源。
Description
技术领域
本发明属于阵列麦克风语音分离领域,尤其涉及基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。
背景技术
“鸡尾酒会问题”是一个具有数十年历史的经典问题,近年来基于学习的方法获得了远超传统方法的突出结果。根据语音数字信号的硬件采集设备的不同,语音分离分为单通道语音分离和多通道语音分离,前者主要依赖于单通道语音本身的时频域特征,而后者更多地考虑各通道语音的空间关系。
机器学习的方法在语音分离中一直受到广泛应用,包括自适应波束形成器的设计、聚类方法等。前者如波束形成器设计中的广义旁瓣抵消算法自适应更新干扰抵消器、自适应的广义特征值分解波束形成器等,后者如基于复高斯混合模型、复沃特森混合模型等混合模型,可使用期望最大化等迭代算法对掩蔽值进行无监督估计。
神经网络是一种近年来十分活跃且效果优异的统计学习方法。大量的神经网络结构,如卷积神经网络、循环神经网络、注意力网络等已经应用于语音分离领域。但语音分离这一研究领域依然需要开展大量、深入的研究工作,传统语音分离算法在高混响、低信噪比的环境下性能下降严重。
发明内容
本发明目的在于提供一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,针对在噪声、混响干扰环境,在波束形成器的基本框架下,结合麦克风阵列信号的时频域及空间信息,以解决多通道语音的说话人无关语音分离的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,该方法包括以下步骤:
步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值;
步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值;
步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络;
步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱;
步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值;
步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形。
进一步的,步骤1和步骤4中的去混响预处理采用了带权重预测误差去混响预处理;多通道数据通过分帧、加窗、短时傅里叶变换、取对数运算后,基于带权重预测误差去混响算法,得到纯净语音的最大似然估计,去除信号中的混响成分。
进一步的,步骤2中基于复空间角中心高斯混合聚类模型对训练语音信号进行建模,计算参考通道训练语音信号中各目标声源信号的掩蔽值;复空间角中心高斯混合模型的概率密度函数表示式为:
其中, 是复空间角中心高斯混合聚类模型参数, 为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示的是第k个声源,取值范围为[1,K],K为声源数目,为复空间角中心高斯分布,其表达式为:
其中,det()为矩阵的行列式运算,M为通道数目,!表示阶乘运算,H表示转置运算。
进一步的,步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤:
其中,Ttest是计算协方差阵使用的测试数据帧数,为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目;
其中,H表示转置运算。
本发明的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,具有以下优点:
本发明将研究方向集中在波束形成上,并将掩蔽值、神经网络等已被证明具有优良效果的方法融入到波束形成算法中,从而一方面能够保证算法具有波束形成器普遍具有的短时不变、稳定迭代的特性,对语音有较为稳定的处理效果,避免神经网络的时变输出影响到语音的连续性;另一方面也使得波束形成器设计能利用神经网络等算法的优势,学习到大量数据中的信息,从而改进其参数估计及迭代策略,拥有更好的分离效果。在不同声学环境下的仿真测试表明,本发明算法性能优于传统波束成形算法,在语音分离中显著提高了尺度不变信噪比和短时语音可懂度。
附图说明
图1为本发明多通道分离系统整体算法流程图;
图2为本发明利用期望最大化迭代算法估计掩蔽值流程图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法做进一步详细的描述。
如图1所示,复空间角中心高斯混合聚类模型和双向长短时记忆网络语音分离方法包括以下步骤:
步骤一、本发明的声源信号是在TIMIT语音库中随机抽选语音信号,其中包括男声女声,包括各种不同的句子,针对每个声源位置对,随机选出5种不同的语音对,每对语音的功率差随机设置在0dB到3dB间,生成带有混响的混合语音,混响有0ms(无混响)、200ms、500ms这3种配置。本发明还从RIRS_NOISES噪声库中随机选取噪声以特定信噪比添加到混合语音中,包括街头、鸣笛等多种真实场景的噪声。
多通道训练语音信号通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值。
其中,xm(t,n)为分帧、加窗后的第m通道、第t帧时域语音信号,m取值范围为[1,M],M为通道总个数,n为样本点,N为帧长,Σ为求和运算。
设参考通道为第1个通道,该参考通道语音信号对数功率谱的计算如下:
计算参考通道语音信号与其余通道语音信号之间的相位差,并计算相位差的正弦和余弦值,参考通道和第j个通道语音信号相位差IPD1,j计算公式如下:
cosIPD1,j=cos(IPD1,j)
sinIPD1,j=sin(IPD1,j)
第k个声源的复空间角中心高斯混合聚类模型参数的计算,采用期望最大化EM算法(Expectation-Maximization)进行估计。通过E步,得到复空间角中心高斯混合模型的对数似然函数L(Θf),接着通过M步,求解使得L(Θf)极大化的模型参数确定了下一次迭代的模型参数通过不断重复E步和M步直到收敛,得到复空间角中心高斯混合聚类模型参数
其中为复空间角中心高斯分布,det()为矩阵的行列式运算, 为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示声源序号,取值范围为[1,K],K为声源数目,!表示阶乘运算,Ttrain是用于求取模型参数Θf的训练数据帧数,M为通道总个数。
其中,k表示所有声源序号,取值范围为[1,K],K为声源数目。
步骤三将步骤一计算的参考通道训练语音信号对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征,本发明利用双向长短时记忆网络将上述特征映射为各目标声源的掩蔽值。将步骤二基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数训练双向长短时记忆网络:
步骤四多通道测试语音信号,分别通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音与其余通道测试语音之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号相位谱;
步骤五将步骤四参考通道测试语音信号的对数功率谱、参考通道测试语音与其余通道测试语音之间相位差的正弦与余弦值,作为步骤三中训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽估计值;
步骤六根据步骤五中双向长短时记忆网络输出的掩蔽估计值,以及步骤四的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵。基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数。
其中,Ttest是计算协方差阵使用的测试数据帧数,为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目。
其中,H表示转置运算。
性能评估:
使用尺度不变的信噪比SI-SNRi(Scale-Invariant Source-to-Noise Ratioimprovement)衡量语音分离质量,使用短时语音可懂度STOI(Short-Time ObjectiveIntelligibility)指标评价语音可懂度,STOI取值区间在[0,1],STOI越高,语音的可懂度越好。将本发明基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的语音分离方法,与基于传统波束形成和双向长短时记忆网络的多通道语音分离算法MVDR-BLSTM、基于掩蔽值和长短时记忆网络的多通道语音分离算法BLSTM-IRM,进行性能比较,结果如下。
表一给出了是本发明的算法和BLSTM-IRM、MVDR-BLSTM两类对比算法的SI-SNRi比较结果,表格中SNR为信噪比,T0、T200、T500分别代表的混响时间为0s、200ms、500ms。
表一多环境下不同算法的SI-SNRi值比较
表二给出的是本发明的算法和BLSTM-IRM、MVDR-BLSTM两类对比算法的STOI比较结果在测试数据集上的具体评价指标的比较。
表二多环境下不同算法的STOI值比较
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (5)
1.一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,该方法包括以下步骤:
步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值;
步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值;
步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络;
步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱;
步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值;
步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形。
2.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤1和步骤4中的去混响预处理采用了带权重预测误差去混响预处理;多通道数据通过分帧、加窗、短时傅里叶变换、取对数运算后,基于带权重预测误差去混响算法,得到纯净语音的最大似然估计,去除信号中的混响成分。
5.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤:
其中,Ttest是计算协方差阵使用的测试数据帧数,为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目;
其中,H表示转置运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211413063.0A CN115713943A (zh) | 2022-11-11 | 2022-11-11 | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211413063.0A CN115713943A (zh) | 2022-11-11 | 2022-11-11 | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115713943A true CN115713943A (zh) | 2023-02-24 |
Family
ID=85232834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211413063.0A Pending CN115713943A (zh) | 2022-11-11 | 2022-11-11 | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115713943A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117368848A (zh) * | 2023-12-06 | 2024-01-09 | 中国海洋大学 | 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统 |
-
2022
- 2022-11-11 CN CN202211413063.0A patent/CN115713943A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117368848A (zh) * | 2023-12-06 | 2024-01-09 | 中国海洋大学 | 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统 |
CN117368848B (zh) * | 2023-12-06 | 2024-05-03 | 中国海洋大学 | 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Deep learning based target cancellation for speech dereverberation | |
CN110085249A (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
Boeddeker et al. | Convolutive transfer function invariant SDR training criteria for multi-channel reverberant speech separation | |
CN113129918A (zh) | 联合波束形成和深度复数U-Net网络的语音去混响方法 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
Sawata et al. | Improving character error rate is not equal to having clean speech: Speech enhancement for asr systems with black-box acoustic models | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Parada et al. | Reverberant speech recognition exploiting clarity index estimation | |
Kühne et al. | A new evidence model for missing data speech recognition with applications in reverberant multi-source environments | |
Örnolfsson et al. | Exploiting non-negative matrix factorization for binaural sound localization in the presence of directional interference | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Aroudi et al. | DBNET: DOA-driven beamforming network for end-to-end farfield sound source separation | |
Sarabia et al. | Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Chen et al. | Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection | |
Li et al. | Speech enhancement based on binaural sound source localization and cosh measure wiener filtering | |
Di Persia et al. | Indeterminacy free frequency-domain blind separation of reverberant audio sources | |
Inoue et al. | Sepnet: a deep separation matrix prediction network for multichannel audio source separation | |
Yuan et al. | Multi-channel Speech Enhancement with Multiple-target GANs | |
Youssef et al. | Binaural speaker recognition for humanoid robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |