CN115713943A - 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 - Google Patents

基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 Download PDF

Info

Publication number
CN115713943A
CN115713943A CN202211413063.0A CN202211413063A CN115713943A CN 115713943 A CN115713943 A CN 115713943A CN 202211413063 A CN202211413063 A CN 202211413063A CN 115713943 A CN115713943 A CN 115713943A
Authority
CN
China
Prior art keywords
short
sound source
voice signal
time
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211413063.0A
Other languages
English (en)
Inventor
邓宇汐
周琳
程云苓
王启瑞
许越
曹焱翔
庄程浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211413063.0A priority Critical patent/CN115713943A/zh
Publication of CN115713943A publication Critical patent/CN115713943A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公布了一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。训练阶段,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征。基于复空间角中心高斯混合聚类模型,计算各目标声源的掩蔽值,作为双向长短时记忆网络的训练目标,损失函数采用均方误差损失。测试阶段,根据双向长短时记忆网络输出的各目标声源在参考通道测试语音信号中的掩蔽估计值,计算多通道测试语音信号的协方差矩阵并进行广义特征值分解,基于各目标声源预期信噪比增益最大化准则,得到各目标声源的波束成形器系数,从而分离得到各目标声源。

Description

基于复空间角中心高斯混合聚类模型和双向长短时记忆网络 的波束成形语音分离方法
技术领域
本发明属于阵列麦克风语音分离领域,尤其涉及基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法。
背景技术
“鸡尾酒会问题”是一个具有数十年历史的经典问题,近年来基于学习的方法获得了远超传统方法的突出结果。根据语音数字信号的硬件采集设备的不同,语音分离分为单通道语音分离和多通道语音分离,前者主要依赖于单通道语音本身的时频域特征,而后者更多地考虑各通道语音的空间关系。
机器学习的方法在语音分离中一直受到广泛应用,包括自适应波束形成器的设计、聚类方法等。前者如波束形成器设计中的广义旁瓣抵消算法自适应更新干扰抵消器、自适应的广义特征值分解波束形成器等,后者如基于复高斯混合模型、复沃特森混合模型等混合模型,可使用期望最大化等迭代算法对掩蔽值进行无监督估计。
神经网络是一种近年来十分活跃且效果优异的统计学习方法。大量的神经网络结构,如卷积神经网络、循环神经网络、注意力网络等已经应用于语音分离领域。但语音分离这一研究领域依然需要开展大量、深入的研究工作,传统语音分离算法在高混响、低信噪比的环境下性能下降严重。
发明内容
本发明目的在于提供一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,针对在噪声、混响干扰环境,在波束形成器的基本框架下,结合麦克风阵列信号的时频域及空间信息,以解决多通道语音的说话人无关语音分离的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,该方法包括以下步骤:
步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值;
步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值;
步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络;
步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱;
步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值;
步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形。
进一步的,步骤1和步骤4中的去混响预处理采用了带权重预测误差去混响预处理;多通道数据通过分帧、加窗、短时傅里叶变换、取对数运算后,基于带权重预测误差去混响算法,得到纯净语音的最大似然估计,去除信号中的混响成分。
进一步的,步骤2中基于复空间角中心高斯混合聚类模型对训练语音信号进行建模,计算参考通道训练语音信号中各目标声源信号的掩蔽值;复空间角中心高斯混合模型的概率密度函数表示式为:
Figure BDA0003938798980000021
其中,
Figure BDA0003938798980000031
Figure BDA0003938798980000032
是复空间角中心高斯混合聚类模型参数,
Figure BDA0003938798980000033
Figure BDA0003938798980000034
为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示的是第k个声源,取值范围为[1,K],K为声源数目,
Figure BDA0003938798980000035
为复空间角中心高斯分布,其表达式为:
Figure BDA0003938798980000036
其中,det()为矩阵的行列式运算,M为通道数目,!表示阶乘运算,H表示转置运算。
进一步的,步骤3中将基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数
Figure BDA0003938798980000037
训练双向长短时记忆网络;
Figure BDA0003938798980000038
其中,
Figure BDA0003938798980000039
训练数据在双向长短时网络输出的第t帧、f频点上的第k个声源的掩蔽估计值,
Figure BDA00039387989800000310
是训练数据基于复空间角中心高斯混合聚类模型参数计算的第k个声源掩蔽值。
进一步的,步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤:
在计算某个目标声源i时,将其它声源视为噪声,对于每一个时频点,使用时域平均代替统计平均,得到目标声源i的协方差矩阵
Figure BDA00039387989800000311
和噪声协方差矩阵
Figure BDA00039387989800000312
的计算公式:
Figure BDA00039387989800000313
Figure BDA00039387989800000314
其中,Ttest是计算协方差阵使用的测试数据帧数,
Figure BDA0003938798980000041
为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,
Figure BDA0003938798980000042
是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目;
广义特征值分解波束形成器,使得给定目标声源在波束形成器输出处的预期信噪比增益最大化,进而得到目标声源i的波束成形器系数
Figure BDA0003938798980000043
Figure BDA0003938798980000044
根据第i个目标声源的波束成形器系数
Figure BDA0003938798980000045
得到第i个目标声源时频谱
Figure BDA0003938798980000046
的计算公式:
Figure BDA0003938798980000047
其中,H表示转置运算。
本发明的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,具有以下优点:
本发明将研究方向集中在波束形成上,并将掩蔽值、神经网络等已被证明具有优良效果的方法融入到波束形成算法中,从而一方面能够保证算法具有波束形成器普遍具有的短时不变、稳定迭代的特性,对语音有较为稳定的处理效果,避免神经网络的时变输出影响到语音的连续性;另一方面也使得波束形成器设计能利用神经网络等算法的优势,学习到大量数据中的信息,从而改进其参数估计及迭代策略,拥有更好的分离效果。在不同声学环境下的仿真测试表明,本发明算法性能优于传统波束成形算法,在语音分离中显著提高了尺度不变信噪比和短时语音可懂度。
附图说明
图1为本发明多通道分离系统整体算法流程图;
图2为本发明利用期望最大化迭代算法估计掩蔽值流程图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法做进一步详细的描述。
如图1所示,复空间角中心高斯混合聚类模型和双向长短时记忆网络语音分离方法包括以下步骤:
步骤一、本发明的声源信号是在TIMIT语音库中随机抽选语音信号,其中包括男声女声,包括各种不同的句子,针对每个声源位置对,随机选出5种不同的语音对,每对语音的功率差随机设置在0dB到3dB间,生成带有混响的混合语音,混响有0ms(无混响)、200ms、500ms这3种配置。本发明还从RIRS_NOISES噪声库中随机选取噪声以特定信噪比添加到混合语音中,包括街头、鸣笛等多种真实场景的噪声。
多通道训练语音信号通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值。
第m通道语音信号进行短时傅里叶变换得到第t帧、第f频点上的频谱
Figure BDA0003938798980000051
Figure BDA0003938798980000052
其中,xm(t,n)为分帧、加窗后的第m通道、第t帧时域语音信号,m取值范围为[1,M],M为通道总个数,n为样本点,N为帧长,Σ为求和运算。
设参考通道为第1个通道,该参考通道语音信号对数功率谱的计算如下:
Figure BDA0003938798980000053
其中,
Figure BDA0003938798980000054
表示参考通道语音信号的频谱,
Figure BDA0003938798980000055
表示参考通道语音信号的幅度谱,lg()表示底数为10的对数运算。
计算参考通道语音信号与其余通道语音信号之间的相位差,并计算相位差的正弦和余弦值,参考通道和第j个通道语音信号相位差IPD1,j计算公式如下:
Figure BDA0003938798980000061
cosIPD1,j=cos(IPD1,j)
sinIPD1,j=sin(IPD1,j)
其中,
Figure BDA0003938798980000062
Figure BDA0003938798980000063
分别表示参考通道和参考通道外第j个通道语音信号的频谱,∠表示频谱的相位,sinIPD1,j和cosIPD1,j分别表示参考通道和其余第j个通道相位差正弦与余弦值。
步骤二、基于步骤一计算得到的对数功率谱和期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型的参数,估计各目标声源在参考通道训练语音信号中的掩蔽值
Figure BDA0003938798980000064
具体流程如图2所示。
第k个声源的复空间角中心高斯混合聚类模型参数
Figure BDA0003938798980000065
的计算,采用期望最大化EM算法(Expectation-Maximization)进行估计。通过E步,得到复空间角中心高斯混合模型的对数似然函数L(Θf),接着通过M步,求解使得L(Θf)极大化的模型参数
Figure BDA0003938798980000066
确定了下一次迭代的模型参数
Figure BDA0003938798980000067
通过不断重复E步和M步直到收敛,得到复空间角中心高斯混合聚类模型参数
Figure BDA0003938798980000068
首先对模型参数
Figure BDA0003938798980000069
设置初始值,得到复空间角中心高斯混合模型的对数似然函数,并将求解L(Θf)简称为E步:
Figure BDA00039387989800000610
其中
Figure BDA00039387989800000611
为复空间角中心高斯分布,det()为矩阵的行列式运算,
Figure BDA00039387989800000612
Figure BDA00039387989800000613
为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示声源序号,取值范围为[1,K],K为声源数目,!表示阶乘运算,Ttrain是用于求取模型参数Θf的训练数据帧数,M为通道总个数。
L(Θf)分别对模型参数
Figure BDA00039387989800000614
求偏导并使导数为0,得到使L(Θf)函数极大化的模型参数
Figure BDA0003938798980000071
表达式,并将求解模型参数简称为M步:
Figure BDA0003938798980000072
Figure BDA0003938798980000073
其中,
Figure BDA0003938798980000074
Figure BDA0003938798980000075
是复空间角中心高斯混合聚类模型参数。
第i个声源在参考通道训练语音信号第t帧、第f频点上的掩蔽估计值
Figure BDA0003938798980000076
表达式为:
Figure BDA0003938798980000077
其中,k表示所有声源序号,取值范围为[1,K],K为声源数目。
步骤三将步骤一计算的参考通道训练语音信号对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦和余弦值,作为双向长短时记忆网络的输入特征,本发明利用双向长短时记忆网络将上述特征映射为各目标声源的掩蔽值。将步骤二基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数
Figure BDA0003938798980000078
训练双向长短时记忆网络:
Figure BDA0003938798980000079
其中,
Figure BDA00039387989800000710
训练数据在双向长短时网络输出的第t帧、f频点上的第k个声源的掩蔽估计值,
Figure BDA00039387989800000711
是训练数据基于复空间角中心高斯混合聚类模型参数计算的第k个声源掩蔽值。
步骤四多通道测试语音信号,分别通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音与其余通道测试语音之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号相位谱;
步骤五将步骤四参考通道测试语音信号的对数功率谱、参考通道测试语音与其余通道测试语音之间相位差的正弦与余弦值,作为步骤三中训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽估计值;
步骤六根据步骤五中双向长短时记忆网络输出的掩蔽估计值,以及步骤四的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵。基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数。
在计算某个目标声源i时,将其它声源视为噪声,对于每一个时频点,使用时域平均代替统计平均,得到目标声源i的协方差矩阵
Figure BDA0003938798980000081
和噪声协方差矩阵
Figure BDA0003938798980000082
的计算公式:
Figure BDA0003938798980000083
Figure BDA0003938798980000084
其中,Ttest是计算协方差阵使用的测试数据帧数,
Figure BDA0003938798980000085
为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,
Figure BDA0003938798980000086
是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目。
广义特征值分解波束形成器,使得给定目标声源在波束形成器输出处的预期信噪比增益最大化,进而得到目标声源i的波束成形器系数
Figure BDA0003938798980000087
Figure BDA0003938798980000088
根据第i个目标声源的波束成形器系数
Figure BDA0003938798980000089
得到第i个目标声源时频谱
Figure BDA00039387989800000810
的计算公式:
Figure BDA00039387989800000811
其中,H表示转置运算。
性能评估:
使用尺度不变的信噪比SI-SNRi(Scale-Invariant Source-to-Noise Ratioimprovement)衡量语音分离质量,使用短时语音可懂度STOI(Short-Time ObjectiveIntelligibility)指标评价语音可懂度,STOI取值区间在[0,1],STOI越高,语音的可懂度越好。将本发明基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的语音分离方法,与基于传统波束形成和双向长短时记忆网络的多通道语音分离算法MVDR-BLSTM、基于掩蔽值和长短时记忆网络的多通道语音分离算法BLSTM-IRM,进行性能比较,结果如下。
表一给出了是本发明的算法和BLSTM-IRM、MVDR-BLSTM两类对比算法的SI-SNRi比较结果,表格中SNR为信噪比,T0、T200、T500分别代表的混响时间为0s、200ms、500ms。
表一多环境下不同算法的SI-SNRi值比较
Figure BDA0003938798980000091
表二给出的是本发明的算法和BLSTM-IRM、MVDR-BLSTM两类对比算法的STOI比较结果在测试数据集上的具体评价指标的比较。
表二多环境下不同算法的STOI值比较
Figure BDA0003938798980000092
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (5)

1.一种基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,该方法包括以下步骤:
步骤1、包含噪声和混响的多通道训练语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值;
步骤2、利用步骤1计算的参考通道训练语音信号的对数功率谱,基于期望最大化迭代算法,得到训练语音信号基于复空间角中心高斯混合聚类模型参数,估计各目标声源在参考通道训练语音信号中的掩蔽值;
步骤3、将步骤1计算的参考通道训练语音信号的对数功率谱、参考通道训练语音信号与其余通道训练语音信号之间相位差的正弦与余弦值,作为双向长短时记忆网络的输入特征,将步骤2中各目标声源在参考通道训练语音信号的掩蔽值作为双向长短时记忆网络的训练目标,基于均方误差损失函数训练双向长短时记忆网络;
步骤4、包含噪声和混响的多通道测试语音信号,通过分帧、加窗、短时傅里叶变换、取对数运算和去混响预处理后,计算参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,同时短时傅里叶变换得到多通道测试语音信号的相位谱;
步骤5、将步骤4中参考通道测试语音信号的对数功率谱、参考通道测试语音信号与其余通道测试语音信号之间相位差的正弦与余弦值,作为步骤3训练得到的双向长短时记忆网络的输入特征,输出各目标声源在参考通道测试语音信号中的掩蔽值;
步骤6、根据步骤5中双向长短时记忆网络输出的掩蔽值,以及步骤4的多通道测试语音信号,计算多通道测试语音信号的协方差矩阵,基于给定目标声源在波束形成器输出处的预期信噪比增益最大化准则,得到各目标声源的波束成形器系数;波束成形器与多通道测试语音信号卷积后,结合步骤4中多通道测试语音数据的相位谱,得到分离后的目标语音信号频谱,经过短时傅里叶逆变换,得到目标语音信号的时域波形。
2.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤1和步骤4中的去混响预处理采用了带权重预测误差去混响预处理;多通道数据通过分帧、加窗、短时傅里叶变换、取对数运算后,基于带权重预测误差去混响算法,得到纯净语音的最大似然估计,去除信号中的混响成分。
3.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤2中基于复空间角中心高斯混合聚类模型对训练语音信号进行建模,计算参考通道训练语音信号中各目标声源信号的掩蔽值;复空间角中心高斯混合模型的概率密度函数表示式为:
Figure FDA0003938798970000021
其中,
Figure FDA0003938798970000022
是复空间角中心高斯混合聚类模型参数,
Figure FDA0003938798970000023
Figure FDA0003938798970000024
为多通道训练语音信号的短时傅里叶变换,||||为二范数运算,k表示的是第k个声源,取值范围为[1,K],K为声源数目,
Figure FDA0003938798970000025
为复空间角中心高斯分布,其表达式为:
Figure FDA0003938798970000026
其中,det()为矩阵的行列式运算,M为通道数目,!表示阶乘运算,H表示转置运算。
4.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤3中将基于复空间角中心高斯混合聚类模型计算的掩蔽值和双向长短时记忆网络输出的掩蔽估计值之间的均方误差作为损失函数
Figure FDA0003938798970000027
训练双向长短时记忆网络:
Figure FDA0003938798970000028
其中,
Figure FDA0003938798970000029
训练数据在双向长短时网络输出的第t帧、f频点上的第k个声源的掩蔽估计值,
Figure FDA00039387989700000210
是训练数据基于复空间角中心高斯混合聚类模型参数计算的第k个声源掩蔽值。
5.根据权利要求1所述的基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法,其特征在于,步骤6中基于给定目标声源在波束形成器输出处的预期信噪比增益最大化为准则,得到每个声源的波束成形系数具体包括以下步骤:
在计算某个目标声源i时,将其它声源视为噪声,对于每一个时频点,使用时域平均代替统计平均,得到目标声源i的协方差矩阵
Figure FDA0003938798970000031
和噪声协方差矩阵
Figure FDA0003938798970000032
的计算公式:
Figure FDA0003938798970000033
Figure FDA0003938798970000034
其中,Ttest是计算协方差阵使用的测试数据帧数,
Figure FDA0003938798970000035
为多通道测试语音信号的短时傅里叶变换,H为矩阵转置,
Figure FDA0003938798970000036
是测试数据在双向长短时记忆网络输出的第t帧、f频点上第i个声源的掩蔽估计值,i,k的取值范围为[1,K],K为声源数目;
广义特征值分解波束形成器,使得给定目标声源在波束形成器输出处的预期信噪比增益最大化,进而得到目标声源i的波束成形器系数
Figure FDA0003938798970000037
Figure FDA0003938798970000038
根据第i个目标声源的波束成形器系数
Figure FDA0003938798970000039
得到第i个目标声源时频谱
Figure FDA00039387989700000310
的计算公式:
Figure FDA00039387989700000311
其中,H表示转置运算。
CN202211413063.0A 2022-11-11 2022-11-11 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 Pending CN115713943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211413063.0A CN115713943A (zh) 2022-11-11 2022-11-11 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211413063.0A CN115713943A (zh) 2022-11-11 2022-11-11 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法

Publications (1)

Publication Number Publication Date
CN115713943A true CN115713943A (zh) 2023-02-24

Family

ID=85232834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211413063.0A Pending CN115713943A (zh) 2022-11-11 2022-11-11 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法

Country Status (1)

Country Link
CN (1) CN115713943A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117368848A (zh) * 2023-12-06 2024-01-09 中国海洋大学 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117368848A (zh) * 2023-12-06 2024-01-09 中国海洋大学 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统
CN117368848B (zh) * 2023-12-06 2024-05-03 中国海洋大学 基于长短期记忆神经网络的虚拟阵元波束形成方法及系统

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning based target cancellation for speech dereverberation
CN110085249A (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
Wang et al. Recurrent deep stacking networks for supervised speech separation
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
Boeddeker et al. Convolutive transfer function invariant SDR training criteria for multi-channel reverberant speech separation
CN113129918A (zh) 联合波束形成和深度复数U-Net网络的语音去混响方法
Aroudi et al. Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation
Nakagome et al. Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation.
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
Sawata et al. Improving character error rate is not equal to having clean speech: Speech enhancement for asr systems with black-box acoustic models
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Parada et al. Reverberant speech recognition exploiting clarity index estimation
Kühne et al. A new evidence model for missing data speech recognition with applications in reverberant multi-source environments
Örnolfsson et al. Exploiting non-negative matrix factorization for binaural sound localization in the presence of directional interference
CN113241090B (zh) 一种基于最小体积约束的多通道盲声源分离方法
Aroudi et al. DBNET: DOA-driven beamforming network for end-to-end farfield sound source separation
Sarabia et al. Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Chen et al. Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection
Li et al. Speech enhancement based on binaural sound source localization and cosh measure wiener filtering
Di Persia et al. Indeterminacy free frequency-domain blind separation of reverberant audio sources
Inoue et al. Sepnet: a deep separation matrix prediction network for multichannel audio source separation
Yuan et al. Multi-channel Speech Enhancement with Multiple-target GANs
Youssef et al. Binaural speaker recognition for humanoid robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination