CN112216301A

CN112216301A - 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Info

Publication number: CN112216301A
Application number: CN202011285987.8A
Authority: CN
Inventors: 周琳; 冯坤; 王天仪; 许越; 林震宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-01-12
Anticipated expiration: 2040-11-17
Also published as: CN112216301B

Abstract

本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法，通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数，利用深度聚类网络的编码层将特征参数映射为高维特征，实现深度聚类网络编码层的训练。测试时，将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图，再通过K均值聚类方法完成对各频点的分类，得到各频点的二值掩膜矩阵，从而实现混合语音的分离。本发明分离性能良好，且具有较强的鲁棒性。

Description

基于对数幅度谱和耳间相位差的深度聚类语音分离方法

技术领域

本发明属于语音分离技术领域，涉及一种基于对数幅度谱和耳间相位差的深度聚类双耳语音分离方法。

背景技术

语音分离，指的是从复杂的声学环境中，提取中目标说话人的语音信号，同时尽可能减少对原始语音的改变。语音分离技术可以提高语音信号处理系统的整体性能。

语音分离作为语音学术界的重要领域，一直以来都受到广大学者的重点关注。在嘈杂的环境中，人类能够轻易地辨别出自己感兴趣的语音，这就是著名的“鸡尾酒会”问题。“鸡尾酒会”问题自1953年由Cherry提出以来，很多的学者都为此付出大量的努力，希望能够研究出一种适用范围很广的语音分离技术。而按照研究算法的不同，可以主要分为盲源分离和计算听觉场景分析两个方向。近年来，深度学习技术因其出色的学习学习能力也被引入到了语音分离任务中来。过往的研究中往往仅利用了当前帧的特征信息进行语音分离，没有考虑到语音信号在时序上的相关性和声源空间位置的短时稳定性。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法，利用深度聚类网络对混合双耳语音进行分离。考虑语音信号在时序上具有相关性，因此本发明选取了长短时记忆网络LSTM(Long Short-TermMemory)作为聚类前的编码层主要部分，编码层将测试混合双耳语音信号的特征图映射到高维空间，对高维特征图的矢量进行聚类，从而实现语音分离。利用多种信噪比和混响条件下的数据进行训练，从而保证了深度聚类网络的鲁棒性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法，包括以下步骤：

步骤1，获取包含不同方位角声源的混合双耳语音信号，且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。

步骤2，对步骤1得到的混合双耳语音信号进行预处理，并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱：

其中，x_L(τ,n)表示分帧后第τ帧的左耳语音信号，x_R(τ,n)表示分帧后第τ帧的右耳语音信号，n表示样本点序号，N为帧长，X_L(τ,ω)表示傅里叶变换后的左耳语音信号的频谱，X_R(τ,ω)表示傅里叶变换后的右耳语音信号的频谱，ω表示频点，j表示虚数单位。

步骤3，对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数，并进行组合：

对傅里叶变换后的左耳语音信号的频谱X_L(τ,ω)做对数运算，得到对数幅度谱。

耳间相位差

定义为左、右耳语音信号频谱的相位差值为：

其中，

表示左耳语音信号频谱的相位，

表示右耳语音信号频谱的相位，其计算分别为：

得到耳间相位差后，对耳间相位差进行余弦、正弦变换，得到耳间相位差函数：

其中，cosIPD(τ,ω)表示耳间相位差余弦函数，sinIPD(τ,ω)表示耳间相位差正弦函数。

将对数幅度谱和耳间相位差函数组成一个新的矢量，作为第τ帧的特征参数C(τ)：

C(τ)＝[log₁₀|X_L(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。

每T帧特征参数进行组合，得到特征图C。

C＝[C(1),C(2),...,C(T)]

步骤4，建立深度聚类网络模型，深度聚类网络模型包括编码层和聚类层，编码层将输入的特征图映射为高维特征图。聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类。将步骤3得到的特征图序列，作为深度聚类网络模型的输入参数进行训练，得到训练好的深度聚类网络模型的编码层。

得到训练好的深度聚类网络模型的编码层的方法：

步骤41，将特征图C送入编码层，得到映射后的高维特征图V：

V＝f(C)

其中，f表示编码层的映射函数。

步骤42，根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练，网络的损失函数定义为：

J＝|VV^H-YY^H|²

其中，

表示每帧、每个频点归属的矩阵，当第τ帧、第ω个频点对应的第m个说话人的幅值大于其他说话人时，

否则

H表示转置运算。

步骤43，使用反向传播方法，计算损失函数J对网络权重的偏导，并修正权重。

步骤44，若当前迭代次数小于预设总迭代次数，则返回至步骤41，继续输入特征图C进行计算，直至达到预设迭代次数时迭代结束，则深度聚类网络模型的编码层训练结束。

步骤5，获取测试混合双耳语音信号，测试混合双耳语音信号根据步骤2、步骤3提取特征参数，得到测试特征图。

步骤6，将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层，将测试特征图映射为高维测试特征图。

步骤7，将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类，得到二值掩膜矩阵，利用测试混合双耳语音信号和二值掩膜矩阵实现语音分离。

优选的：步骤2中的预处理包括分帧、加窗操作。

优选的：步骤3中对傅里叶变换后的左耳语音信号的频谱X_L(τ,ω)做对数运算：log₁₀|X_L(τ,ω)|。

优选的：所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。

本发明相比现有技术，具有以下有益效果：

本发明充分地利用了语音信号的谱信息和空间信息，分离性能良好，且算法的泛化性能好，具有较强的鲁棒性。本发明在各信噪比、混响环境下的SAR、SIR、SDR、PESQ性能指标整体提升，本发明提出的方法对噪声和混响具有一定的鲁棒性和泛化性。

附图说明

图1为本发明整体算法流程图；

图2为语音信号对数幅度谱；

图3为混合语音信号的耳间相位差函数示意图；

图4为深度聚类网络的结构示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法，如图1所示，包括以下步骤：

步骤1，获取包含不同方位角声源的混合双耳语音信号，且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。将两个在不同方位角的声源对应的双耳语音信号进行混合，得到训练混合双耳语音信号，计算公式为：

x_L(n)＝s₁(n)*h_1,L+s₂(n)*h_2,L+v_L(n)

x_R(n)＝s₁(n)*h_1,R+s₂(n)*h_2,R+v_R(n)

其中，x_L(n)、x_R(n)分别表示加入混响和噪声后的左、右耳语音信号，s₁(n)、s₂(n)表示两个在不同方位角的单声源语音信号，h_1,L、h_1,R表示方位角一对应声源的双耳房间脉冲响应函数，h_2,L、h_2,R表示方位角二对应声源的双耳房间脉冲响应函数，h_1,L、h_1,R、h_2,L、h_2,R中包含了混响，v_L(n)、v_R(n)表示指定信噪比下的左、右耳噪声信号，n表示样本点序号，*为卷积运算。

本例中的语音数据来自TIMIT语音数据库，主要针对两说话人的场景进行训练，两个声信号的方位角设定在[-90°,90°]之间，且两声源的方位角不重合，计算可得一共有37*36/2＝种组合。训练时将两个不同声源的不同语句进行混合。训练设置的信噪比有4种情况，分别为0dB，10dB，20dB和无噪声。本例中同时考虑了混响对语音信号的影响，在训练集中设置混响为200ms和600ms，混响包含在双耳房间脉冲响应函数中。

步骤2，对步骤1得到的混合双耳语音信号进行预处理，包括分帧、加窗操作，并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱。

分帧和加窗操作为：

x_L(τ,n)＝w_H(n)x_L(τ·N/2+n)，0≤n＜N

x_R(τ,n)＝w_H(n)x_R(τ·N/2+n)，0≤n＜N

其中，x_L(τ,n)、x_R(τ,n)表示分帧后第τ帧的左、右耳语音信号，n表示样本点序号，w_H(n)为窗函数，N为帧长。

每一帧信号的短时傅立叶变换为：

对傅里叶变换后的左耳语音信号的频谱X_L(τ,ω)做对数运算，即log₁₀|X_L(τ,ω)|，得到对数幅度谱，如图2所示。

耳间相位差

定义为左、右耳语音信号频谱的相位差值为：

其中，

表示左耳语音信号频谱的相位，

表示右耳语音信号频谱的相位，其计算分别为：

得到耳间相位差后，对耳间相位差进行余弦、正弦变换，如图3所示，得到耳间相位差

函数：

C(τ)＝[log₁₀|X_L(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。

每T帧特征参数进行组合，得到特征图C：

C＝[C(1),C(2),...,C(T)]

如图4所示，搭建的深度聚类主要由编码层和聚类层组成，其中训练时只用到编码层，测试时，测试混合语音信号的特征图经过编码层映射为高维特征图，通过聚类层完成对每一帧各频点的分类。

编码层由双向LSTM、Dropout层及全连接层组成，隐藏层设置为600个神经元，全连接层则将每帧、每个频点的特征参数映射为20维的特征向量，训练过程如下：

步骤41，将特征图C送入编码层，得到映射后的高维特征图V：

V＝f(C)

其中，f表示编码层的映射函数。

J＝|VV^H-YY^H|²

其中，

否则

H表示转置运算。

步骤7，将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类，得到各频点的二值掩膜矩阵，从而实现了对每一帧各频点的分类，结合输入的测试混合双耳语音信号即可分离目标语音。

仿真

本例采用SAR、SIR、SDR、PESQ来评估分离语音信号的感知质量，将基于前后帧信息的CNN算法、IBM-DNN算法和本例基于深度聚类的算法进行了对比。

表1、表2、表3和表4分别比较了三种方法的SAR、SIR、SDR值和PESQ值，指标数值越高，表明语音分离的效果就越好。

表1三种方法SAR值比较

SNR(dB)	IBM-DNN	前后帧-CNN	深度聚类
				0	0.07	2.02	1.57
5	2.71	4.54	4.02
				10	6.02	6.95	7.15
15	7.81	8.01	8.54
				20	8.34	8.77	9.12
Noiseless	8.85	9.03	9.44

表2三种方法SIR值比较

SNR(dB)	IBM-DNN	前后帧-CNN	深度聚类
				0	14.42	15.19	14.79
5	15.14	16.01	16.18
				10	15.98	16.45	16.92
15	16.41	16.70	17.01
				20	16.71	16.87	17.35
Noiseless	17.14	17.02	17.58

表3三种方法SDR值比较

SNR(dB)	IBM-DNN	前后帧-CNN	深度聚类
				0	-0.77	1.54	0.79
5	3.02	4.41	4.16
				10	5.31	6.02	7.41
15	6.95	7.21	8.15
				20	7.52	7.85	9.02
Noiseless	7.96	8.31	9.79

表4三种算法PESQ值比较

SNR(dB)	IBM-DNN	前后帧-CNN	深度聚类
				0	1.42	1.85	1.67
5	1.7	2.07	1.94
				10	1.79	2.17	2.11
15	1.95	2.24	2.25
				20	2.21	2.45	2.39
Noiseless	2.41	2.57	2.52

根据性能比较，在低信噪比条件下，本实例基于深度聚类的语音分离方法性能与前后帧-CNN较为接近，并显著优于IBM-DNN方法；在信噪比较高时，其性能则优于其余两种方法。

同时我们对基于深度聚类算法的泛化性进行分析。训练集为200ms、600ms的混响数据，测试集为300ms的混响数据，本例基于深度聚类的分离效果与CNN的对比结果如表5、6、7所示。

表5 300ms混响环境下两种算法SAR比较

SNR(dB)	前后帧-CNN	深度聚类
			0	1.89	1.32
5	4.07	3.95
			10	6.61	6.70
15	7.45	7.79
			20	8.26	8.71

表6 300ms混响环境下两种算法SIR比较

SNR(dB)	前后帧-CNN	深度聚类
			0	14.77	14.51
5	15.82	15.94
			10	15.91	16.41
15	16.54	16.63
			20	16.68	16.72

表7 300ms混响环境下两种算法SDR比较

SNR(dB)	前后帧-CNN	深度聚类
			0	1.02	0.34
5	3.57	3.46
			10	5.21	6.71
15	6.57	7.35
			20	7.25	8.07

本例基于深度聚类的语音分离算法在非匹配混响下的分离性能优于CNN方法，表明本例提出的基于深度聚类的分离方法具有一定的泛化性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法，其特征在于，包括以下步骤：

步骤1，获取包含不同方位角声源的混合双耳语音信号，且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声；

其中，x_L(τ,n)表示分帧后第τ帧的左耳语音信号，x_R(τ,n)表示分帧后第τ帧的右耳语音信号，n表示样本点序号，N为帧长，X_L(τ,ω)表示傅里叶变换后的左耳语音信号的频谱，X_R(τ,ω)表示傅里叶变换后的右耳语音信号的频谱，ω表示频点，j表示虚数单位；

对傅里叶变换后的左耳语音信号的频谱X_L(τ,ω)做对数运算，得到对数幅度谱；

耳间相位差

定义为左、右耳语音信号频谱的相位差值为：

其中，

表示左耳语音信号频谱的相位，

表示右耳语音信号频谱的相位，其计算分别为：

其中，cosIPD(τ,ω)表示耳间相位差余弦函数，sinIPD(τ,ω)表示耳间相位差正弦函数；

C(τ)＝[log₁₀|X_L(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]；

每T帧特征参数进行组合，得到特征图C：

C＝[C(1),C(2),...,C(T)]

步骤4，建立深度聚类网络模型，深度聚类网络模型包括编码层和聚类层，编码层将输入的特征图映射为高维特征图；聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类；将步骤3得到的特征图序列，作为深度聚类网络模型的输入参数进行训练，得到训练好的深度聚类网络模型的编码层；

得到训练好的深度聚类网络模型的编码层的方法：

步骤41，将特征图C送入编码层，得到映射后的高维特征图V：

V＝f(C)

其中，f表示编码层的映射函数；

J＝|VV^H-YY^H|²

其中，

否则

H表示转置运算；

步骤43，使用反向传播方法，计算损失函数J对网络权重的偏导，并修正权重；

步骤44，若当前迭代次数小于预设总迭代次数，则返回至步骤41，继续输入特征图C进行计算，直至达到预设迭代次数时迭代结束，则深度聚类网络模型的编码层训练结束；

步骤5，获取测试混合双耳语音信号，测试混合双耳语音信号根据步骤2、步骤3提取特征参数，得到测试特征图；

步骤6，将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层，将测试特征图映射为高维测试特征图；

2.根据权利要求1所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法，其特征在于：步骤2中的预处理包括分帧、加窗操作。

3.根据权利要求2所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法，其特征在于：步骤3中对傅里叶变换后的左耳语音信号的频谱X_L(τ,ω)做对数运算：log₁₀|X_L(τ,ω)|。

4.根据权利要求3所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法，其特征在于：所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。