CN108986838A

CN108986838A - 一种基于声源定位的自适应语音分离方法

Info

Publication number: CN108986838A
Application number: CN201811086181.9A
Authority: CN
Inventors: 王�义; 魏阳杰; 张克
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2018-12-11
Anticipated expiration: 2038-09-18
Also published as: CN108986838B

Abstract

本发明提供一种基于声源定位的自适应语音分离方法，涉及信息处理技术领域。包括：采集被观测环境音频信号，确认声音源个数和每个声音源的波达方向；生成降维矩阵P；生成语音传递矩阵和延迟叠加波束系数；判定频率点处的活跃声源并分离语音成分；获取得到的语音成分并将未激活声源成分置零；得到各个声源的时域语音信号。本方法通过声源定位技术获得当前环境下的声源数目与方位，配合PCA白化技术对语音信号的各个频段进行降维获得初始分离矩阵，通过频率点激活声源数目自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分还原各个语音成分，获得的信噪比提升特性更高，具有更好的噪声抑制性能，适用于真实语音环境下的任意声源情形。

Description

一种基于声源定位的自适应语音分离方法

技术领域

本发明涉及信息处理技术领域，具体涉及一种基于声源定位的自适应语音分离方法。

背景技术

在免提电话、教室等复杂应用环境下的语音系统中，有效的屏蔽外界各种信号干扰、增强语音纯净度是提高语音系统性能的重要问题之一。语音分离技术的使用可以有效地提取目标语音、去除噪声干扰，从而增强语音信号的信噪比。然而，由于语音环境的复杂多变、多语音混合时的特性耦合等原因，当前基于麦克风阵列的语音分离技术仍存在分离程度低、鲁棒性差，无法在任意声源环境下自适应对语音进行分离提取的问题。因此，针对当前语音分离方法的技术缺陷，设计一种真实语音环境中自适应语音分离方法，具有非常重要的意义。

发明内容

针对现有技术存在的问题，本发明提供一种基于声源定位的自适应语音分离方法，通过声源定位技术获得当前环境下的声源数目与方位，配合PCA白化技术对语音信号的各个频段进行有效降维，且获得初始分离矩阵，通过对频率点激活声源数目的判断自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分，以达到在真实语音环境中、任意声源数目下有效稳定地分离语音的目的。

为了实现上述目的，一种基于声源定位的自适应语音分离方法，包括以下步骤：

步骤1：采用M个麦克风组成的麦克风阵列采集被观测环境音频信号，确认该环境声音源个数和每个声音源的波达方向，具体步骤如下：

步骤1.1：对各通道语音信号进行分帧、加窗处理；

步骤1.2：使用语音端点检测技术通过判别各个帧的信号能量强度去除不包含语音成分的音频帧；

步骤1.3：将筛选后包含语音成分的音频帧信号进行短时傅里叶变换，将时域信号转换为频域信号；

步骤1.4：对频域信号进行频段划分，每段频域保证包含十个以上频率点且有重叠，计算划分后的每一个频段的能量独立性；

步骤1.5：通过归一化的通道能量互相关结果对每一个频段的能量独立性进行验证，去除不通过独立性验证的频率分段；

步骤1.6：选取通过筛选的频段信号中能量最大的时频点，对选定的时频点进行延迟叠加波束形成，并生成投票结果；

步骤1.7：将所有帧的各个频段的投票结果进行汇总，并对汇总结果进行平滑处理得到平滑方向矢量y(v)，其中，变量v的取值范围为1～360°；

步骤1.8：使用追踪匹配技术结合窗函数确定声源数目与各个声源的入射角度，具体步骤如下：

(1)令窗函数窗长为Q＝Q₀+1，将窗函数以中心从1到360°为中心依次位移，生成360行窗矩阵R，令该矩阵与平滑方向矢量y(v)相乘：

A＝R*y_t(v)；

式中，取t＝0，表示平滑方向矢量的初始值；

(2)找出A中的最大值a_s，即

s＝arg max_s a_s；

此时，若a_s大于设定阈值，则表示该方向存在声源，s即为匹配到的声源方向角；

所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值；

(3)从当前的方向矢量y_t中去除该R中第s行窗函数选定的方向成分，即：

y_t+1＝y_t-R_s.*y_t；

式中，y_t+1表示去除了第t个声源的方向成分，R_s表示窗矩阵R的第s行，.*表示矢量与矢量对位相乘；

令t＝t+1，重复上述过程，直到a_s小于设定阈值，或者t大于设定最大声源数目P_max；

所述最大声源数目P_max根据具体应用情形设定，且不大于麦克风数目；

步骤2：通过PCA白化技术，对语音信号的各个频率成分进行降维，生成降维矩阵P，具体步骤如下：

步骤2.1：计算各个通道信号在每个频率点处的协方差矩阵；

步骤2.2：对各个频率点的协方差矩阵进行特征值分解，去除特征值低于阈值的特征值与特征向量对；

步骤2.3：将各个频率点处的特征值与特征向量按照从大到小排列，并保留至少一个最多等于步骤1确定的声源数目个特征值与对应的特征向量；

步骤2.4：将各个频率点的特征值构成对角阵E，特征向量按列与特征值对应构成矩阵D，构成降维矩阵为V＝D^-1/2E^H；

步骤3：利用步骤1的声源入射角度结果生成语音信号的各通道传递系数，生成语音传递矩阵H和延迟叠加波束系数Beam；

步骤4：根据波束系数Beam对各个频率点进行波束形成，结合该频率点处的特征值与特征向量的个数判定该频率点处的活跃声源；若频率点处的特征值与特征向量的个数为1，则选取最终能量最大的方向为该频率点成分的归属声源，继续步骤5，若频率点处的特征值与特征向量的个数大于1，则选取能量最大且不超过步骤1中确立声源数目的角度为该频率点处的活跃声源，继续步骤6；

步骤5：对频率点通过波束形成技术进行语音增强，并分离频率点的语音成分，然后执行步骤7；

所述分离频率点的语音成分的公式如下：

X_y(ω)＝Beam(ω)*X(ω)；

其中，X_y(ω)表示经过算法得到的分离信号；

步骤6：利用波束形成技术与独立成分分析技术，分离频率点的语音成分，具体过程如下：

步骤6.1：通过降维矩阵V对频率点信号进行降维，得到降维频率点信号X’(ω)；

步骤6.2：选取频率点处激活声源对应的传递矩阵H与降维矩阵V相乘，生成混合矩阵O，并对矩阵O求逆获得初始分离矩阵Wo；

步骤6.3：使用FDICA对降维信号进行分离矩阵迭代，迭代公式为：

W_k+1(ω)＝η[I-<φ(y(ω))y^H(ω)>_r]W_k(ω)+W_k(ω)；

式中，W为迭代的分离矩阵，η为迭代步长，H表示共轭转置，k为迭代次数，y(ω)＝W_k(ω)*X(ω)为通过第k次迭代得到的分离矩阵分离得到的结果，< >_r为对帧求平均算子，函数为非线性函数，定义如下：

φ(y(ω))＝tanh(Re(y(ω)))+g·tanh(Im(y(ω)))；

式中，Re表示取实部运算，Im表示取虚部运算，g为虚数单位；

步骤6.4：判断信号非线性相关性是否低于阈值或迭代次数是否超过最大迭代次数，若信号非线性相关性低于阈值或迭代步骤超过设定阈值时，停止迭代并输出分离矩阵W，否则，返回步骤6.3；

步骤6.5：将频率点通过分离矩阵对降维信号进行频率点的语音成分的分离；

所述进行频率点的语音成分的分离的公式如下：

X′_y(ω)＝W*X′(ω)；

步骤6.6：将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I，将分离信号X′_y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化，得到复原后的频率点语音成分X_y(ω)，然后执行步骤7；

步骤7：对步骤5与步骤6分离得到的各个频率点处的语音成分进行获取，并将各频率段处未激活声源成分置零；

步骤8：将各个声源的通道成分进行反傅里叶变换，合并各个分帧并去除窗函数，得到各个声源的时域语音信号。

本发明的有益效果：

本发明提出一种基于声源定位的自适应语音分离方法，通过声源定位技术获得当前环境下的声源数目与方位，配合PCA白化技术对语音信号的各个频段进行有效降维，且获得初始分离矩阵，通过对频率点激活声源数目的判断自适应的使用波束形成技术与FDICA技术分离各个声源通道的频率成分，最终还原各个语音成分，本方法适用于真实语音环境下的任意声源情形，相对于传统语音分离算法，能够获得更高的信噪比提升特性，具有更好的噪声抑制性能。

附图说明

图1为本发明实施例中基于声源定位的自适应语音分离方法的流程图；

图2为本发明实施例中原始未混合语音波形图；

其中，(a)为原始语音信号1的波形图；(b)为原始语音信号2的波形图；

图3为本发明实施例中麦克风阵列中心处混合语音信号波形图；

图4为本发明实施例中经过语音分离后的语音波形图；

其中，(a)为经过语音分离后的语音信号1的波形图；(b)为经过语音分离后的语音信号2的波形图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于声源定位的自适应语音分离方法，流程如图1所示，具体方法如下所述：

步骤1.1：对各通道语音信号进行分帧、加窗处理；

所述不包含语音成分的音频帧根据能量阈值由最大能量帧与最小能量帧的能量强度自适应决定，能量强度小于h的帧即为不包含语音成分的音频帧，具体公式如下：

h＝min(h_max/a，h_min*b)；

式中，h_max为最大能量帧强度，h_min为最小能量帧强度，a和b为设定比值。

本实施例中，a和b为设定比值推荐设定3～5。

所述计算频段能量独立性的公式如下：

式中，Ω表示当前进行独立性判断的频率范围，R_i，j(Ω)表示在Ω频率范围内麦克风通道i和通道j间的信号能量相关性，ω表示频率点，X_i(ω)为麦克风通道i的频域信号，X_j(ω)^*为麦克风通道j的频域信号的共轭转置，||表示取绝对值。

本实施例中，推荐每段频域之间有二分之一的重叠。

所述归一化的通道能量互相关结果的计算公式如下：

式中，r_i，j(Ω)为麦克风通道i和通道j归一化的通道能量互相关结果。

本实施例中，通过设定阈值去除不通过独立性验证的频率分段，阈值建议设定0.8-0.9。

所述对时频点进行延迟叠加波束形成的公式如下：

式中，P表示波束能量，ω表示频率点，q表示波束指向，m表示麦克风通道，且m∈M，g为虚数单位，且g∈M，τ为各个麦克风在q指向方向上距离阵列中心的传播时间；

所述生成投票结果的公式如下：

式中，为最大波束能量的指向q，将该指向方位认定为该频率段的投票结果。

本实施例中，选取时频点的数目依据应用需求与具体环境，推荐1-5个。q的扫描范围依据于具体运用，推荐为麦克风阵列的水平360°范围，扫描间隔为1°。

步骤1.7：将所有帧的各个频段的投票结果进行汇总，并对汇总结果进行平滑处理；

所述平滑处理的公式如下：

式中，y(v)为平滑后的投票结果，y(i)为平滑前的投票结果，w()为均值滤波的窗函数，h_N为窗长。

本实施例中，推荐设定宽度为5～10°。

A＝R*y_t(v)；

式中，取t＝0，表示平滑方向矢量的初始值；

(2)找出A中的最大值a_s，即

s＝arg max_s a_s；

此时，若a_s大于设定阈值，则表示该方向存在声源，s即为匹配到的声源方向角。

所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值；

(3)从当前的方向矢量y_t中去除该R中第i行窗函数选定的方向成分，即：

y_t+1＝y_t-R_s.*y_t；

式中，y_t+1表示去除了第t个声源的方向成分，R_s表示窗矩阵R的第s行，.*表示矢量与矢量对位相乘。

令t＝t+1，重复上述过程，直到a_s小于某个人为设定的阈值，或者t大于设定最大声源数目P_max；

所述最大声源数目P_max根据具体应用情形设定，且不大于麦克风数目。

本实施例中，推荐设定最大声源数目P_max为6～8。

步骤2.1：计算各个通道信号在每个频率点处的协方差矩阵；

本实施例中，阈值设定范围为1～10^-7。

式中，θ为声源角度，ω为频率点；

所述分离频率点的语音成分的公式如下：

X_y(ω)＝Beam(ω)*X(ω)；

其中，X_y(ω)表示经过算法得到的分离信号；

所述降维公式如下：

X′(ω)＝V*X(ω)；

所述初始分离矩阵Wo的计算公式如下：

Wo＝O^-1；

O＝V*H；

W_k+1(ω)＝η[I-<φ(y(ω))y^H(ω)>_r]W_k(ω)+W_k(ω)；

φ(y(ω))＝tanh(Re(y(ω)))+g·tanh(Im(y(ω)))；

式中，Re表示取实部运算，Im表示取虚部运算；

本实施例中，迭代步长推荐范围为0.1～10^-4。

本实施例中，相关性阈值推荐10^-4，迭代步骤阈值推荐100～1000。

步骤6.5：将频率点通过分离矩阵对降维信号进行频率点的语音成分的分离，然后执行步骤7；

所述进行频率点的语音成分的分离的公式如下：

X′_y(ω)＝W*X′(ω)；

步骤6.6：将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I，将分离信号X′_y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化，得到复原后的频率点语音成分X_y(ω)；

本实施例中，选取原始语音波形如图2所示，通过本方法先使用麦克风阵列中心处混合语音信号，形成的波形如图3所示，再进行语音成分分离后，得到分离语音波形如图4所示。由如4可以看出，本实施例分离结果优良，信号分离后信噪比分别提升了15.81dB和19.12dB，由于针对各个时频点进行了构成判定，该方法得以自适应的选取波束形成与频域独立成分分析两种算法进行信号增强与分离，从而在保证分离效果优良的前提下极大化的降低了计算复杂度。通过调整PCA降维中的设定阈值，该方法在实际使用环境或实时系统中得以灵活地控制计算量，在有限计算资源下获得较好的语音信号分离效果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于声源定位的自适应语音分离方法，其特征在于，包括以下步骤：

步骤1：采用M个麦克风组成的麦克风阵列采集被观测环境音频信号，确认该环境声音源个数和每个声音源的波达方向；

步骤2：通过PCA白化技术，对语音信号的各个频率成分进行降维，生成降维矩阵P；

所述分离频率点的语音成分的公式如下：

X_y(ω)＝Beam(ω)*X(ω)；

其中，X_y(ω)表示经过算法得到的分离信号；

步骤6：利用波束形成技术与独立成分分析技术，分离频率点的语音成分，然后执行步骤7；

2.根据权利要求1所述的基于声源定位的自适应语音分离方法，其特征在于，所述步骤1包括如下步骤：

步骤1.1：对各通道语音信号进行分帧、加窗处理；

步骤1.8：使用追踪匹配技术结合窗函数确定声源数目与各个声源的入射角度。

3.根据权利要求2所述的基于声源定位的自适应语音分离方法，其特征在于，所述步骤1.8包括如下步骤：

A＝R*y_t(v)；

式中，取t＝0，表示平滑方向矢量的初始值；

(2)找出A中的最大值a_s，即

s＝arg max_sa_s；

所述设定阈值选取方向矢量y(v)为均匀分布时得到的A值；

y_t+1＝y_t-R_s.*y_t；

4.根据权利要求1所述的基于声源定位的自适应语音分离方法，其特征在于，所述步骤2包括如下步骤：

步骤2.1：计算各个通道信号在每个频率点处的协方差矩阵；

步骤2.4：将各个频率点的特征值构成对角阵E，特征向量按列与特征值对应构成矩阵D，构成降维矩阵为V＝D^-1/2E^H。

5.根据权利要求1所述的基于声源定位的自适应语音分离方法，其特征在于，所述步骤6包括如下步骤：

W_k+1(ω)＝η[I-<φ(y(ω))y^H(ω)>_r]W_k(ω)+W_k(ω)；

式中，W为迭代的分离矩阵，η为迭代步长，H表示共轭转置，k为迭代次数，y(ω)＝W_k(ω)*X(ω)为通过第k次迭代得到的分离矩阵分离得到的结果，<>_r为对帧求平均算子，函数为非线性函数，定义如下：

φ(y(ω))＝tanh(Re(y(ω)))+g·tanh(Im(y(ω)))；

所述进行频率点的语音成分的分离的公式如下：

X′_y(ω)＝W*X′(ω)；

步骤6.6：将分离矩阵W与混合矩阵O相乘得到语音信号的近似完整传递矩阵I，将分离信号X′_y(ω)依次除以矩阵I的对角元素去除频率点语音成分进行降维与分离时引入的信号能量变化，得到复原后的频率点语音成分X_y(ω)。