CN112735460B

CN112735460B - 基于时频掩蔽值估计的波束成形方法及系统

Info

Publication number: CN112735460B
Application number: CN202011557418.4A
Authority: CN
Inventors: 屈丹; 郭晓波; 杨绪魁; 邱泽宇; 李�真; 郝朝龙; 魏雪娟
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-10-29
Anticipated expiration: 2040-12-24
Also published as: CN112735460A

Abstract

本发明属于语音增强技术领域，特别涉及一种基于时频掩蔽值估计的波束成形方法及系统，方法包含：获取多通道语音序列，通过傅里叶变换提取幅度谱特征和空域特征；对幅度谱特征通过对数变换得到多通道语音频谱特征序列，送入预先训练优化的神经网络模型获取复值时频掩蔽值；将复值时频掩蔽值转换为语音存在概率，利用概率模型获取时频掩蔽值；由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵，对协方差矩阵进行特征值分解获取波束成形滤波器系数；结合波束成形滤波器系数，利用波束成形滤波器对多通道语音序列语音特征滤波处理，得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计，提升波束形成和语音识别的性能。

Description

基于时频掩蔽值估计的波束成形方法及系统

技术领域

本发明属于语音增强技术领域，特别涉及一种基于时频掩蔽值估计的波束成形方法及系统。

背景技术

语音编码和语音识别研究常常是在实验室条件下进行的，也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时，由于实际环境噪声与干扰的存在，会使许多方法无法使用，性能急速下降。因此研究对受噪降质语音改善其听觉效果或提髙信噪比的处理，是面临的必须解决的实际问题。语音增强本质就是语音降噪，换句话说，日常生活中，麦克风采集的语音通常是带有不同噪声的“污染”语音，语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音。语音增强涉及的应用领域十分广泛，包括语音通话、电话会议、场景录音、助听器设备和语音识别设备等，并成为许多语音编码和识别系统的预处理模块。现有语音增强处理中，基于神经网络的时频掩蔽值估计存在训练-测试数据不匹配问题，影响了性能，基于空域聚类的时频掩蔽值估计存在迭代时间长的问题，同时现有实值掩蔽值都是利用了特征的幅度信息，没有充分利用特征中的相位信息，语音和噪声存在概率的估计准确性均有待提升。

发明内容

为此，本发明提供一种基于时频掩蔽值估计的波束成形方法及系统，集成神经网络和空域聚类进行时频掩蔽值估计，提升波束形成和语音识别的性能。

按照本发明所提供的设计方案，一种基于时频掩蔽值估计的波束成形方法，用于语音识别应用中的语音增强，包含如下内容：

获取多通道语音序列，对语音序列进行傅里叶变换并提取幅度谱特征和空域特征；

对幅度谱特征通过对数变换得到多通道语音频谱特征序列；将多通道语音频谱特征序列送入预先训练优化的神经网络模型，通过该神经网络模型获取复值时频掩蔽值；

将复值时频掩蔽值转换为语音存在概率，利用概率模型并通过模型求解来获取时频掩蔽值；

由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵，通过对协方差矩阵进行特征值分解获取波束成形滤波器系数；

结合波束成形滤波器系数，利用波束成形滤波器对多通道语音序列语音特征进行滤波处理，得到增强语音信号。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步的，语音序列傅里叶变换中，利用通道轴正则化观察向量的方向统计量来提取空域特征。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步地，利用样本数据对神经网络模型训练优化，其中，样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步地，依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步地，基于概率分布对多通道语音序列的空域特征构建概率模型，将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值，通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步地，对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列，计算用于表征不同时频掩蔽值序列之间的相似性的相关系数，依据相关系数获取相关系数矩阵；并依据设定排序方程score[Q]＝sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列，将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值，其中，diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。

作为本发明基于时频掩蔽值估计的波束成形方法，进一步地，由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵，依据两者的协方差矩阵获取语音信号的协方差矩阵；对语音信号协方差矩阵进行特征值分解，依据最大特征值对应的特征矢量来获取导引矢量估计值；结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。

进一步地，本发明还提供一种基于时频掩蔽值估计的波束成形系统，用于语音识别应用中的语音增强，包含：数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块，其中，

数据收集模块，用于获取多通道语音序列，对语音序列进行傅里叶变换并提取幅度谱特征和空域特征；

数据处理模块，用于对幅度谱特征通过对数变换得到多通道语音频谱特征序列；将多通道语音频谱特征序列送入预先训练优化的神经网络模型，通过该神经网络模型获取复值时频掩蔽值；

数据转换模块，用于将复值时频掩蔽值转换为语音存在概率，利用概率模型并通过模型求解来获取时频掩蔽值；

系数获取模块，用于由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵，通过对协方差矩阵进行特征值分解获取波束成形滤波器系数；

滤波成形模块，用于结合波束成形滤波器系数，利用波束成形滤波器对多通道语音序列语音特征进行滤波处理，得到增强语音信号。

本发明的有益效果：

本发明将基于神经网络估计的复值时频掩蔽值转换为语音和噪声的存在概率，将其作为基于空域聚类方法的初始掩蔽值，通过复值时频掩蔽值提升了存在概率估计的准确性，通过更准确的初始掩蔽值减少了EM算法迭代估计掩蔽值所需的时间，通过空域聚类的无监督方式有效解决了基于神经网络的时频掩蔽值估计存在的训练测试数据不匹配问题，集成神经网络和空域聚类进行时频掩蔽值估计，提升波束形成和语音识别的性能，具有较好的应用前景。

附图说明：

图1为实施例中基于时频掩蔽值估计的波束成形方法流程示意；

图2为实施例中用于波束成形的集成模型工作原理示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例，参见图1所示，提供一种基于时频掩蔽值估计的波束成形方法，用于语音识别应用中的语音增强，包含如下内容：

S101、获取多通道语音序列，对语音序列进行傅里叶变换并提取幅度谱特征和空域特征；

S102、对幅度谱特征通过对数变换得到多通道语音频谱特征序列；将多通道语音频谱特征序列送入预先训练优化的神经网络模型，通过该神经网络模型获取复值时频掩蔽值；

S103、将复值时频掩蔽值转换为语音存在概率，利用概率模型并通过模型求解来获取时频掩蔽值；

S104、由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵，通过对协方差矩阵进行特征值分解获取波束成形滤波器系数；

S105、结合波束成形滤波器系数，利用波束成形滤波器对多通道语音序列语音特征进行滤波处理，得到增强语音信号。

将基于神经网络估计的复值时频掩蔽值转换为语音和噪声的存在概率，将其作为基于空域聚类方法的初始掩蔽值，通过复值时频掩蔽值提升了存在概率估计的准确性，通过更准确的初始掩蔽值减少了EM算法迭代估计掩蔽值所需的时间，通过空域聚类的无监督方式有效解决了基于神经网络的时频掩蔽值估计存在的训练测试数据不匹配问题，提升语音识别效率和准确性。

作为本发明实施例中的基于时频掩蔽值估计的波束成形方法，进一步的，语音序列傅里叶变换中，利用通道轴正则化观察向量的方向统计量来提取空域特征。进一步地，利用样本数据对神经网络模型训练优化，其中，样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。进一步地，依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。

通过将仿真数据以及所对应标签送入到神经网络，进行时频掩蔽值估计的神经网络的训练，训练后将多通道语音特征序列[x₁(t,f),x₂(t,f),...,x_D(t,f))]逐个、逐段输入到神经网络，输出多通道复值时频掩蔽值[M₁(t,f),M₂(t,f),......,M_D(t,f)]。通过对于纯净语音s(t)进行加噪、加混响得到含噪语音y(t)，通过纯净语音频谱S(t,f)，噪声频谱N(t,f)和含噪语音频谱Y(t,f)得到复值时频掩蔽值：

将含噪语音频谱Y(t,f)进行对数变换后作为神经网络的输入，将复值时频掩蔽值的实部M_r(t,f)和虚部M(t,f)作为神经网络的输出送入到神经网络进行神经网络的训练；将多通道语音序列[x₁(n),x₂(n),......,x_D(n)]进行傅里叶变换，并将所得的幅度谱特征进行对数变换得到多通道语音频谱特征序列[x₁(t,f),x₂(t,f),...,x_D(t,f))]，将特征序列送入到训练好的神经网络中得到估计的复值时频掩蔽值M_s(t,f)和M_n(t,f)。

作为本发明实施例中的基于时频掩蔽值估计的波束成形方法，进一步地，基于概率分布对多通道语音序列的空域特征构建概率模型。进一步地，将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值，通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。

基于空域聚类的时频掩蔽值估计通过将神经网络估计的掩蔽值M_s(t,f)、M_n(t,f)转换为语音存在概率p_s(t,f)和p_n(t,f)作为初始掩蔽值

通过EM算法，迭代更新概率模型的参数，并迭代估计时频掩蔽值，收敛后输出估计的时频掩蔽值

将多通道语音序列[x₁(n),x₂(n),......,x_D(n)]进行傅里叶变换，并在通道轴正则化得到观察向量的方向统计量z(t,f)；将神经网络估计的复值时频掩蔽值M(t,f)转换为语音存在概率p(t,f)：

将转换后的语音存在概率设定为EM算法的初始掩蔽值，

通过特定的概率分布对于多通道语音的空域特征z(t,f)进行建模；通过EM算法迭代更新概率模型的参数，直到对数似然函数收敛，得到迭代估计的时频掩蔽值

和

作为本发明实施例中基于时频掩蔽值估计的波束成形方法，进一步地，对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列，计算用于表征不同时频掩蔽值序列之间的相似性的相关系数，依据相关系数获取相关系数矩阵；并依据设定排序方程score[Q]＝sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列，将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值，其中，diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。

通过概率模型估计所得的时频掩蔽值

表征了在某个时频点上语音或者噪声的存在概率，但是在估计的过程中因不同的频率之间是独立估计的，会导致不同频率下相同的类别下标会对应不同的成分即语音或噪声。扰动对齐利用了同一种成分在不同的频率下具有相似模式的特性，这是因为同一个声源在时间轴上具有特定的活跃模式即静音段、起始点、终止点。对于两个不同频率的时频掩蔽值序列λ_s(f₁)、λ_s(f₂)、λ_n(f₁)、λ_n(f₂)，通过计算相关系数表征不同的时频掩蔽值序列之间的相似性和不相似性，相关系数计算公式如下：

其中

表示均值，

表示标准差，相关系数的范围为[-1,1]，相关系数的数值越大表示其相关性越强，属于同一源的概率越大。对处理的频带进行相关系数的求解得相关系数矩阵：

其中N为处理的频带宽度，定义一种排序情况下的分数：

score[Q]＝sum(diag(Q))-sum(offdiag(Q))

其中diag和offdiag分别表示矩阵中对角线元素和非对角线元素，通过找到一种排序方式使得处理频带中使得score取得最大值，所得时频掩蔽值序列即为扰动对齐处理后的时频掩蔽值。

作为本发明实施例中基于时频掩蔽值估计的波束成形方法，进一步地，由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵，依据两者的协方差矩阵获取语音信号的协方差矩阵；对语音信号协方差矩阵进行特征值分解，依据最大特征值对应的特征矢量来获取导引矢量估计值；结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。

基于时频掩蔽值进行波束形成采用的是最小方差无失真响应(MVDR)波束形成。输入为每个时频点上语音和噪声的存在概率即估计的时频掩蔽值

和

由掩蔽值

和多通道语音特征序列[x₁(t,f),x₂(t,f),......,x_D(t,f)]计算协方差矩阵R_x+n(f)、R_n(f)并由此得到导引矢量的估计值r(f)，进而计算得到波束形成滤波器的系数w(f)，输出为多通道语音进行滤波处理后得到的增强语音

通过估计的时频掩蔽值

和多通道语音特征序列[x₁(t,f),x₂(t,f),......,x_D(t,f)]计算含噪语音和噪声的协方差矩阵R_x+n(f)、R_n(f)，并由此得到语音的协方差矩阵R_x(f)＝R_x+n(f)-R_n(f)；对语音信号的协方差矩阵R_x(f)进行特征值分解，最大特征值对应的特征矢量为导引矢量r(f)的估计值；通过含噪语音的协方差矩阵R_x+n(f)和导引矢量的估计值r(f)计算得到波束形成滤波器系数w(f)；对于多通道语音特征序列进行滤波处理得到增强语音

进一步地，基于上述的方法，本发明实施例还提供一种基于时频掩蔽值估计的波束成形系统，用于语音识别应用中的语音增强，包含：数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块，其中，

参见图2所示，神经网络可由一层LSTM和两层全连接层组成，利用过去帧的信息用于估计掩蔽值；基于空域聚类方法的时频掩蔽值估计采用复角中心高斯混合模型对观察信号的方向统计量的分布进行建模，复角中心高斯混合模型不仅仅可以控制模型的位置和聚散程度，还可以控制分布的形状和旋转，可以更好地近似方向统计量的分布。输入仿真语音

和对应的复值时频掩蔽值

将多通道含噪语音[x₁(t),x₂(t),......,x_D(t)]输入到训练好的神经网络中，得到估计的复值时频掩蔽值M_s(t,f)、M_n(t,f)由估计的复值时频掩蔽值M_s(t,f)、M_n(t,f)计算存在概率p_s(t,f)、p_n(t,f)：

将存在概率p_v(t,f)作为复角中心高斯混合模型的初始掩蔽值

求多通道语音的方向统计量

通过复角中心高斯混合模型对其进行建模：

通过EM算法迭代更新估计的掩蔽值λ_v(t,f)和参数

EM算法收敛后，输出时频掩蔽值

由估计的时频掩蔽值

和多通道含噪语音特征序列x(t,f)＝[x₁(t,f),x₂(t,f),......,x_D(t,f)]求得协方差矩阵R_x+n(f)、R_n(f)、R_x(f)：

R_(x)(f)＝R_(x+n)(f)-R_(n)(f)

对于期望语音信号的协方差矩阵R_(x)(f)进行特征分解，最大特征值对应的主特征矢量为导引矢量r(f)的估计值；由导引矢量r(f)和含噪语音的协方差矩阵R_(x+n)(f)计算MVDR波束形成滤波器的系数w^MVDR(f)：

由求得的滤波器系数w^MVDR(f)对多通道语音进行增强：

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法或系统，本发明实施例还提供一种网络设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的系统或执行上述的方法。

基于上述的系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的系统。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述系统实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于时频掩蔽值估计的波束成形方法，用于语音识别应用中的语音增强，其特征在于，包含如下内容：

2.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法，其特征在于，语音序列傅里叶变换中，利用通道轴正则化观察向量的方向统计量来提取空域特征。

3.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法，其特征在于，利用样本数据对神经网络模型训练优化，其中，样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。

4.根据权利要求3所述的基于时频掩蔽值估计的波束成形方法，其特征在于，依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。

5.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法，其特征在于，基于概率分布对多通道语音序列的空域特征构建概率模型，将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值，通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。

6.根据权利要求1或5所述的基于时频掩蔽值估计的波束成形方法，其特征在于，对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列，计算用于表征不同时频掩蔽值序列之间的相似性的相关系数，依据相关系数获取相关系数矩阵；并依据设定排序方程score[Q]＝sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列，将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值，其中，diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。

7.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法，其特征在于，由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵，依据两者的协方差矩阵获取语音信号的协方差矩阵；对语音信号协方差矩阵进行特征值分解，依据最大特征值对应的特征矢量来获取导引矢量估计值；结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。

8.一种基于时频掩蔽值估计的波束成形系统，用于语音识别应用中的语音增强，其特征在于，包含：数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块，其中，

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时执行权利要求1～7任一项所述的方法。

10.一种计算机设备，包含处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以执行权利要求1～7任一项所述的方法。