CN114613384A

CN114613384A - 一种基于深度学习多输入语音信号波束形成信息互补方法

Info

Publication number: CN114613384A
Application number: CN202210246205.2A
Authority: CN
Inventors: 黄钰; 王立; 雷志雄; 张晓�; 王梦琦; 朱宇; 马建民; 王煦; 邓诚; 陈卓立; 张绪皓
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-10
Anticipated expiration: 2042-03-14
Also published as: CN114613384B

Abstract

本发明公开了一种基于深度学习多输入语音信号波束形成信息互补方法，属于机载语音信号处理领域，包括步骤：S1，深度学习模型的构建和训练；S2，将多输入语音进行预处理后，转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号；对分离后的语音信号进行语音端点检测和时延估计，得到噪声段和语音段；S3，计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量；S4，利用最优滤波矩阵滤波输出信号。本发明解决了基于视频掩蔽的语音增强方法存在计算量大的问题，提高了语音质量和稳定性。

Description

一种基于深度学习多输入语音信号波束形成信息互补方法

技术领域

本发明涉及机载语音信号处理领域，更为具体的，涉及一种基于深度学习多输入语音信号波束形成信息互补方法。

背景技术

目前，针对机载语音信号处理领域中的语音信号断续问题的现有解决方案技术，仍然存在以下问题：1)现有选择合并方法方案选择单一信号进行输出，存在造成信号丢失的问题。2)现有等增益合并方法方案中存在容易引入更多噪声，导致合并损失的问题。3)低信噪比下端点检测对语音段检测效果差的问题。

近年来，随着深度学习的快速发展和广泛运用，基于深度学习的语音增强方法成为语音增强的主要研究方向，这类方法主要有基于掩蔽、基于映射以及端到端三类，基于映射的方法在低信噪比下比较有效，而基于掩蔽的方法在高信噪比下性能更佳，端到端的方法似乎更有发展潜力，但其计算量更大，并且往往需要复杂的模型结构。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习多输入语音信号波束形成信息互补方法，解决了基于视频掩蔽的语音增强方法存在计算量大的问题，提高了语音质量和稳定性。

本发明的目的是通过以下方案实现的：

一种基于深度学习多输入语音信号波束形成信息互补方法，包括：

步骤S1，深度学习模型的构建和训练；

步骤S2，将多输入语音进行预处理后，转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号；对分离后的语音信号进行语音端点检测和时延估计，得到噪声段和语音段；

步骤S3，计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量；

步骤S4，利用最优滤波矩阵滤波输出信号。

进一步地，在步骤S1中，包括进行机载环境带噪语音的数据集建立步骤，在该步骤中，通过真实的机载噪声数据以及开源的中文语音数据集，构建所用的数据集，并将其按照比例作为训练集和验证集。

进一步地，在步骤S1中，所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签：

比值掩码：

其中IRM(k,f)、S²(k,f)、V²(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量，β表示为一个可调节的参数；

设神经网络的输出是

则损失函数Loss设计为：

进一步地，在步骤S1中，所述深度学习模型包括输入层、隐藏层、输出层，输入层与隐藏层连接，隐藏层与输出层连接；所述隐藏层由多个Block构成，Block由全连接层、激活函数层、批归一化层、弃权层构成；在一个Block中，全连接层与输入层连接，同时与激活函数层连接，激活函数层与批归一化层连接，批归一化层与弃权层连接，弃权层与下一个Block层连接。

进一步地，在步骤S2中，所述预处理包括分帧加窗和短时傅里叶变换。

进一步地，在步骤S2中，所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换，得到重构的语音信号。

进一步地，在步骤S3中，所述计算噪声段和语音段的自相关矩阵，包括子步骤：

计算噪声段和语音段的自相关矩阵：设输入i路语音信号，y_i(τ_i)＝α_is(k-τ_i)+v_i(k)，其中i＝1,2,...,n,α_i表示各路通道所接收到的语音信号相对与原始纯净语音信号系数；s(k)表示原始的纯净语音信号；τ_i表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延；v_i(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声；

带噪语音自相关矩阵R_yy按照如下公式计算：

R_yy＝E[y(k)y^T(k)]，其中

E[]表示求期望值；

噪声自相关矩阵R_vv按照如下公式计算：R_vv＝E[v(k)v^T(k)]，其中

进一步地，在步骤S3中，所述最优滤波矩阵按照如下公式进行计算：

其中i代表通道数，

W_i,0表示对通道i的最优滤波矩阵；

由上式得到W_i,0和单位矩阵

构成的满秩矩阵

进一步地，在步骤S3中，所述最优权向量包括如下公式计算：

其中h表示最优滤波器，

和

表示在最优滤波器变换的条件下，h_y ^TR_yyh_y和h_v ^TR_vvh_v代表带噪语音和噪声的输出功率，s.t.表示在约束条件下，W^T表示最优滤波矩阵的转置，u'＝[1,0,...,0]^T是长度为L_h的矢量；

最后得到：

h_ST,y表示对带噪语音求得的最优滤波器，h_ST,v表示对噪声求得的最优滤波器。

进一步地，在步骤S4中，利用最优滤波矩阵滤波输出信号包括子步骤：使用h_ST,v作为滤波矩阵，最优滤波器输出的合成信号为：

其中

为滤波输出信号，h_i,ST,v代表通道i的最优滤波矩阵，x_ir(k)和v_ir(k)分别为经过最优滤波器滤波后的语音和残留噪声。

本发明的有益效果包括：

本发明改善了在利用多输入语音信息之间互相补充来保证信息完整度时，由于信噪比低引起的端点检测效果差，从而使输出结果变差这一问题，这样能够增强空地、机间的通话质量以及通话稳定性。参阅图13，在信噪比低的时候，相比于图3图4中的结果，本发明能在保留完整的语音信息的同时，能够较改进前有效的提高语音质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有进行多通道语音信号比较选通的原理示意图；

图2为信噪比较差的4输入信号，带有不同的噪声类型、不同的噪声大小、不同的时间延迟；

图3为图2中4输入信号直接进行等增益合并的结果；

图4为图2中的信号采用波束形成的方法输出的结果，效果略好于等增益合并；

图5为图2中的信号采用波束形成方法前，选用语音端点检测确认语音段，可以看到低信噪比情况下无法准确的识别语音段；

图6为本发明实施例方法的步骤流程图；

图7为深度学习的语音分离方法，分为三个板块：获取数据、数据预处理和特征提取、语音分离；

图8为语音分离测试时的输入信号；

图9为图8所示信号经过训练后的模型的输出语音信号；

图10为图8所示信号经过训练后的模型的输出噪声信号；

图11为使用的神经网络结构；

图12为训练结果；

图13为图2中4输入信号经本发明实施例方法深度学习改进的多输入语音信号波束形成处理输出的结果。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明旨在解决分集合并方法中的选择合并方法中选择单一信号进行输出，造成信号丢失的问题。其问题可参阅图1，和图1中问题相似。以及本发明还可解决分集合并方法中等增益合并方法中容易引入更多噪声，导致合并损失的问题，参阅图3。本发明还可解决低信噪比下端点检测对语音段检测效果差的问题，参阅图5。

本发明针对机载环境下多输入语音信号的波束形成方法中存在的低信噪比情况下语音端点检测方法无法准确的确定语音段和噪声段这一问题，提出一种基于深度学习多输入语音信号波束形成信息互补方法，基于改进的深度学习，详细技术方案如下：

深度学习模型训练过程，参阅图7：进行机载环境带噪语音的数据集建立、深度学习模型训练、深度学习模型测试；

深度学习改进的多输入语音信号波束形成处理，参阅图8：将多输入语音进行预处理后，转变为时频信号输入到已经训练好的模型中，随后进行逆变换得到分离后更为纯净的语音信号；对分离后的语音信号进行语音端点检测和时延估计，得到噪声段和语音段；计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量；滤波输出信号。

在具体实施过程中，包括如下步骤：

一、深度学习模型训练：

第一步，通过真实的机载噪声数据以及开源的中文语音数据集，构建本文所用的数据集，最后得到约150小时，采样率为16kHz的数据集，将其按照4：1的比例作为训练集和验证集；

第二步，选取比值掩码来构建作为深度学习的训练标签；

比值掩码：

其中IRM(k,f)、S²(k,f)、V²(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量。β表示为一个可调节的参数，一般取0.5。

假设神经网络的输出是

则损失函数为：

第三步，网络模型，参阅图11。在这里选用4层神经网络作为网络模型，每层网络的单元取1300，设置迭代次数为500，最小批次为128，学习率为0.01，使用随机梯度下降法更新权重，训练结果参阅图12；

第四步，分离效果测试：参阅图8、图9、图10中的单通道语音信号的分离效果，以及表1中欧氏距离及加权结果。

二、深度学习改进的多输入语音信号波束形成处理：

第一步，进行分帧加窗等预处理以及短时傅里叶变换，将多输入的语音信号输入到训练好的深度学习模型中；

分帧时间：25ms

加窗：S_w(n)＝S(n)·w(n)，其中S_w(n)为加窗后的函数，S(n)为需要加窗的函数，w(n)为窗函数，w(n)选取汉明窗，

短时傅里叶变换：

其中x(m)是离散时域采样信号，w(m)是窗序列，w(m+n)可以视为窗沿时间移动到不同位所取STFT。

第二步，将经过深度学习模型的多输入语音信号经过逆变换，得到重构的语音信号：

第三步，进行语音端点检测和时延估计，求得语音信号的语音段和噪声段；

计算噪声段和语音段的自相关矩阵：设输入i路语音信号，y_i(τ_i)＝α_is(k-τ_i)+v_i(k)，其中i＝1,2,...,n,α_i表示各路通道所接收到的语音信号相对与原始纯净语音信号系数；s(k)表示原始的纯净语音信号；τ_i表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延；v_i(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声。

带噪语音自相关矩阵计算：

R_yy＝E[y(k)y^T(k)]，其中

噪声自相关矩阵计算：R_vv＝E[v(k)v^T(k)]，其中

第四步，计算最优滤波矩阵；

其中i代表通道数，

W_i,0表示对通道i的最优滤波矩阵。

得到W_i,0和单位矩阵

构成的满秩矩阵

第五步，计算最优权向量，即解决：

其中h表示最优滤波器，

和

表示在最优滤波器变换的条件下，h_y ^TR_yyh_y和h_v ^TR_vvh_v代表带噪语音和噪声的输出功率，s.t.表示subjectto，即在…约束条件下，W^T表示最优滤波矩阵的转置，u'＝[1,0,...,0]^T是长度为L_h的矢量；

最后得到：

第六步，由于算法条件下语音和噪声是完全不相关，所以当整个带噪语音滤波后输出功率最小时，噪声的输出功率也同时是最小的。但实际上并不会完全成立，为了防止语音段的信息被滤，所以在这里使用h_ST,v作为滤波矩阵，滤波输出信号：

其中

如图1所示，以四天线接收语音123456789为例，出现语音断续时，多通道语音信号比较选通。由于仅做了选通处理，输出信号仍然会导致语音断续、字词丢失，无法得到完整的信息。

如图2所示，信噪比较差的4输入信号，带有不同的噪声类型、不同的噪声大小、不同的时间延迟。

如图3所示，图2中4输入信号直接进行等增益合并的结果。

如图4所示，图2中的信号采用波束形成的方法输出的结果，效果略好于等增益合并。

如图5所示，图2中的信号采用波束形成方法前，选用语音端点检测确认语音段，可以看到低信噪比情况下无法准确的识别语音段。

如图6所示，本发明实施例方法流程图。

如图7所示，深度学习的语音分离方法，分为三个板块：获取数据、数据预处理和特征提取、语音分离。

如图8所示，语音分离测试时的输入信号。

如图9所示，图8所示信号经过训练后的模型的输出语音信号。

如图10所示，图8所示信号经过训练后的模型的输出噪声信号。

如图11所示，使用的神经网络结构。

如图12所示，为训练结果。

如图13所示，图2中4输入信号经深度学习改进的多输入语音信号波束形成处理输出的结果。

表1为深度学习模型输出的五条单通道测试音频的欧氏距离及加权结果。

表2为十条四输入信号的PESQ评分。

表3为测试的十条信号经深度学习改进的多输入语音信号波束形成处理输出信号的PESQ评分以及和对比提升。

表1

表2

表3

实施例1

一种基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，包括：

步骤S1，深度学习模型的构建和训练；

步骤S4，利用最优滤波矩阵滤波输出信号。

实施例2

基于实施例1，在步骤S1中，包括进行机载环境带噪语音的数据集建立步骤，在该步骤中，通过真实的机载噪声数据以及开源的中文语音数据集，构建所用的数据集，并将其按照比例作为训练集和验证集。

实施例3

基于实施例1，在步骤S1中，所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签：

比值掩码：

设神经网络的输出是

则损失函数Loss设计为：

实施例4

基于实施例1，在步骤S1中，所述深度学习模型包括输入层、隐藏层、输出层，输入层与隐藏层连接，隐藏层与输出层连接；所述隐藏层由多个Block构成，Block由全连接层、激活函数层、批归一化层、弃权层构成；在一个Block中，全连接层与输入层连接，同时与激活函数层连接，激活函数层与批归一化层连接，批归一化层与弃权层连接，弃权层与下一个Block层连接。

实施例5

基于实施例1，在步骤S2中，所述预处理包括分帧加窗和短时傅里叶变换。

实施例6

基于实施例1，在步骤S2中，所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换，得到重构的语音信号。

实施例7

基于实施例1，在步骤S3中，所述计算噪声段和语音段的自相关矩阵，包括子步骤：

带噪语音自相关矩阵R_yy按照如下公式计算：

R_yy＝E[y(k)y^T(k)]，其中

E[]表示求期望值；

实施例8

基于实施例7，在步骤S3中，所述最优滤波矩阵按照如下公式进行计算：

其中i代表通道数，

W_i,0表示对通道i的最优滤波矩阵；

由上式得到W_i,0和单位矩阵

构成的满秩矩阵

实施例9

基于实施例8，在步骤S3中，所述最优权向量包括如下公式计算：

计算最优权向量实质上是解决波束形成方法中的最优化问题，即解决：

其中h表示最优滤波器，

和

最后得到：

实施例10

基于实施例10，在步骤S4中，利用最优滤波矩阵滤波输出信号包括子步骤：

由于算法条件下语音和噪声是完全不相关，所以当整个带噪语音滤波后输出功率最小时，噪声的输出功率也同时是最小的。但实际上并不会完全成立，为了防止语音段的信息被滤，所以在这里使用h_ST,v作为滤波矩阵。

最优滤波器输出的合成信号为：

其中

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，包括：

步骤S1，深度学习模型的构建和训练；

步骤S4，利用最优滤波矩阵滤波输出信号。

2.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S1中，包括进行机载环境带噪语音的数据集建立步骤，在该步骤中，通过真实的机载噪声数据以及开源的中文语音数据集，构建所用的数据集，并将其按照比例作为训练集和验证集。

3.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S1中，所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签：

比值掩码：

设神经网络的输出是

则损失函数Loss设计为：

4.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S1中，所述深度学习模型包括输入层、隐藏层、输出层，输入层与隐藏层连接，隐藏层与输出层连接；所述隐藏层由多个Block构成，Block由全连接层、激活函数层、批归一化层、弃权层构成；在一个Block中，全连接层与输入层连接，同时与激活函数层连接，激活函数层与批归一化层连接，批归一化层与弃权层连接，弃权层与下一个Block层连接。

5.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S2中，所述预处理包括分帧加窗和短时傅里叶变换。

6.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S2中，所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换，得到重构的语音信号。

7.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法，其特征在于，在步骤S3中，所述计算噪声段和语音段的自相关矩阵，包括子步骤：

带噪语音自相关矩阵R_yy按照如下公式计算：

R_yy＝E[y(k)y^T(k)]，其中