CN113870888A

CN113870888A - 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置

Info

Publication number: CN113870888A
Application number: CN202111119961.0A
Authority: CN
Inventors: 涂卫平; 韩畅; 刘雅洁; 肖立; 杨玉红; 刘陈建树
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-31
Anticipated expiration: 2041-09-24
Also published as: WO2023044962A1; CN113870888B

Abstract

本发明提供了一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置，其中的方法包括：首先将语音信号经过短时傅里叶变换得到时频域特征，然后利用多层卷积神经网络得到中间映射特征，之后基于时域注意力模块得到时间权值向量，并将其扩展到与中间映射特征相同的维度后做哈达玛乘积，得到经过时域加权的映射特征，然后利用频域注意力模块得到频率权值向量，并将其扩展到与经过时间加权的映射特征相同的维度后做哈达玛乘积，得到最终的经过时域和频域加权的映射特征。本发明的时域和频域注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除模型中，使模型自适应学习时频域特征的权重，以此提升模型性能的效果。

Description

一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置

技术领域

本发明涉及音频信号处理领域，尤其涉及一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置。

背景技术

在双向语音通信中，近端扬声器播放的远端信号被近端麦克风采集并重新送回远端时就产生了声学回声。声学回声极大的影响了客户的通话体验和语音后续处理比如语音识别的效果，所以如何尽量消除声学回声并且不引入近端语音的失真成为国内外语音前端处理领域的研究热点。近年来，深度学习方法在回声消除领域超越传统的自适应滤波方法取得了极大的成功。

本申请发明人在实施本发明的过程中，发现现有技术中存在如下技术问题：

目前在时频域的基于卷积神经网络的声学回声消除模型中，最常见的方法之一是卷积循环网络，其缺点是这种模型主要考虑的是对特征沿时间轴建模长时依赖关系，而没有考虑到频率分布对模型的影响，因而导致提取的特征信息不够全面，最终回声消除效果不佳。

发明内容

本发明提出一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置，用于解决或者至少部分解决现有方法中提取的特征信息不够全面，最终回声消除效果不佳的技术问题。其中，基于语音信号时域和频域的特征提取装置(即基于语音信号时域和频域的注意力模块)可以方便地嵌入回声消除装置(即基于卷积神经网络的声学回声消除模型)中，使模型自适应学习时频域特征的权重，以此提升模型性能的效果。

为了解决上述技术问题，本发明第一方面提供了一种基于语音信号时域和频域的特征提取方法，包括：

S1：根据中间映射特征计算得到时间权值向量，并将时间权值向量扩展到与所述中间映射特征相等的维度，其中，中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到，时间权值向量中包含语音特征中重要的时间帧信息；

S2：将所述中间映射特征与所述时间权值向量做哈达玛乘积，得到经过时域加权的映射特征；

S3：根据所述经过时域加权的映射特征计算得到频率权值向量，并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度，其中，频率权值向量中包含语音特征中重要的频率信息；

S4：将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积，得到经过时域和频域加权的映射特征。

在一种实施方式中，步骤S1包括：

S1.1：对所述中间映射特征基于通道和频率维进行全局最大池化和平均池化，得到经过最大池化的第一权值向量和经过平均池化的第二权值向量，两个权值向量大小相等，保留有语音特征每个时间帧中重要的通道和频率维的信息，

S1.2：将经过最大池化的第一权值向量和经过平均池化的第二权值向量分别送入第一长短时记忆网络，以在保持时间序列因果依赖的情况下，学习时序特征的权重，得到两个更新后的权值向量；

S1.3：将所述两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量。

在一种实施方式中，步骤S3包括：

S3.1：对所述经过时域加权的映射特征基于通道维进行全局最大池化和平均池化，得到经过最大池化的第三权值向量和经过平均池化的第四权值向量，两个权值向量大小相等，保留有经过时域加权的映射特征的重要的通道维的信息，

S3.2：将第三权值向量和第四权值向量按照通道维进行堆叠，再利用一维卷积神经网络和批归一化层得到融合权值向量，以学习特征各频率的重要程度；

S3.3：将所述融合权值向量经过sigmoid激活函数得到频率权值向量。

基于同样的发明构思，本发明第二方面提供了一种基于语音信号时域和频域的特征提取装置，所述装置为注意力模块，包括：

时域注意力模块，用于根据中间映射特征计算得到时间权值向量，并将时间权值向量扩展到与所述中间映射特征相等的维度，其中，中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到，时间权值向量中包含语音特征中重要的时间帧信息；

时域加权模块，用于将所述中间映射特征与所述时间权值向量做哈达玛乘积，得到经过时域加权的映射特征；

频域注意力模块，用于根据所述经过时域加权的映射特征计算得到频率权值向量，并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度，其中，频率权值向量中包含语音特征中重要的频率信息；

频域加权模块，用于将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积，得到最终经过时域和频域加权的映射特征。

基于同样的发明构思，本发明第三方面提供了一种回声消除方法，包括：

采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部，将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征；

对初始声学特征采用基于复数域二维卷积，得到中间映射特征；

对中间映射特征采用权利要求1所述的特征提取方法进行特征提取，得到经过时域和频域加权的映射特征；

对中间映射特征进行时序特征学习，得到经过时间建模的特征；

根据经过时间建模的特征和经过时域和频域加权的映射特征，得到复数域比值掩码；

利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。

基于同样的发明构思，本发明第四方面提供了一种回声消除装置，所述装置为基于卷积神经网络的声学回声消除模型，所述模型包括：

预处理模块，用于采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部，将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征；

基于复数域二维卷积的编码器，用于对初始声学特征采用基于复数域二维卷积，得到中间映射特征；

注意力模块，用于对中间映射特征进行特征提取，得到经过时域和频域加权的映射特征；

第二长短时记忆网络，用于对中间映射特征进行时序特征学习，得到经过时间建模的特征；

基于复数域二维转置卷积的解码器，用于根据经过时间建模的特征和经过时域和频域加权的映射特征，得到复数域比值掩码；

变换模块，用于利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。

在一种实施方式中，所述基于复数域二维卷积的编码器包括六层复数域二维卷积模块，其中，每个复数域二维卷积块包括复数卷积层、复数批归一化层和激活函数。

在一种实施方式中，所述基于复数域二维转置卷积的解码器包括六个复数域二维转置卷积块，每个复数域二维转置卷积块包括复数转置卷积层、复数批归一化层和激活函数。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于语音信号时域和频域的特征提取方法，可以自适应地对语音特征进行时域和频域的加权，可以充分保留时间域和频率域的特征信息，从而使得提取的特征信息更为全面。

本发明提供的回声消除方法及装置，可以方便地将注意力模块地嵌入到基于卷积神经网络的声学回声消除任务中，并自适应地对语音特征进行时域和频域加权，以此提升声学回声消除的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中基于卷积神经网络的声学回声消除模型的框架图；

图2为本发明实施中基于复数域二维卷积模块的编码器流程图；

图3为本发明实施中复数域二维卷积块的流程图；

图4为本发明实施中基于时域和频域加权的注意力模块的流程图；

图5为本发明实施中基于时域注意力模块的流程图；

图6为本发明实施中基于频域注意力模块的流程图；

图7为本发明实施中复数域二维转置卷积模块的解码器流程图。

具体实施方式

本申请发明人通过大量的研究与实践发现：

根据听觉动态注意力理论，人类总是倾向于用动态神经元回路自适应地调整注意力以感知复杂的环境，比如语音通话过程中如果声学回声占主导，用户就需要集中更多的注意力克服回声的干扰并理解对方通话内容的含义。此外，语音信号的频谱包含了丰富的频率成分，共振峰在低频区域中分布集中，而在高频区域分布稀疏，因此需要用不同的权重区分不同的频谱区域。受此启发，本发明利用注意力模块自适应地对语音特征进行时域和频域的加权以此提高基于卷积神经网络的声学回声消除模型的性能。

本发明的主要构思如下：

首先利用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部，之后基于复数域二维卷积编码器模块计算中间映射特征，接着基于长短时记忆网络建模中间映射特征的时间依赖关系。此外，将编码器和解码器通过基于语音信号时域和频域加权的注意力模块相连，以此实现对特征在时间和频率两个维度自适应地加权。最后基于复数域二维转置卷积的解码器模块输出复数域比值掩码，进而对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到估计出的近端干净语音。

通过本发明提供的上述方法可知，基于语音信号时域和频域加权的注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除任务中，并自适应地对语音特征进行时域和频域加权，以此提升声学回声消除的效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于语音信号时域和频域的特征提取方法，包括：

具体实施过程中，可以采用短时傅里叶变换计算语音信号的时频特征，然后经过多层卷积神经网络的变换得到中间映射特征，中间映射特征的组织方式是(批大小，时间维，通道维，频率维)。

在一种实施方式中，步骤S1包括：

具体来说，第一权值向量和第二权值向量中保留了语音特征每个时间帧中重要的通道和频率维的信息，然后可以根据这些信息对特征的时间帧加权，以突出其中重要的时间帧。

其中，中间映射特征经过最大池化，保留下通道和频率最显著的信息，然后根据保留下的信息对时间轴加权，使得通道和频率维信息丰富的时间点权值也大一些。但是如果只采用最大池化又会将通道维和频率维的次重要信息全部丢掉，这样信息损失过多，因此用平均池化保留的信息作为补充。

在一种实施方式中，步骤S3包括：

实施例二

基于同样的发明构思，本实施例提供了一种基于语音信号时域和频域的特征提取装置，所述装置为注意力模块，包括：

其中，基于时域和频域加权的注意力模块如图4所示。

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于语音信号时域和频域的特征提取方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

通过本发明提供的注意力模块可知，本发明可以很容易地嵌入到基于卷积神经网络的声学回声消除任务中，并自适应地对语音特征进行时域和频域加权，以此提升声学回声消除的效果。

实施例三

基于同样的发明构思，本实施例提供了一种回声消除方法，包括：

S101：采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部，将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征；

S102：对初始声学特征采用基于复数域二维卷积，得到中间映射特征；

S103：对中间映射特征进行特征提取，得到经过时域和频域加权的映射特征；

S104：对中间映射特征进行时序特征学习，得到经过时间建模的特征；

S105：根据经过时间建模的特征和经过时域和频域加权的映射特征，得到复数域比值掩码；

S106：利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。

具体实施过程中，步骤S101中初始声学特征的组织方式是(批大小，4，频率维，时间维)；

具体来说，帧长、帧移和短时傅里叶变换的长度可以根据需要调整，作为一种实施方式，可以将远端参考信号和近端麦克风信号按照每帧25毫秒分为多个时间帧，且每两个相邻的时间帧之间具有15毫秒的重叠，然后对远端麦克风信号和近端回声信号应用512点的短时傅里叶变换，这会产生257个频率区间。

步骤S102：将步骤S101的初始声学特征通过由复数域二维卷积模块组成的编码器，其中每层复数域二维卷积模块输出的中间映射特征维度各不相同。

步骤S103：将步骤S102输出的特征分别送入六个基于时域和频域加权的注意力模块中。

步骤S1031：将步骤S102中间映射特征输入到如图5所示的时域注意力模块得到时间权值向量，并将其扩展到与步骤S101的中间映射特征相等的维度；其中时域注意力模块具体来说，是对步骤S102的中间映射特征基于通道和频率维进行全局最大池化和平均池化，得到两个大小相等的权值向量，一个是经过最大池化得到的，一个是经过平均池化得到的，然后将两个权值向量分别送入长短时记忆网络更新权值向量，最后将两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量；

步骤S1032：将步骤S102的中间映射特征与步骤S1031的时间权值向量做哈达玛乘积，得到经过时域加权的映射特征；

步骤S1033：将步骤S1032的经过时域加权的映射特征输入到如图6所示的频域注意力模块得到频率权值向量，并将其扩展到与步骤S1032的经过时间加权的映射特征相等的维度。频域注意力模块具体来说，是将步骤S1032的经过时域加权的映射特征基于通道维进行最大池化和平均池化，得到两个大小相等的权值向量，一个是经过最大池化得到的，一个是经过平均池化得到的,然后分别将两个权值向量按照通道维堆叠起来，利用一维卷积网络和批归一化层得到融合权值向量，最后将融合权值向量经过sigmoid激活函数得到频率权值向量；

步骤S1034：将步骤S1033的频率权值向量与步骤S1032的经过时域加权的映射特征做哈达玛乘积，得到最终的经过时域和频域加权的映射特征。

步骤S104：将步骤S102编码器的输出特征输入第二长短时记忆网络中，输出经过时间建模的特征；

第二长短时记忆网络的参数可以根据需要调整，作为实施方式本发明设置了两层长短时记忆网络，每层有800个隐藏单元，输出层是由257个神经元组成的全连接网络。

步骤S105：将步骤S104的输出送入基于复数域二维转置卷积的解码器，同时将步骤S103的六个基于时域和频域加权的注意力模块的输出分别送入解码器的六层复数转置卷积模块，以此得到复数域比值掩码；

步骤S106：利用步骤S105的复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号.

由于本发明实施例三所介绍的方法，为基于本发明实施例一中基于语音信号时域和频域的特征提取方法所实现的方法，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该方法的具体实施步骤，故而在此不再赘述。

实施例四

基于同样的发明构思，本实施例提供了一种回声消除装置，所述装置为基于卷积神经网络的声学回声消除模型，所述模型包括：

请参见图1，为本发明实施中基于卷积神经网络的声学回声消除模型的框架图。

具体来说，由六层复数域二维卷积模块组成的编码器如图2所示。

采用基于卷积神经网络的编码器，其中卷积神经网络的层数、各输入输出的通道数、卷积核大小和步长等网络参数可根据需要调整。作为一种实施方式编码器由六层复数域二维卷积块组成，每个复数域二维卷积块如图3所示包含复数卷积层、复数批归一化层和激活函数，各层二维卷积块的输入通道数为{4,32,64,128,256,256}，各卷积神经网络的步长在时间和频率维度的大小为(3,2),步长为(2,1)。复数卷积层的卷积核W可以表示为W＝W_r+jW_i,其中W_r和W_i分别模拟实部的卷积核和模拟虚部的卷积核，r表示复数的实部，i表示复数的虚部，j表示虚数单位。语音的中间特征定义为X＝X_r+jX_i其中X_r和X_i分别表示特征的实数部分和特征的虚数部分,这样每层复数卷积层的输出Y可以表示为Y＝(X_r*W_r-X_i*W_i)+j(X_r*W_i+X_i*W_r),其中*表示传统的二维卷积操作，由此可以看出复数卷积层包含四个传统的二维卷积操作。复数批归一化可以看作白化二维矢量的问题。激活函数是PReLU，其公式是：

其中，x表示激活函数的输入变量，a表示斜率参数。

具体来说，将第二长短时记忆网络的输出送入基于复数域二维转置卷积的解码器，同时将六个基于时域和频域加权的注意力模块的输出分别送入解码器的六层复数转置卷积模块，以此得到复数域比值掩码；

具体来说，解码器和编码器是对称结构，基于复数域二维转置卷积的解码器如图7由六个复数域二维转置卷积块组成，每个复数域二维转置卷积块中包含复数转置卷积层、复数批归一化层和激活函数，复数转置卷积层与复数卷积层类似，只是将卷积操作改为转置卷积操作，各二维转置卷积块的输入通道数为{512,512,256,128,64,4}。六层复数域二维转置卷积块的输入均为上一层网络的输出和相应的经过时频加权的中间映射特征沿通道维堆叠起来形成的，解码器最后的输出是复数域比值掩码。复数域比值掩码(CRM)定义具体如下：

其中，Y_r和Y_i分别表示近端麦克风信号的实部和虚部，S_r和S_i分别表示近端干净语音的实部和虚部。

利用基于复数域二维转置卷积的解码器得到复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽，将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号；

具体来说，经过解码器估计出来的复数域比值掩码可以通过如下公式计算的近端干净语音的复数表示：

其中

和

分别表示编码器输出掩码的实部和虚部，然后将估计出的近端语音

的实部和虚部利用逆离散傅里叶变换得到近端干净的时域表示。

由于本发明实施例四所介绍的装置，为实施本发明实施例三中回声消除方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属技术人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例三的方法所采用的装置都属于本发明所欲保护的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音信号时域和频域的特征提取方法，其特征在于，包括：

2.如权利要求1所述的特征提取方法，其特征在于，步骤S1包括：

3.如权利要求1所述的特征提取方法，其特征在于，步骤S3包括：

4.一种基于语音信号时域和频域的特征提取装置，其特征在于，所述装置为注意力模块，包括：

5.一种回声消除方法，其特征在于，包括：

6.一种回声消除装置，其特征在于，所述装置为基于卷积神经网络的声学回声消除模型，所述模型包括：

7.如权利要求6所述的回声消除装置，其特征在于，所述基于复数域二维卷积的编码器包括六层复数域二维卷积模块，其中，每个复数域二维卷积块包括复数卷积层、复数批归一化层和激活函数。

8.如权利要6所述的回声消除装置，其特征在于，所述基于复数域二维转置卷积的解码器包括六个复数域二维转置卷积块，每个复数域二维转置卷积块包括复数转置卷积层、复数批归一化层和激活函数。