CN113160839B

CN113160839B - 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法

Info

Publication number: CN113160839B
Application number: CN202110408874.0A
Authority: CN
Inventors: 蓝天; 刘峤; 吴祖峰; 王钇翔; 李佳佳; 台文鑫; 陈聪; 冯雨佳; 康宏博
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-14
Anticipated expiration: 2041-04-16
Also published as: CN113160839A

Abstract

本发明属于语音增强技术领域，具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，用以解决现有基于CNN的语音增强模型因固定感受野导致泛化能力差的问题。本发明根据注意力机制构建得到自适应卷积模块(AACB)，模块中并行构建多个感受野的卷积层，并根据输入特征信息为每个卷积层提取的特征分配权重，经过加权拼接实现模块的感受野的自适应调节，有效克服传统卷积模块固定感受野带来的特征提取的局限性问题；同时，本发明基于所述自适应卷积模块构建得到语音增强模型，并采用渐进式学习框架实现的复用，减小模型复杂度。综上，本发明能够适应不同环境下的语音特征提取，显著提升语音增强的泛化性和鲁棒性。

Description

一种基于自适应注意力机制和渐进式学习的单声道语音增强方法

技术领域

本发明属于语音增强技术领域，具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法。

背景技术

语音增强旨在通过分离语音和噪声成分来提高语音信号的可懂度和清晰度，对自动语音识别技术、助听器、移动设备等产业产生巨大影响，从而受到了极大的关注；近些年得益于深度学习的进步，业界内有关语音增强的研究显著增加，大量基于深度学习的方法实现了干净语音与噪声有效分离。

多层的深度神经网络(DNN)被用于从带噪对数功率谱到干净语音的非线性映射来对语音进行增强，证明了深度神经网络在语音增强任务上的有效性；与基于DNN的模型相比，卷积神经网络(CNN)由于其参数共享机制在参数更少的情况下获得了很好的性能。CNN在语音增强中有多种用处，包括使用冗余卷积编解码器模型来映射干净语音信号及使用基于CNN的模型来估算干净语音的复数谱图；进一步的，CNN和递归神经网络(RNN)的联合使用可以充分利用CNN的特征提取能力和RNN的时间建模能力；另外，有关学者还提出了带有门控和残差机制的扩张卷积模型以提高泛化能力。

感受野是决定卷积神经网络某一层中每个单元的值的输入区域，会极大地影响CNN模型的性能，使用不同尺寸的感受野可以从不同特征提取维度进行特征提取；在感受野较小的情况下，模型学习如何分辨噪声语音和干净语音对应区域，从而实现更准确的语音分离，而大的感受野使模型能够学习干净语音信号边缘的信息。然而，上述基于CNN的语音增强模型均采用固定感受野，固定感受野的局限性则使得模型无法适应不同环境的语音信号，导致语音增强的性能下降，即模型泛化能力差。

发明内容

本发明的目的在于针对现有基于CNN的语音增强模型由于一般卷积神经网络的感受野固定的特性而导致的泛化能力差的问题，提出一种基于自适应注意力机制和渐进式学习的单声道语音增强方法；该方法基于图像恢复领域中的注意力机制构建得到基于注意力的自适应卷积模块(AACB)，使之能够根据输入特征图的特征信息自适应调节模块的感受野，进而实现语音信号特征的组适应提取；进一步基于自适应卷积模块(AACB)构建单声道语音增强模型与渐进式学习模型，实现噪声环境下的语音增强。

为实现上述目的，本发明采用的技术方案为：

一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，包括以下步骤：

步骤1：对原始语音信号进行短时傅里叶变换得到原始语谱图；

步骤2：将原始语谱图输入单声道语音增强模型，由单声道语音增强模型输出第一阶段特征图；

步骤3：将原始语谱图与第一阶段特征图进行融合得到混合特征图；

步骤4：将混合特征图输入单声道语音增强模型，由单声道语音增强模型输出第二阶段特征图；

步骤5：对第二阶段特征图进行反短时傅里叶变换得到增强语音信号。

进一步的，所述步骤3的具体过程为：

步骤3-1：将原始语谱图与第一阶段特征图进行拼接，得到拼接特征图；

步骤3-2：将拼接特征图输入卷积记忆门控单元(convGRU)，由卷积记忆门控单元输出混合特征图。

进一步的，所述单声道语音增强模型由语音特征编码器、堆叠线性门控单元和语音特征解码器串联构成；

所述语音特征编码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block，AACB)串联构成，依次为第一至第四自适应卷积模块；其中，第一自适应卷积模块的输入通道数为4、输出通道数为4，第二至第四自适应卷积模块的输出通道数依次为8、16、32；

所述语音特征解码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block，AACB)串联构成，依次为第五至第八自适应卷积模块；其中，第五自适应卷积模块的输入通道数为32、输出通道数为16，第六至第八自适应卷积模块的输出通道数依次为8、4、1；

所述堆叠线性门控单元由多个个线性门控单元(GLU)串联构成。

更进一步的，所述基于注意力的自适应卷积模块包括：全局平均池化层、K个操作层、卷积核大小为(1,1)的二维卷积层与注意力机制模块，其中，第一操作层为平均池化层，第二至第K操作层均为二维卷积层、且卷积核大小依次递增；

输入特征图同时输入全局平均池化层与K个操作层，K个操作层分别输出特征图：{h¹,h²,...,h^K}；全局平均池化层输出平均信息Z＝{z₁,z₂,...,z_Q}：

其中，q为输入通道索引、q＝1,2,...,Q、Q为基于注意力的自适应卷积模块的输入通道数，T表示输入特征图的帧长，F表示输入特征图的频率，x_i,j,q表示特征值；

所述注意力机制模块计算每个操作层的注意力权重并归一化：

α＝W₂·σ(W₁·Z)，α＝{α₁,α₂,...,α_K}

其中，

与

分别表示注意力机制中待训练的权重矩阵，α_k表示第k个操作层的注意力权重、k＝1,2,...,K，C_r为预设超参数，σ(·)表示sigmoid激活函数；

将每个操作层输出的特征图与注意力权重相乘后进行拼接，得到特征图H：

将特征图H输入到卷积核大小为(1,1)的二维卷积中压缩特征图中的通道数，压缩后与输入特征图做残差连接后作为基于注意力的自适应卷积模块的输出。

本发明的有益效果在于：

本发明提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，具有如下优点：

1)本发明根据注意力机制构建得到自适应卷积模块(AACB)，每个自适应卷积模块中并行构建多种感受野(卷积核的大小)的卷积层，并根据输入特性图(语谱图)的特征信息为每个卷积层提取的特征分配权重，最后经过加权拼接即实现自适应卷积模块的感受野的自适应调节，有效克服传统卷积模块固定感受野带来的特征提取的局限性问题；

2)本发明基于所述自适应卷积模块构建得到对称式的语音特征编码器与解码器，进而构建语音增强模型，同时，基于语音增强模型引入渐进式学习框架，实现语音增强模型的复用，大大减小整个模型的复杂度，有效控制整个模型的参数数量；

综上，本发明提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，能够适应不同环境下的语音特征提取，使模型能够适应不同噪声的声学特征，显著提升语音增强的泛化性和鲁棒性。

附图说明

图1为本发明基于自适应注意力和渐进式学习的单声道语音增强模型的网络结构示意图。

图2为本发明中基于注意力的自适应卷积模块的网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细描述，以便于本领域技术人员理解本发明，但以下叙述不能用于限制本发明的范围，一切利用本发明构思的发明创造均在保护之列。

本实施例提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，主要用于噪声环境下的语音增强问题；

首先，基于自适应注意力机制构建基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block，AACB)；

传统的CNN体系结构固定了每一层的感受野，从而在不同的声学环境中导致了次优的结果；因此，本发明提出了一种基于注意力的自适应卷积模块，其灵感来自于图像恢复领域中；本发明并行构建多种感受野(卷积核的大小)的卷积模块，利用注意力机制自适应调整基于注意力的自适应卷积模块感受野、以适应不同环境下的语音特征提取；

本实施例中，基于注意力的自适应卷积模块如图2所示，具体包括：全局平均池化层、6个操作层、(1,1)的二维卷积层与注意力机制模块，其中，所述第1至第6操作层依次为：3×3的平均池化层、(3,3)的二维卷积层、(5,5)的二维卷积层、(7,7)的二维卷积层、(9,9)的二维卷积层、(11,11)的二维卷积层；

输入特征图同时输入全局平均池化层与6个操作层，6个操作层分别得到来自不同感受野的特征图：{h¹,h²,h³,h⁴,h⁵,h⁶}；全局平均池化层计算得到每一个输入通道的平均信息z_q：

其中，q为通道索引、q＝1,2,...,Q、Q为基于注意力的自适应卷积模块的输入通道数，T表示输入特征图的帧长，F表示输入特征图的频率，x_i,j,q表示特征值；

全局平均池化层输出平均信息Z＝{z₁,z₂,...,z_Q}输入到注意力机制模块，由注意力机制模块获取每个操作层的注意力权重：

α＝W₂·σ(W₁·Z)，α＝{α₁,α₂,...,α_k,...,α_K}

其中，

与

分别表示注意力机制中待训练的两个权重矩阵，k为操作层索引、k＝1,2,...,K、K表示操作层的数量，α_k表示第k个操作层的注意力权重，C_r为预设超参数、本实施例中设置为K/2，σ(·)表示sigmoid激活函数；

并将得到的各个操作层对应的注意力权重输入到softmax激活函数中进行归一化：

本实施例中，6个操作层输出的特征图{h¹,h²,h³,h⁴,h⁵,h⁶}与注意力权重相乘后进行拼接，得到特征图H：

特征图H输入到(1,1)的二维卷积中压缩特征图中的通道数，最后将特征图H与输入做残差连接后作为基于注意力的自适应卷积模块的输出，特征图H与输入做残差能够保证不会出现梯度消失的问题；

其中，(11，11)、(9，9)、(7，7)、(5，5)、(3，3)及(1，1)分别表示二维卷积层的卷积核大小；3×3表示平均池化层的大小；

其次，基于上述基于注意力的自适应卷积模块(AACB)构建语音增强模型：

采用对称式编码解码器结构，具体包括：语音特征编码器、堆叠线性门控单元和语音特征解码器；进一步的：

所述语音特征编码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block，AACB)串联构成，依次为第一至第四基于注意力的自适应卷积模块，其中，第一基于注意力的自适应卷积模块的输入通道数为4、输出通道数为4，第二至第四基于注意力的自适应卷积模块的输出通道数依次为8、16、32；

所述语音特征解码器由4个基于注意力的自适应卷积模块(Attention-basedAdaptive Convolution Block，AACB)串联构成，依次为第五至第八基于注意力的自适应卷积模块，其中，第五基于注意力的自适应卷积模块的输入通道数为32、输出通道数为16，第六至第八基于注意力的自适应卷积模块的输出通道数依次为8、4、1；

所述堆叠线性门控单元由6个线性门控单元(GLU)依次串联构成，每个GLU通过门控单元来控制信息流；

最后，基于上述语音增强模型构建渐进式学习模型，如图1所示；

针对深层神经网络存在的一个普遍问题：随着网络层数的增加、模型的性能会因参数增加和梯度消失而受到影响；本发明采用渐进式学习机制，并将其扩展以构建基于时频域的两阶段渐进式学习模型；其中，渐进式学习的第一阶段不直接重建增强语音信号，而是将其与原始输入语音信号的语谱图共同作为第二阶段的输入，采用第二阶段的输出特征图重建增强语音信号；本发明等效于具有共享参数的两阶段模型，通过渐进式学习构建了具有较低空间复杂度的轻量级渐进式学习模型；

进一步的，每阶段学习使用相同的网络结构来共享参数，每阶段学习都输入通过短时傅里叶变换得到原始输入语音信号的语谱图：

F_spec＝S(X)

其中，F_spec表示原始输入语音信号的语谱图，S(·)表示短时傅里叶变换，X表示原始输入语音信号；

采用卷积记忆门控单元(convGRU)作为记忆单元进行选择性记忆，将第一阶段的输出的特征图和原始输入语音信号的语谱图进行融合，得到混合特征图：

F′＝f_convGRU(F)

其中，

表示第一阶段的输出特征图，concat(·)表示拼接操作；

将混合特征图F′输入语音增强模型，由语音增强模型输出第二阶段特征图

对第二阶段的输出特征图

进行反短时傅里叶变换得到重建增强语音信号：

其中，

表示反短时傅里叶变换。

本实施例中，所述渐进式学习模型的训练集选择TIMIT数据集中3696个语句，干净语音采样率均为8kHz、噪声均来自Noisex92数据集(包括六种不同环境噪声)；模型一共训练了60轮，设置学习率为0.0002，采用平均绝对误差函数(MAE)作为损失函数，使用Adam优化器对渐进式学习模型进行训练。

采用TIMIT数据集中192个语句(干净语音采样率均为8kHz、噪声均来自Noisex92数据集)作为测试集，对上述训练完成的渐进式学习模型进行测试；对语音使用短时傅里叶变换(STFT)，使用窗长度为32ms、帧重叠为16ms的汉宁窗将语音信号转换为语谱图，并分别在-10db、-5db、0db、5db、10db信噪比下进行测试，评估指标选用短时客观清晰度(STOI)和语音质量感知评估(PESQ)。

以文献“Ke Tan,Jitong Chen,and DeLiang Wang,Gated residual networkswith dilated convolutions for monaural speech enhancement,IEEE/ACMtransactions on audio,speech,and language processing,vol.27,no.1,pp.189–198,2018.”中提到的模型GRN、文献“Andong Li,Chengshi Zheng,Linjuan Cheng,RenhuaPeng,and Xiaodong Li,A time-domain monaural speech enhancement with recursivelearning,arXiv,pp.arXiv–2003,2020.”中提到的模型RTNet、文献“Tian Lan,Yilan Lyu,Wenzheng Ye,Guoqiang Hui,Zenglin Xu,and Qiao Liu,Combining multi-perspectiveattention mechanism with convolutional networks for monaural speechenhancement,IEEE Access,vol.8,pp.78979–78991,2020.”中提到的模型ARCN为对比例，将本发明提出的基于自适应注意力机制和渐进式学习的单声道语音增强方法APNet与对比例的STOI和PESQ指标在不同信噪比条件下进行对比，如下表所示：

由表可见，本发明提出的基于自适应注意力机制和渐进式学习的单声道语音增强方法在STOI和PESQ指标上均好于所有对比例，其中STOI平均得分上比最优对比例高出1.63，PESQ平均得分上比最优对比例高出0.13。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，包括以下步骤：

步骤3：将原始语谱图与第一阶段特征图进行融合得到混合特征图；具体为：将原始语谱图与第一阶段特征图进行拼接，得到拼接特征图；再将拼接特征图输入卷积记忆门控单元，由卷积记忆门控单元输出混合特征图；

步骤5：对第二阶段特征图进行反短时傅里叶变换得到增强语音信号；

所述单声道语音增强模型由语音特征编码器、堆叠线性门控单元和语音特征解码器串联构成，所述语音特征编码器由多个基于注意力的自适应卷积模块串联构成，所述语音特征解码器由多个基于注意力的自适应卷积模块串联构成，所述堆叠线性门控单元由多个线性门控单元串联构成；其中，所述基于注意力的自适应卷积模块包括：全局平均池化层、K个操作层、卷积核大小为(1,1)的二维卷积层与注意力机制模块，第一操作层为平均池化层，第二至第K操作层均为二维卷积层、且卷积核大小依次递增；输入特征图同时输入全局平均池化层与K个操作层，K个操作层分别输出特征图；所述注意力机制模块计算每个操作层的注意力权重并归一化，将每个操作层输出的特征图与注意力权重相乘后进行拼接，得到拼接特征图；将拼接特征图输入到卷积核大小为(1,1)的二维卷积中压缩特征图中的通道数，压缩后与输入特征图做残差连接后作为基于注意力的自适应卷积模块的输出。

2.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，所述语音特征编码器由4个基于注意力的自适应卷积模块串联构成，依次为第一至第四自适应卷积模块；其中，第一自适应卷积模块的输入通道数为4、输出通道数为4，第二至第四自适应卷积模块的输出通道数依次为8、16、32；

所述语音特征解码器由4个基于注意力的自适应卷积模块串联构成，依次为第五至第八自适应卷积模块；其中，第五自适应卷积模块的输入通道数为32、输出通道数为16，第六至第八自适应卷积模块的输出通道数依次为8、4、1。

3.按权利要求1所述基于自适应注意力机制和渐进式学习的单声道语音增强方法，其特征在于，所述基于注意力的自适应卷积模块中，K个操作层分别输出特征图为：{h¹,h²,...,h^K}；全局平均池化层输出平均信息Z＝{z₁,z₂,...,z_Q}：

每个操作层的注意力权重的归一化结果为：

α＝W₂·σ(W₁·Z)，α＝{α₁,α₂,...,α_K}

其中，

与

拼接特征图为：