CN110739003B

CN110739003B - 基于多头自注意力机制的语音增强方法

Info

Publication number: CN110739003B
Application number: CN201911012632.9A
Authority: CN
Inventors: 常新旭; 袁晓光; 张杨; 寇金桥; 杨林; 吴敏; 王昕�; 徐冬冬; 赵晓燕; 闫帅
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2022-10-28
Anticipated expiration: 2039-10-23
Also published as: CN110739003A

Abstract

本发明涉及一种基于多头自注意力机制的语音增强方法，涉及语音增强技术领域。本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题，基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用，提出了一种基于多头自注意力机制的语音增强方法，该方法实现了在注意力机制运算的过程中抑制噪声部分，提高了语音增强性能。

Description

基于多头自注意力机制的语音增强方法

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于多头自注意力机制的语音增强方法。

背景技术

语音增强技术作为信号处理过程当中一个基本环节，在语音识别、移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是提高被噪声污染语音的质量和可懂度。最近，随着深度学习技术的兴起，基于深度神经网络(Deep NeuralNetwork,DNN)的有监督语音增强方法取得了巨大的成功，特别是在低信噪比和非平稳噪声的情况下，相较于传统方法表现出了更强大的优势。

与机器相比，人类可以在吵闹的环境中与他人聊天时，忽略背景噪声的干扰而听到对方说话的声音。这是由于人类可以轻易地将注意力放在感兴趣的声音上从而忽略其他声音。这一现象也被称为鸡尾酒会效应。这一效应表明，听觉注意在人类处理复杂听觉场景时是至关重要的。因此，在语音增强任务中融入注意力机制应该能够有效提高增强语音的质量与可懂度。

目前，注意力机制已经被应用在语音增强领域并取得成功。基于注意力机制的语音增强方法，利用注意力机制计算当前待增强帧与过去多帧之间的相似度并为过去帧赋权，相较LSTM-RNN方法提升了增强语音的质量和可懂度。但是，由于输入模型的语音特征在每个时频单元上既包含干净语音的信息也包含噪声信息，该方法在赋权时相当于同时放大了干净语音信息和噪声信息，并没有明显地抑制噪声部分。

因此，如何在注意力机制运算的过程中抑制噪声部分，是提高语音增强性能的一个突破口，是当前需要解决的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何在注意力机制运算的过程中抑制噪声部分，提高语音增强性能。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于多头自注意力机制的语音增强方法，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于多头自注意力机制的语音增强模型；

步骤三：将步骤一提取的数据对所述语音增强模型进行训练；

步骤四：将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型，输出得到相应的干净语音特征估计；

步骤五：将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构，恢复语音信号。

优选地，步骤一具体为：

1)将原始的干净语音数据和噪声数据重采样为16000hz；

2)按照不同的输入信噪比，混合干净语音数据和噪声数据，构建含噪语音数据；

3)提取干净语音数据和含噪语音数据的对数功率谱特征，构建用于训练网络的干净语音特征和含噪语音特征的数据对，其中，计算对数功率谱时的帧长为512个点，帧移为256点，所计算出的特征维度为257。

优选地，步骤二构建的基于多头自注意力机制的语音增强模型包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征，即：X＝(x_n-m,x_n-m+1,...,x_n,...,x_n+m-1,x_n+m)，m为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z＝(z_n-N,z_n-N+1,...,z_n,...,z_n-N+1,z_n+N)，N为整数，解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计

优选地，所述编码器由独立的网络层组成，称其为transformer层，每个网络层由两个子层组成，第一层为多头自注意力层用于执行多头自注意力运算，第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰，两个子层采用残差连接，为了将在输入特征中增加时序信息，采用三角函数来编码时序信息，得到编码后的时序信息：

其中，pos表示时序信息，i表示特征维数，d_model表示编码器每一层的输出维数。

优选地，多头自注意力层中计算注意力的打分函数使用缩放点击模型。

优选地，多头自注意力运算定义如下：

Multi-Head(Q,K,V)＝concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，Q,K,V分别表示计算的注意力相关查询、键和值，d_k表示键的维数。

为线性映射的参数矩阵，h为子空间的个数，concat为向量拼接操作。

优选地，所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码，将其最后一步的输出作为当前待增强语音的干净特征估计。

优选地，所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是自注意力解码方法，在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算，将当前帧的输出作为待增强语音的干净特征估计。

优选地，步骤三中，含噪语音特征为训练特征，干净语音特征为训练目标。

优选地，步骤五中，将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱，通过逆傅里叶变换重构时域波形信号，最终得到增强的语音信号。

(三)有益效果

本发明本发明针对现有基于注意力机制的语音增强方法无法在注意力计算过程中明显抑制噪声的问题，基于对人类在听觉感知的过程中存在掩蔽效应的研究及利用，提出了一种基于多头自注意力机制的语音增强方法，该方法实现了在注意力机制运算的过程中抑制噪声部分，提高了语音增强性能。

附图说明

图1为本发明设计的编码器-解码器架构原理图；

图2为本发明中的transformer网络层结构原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

当前基于注意力机制的语音增强方法在应用注意力机制的过程中，同时放大了干净语音信息和噪声信息，并没有明显抑制噪声部分。针对此问题，本发明提出一种基于多头自注意力机制的语音增强方法。由于，人类在听觉感知的过程中存在掩蔽效应，能量较弱的信号会被能量较高的信号所掩蔽。根据这一效应，通过在连续输入的相邻多帧语音特征上施加多头自注意力运算，计算输入的每一帧语音特征与其他语音特征的相似度并且为每一帧语音信号赋权，得到输入特征的高层抽象特征表示序列，可以使得输入特征的干净语音部分和噪声部分有较为明显的区分，换言之，如果某一帧信号以干净语音为主导，则经过自注意力运算之后会包含更多的语音信息，反之如果以噪声为主导，则会包含更多的噪声信息，从而使后续基于独立帧运算的全连接网络可以更有效地抑制语音中的噪声部分。具体流程如下：

步骤一：混合实验数据，提取对数功率谱特征

1)将原始的干净语音数据和噪声数据重采样为16000hz；

3)提取干净语音数据和含噪语音数据的对数功率谱特征，构建用于训练网络的干净语音特征和含噪语音特征的数据对，其中，计算对数功率谱时的帧长为512个点，帧移为256点，所计算出的特征维度为257；

步骤二：搭建基于多头自注意力机制的语音增强模型

本发明中基于门控循环神经网络的语音增强模型主要包含两个部分：编码器和解码器，整体结构如图1所示，网络输入为以第n帧为中心的相邻多帧对数功率谱特征，即：X＝(x_n-m,x_n-m+1,...,x_n,...,x_n+m-1,x_n+m)，m为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z＝(z_n-N,z_n-N+1,...,z_n,...,z_n-N+1,z_n+N)，N为整数，解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计S～_n，这一过程用公式表示如下：

Z＝Encoder(X)

其中，编码器由独立的网络层组成，称其为transformer层，每个网络层由两个子层组成，第一层为多头自注意力层用于执行多头自注意力运算，第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰，两个子层采用残差连接，并且施加层标准化。编码器结构如图2所示。同时，由于以上结构在注意力计算时是以帧为单位运算没有利用到序列位置信息，而语音信号具有时序特性，因此为充分利用相邻帧之间的上下文关系，需要为编码器输入添加时序信息。为了将在输入特征中增加时序信息，采用三角函数来编码时序信息，得到编码后的时序信息：

其中，pos表示时序信息(位置)，i表示特征维数，d_model表示编码器每一层的输出维数。

其中的多头自注意力层是本发明的关键所在，自注意力是指计算注意力所需要的查询和键值对来自同一个地方。多头注意力是注意力机制的一种变体，利用多次查询并行地从输入信息中提取到多组不同信息进行拼接，其优点在于可以从不同的子空间中获取到相关信息。多头注意力先将查询矩阵、键矩阵和值矩阵映射到多个不同的子空间中，分别计算各个子空间中的注意力，最后将各子空间的输出拼接在一起。对于语音增强任务而言，能量高的语音信号会掩盖能量低的语音信号，通过对输入语音特征序列施加多头自注意力运算，可以使得输入序列中的特征以干净语音信息或者噪声信息为主导，从而区分干净语音和噪声。本发明计算注意力的打分函数使用缩放点击模型。多头自注意力层执行的多头自注意力运算定义如下：

Multi-Head(Q,K,V)＝concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计。本发明设计了两种不同的解码方法。第一种方法是GRU解码方法，由于RNN及其变体网络擅长处理序列数据，并且其性能已经在语音增强领域得到了验证，因此本发明使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码，将其最后一步的输出作为当前待增强语音的干净特征估计：

第二种方法是自注意力解码方法，在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算，将当前帧的输出作为待增强语音的干净特征估计。解码器的网络结构和编码器的网络结构相同，实际上相当于额外叠加了transformer层：

步骤三：训练语音增强模型

将步骤一所提取的含噪语音特征和干净语音特征数据对输入网络进行训练。其中，含噪语音特征为训练特征，干净语音特征为训练目标。

步骤四：估计待增强语音的干净语音特征

将所提取的对数功率谱特征作为待增强语音特征送入训练好的网络，输出得到相应的干净语音特征估计。

步骤五：波形重构，恢复语音信号

将步骤四所得到的待增强语音的干净语音特征估计，结合待增强语音的相位谱，通过逆傅里叶变换(ISTFT)重构时域波形信号，最终得到增强的语音信号。

本发明实施例所使用的干净语音全部来自中文语音数据集Free ST ChineseMandarin Corpus，训练集所使用的噪声来自俄亥俄州立大学语音实验室的100种噪声，测试集使用的噪声来自noisex-92数据库。按照步骤一的方法，首先将所使用的语音数据均重采样为16000hz。对于训练集，本发明从中文数据集中随机选取7000条语音数据，包含700位不同的说话人，每人10条语音。从-10db，-5db，0db，5db，10db五种信噪比中随机选取一种信噪比，按照该信噪比将干净语音与从训练集噪声中随机选取的两种噪声进行混合，构成14000(7000*2)条数据。对于测试集，实施例从中文数据集中选取与训练集语音数据完全不同的150条语音，包含30位不同的说话人，每人5条语音。测试集噪声选取了noisex92数据集中的五种不同噪声，分别是babble、leopard、m109、machinegun和volvo。按照-6db、0db和6db三种不同信噪比，将150条干净语音和5种噪声进行匹配混合，得到2250(150*4*3)条含噪语音。

为了验证本发明的性能，选取了DNN自回归语音增强方法(简记为DNN)和基于GRU的语音增强方法(简记为GRU)作为基线方法，对比本发明所提出的基于多头自注意力机制语音增强方法。其中，使用GRU解码器的方法简记为self-attention-gru，使用自注意力解码器的方法简记为self-attention，加入时序信息的方法简记为time-xx。DNN网络层数为4，激活函数为ReLU，每个隐藏层包含2048个节点，并且每个隐藏层之后接一个dropout层，dropout层的比例为0.2，网络输入为相邻连续7帧对数功率谱特征。GRU网络层数为2，每层包含1024个节点，网络输入为相邻连续15帧对数功率谱特征。

对语音增强效果的评估采用感知语音质量(Perceptual Evaluation of SpeechQuality，PESQ)和短时客观可懂度(Short time objective intelligibility，STOI)两种评价指标。

由表1可以看出，在三种不同信噪比、不同说话人，六种不同噪声类型的环境下，本文提出的三种利用多头自注意力机制的语音增强方法的语音增强效果明显优于两种基线方法。这表明，在语音增强任务中加入多头自注意力机制，可以有效提升增强语音的语音质量和可懂度。

表1不同方法的语音增强性能比较

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多头自注意力机制的语音增强方法，其特征在于，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于多头自注意力机制的语音增强模型；

步骤五：将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构，恢复语音信号；

步骤一具体为：

1)将原始的干净语音数据和噪声数据重采样为16000hz；

步骤二构建的基于多头自注意力机制的语音增强模型包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征，即：X＝(x_n-m,x_n-m+1,...,x_n,...,x_n+m-1,x_n+m)，m为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z＝(z_n-N,z_n-N+1,...,z_n,...,z_n-N+1,z_n+N)，N为整数，解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计

所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码，将其最后一步的输出作为当前待增强语音的干净特征估计。

2.如权利要求1所述的方法，其特征在于，所述编码器由独立的网络层组成，称其为transformer层，每个网络层由两个子层组成，第一层为多头自注意力层用于执行多头自注意力运算，第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰，两个子层采用残差连接，为了将在输入特征中增加时序信息，采用三角函数来编码时序信息，得到编码后的时序信息：

3.如权利要求2所述的方法，其特征在于，多头自注意力层中计算注意力的打分函数使用缩放点击模型。

4.如权利要求3所述的方法，其特征在于，多头自注意力运算定义如下：

Multi-Head(Q,K,V)＝concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，Q,K,V分别表示计算的注意力相关查询、键和值，d_k表示键的维数，

5.如权利要求1所述的方法，其特征在于，所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是自注意力解码方法，在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算，将当前帧的输出作为待增强语音的干净特征估计。

6.如权利要求5所述的方法，其特征在于，步骤三中，含噪语音特征为训练特征，干净语音特征为训练目标。

7.如权利要求6所述的方法，其特征在于，步骤五中，将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱，通过逆傅里叶变换重构时域波形信号，最终得到增强的语音信号。