CN110867192A

CN110867192A - 基于门控循环编解码网络的语音增强方法

Info

Publication number: CN110867192A
Application number: CN201911011966.4A
Authority: CN
Inventors: 常新旭; 袁晓光; 寇金桥; 张杨; 杨林; 吴敏; 王昕�; 徐冬冬; 赵晓燕; 闫帅
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-03-06

Abstract

本发明涉及一种基于门控循环编解码网络的语音增强方法，涉及语音增强技术领域。本发明针对针对现有的语音增强方法没有利用上下文信息与当前待增强语音帧之间联系的问题，基于人类听觉感知的过程的研究，提出了一种基于门控循环编解码网络的语音增强方法，在语音增强任务中引入编解码器架构，使用编码器对相邻多帧语音信号建模以提取上下文信息，利用解码器挖掘当前待增强语音帧和上下文信息之间的联系，提高了语音增强性能。

Description

基于门控循环编解码网络的语音增强方法

技术领域

本发明涉及语音增强技术领域，具体涉及一种基于门控循环编解码网络的语音增强方法。

背景技术

语音增强技术作为信号处理过程当中一个基本环节，在语音识别、移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是提高被噪声污染语音的质量和可懂度。最近，随着深度学习技术的兴起，基于深度神经网络(Deep Neural Network,DNN)的有监督语音增强方法取得了巨大的成功，特别是在低信噪比和非平稳噪声的情况下，相较于传统方法表现出了更强大的优势。

从监督学习的角度看，基于深度学习的语音增强方法主要包含三个部分：特征、网络模型和优化目标。幅度调制谱、傅里叶对数幅度谱和梅尔倒谱系数是常用的语音增强特征。不同的网络模型也被应用在语音增强任务中，如深度前馈神经网络(DeepFeedForward Neural Network,DFNN)、循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Conventional Neural Network，CNN)。通常用于语音增强任务的优化目标可分为基于映射的目标和基于时频掩蔽的目标。

但是，目前基于深度学习的语音增强方法通常只利用了上下文信息，却忽略了上下文信息与当前待增强语音帧之间的联系。事实上，人类在交谈中不仅关注对方当前某一时刻所说的内容，同时也会联系上下文信息去处理所接受的信息。因此，根据这一现象，如何在语音增强任务中挖掘上下文信息和当前待增强语音帧之间的联系，是提高语音增强性能的一个突破口，是当前需要解决的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何在语音增强任务中挖掘上下文信息和当前待增强语音帧之间的联系，提高语音增强性能。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于门控循环编解码网络的语音增强方法，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于门控循环神经网络的语音增强模型；

步骤三：将步骤一提取的数据对所述语音增强模型进行训练；

步骤四：将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型，输出得到相应的干净语音特征估计；

步骤五：将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构，恢复语音信号。

优选地，步骤一具体为：

1)将原始的干净语音数据和噪声数据重采样为16000hz；

2)按照不同的输入信噪比，混合干净语音数据和噪声数据，构建含噪语音数据；

3)提取干净语音数据和含噪语音数据的对数功率谱特征，构建用于训练网络的干净语音特征和含噪语音特征的数据对，其中，计算对数功率谱时的帧长为512个点，帧移为256点，所计算出的特征维度为257。

优选地，步骤二构建的语音增强模型包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征，即： X＝(x_n-N,x_n-N+1,...,x_n,...,x_n-N+1,x_n+N)，N为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码使之成为包含全部上下文信息的高层特征表示C，解码器根据该特征表示C并结合当前待增强语音特征，生成当前待增强语音的干净语音特征估计

这一过程用公式表示如下：

C＝Encoder(X)

优选地，编码器和解码器的具体实现是使用GRU网络实现，GRU 网络的公式输出值如下：

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r)

z_t＝σ(x_tW_xz+h_t-1W_hz+b_z)

其中，

代表逐元素乘法，W_xr,W_xz,W_xh∈R^d×h和W_hr,W_hz,W_hh∈R^h×h是权重参数，b_r，b_z，b_h∈R^1×h是偏差参数，σ为激活函数。

优选地，所述GRU网络层数为2，每层包含1024个节点。

优选地，模型输入为相邻连续15帧对数功率谱特征。

优选地，步骤三中，含噪语音特征为训练特征，干净语音特征为训练目标。

优选地，步骤五中，将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱，通过逆傅里叶变换重构时域波形信号，最终得到增强的语音信号。

本发明还提供了一种所述的语音增强方法的语音增强效果评估的方法，该方法采用感知语音质量这种评价指标进行评估。

优选地，该方法还采用短时客观可懂度这种评价指标进行评估。

(三)有益效果

本发明针对针对现有的语音增强方法没有利用上下文信息与当前待增强语音帧之间联系的问题，基于人类听觉感知的过程的研究，提出了一种基于门控循环编解码网络的语音增强方法，在语音增强任务中引入编解码器架构，使用编码器对相邻多帧语音信号建模以提取上下文信息，利用解码器挖掘当前待增强语音帧和上下文信息之间的联系，提高了语音增强性能。

附图说明

图1为本发明设计的编码器-解码器架构原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

当前基于深度学习的语音增强方法通常只利用了上下文信息，却忽略了上下文信息与当前待增强语音帧之间的联系。根据人类听觉感知的过程，上下文信息与当前待增强语音帧之间的联系对语音增强任务至关重要。因此，本发明提出一种基于门控循环神经网络的语音增强方法，挖掘上下文信息与当前待增强语音帧之间的联系，以提高语音增强性能。

本发明提出了一种基于门控循环编解码网络的语音增强方法，在语音增强任务中引入编解码器架构，使用编码器对相邻多帧语音信号建模以提取上下文信息，利用解码器挖掘当前待增强语音帧和上下文信息之间的联系。具体流程如下：

步骤一：混合实验数据，提取对数功率谱特征

1)将原始的干净语音数据和噪声数据重采样为16000hz；

3)提取干净语音数据和含噪语音数据的对数功率谱特征，构建用于训练网络的干净语音特征和含噪语音特征的数据对，计算对数功率谱时的帧长为512个点，帧移为256点，所计算出的特征维度为257；

步骤二：构建基于门控循环神经网络的语音增强模型

本发明中基于门控循环神经网络的语音增强模型(待训练网络) 主要包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征(待增强语音特征)，即：X＝(x_n-N,x_n-N+1,...,x_n,...,x_n-N+1,x_n+N)，编码器将输入的待增强语音特征重新编码使之成为包含全部上下文信息的高层特征表示C，解码器根据该特征表示C并结合当前待增强语音特征，生成当前待增强语音的干净语音特征估计

这一过程用公式表示如下：

C＝Encoder(X)

编码器和解码器的具体实现是使用2层GRU网络实现，每层节点数目为1024，网络结构如图1所示，GRU网络的公式定义如下：

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r)

z_t＝σ(x_tW_xz+h_t-1W_hz+b_z)

其中，

步骤三：训练语音增强模型

将步骤一所提取的含噪语音特征和干净语音特征数据对语音增强模型(输入网络)进行训练。其中，含噪语音特征为训练特征，干净语音特征为训练目标；

步骤四：估计待增强语音的干净语音特征

将步骤一所提取的待增强语音特征送入训练好的模型(网络)，输出得到相应的干净语音特征估计；

步骤五：波形重构，恢复语音信号

将步骤四所得到的待增强语音的干净语音特征估计，并结合待增强语音的相位谱，通过逆傅里叶变换(ISTFT)重构时域波形信号，最终得到增强的语音信号。

本发明实施例所使用的干净语音全部来自中文语音数据集Free ST ChineseMandarin Corpus，训练集所使用的噪声来自俄亥俄州立大学语音实验室的100种噪声，测试集使用的噪声来自noisex-92数据库。按照步骤一的方法，首先将所使用的语音数据均重采样为16000hz。对于训练集，本发明从中文数据集中随机选取7000条语音数据，包含700位不同的说话人，每人10条语音。从-10db，-5db，0db，5db， 10db五种信噪比中随机选取一种信噪比，按照该信噪比将干净语音与从训练集噪声中随机选取的两种噪声进行混合，构成14000(7000*2) 条数据。对于测试集，实施例从中文数据集中选取与训练集语音数据完全不同的150条语音，包含30位不同的说话人，每人5条语音。测试集噪声选取了noisex92数据集中的五种不同噪声，分别是babble、 leopard、m109、machinegun和volvo。按照-6db、0db和6db三种不同信噪比，将150条干净语音和5种噪声进行匹配混合，得到2250 (150*5*3)条含噪语音。

为了验证本发明的性能，本发明选取了DNN自回归语音增强方法(简记为DNN)和无编解码架构的GRU(简记为GRU)方法作为基线方法，对比本发明所提出的基于门控循环编解码网络语音增强方法 (简记为GRU-E-D)。DNN网络层数为4，激活函数为ReLU，每个隐藏层包含2048个节点，并且每个隐藏层之后接一个dropout层，dropout层的比例为0.2，网络输入为相邻连续7帧对数功率谱特征。 GRU网络层数为2，每层包含1024个节点，网络输入为相邻连续15 帧对数功率谱特征。

对语音增强效果的评估采用感知语音质量(Perceptual Evaluation of SpeechQuality，PESQ)和短时客观可懂度(Short time objective intelligibility，STOI)两种评价指标。

由表1可以看出，在三种不同信噪比、不同说话人，六种不同噪声类型的环境下，经本专利所提出的方法增强的语音的平均PESQ值明显优于经其余两种基线方法增强的语音的平均PESQ值，平均STOI 值优于DNN方法的平均STOI值。

表1不同方法的语音增强性能比较

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于门控循环编解码网络的语音增强方法，其特征在于，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于门控循环神经网络的语音增强模型；

2.如权利要求1所述的方法，其特征在于，步骤一具体为：

1)将原始的干净语音数据和噪声数据重采样为16000hz；

3.如权利要求2所述的方法，其特征在于，步骤二构建的语音增强模型包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征，即：X＝(x_n-N,x_n-N+1,...,x_n,...,x_n-N+1,x_n+N)，N为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码使之成为包含全部上下文信息的高层特征表示C，解码器根据该特征表示C并结合当前待增强语音特征，生成当前待增强语音的干净语音特征估计

这一过程用公式表示如下：

C＝Encoder(X)

4.如权利要求3所述的方法，其特征在于，编码器和解码器的具体实现是使用GRU网络实现，GRU网络的公式输出值如下：

r_t＝σ(x_tW_xr+h_t-1W_hr+b_r)

z_t＝σ(x_tW_xz+h_t-1W_hz+b_z)

其中，

5.如权利要求4所述的方法，其特征在于，所述GRU网络层数为2，每层包含1024个节点。

6.如权利要求5所述的方法，其特征在于，模型输入为相邻连续15帧对数功率谱特征。

7.如权利要求1所述的方法，其特征在于，步骤三中，含噪语音特征为训练特征，干净语音特征为训练目标。

8.如权利要求4所述的方法，其特征在于，步骤五中，将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱，通过逆傅里叶变换重构时域波形信号，最终得到增强的语音信号。

9.一种如权利要求1至8中任一项所述的语音增强方法的语音增强效果评估的方法，其特征在于，该方法采用感知语音质量这种评价指标进行评估。

10.如权利要求9所述的方法，其特征在于，该方法还采用短时客观可懂度这种评价指标进行评估。