CN114023352B

CN114023352B - 一种基于能量谱深度调制的语音增强方法及装置

Info

Publication number: CN114023352B
Application number: CN202111340547.2A
Authority: CN
Inventors: 李志坚; 毛文健; 李斌; 吴朝晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-12-16
Anticipated expiration: 2041-11-12
Also published as: CN114023352A

Abstract

本发明公开一种基于能量谱深度调制的语音增强方法及装置，涉及语音增强技术。针对现有技术中实时性低等问题提出本方案。输入作为训练样本的纯净语音信号和噪声信号；获取纯净语音信号和噪声信号的能量比值得到修正增益g1；将纯净语音信号和噪声信号合成带噪声语音信号；提取带噪声语音信号的特征参数；获取通过能量谱深度调制得到的初始增益g0；周期追踪纯净语音信号和噪声信号得到时间差；将修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练。优点在于，实现对有效语音信号进行增强，对噪声进行抑制，实现低延时，低资源占用的语音增强技术。对于助听器等要求低延时，低硬件资源使用的智能设备来说具有广泛的应用场景。

Description

一种基于能量谱深度调制的语音增强方法及装置

技术领域

本发明涉及语音增强技术，尤其涉及一种基于能量谱深度调制的语音增强方法及装置。

背景技术

随着时代的快速发展，人们对于智能手机，可穿戴式设备如耳机，助听器等智能设备，大型会议，人机交互的使用要求越来越高。而往往在现实生活的使用过程中会受到来自环境的干扰。如对于耳弱患者来说需要佩戴助听器来获取外界的语音信息的时候，由于助听器的算法并不能实现很人性化的要求，经常在放大有效语音的同时也会将噪音一同放大，导致患者的听觉感受十分不舒适。同样的对于视频会议来说，会议现场的人门进行的动作，如摆动桌子，东西掉落，低声聊天等声音也会通过麦克风都传播到远处的线上会议上，让对面的听众听到很多嘈杂的声音干扰到对会议内容的了解学习。语音增强技术是为了能够准确的从复杂的背景噪声中提取出有效语音并进行增强，成为了语音领域一个重要且具有挑战性的研究课题。

在现如今，语音增强技术主要分为两个方法，一个基于传统的统计学原理，如谱减法，维拉滤波法，子空间算法等算法具有广泛的应用。这些方法都是基于语音和噪声信号的统计特性，通常假设噪声是平稳或缓变。在使用场景满足假设条件的情况下，这些方法能取得一个良好得增强效果。但同时在复杂的真实使用过程中，多种多样的噪声使得这些方法失效，反而容易产生令人困扰的音乐噪声。

而另外一个领域则是随着深度学习的发展，人们将深度学习应用于语音增强，在某程度上可以提高算法的不同噪声的抗干扰性，提高鲁棒性。但深度学习的方法存在一个问题就是依赖于庞大的训练数据，测试数据的训练，由训练数据的多样不同，决定了算法的降噪能力。同时由于大量数据的训练迭代，使得需要花大量时间用于数据训练上。对于运行算法的硬件有较高的要求，并不能广泛推广应用。而对于语音增强技术的应用往往要求低延时，才不会给使用者带来不适。

公开号为CN201910406078.6的专利中描述的语音增强方法是一种深度学习的方法，通过获取语音数据集，对语音数据进行预处理并进行频域处理。其后还需要基于深层循环神经网络的模型进行字典训练，从而去提取语音特征参数，并结合非负矩阵分解算法和深度学习的方法去实现语音增强。虽然可以对带噪语音进行增强的效果。但该方法，计算过程依旧需要耗费大量的硬件资源，无法做到低延时的要求。

发明内容

鉴于现有技术的占用资源多，算法耗时长，无法适用复杂的噪声环境的缺陷。本发明目的在于提供一种基于能量谱深度调制的语音增强方法及装置，以解决上述现有技术存在的问题。在保证语音增强质量有保证的同时，可以实现低延时及低占用硬件资源使用。

本发明所述一种基于能量谱深度调制的语音增强方法，包括以下步骤：

S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤；

S2、待处理带噪语音经过所述语音增强计算模块后输出增强语音的步骤；

所述的RNN网络通过以下子步骤训练完成：

S11、输入作为训练样本的纯净语音信号和噪声信号；

S12、获取纯净语音信号和噪声信号的能量比值得到修正增益g1；

S13、将所述纯净语音信号和噪声信号合成带噪声语音信号；

S14、提取所述带噪声语音信号的特征参数；

S15、获取通过能量谱深度调制得到的初始增益g0；

S16、周期追踪所述纯净语音信号和噪声信号得到时间差；

S17、将所述修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练；

其中步骤S14的特征参数在数字处理电路中完成。

训练RNN网络是，将连续的中低频带量化划分为K个频带；根据K的数量不同得到不同级别的语言增益；其中K为大于10且小于25的自然数；频带数K越大，语音增强效果越好。

所述的频带数K为18或22。

所述步骤S12中，将纯净语音信号的时域信号x(i)转化频域信号X(i)，将噪声信号的时域信号n(i)转化为频域信号N(i)；其中i为K个频带中的序号，即i∈[1,K]。

所述的修正增益g1＝EX(i)/EN(i)，其中EX(i)是频域信号X(i)的能量值，EN(i)是频域信号N(i)的能量值。

所述步骤S13中，将带噪声语音信号的时域信号y(i)转化为频域信号Y(i)。

所述的初始增益g0＝EX(i)/EY(i)，其中，EY(i)是频域信号Y(i)的能量值。

开始步骤S2前，先对待处理带噪语音通过语音活动检测，判断语音是否静默；当判断为非静默时才开始步骤S2，否则继续等待下一次待处理带噪语音的输入。

训练RNN网络过程中保存修正增益g1，在RNN网络完成了步骤S17的训练后，利用修正增益g1对RNN网络进行二次修正。

本发明所述的一种基于能量谱深度调制的语音增强装置，包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元；

所述的FPGA芯片设有工程钟模块，所述的工程钟模块被配置为所述方法中的语音增强计算模块。

本发明所述一种基于能量谱深度调制的语音增强方法及装置，其优点在于，将语音增强算法中的特征提取部分与神经网络训练部分分隔开来，使用传统的数字信号处理方法去完成数据的特征提取，同时结合能量谱深度调制进行修正，提高特征参数据值的表征意义。而后通过循环神经网络对特征参数进行训练学习，得出基于能量谱调制的语音增强计算模块。进而实现对有效语音信号进行增强，对噪声进行抑制，实现低延时，低资源占用的语音增强技术。对于助听器等要求低延时，低硬件资源使用的智能设备来说具有广泛的应用场景。

附图说明

图1是本发明所述一种基于能量谱深度调制的语音增强方法的流程示意图；

图2是本发明所述RNN网络的结构示意图。

具体实施方式

本发明所述一种基于能量谱深度调制的语音增强装置至少包括了语音输入单元、FPGA芯片以及语音输出单元。FPGA芯片通过所述语音输入单元拾取原始声音信号，通过其内置的工程钟模块对语音进行增强并通过语音输出单元对用户输出。所述的工程钟模块被配置为语音增强计算模块，而语音增强计算模块封装有用于增强语音的RNN网络。所述的语音输入单元可以是麦克风，属于输出单元可以是喇叭、耳机等放音设备。FPGA芯片得到语音增强后的频谱信号，将得到的增强语音的频谱图经逆傅里叶变换IFFT至时域信号输出成增强语音。

如图1-2所示，本发明所述一种基于能量谱深度调制的语音增强方法通过以下步骤实现，而且训练出所述用于增强语音的RNN网络。

将0—20kHz的语音信号进行划分处理，根据人耳对声音的音高响应进行划分，由于人耳对中低频带的语音信号更加敏感反应，而且日常交流中也是中低频语音信号占主体。

分两种可选模式：

其一是默认正常交流情况下的使用，将0-20kHz的频率阈值划分成中低频的18个频带，即K＝18。得出18个初始增益g0，再将该18个初始增益g0传输至下一层能量谱深度调制中进行参数修正，再作为特征参数之一进入循环神经网络(RNN)训练得出最终增益修正。参考中低频增益以一定的权重估计高频的增益，可大幅度的降低训练网络的权重参数；

其二是特殊处理情况，该算法的使用场景不单纯是普通的日常交流场景，还存在高频语音信号需要处理。故需要计算完整的22个频带增益估算值，即K＝22。再将该22个初始增益传输至能量谱深度调制在进行参数修正，再进入后续的循环神经网络训练。虽相差只为4个增益值，但经过多次训练之后，神经网络的权重相差可达近30％。

语音增强操作之前，先对待处理带噪语音通过语音活动检测VAD，判断语音是否静默。当判断为非静默时才开始步骤S2，否则继续等待下一次待处理带噪语音的输入。对待处理的语音信号的能量进行检测，当能量值小于设定阈值时，将其定为非语音段，将增益修正为0，进行噪声抑制。当能量值大于设定阈值，将其传输至语音增强计算模块进行语音增强。

所述的RNN网络通过以下步骤训练完成：

将噪声数据集中的所有噪声组合成一个wav音频文件，将纯净语音数据集中的所以语音信号组合成另一个wav音频文件。分别以两个不同的通道向算法端口传输该两组数据，并对其进行预处理，加窗分帧。由于在语音信号处理领域中，语音信号具有短时平稳性，即10ms-30ms的语音信号可以看作是短时稳定信号，故本发明中采用汉明窗为20ms，帧移为10ms。在语音信号处理领域有效的语音信号一般位于200Hz-4000Hz的频域范围内，故需对传入的语音信号先进行低通滤波过滤高频噪声信号并加窗分帧处理。

分帧预处理后，纯净语音信号为时域信号x(i)，噪声信号为时域信号n(i)。之后同时进行三步处理：

第一，进行傅里叶变换，即短时FFT，将分别将时域信号x(i)转化为频域信号X(i)，将时域信号n(i)转为频域信号N(i)。其中i为K个频带中的序号，即i∈[1,K]。计算对应频带的能量值：频域信号X(i)的能量值E_X(i)，频域信号N(i)的能量值E_N(i)。得到修正增益g1＝E_X(i)/E_N(i)。纯净语音信号的频带能量与噪声信号的频带能量的比值意为能量深度调制，将语音信号从带噪信号中调制出来。

为进一步保证估算初始增益的可靠性，将修正增益保存下来，待训练完成之后，进行二次修正，使训练后的频带增益对语音增强效果更好。

第二，将两路时域信号x(i)和n(i)，在时域上按帧进行叠加混合成带噪语音信号，得到时域信号y(i)。进行傅里叶变换，将时域信号y(i)转化为频域信号Y(i)，并计算对应的能量值E_Y(i)。通过MFCC(梅尔倒谱系数)进行特征参数的提取，包括K个频带能量的倒谱系数。对每一频带定义初始增益g0＝E_X(i)/E_Y(i)。

第三，将两路时域信号x(i)和n(i)进行基音分析追踪，得到时间差。由于在说活过程中，人声是会出现明显的共振特征的。再加上语音信号的短时平稳性，可以知道在很短的时间内，声带振动的频率是比较平稳的。因此具备稳定的基频，通过在时域中去寻找追踪该周期信号，通过现有技术中的自相关算法去检测得出共振信号出现的时间差。

然后将修正增益g1和特征参数组合成数组，将其传输至循环神经网络RNN的入口参数中，结合初始增益g0及时间差对RNN网络进行训练。本发明中所述的RNN网络设定如图2所示，组成包括输入特征，三个GRU层，输入输出的全连接层dense层。进行训练最后输出K个频带增益参数。对频带增益进行插值，得出480个频点增益。

在经过训练集训练后可得出最终频带增益值，形成语音增强计算模块，并将该模块封装，留下参数入口及参数出口。参数入口可以连接前置的频谱分析单元，参数出口可以连接后置的短时IFFT单元。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于能量谱深度调制的语音增强方法，包括以下步骤：

S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤；

其特征在于，

所述的RNN网络通过以下子步骤训练完成：

S11、输入作为训练样本的纯净语音信号和噪声信号；

S13、将所述纯净语音信号和噪声信号合成带噪声语音信号；

S14、提取所述带噪声语音信号的特征参数；

S15、获取通过能量谱深度调制得到的初始增益g0；

S16、周期追踪所述纯净语音信号和噪声信号得到时间差；

其中步骤S14的特征参数在数字处理电路中完成；

训练RNN网络是，将连续的中低频带量化划分为K个频带；根据K的数量不同得到不同级别的语言增益；其中K为大于10且小于25的自然数；频带数K越大，语音增强效果越好；

所述的频带数K为18或22；

所述步骤S12中，将纯净语音信号的时域信号x(i)转化频域信号X(i)，将噪声信号的时域信号n(i)转化为频域信号N(i)；其中i为K个频带中的序号，即i∈[1,K]；

所述的修正增益g1＝E_X(i)/E_N(i)，其中E_X(i)是频域信号X(i)的能量值，E_N(i)是频域信号N(i)的能量值；纯净语音信号的频带能量与噪声信号的频带能量的比值意为能量深度调制，将语音信号从带噪信号中调制出来；

所述步骤S13中，将带噪声语音信号的时域信号y(i)转化为频域信号Y(i)；

所述的初始增益g0＝E_X(i)/E_Y(i)，其中，E_Y(i)是频域信号Y(i)的能量值；

开始步骤S2前，先对待处理带噪语音通过语音活动检测，判断语音是否静默；当判断为非静默时才开始步骤S2，否则继续等待下一次待处理带噪语音的输入

2.一种基于能量谱深度调制的语音增强装置，其特征在于，包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元；

所述的FPGA芯片设有工程钟模块，所述的工程钟模块被配置为权利要求1所述方法中的语音增强计算模块。