CN111968658B

CN111968658B - 语音信号的增强方法、装置、电子设备和存储介质

Info

Publication number: CN111968658B
Application number: CN202010610270.XA
Authority: CN
Inventors: 张国昌; 魏建强; 于利标; 韩润强; 卿睿; 李峥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-02-06
Anticipated expiration: 2040-06-30
Also published as: CN111968658A

Abstract

本申请公开了一种语音信号的增强方法、装置、电子设备和存储介质，涉及语音技术领域、深度学习领域。具体实现方案为：获取麦克风信号、远端参考信号和声学回波消除信号；提取麦克风信号的麦克风特征，并提取远端参考信号的远端参考特征；根据麦克风特征和远端参考特征生成语音信号在预设多个频带之上的存在概率；根据在预设多个频带之上的存在概率对声学回波消除信号进行增强。本申请可以解决针对目前基于信号处理的回波消除技术面临的无法很好平衡回波消除量和近讲语音失真的问题。

Description

语音信号的增强方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及语音技术领域、深度学习领域，尤其涉及一种语音信号的增强方法、装置、电子设备和存储介质。

背景技术

背景噪声和远端回波是影响语音通话体验的主要因素，经典的语音通讯系统中，这两个任务分别由噪声抑制(Noise Suppression，英文简称：NS)和声学回波消除(Acoustic Echo Cancellation，英文简称：AEC)两个模块来完成。

理想情况下，声学回波是可以通过一个线性自适应滤波器完全消除的，然而由于扬声器的非线性、信号截幅、不佳的腔体设计、线性滤波器长度不足以及传递函数变化等问题。实际应用时，单一的线性自适应滤波器并不能很好满足需求。这一点在手机、笔记本电脑等小型设备上尤为明显。因此，广泛应用的声学回波消系统除往往由线性自适应滤波器和残留回波抑制(Residual Echo Suppression，英文简称：RES)器两部分组成。然而，相关技术中，基于信号处理的RES往往无法很好的平衡回波消除量和近讲语音失真。

发明内容

本申请提供了一种用于提高语音质量的语音信号的增强方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种语音信号的增强方法，包括：

获取麦克风信号、远端参考信号和声学回波消除信号；

提取所述麦克风信号的麦克风特征，并提取所述远端参考信号的远端参考特征；

根据所述麦克风特征和所述远端参考特征生成语音信号在预设多个频带之上的存在概率；

根据所述在预设多个频带之上的存在概率对所述声学回波消除信号进行增强。

根据本申请的第二方面，提供了一种语音信号的增强装置，包括：

信号获取模块，用于获取麦克风信号、远端参考信号和声学回波消除信号；

特征提取模块，用于提取所述麦克风信号的麦克风特征，并提取所述远端参考信号的远端参考特征；

生成模块，用于根据所述麦克风特征和所述远端参考特征生成语音信号在预设多个频带之上的存在概率；

增强模块，用于根据所述在预设多个频带之上的存在概率对所述声学回波消除信号进行增强。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的语音信号的增强方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述的语音信号的增强方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面所述的语音信号的增强方法。

根据本申请实施例的技术方案，通过提取麦克风信号的麦克风特征和远端参考信号的远端参考特征，并利用麦克风特征和远端参考特征生成语音信号在多个频带之上的存在概率，进而基于语音信号在多个频带之上的存在概率实现语音的增强，整个语音增强过程中，考虑了语音信号之中的麦克风信号，该麦克风信号不完全等于近端语音，该麦克风信号比较复杂，包含了近端语音、近端背景噪声等多路信号，是一个综合的信号，从而使得基于麦克风特征和远端参考特征对声学回波消除信号进行增强时，可以有效识别出近讲语音和回波信号，进而利用识别出的近讲语音和回波信号进行语音增强，可以解决针对目前基于信号处理的回波消除技术面临的无法很好平衡回波消除量和近讲语音失真的问题。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的语音信号的增强方法的流程图；

图2是根据本申请另一个实施例的语音信号的增强方法的流程图；

图3是根据本申请实施例的概率生成模型的训练流程图；

图4是根据本申请实施例的语音信号的增强方法的流程图；

图5是根据本申请实施例的概率生成模型在通讯系统的应用结构框图；

图6为本申请的语音信号的增强方法的处理流程示例图；

图7是本申请实施例选用的分带曲线的示例图；

图8为本申请实施例的语音信号的波形与频谱图的示例图；

图9为利用本申请实施例的增强方法处理后的结果示例图；

图10是根据本申请一个实施例的语音信号的增强装置的结构框图；

图11是根据本申请另一个实施例的语音信号的增强装置的结构框图；

图12是根据本申请又一个实施例的语音信号的增强装置的结构框图；

图13是用来实现本申请实施例的语音信号的增强方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，为了去除软截幅、扬声器非线性等因素引起的回波残留，目前常用的两种做法：一是引入非线性的自适应滤波器，二是增加RES的后处理模块。

非线性自适应滤波器的经典模型有：沃尔泰拉滤波器、功率滤波器、基于饱和曲线的补偿器以及神经网络。尽管这些模型已经在部分场景下得到了成功的应用，但是由于大量的滤波器参数或者高阶统计量的计算导致模型较慢的收敛速度和较高的计算复杂度。

大部分实际场景下均采用第二类增加RES后处理模块的方法，这类方法依赖于线性自适应网络，独立于背景噪声抑制模块。基于信号处理的一种常规RES方法会统计线性自适应网络的输出和传声器采集信号之间以及参考和传声器之间的相干性来计算得到一个反映所需进一步回波抑制的因子，线性自适应网络输出乘以这个因子。从而进一步抑制回波残留。

RES后处理模块中计算回波抑制因子的方法主要有基于互相关的算法、中心削波算法、回波路径频域功率滤波算法等。但是，通常来说这些方法极具侵略性，可以较好的消除残余回波的同时也会引起近讲语音的失真。

除去上述方法外，还有一些并未在实际产品中应用的基于深度学习的回波消除方法，但是这些深度学习的方法往往在仿真数据上进行，模型泛化能力和环境自适应能力不佳，模型规模往往也无法被目前的即时通讯系统所接受。

如上所述，基于信号处理的回波残留抑制算法无法很好的平衡消除量和双讲近端语音失真，基于深度学习方法的泛化能力不佳，模型规模大无法实时运行在目前的即时通讯系统中。

为此，本申请提出了一种语音信号的增强方法、装置、电子设备和存储介质，可以解决针对目前基于信号处理的回波消除技术面临的无法很好平衡回波消除量和近讲语音失真的问题。具体地，下面参考附图描述本发明实施例的语音信号的增强方法、装置、电子设备和存储介质。

图1是根据本申请一个实施例的语音信号的增强方法的流程图。需要说明的是，本申请实施例的语音信号的增强方法应用于本申请实施例的语音信号的增强装置，该增强装置可被配置于电子设备上。

如图1所示，该语音信号的增强方法可以包括：

步骤101，获取麦克风信号、远端参考信号和声学回波消除信号。

在本申请实施例中，麦克风信号可以理解为近端传声器采集信号，例如，假设本申请实施例的语音信号的增强方法应用于移动终端的通讯系统上，则麦克风信号即为移动终端的麦克风所采集并输出的信号。其中，该麦克风信号可包括多路信号，比如，近端语音、近端背景噪声，其中，该近端语音可理解为传声器(即麦克风)采集信号中的近端语音成分，近端背景噪声可理解为传声器(即麦克风)采集信号中的噪声成分。

在本申请实施例中，远端参考信号是指远端传输来的语音信号。例如，假设用户A自己使用移动终端A正在与用户B通电话，移动终端A上使用了本申请实施例的语音信号的增强方法，则移动终端A为近端，则用户B的移动终端为远端，此时移动终端A可获取语音信号之中的麦克风信号(即移动终端A的麦克风所采集到的信号)，还可获取语音信号之中的远端参考信号，即远端传输来的语音信号。

在本申请实施例中，声学回波消除信号是指经过线性自适应滤波器处理后输出的信号，即经过AEC处理的输出信号。其中，该声学回波消除信号可包含有近端目标声音、背景噪声和回波残留。

步骤102，提取麦克风信号的麦克风特征，并提取远端参考信号的远端参考特征。

可以理解，由于麦克风信号和远端参考信号分别为时域信号，因此，需要先将麦克风信号和远端参考信号从时域信号转换为对应的频域信号，之后，可对麦克风频域信号进行特征提取，以得到麦克风特征，并对远端参考频域信号进行特征提取，以得到远端参考特征。

在本申请一些实施例中，可对麦克风信号进行频域转换以生成麦克风频域信号，并对远端参考信号进行频域转换以生成远端参考频域信号；按照预设的多个频带对麦克风频域信号进行频域合并以生成麦克风特征；按照预设的多个频带对远端参考频域信号进行频域合并以生成远端参考特征。

例如，可分别对麦克风信号和远端参考信号进行子带分解操作，以将麦克风信号从时域信号转换为对应的频域信号，得到麦克风频域信号，将远端参考信号从时域信号转换为对应的频域信号，得到远端参考频域信号。之后，对麦克风频域信号求幅度谱，并按照预设的多个频带，将与麦克风频域信号对应的幅度谱中的多个相邻频域进行合并，并利用特征提取算法将合并后得到的频域信号经过特征提取，以得到麦克风特征。对远端参考频域信号求幅度谱，并按照预设的多个频带，将与远端参考频域信号对应的幅度谱中的多个相邻频域进行合并，并利用特征提取算法将合并后得到的频域信号经过特征提取，以得到远端参考特征。在本申请实施例中，上述利特征提取算法可为LoG(即高斯-拉普拉斯)特征提取算法。其中，提取LoG谱特征的目的是压缩特征的动态范围。

需要说明的是，上述将幅度谱中的多个相邻频域进行合并的目的是为了降低模型输入的特征数量，降低模型的参数量，在本申请的实施例中，可将合并后输出的频域数量限定在64，即合并后的特征带数量为64。作为一种示例，频域合并可采用bark-scale方法。该bark-scale是一种心理声学尺度，其根据人类听觉临界带定义，该尺度下，时间的相同距离和感知上的相同距离一致，不过标准的bark-scale仅有24个频带，对残余回波抑制这个任务，过少的分带数量会使得特征建模能力不足进而导致回波消除能力不足，本申请使用高阶多项式拟合了bark-scale曲线，重新划分出来了64个频带以增加特征建模能力，如图7所示，为本申请实施例选用的分带曲线。也就是说，本申请可利用如图7所示的分带曲线，对幅度谱中的多个相邻频域进行合并。

举例而言，在将相邻的频域合并时，可先确定合并的中心频带，比如1、5、10、15，那么对相邻频域进行合并后，第一个频带是1-5，第二个频带是1-10，第三个频带是5-15，最后一个是10-15。也就是说，由于1、5、10、15都是中心频带，合并时可将左右两侧的合并到中心频带上。

步骤103，根据麦克风特征和远端参考特征生成语音信号在预设多个频带之上的存在概率。

可选地，将麦克风特征和远端参考特征进行归一化预处理，然后，根据归一化预处理后的麦克风特征和远端参考特征，计算语音信号分别在预设多个频带之上的存在概率，即语音在每个频带上的出现概率。

步骤104，根据在预设多个频带之上的存在概率对声学回波消除信号进行增强。

也就是说，在得到语音信号在预设多个频带之上的存在概率之后，可根据语音喜好在每个频带之上的存在概率，对在每个频带上的声学回波消除信号进行增强，以实现对语音信号的增强，提高语音质量。

根据本申请实施例的语音信号的增强方法，获取语音信号之中的麦克风信号、远端参考信号和声学回波消除信号，并分别提取麦克风信号的麦克风特征和远端参考信号的远端参考特征，之后，根据麦克风特征和远端参考特征生成语音信号在预设多个频带之上的存在概率，并根据在预设多个频带之上的存在概率对声学回波消除信号进行增强。由此，通过提取麦克风信号的麦克风特征和远端参考信号的远端参考特征，并利用麦克风特征和远端参考特征生成语音信号在多个频带之上的存在概率，进而基于语音信号在多个频带之上的存在概率实现语音的增强，整个语音增强过程中，考虑了语音信号之中的麦克风信号，而该麦克风信号包含了近端语音、近端背景噪声等多路信号，从而使得基于麦克风特征和远端参考特征对声学回波消除信号进行增强时，可以有效识别出近讲语音和回波信号，进而利用识别出的近讲语音和回波信号进行语音增强，可以稳定准确的抑制残留回波和平稳非平稳背景噪声，同时还可以避免近讲语音失真，可以很好的平衡回波消除量和近讲语音失真的问题。

为了可以进一步稳定准确的抑制残留回波，在本申请一些实施例中，可预先训练一个概率生成模型，该概率生成模型可为一种轻量级的同时降噪和去除残余回波的语音增强网络。其中，，可利用麦克风信号的特征、远端参考信号的特征和声学回波消除特征和概率生成模型，计算出语音信号在预设多个频带之上的存在概率，从而基于在预设多个频带之上的存在概率实现语音的增强。具体而言，如图2所示，该语音信号的增强方法可包括：

步骤201，获取语音信号之中的麦克风信号、远端参考信号和声学回波消除信号。

步骤202，分别提取麦克风信号和远端参考信号的麦克风特征和远端参考特征。

步骤203，提取声学回波消除信号之中的声学回波消除特征。

可选地，由于声学回波消除信号为时域信号，因此，需要先对该声学回波消除信号进行子带分解操作，以将声学回波消除信号从时域信号转换为对应的频域信号，以得到声学回波消除频域信号，并对声学回波消除频域信号求幅度谱，并按照预设的多个频带，将与声学回波消除频域信号对应的幅度谱中的多个相邻频域进行合并，并利用特征提取算法将合并后得到的频域信号经过特征提取，以得到声学回波消除特征。

步骤204，将麦克风特征、远端参考特征和声学回波消除特征输入至概率生成模型，以生成语音信号在预设多个频带之上的存在概率。

需要说明的是，概率生成模型可以是预先训练的，该概率生成模型可为一种轻量级的同时降噪和去除残余回波的语音增强网络。其中，该概率生成模型基于卷积神经网络(CNN)和循环神经网络(RNN)，可利用麦克风信号的特征、远端参考信号的特征和声学回波消除特征和概率生成模型，计算出语音信号在预设多个频带之上的存在概率。

在本申请一些实施例中，该概率生成模型可包括卷积神经网络模块、循环神经网络模块和概率生成模块。其中，作为一种可能的实现方式，所述将麦克风特征、远端参考特征和声学回波消除特征输入至概率生成模型，以生成语音信号在预设多个频带之上的存在概率的具体实现过程可如下：卷积神经网络模块根据麦克风特征、远端参考特征和声学回波消除特征生成特征时序信息；循环神经网络模块根据特征时序信息生成多个频带的频带特征以及频带间的关系特征；概率生成模块根据频带特征和频带间的关系特征生成语音信号在预设多个频带之上的存在概率。

作为一种示例，卷积神经网络模块可包括多层卷积，其中，该卷积神经网络模块中卷积层的卷积核可为二维的，即大小可为(t,f)，t为时间跨度，f为特征跨度(即上述的频率跨度)，其中，t>1以保证CNN有未来信息的视野，比如t＝3，那么当前帧数据+未来一帧和之前一帧的数据会被同时送给卷积神经网络模块，这样就可以保证卷积神经网络模块看到未来的信息，由此可见，卷积跨时间和频率两个维度，可以保证网络有前后数帧和左右数个频带的视野，帮助网络更好的处理当前帧信息。循环神经网络模块可用来记住更早之前的近端目标声音和远端参考特征，同时考虑非线性回波往往是跨频带的，因此可选用频带之间互相连接的RNN网络，以保证非线性产生的谐波残余同样可以被消除掉。

也就是说，卷积神经网络模块可将麦克风特征、远端参考特征和声学回波消除特征这三路特征进行卷积，以使这三路特征进行混合以生成特征时序信息。卷积神经网络模块将生成的特征时序信息输出到循环神经网络模块。循环神经网络模块根据特征时序信息生成多个频带的频带特征以及频带间的关系特征，循环神经网络模块将生成的频带特征以及频带间的关系特征输出至概率生成模块。概率生成模块根据频带特征和频带间的关系特征，计算出语音信号在预设多个频带之上的存在概率。

需要说明的是，在本申请实施例中，概率生成模块可包括全连接层和激活层，其中，激活层可选用sigmoid等范围为0-1的激活函数。

还需要说明的是，概率生成模型可以是预先训练的，比如，可以利用麦克风样本信号、远端样本参考信号和样本声学回波消除信号进行模型训练。具体而言，在本申请一些实施例中，如图3所示，概率生成模型通过以下步骤训练获得：

步骤301，获取近端样本无噪声语音信号和近端样本噪声信号。

可选地，预先建立样本池，可从样本池中获得近端样本无噪声语音信号和近端样本噪声信号。

步骤302，获取远端回波信号。

可选地，预先建立有远端回波数据库，可从该远端回波数据库中获取远端回波信号。

步骤303，根据近端样本无噪声语音信号、近端样本噪声信号和远端回波信号生成麦克风样本信号。

可选地，将近端样本无噪声语音信号、近端样本噪声信号和远端回波信号进行混合，以得到麦克风样本信号。

步骤304，获取远端样本参考信号。

可选地，预先建立有远端样本参考信号数据库，可从远端样本参考信号数据库中获取远端样本参考信号。

步骤305，根据远端样本参考信号和麦克风样本信号生成样本声学回波消除信号。

可选地，将远端样本参考信号和麦克风样本信号进行线性AEC预处理，以得到样本声学回波消除信号。可以理解，本申请通过引入麦克风样本信号来生成样本声学回波消除信号，可以让模型学习到麦克风样本信号中哪些信号成分被线性AEC衰减，如果经线性AEC处理后能量被衰减至很低则为大概率为回波段，如果基本没有衰减则更可能为近讲语音，这样可以帮助网络识别近讲语音和回波信号。

步骤306，将麦克风样本信号、远端样本参考信号和样本声学回波消除信号输入至概率生成模型以生成预测概率。

可选地，将麦克风样本信号、远端样本参考信号和样本声学回波消除信号输入至概率生成模型。该概率生成模型中的卷积神经网络模块可将麦克风样本信号、远端样本参考信号和样本声学回波消除信号分别对应的特征进行卷积，以生成特征时序信息，该概率生成模型中的循环神经网络模块可根据特征时序信息生成多个频带的频带特征以及频带间的关系特征，该概率生成模型中的概率生成模块根据所述频带特征和所述频带间的关系特征计算出样本信号对应的预测概率，即可理解为每个频带上语音存在的预测概率。

需要说明的是，该概率生成模型基于卷积神经网络(CNN)和循环神经网络(RNN)，该卷积神经网络(CNN)可以网络有前后数帧和左右数个频带的视野，帮助网络更好的处理当前帧信息，循环神经网络(RNN)用来记住更早之前的近端目标声音和远端参考特征，同时考虑非线性回波往往是跨频带的，从而可以使得概率生成模型同时兼顾了降低残余回波和背景噪音两项任务，模型可以自动寻找参考和残留回波之间的相关性，具备有自动识别所处环境的能力，存在回波时模型集中能力降低残余回波，存在背景噪声时模型专注于抑制噪音。

步骤307，根据近端样本无噪声语音信号和样本声学回波消除信号生成目标概率。

可选地，利用近端样本无噪声语音信号和样本声学回波消除信号计算出目标概率，该目标概率可理解为每个频带上语音存在的目标概率。例如，可利用如下公式计算目标概率：

其中,p(f)为目标概率，s(f)为近端样本无噪声语音信号，sl(f)为样本声学回波消除信号。

步骤308，根据预测概率和目标概率生成损失值，并根据损失值对概率生成模型进行训练。

可选地，利用目标损失函数计算预测概率和目标概率之间的损失值，该损失值大小可理解为预测概率和目标概率之间的差异程度，之后，可根据该损失值调整模型参数，进而基于麦克风样本信号、远端样本参考信号和样本声学回波消除信号，对调整模型参数后的概率生成模型继续进行训练，迭代学习训练，直至预测概率和目标概率之间的损失值小于阈值时，结束对概率生成模型的训练。

由此，通过步骤301-步骤308，可以实现概率生成模型的训练，使得概率生成模型同时兼顾了降低残余回波和背景噪音两项任务，模型可以自动寻找参考和残留回波之间的相关性，具备有自动识别所处环境的能力，存在回波时模型集中能力降低残余回波，存在背景噪声时模型专注于抑制噪音。另外，采用分带特征和CNN+RNN的网络结构，模型紧凑，参数量较少，可以运行在目前绝大部分即时通讯设备中。

步骤205，根据在预设多个频带之上的存在概率对声学回波消除信号进行增强。

在本申请一些实施例中，可对声学回波消除信号进行频域转换以生成声学回波消除频域信号，并根据声学回波消除频域信号生成相位特征，按照预设的多个频带对声学回波消除频域信号进行频域合并以生成声学回波消除特征，之后，根据相位特征、声学回波消除特征和在预设多个频带之上的存在概率进行增强。

举例而言，可对声学回波消除信号进行子带分解操作，以将该声学回波消除信号从时域信号转换为对应的频域信号，即得到声学回波消除频域信号。之后，可求出声学回波消除频域信号中的相位特征。可对声学回波消除频域信号求幅度谱，并按照预设的多个频带对求幅度谱后的声学回波消除频域信号进行频域合并以生成声学回波消除特征，然后，根据相位特征、声学回波消除特征和在预设多个频带之上的存在概率进行增强。

在本申请一些实施例中，如图4所示，所述根据相位特征、声学回波消除特征和在预设多个频带之上的存在概率进行增强的具体实现过程可包括：

步骤401，根据声学回波消除特征和在预设多个频带之上的存在概率进行增强生成增强声学回波消除频带信号。

可选地，将每个频带之上的存在概率乘以声学回波消除特征，以生成增强声学回波消除频带信号。

步骤402，根据预设的多个频带对增强声学回波消除频带信号进行频带展开以生成增强声学回波消除频域信号。

可选地，利用预设的多个频带对增强声学回波消除频带信号进行频带展开，以得到对应的增强后幅度谱，即增强声学回波消除频域信号。

步骤403，根据增强声学回波消除频域信号和相位特征生成增强信号。

可选地，结合线性AEC输出的相位特征和增强声学回波消除频域信号进行子带合成时域信号，该时域信号即为增强信号，即经过增强后的语音信号。

为了方便本领域技术人员了解本申请，下面将结合图5和图6对本申请进行详细描述。

图5展示了一个概率生成模型在通讯系统的应用结构框图，其中r(t)为远端参考信号，d(t)为远端参考信号经由扬声器播放和空气传播后达到近端传声器的信号，s(t)为近端语音(即麦克风信号)，n(t)为近端背景噪声，y(t)为近端传声器采集信号，sl(t)为声学回波消除信号，即为AEC线性部分的输出，其中含有近端目标声音、背景噪声和回波残留，为噪声抑制后的输出，期望系统输出的/>能够尽量逼近原始目标声音s(t)。其中，

y(t)＝r(t)*h(t)+z(n)+s(t)+n(t)

式中h^(t)为估计得到的线性自适应滤波器的参数，*表示时域卷积操作，r(t)*h(t)为线性回波分量，z(n)为扬声器非线性引起的非线性回波分量。

图5中概率生成模型即为本申请提出的一种轻量级的同时降噪和去除残余回波的语音增强网络。与传统的NS后处理输入只有线性自适应滤波器的输出sl(t)不同，在本申请中概率生成模型会引入多个输入，分别是近端传声器采集原始信号y(t)、远端参考信号r(t)以及AEC线性部分的输出信号sl(t)。

图6为本申请的语音信号的增强方法的处理流程示例图。如图6所示，该增强方法的处理流程可如下：1)从语音通讯系统中取出三路信号，分别为线性AEC的输出信号sl(t)，近端传声器采集信号(即麦克风信号)y(t)以及远端参考信号r(t)；2)对上三路信号进行子带分解操作，将时域信号转换为频域信号；3)对子带分解后的频域信号求幅度谱，其中线性AEC的输出还需要求出相位分量供最后的子带合成模块使用；4)为了降低模型输入的特征数量，本申请将多个相邻频点进行合并，合并后输出的频点数量是64；5)合并后频点经过特征提取算法处理提取bg谱特征，该处理目的是压缩特征的动态范围；6)接下来需要将log特征谱进行归一化预处理，归一化方法为零均值单位方差归一化，归一化后的特征更加有利于网络的学习；7)归一化后的特征送至多层卷积层(CNN)，卷积层的卷积核大小为(t，f)t为时间跨度，f为特征跨度，其中t＞1以保证CNN有未来信息的视野；8)CNN输出送给RNN来建模特征时序信息；9)而后再经过全连接层和激活层输出每个频带的语音概率，激活可以选用sigmoid等范围为0-1的激活函数；10)每个频带的语音概率点乘原始合并幅度谱后，进行频带展开得到增强后幅度谱；11)结合线性AEC输出的相位信息和增强后幅度谱进行子带合成时域信号，从而得到增强信号，实现语音增强。

需要说明的是，图6中的子带分解会将时域信号转换至频域，该信号可以直接由子带线性AEC模块提供，原始传声器y(t)支路为非必须支路，引入该支路可以让网络学习到y(t)中哪些信号成分被线性AEC衰减，如果经线性AEC处理后能量被衰减至很低则为大概率为回波段，如果基本没有衰减则更可能为近讲语音，这样可以帮助网络识别近讲语音和回波信号。

还需要说明的是，图6中激活层的输出为0-1掩膜值，掩膜值做为增益因子点乘在分带后的幅度谱上，对应频带上残余回波和背景噪声的强度越大，模型估计出来的掩膜值也就越小，因此噪声抑制也就越强。接着，mask处理后的分带幅度谱会进行频带展开，频带展开后加入线性AEC输出的相位进行子带合成输出时域信号。

图8给出了一段语音信号的波形与频谱图，图8中A框选区为近讲语音，B框选区为残留回波，C框选区为混有非平稳键盘、鼠标的背景噪声。图9为利用本申请实施例的增强方法处理后的结果示例图。可以看出，时域上，近讲语音段之外的残留回波和环境噪声被压制到了一个很低的水平；语谱图上，处理后的数据非近讲语音段外仅存有少量的残影，近讲语音也几乎没有损伤。此外，语音段内的背景噪声也有一定的抑制。更多评估数据的统计结果表明，本申请可以对残余回波有20dB以上、对非平稳背景噪声有30dB以上的抑制量。由此可见，该示例表明，本申请提出的增强方法可以稳定准确的抑制残留回波和平稳非平稳背景噪声。

图10是根据本申请一个实施例的语音信号的增强装置的结构框图。如图10所示，该语音信号的增强装置1000可以包括：信号获取模块1010、特征提取模块1020、生成模块1030和增强模块1040。

具体地，信号获取模块1010用于获取麦克风信号、远端参考信号和声学回波消除信号。

特征提取模块1020用于提取麦克风信号的麦克风特征，并提取远端参考信号的远端参考特征。在本申请一些实施例中，特征提取模块1020对麦克风信号进行频域转换以生成麦克风频域信号，并对远端参考信号进行频域转换以生成远端参考频域信号；按照预设的多个频带对麦克风频域信号进行频域合并以生成麦克风特征；按照预设的多个频带对远端参考频域信号进行频域合并以生成远端参考特征。

生成模块1030用于根据麦克风特征和远端参考特征生成语音信号在预设多个频带之上的存在概率。

增强模块1040用于根据在预设多个频带之上的存在概率对声学回波消除信号进行增强。在本申请一些实施例中，增强模块1040具体用于：对所述声学回波消除信号进行频域转换以生成声学回波消除频域信号；根据所述声学回波消除频域信号生成相位特征；按照所述预设的多个频带对所述声学回波消除频域信号进行频域合并以生成声学回波消除特征；根据所述相位特征、所述声学回波消除特征和所述在预设多个频带之上的存在概率进行增强。

作为一种可能的实现方式，增强模块1040根据所述相位特征、所述声学回波消除特征和所述在预设多个频带之上的存在概率进行增强的具体实现过程可如下：根据声学回波消除特征和在预设多个频带之上的存在概率进行增强生成增强声学回波消除频带信号；根据预设的多个频带对增强声学回波消除频带信号进行频带展开以生成增强声学回波消除频域信号；根据增强声学回波消除频域信号和相位特征生成增强信号。

在本申请一些实施例中，如图11所示，生成模块1030可包括：提取单元1031和生成单元1032。其中，提取单元1031用于提取声学回波消除信号之中的声学回波消除特征；生成单元1032用于将麦克风特征、远端参考特征和声学回波消除特征输入至概率生成模型，以生成语音信号在预设多个频带之上的存在概率。

在本申请实施例中，概率生成模型包括卷积神经网络模块、循环神经网络模块和概率生成模块，其中，卷积神经网络模块根据麦克风特征、远端参考特征和声学回波消除特征生成特征时序信息；循环神经网络模块根据特征时序信息生成多个频带的频带特征以及频带间的关系特征；概率生成模块根据频带特征和频带间的关系特征生成语音信号在预设多个频带之上的存在概率。

在本申请一些实施例中，如图12所示，该语音信号的增强装置1000还可包括：模型训练模块1050。模型训练模块1050用于预先训练所述概率生成模型。其中，在本申请实施例中，模型训练模块1050具体用于：获得近端样本无噪声语音信号和近端样本噪声信号；获取远端回波信号；根据近端样本无噪声语音信号、近端样本噪声信号和远端回波信号生成麦克风样本信号；获取远端样本参考信号；根据远端样本参考信号和麦克风样本信号生成样本声学回波消除信号；将麦克风样本信号、远端样本参考信号和样本声学回波消除信号输入至概率生成模型以生成预测概率；根据近端样本无噪声语音信号和样本声学回波消除信号生成目标概率；以及根据预测概率和目标概率生成损失值，并根据损失值对概率生成模型进行训练。

根据本申请实施例的语音信号的增强装置，可通过提取麦克风信号的麦克风特征和远端参考信号的远端参考特征，并利用麦克风特征和远端参考特征生成语音信号在多个频带之上的存在概率，进而基于语音信号在多个频带之上的存在概率实现语音的增强，整个语音增强过程中，考虑了语音信号之中的麦克风信号，而该麦克风信号包含了近端语音、近端背景噪声等多路信号，从而使得基于麦克风特征和远端参考特征对声学回波消除信号进行增强时，可以有效识别出近讲语音和回波信号，进而利用识别出的近讲语音和回波信号进行语音增强，可以稳定准确的抑制残留回波和平稳非平稳背景噪声，同时还可以避免近讲语音失真，可以很好的平衡回波消除量和近讲语音失真的问题。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。

如图13所示，是根据本申请实施例的用以实现语音信号的增强方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音信号的增强方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音信号的增强方法。本申请的计算机程序产品，包括计算机程序，该计算机程序在被处理器1301执行时实现本申请所提供的语音信号的增强方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音信号的增强方法对应的程序指令/模块(例如，附图10所示的信号获取模块1010、特征提取模块1020、生成模块1030和增强模块1040)。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音信号的增强方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现语音信号的增强方法的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至用以实现语音信号的增强方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现语音信号的增强方法的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的数字或字符信息，以及产生与用以实现语音信号的增强方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

综上所述，本申请采用自适应线性滤波器和深度自回归神经网络结合的方法，以解决目前基于信号处理的回波消除技术面临的无法很好平衡回波消除量和近讲语音失真的问题，至少具有以下优点：

1).利用了线性自适应滤波器的环境自适应能力，降低模型压力，让其更加专注在非线性残余的抑制上，提升了整个系统的环境和设备泛化能力；

2).通过引入多个参考支路，让该模型同时兼顾了降低残余回波和背景噪音两项任务，模型可以自动寻找参考和残留回波之间的相关性，具备有自动识别所处环境的能力，存在回波时模型集中能力降低残余回波，存在背景噪声时模型专注于抑制噪音；

3).采用了分带特征和CNN+RNN的网络结构，模型紧凑，参数量较少，可以运行在目前绝大部分即时通讯设备中。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音信号的增强方法，包括：

获取麦克风信号、远端参考信号和声学回波消除信号；

根据所述在预设多个频带之上的存在概率对所述声学回波消除信号进行增强；

其中，所述根据所述在预设多个频带之上的存在概率对所述声学回波消除信号进行增强，包括：

对所述声学回波消除信号进行频域转换以生成声学回波消除频域信号；

根据所述声学回波消除频域信号生成相位特征；

按照所述预设的多个频带对所述声学回波消除频域信号进行频域合并以生成声学回波消除特征；

根据所述相位特征、所述声学回波消除特征和所述在预设多个频带之上的存在概率进行增强。

2.如权利要求1所述的语音信号的增强方法，其中，所述根据所述麦克风特征和所述远端参考特征生成语音信号在预设多个频带之上的存在概率，包括：

提取所述声学回波消除信号之中的声学回波消除特征；

将所述麦克风特征、所述远端参考特征和所述声学回波消除特征输入至概率生成模型，以生成所述语音信号在预设多个频带之上的存在概率。

3.如权利要求2所述的语音信号的增强方法，其中，所述概率生成模型包括卷积神经网络模块、循环神经网络模块和概率生成模块，其中，所述将所述麦克风特征、所述远端参考特征和所述声学回波消除特征输入至概率生成模型，以生成所述语音信号在预设多个频带之上的存在概率，包括：

所述卷积神经网络模块根据所述麦克风特征、所述远端参考特征和所述声学回波消除特征生成特征时序信息；

所述循环神经网络模块根据所述特征时序信息生成所述多个频带的频带特征以及频带间的关系特征；

所述概率生成模块根据所述频带特征和所述频带间的关系特征生成所述语音信号在预设多个频带之上的存在概率。

4.如权利要求3所述的语音信号的增强方法，其中，所述概率生成模型通过以下步骤训练获得：

获取近端样本无噪声语音信号和近端样本噪声信号；

获取远端回波信号；

根据所述近端样本无噪声语音信号、所述近端样本噪声信号和所述远端回波信号生成麦克风样本信号；

获取远端样本参考信号；

根据所述远端样本参考信号和所述麦克风样本信号生成样本声学回波消除信号；

将所述麦克风样本信号、所述远端样本参考信号和所述样本声学回波消除信号输入至所述概率生成模型以生成预测概率；

根据所述近端样本无噪声语音信号和所述样本声学回波消除信号生成目标概率；以及

根据所述预测概率和所述目标概率生成损失值，并根据所述损失值对所述概率生成模型进行训练。

5.如权利要求1所述的语音信号的增强方法，其中，所述提取所述麦克风信号的麦克风特征，并提取所述远端参考信号的远端参考特征，包括：

对所述麦克风信号进行频域转换以生成麦克风频域信号，并对所述远端参考信号进行频域转换以生成远端参考频域信号；

按照所述预设的多个频带对所述麦克风频域信号进行频域合并以生成所述麦克风特征；

按照所述预设的多个频带对所述远端参考频域信号进行频域合并以生成所述远端参考特征。

6.如权利要求1所述的语音信号的增强方法，其中，所述根据所述相位特征、所述声学回波消除特征和所述在预设多个频带之上的存在概率进行增强，包括：

根据所述声学回波消除特征和所述在预设多个频带之上的存在概率进行增强生成增强声学回波消除频带信号；

根据所述预设的多个频带对所述增强声学回波消除频带信号进行频带展开以生成增强声学回波消除频域信号；

根据所述增强声学回波消除频域信号和所述相位特征生成增强信号。

7.一种语音信号的增强装置，包括：

增强模块，用于根据所述在预设多个频带之上的存在概率对所述声学回波消除信号进行增强；

其中，所述增强模块具体用于：

根据所述声学回波消除频域信号生成相位特征；

8.如权利要求7所述的语音信号的增强装置，其中，所述生成模块包括：

提取单元，用于提取所述声学回波消除信号之中的声学回波消除特征；

生成单元，用于将所述麦克风特征、所述远端参考特征和所述声学回波消除特征输入至概率生成模型，以生成所述语音信号在预设多个频带之上的存在概率。

9.如权利要求8所述的语音信号的增强装置，其中，所述概率生成模型包括卷积神经网络模块、循环神经网络模块和概率生成模块，其中，

10.如权利要求9所述的语音信号的增强装置，还包括：

模型训练模块，用于预先训练所述概率生成模型；

其中，所述模型训练模块具体用于：

获取近端样本无噪声语音信号和近端样本噪声信号；

获取远端回波信号；

获取远端样本参考信号；

11.如权利要求7所述的语音信号的增强装置，其中，所述特征提取模块具体用于：

12.如权利要求7所述的语音信号的增强装置，其中，所述增强模块具体用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的语音信号的增强方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的语音信号的增强方法。