CN111833896B

CN111833896B - 融合反馈信号的语音增强方法、系统、装置和存储介质

Info

Publication number: CN111833896B
Application number: CN202010724097.6A
Authority: CN
Inventors: 王之禹; 邱锋海; 匡敬辉; 项京朋
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2023-08-01
Anticipated expiration: 2040-07-24
Also published as: CN111833896A

Abstract

本申请涉及一种融合反馈信号的语音增强方法、系统、装置和存储介质，所述方法包括：拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；提取所述反馈带噪信号的至少一个特征参数；提取所述前馈带噪信号的特征参数；将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络，输出增益函数；将增益函数与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。所述融合反馈信号的语音增强方法能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。

Description

融合反馈信号的语音增强方法、系统、装置和存储介质

技术领域

本申请涉及语音信号处理领域，具体而言，涉及一种融合反馈信号的语音增强方法、系统、装置和存储介质。

背景技术

近年来，有源降噪技术越来越多的应用于真无线立体声(True Wireless Stereo,TWS)耳机。如图1所示，在有源降噪TWS耳机系统中，一般存在以下结构部件：前馈麦克风1、耳罩2、扬声器3、反馈麦克风4和内耳空腔5。

其中，前馈麦克风1用于拾取环境以及佩戴者声信号；耳罩2用于隔绝外部噪声到内耳的传递；扬声器3用于耳机音频以及语音信号的播放，同时在有源降噪功能开启时播放降噪控制声信号；反馈麦克风4用于有源噪声控制的反馈误差信号拾取；内耳空腔5为佩戴者佩戴耳机处的内耳空腔结构，入耳式\半入耳式耳机的扬声器以及反馈麦克风都位于内耳空腔5中。

前馈麦克风1在拾取环境声信号过程中，不可避免的会受到环境噪声的影响，比如警笛声、风噪声以及地铁进出站泊车噪声等。环境噪声会降低前馈麦克风语音信号质量，同时降低设备唤醒率，降低语音识别率等，从而严重影响此类语音交互系统性能。

发明内容

本申请的目的是克服环境噪声降低前馈麦克风语音信号质量，严重影响语音交互系统性能的问题。

为实现上述目的，本申请提供了一种融合反馈信号的语音增强方法、系统、装置和存储介质。

第一方面，提供了一种融合反馈信号的语音增强方法，包括以下步骤：拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；提取所述反馈带噪信号的至少一个特征参数；提取所述前馈带噪信号的特征参数；将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络，输出增益函数；将增益函数与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。

根据一种可能的实施方式，所述提取反馈带噪信号的至少一个特征参数，包括：

根据反馈带噪信号的短时傅里叶频谱提取特征参数，所述特征参数包括：基频、短时傅里叶变化系数、幅度谱\功率谱\对数功率谱、倒谱系数、线性预测倒谱系数、梅尔倒谱系数、频率倒谱系数、相对谱转换以及感知线性预测系数的一种或者多种组合。

根据一种可能的实施方式，所述方法还包括所述深度神经网络的训练步骤：

对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换，获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱；

提取所述反馈麦克信号的至少一个特征参数，提取所述前馈带噪信号的特征参数；

根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数；

以所述反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入，以所述目标增益函数为输出，所述深度神经网络输入层、输出层为全连接层，中间隐藏层为GRU网络模型，输入层激活函数为tanh函数；输出层激活函数为sigmoid函数，中间隐藏层激活函数采用relu以及sigmoid函数；训练所述深度神经网络，获得训练好的网络参数；以训练好的网络参数初始化所述深度神经网络。

根据一种可能的实施方式，所述方法还包括数据仿真生成的步骤，包括：

从训练数据集中提取纯净声源信号与噪声信号；

将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号；

将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号；

将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合，得到前馈麦克信号和反馈麦克信号。

第二方面，提供了一种融合反馈信号的语音增强系统，包括：数据仿真生成模块、网络训练模块和网络增强模块；

所述数据仿真生成模块，用于提取纯净声源信号与噪声信号，将所述纯净声源信号与噪声信号混合生成前馈麦克信号和反馈麦克信号；

所述网络训练模块，用于利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数，获得训练好的深度神经网络；

所述网络增强模块，用于分别提取反馈带噪信号的至少一个特征参数和前馈带噪信号的特征参数；将所述反馈带噪信号至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络，输出实际增益函数；利用实际增益函数增强前馈带噪信号的语音信号强度。

根据一种可能的实施方式，所述数据仿真生成模块包括训练数据提取单元和随机混合单元；

所述训练数据提取单元，用于从训练数据集中提取纯净声源信号与噪声信号，将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号；将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号；

所述随机混合单元，用于将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合，得到前馈麦克信号和反馈麦克信号。

根据一种可能的实施方式，所述网络训练模块包括短时傅里叶变换单元、模拟特征提取单元、目标提取单元和网络训练单元；

所述短时傅里叶变换单元，用于对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换，获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱；

所述模拟特征提取单元，用于提取所述反馈麦克信号的至少一个特征参数，提取所述前馈麦克信号的特征参数；

所述目标提取单元，用于根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数；

所述网络训练单元，用于以所述反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入，以所述目标增益函数为输出，所述深度神经网络输入层、输出层为全连接层，中间隐藏层为GRU网络模型，输入层激活函数为tanh函数；输出层激活函数为sigmoid函数，中间隐藏层激活函数采用relu以及sigmoid函数；训练所述深度神经网络，获得训练好的网络参数；以训练好的网络参数初始化所述深度神经网络。

根据一种可能的实施方式，所述网络增强模块包括短时傅里叶变换单元、特征提取单元、网络解码单元和短时傅里叶逆变换单元；

所述短时傅里叶变换单元，用于拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；

所述特征提取单元，用于提取反馈带噪信号短时傅里叶变换的至少一个特征参数，提取前馈带噪信号短时傅里叶变换的至少一个特征参数；

所述网络解码单元，用于将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络，输出增益函数；

短时傅里叶逆变换单元，用于将增益函数与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。

第三方面，提供了一种融合反馈信号的语音增强装置，包括真无线立体声耳机、存储器和处理器；

所述真无线立体声耳机至少包括前馈麦克风和反馈麦克风；

所述前馈麦克风用于拾取前馈带噪信号，所述反馈麦克风用于拾取反馈带噪信号；

所述处理器用于执行所述存储器所存储的计算机执行指令，所述处理器运行所述计算机执行指令执行上述任意一项所述的融合反馈信号的语音增强方法。

第四方面，提供了一种存储介质，包括可读存储介质和存储在所述可读存储介质中的计算机程序，所述计算机程序用于实现上述任意一项所述的融合反馈信号的语音增强方法。

本申请实施例提出的一种融合反馈信号的语音增强方法，同时提取前馈麦克风以及反馈麦克风拾取信号的特征参数，构造一个带有反馈带噪信号特征参数信息深度神经网络，并训练该深度神经网络的特征数据库，该带有反馈带噪信号特征参数信息的深度神经网络，能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。

附图说明

为了更清楚地说明本申请披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请的有源降噪TWS耳机模型；

图2为本申请实施例提出的一种融合反馈信号的语音增强方法的短时频谱图，其中：图2(a)为前馈信号短时频谱图，图2(b)为反馈信号短时频谱图；

图3为本申请实施例提出的一种融合反馈信号的语音增强方法的框架图；

图4为本申请实施例提出的一种融合反馈信号的语音增强方法的深度神经网络模型；

图5为利用本申请系统处理的噪声信号以及增强的语音信号频谱效果图；

图6本申请实施例提供一种融合反馈信号的语音增强系统的功能框图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

现有的语音增强方案，大多仅利用前馈信号进行单通道语音增强，即假设语音信号s(n)与噪声信号v(n)不相关，在此假设条件下，带噪语音信号y(n)＝s(n)+v(n)的功率谱等于语音信号功率谱与噪声信号功率谱之和。传统单通道语音增强算法通过估计噪声信号的功率谱，并从带噪语音信号功率谱中减去估计的噪声信号功率谱从而恢复出原始语音信号。噪声信号功率谱通常采用语音端点检测或者基于最小统计特性的方法进行估计，这种估计方式仅对平稳态噪声信号有较好的估计效果，对于非平稳态噪声信号估计不准，导致传统的单通道语音增强算法在非平稳态噪声信号场景中算法失效。

针对单通道非平稳态噪声降噪问题，近年出现大量基于深度神经网络的解决方案。深度神经网络通过非线性激活函数以及多层网络结构构造输入、输出之间复杂的非线性映射。在单通道语音增强处理过程中，一般是通过提取带噪语音信号特征向量，映射到不同增益函数实现单通道语音增强。一种方法是提取连续多帧带噪语音信号的幅度谱作为网络的输入特征，映射纯净声源信号的幅度谱；另一种方法是提取带噪语音信号的对数谱以及梅尔倒谱系数构成网络的输入特征，映射二值掩蔽函数(Ideal Binary Mask,IBM)或者理想掩蔽函数(Ideal Ratio Mask,IRM)，网络输出的IRM以及IBM作用于带噪语音信号实现单通道语音信号增强。还有一种方法是将带噪语音信号的短时傅里叶频谱映射为纯净语音的短时傅里叶频谱。

在深度神经网络训练过程中，带噪语音信号的信噪比会严重影响网络性能，信噪比越低，提取的特征参数受到噪声信号的干扰越严重，在极低信噪比条件下，深度神经网络可能难以收敛，甚至发散，无法实现单通道语音增强，导致降低设备唤醒率，降低语音识别率，从而严重影响此类语音交互系统性能。

从语音信号在传播路径上受到的环境噪声影响考虑，在有源降噪TWS耳机中，反馈麦克风4由于放置在内耳空腔5中，与环境声之间有被动隔声，反馈麦克风4的噪声信号要比前馈麦克风1的噪声信号小；佩戴者在发声过程中，语音信号一方面经过传递路径声带振动—>口腔辐射—>耳罩—>内耳空腔5到达反馈麦克风4，另一方面经过声带振动—>脸颊骨—>内耳空腔5传递路径到达反馈麦克风4。第一条传递路径会受到环境噪声的严重影响，然而第二条传递路径受环境噪声影响相对较小。由于反馈带噪信号中第二条传输路径以语音信号为主，这使得内耳反馈麦克风4在佩戴者发声过程中拾取的反馈带噪信号信噪比要比前馈麦克风1拾取的前馈带噪信号信噪比更高。

图2给出了一组在极低信噪比条件下前馈麦克风1以及反馈麦克风4拾取带噪信号的短时频谱图。图2中可以看出，前馈麦克风1受到噪声干扰大，使得前馈带噪信号信噪比更低，语音结构不清晰；而反馈带噪信号具有清晰的语音频谱结构，信噪比更高，在低频段能够识取清晰的语音信号。

基于此，本申请构思同时提取前馈麦克风以及反馈麦克风拾取信号的特征参数，构造一个带有反馈带噪信号特征参数信息深度神经网络，并训练该深度神经网络的特征数据库，该带有反馈带噪信号特征参数信息的深度神经网络，能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。

基于上述构思，本申请实施例设计出一种融合反馈信号的语音增强方法，该方法拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；提取所述反馈带噪信号的至少一个特征参数；提取所述前馈带噪信号的特征参数；将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络，输出增益函数；将增益函数与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。

实践结果表明，带反馈带噪信号特征参数信息的深度神经网络能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果，解决了环境噪声降低前馈麦克风语音信号质量的问题，提高了语音交互系统的性能。

图3为本申请实施例提出的融合反馈信号的语音增强方法的原理框图，如图3所示，图中信号x上标x′均表示仿真生成数据，除特殊说明，仿真生成数据均以上标′表示。下面通过数据仿真生成、网络训练和网络增强三个模块介绍本申请实施例提出的融合反馈信号的语音增强方法。

在图3所示的数据仿真生成模块中，本申请实施例可以从训练数据集中提取训练数据，训练数据集为纯净语音数据集以及噪声数据集，提取纯净语音数据集中的纯净声源信号s′(n)模拟说话人声源信号，纯净声源信号s′(n)与前馈传递函数h_f(n)卷积生成前馈信号x′(n)；纯净声源信号s′(n)与反馈传递函数h_b(n)卷积生成反馈信号x_b′(n)，其中，前馈传递函数h_f(n)以及反馈传递函数h_b(n)可通过实验测量获得。

将前馈信号x′(n)与反馈信号x′_b(n)与噪声数据集的噪声信号v′(n)分别随机混合，生成前馈麦克信号y′(n)以及反馈麦克信号y′_b(n)。前馈麦克信号y′(n)混合信噪比在-5dB以及15dB之间随机取值。考虑到耳罩隔声影响，反馈麦克信号y′_b(n)混合信噪比取值要比前馈麦克信号y′(n)混合信噪比高5dB到10dB，在此范围随机取值。前馈麦克信号y′(n)的特征参数可以和反馈麦克信号y′_b(n)的特征参数相同，也可以不同。

在本申请的另一实施例中，反馈麦克信号y′_b(n)由前馈麦克信号y′(n)通过一个全通随机相位滤波器生成，也可以通过卷积前馈麦克风1到反馈麦克风4的相对传递路径冲击响应函数生成，前馈麦克风1到反馈麦克风4的相对传递路径冲击响应函数也可通过实验测量获得。

在本申请的另一实施例中，也可以采用真实环境录制的纯净声源信号s(n)，提取原始前馈麦克信号y′(n)以及反馈麦克信号y′_b(n)的特征参数，利用该特征参数对深度神经网络进行训练。

在图3所示的网络训练模块中，本申请实施例利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数。

首先对训练语音信号进行加窗短时傅里叶变换。具体地，对纯净声源信号s′(n)进行加窗短时傅里叶变换，如下：

其中，w(*)为窗函数，本申请的实施中可使用汉宁窗，但不限于使用汉宁窗，P为帧移，N为帧长。

然后分别对前馈麦克信号y′(n)以及反馈麦克信号y′_b(n)采用(1)式计算加窗短时傅里叶变换Y′(k,l)以及Y′_b(k,l)。

提取反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数。

其中，反馈麦克信号y′_b(n)的特征参数可以为基频F₀，短时傅里叶变化系数，幅度谱\功率谱\对数功率谱，倒谱系数，线性预测倒谱系数，梅尔频率倒谱系数，Gammatone频率倒谱系数和相对谱转换中的一种或多种组合。下面对各个特征参数分别计算。

1)基频F₀：基频F₀是指语音浊音段单位时间内语音波形重复的次数。次数越多，基频F₀越高；次数越少，基频F₀越低。基频F₀也可以用同一周期内采样点个数表示。基频F₀是语音信号的重要特征，提取反馈麦克信号y′_b(n)的基频参数会比提取前馈麦克信号y′(n)基频参数更准确。

2)短时傅里叶变化系数：反馈麦克信号y′_b(n)进行加窗傅里叶变换计算得到的短时傅里叶频谱Y′_b(k,l)。Y′_b(k,l)是一复数域信号，有实部和虚部两部分，不仅包含不同频率点的幅度信号，还包括不同频率点的相位信息。

3)幅度谱\功率谱\对数功率谱：利用短时傅里叶频谱Y′_b(k,l)，计算幅度谱如下：

其中，幅度谱为反馈麦克信号y′_b(n)加窗短时傅里叶变换的幅度信息，能够反映不同频率的幅度大小。计算功率谱/>

其中，功率谱是幅度谱的平方，反映的是不同频率能量大小。

计算对数功率谱如下：

其中，对数功率谱是功率谱的对数，α是常数系数，用于调节对数谱数据动态范围。

4)倒谱系数(Cepstral Coefficients,CCs)：计算对数功率谱逆傅里叶变换，得到倒谱系数计算如下：

其中，由于对数功率谱具有对称性，倒谱系数表现为实数。

5)线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCCs)：首先提取反馈麦克信号的P阶线性预测系数a_p，线性预测系数满足：

并使误差信号e(n)能量最小。

利用式(1)、(3)、(4)、(5)计算线性预测系数a_p的傅里叶变换系数以及倒谱系数得到线性预测倒谱系数。

6)梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCCs)：梅尔频率倒谱系数考虑到了人耳的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。将普通频率转化到Mel频率的公式是：

mel(f)＝2595·log₁₀(1+f/700) (7)

梅尔频率倒谱系数计算流程：对反馈麦克信号进行分帧、加窗；对每一个短时分析窗，通过式(1)短时傅里叶变换得到对应的频谱；将频谱通过Mel滤波器组得到Mel频谱；在Mel频谱上面进行公式(3)、(4)、(5)计算梅尔频率倒谱系数。

在实际操作中(5)式也可以是通过DCT离散余弦变换来实现，取DCT后的若干个系数得到梅尔频率倒谱系数MFCC。

7)Gammatone频率倒谱系数(Gammatone Frequency Ceptral Coefficients,GFCCs)：Gammatone滤波器是一种基于人耳耳蜗模型的滤波器组，该滤波器组能很好地模拟基底膜的分频特性，其时域表达形式如下：

g(f,t)＝kt^a-1e^-2πbtcos(2πft+φ) (8)

其中，k为滤波器增益，a为滤波器阶数，f为中心频率，φ为相位，b为衰减因子，决定相应滤波器带宽，中心频率关系为b＝24.7(4.37·f/1000+1)。

Gammatone频率倒谱系数计算流程：对反馈麦克信号进行分帧、加窗；对每一个短时分析窗，通过式(1)短时傅里叶变换得到对应的频谱；将频谱通过Gammatone滤波器组得到Gammatone频谱；在Gammatone频谱上面进行式(3)、(4)、(5)计算Gammatone频率倒谱系数。

8)相对谱转换(Relative Spectral Transform,RASTA)-感知线性预测系数(Perceptual Linear Prediction,PLP)，RASTA-PLP特征是一种经过修正的线性预测倒谱系数。PLP是在LPC线性预测上增加一个听觉感知特征参数，根据人的听觉感知特征参数修改语音功率谱，做等响度预加重和立方根压缩，RASTA能够使稳态频谱因子更加鲁棒。

本申请的实施例提取用于训练的目标增益函数，增益函数为IRM′(k，l)：

其中，|S′(k,l)|、|Y′(k,l)|分别为纯净声源信号s′(n)以及前馈信号y′(n)的幅度谱。

本申请的深度神经网络结构采用五层网络结构，如图4所示，具有如下特点：

深度神经网络输入层采用全连接层，激活函数为tanh函数；输出层采用全连接层，激活函数设置为sigmoid函数；中间隐藏层为3层，采用GRU(Gated Recurrent Unit)网络模型，激活函数采用relu以及sigmoid函数，不同隐藏层之间可以跨层连接，连接方式不限于图4所示的连接方式。深度神经网络每层网络节点个数根据实际应用情况灵活调整。

训练深度神经网络时，以提取的反馈麦克信号特征参数与前馈麦克信号特征参数组合为输入参数，以提取的增益函数IRM′(k，l)为输出参数，训练深度神经网络参数；以训练好的网络参数初始化深度神经网络,得到训练好的深度神经网络。

在图3所示的网络增强模块中，本申请实施例基于训练好的深度神经网络，提取前馈带噪信号以及反馈带噪信号的特征参数；将所述特征参数输入训练好的深度神经网络，输出实际增益函数；利用实际增益函数增强前馈带噪信号的语音信号强度。

具体地，通过前馈麦克风1拾取前馈带噪信号，通过反馈麦克风4拾取反馈带噪信号，并建立信号模型。其中，前馈带噪信号y(n)的模型为：

其中，x(n)和v(n)分别为前馈麦克风1拾取的佩戴者目标语音信号和环境噪声信号。s(n)是说话人声源信号，h_f(n)是说话人声源信号到前馈麦克风1的前馈传递函数，为卷积运算符。

对式(10)两边做短时傅里叶变换(Short-time Fast Fourier Transform,缩写为STFT)：

Y(k,l)＝X(k,l)+V(k,l) (11)

其中，Y(k,l)、X(k,l)和V(k,l)分别是y(n)、x(n)和v(n)的STFT变换，k为频率索引，l为时间帧索引。

反馈带噪信号y_b(n)的模型为：

其中，x_b(n)为反馈麦克风4拾取的佩戴者目标语音信号，v_b(n)为环境噪声信号，h_b(n)是说话人声源信号到反馈麦克风4的反馈传递函数。同样地，对公式(12)两边做STFT变换：

Y_b(k,l)＝X_b(k,l)+V_b(k,l) (13)

其中，Y_b(k,l)、X_b(k,l)和V_b(k,l)分别是y_b(n)、x_b(n)和v_b(n)的STFT变换。

提取反馈带噪信号短时傅里叶变换的至少一个特征参数，提取前馈带噪信号短时傅里叶变换的至少一个特征参数。前馈带噪信号y(n)的特征参数可以和反馈带噪信号y_b(n)相同，也可以不同。

具体地，可以提取反馈带噪信号的至少一个特征参数，与前馈带噪信号的特征参数组合作为深度神经网络的输入参数F(l)。需要提取的反馈带噪信号特征参数，以及提取方法可以参考网络训练模块中对各个特征参数分别计算的1)-8)所述。

需要注意的是在执行时，需要将网络训练模块中的反馈麦克信号替换为反馈带噪信号。

将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络，输出增益函数。

具体地，将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合作为输入参数F(l)，输入训练好的深度神经网络，输出增益函数IRM(k，l)。

将增益函数IRM(k，l)与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。

具体地，将增益函数IRM(k，l)乘以前馈带噪信号的加窗短时傅里叶变换Y(k，l)，得到增强信号的短时傅里叶变换E(k，l)。对E(k，l)进行短时傅里叶逆变换，并通过重叠相加(overlap-add)算法得到时域内增强的语音信号。

图5为利用本申请系统处理的噪声信号以及增强的语音信号频谱。如图5所示，前馈麦克风拾取的前馈带噪信号在-5dB信噪比噪声干扰条件下，利用本申请方法处理的结果能够很好地恢复声源的语音信号，同时抑制噪声。

本申请的发明点在于反馈麦克信号y′_b(n)的特征参数提取以及利用，并与前馈麦克信号y′(n)提取的特征参数一起构成深度神经网络训练的输入特征参数。实验结果表明，带反馈带噪信号特征参数信息的深度神经网络能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈信号的语音信号增强效果。

第二方面，本申请实施例提供一种融合反馈信号的语音增强系统，包括：数据仿真生成模块31、网络训练模块32和网络增强模块33。

数据仿真生成模块31提取纯净声源信号与噪声信号，将纯净声源信号与噪声信号混合生成前馈麦克信号和反馈麦克信号。

具体地，如图6所示，数据仿真生成模块31包括训练数据提取单元311和随机混合单元312。训练数据提取单元311从训练数据集中提取纯净声源信号与噪声信号，将纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号；将纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号。随机混合单元312将纯净的前馈信号与纯净的反馈信号分别与噪声数据随机混合，得到前馈麦克信号和反馈麦克信号。

网络训练模块32利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数，获得训练好的深度神经网络。

具体地网络训练模块32包括短时傅里叶变换单元321、模拟特征提取单元322、目标提取单元323和网络训练单元324；短时傅里叶变换单元321对纯净声源信号、反馈麦克信号和前馈麦克信号分别进行加窗短时傅里叶变换，获得纯净声源信号的幅度谱和前馈麦克信号的幅度谱；模拟特征提取单元322提取反馈麦克信号的至少一个特征参数，提取前馈带噪信号的特征参数；目标提取单元323根据纯净声源信号的幅度谱和前馈麦克信号的幅度谱的比值根据计算目标增益函数；网络训练单元324以反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入参数，以目标增益函数为输出参数，深度神经网络输入层、输出层为全连接层，中间隐藏层为GRU网络模型，输入层激活函数为tanh函数；输出层激活函数为sigmoid函数，中间隐藏层激活函数采用relu以及sigmoid函数；训练深度神经网络，获得训练好的网络参数；以训练好的网络参数初始化深度神经网络。

网络增强模块33分别提取反馈带噪信号的至少一个特征参数和前馈带噪信号的特征参数；将反馈带噪信号至少一个特征参数与前馈带噪信号的参数组合输入训练好的深度神经网络，输出实际增益函数；利用实际增益函数增强前馈带噪信号的语音信号强度。

具体地，网络增强模块33包括短时傅里叶变换单元331、特征提取单元332、网络解码单元333和短时傅里叶逆变换单元334；短时傅里叶变换单元331拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；特征提取单元332提取反馈带噪信号短时傅里叶变换的至少一个特征参数，提取前馈带噪信号短时傅里叶变换的至少一个特征参数。网络解码单元333将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络，输出增益函数；短时傅里叶逆变换单元334将增益函数与前馈带噪信号结合，经过短时傅里叶逆变换后获得增强的语音信号。

实践结果表明，本申请实施例提供的融合反馈信号的语音增强系统能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果，解决了环境噪声降低前馈麦克风语音信号质量的问题，提高了语音交互系统的性能。

第三方面，本申请实施例还提供一种融合反馈信号的语音增强装置，包括真无线立体声耳机，存储器和处理器；其中真无线立体声耳机至少包括前馈麦克风和反馈麦克风；通过前馈麦克风拾取前馈带噪信号，通过反馈麦克风拾取反馈带噪信号；所述处理器用于执行所述存储器所存储的计算机执行指令，所述处理器运行所述计算机执行指令时执行上述任意实施例提出的融合反馈信号的语音增强方法。实践结果表明，本申请实施例提供的融合反馈信号的语音增强装置能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果，解决了环境噪声降低前馈麦克风语音信号质量的问题，提高了语音交互系统的性能。

在第四方面，本申请实施例还提供一种存储介质，包括可读存储介质和存储在所述可读存储介质中的计算机程序，所述计算机程序用于实现上述任意实施例提出的融合反馈信号的语音增强方法。实践结果表明，本申请实施例提供的存储介质能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果，解决了环境噪声降低前馈麦克风语音信号质量的问题，提高了语音交互系统的性能。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种融合反馈信号的语音增强方法，其特征在于，包括以下步骤：

数据仿真生成的步骤，包括：从训练数据集中提取纯净声源信号与噪声信号；将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号；将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号；将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合，得到前馈麦克信号和反馈麦克信号；

网络训练的步骤，包括：对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换，获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱；提取所述反馈麦克信号的至少一个特征参数，提取所述前馈麦克信号的特征参数；根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数；以所述反馈麦克信号的至少一个特征参数和所述前馈麦克信号的特征参数的组合为输入，以所述目标增益函数为输出，深度神经网络输入层、输出层为全连接层，中间隐藏层为GRU网络模型，输入层激活函数为tanh函数；输出层激活函数为sigmoid函数，中间隐藏层激活函数采用relu以及sigmoid函数；训练所述深度神经网络，获得训练好的网络参数；以训练好的网络参数初始化所述深度神经网络；

网络增强的步骤，包括：拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；所述前馈带噪信号为前馈麦克风拾取的带噪信号，所述反馈带噪信号为反馈麦克风拾取的带噪信号；提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数；提取经短时傅里叶变换后的所述前馈带噪信号的特征参数；将所述反馈带噪信号的至少一个特征参数与所述前馈带噪信号的特征参数组合输入训练好的深度神经网络，输出增益函数；将所述增益函数与所述前馈带噪信号的特征参数结合，经过短时傅里叶逆变换后获得增强的语音信号。

2.根据权利要求1所述的方法，其特征在于，所述提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数，包括：

3.一种融合反馈信号的语音增强系统，其特征在于，包括：数据仿真生成模块、网络训练模块和网络增强模块；

所述数据仿真生成模块，用于从训练数据集中提取纯净声源信号与噪声信号，将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号；将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号；将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合，得到前馈麦克信号和反馈麦克信号；

所述网络训练模块，用于对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换，获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱；提取所述反馈麦克信号的至少一个特征参数，提取所述前馈麦克信号的特征参数；根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数；以所述反馈麦克信号的至少一个特征参数和所述前馈麦克信号的特征参数的组合为输入，以所述目标增益函数为输出，深度神经网络输入层、输出层为全连接层，中间隐藏层为GRU网络模型，输入层激活函数为tanh函数；输出层激活函数为sigmoid函数，中间隐藏层激活函数采用relu以及sigmoid函数；训练所述深度神经网络，获得训练好的网络参数；以训练好的网络参数初始化所述深度神经网络；

所述网络增强模块，用于拾取前馈带噪信号和反馈带噪信号，分别进行短时傅里叶变换；所述前馈带噪信号为前馈麦克风拾取的带噪信号，所述反馈带噪信号为反馈麦克风拾取的带噪信号；提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数；提取经短时傅里叶变换后的所述前馈带噪信号的特征参数；将所述反馈带噪信号的至少一个特征参数与所述前馈带噪信号的特征参数的组合输入训练好的深度神经网络，输出增益函数；将所述增益函数与所述前馈带噪信号的特征参数结合，经过短时傅里叶逆变换后获得增强的语音信号。

4.一种融合反馈信号的语音增强装置，其特征在于，包括真无线立体声耳机、存储器和处理器；

所述真无线立体声耳机至少包括前馈麦克风和反馈麦克风；

所述处理器用于执行所述存储器所存储的计算机执行指令，所述处理器运行所述计算机执行指令执行权利要求1-2任意一项所述的融合反馈信号的语音增强方法。

5.一种存储介质，其特征在于，包括可读存储介质和存储在所述可读存储介质中的计算机程序，所述计算机程序用于实现权利要求1-2任意一项所述的融合反馈信号的语音增强方法。