CN109887489B - 基于生成对抗网络的深度特征的语音去混响方法 - Google Patents

基于生成对抗网络的深度特征的语音去混响方法 Download PDF

Info

Publication number
CN109887489B
CN109887489B CN201910140461.1A CN201910140461A CN109887489B CN 109887489 B CN109887489 B CN 109887489B CN 201910140461 A CN201910140461 A CN 201910140461A CN 109887489 B CN109887489 B CN 109887489B
Authority
CN
China
Prior art keywords
voice
feature
speech
clean
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910140461.1A
Other languages
English (en)
Other versions
CN109887489A (zh
Inventor
王龙标
李楠
党建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huiyan Technology Tianjin Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910140461.1A priority Critical patent/CN109887489B/zh
Publication of CN109887489A publication Critical patent/CN109887489A/zh
Application granted granted Critical
Publication of CN109887489B publication Critical patent/CN109887489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种基于生成对抗网络的深度特征的语音去混响方法,该方法主要步骤为:首先对语音进行加权预测误差WPE进行信号的预处理;其次数据的特征提取:对语音数据进行MFCC特征提取以及不含混响语音的针对音素的瓶颈特征BNF提取;然后WPE的语音信号预处理:构建生成对抗网络,另含混响语音的MFCC特征通过生成对抗网络映射到干净语音的深度特征;最后通过Kaldi工具箱,使用传统的GMM‑HMM进行强制对齐,然后利用深度神经网络进行声学模型的训练以及解码。本发明通过结合信号处理的方法以及基于生成对抗网络的深度学习框架,使得该系统得以结合两者各自的优势产生一个更好的语音去混响效果。

Description

基于生成对抗网络的深度特征的语音去混响方法
技术领域
本发明涉及语音信号处理领域,特别是针对远场语音识别中由于环境的混响所引起的 识别性能下降的问题,提出一种基于生成对抗网络的深度特征的语音去混响方法。
背景技术
近年来,智能家居、对话机器人、智能音响等新兴产业蓬勃发展,给人们的生活方式以 及人和机器的交互方式产生了极大的变化,语音交互作为一个新的交互方式在这些新兴领域 中得到了广泛的应用。随着深度学习应用在语音识别中,识别性能得到了很大的提高,识别 率已经超过95%,识别效果基本上已经能达到了人的听觉水平。但是以上这些仅限于在近场 的条件下,噪声和房间所产生的混响非常小,怎样在复杂场景下(噪声很多或者混响很大) 达到一个很好的识别效果成为极为重要的用户体验。
语音的去混响是远场语音识别中的一个主要的研究方向。在一个房间内,混响语音可以 表示为干净语音信号和房间冲击响应(RIR)的卷积,所以含混响的语音会受到同一句话中的 之前的语音信息的干扰。混响会包括早期混响和晚期混响,早期混响会对语音识别的效果带 来一定的提升,但是晚期混响会使语音识别的识别效果下降。因此,如果能有效地抑制或减 少晚期混响,将会得到一个良好的语音识别效果。
现有的研究分为两种:一种是使用信号处理的方法来进行语音去混响如加权预测误差 (WPE)的方法;另一种是使用深度学习的方法来进行语音去混响如利用深度神经网络来进行 语音的去混响。目前神经网络方法虽然能够建立一个良好的非线性映射,但是仅仅使用全连 接的神经网络,效果很难达到我们所预期的效果,其次就是使用最基本的特征映射方法并不 能很好的学习到语音的语义信息,构建一个好的网络结构以及研究语音的深层次的语义信息 对于语音识别将产生一个好的识别性能的提升,对复杂场景下的语音识别有着现实意义。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于生成对抗网络的深度特征的语音 去混响方法。
本发明提出一种结合信号处理和神经网络的深度特征映射的语音去混响方法。技术方案 以Reverb Challenge比赛的数据集作为实验对象。主要涉及四个方面:1)对语音进行加权 预测误差(WPE)进行信号的预处理;2)对语音信号进行MFCC特征提取以及不含混响语音的 针对音素的瓶颈特征(BNF)提取;3)构建生成对抗网络,另含混响语音(WPE处理后)的 MFCC特征通过生成对抗网络映射到干净语音的深度特征;4)通过Kaldi工具箱,使用传统 的GMM-HMM进行强制对齐,然后利用深度神经网络(DNNs)进行声学模型的训练以及解码。 具体步骤如下:
1)加权预测误差(WPE)语音信号预处理
这部分,我们对WPE的方法在本发明中的实施方案进行了一个简要的介绍,WPE的方法 用来估计和去除单通道语音中的晚期混响,混响语音信号Y可以分解为干净语音成分D混响 成分L,
Y(t,f)=D(t,f)+L(t,f) (1)
L可以通过先前若干点的Y加权确定,G表示权重系数;WPE算法的核心问题是确定G, 然后估计出混响消除后的语音。
Figure GDA0002700939220000021
2)MFCC特征提取以及瓶颈特征(BNF)提取
Mel频率倒谱系数(MFCC)是基于人耳听觉频域特性,将线性幅度谱映射到基于听觉感知 的Mel非线性幅度谱中,再转换到倒谱上。有以下步骤:
预加重:将一组语音信号s(n)通过高通滤波器。高通滤波器关系可以表示为: H(z)=1-az-1([a∈[0.9,1]),本实验中a值取0.95。
加窗:本文中取25ms为一帧,并使用了汉宁窗。
快速傅里叶变换(FFT):对每一帧进行FFT变换,从时域数据转变为频域数据,并计算 其能量。
Mel滤波:把求出的每帧谱线能量通过Mel滤波器,并计算在Mel滤波器中的能量。
计算DCT倒谱:把Mel滤波器的能量取对数后计算DCT,就可以得到Mel频率倒谱系数 MFCC。
干净语音的BNF特征我们使用Kaldi工具进行提取。这一步我们首先使用GMM-HMM模型 进行语音的强制对齐,然后进行三音素训练,随后采用一个含有三个隐层的全连接神经网络 进行音素的BNF的提取,其中我们使用的隐层神经元的个数为512,提取的BNF的维数设置 为15。
3)构建生成对抗网络,进行含混响语音的MFCC特征到干净语音特征的BNF的非线性函数的 学习
本发明中生成对抗网络的生成器和判别器中的结构如图2所示,生成器中,我们将所提 取的MFCC特征作为神经网络的输入,通过一个全连接的输入层,将语音特征映射到一个多维 的线性空间,然后我们设置了三层全连接隐层,每个隐层的神经元的个数为1024,最后通过 一个输出层输出一个28维的BNF和MFCC的融合特征。对于判别器,本发明同样使用含有相 同结构的神经网络作为神经网络框架,在此部分中,我们将生成器所生成的特征和干净语音 的特征均输入到判别器当中,输出为一个一维的在0到1之间的数,以此来判断是输入的特 征是生成器所生成的还是干净的语音数据。我们在此生成对抗网络结构中所使用的目标函数 如下所示:
Figure RE-GDA0003212716040000011
Figure RE-GDA0003212716040000012
其中x为干净的语音,xc为含有混响的语音,G(xc)为生成器所生成的特征,D(G(xc))为 生成器所生成的特征然后输入到判别器所产生的0到1之间的数值,D(x)为干净的语音数据 输入到判别器所产生的0到1之间的数,
Figure RE-GDA0003212716040000013
为生成器所生成的特征和干净语音特 征的均方误差。
4)通过Kaldi工具箱进行语音识别
我们进行增强后的特征最终会应用于语音识别系统中,Kaldi在做语音识别方面是一个 不错的工具,所以本发明中我们使用Kaldi中的nnet2中的声学模型进行最终的语音识别。 在此过程中,我们使用干净语音的BNF和干净语音的MFCC的融合特征进行归一化然后求其一 阶差分和二阶差分,将进行差分后的特征来进行单因素以及三音素训练,本发明中也用了一 个LDA算法和MLLR算法来进行模型的优化。然后,我们使用ReverbChallenge数据集中多 场景下进行语音去混响之后的BNF和MFCC特征进行声学模型的训练。最后,我们将去混响之 后的测试集数据进行解码。在语音识别的这部分,我们使用的语言模型为tri-gram语言模型。
有益效果
本发明主要针对远场,重点以构建生成对抗网络,从带混响语音的MFCC特征映射到干净 语音的瓶颈特征学习其非线性函数,并且使用加权预测误差(WPE)的方法进行混响语音的信 号处理,具体优点有:
1)通过结合信号处理的方法以及基于生成对抗网络的深度学习框架,使得该系统得以结 合两者各自的优势产生一个更好的语音去混响效果;
2)通过提取干净语音的深层次的瓶颈特征,从含混响语音的MFCC特征直接学习一个干 净语音的瓶颈特征,减少了一步从混响语音中提取深度瓶颈特征,使得计算量大大减少,而 且可以产生一个良好的语音识别效果;
3)针对所提出的模型找到一种减小在真实环境下识别效果并不能达到预期的问题,提出 了一种特征融合的方法,使得该系统在真实环境下也可以产生一个比较好的识别效果。
附图说明
图1是基于生成对抗网络的深度特征映射语音去混响方法的系统框图。
图2是生成对抗网络的生成器和判别器的结构:
(a)生成器网络结构;
(b)判别器网络结构。
具体实施方式
下面结合附图和附表对本发明中的作用和效果进行详细说明。
本实施例以基于Reverb Challenge数据集为例来给出发明的实施方式,整个系统算法流 程如图1所示,包括数据的特征提取、WPE的语音信号预处理、生成对抗网络的构建、特征 融合来处理真实世界下语音的过拟合问题以及语音识别模型的训练方式这几个步骤。具体步 骤如下:
本发明以2014年Reverb Challenge比赛的数据集作为处理对象,提出了一种远场语音 识别系统,具体内容包括:
1)针对既要进行远场语音识别中既要进行语音的去混响又要更好的学习深层次的语音 信息的问题,本发明中提出一种新的深度特征映射的方法。
2)怎样更好的结合信号处理的方法和深度学习的方法,本发明中提出了一种好的方法来 结合两者的优势。
3)使用了一种生成对抗网络的框架来进行语音特征的学习以及映射。
4)利用Kaldi工具进行语音识别。
本发明的方法具体步骤如下:
1)实验数据集
为了公平有效的评估我们的方法,我们使用REVERB挑战赛官方数据集中的单通道数据集 进行实验。我们使用了一种多环境的训练集,该训练集由干净的训练数据通过卷积干净的话 语与测量的房间冲击响应所得到,这其中我们也加入了一些加性噪声总的来说信噪比为20db。 实验中的测试数据包括模拟数据(SimData)和真实环境下的数据(RealData)。SimuData由基 于WSJCAM0语料库生成的混响语音组成,这些语音采用与多条件训练集相同的人工失真方式。 SimuData模拟了六种混响情况:三个不同大小的房间(小、中、大)和一个扬声器和麦克风之 间的距离(near=50cm和far=200cm)。RealData发音来自MC-WSJ-AV语料库。在实际情况下, 由于扬声器会跟随头部的运动,声源不能被认为是完全空间固定的,因此RealData与模拟数 据是两种不同状态下的数据。用于RealData录音的房间不同于用于SimuData和训练集的房 间,其房间的混响时间约为0.7s,还包含一些固定的环境噪声。RealData中根据扬声器和麦 克风之间的两个距离(近=100cm和远=250cm)的不同也分为两种不同的条件。但是由于在RealData和SimuData中使用的句子的文本相同。因此,对于SimuData和RealData,我们可 以使用相同的语言模型以及声学模型。
2)语音识别
Kaldi在做语音识别方面是一个不错的工具,所以本发明中我们使用Kaldi中的nnet2 中的声学模型进行的语音识别。在此过程中,我们使用干净语音的MFCC特征进行归一化然后 求其一阶差分和二阶差分,将进行差分后的特征来进行单音素以及三音素训练,本发明中也 用了一个LDA算法和MLLR算法来进行模型的优化。然后,我们使用ReverbChallenge数据 集中多场景下训练集的MFCC特征进行声学模型的训练。最后,我们将该数据集的测试集数据 进行解码。在语音识别的这部分,我们使用的语言模型为tri-gram语言模型。在不进行去混 响的情况下,该数据集的结果如表1中:MFCC行。
表1为语音识别的词错率结果
Figure GDA0002700939220000061
3)使用WPE进行混响的预处理
我们使用WPE中单通道的语音去混响作为本数据集的信号处理部分的混响处理,使用步 骤2)中我们提到的语音识别系统,最终的语音识别的词错率如表1中:WPE+MFCC行,可以看 出,语音识别的准确率有了一个明显的提升。
4)生成对抗网络的构建
我们使用TensorFlow进行了如图2所示的生成对抗网络框架的构建,将生成器和判别器 的隐层的个数均设置成3,每个隐层的神经元的个数设置成1024,生成器的输出维度设置成 相应的映射干净语音的声学特征,最终我们得到的结果如表1中:MFCC-MFCC行。
5)特征融合
本发明中我们通过拼接MFCC和BNF使其作为干净的特征,将其当做含混响语音的MFCC 特征的学习目标,相当于一个多任务学习,我们不仅仅进行声学特征MFCC的学习,而且学习 一个MFCC到音素特征的BNF,两者将会产生一定的互补信息,使得在真实场景下能够达到一 个更好的识别性能。进行特征融合之后的语音识别的词错率如表1中:MFCC-BNF+MFCC行。
6)WPE和深度特征映射的方法
我们最终的结果先通过一个WPE进行含混响语音的预处理,然后进行含混响语音的MFCC 特征提取和对干净语音的MFCC特征提取和利用Kaldi工具进行音素BNF的提取,最后拼接两 个特征作为生成对抗网络的学习目标。
最终得到的语音识别的词错率如表1:WPE+MFCC-BNF+MFCC行,我们可以看到,使用我们 的方法最终的语音识别的词错率对比不处理进行语音识别的词错率降低了6.48%,相对于只 使用WPE的词错率降低了3.17%,整个系统将会产生一个相当不错的识别性能。

Claims (1)

1.基于生成对抗网络的深度特征的语音去混响方法,其特征在于,该方法主要步骤如下:
1)对语音进行加权预测误差WPE信号预处理:
WPE估计和去除单通道语音中的晚期混响,混响语音信号Y分解为干净语音成分D和混响成分L,
Y(t,f)=D(t,f)+L(t,f)
L通过先前若干点的Y加权确定,G表示权重系数;
WPE算法的核心问题是确定G,然后估计出混响消除后的语音;
Figure FDA0003191504700000011
2)数据的特征提取:对语音数据进行MFCC特征提取以及对干净语音进行针对音素的瓶颈特征BNF提取;
3)构建生成对抗网络,将含混响语音的MFCC特征通过生成对抗网络映射到干净语音的深度特征;
4)通过Kaldi工具箱,使用传统的GMM-HMM进行强制对齐,然后利用深度神经网络DNNs进行声学模型的训练以及解码;
所述步骤3)中生成对抗网络,生成器和判别器的结构具体为:
(1)生成器中,将所提取的MFCC特征作为神经网络的输入,通过一个全连接的输入层,将含混响语音特征映射到一个多维的线性空间,然后设置三层全连接隐层,每个隐层的神经元的个数为1024,最后通过一个输出层输出一个28维的BNF和MFCC的融合特征;
(2)对于判别器,同样使用含有相同结构的神经网络作为神经网络框架,在此部分中,将生成器所生成的特征和干净语音的特征均输入到判别器当中,输出为一个一维的在0到1之间的数,以此来判断是输入的特征是生成器所生成的还是干净语音特征;
在此生成对抗网络结构中所使用的目标函数如下所示:
Figure FDA0003191504700000021
Figure FDA0003191504700000022
其中,x为干净语音,xc为含有混响语音,
G(xc)为生成器所生成的特征,
D(G(xc))为生成器所生成的特征然后输入到判别器所产生的0到1之间的数值,
D(x)为干净语音信号输入到判别器所产生的0到1之间的数,
Figure FDA0003191504700000023
为生成器所生成的特征和干净语音特征的均方误差。
CN201910140461.1A 2019-02-23 2019-02-23 基于生成对抗网络的深度特征的语音去混响方法 Active CN109887489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910140461.1A CN109887489B (zh) 2019-02-23 2019-02-23 基于生成对抗网络的深度特征的语音去混响方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910140461.1A CN109887489B (zh) 2019-02-23 2019-02-23 基于生成对抗网络的深度特征的语音去混响方法

Publications (2)

Publication Number Publication Date
CN109887489A CN109887489A (zh) 2019-06-14
CN109887489B true CN109887489B (zh) 2021-10-26

Family

ID=66929288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910140461.1A Active CN109887489B (zh) 2019-02-23 2019-02-23 基于生成对抗网络的深度特征的语音去混响方法

Country Status (1)

Country Link
CN (1) CN109887489B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379418B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种语音对抗样本生成方法
CN110718232B (zh) * 2019-09-23 2020-08-18 东南大学 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN110544485A (zh) * 2019-09-27 2019-12-06 慧言科技(天津)有限公司 一种利用cnn的se-ed网络进行远场语音去混响的方法
CN110739002B (zh) * 2019-10-16 2022-02-22 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN111667834B (zh) * 2020-05-21 2023-10-13 北京声智科技有限公司 一种助听设备及助听方法
CN111785281A (zh) * 2020-06-17 2020-10-16 国家计算机网络与信息安全管理中心 一种基于信道补偿的声纹识别方法及系统
CN113129918B (zh) * 2021-04-15 2022-05-03 浙江大学 联合波束形成和深度复数U-Net网络的语音去混响方法
CN114333900B (zh) * 2021-11-30 2023-09-05 南京硅基智能科技有限公司 端到端提取bnf特征的方法、网络模型、训练方法及系统
CN114609493B (zh) * 2022-05-09 2022-08-12 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
US10210861B1 (en) * 2018-09-28 2019-02-19 Apprente, Inc. Conversational agent pipeline trained on synthetic data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
US10210861B1 (en) * 2018-09-28 2019-02-19 Apprente, Inc. Conversational agent pipeline trained on synthetic data
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Kinect辅助的机器人带噪语音识别;王建荣等;《清华大学学报(自然科学版)》;20171231;第57卷(第9期);第921-925页 *

Also Published As

Publication number Publication date
CN109887489A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109887489B (zh) 基于生成对抗网络的深度特征的语音去混响方法
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Wang et al. Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR
Kinoshita et al. A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
Zhao et al. Two-stage deep learning for noisy-reverberant speech enhancement
Ko et al. A study on data augmentation of reverberant speech for robust speech recognition
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
Pandey et al. Self-attending RNN for speech enhancement to improve cross-corpus generalization
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
Yuliani et al. Speech enhancement using deep learning methods: A review
CN106328123B (zh) 小数据库条件下正常语音流中耳语音的识别方法
Yoshioka et al. Far-field speech recognition using CNN-DNN-HMM with convolution in time
Wu et al. Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques
Matassoni et al. Hidden Markov model training with contaminated speech material for distant-talking speech recognition
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
EP4260315B1 (en) Method and system for dereverberation of speech signals
Sun et al. A speaker-dependent approach to separation of far-field multi-talker microphone array speech for front-end processing in the CHiME-5 challenge
Wang et al. Enhanced Spectral Features for Distortion-Independent Acoustic Modeling.
Huang et al. Multi-microphone adaptive noise cancellation for robust hotword detection
Couvreur et al. Blind model selection for automatic speech recognition in reverberant environments
Gao et al. Joint training of DNNs by incorporating an explicit dereverberation structure for distant speech recognition
CN110544485A (zh) 一种利用cnn的se-ed网络进行远场语音去混响的方法
Kashani et al. Speech Enhancement via Deep Spectrum Image Translation Network
Chun et al. Comparison of cnn-based speech dereverberation using neural vocoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231008

Address after: 14th, 15th, 16th, and 17th floors, 18th floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee after: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
CP02 Change in the address of a patent holder

Address after: No.14,15,16,17, 18th Floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee after: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

Address before: 14th, 15th, 16th, and 17th floors, 18th floor, Building 1, Nord Center, No. 168 Luwei Road, Hongshunli Street, Hebei District, Tianjin, 300000

Patentee before: HUIYAN TECHNOLOGY (TIANJIN) Co.,Ltd.

CP02 Change in the address of a patent holder