CN111341332A - 基于深度神经网络的语音特征增强后置滤波方法 - Google Patents

基于深度神经网络的语音特征增强后置滤波方法 Download PDF

Info

Publication number
CN111341332A
CN111341332A CN202010129725.6A CN202010129725A CN111341332A CN 111341332 A CN111341332 A CN 111341332A CN 202010129725 A CN202010129725 A CN 202010129725A CN 111341332 A CN111341332 A CN 111341332A
Authority
CN
China
Prior art keywords
neural network
dnn
training
deep neural
filtering method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010129725.6A
Other languages
English (en)
Inventor
武鹏飞
周翊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010129725.6A priority Critical patent/CN111341332A/zh
Publication of CN111341332A publication Critical patent/CN111341332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明涉及一种基于深度神经网络的语音特征增强后置滤波方法,属于语音滤波技术领域,包括以下步骤:S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;S2:选择训练数据的对数功率谱LPS作为特征进行提取,以纯净语音的LPS作为目标;S3:使用标准结构深度神经网络DNN进行训练;S4:对训练结果进行损失估计;S5:输入损失语音,基于损失估计进行损失补偿。相比于现有技术,本发明能够在保证语音质量的同时有效抑制噪声干扰。

Description

基于深度神经网络的语音特征增强后置滤波方法
技术领域
本发明属于语音滤波技术领域,涉及一种基于深度神经网络的语音特征增强后置滤波方法。
背景技术
语音是人类最自然、最常用的信息传递方式。无论是在日常生活中还是在快速发展的互联网上,语音作为主要媒体之一,承载着大量的有用信息。因此,对语音中的信息进行分析、处理和识别无疑具有广阔的应用前景。
目前,在提高语音识别系统的噪声鲁棒性方面存在两种策略:①减小噪声对特征的影响使其适应干净语音训练的声学模型,即特征增强;②修改声学模型使其适应混噪语音,即模型补偿。相比之下,特征增强运行在识别系统的前端,具有较小的时间复杂度;而且无需改变声学模型和识别器结构,便于集成到不同的识别系统。
一种理想的语音特征应该有3个特点:
1.良好的可区分性,即相同类别样本的特征相似,不同类别样本的特征具有较大差异,这是模式分类的内在要求;
2.较高压缩率,即在满足特点1的情况下特征位数尽可能地少,以减小识别的时间复杂度;
3.具有噪声鲁棒性。
传统信号处理的语音特征增强算法,目前存在的方法主要有3种类型:
1.基于频谱估计的,如维纳滤波、谱减法和幅度谱估计法等;
2.基于语音产生模型的,如自回归模型滤波,卡尔曼滤波和基于隐马尔科夫模型的方法;
3.基于子空间的,如信号模型子空间法。
存在用于语音特征增强的两种主要方法。在第一类中,直接评估增强功能。在第二类方法中,首先估计在信号中引起的失真,以便随后去除。因此,这种技术被称为间接技术,因为属于此类的大多数方法都可以补偿功率谱,对数谱或倒谱域中的失真。
其中,最常用的即是话音活动检测算法,在信号的无声段来估计和更新噪声谱。尽管这种方法在平稳噪声,例如白噪声,可以获得,但是在更多的现实场景中,噪声谱特性不断更新变化,于是该方法的效果就不尽理想。另外,基于MMSE的后置滤波器也是常用的方法。首先,其采用的噪声估计算法为MCRA,该算法采用带噪语音功率与其局部最小值之比计算语音存在概率,并利用这个概率递归地更新噪声功率估计值。然而,局部最小值的估计可能会出现最多D帧的延迟(D为最小值统计算法的分析窗长),这种延迟对跟踪功率快速变化的非平稳噪声非常不利。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度神经网络的语音特征增强后置滤波方法,在抑制噪声的同时能够有效提高语音的质量。
为达到上述目的,本发明提供如下技术方案:
一种基于深度神经网络的语音特征增强后置滤波方法,包括以下步骤:
S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取,以纯净语音的LPS作为目标;
S3:使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练;
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
进一步,步骤S2中,选择训练数据的LPS作为特征,纯净语音的LPS作为目标,维度均为257。
进一步,步骤S2中,输出层包含257个神经元,Dropout比例为0.2。
进一步,所述标准结构DNN包括一个输入层,三个隐藏层及一个输出层。
进一步,步骤S3中所述DNN训练包括两个阶段:
第一阶段:使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)对DNN参数进行无监督的预训练,以避免网络收敛到局部最优解。将相邻两层视作一个RBM,使用对比散度算法(Contrastive Divergence,CD)算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建代价函数,并用误差反向传播算法最小化所述代价函数。
进一步,所述第二阶段中,代价函数公式如下:
Figure BDA0002395444350000021
其中E表示均方误差,
Figure BDA0002395444350000022
和IRMn分别表示第n帧DNN输出向量和对应标签,
Figure BDA0002395444350000023
表示DNN的输入向量,上下文为2τ+1帧,其中τ=2,N表示数据批的大小,W和b是网路的权重和偏置向量。
本发明的有益效果在于:相比于现有技术,本发明能够在保证语音质量的同时有效抑制噪声干扰。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于深度神经网络的语音特征增强后置滤波方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于深度神经网络的语音特征增强后置滤波方法,本发明采用标准结构的DNN,包含一个输入层、三个隐藏层和一个输出层,包括以下步骤:
S1:将DNN用做语音降噪任务,将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取,以纯净语音的LPS作为目标,维度均为257。输出层包含257个神经元,Dropout比例为0.2。
S3:使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练,包括两个阶段:
第一阶段:使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)对DNN参数进行无监督的预训练,以避免网络收敛到局部最优解。将相邻两层视作一个RBM,使用对比散度算法(Contrastive Divergence,CD)算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建一个代价函数,并用误差反向传播算法最小化该代价函数,代价函数公式如下:
Figure BDA0002395444350000041
其中E表示均方误差,
Figure BDA0002395444350000042
和IRMn分别表示第n帧DNN输出向量和对应标签,
Figure BDA0002395444350000043
表示DNN的输入向量,上下文为2τ+1帧,其中τ=2,N表示数据批的大小,W和b是网路的权重和偏置向量。
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于深度神经网络的语音特征增强后置滤波方法,其特征在于:包括以下步骤:
S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱LPS作为特征进行提取,以纯净语音的LPS作为目标;
S3:使用标准结构深度神经网络DNN进行训练;
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
2.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S2中,选择训练数据的LPS作为特征,纯净语音的LPS作为目标,维度均为257。
3.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S2中,输出层包含257个神经元,Dropout比例为0.2。
4.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:所述标准结构DNN包括一个输入层,三个隐藏层及一个输出层。
5.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S3中所述DNN训练包括两个阶段:
第一阶段:使用受限玻尔兹曼机RBM对DNN参数进行无监督的预训练,将相邻两层视作一个RBM,使用对比散度CD算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建代价函数,并用误差反向传播算法最小化所述代价函数。
6.根据权利要求5所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:所述第二阶段中,代价函数公式如下:
Figure FDA0002395444340000011
其中E表示均方误差,
Figure FDA0002395444340000012
和IRMn分别表示第n帧DNN输出向量和对应标签,
Figure FDA0002395444340000013
表示DNN的输入向量,上下文为2τ+1帧,其中τ=2,N表示数据批的大小,W和b是网路的权重和偏置向量。
CN202010129725.6A 2020-02-28 2020-02-28 基于深度神经网络的语音特征增强后置滤波方法 Pending CN111341332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129725.6A CN111341332A (zh) 2020-02-28 2020-02-28 基于深度神经网络的语音特征增强后置滤波方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129725.6A CN111341332A (zh) 2020-02-28 2020-02-28 基于深度神经网络的语音特征增强后置滤波方法

Publications (1)

Publication Number Publication Date
CN111341332A true CN111341332A (zh) 2020-06-26

Family

ID=71184003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129725.6A Pending CN111341332A (zh) 2020-02-28 2020-02-28 基于深度神经网络的语音特征增强后置滤波方法

Country Status (1)

Country Link
CN (1) CN111341332A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899750A (zh) * 2020-07-29 2020-11-06 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN111986679A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
CN113990341A (zh) * 2021-11-19 2022-01-28 上海瀚讯信息技术股份有限公司 一种融合滤波与学习的在线语音增强方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335702A (zh) * 2018-02-01 2018-07-27 福州大学 一种基于深度神经网络的音频降噪方法
WO2019139660A1 (en) * 2018-01-12 2019-07-18 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019139660A1 (en) * 2018-01-12 2019-07-18 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN108335702A (zh) * 2018-02-01 2018-07-27 福州大学 一种基于深度神经网络的音频降噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘诚然: "维纳后置滤波 DNN 前端增强的远场语音识别", 《信息工程大学学报》 *
陈慧岩: "《智能车俩理论与应用》", 31 July 2018, 北京:北京理工大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899750A (zh) * 2020-07-29 2020-11-06 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN111899750B (zh) * 2020-07-29 2022-06-14 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN111986679A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
CN113990341A (zh) * 2021-11-19 2022-01-28 上海瀚讯信息技术股份有限公司 一种融合滤波与学习的在线语音增强方法及装置
CN113990341B (zh) * 2021-11-19 2024-09-27 上海瀚讯信息技术股份有限公司 一种融合滤波与学习的在线语音增强方法及装置

Similar Documents

Publication Publication Date Title
CN111341332A (zh) 基于深度神经网络的语音特征增强后置滤波方法
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN1397929A (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
WO2020177372A1 (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
CN112927709B (zh) 一种基于时频域联合损失函数的语音增强方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
Almajai et al. Using audio-visual features for robust voice activity detection in clean and noisy speech
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112331181A (zh) 一种基于多说话人条件下目标说话人语音提取方法
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
CN114242095B (zh) 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
CN110867178B (zh) 一种多通道远场语音识别方法
Nakatani et al. Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise
CN116347723A (zh) 一种可调灯光样色的声控型墙壁开关的控制系统
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法
CN113851149A (zh) 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法
Mekonnen et al. Noise robust speaker verification using GMM-UBM multi-condition training
Win et al. Speech enhancement techniques for noisy speech in real world environments
CN114155870B (zh) 低信噪比下基于spp和nmf的环境音噪声抑制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626

RJ01 Rejection of invention patent application after publication