CN111341332A - 基于深度神经网络的语音特征增强后置滤波方法 - Google Patents
基于深度神经网络的语音特征增强后置滤波方法 Download PDFInfo
- Publication number
- CN111341332A CN111341332A CN202010129725.6A CN202010129725A CN111341332A CN 111341332 A CN111341332 A CN 111341332A CN 202010129725 A CN202010129725 A CN 202010129725A CN 111341332 A CN111341332 A CN 111341332A
- Authority
- CN
- China
- Prior art keywords
- neural network
- dnn
- training
- deep neural
- filtering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001914 filtration Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 description 1
- 229940083712 aldosterone antagonist Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明涉及一种基于深度神经网络的语音特征增强后置滤波方法,属于语音滤波技术领域,包括以下步骤:S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;S2:选择训练数据的对数功率谱LPS作为特征进行提取,以纯净语音的LPS作为目标;S3:使用标准结构深度神经网络DNN进行训练;S4:对训练结果进行损失估计;S5:输入损失语音,基于损失估计进行损失补偿。相比于现有技术,本发明能够在保证语音质量的同时有效抑制噪声干扰。
Description
技术领域
本发明属于语音滤波技术领域,涉及一种基于深度神经网络的语音特征增强后置滤波方法。
背景技术
语音是人类最自然、最常用的信息传递方式。无论是在日常生活中还是在快速发展的互联网上,语音作为主要媒体之一,承载着大量的有用信息。因此,对语音中的信息进行分析、处理和识别无疑具有广阔的应用前景。
目前,在提高语音识别系统的噪声鲁棒性方面存在两种策略:①减小噪声对特征的影响使其适应干净语音训练的声学模型,即特征增强;②修改声学模型使其适应混噪语音,即模型补偿。相比之下,特征增强运行在识别系统的前端,具有较小的时间复杂度;而且无需改变声学模型和识别器结构,便于集成到不同的识别系统。
一种理想的语音特征应该有3个特点:
1.良好的可区分性,即相同类别样本的特征相似,不同类别样本的特征具有较大差异,这是模式分类的内在要求;
2.较高压缩率,即在满足特点1的情况下特征位数尽可能地少,以减小识别的时间复杂度;
3.具有噪声鲁棒性。
传统信号处理的语音特征增强算法,目前存在的方法主要有3种类型:
1.基于频谱估计的,如维纳滤波、谱减法和幅度谱估计法等;
2.基于语音产生模型的,如自回归模型滤波,卡尔曼滤波和基于隐马尔科夫模型的方法;
3.基于子空间的,如信号模型子空间法。
存在用于语音特征增强的两种主要方法。在第一类中,直接评估增强功能。在第二类方法中,首先估计在信号中引起的失真,以便随后去除。因此,这种技术被称为间接技术,因为属于此类的大多数方法都可以补偿功率谱,对数谱或倒谱域中的失真。
其中,最常用的即是话音活动检测算法,在信号的无声段来估计和更新噪声谱。尽管这种方法在平稳噪声,例如白噪声,可以获得,但是在更多的现实场景中,噪声谱特性不断更新变化,于是该方法的效果就不尽理想。另外,基于MMSE的后置滤波器也是常用的方法。首先,其采用的噪声估计算法为MCRA,该算法采用带噪语音功率与其局部最小值之比计算语音存在概率,并利用这个概率递归地更新噪声功率估计值。然而,局部最小值的估计可能会出现最多D帧的延迟(D为最小值统计算法的分析窗长),这种延迟对跟踪功率快速变化的非平稳噪声非常不利。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度神经网络的语音特征增强后置滤波方法,在抑制噪声的同时能够有效提高语音的质量。
为达到上述目的,本发明提供如下技术方案:
一种基于深度神经网络的语音特征增强后置滤波方法,包括以下步骤:
S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取,以纯净语音的LPS作为目标;
S3:使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练;
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
进一步,步骤S2中,选择训练数据的LPS作为特征,纯净语音的LPS作为目标,维度均为257。
进一步,步骤S2中,输出层包含257个神经元,Dropout比例为0.2。
进一步,所述标准结构DNN包括一个输入层,三个隐藏层及一个输出层。
进一步,步骤S3中所述DNN训练包括两个阶段:
第一阶段:使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)对DNN参数进行无监督的预训练,以避免网络收敛到局部最优解。将相邻两层视作一个RBM,使用对比散度算法(Contrastive Divergence,CD)算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建代价函数,并用误差反向传播算法最小化所述代价函数。
进一步,所述第二阶段中,代价函数公式如下:
本发明的有益效果在于:相比于现有技术,本发明能够在保证语音质量的同时有效抑制噪声干扰。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述基于深度神经网络的语音特征增强后置滤波方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于深度神经网络的语音特征增强后置滤波方法,本发明采用标准结构的DNN,包含一个输入层、三个隐藏层和一个输出层,包括以下步骤:
S1:将DNN用做语音降噪任务,将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取,以纯净语音的LPS作为目标,维度均为257。输出层包含257个神经元,Dropout比例为0.2。
S3:使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练,包括两个阶段:
第一阶段:使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)对DNN参数进行无监督的预训练,以避免网络收敛到局部最优解。将相邻两层视作一个RBM,使用对比散度算法(Contrastive Divergence,CD)算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建一个代价函数,并用误差反向传播算法最小化该代价函数,代价函数公式如下:
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于深度神经网络的语音特征增强后置滤波方法,其特征在于:包括以下步骤:
S1:将纯净语音与噪声按不同信噪比混合,生成训练数据;
S2:选择训练数据的对数功率谱LPS作为特征进行提取,以纯净语音的LPS作为目标;
S3:使用标准结构深度神经网络DNN进行训练;
S4:对训练结果进行损失估计;
S5:输入损失语音,基于损失估计进行损失补偿。
2.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S2中,选择训练数据的LPS作为特征,纯净语音的LPS作为目标,维度均为257。
3.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S2中,输出层包含257个神经元,Dropout比例为0.2。
4.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:所述标准结构DNN包括一个输入层,三个隐藏层及一个输出层。
5.根据权利要求1所述的基于深度神经网络的语音特征增强后置滤波方法,其特征在于:步骤S3中所述DNN训练包括两个阶段:
第一阶段:使用受限玻尔兹曼机RBM对DNN参数进行无监督的预训练,将相邻两层视作一个RBM,使用对比散度CD算法逐层调整网络参数;
第二阶段:有监督的精细调优训练,基于最小均方误差准则在DNN输出和对应的标签之间构建代价函数,并用误差反向传播算法最小化所述代价函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129725.6A CN111341332A (zh) | 2020-02-28 | 2020-02-28 | 基于深度神经网络的语音特征增强后置滤波方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129725.6A CN111341332A (zh) | 2020-02-28 | 2020-02-28 | 基于深度神经网络的语音特征增强后置滤波方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111341332A true CN111341332A (zh) | 2020-06-26 |
Family
ID=71184003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129725.6A Pending CN111341332A (zh) | 2020-02-28 | 2020-02-28 | 基于深度神经网络的语音特征增强后置滤波方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341332A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN111986679A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113990341A (zh) * | 2021-11-19 | 2022-01-28 | 上海瀚讯信息技术股份有限公司 | 一种融合滤波与学习的在线语音增强方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335702A (zh) * | 2018-02-01 | 2018-07-27 | 福州大学 | 一种基于深度神经网络的音频降噪方法 |
WO2019139660A1 (en) * | 2018-01-12 | 2019-07-18 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
-
2020
- 2020-02-28 CN CN202010129725.6A patent/CN111341332A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019139660A1 (en) * | 2018-01-12 | 2019-07-18 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
CN108335702A (zh) * | 2018-02-01 | 2018-07-27 | 福州大学 | 一种基于深度神经网络的音频降噪方法 |
Non-Patent Citations (2)
Title |
---|
刘诚然: "维纳后置滤波 DNN 前端增强的远场语音识别", 《信息工程大学学报》 * |
陈慧岩: "《智能车俩理论与应用》", 31 July 2018, 北京:北京理工大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN111899750B (zh) * | 2020-07-29 | 2022-06-14 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN111986679A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113990341A (zh) * | 2021-11-19 | 2022-01-28 | 上海瀚讯信息技术股份有限公司 | 一种融合滤波与学习的在线语音增强方法及装置 |
CN113990341B (zh) * | 2021-11-19 | 2024-09-27 | 上海瀚讯信息技术股份有限公司 | 一种融合滤波与学习的在线语音增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111341332A (zh) | 基于深度神经网络的语音特征增强后置滤波方法 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN1397929A (zh) | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 | |
WO2020177372A1 (zh) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 | |
CN112927709B (zh) | 一种基于时频域联合损失函数的语音增强方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Almajai et al. | Using audio-visual features for robust voice activity detection in clean and noisy speech | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
CN114242095B (zh) | 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法 | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN110867178B (zh) | 一种多通道远场语音识别方法 | |
Nakatani et al. | Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise | |
CN116347723A (zh) | 一种可调灯光样色的声控型墙壁开关的控制系统 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 | |
CN113851149A (zh) | 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 | |
Mekonnen et al. | Noise robust speaker verification using GMM-UBM multi-condition training | |
Win et al. | Speech enhancement techniques for noisy speech in real world environments | |
CN114155870B (zh) | 低信噪比下基于spp和nmf的环境音噪声抑制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |
|
RJ01 | Rejection of invention patent application after publication |