CN111863007A - 一种基于深度学习的语音增强方法及系统 - Google Patents

一种基于深度学习的语音增强方法及系统 Download PDF

Info

Publication number
CN111863007A
CN111863007A CN202010554629.6A CN202010554629A CN111863007A CN 111863007 A CN111863007 A CN 111863007A CN 202010554629 A CN202010554629 A CN 202010554629A CN 111863007 A CN111863007 A CN 111863007A
Authority
CN
China
Prior art keywords
irm
speech
dnn
boosting
speech enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010554629.6A
Other languages
English (en)
Inventor
万辛
沈亮
侯炜
柳林
倪善金
倪江帆
戚梦苑
冯象雷
林格平
黄远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Iflytek Information Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN202010554629.6A priority Critical patent/CN111863007A/zh
Publication of CN111863007A publication Critical patent/CN111863007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的语音增强方法及系统,该方法包括如下步骤:步骤SS1:获得带噪语音的多个IRM预测值的解的集合;步骤SS2:将来自所述Boosting‑DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合
Figure DDA0002543780190000011
本发明通过将Boosting‑DNN语音增强模型和Ensemble‑DNN集成语音增强模型这两个DNN串接起来的方式,有效的解决了一个神经网络由于层次太深训练不稳定的现象,构建一种非常深的网络结构,彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。

Description

一种基于深度学习的语音增强方法及系统
技术领域
本发明涉及一种基于深度学习的语音增强方法及系统,属于语音处理技术领域。
背景技术
传统语音增强需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳;此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性;总的来说,其对平稳噪声的抑制效果较好,且运行效率高。但是其对于非平稳噪声效果较差,且易有较大程度的失真。而基于深度神经网络的语音增强方法,由于具备强大的非线性拟合能力,对非平稳噪声表现出了更好的效果,且语音失真情况较少。
近几年基于语音识别的输入法和语义理解被大幅应用于智能手机,车载设备,可穿戴设备以及智能家居的各个电器设备中,这些设备通常都在比较复杂的声学环境中被用户所用。而复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,这就会大幅降低用户的体验。因此,前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
发明内容
本发明的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种基于深度学习的语音增强方法及系统。
本发明具体采用如下技术方案:一种基于深度学习的语音增强方法,其特征在于,包括如下步骤:
步骤SS1:获得带噪语音的多个IRM预测值的解的集合;
步骤SS2:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合
Figure BDA0002543780170000021
作为一种较佳的实施例,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
本发明还提出一种基于深度学习的语音增强系统,其特征在于,包括:
Boosting-DNN语音增强模型,用于:获得噪声语音的多个IRM预测值的解的集合;
Ensemble-DNN集成语音增强模型,用于:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入,预测最终的IRM预测值集合
Figure BDA0002543780170000031
所述Boosting-DNN语音增强模型的输入端接带噪语音,所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。
作为一种较佳的实施例,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
本发明所达到的有益效果:本发明针对如何解决复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,导致大幅降低用户的体验的技术问题,通过设计一种基于深度学习的语音增强方法及系统,将Boosting-DNN语音增强模型和Ensemble-DNN集成语音增强模型这两个DNN串接起来的方式,有效的解决了一个神经网络由于层次太深训练不稳定的现象,构建一种非常深的网络结构,从实际的实验效果来看,也明显优于只采用一个神经网络的方法,彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
附图说明
图1是本发明的Boosting-DNN语音增强模型的拓扑图。
图2是本发明的一种基于深度学习的语音增强方法的原理拓扑图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1和图2所示,本发明提出一种基于深度学习的语音增强方法,其特征在于,包括如下步骤:
步骤SS1:获得带噪语音的多个IRM预测值的解的集合;
步骤SS2:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合
Figure BDA0002543780170000041
作为一种较佳的实施例,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
实施例2:本发明还提出一种基于深度学习的语音增强系统,其特征在于,包括:
Boosting-DNN语音增强模型,用于:获得噪声语音的多个IRM预测值的解的集合;
Ensemble-DNN集成语音增强模型,用于:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入,预测最终的IRM预测值集合
Figure BDA0002543780170000051
所述Boosting-DNN语音增强模型的输入端接带噪语音,所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。
作为一种较佳的实施例,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
Ensemble-DNN利用集成学习的理念,可以被看作干净语音的强预测器,它将许多较弱的回归函数(Boosting-DNN的输出)组合成一个强的回归函数。
需要说明的是:两个DNN串接起来的方式,有效解决一个网络由于层次太深训练不稳定的现象,可以认为是一种非常深的网络结构;从实际的实验效果来看,也明显优于只采用一个神经网络的方法。
在神经网络训练过程中,Dropout是一种训练深度神经网络时常用的算法,能有效地防止神经网络的过拟合、增强神经网络的泛化能力。当前对Dropout的解释包括集成学习、正则化策略、朴素贝叶斯理论等等。我们合理地利用Dropout策略,也可以一定程度上地提升语音增强模型的泛化能力。
目前常用的基于深度学习的语音增强算法主要从输入特征、优化目标、模型结构这三方面展开的。如基于深度神经网络(DNN)的语音增强算法,利用DNN建立噪声和干净语音之间的映射函数,采用全局均衡方差和噪声感知训练的方法来估计干净语音的对数功率谱。通过训练长短(Long Short-Term Memory Recurrent Neural Network,LSTMRNN)来估计带噪语音中的干净语音和噪声特征,最后通过掩蔽的方法将噪声部分从带噪频谱中去除掉的语音增强算法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种基于深度学习的语音增强方法,其特征在于,包括如下步骤:
步骤SS1:获得带噪语音的多个IRM预测值的解的集合;
步骤SS2:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合
Figure FDA0002543780160000011
2.根据权利要求1所述的一种基于深度学习的语音增强方法,其特征在于,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
3.根据权利要求1所述的一种基于深度学习的语音增强方法,其特征在于,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
4.一种基于深度学习的语音增强系统,其特征在于,包括:
Boosting-DNN语音增强模型,用于:获得噪声语音的多个IRM预测值的解的集合;
Ensemble-DNN集成语音增强模型,用于:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入,预测最终的IRM预测值集合
Figure FDA0002543780160000021
所述Boosting-DNN语音增强模型的输入端接带噪语音,所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。
5.根据权利要求1所述的一种基于深度学习的语音增强系统,其特征在于,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
6.根据权利要求1所述的一种基于深度学习的语音增强系统,其特征在于,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
CN202010554629.6A 2020-06-17 2020-06-17 一种基于深度学习的语音增强方法及系统 Pending CN111863007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010554629.6A CN111863007A (zh) 2020-06-17 2020-06-17 一种基于深度学习的语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554629.6A CN111863007A (zh) 2020-06-17 2020-06-17 一种基于深度学习的语音增强方法及系统

Publications (1)

Publication Number Publication Date
CN111863007A true CN111863007A (zh) 2020-10-30

Family

ID=72986759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554629.6A Pending CN111863007A (zh) 2020-06-17 2020-06-17 一种基于深度学习的语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN111863007A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700786A (zh) * 2020-12-29 2021-04-23 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629412A (zh) * 2017-03-15 2018-10-09 中国科学院声学研究所 一种基于无网格最大互信息准则的神经网络训练加速方法
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629412A (zh) * 2017-03-15 2018-10-09 中国科学院声学研究所 一种基于无网格最大互信息准则的神经网络训练加速方法
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING WANG: "A Multiobjective Learning and Ensembling Approach to High-Performance Speech Enhancement With Compact Neural Network Architectures", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
任相赢: "基于深层神经网络的语音增强算法研究", 《中国优秀博士学位论文全文数据库信息科技辑》 *
王青: "基于深层神经网络的多目标学习和融合的语音增强研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700786A (zh) * 2020-12-29 2021-04-23 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质
CN112700786B (zh) * 2020-12-29 2024-03-12 西安讯飞超脑信息科技有限公司 语音增强方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107241106B (zh) 基于深度学习的极化码译码算法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
US10403299B2 (en) Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
CN110619885A (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
EP3866165B1 (en) Method for enhancing telephone speech signals based on convolutional neural networks
Mahmmod et al. Speech enhancement algorithm based on super-Gaussian modeling and orthogonal polynomials
CN111968658B (zh) 语音信号的增强方法、装置、电子设备和存储介质
CN105280193B (zh) 基于mmse误差准则的先验信噪比估计方法
CN111508519B (zh) 一种音频信号人声增强的方法及装置
US20240071402A1 (en) Method and apparatus for processing audio data, device, storage medium
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN112435652A (zh) 一种基于图卷积神经网络的语音关键词识别系统及方法
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
Fu et al. Boosting objective scores of a speech enhancement model by metricgan post-processing
CN111863007A (zh) 一种基于深度学习的语音增强方法及系统
CN115574922A (zh) 一种基于交叉熵的水电机组振动信号降噪方法及系统
Le et al. Inference skipping for more efficient real-time speech enhancement with parallel RNNs
CN112289337B (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN114283829A (zh) 一种基于动态门控卷积循环网络的语音增强方法
CN111555994B (zh) 一种基于最大箕舌线准则算法的簇稀疏信道估计方法
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
Zhou et al. Speech Enhancement via Residual Dense Generative Adversarial Network.
CN111144347A (zh) 一种数据处理方法、装置、平台及存储介质
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201030