CN111261183B - 一种语音去噪的方法及装置 - Google Patents

一种语音去噪的方法及装置 Download PDF

Info

Publication number
CN111261183B
CN111261183B CN201811463825.1A CN201811463825A CN111261183B CN 111261183 B CN111261183 B CN 111261183B CN 201811463825 A CN201811463825 A CN 201811463825A CN 111261183 B CN111261183 B CN 111261183B
Authority
CN
China
Prior art keywords
voice signal
denoised
noise
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811463825.1A
Other languages
English (en)
Other versions
CN111261183A (zh
Inventor
刘白皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201811463825.1A priority Critical patent/CN111261183B/zh
Publication of CN111261183A publication Critical patent/CN111261183A/zh
Application granted granted Critical
Publication of CN111261183B publication Critical patent/CN111261183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

本申请公开了一种语音去噪的方法及装置,该方法包括:接收带噪语音信号的集合,提取所述集合中各个带噪语音信号的BFCC特征,将BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,接收待去噪的语音信号,并提取待去噪的语音信号的BFCC特征,将待去噪的语音信号的BFCC特征输入到RNN模型中,基于RNN模型确定待去噪的语音信号中的噪声频谱,根据待去噪的语音信号中的噪声频谱,确定待去噪的语音信号中的语音信号的增益补偿参数,基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。解决了现有技术中语音信号难以提取,以及提取的语音的质量较差的技术问题。

Description

一种语音去噪的方法及装置
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音去噪的方法及装置。
背景技术
由于城市环境中存在大量的噪声,例如,工业生产噪声、建筑施工噪声、交通运输噪声和社会生活噪声等,电子设备在采集的语音信号的过程中,例如,智能家居设备或车载音频设备,受环境噪声的影响,使得采集到的语音信号已非纯净的语音信号,而是受到噪声污染的带噪的语音信号。
为了从带噪的语音信号中识别出语音信号,需要对语音进行去噪处理。目前,在非平稳噪声和强背景噪声环境下,主要是通过对噪声统计特性进行估计,基于噪声统计特性的估计对噪声的功率谱进行估计,但是当噪声功率较大,信噪比较低时,容易对噪声过估,造成微弱的语音信号的抑制,导致语音信号难以提取,以及提取的语音的质量较差的问题。
发明内容
本申请提供一种语音去噪的方法及装置,用以解决现有技术中语音信号难以提取,以及提取的语音的质量较差的技术问题。
第一方面,本申请提供一种语音去噪的方法,该方法包括:电子设备接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数BFCC特征,将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个噪声频谱的概率密度函数以及各个语音信号的增益补偿参数,然后,接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱,再根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,确定所述待去噪的语音信号中的语音信号的增益补偿参数,最后,基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
本申请实施例提供的方案,通过GRU网络将带噪的语音信号进行训练生成RNN模型,并基于RNN模型中带噪语音信号的参数,确定待去噪的语音信号的噪声频谱,基于该噪声频谱,从待去噪的语音信号中得到增强的语音信号,因此,该方案基于大数据训练得到带噪语音信号的参数模型,避免了由于信噪比过低对噪声信号过估,导致语音信号难以提取的问题,进一步提高了语音的质量。
可选地,将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,包括:
所述BFCC特征在所述GRU网络传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,所述带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于所述带噪语音信号的参数生成所述RNN模型。
本申请实施例提供的方案,基于GRU网络和多种带噪的语音信号的BFCC特征训练生成带噪语音信号的参数模型,即基于大数据训练生成带噪语音信号的参数模型,提高了噪声信号频谱测量的准确性。
可选地,在提取所述待去噪的语音信号的BFCC特征之前,还包括:
基于预设的时长将所述待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号;
将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
本申请实施例提供的方案,将待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号,通过将多段第一语音信号进行加窗处理,使得第一语音信号的频谱能量集中,减少了第一语音信号频谱能量的泄露,进一步提高语音的质量。
可选地,在接收待去噪的语音信号之后,还包括:
对所述待去噪的语音信号进行基音分析,确定基音信号的周期;
基于所述基音信号的周期确定基音滤波器,并将所述第一语音信号输入到所述基音滤波器中,得到所述基音信号。
可选地,基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号,包括:
将所述增益补偿参数与所述基音信号进行线性运算,生成去噪的第一语音信号;
将所述去噪的第一语音信号进行平滑处理得到所述去噪的语音信号。
第二方面,本申请提供一种语音去噪的装置,该装置,包括:
提取模块,用于接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数BFCC特征;
生成模块,用于将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个噪声频谱的概率密度函数以及各个语音信号的增益补偿参数;
确定模块,用于接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱;以及根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,确定所述待去噪的语音信号中的语音信号的增益补偿参数;
所述生成模块,还用于基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
可选地,所述生成模块,具体用于:
所述BFCC特征在所述GRU网络传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,所述带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于所述带噪语音信号的参数生成所述RNN模型。
可选地,所述装置,还包括:
处理模块,用于基于预设的时长将所述待去噪的语音信号进行分段处理,得到等多段时长的待去噪的第一语音信号;以及将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
可选地,所述确定模块,还用于:
对所述待去噪的语音信号进行基音分析,确定基音信号的周期;
基于所述基音信号的周期确定基音滤波器,并将所述第一语音信号输入到所述基音滤波器中,得到所述基音信号。
可选地,所述生成模块,具体用于:
将所述增益补偿参数与所述基音信号进行线性运算,生成去噪的第一语音信号;
将所述去噪的第一语音信号进行平滑处理得到所述去噪的语音信号。
第三方面,本申请提供一种电子设备,该电子设备,包括:
存储器,用于存储至少一个处理器所执行的指令;
处理器,用于执行存储器中存储的指令执行第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面所述的方法。
附图说明
图1为本申请实施例所提供的一种语音去噪的方法的流程图;
图2为本申请实施例所提供的一种神经网络GRU的结构示意图;
图3为本申请实施例所提供的一种循环神经网络RNN的结构示意图;
图4为本申请实施例所提供的一种语音去噪的方法的流程图;
图5a为本申请实施例所提供的一种纯净语音信号的波形图;
图5b为本申请实施例所提供的一种带噪语音信号的波形图;
图5c为本申请实施例所提供的一种去噪后语音信号的波形图;
图6为本申请实施例所提供的一种语音去噪的装置的结构示意图;
图7为本申请实施例所提供的一种语音去噪的装置的结构示意图;
图8为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例提供的方案中,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了更好的理解本申请实施例所提供的技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
以下结合说明书附图对本申请实施例所提供的一种语音去噪的方法做进一步详细的说明,该方法具体实现方式可以包括以下步骤(方法流程如图1所示):
步骤101,电子设备接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数(Bark-frequency cepstral coefficients,BFCC)特征。
带噪语音信号的集合中具有多个带噪语音信号,其中,多个带噪的语音信号包括具有不同的噪声和具有不同信噪比的语音信号,例如,不同的噪声包括粉红噪声、工业噪声、汽车噪声、高斯噪声和白噪声等。电子设备接收到带噪语音信号的集合,从该集合中提取各个带噪语音信号的BFCC特征,其中,BFCC特征提取包括两个步骤:将带噪语音信号转化到巴克频率,以及将带噪语音信号进行倒谱分析,通过倒谱分析获取BFCC特征。
步骤102,电子设备将所述BFCC特征输入到神经网络(Gated Recurrent Unit,GRU)中进行训练生成循环神经网络(Recurrent neural network,RNN)模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个噪声频谱的概率密度函数以及各个语音信号的增益补偿参数。
具体的,将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,包括:
所述BFCC特征在所述GRU网络传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,所述带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于所述带噪语音信号的参数生成所述RNN模型。
为了便于理解所述BFCC特征输入到神经网络GRU中进行训练生成所述RNN模型,首先简要介绍一下神经网络GRU模型,具体如下:
如图2所示为GRU的结构示意图,其中,GRU模型中包括两个门,分别为更新门和重置门,即图中的zt和rt,更新门用于控制前一时刻的状态信息被带入当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多,重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。在GRU模型中xt为输入信号,ht-1为上一节点传递下来的隐状态,该隐状态包括之前节点的状态信息,
Figure BDA0001889281010000071
为输出状态信息的均值,yt为输出层的信号,ht为输出的状态信息,其中,zt、xt、ht-1
Figure BDA0001889281010000072
和yt均有向量表示。
当带噪的语音信号的BFCC特征作为输入信号输入到图2所示的模型中,可推得,重置门为rt=σ(wr[ht-1,xt]),更新门为zt=σ(wz[ht-1,xt]),
Figure BDA0001889281010000073
输出的状态信息为
Figure BDA0001889281010000074
输出层的信号yt=σ(wo*ht),其中,σ为系数,wr、wz
Figure BDA0001889281010000075
和wo表示GRU网络中不同层的权重参数,[]表示两个向量相连接,*表示矩阵中的向量相乘。当假设某时刻输出层的输入、输出以及损失函数,基于GRU网络可推出不同网络层对应的权重参数。
然后,将GRU网络中不同层对应的权重参数与多个带噪语音信号的BFCC特征进行线性运算,训练生成多个带噪语音信号的参数,其中,带噪语音信号的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数,基于多个带噪语音信号的参数生成RNN模型,其中,RNN模型具有多层,每一层表示带噪语音信号不同的参数。
步骤103,电子设备接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱。
如图3所示,RNN模型有5层,分别为第一全连接(Dense)层、第二Dense层、第一GRU层、第二GRU层以及第三GRU层,当电子设备接收到待去噪的语音信号后,提取待去噪的语音信号的BFCC特征,该BFCC特征是一个42维的特征向量,将该42维的特征向量输入第一Dense层与第一Dense层中的双曲函数(如tanh函数)进行线性运算,得到一个24维的第一向量,其中,第一向量为线性向量,但是,在实际生活中的数据不仅包括线性部分,还包括非线性部分,为了在待去噪的语音信号的特征向量中引入非线性因素,首先,将第一向量输入到第一GRU层与第一GRU层中的激活函数(如Sigmoid或ReLu函数)进行非线性运算,得到24维的第二向量,然后,将第二向量输入到第二GRU层与第二层中的激活函数进行非线性运算,得到一个48维的第三向量,再将第三向量输入第三GRU层,并与第三GRU层中的激活函数进行非线性运算,得到一个96维的第四向量,其中,第四向量包括线性数据和非线性数据,并最大可能保留BFCC特征中的噪声特征和语音信号的特征。
为了在待去噪的语音信号的特征向量中引入非线性因素,除了上述将BFCC特征依次输入第一GRU层、第二GRU层和第三GRU层进行非线性运算,得到一个具有非线性数据的向量,还可以通过其他的方法在BFCC特征中引入非线性数据,在图3中,还可以通过如下的方式引入非线性数据:
方式1:将待去噪的语音信号的BFCC特征直接输入到第三GRU层进行非线性运算,得到具有非线性数据的第四向量。
方式2:将第一向量依次输入第二GRU层和第三GRU层进行非线性运算,得到具有非线性数据的第四向量。
方式3:将第二向量输入到第三GRU层进行非线性运算,得到具有非线性数据的第四向量。
最后将第四向量输入到第二Dense层,基于第二Dense层中噪声频谱和语音频谱的概率密度函数,或语音信号的增益补偿参数,得到待去噪的语音信号中的噪声频谱。
步骤104,电子设备根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,确定所述待去噪的语音信号中的语音信号的增益补偿参数。
具体的,电子设备在得到待去噪的语音信号中的噪声频谱后,通过谱减法,即将待去噪的语音信号频谱与噪声频谱进行相减得到语音信号,基于RNN模型中语音信号的增益补偿参数确定该语音信号的增益补偿参数。
步骤105,电子设备基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
具体的,电子设备在接收到待去噪的语音信号后,对所述待去噪的语音信号进行基音分析,确定基音信号的周期,然后,基于所述基音信号的周期确定基音滤波器,并将所述第一语音信号输入到所述基音滤波器中,得到所述基音信号,将确定的语音信号的增益补偿参数与待去噪的语音信号中的基音信号进行线性运算,生成去噪的第一语音信号,然后,将去噪的第一语音信号进行平滑处理得到所述去噪的语音信号,例如,平滑处理可以将第一语音信号与窗函数进行运算得到去噪的语音信号。
本申请实施例提供的方案,通过GRU网络将带噪的语音信号进行训练生成RNN模型,并基于RNN模型中带噪语音信号的参数,确定待去噪的语音信号的噪声频谱,基于该噪声频谱,从待去噪的语音信号中得到增强的语音信号,因此,该方案基于大数据训练得到带噪语音信号的参数模型,避免了由于信噪比过低对噪声信号过估,导致语音信号难以提取的问题,进一步提高了语音的质量。
进一步,为了避免语音信号频谱能量的泄露,提高语音的质量。在提取所述待去噪的语音信号的BFCC特征之前,还包括:
基于预设的时长将所述待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号;
将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
具体的,语音信号包括高频成分和低频成分,而噪声信号一般是高频较多,因此,为了分析带噪语音信号中的语音信号和噪声信号,需要将语音信号进行傅里叶变换转化到频域,而傅里叶变换输入平稳的语音信号,由于语音信号具有短时平稳性的特征,一般认为在10ms-30ms内可以认为语音信号近似不变化,语音信号在处理的过程中进行傅里叶变换之前,基于预设的时长将待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号,其中,预设的时长不超过30ms,将每一段第一语音信号作为一帧,相邻两帧第一语音信号之间具有重叠的区域,即每一帧第一语音信号的两端不连续,导致频谱能量的泄露,分段后的语音信号与原始待去噪的语音信号误差较大,因此,为了使得第一语音信号连续,将第一语音信号与窗函数进行运算(如汉明窗),使得第一语音信号的频谱能量集中在窗函数的主瓣,避免了第一语音信号频谱能量的泄露。
本申请实施例提供的方案,将待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号,通过将多段第一语音信号进行加窗处理,使得第一语音信号的频谱能量集中,减少了第一语音信号频谱能量的泄露,进一步提高语音的质量。
如图4所示为语音去噪的流程图,电子设备接收到待去噪的语音信号后,将待去噪的语音信号分为两部分,一部分待去噪的语音信号进行分段、加窗处理得到多段等时长的待去噪的第一语音信号,将第一语音信号进行傅里叶变换,并提取第一语音信号的BFCC特征,将BFCC特征输入基于多个带噪语音信号训练生成的RNN模型中,得到待去噪的语音信号中语音信号的增益补偿参数;对另一部分待去噪的语音信号进行基波分析,确定基音的周期,基于基音的周期选择与之匹配的滤波器,以便从待去噪的语音信号中分离出基音序列,然后将基音序列与语音信号的增益补偿参数进行运算,得到去噪的第一语音信号,将去噪的第一语音信号进行傅里叶逆变换,再将变换后的去噪的第一语音信号进行平滑处理(如加窗函数),得到去噪的语音信号。为了更直观的体现本申请实施例提供的方法对带噪语音信号进行去噪的效果,下面给出了语音去噪各阶段得到的语音信号的波形图。
如图5a所示为一种纯净语音信号的波形图,该语音信号为一段3s内的纯净的语音信号,在该纯净语音信号的波形图中,纵坐标表示语音信号的能量,横坐标表示语音信号随时间的变化。在该纯净语音信号中加入工厂噪声,得到如图5b所示为待去噪的语音信号的波形图,其中,待去噪的语音信号的信噪比为零,如图5c所示为本申请实施例提供的去噪后的语音信号波形图。将图5c中去噪后的语音信号的波形与图5a中纯净的语音信号的波形进行比较,可以看出图5c中去噪后的语音信号的波形与图5a中纯净的语音信号的波形相似度较高,故通过本申请实施例提供的语音去噪的方法进行语音去噪的效果较好。
实施例二
本申请提供一种语音去噪的装置,如图6所示,该装置,包括:
提取模块601,用于接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数BFCC特征;
生成模块602,用于将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个噪声频谱的概率密度函数以及各个语音信号的增益补偿参数;
确定模块603,用于接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱;以及根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,确定所述待去噪的语音信号中的语音信号的增益补偿参数;
所述生成模块602,还用于基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
可选地,所述生成模块602,具体用于:
所述BFCC特征在所述GRU网络传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于带噪语音的参数生成所述RNN模型。
可选地,如图7所示,所述语音去噪的装置,还包括:
处理模块701,用于基于预设的时长将所述待去噪的语音信号进行分段处理,得到等多段时长的待去噪的第一语音信号;以及将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
可选地,所述确定模块603,还用于:
对所述待去噪的语音信号进行基音分析,确定基音信号的周期;
基于所述基音信号的周期确定基音滤波器,并将所述第一语音信号输入到所述基音滤波器中,得到所述基音信号。
可选地,所述生成模块602,具体用于:
将所述增益补偿参数与所述基音信号进行线性运算,生成去噪的第一语音信号;
将所述去噪的第一语音信号进行平滑处理得到所述去噪的语音信号。
实施例三
本申请提供一种电子设备,如图8所示,该电子设备,包括:
存储器801,用于存储至少一个处理器所执行的指令;
处理器802,用于执行存储器801中存储的指令执行实施例一所述的方法。
实施例四
本申请提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行实施例一所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种语音去噪的方法,其特征在于,包括:
接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数BFCC特征;
将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个语音频谱的概率密度函数以及各个语音信号的增益补偿参数;
接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱;
根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,获得所述待去噪的语音信号中的语音信号,基于所述RNN模型中各个语音信号的增益补偿参数,确定所述待去噪的语音信号中的语音信号的增益补偿参数;
基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
2.如权利要求1所述的方法,其特征在于,将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,包括:
所述BFCC特征在所述神经网络GRU传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,所述带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于所述带噪语音信号的参数生成所述RNN模型。
3.如权利要求1或2所述的方法,其特征在于,在提取所述待去噪的语音信号的BFCC特征之前,还包括:
基于预设的时长将所述待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号;
将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
4.如权利要求3所述的方法,其特征在于,在接收待去噪的语音信号之后,还包括:
对所述待去噪的语音信号进行基音分析,确定基音信号的周期;
基于所述基音信号的周期确定基音滤波器,并将所述第一语音信号输入到所述基音滤波器中,得到所述基音信号。
5.如权利要求4所述的方法,其特征在于,基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号,包括:
将所述增益补偿参数与所述基音信号进行线性运算,生成去噪的第一语音信号;
将所述去噪的第一语音信号进行平滑处理得到所述去噪的语音信号。
6.一种语音去噪的装置,其特征在于,包括:
提取模块,用于接收带噪语音信号的集合,提取所述带噪语音信号的集合中各个带噪语音信号的巴克频率倒谱系数BFCC特征;
生成模块,用于将所述BFCC特征输入到神经网络GRU中进行训练生成循环神经网络RNN模型,其中,所述RNN模型包括所述带噪语音信号的集合中各个噪声频谱的概率密度函数,各个语音频谱的概率密度函数以及各个语音信号的增益补偿参数;
确定模块,用于接收待去噪的语音信号,并提取所述待去噪的语音信号的BFCC特征,将所述待去噪的语音信号的BFCC特征输入到所述RNN模型中,基于所述噪声频谱和语音频谱的概率密度函数确定所述待去噪的语音信号中的噪声频谱;以及根据所述待去噪的语音信号和所述待去噪的语音信号中的噪声频谱,获得所述待去噪的语音信号中的语音信号,基于所述RNN模型中各个语音信号的增益补偿参数,确定所述待去噪的语音信号中的语音信号的增益补偿参数;
所述生成模块,还用于基于所述语音信号的增益补偿参数和所述待去噪的语音信号中的基音信号,生成去噪的语音信号。
7.如权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
所述BFCC特征在所述神经网络GRU传播过程中生成权重参数,其中,所述权重参数用于表征每个带噪语音信号的参数与所述BFCC特征之间的关系;
基于所述权重参数和所述BFCC特征训练生成所述带噪语音信号的参数,其中,所述带噪语音的参数包括噪声频谱的概率密度函数,语音频谱的概率密度函数以及语音信号的增益补偿参数;
基于所述带噪语音信号的参数生成所述RNN模型。
8.如权利要求6或7所述的装置,其特征在于,所述装置,还包括:
处理模块,用于基于预设的时长将所述待去噪的语音信号进行分段处理,得到多段等时长的待去噪的第一语音信号;以及将所述第一语音信号进行加窗处理,以使得所述第一语音信号的频谱能量集中。
9.一种电子设备,其特征在于,包括:
存储器,用于存储至少一个处理器所执行的指令;
处理器,用于执行存储器中存储的指令执行权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行权利要求1-5中任一项所述的方法。
CN201811463825.1A 2018-12-03 2018-12-03 一种语音去噪的方法及装置 Active CN111261183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811463825.1A CN111261183B (zh) 2018-12-03 2018-12-03 一种语音去噪的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811463825.1A CN111261183B (zh) 2018-12-03 2018-12-03 一种语音去噪的方法及装置

Publications (2)

Publication Number Publication Date
CN111261183A CN111261183A (zh) 2020-06-09
CN111261183B true CN111261183B (zh) 2022-11-22

Family

ID=70946799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811463825.1A Active CN111261183B (zh) 2018-12-03 2018-12-03 一种语音去噪的方法及装置

Country Status (1)

Country Link
CN (1) CN111261183B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710346B (zh) * 2020-06-18 2021-07-27 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
CN111768795A (zh) * 2020-07-09 2020-10-13 腾讯科技(深圳)有限公司 语音信号的噪声抑制方法、装置、设备及存储介质
CN111916103B (zh) * 2020-08-11 2024-02-20 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN112820309A (zh) * 2020-12-31 2021-05-18 北京天润融通科技股份有限公司 基于rnn的降噪处理方法及系统
CN112382301B (zh) * 2021-01-12 2021-05-14 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及系统
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
WO2022205249A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 音频特征补偿方法、音频识别方法及相关产品
CN113096679A (zh) * 2021-04-02 2021-07-09 北京字节跳动网络技术有限公司 音频数据处理方法和装置
CN113852759B (zh) * 2021-09-24 2023-04-18 豪威科技(武汉)有限公司 图像增强方法及拍摄装置
CN115223583A (zh) * 2022-07-26 2022-10-21 宸芯科技有限公司 一种语音增强方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590530B2 (en) * 2005-09-03 2009-09-15 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置

Also Published As

Publication number Publication date
CN111261183A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111261183B (zh) 一种语音去噪的方法及装置
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
US10504539B2 (en) Voice activity detection systems and methods
CN111161752B (zh) 回声消除方法和装置
Xu et al. An experimental study on speech enhancement based on deep neural networks
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
CN102124518B (zh) 采用特征提取处理音频信号用于语音增强的方法和装置
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN104685562B (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
KR100745977B1 (ko) 음성 구간 검출 장치 및 방법
CN109192200B (zh) 一种语音识别方法
Yuan A time–frequency smoothing neural network for speech enhancement
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
Labied et al. An overview of automatic speech recognition preprocessing techniques
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
Kantamaneni et al. Speech enhancement with noise estimation and filtration using deep learning models
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
Indrebo et al. Minimum mean-squared error estimation of mel-frequency cepstral coefficients using a novel distortion model
Garg et al. Deep convolutional neural network-based speech signal enhancement using extensive speech features
CN112652321B (zh) 一种基于深度学习相位更加友好的语音降噪系统及方法
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
Li et al. Dynamic attention based generative adversarial network with phase post-processing for speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant