CN110634500B - 一种先验信噪比的计算方法、电子设备及存储介质 - Google Patents

一种先验信噪比的计算方法、电子设备及存储介质 Download PDF

Info

Publication number
CN110634500B
CN110634500B CN201910974221.1A CN201910974221A CN110634500B CN 110634500 B CN110634500 B CN 110634500B CN 201910974221 A CN201910974221 A CN 201910974221A CN 110634500 B CN110634500 B CN 110634500B
Authority
CN
China
Prior art keywords
noise
frame
noise ratio
signal
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910974221.1A
Other languages
English (en)
Other versions
CN110634500A (zh
Inventor
黄鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Robotics Co Ltd
Original Assignee
Cloudminds Shanghai Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shanghai Robotics Co Ltd filed Critical Cloudminds Shanghai Robotics Co Ltd
Priority to CN201910974221.1A priority Critical patent/CN110634500B/zh
Publication of CN110634500A publication Critical patent/CN110634500A/zh
Application granted granted Critical
Publication of CN110634500B publication Critical patent/CN110634500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

本发明实施例涉及数据处理领域,公开了一种先验信噪比的计算方法、电子设备及存储介质。本发明的部分实施例中,先验信噪比的计算方法包括:获取上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比;根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比。该实施例使得能够对语音的先验信噪比进行滤波处理,降低了语音增强后信号的失真。

Description

一种先验信噪比的计算方法、电子设备及存储介质
技术领域
本发明实施例涉及数据处理领域,特别涉及一种先验信噪比的计算方法、电子设备及存储介质。
背景技术
在语音识别中,远场输入语音通常会受到背景噪声的干扰,导致识别率大幅度下降。因此,有必要采用语音增强算法降低噪声,尽可能从含噪语音中恢复纯净语音,增加语音的可懂度,提升语音识别性能。
然而,发明人发现现有技术中至少存在如下问题:由于目前的语音增强算法带来的语音失真很严重,会导致语音识别性能下降。
发明内容
本发明实施方式的目的在于提供一种先验信噪比的计算方法、电子设备及存储介质,使得能够对语音的先验信噪比进行滤波处理,降低了语音增强后信号的失真。
为解决上述技术问题,本发明的实施方式提供了一种先验信噪比的计算方法,包括以下步骤:获取上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比;根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的先验信噪比的计算方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的先验信噪比的计算方法。
本发明实施方式相对于现有技术而言,使用上一帧计算得到的滤波器系数,对历史先验信噪比进行了滤波处理,解决了抑制过度的问题,降低了语音增强后信号的失真,进而提高了语音识别性能。
另外,根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比,具体包括:按照公式a,计算当前帧的先验信噪比;公式a:
Figure BDA0002233083400000021
Figure BDA0002233083400000022
其中,
Figure BDA0002233083400000023
表示第t帧第k个频点的先验信噪比,max()表示求最大值函数,a表示权重因子,
Figure BDA0002233083400000024
表示第t-1帧第k个频点降噪处理后的幅度,
Figure BDA0002233083400000025
表示第t-1帧第k个频点的噪声幅度,wsf(t-1,k)表示上一帧的滤波器的系数,γ(t,k)表示第t帧第k个频点的后验信噪比,ξmin表示先验信噪比的最小取值。
另外,获取当前帧的后验信噪比,具体包括:获取当前帧的带噪幅度谱、上一帧的噪声幅度谱和上一帧噪声估计的波动值;根据当前帧的带噪幅度谱、上一帧的噪声幅度谱和上一帧噪声估计的波动值,以及预设的更新条件,判断是否将上一帧的噪声幅度谱作为当前帧的噪声幅度谱;若确定是,将上一帧的噪声幅度谱作为当前帧的噪声幅度谱;若确定不是,根据上一帧的噪声幅度谱和当前帧的带噪幅度谱,确定当前帧的噪声幅度谱;根据当前帧的带噪幅度谱和当前帧的噪声幅度谱,计算当前帧的后验信噪比。该实施例中,采用加权谱平均算法,对噪声实时追踪,及时更新噪声幅度谱,使得对噪声估计更为准确。
另外,预设的更新条件为:当前帧的带噪幅度谱与上一帧的噪声幅度谱差值的绝对值小于上一帧的噪声幅度谱的即时波动估计值和预设参数的乘积。
另外,根据上一帧的噪声幅度谱和当前帧的带噪幅度谱,确定当前帧的噪声幅度谱,具体包括:按照公式b,确定当前帧的噪声幅度谱;公式b:
Figure BDA0002233083400000026
Figure BDA0002233083400000027
其中,
Figure BDA0002233083400000028
表示第t帧第k个频点的噪声幅度,α表示噪声幅度平滑参数,
Figure BDA0002233083400000029
表示第t-1帧的第k个频点的噪声幅度,|Y(t,k)|表示第t帧第k个频点的带噪幅度。
另外,当前帧为输入语音中的一帧语音;在根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比之后,先验信噪比的计算方法还包括:根据当前帧的先验信噪比和当前帧的后验信噪比,以及先验信噪比、后验信噪比和语音存在概率的约束关系,计算当前帧的语音存在概率;根据当前帧的语音存在概率、当前帧的先验信噪比、当前帧的后验信噪比,以及预设的最小均方误差MMSE增益函数,计算当前帧的增益值;根据当前帧的增益值和当前帧的带噪幅度谱,确定当前帧增强后的语音幅度谱;根据当前帧增强后的语音幅度谱,确定输入语音增强后的语音。该实施例中,根据语音存在概率对语音进行增强,使得增强后的语音的质量更好,残留噪声更低。
另外,约束关系为:
Figure BDA0002233083400000031
Figure BDA0002233083400000032
表示第t帧第k个频点的语音存在概率,
Figure BDA0002233083400000033
ξk表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,q(t,k)表示第t帧第k个频点语音不存在的先验概率,计算公式为:q(t,k)=min[βqq(t-1,k)+(1-βq)bk,qmax];其中,βq为平滑参数,q(t-1,k)表示第t-1帧第k个频点语音不存在的先验概率,bk为二元判决,根据第t帧第k个频点的后验信噪比的大小动态确定bk的取值,qmax为预设的q(t,k)的最大取值。该实施例中,根据语音内容更新语音不存在的先验概率,有效降低了语音失真。
另外,MMSE增益函数为:
Figure BDA0002233083400000034
其中,G(ξkk)表示第k个频点的增益值,
Figure BDA0002233083400000035
ξk表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,
Figure BDA0002233083400000036
表示第t帧第k个频点的语音存在概率,I0()表示第0阶修正贝塞尔函数,I1()表示第1阶修正贝塞尔函数。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明的第一实施方式的先验信噪比的计算方法的流程图;
图2是根据本发明的第二实施方式的先验信噪比的计算方法的流程图;
图3是根据本发明的第二实施方式的单麦克风语音增强方法的示意图;
图4是根据本发明的第三实施方式的先验信噪比的计算装置的结构示意图;
图5是根据本发明的第四实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种先验信噪比的计算方法,应用于电子设备,例如,终端或服务器。如图1所示,先验信噪比的计算方法包括以下步骤:
步骤101:获取上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比。
具体地说,上一帧是指上一帧音频,当前帧是指电子设备当前正在处理的音频。上一帧的滤波器的系数是指在对上一帧音频处理过程中,计算得到的滤波器的系数。电子设备通过调取上一帧的处理结果,可以得到上一帧的滤波器的系数、上一帧降噪处理后的幅度谱和上一帧的噪声幅度谱。
需要说明的是,本领域技术人员可以理解,滤波器为维纳滤波器,也可以是其他滤波器,本实施方式不限制滤波器类型。
在一个实施例中,滤波器的系数计算公式如下:
Figure BDA0002233083400000041
Figure BDA0002233083400000042
其中,wsf(t,k)表示第t帧第k个频点的滤波器的系数,
Figure BDA0002233083400000043
表示第t帧第k个频点的先验信噪比,wsfmin表示滤波器的系数的最小取值。
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据对语音失真程度等方面的要求,设置滤波器的系数的最小取值,本实施方式不限制其具体取值。
值得一提的是,对滤波器的系数的仿真取值进行限制,可以避免由于仿真取值太小,处理后语音发生严重失真的情况。
在一个实施例中,电子设备获取当前帧的后验信噪比的过程如下:获取当前帧的带噪幅度谱、上一帧的噪声幅度谱和上一帧噪声估计的波动值;根据当前帧的带噪幅度谱、上一帧的噪声幅度谱和上一帧噪声估计的波动值,以及预设的更新条件,判断是否将上一帧的噪声幅度谱作为当前帧的噪声幅度谱;若确定是,将上一帧的噪声幅度谱作为当前帧的噪声幅度谱;若确定不是,根据上一帧的噪声幅度谱和当前帧的带噪幅度谱,确定当前帧的噪声幅度谱;根据当前帧的带噪幅度谱和当前帧的噪声幅度谱,计算当前帧的后验信噪比。其中,当前帧的带噪幅度谱是指带噪声的原始语音的幅度谱。
值得一提的是,采用加权谱平均算法,对噪声实时追踪,及时更新噪声幅度谱,使得对噪声估计更为准确。
在一个实施例中,电子设备按照公式c:
Figure BDA0002233083400000044
计算当前帧的后验信噪比。
其中,γ(t,k)表示第t帧第k个频点的后验信噪比,Y(t,k)表示第t帧第k个频点的带噪幅度,
Figure BDA0002233083400000051
表示第t帧的第k个频点的噪声幅度。
需要说明的是,本领域技术人员可以理解,本实施方式中,以根据及时更新的噪声幅度谱确定后验信噪比的方式,举例说明了后验信噪比的计算方式,实际应用中,也可以采用其他方式计算后验信噪比,例如,取语音信号的前几帧当作噪声帧,对这几帧信号幅度谱求平均作为估计的噪声幅度谱后,基于该噪声幅度谱计算每一帧后验信噪比,本实施方式不限制后验信噪比的计算方法。
在一个实施例中,预设的更新条件为:当前帧的带噪幅度谱与上一帧的噪声幅度谱差值的绝对值小于上一帧的噪声幅度谱的即时波动估计值和预设参数的乘积。即当满足以下条件时,重新计算当前帧的噪声幅度谱:
Figure BDA0002233083400000052
其中,Y(t,k)表示第t帧第k个频点的带噪幅度,
Figure BDA0002233083400000053
表示第t-1帧的第k个频点的噪声幅度,ε表示预设参数,vard(t-1,k)表示第t-1帧的第k个频点的即时波动估计值。
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据需要设置预设参数,例如,可以将预设参数设置为区间[1,3]之间的任意数值,例如,可以将预设参数设置为1.1,本实施方式不限制预设参数的取值。
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据依据其他准则设置更新条件,本实施方式不限制更新条件的具体内容。
在一个实施例中,第t帧的第k个频点的即时波动估计值的计算公式为:
Figure BDA0002233083400000059
Figure BDA0002233083400000058
其中,vard(t,k)表示第t帧的第k个频点的即时波动估计值,δ表示平滑参数,可以在区间[0,1]之间取值,例如,可以取值0.85,vard(t-1,k)表示第t-1帧的第k个频点的即时波动估计值,Y(t,k)表示第t帧第k个频点的带噪幅度,
Figure BDA0002233083400000054
表示第t帧的第k个频点的噪声幅度。
在一个实施例中,根据上一帧的噪声幅度谱和当前帧的带噪幅度谱,确定当前帧的噪声幅度谱的过程为:按照公式b,确定当前帧的噪声幅度谱。其中,公式b为:
Figure BDA0002233083400000055
其中,
Figure BDA0002233083400000056
表示第t帧第k个频点的噪声幅度,α表示噪声幅度平滑参数,
Figure BDA0002233083400000057
表示第t-1帧的第k个频点的噪声幅度,|Y(t,k)|表示第t帧第k个频点的带噪幅度。
在一个实施例中,噪声幅度平滑参数可以在区间(0,1)之间的任意数值,本实施方式不作限制。
步骤102:根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比。
具体地说,在语音增强算法中,往往需要使用先验信噪比对语音进行增强。通常情况下,在计算先验信噪比时,通过公式d:
Figure BDA0002233083400000061
计算先验信噪比。而本实施方式中,电子设备在计算先验信噪比时,使用滤波器的系数,对先验信噪比进行滤波处理,降低了语音增强后信号的失真。
在一个实施例中,电子设备根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比的过程为:电子设备按照公式a,计算当前帧的先验信噪比;
公式a:
Figure BDA0002233083400000062
其中,
Figure BDA0002233083400000063
表示第t帧第k个频点的先验信噪比,max()表示求最大值函数,a表示权重因子,
Figure BDA0002233083400000064
表示第t-1帧第k个频点降噪处理后的幅度,
Figure BDA0002233083400000065
表示第t-1帧第k个频点的噪声幅度,wsf(t-1,k)表示上一帧的滤波器的系数,γ(t,k)表示第t帧第k个频点的后验信噪比,ξmin表示先验信噪比的最小取值。
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据需要选择先验信噪比的最小取值,例如,可以在区间[-30dB,-5dB]之间取值。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
现有技术在小信噪比下,对先验信噪比的估值低,从而导致抑制过度,增强后信号失真较大。与现有技术相比,本实施方式中提供的先验信噪比的计算方法,使用上一帧计算得到的滤波器系数,对历史先验信噪比进行了滤波处理,解决了抑制过度的问题,降低了语音增强后信号的失真,进而提高了语音识别性能。
本发明的第二实施方式涉及一种先验信噪比的计算方法,本实施方式在第一实施方式的基础上做了进一步改进,具体改进之处为:在计算得到先验信噪比后,基于先验信噪比,对当前帧进行语音增强。
具体的说,如图2所示,在本实施方式中,包含步骤201至步骤206,其中,步骤201和步骤202分别与第一实施方式中的步骤101和步骤102大致相同,此处不再赘述。下面主要介绍不同之处:
执行步骤201和步骤202。
步骤203:根据当前帧的先验信噪比和当前帧的后验信噪比,以及先验信噪比、后验信噪比和语音存在概率的约束关系,计算当前帧的语音存在概率。
具体地说,当前帧的语音存在概率是指语音存在的后验概率。
在一个实施例中,约束关系为:
Figure BDA0002233083400000071
Figure BDA0002233083400000072
表示第t帧第k个频点的语音存在概率,
Figure BDA0002233083400000073
ξk表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,q(t,k)表示第t帧第k个频点语音不存在的先验概率。
以下对q(t,k)的确定方法进行举例说明。
在一个实施例中,q(t,k)为固定的经验值,可以在区间[0,1]之间取值,例如,可以取值为0.6,本实施方式不作限制。
在另一个实施例中,q(t,k)是动态变化的,其计算公式为:q(t,k)=min[βqq(t-1,k)+(1-βq)bk,qmax];其中,βq为平滑参数,q(t-1,k)表示第t-1帧第k个频点语音不存在的先验概率,bk为二元判决,根据第t帧第k个频点的后验信噪比的大小确定bk的取值,qmax为预设的q(t,k)的最大取值。
在一个实施例中,根据如下规则做出语音存在与否的二元判决bk
Figure BDA0002233083400000074
上式中,M表示频点的分割值,即第1个频点至第M个频点的后验信噪比的门限和第M个频点以后的频点的后验信噪比的门限不同,γ(t,k)为第t帧第k个频点的后验信噪比,γ1为前M个频点后验信噪比的门限,γ2为第M个频点之后的频点的后验信噪比的门限,bk=0表示语音存在,bk=1表示语音不存在。其中,M、γ1和γ2的取值可以根据需要确定,例如,M=40,γ1=6,γ2=0.8。
值得一提的是,由于语音在低频和高频能量差距很大,对于不同频点使用不同的后验信噪比门限,可以提升估计的准确度。
需要说明的是,βq的取值和qmax的取值可以根据需要设置,例如,βq可以设置为0.97,qmax可以设置为0.95,此处不做限制。
值得一提的是,动态估计q(t,k),能有效降低语音失真。
步骤204:根据当前帧的语音存在概率、当前帧的先验信噪比、当前帧的后验信噪比,以及预设的最小均方误差MMSE增益函数,计算当前帧的增益值。
具体地说,在进行语音增强时,需要使用MMSE增益函数对语音进行增强处理。
在一个实施例中,MMSE增益函数为:
Figure BDA0002233083400000081
Figure BDA0002233083400000082
其中,G(ξkk)表示第k个频点的增益值,
Figure BDA0002233083400000083
ξk表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,
Figure BDA0002233083400000084
表示第t帧第k个频点的语音存在概率,I0()表示第0阶修正贝塞尔函数,I1()表示第1阶修正贝塞尔函数。
步骤205:根据当前帧的增益值和当前帧的带噪幅度谱,确定当前帧增强后的语音幅度谱。
具体地说,电子设备可以根据公式:
Figure BDA0002233083400000085
计算各频点增强后的语音幅度;其中,
Figure BDA0002233083400000086
表示第t帧第k个频点增强后的语音幅度,G(ξkk)表示第k个频点的增益值,|Y(t,k)|表示第t帧第k个频点的带噪幅度谱。基于当前帧的各频点增强后的语音幅度,确定当前帧增强后的语音幅度。
步骤206:根据当前帧增强后的语音幅度谱,确定输入语音增强后的语音。
具体地说,电子设备获取输入语音的相位谱,将输入语音的相位谱作为输入语音增强后的相位谱,与增强后的语音幅度谱相乘,得到增强信号的完整频谱,并对其进行快速傅立叶逆变换(Inverse Fast Fourier Transform,IFFT)运算,得到增强后的时域信号。电子设备将IFFT得到的增强后的时域信号进行重叠相加,得到增强后的语音。
以下结合远场语音识别的单麦克风语音增强方案,举例说明本实施方式的先验信噪比计算方法在语音增强领域的应用过程。
目前,传统的单麦克风语音增强的方案虽然能降低噪声,但带来的语音失真也很严重,反而会造成语音识别性能的下降。本实施方式中的单麦克风语音增强方法如图3所示。包括以下步骤:
步骤301:分帧加窗。
具体地说,电子设备对输入语音(含噪声)进行分帧、加窗,将输入语音分解为以帧为单位的语音信号。在分帧加窗阶段,对输入语音进行分帧、加窗,得到一帧信号。窗函数可以采用海明窗。窗长度由采样频率决定,以使每帧信号的持续时间在16毫秒左右。分帧时,帧移长度为帧长的一半。
步骤302:快速傅立叶变换(Fast Fourier Transform,FFT)。
具体地说,对每一帧含噪语音进行FFT运算,得到每帧含噪语音的幅度谱和相位谱。其中,FFT变换的采样点点数与加窗阶段的采样点点数保持一致,例如,都为256个采样点。对于输入语音,同时保留幅度谱和相位谱,幅度谱用于噪声估计和MMSE语音增强,相位谱用于在后端恢复时域信号。
步骤303:噪声估计。
具体地说,使用加权谱平均方法来估计每帧语音的噪声幅度谱。在处理每一帧语音的过程中,电子设备将当前帧的带噪幅度谱减去上一帧估计的噪声幅度谱,求绝对值,再与上一帧的噪声幅度谱的即时波动估计值和预设参数的乘积进行比较,绝对值低于乘积时更新噪声幅度谱,否则保持估计噪声幅度谱不变。
在一个例子中,噪声估计算法如下:
Figure BDA0002233083400000091
步骤304:后验信噪比计算。
具体地说,电子设备将每帧语音的带噪功率谱除以估计的噪声功率谱,得到每帧的后验信噪比。其中,带噪功率谱等于带噪幅度谱的平方,噪声功率谱等于噪声幅度谱的平方。后验信噪比的计算公式为:
Figure BDA0002233083400000092
步骤305:先验信噪比计算。
具体地说,电子设备使用结合了滤波器的系数的直接判决法计算每帧语音的先验信噪比。其中,先验信噪比计算公式如下:
Figure BDA0002233083400000093
当前帧的滤波器系数计算公式如下:
Figure BDA0002233083400000094
步骤306:语音存在概率计算。
具体地说,电子设备利用先验信噪比和后验信噪比计算当前帧语音存在概率,计算公式为:
Figure BDA0002233083400000101
步骤307:MMSE语音增强处理。
具体地说,使用MMSE估计器,结合语音存在概率,求得语音幅度谱的MMSE增益函数,然后得到增强后的语音幅度谱。由前面计算得到的后验信噪比和先验信噪比,再联合语音存在概率,得到结合了语音存在概率的MMSE增益函数式为:
Figure BDA0002233083400000102
然后利用增益函数求得增强后的语音幅度谱,计算公式为:
Figure BDA0002233083400000103
步骤308:IFFT变换。
具体地说,将输入语音的相位谱作为增强后语音的相位谱,与增强后的语音幅度谱
Figure BDA0002233083400000104
相乘,得到增强信号的完整频谱,并对其进行IFFT运算,得到增强后的时域信号。
步骤309:重叠相加。
具体地说,对IFFT得到的增强后的时域信号进行重叠相加,得到增强后的语音。
值得一提的是,通过本实施方式提及的单麦克风语音增强方法,采用单麦克风,体积小,计算量小,硬件成本低,可应用产品范围广。在使用语音识别应用进行实验过程中,采用该方法对信噪比10dB的400条带噪语料进行识别,CER(字错率)从处理前的18.26%下降到处理后的6.22%,可见本方案对语音识别性能提升明显。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的先验信噪比的计算方法,使用上一帧计算得到的滤波器系数,对先验信噪比进行了滤波处理,降低了语音增强后信号的失真,进而提高了语音识别性能。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种先验信噪比的计算装置,如图4所示,包括:获取模块401和计算模块402。获取模块401用于获取上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比;计算模块402用于根据上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比,计算当前帧的先验信噪比。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种电子设备,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行如上述实施方式提及的先验信噪比的计算方法。
该电子设备包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述先验信噪比的计算方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的先验信噪比的计算方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种先验信噪比的计算方法,其特征在于,包括:
获取上一帧的滤波器的系数、上一帧降噪处理后的幅度谱、上一帧的噪声幅度谱和当前帧的后验信噪比;
根据所述上一帧的滤波器的系数、所述上一帧降噪处理后的幅度谱、所述上一帧的噪声幅度谱和所述当前帧的后验信噪比,计算当前帧的先验信噪比;
所述上一帧的滤波器的系数
Figure 469594DEST_PATH_IMAGE001
可以根据如下公式确定:
Figure 395962DEST_PATH_IMAGE002
其中,
Figure 741493DEST_PATH_IMAGE003
表示第t帧第k个频点的滤波器的系数,
Figure 95114DEST_PATH_IMAGE004
表示第t帧第k个频点的先验信噪比,
Figure 893305DEST_PATH_IMAGE005
表示滤波器的系数的最小取值;
所述根据所述上一帧的滤波器的系数、所述上一帧降噪处理后的幅度谱、所述上一帧的噪声幅度谱和所述当前帧的后验信噪比,计算当前帧的先验信噪比,具体包括:
按照公式a,计算所述当前帧的先验信噪比;
公式a:
Figure 888943DEST_PATH_IMAGE006
其中,
Figure 88980DEST_PATH_IMAGE007
表示第t帧第k个频点的先验信噪比,max()表示求最大值函数,
Figure 613503DEST_PATH_IMAGE008
表示权重因子,
Figure 102253DEST_PATH_IMAGE009
表示第t-1帧第k个频点降噪处理后的幅度,
Figure 370423DEST_PATH_IMAGE010
表示第t-1帧第k个频点的噪声幅度,
Figure 424967DEST_PATH_IMAGE011
表示上一帧的滤波器的系数,
Figure 385970DEST_PATH_IMAGE012
表示第t帧第k个频点的后验信噪比,
Figure 424333DEST_PATH_IMAGE013
表示先验信噪比的最小取值。
2.根据权利要求1所述的先验信噪比的计算方法,其特征在于,获取所述当前帧的后验信噪比,具体包括:
获取当前帧的带噪幅度谱、所述上一帧的噪声幅度谱和上一帧噪声估计的波动值;
根据所述当前帧的带噪幅度谱、所述上一帧的噪声幅度谱和所述上一帧噪声估计的波动值,以及预设的更新条件,判断是否将所述上一帧的噪声幅度谱作为当前帧的噪声幅度谱;
若确定是,将所述上一帧的噪声幅度谱作为所述当前帧的噪声幅度谱;
若确定不是,根据所述上一帧的噪声幅度谱和所述当前帧的带噪幅度谱,确定当前帧的噪声幅度谱;
根据所述当前帧的带噪幅度谱和所述当前帧的噪声幅度谱,计算所述当前帧的后验信噪比。
3.根据权利要求2所述的先验信噪比的计算方法,其特征在于,预设的更新条件为:当前帧的带噪幅度谱与上一帧的噪声幅度谱差值的绝对值小于上一帧的噪声幅度谱的即时波动估计值和预设参数的乘积。
4.根据权利要求2所述的先验信噪比的计算方法,其特征在于,所述根据所述上一帧的噪声幅度谱和所述当前帧的带噪幅度谱,确定当前帧的噪声幅度谱,具体包括:
按照公式b,确定所述当前帧的噪声幅度谱;
Figure 230615DEST_PATH_IMAGE014
其中,
Figure 405244DEST_PATH_IMAGE015
表示第t帧第k个频点的噪声幅度,
Figure 271569DEST_PATH_IMAGE016
表示噪声幅度平滑参数,
Figure 734911DEST_PATH_IMAGE017
表示第t-1帧的第k个频点的噪声幅度,
Figure 344884DEST_PATH_IMAGE018
表示第t帧第k个频点的带噪幅度。
5.根据权利要求2至4中任一项所述的先验信噪比的计算方法,其特征在于,所述当前帧为输入语音中的一帧语音;
在所述根据所述上一帧的滤波器的系数、所述上一帧降噪处理后的幅度谱、所述上一帧的噪声幅度谱和所述当前帧的后验信噪比,计算当前帧的先验信噪比之后,所述先验信噪比的计算方法还包括:
根据所述当前帧的先验信噪比和所述当前帧的后验信噪比,以及先验信噪比、后验信噪比和语音存在概率的约束关系,计算当前帧的语音存在概率;
根据所述当前帧的语音存在概率、所述当前帧的先验信噪比、所述当前帧的后验信噪比,以及预设的最小均方误差MMSE增益函数,计算当前帧的增益值;
根据所述当前帧的增益值和所述当前帧的带噪幅度谱,确定所述当前帧增强后的语音幅度谱;
根据所述当前帧增强后的语音幅度谱,确定所述输入语音增强后的语音。
6.根据权利要求5所述的先验信噪比的计算方法,其特征在于,所述约束关系为:
Figure 374020DEST_PATH_IMAGE019
表示第t帧第k个频点的语音存在概率,
Figure 676825DEST_PATH_IMAGE020
表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,q(t,k)表示第t帧第k个频点语音不存在的先验概率,计算公式为:
Figure 158622DEST_PATH_IMAGE021
其中,βq为平滑参数,q(t-1,k)表示第t-1帧第k个频点语音不存在的先验概率,bk为二元判决,根据第t帧第k个频点的后验信噪比的大小动态确定bk的取值,qmax为预设的q(t,k)的最大取值。
7.根据权利要求5所述的先验信噪比的计算方法,其特征在于,所述MMSE
增益函数为:
Figure 10000132580461
Figure 10000132612944
其中,G(ξk,γk)表示第k个频点的增益值,
Figure 589864DEST_PATH_IMAGE022
Figure 739086DEST_PATH_IMAGE023
表示第k个频点的先验信噪比,γk表示第k个频点的后验信噪比,
Figure 212793DEST_PATH_IMAGE024
表示第t帧第k个频点的语音存在概率,I0()表示第0阶修正贝塞尔函数,I1()表示第一阶修正贝塞尔函数。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一所述的先验信噪比的计算方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的先验信噪比的计算方法。
CN201910974221.1A 2019-10-14 2019-10-14 一种先验信噪比的计算方法、电子设备及存储介质 Active CN110634500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910974221.1A CN110634500B (zh) 2019-10-14 2019-10-14 一种先验信噪比的计算方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910974221.1A CN110634500B (zh) 2019-10-14 2019-10-14 一种先验信噪比的计算方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110634500A CN110634500A (zh) 2019-12-31
CN110634500B true CN110634500B (zh) 2022-05-31

Family

ID=68976413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910974221.1A Active CN110634500B (zh) 2019-10-14 2019-10-14 一种先验信噪比的计算方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110634500B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111554315B (zh) * 2020-05-29 2022-07-15 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN112533120B (zh) * 2020-11-23 2022-04-22 北京声加科技有限公司 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置
CN112863544A (zh) * 2021-01-11 2021-05-28 新疆品宣生物科技有限责任公司 基于声波分析的预警设备及预警方法
CN113838474B (zh) * 2021-11-25 2022-02-18 全时云商务服务股份有限公司 通信系统啸叫抑制方法和装置
CN117995215B (zh) * 2024-04-03 2024-06-18 深圳爱图仕创新科技股份有限公司 语音信号的处理方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012519A (en) * 1987-12-25 1991-04-30 The Dsp Group, Inc. Noise reduction system
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101901602A (zh) * 2010-07-09 2010-12-01 中国科学院声学研究所 一种利用受损听力的听阈进行降噪的方法
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN103632676A (zh) * 2013-11-12 2014-03-12 广州海格通信集团股份有限公司 一种低信噪比语音降噪方法
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012519A (en) * 1987-12-25 1991-04-30 The Dsp Group, Inc. Noise reduction system
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN101901602A (zh) * 2010-07-09 2010-12-01 中国科学院声学研究所 一种利用受损听力的听阈进行降噪的方法
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN103632676A (zh) * 2013-11-12 2014-03-12 广州海格通信集团股份有限公司 一种低信噪比语音降噪方法
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
低信噪比场景下语音增强算法的研究;王红;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20170815;第21-28页 *

Also Published As

Publication number Publication date
CN110634500A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN110634500B (zh) 一种先验信噪比的计算方法、电子设备及存储介质
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN108735213B (zh) 一种基于相位补偿的语音增强方法及系统
EP1794749B1 (en) Method of cascading noise reduction algorithms to avoid speech distortion
JPH08221093A (ja) 音声信号の雑音低減方法
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
JPH08221094A (ja) 音声信号の雑音低減方法及び装置
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
CN112602150B (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN110808059A (zh) 一种基于谱减法和小波变换的语音降噪方法
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
CN107731242B (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
Nuha et al. Noise reduction and speech enhancement using wiener filter
CN112151060A (zh) 单通道语音增强方法及装置、存储介质、终端
CN106340302A (zh) 一种语音数据的去混响方法及装置
CN104867498A (zh) 一种移动通讯终端及其语音增强方法和模块
CN117335772A (zh) 一种天文瞬时干扰抑制方法
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法
CN110444222B (zh) 一种基于信息熵加权的话音降噪方法
CN113838475B (zh) 一种基于对数mmse估计器的语音信号增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 610094 West Section of Fucheng Avenue, Chengdu High-tech District, Sichuan Province

Applicant before: CLOUDMINDS (CHENGDU) TECHNOLOGIES Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Applicant after: Dayu robot Co.,Ltd.

Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant before: Dalu Robot Co.,Ltd.

GR01 Patent grant
GR01 Patent grant