CN113409812B - 一种语音降噪训练数据的处理方法及其装置、训练方法 - Google Patents

一种语音降噪训练数据的处理方法及其装置、训练方法 Download PDF

Info

Publication number
CN113409812B
CN113409812B CN202110707510.2A CN202110707510A CN113409812B CN 113409812 B CN113409812 B CN 113409812B CN 202110707510 A CN202110707510 A CN 202110707510A CN 113409812 B CN113409812 B CN 113409812B
Authority
CN
China
Prior art keywords
frame
training data
noise reduction
voice
reduction training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110707510.2A
Other languages
English (en)
Other versions
CN113409812A (zh
Inventor
胡伯承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN202110707510.2A priority Critical patent/CN113409812B/zh
Publication of CN113409812A publication Critical patent/CN113409812A/zh
Application granted granted Critical
Publication of CN113409812B publication Critical patent/CN113409812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明提供了一种语音降噪训练数据的处理方法及其装置、训练方法,该处理方法包括:接收待处理的语音降噪训练数据;将语音降噪训练数据进行分帧;计算每帧语音降噪训练数据单元的第一均方根值;计算多帧语音降噪训练数据单元中的最大均方根值;根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则该帧语音降噪训练数据单元为噪音帧;否则,该帧语音降噪训练数据单元为语音帧。以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简化语音激活检测的算法,提高运算效率。

Description

一种语音降噪训练数据的处理方法及其装置、训练方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音降噪训练数据的处理方法及其装置、训练方法。
背景技术
当前,采用深度神经网络(Deep Neural Network,简称DNN)技术,在语音降噪方面已经取得了很大的成功,尤其对非平稳和类平稳噪声的抑制效果,明显优于传统方法。深度神经网络的训练过程需要大量非常干净的语音数据。但由于录音条件的限制,很多语音数据的底噪较大,且其中不可避免的包含呼吸声,这些干扰因素会直接影响深度神经训练的质量,导致深度网络训练的效果变差。
现有技术在消除噪声过程中,通常使用最小值跟踪或者最小值控制的递归平均(Minimum Controlled Regressive Averaging,简称MCRA)等算法进行语音激活检测,然后使用谱减法、维纳滤波等算法进行噪声估计并消除噪声。采用该方式,在对语音帧进行降噪时会不可避免的出现语音损伤,虽然人耳对这种损伤往往并不敏感,但使用这种损伤后的语音训练数据进行降噪训练后最终得到的深度神经网络模型会出现较大的语音损伤,导致效果不佳。且传统的降噪算法需要考虑各种复杂的带噪场景,因此运算量较大,尤其是面对大批量的语音训练数据时(100小时以上),往往需要很长的处理时间(1小时以上),导致效率不高。
发明内容
本发明提供了一种语音降噪训练数据的处理方法及其装置、训练方法,以简化语音激活检测的算法,提高运算效率。
第一方面,本发明提供了一种语音降噪训练数据的处理方法,其中,该语音降噪训练数据用于训练深度神经网络模型。该处理方法包括:接收待处理的语音降噪训练数据;将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则识别该帧语音降噪训练数据单元为噪音帧;如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。
在上述的方案中,通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。
在一个具体的实施方式中,计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为:采用如下公式计算每帧语音降噪训练数据单元的第一均方根值:
Figure GDA0003803186230000021
其中,i表示帧索引;
n表示每帧语音降噪训练数据单元中的时域采样点个数;
j表示每帧语音降噪训练数据单元中的各时域采样点索引;
x表示每个时域采样点的分贝值;
RMSi表示第i帧语音降噪训练数据单元的第一均方根值。通过采集每帧语音降噪训练数据单元的多个时域采用点信息,并进行计算,以便于获取到每帧语音降噪训练数据单元的第一均方根值。
在一个具体的实施方式中,根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值具体为:根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值采用如下公式进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值:
Figure GDA0003803186230000022
其中,RMSmax表示最大均方根值;
RMSref表示归一化参考值;
RMS′j表示每帧语音降噪训练数据单元的第二均方根值。以便于获取到每帧语音降噪训练数据单元的第二均方根值。
在一个具体的实施方式中,在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前,该处理方法还包括:从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧;计算设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差;按照如下公式计算噪音阈值:
Figure GDA0003803186230000023
其中,RMSthreshold表示噪音阈值;
Figure GDA0003803186230000024
表示设定个数的语音降噪训练数据单元的第一均方根值的均值;
RMSσ表示设定个数的语音降噪训练数据单元的第一均方根值的标准差;
b表示调整系数,b=2~4。以便于确定噪音阈值的大小。
在一个具体的实施方式中,该处理方法还包括:
对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;
对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
Figure GDA0003803186230000031
其中,gi表示每个噪音帧的增益;
RMStargt表示目标信号的均方根值;
gmin表示容许的最小增益值;
根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线。通过在语音激活检测的基础上,将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益,并让噪音帧乘以该增益,而对语音帧则不做任何处理,来降低噪音帧的分贝值,从而使调整后的语音降噪训练数据能够抑制噪音,进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型,既能够消除噪声,又能够防止出现较大的语音损伤。
在一个具体的实施方式中,根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线包括:
对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到该至少两个噪音帧中的每个噪音帧的修正后增益;
根据该至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益;
根据该至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到该至少两个噪音帧中的每个时域采样点的修正后分贝值;
根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除该至少两个噪音帧之外的其他噪音帧的增益,调整语音降噪训练数据的包络线。通过仅对和语音帧交界附近的噪音帧进行增益平滑处理,不改变语音帧增益,不仅能够防止帧与帧之间增益的突变导致增强后的噪声电平忽大忽小,而且还能够防止噪音帧增益突然降低后与前一语音帧交界处的相位不连续而出现杂音。
在一个具体的实施方式中,对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到至少两个噪音帧中的每个噪音帧的修正后增益具体为:对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益,采用如下公式做平滑处理:
g′i=max(min(gi,gi-1*α),gi-1*β)
其中,g′i为做平滑处理后,得到的至少两个噪音帧中的每个噪音帧的修正后增益;
α和β均为增益平滑因子,且α>1,β<1。以便于对每个噪音帧进行平滑处理,防止帧与帧之间增益的突变导致增强后的语音电平忽大忽小。
在一个具体的实施方式中,根据至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益具体为:根据至少两个噪音帧中的每个噪音帧的修正后增益,采用如下公式对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理:
Figure GDA0003803186230000032
其中,gi,j为做平滑处理后,得到的帧索引为i,时域采样点索引为j的时域采样点索引值,且帧索引为i的语音降噪训练数据单元为该至少两个噪音帧中的其中一个噪音帧。以便于对各时域采样点的增益做线性平滑处理。
第二方面,本发明还提供了一种语言降噪训练数据的处理装置,其中,该语音降噪训练数据用于训练深度神经网络模型。该处理装置包括接收单元、分帧单元、第一均方根值计算单元、最大均方根值计算单元、归一化处理单元及判断单元。其中,接收单元用于接收待处理的语音降噪训练数据。分帧单元用于将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元。第一均方根值计算单元用于计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。最大均方根值计算单元用于计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。归一化处理单元用于根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值。判断单元用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值时,识别该帧语音降噪训练数据单元为噪音帧;在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值时,识别该帧语音降噪训练数据单元为语音帧。
在上述的方案中,通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。
在一个具体的实施方式中,该处理装置还包括增益计算单元、以及调整单元。该增益计算单元用于对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;还用于对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
Figure GDA0003803186230000041
其中,gi表示每个噪音帧的增益;
RMStarget表示目标信号的均方根值;
gmin表示容许的最小增益值;
该调整单元用于根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线。
在一个具体的实施方式中,该调整单元用于对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到至少两个噪音帧中的每个噪音帧的修正后增益。该调整单元还用于根据至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益。该调整单元还用于根据至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到至少两个噪音帧中的每个时域采样点的修正后分贝值。该调整单元还用于根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除至少两个噪音帧之外的其他噪音帧的增益,调整语音降噪训练数据的包络线。
第三方面,本发明还提供了一种深度神经网络模型的训练方法,该训练方法包括:建立深度神经网络模型;接收语音降噪训练数据;将语音降噪训练数据采用上述任一种处理方法进行处理;使用处理后的语音降噪训练数据训练深度神经网络模型。
附图说明
图1为本发明实施例提供的一种语音降噪训练数据的处理方法的流程图;
图2为本发明实施例提供的另一种语音降噪训练数据的处理方法的流程图;
图3为本发明实施例提供的一种对噪音帧进行平滑处理的流程图;
图4为采用本发明实施例提供的处理方法处理后的语音降噪训练数据和原始语音降噪训练数据的效果对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解本发明实施例提供的语音降噪训练数据的处理方法,下面首先说明一下本发明实施例提供的语音降噪训练数据的处理方法的应用场景,该语音降噪训练数据的处理方法应用于采用深度神经网络进行语音降噪过程中,来对语音降噪训练数据进行处理,其中,该语音降噪训练数据用于训练深度神经网络模型。下面结合附图对该语音降噪训练数据的处理方法进行详细的叙述。
参考图1,本发明实施例提供的语音降噪训练数据的处理方法包括:
S10:接收待处理的语音降噪训练数据;
S20:将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;
S30:计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;
S40:计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;
S50:根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;
S60:依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;
S61:如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则识别该帧语音降噪训练数据单元为噪音帧;
S62:如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。
在上述的方案中,通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。下面结合附图对上述各个步骤进行详细的介绍。
首先,如图1所示,接收待处理的语音降噪训练数据,该语音降噪训练数据为原始的语音降噪训练数据,其包络线可以为如图4的上半张示意图,为处理前的语音降噪训练数据的包络线示意图。
接下来,参考图1及图2,将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元。具体分帧时,可以使每帧的时长为5ms、10ms、15ms、20ms等时长大小。
接下来,如图1及图2所示,计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。具体计算时,可以采用如下公式计算每帧语音降噪训练数据单元的第一均方根值:
Figure GDA0003803186230000061
其中,i表示帧索引;
n表示每帧语音降噪训练数据单元中的时域采样点个数;
j表示每帧语音降噪训练数据单元中的各时域采样点索引;
x表示每个时域采样点的分贝值;
RMSi表示第i帧语音降噪训练数据单元的第一均方根值。通过采集每帧语音降噪训练数据单元的多个时域采用点信息,并进行计算,以便于获取到每帧语音降噪训练数据单元的第一均方根值。
接下来,如图1及图2所示,计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。具体的,可以采用如下公式计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值:
RMSmax=max(RMS1,RMS2...RMSm)
其中,RMSmax表示上述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;m表示该待处理的语音降噪训练数据分帧后的总帧数。
接下来,如图1及图2所示,根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值。具体进行归一化处理时,可以根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值,采用如下公式进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值:
Figure GDA0003803186230000062
其中,RMSmax表示最大均方根值;
RMSref表示归一化参考值,加入归一化参考值能够使使归一化处理后的第二均方根值的单位与归一化处理前的第一均方根值的单位保持一致;
RMS′i表示每帧语音降噪训练数据单元的第二均方根值。以便于获取到每帧语音降噪训练数据单元的第二均方根值。
接下来,如图1及图2所示,依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值。根据每帧语音降噪训练数据单元的第二均方根值和噪音阈值的关系,能够得出不同的判断结果。如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值,则识别该帧语音降噪训练数据单元为噪音帧;如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。
另外,在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前,可以采用如下方式确定噪音阈值的大小:首先,从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧,该方式可以通过人工手动的方式进行,像图4上半张图中示出的包络线的振幅非常小,呈锯齿状杂乱的一段语音降噪训练数据中所包含的每帧语音降噪训练数据就是噪音帧,可以预先抽取设定格式的噪音帧,该设定个数具体可以为50个、100个、150个、200个等数值。之后,计算设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差。再后来,按照如下公式计算噪音阈值:
Figure GDA0003803186230000071
其中,RMSthreshold表示噪音阈值;
Figure GDA0003803186230000072
表示设定个数的语音降噪训练数据单元的第一均方根值的均值;
RMSσ表示设定个数的语音降噪训练数据单元的第一均方根值的标准差;
b表示调整系数,b=2~4,具体的,b可以为2.0、2.5、3.0、3.5、4.0等值。采用上述方式确定的噪音阈值可以为45.8分贝等。以便于确定噪音阈值的大小。
如图2所示,该处理方法还包括对语音帧和噪音帧进行分别处理的步骤。例如,可以对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1。对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
Figure GDA0003803186230000073
其中,gi表示每个噪音帧的增益;
RMStarget表示目标信号的均方根值,该目标信号的均方根值可以自由设置的,例如可以设置目标信号的均方根值为1,其单位与之前的计算的RMS一致。该目标信号的均方根值越小对噪声的抑制能力越强。
gmin表示容许的最小增益值,通过加入最小增益值,能够使语音降噪训练数据被处理后,仍然保留微弱的舒适噪声,以免使序列听起来太失真,该最小增益值是自由设置的,例如可以设置为0.1。
另外,在确定噪音帧和语音帧的增益之后,可以根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线。通过在语音激活检测的基础上,将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益,并让噪音帧乘以该增益,而对语音帧则不做任何处理,来降低噪音帧的分贝值,从而使调整后的语音降噪训练数据能够抑制噪音,进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型,既能够消除噪声,又能够防止出现较大的语音损伤。
在根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线时,参考图3,可以采用如下方式进行:
首先,对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到该至少两个噪音帧中的每个噪音帧的修正后增益;
其次,根据该至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益;
然后,根据该至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到该至少两个噪音帧中的每个时域采样点的修正后分贝值;
最后,根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除该至少两个噪音帧之外的其他噪音帧的增益,调整语音降噪训练数据的包络线。通过仅对和语音帧交界附近的噪音帧进行增益平滑处理,不改变语音帧增益,不仅能够防止帧与帧之间增益的突变导致增强后的噪声电平忽大忽小,而且还能够防止噪音帧增益突然降低后与前一语音帧交界处的相位不连续而出现杂音。
其中,在对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到至少两个噪音帧中的每个噪音帧的修正后增益时,可以对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益,采用如下公式做平滑处理:
g′i=max(min(gi,gi-1*α),gi-1*β)
其中,g′i为做平滑处理后,得到的至少两个噪音帧中的每个噪音帧的修正后增益;
α和β均为增益平滑因子,且α>1,β<1。以便于对每个噪音帧进行平滑处理,防止帧与帧之间增益的突变导致增强后的语音电平忽大忽小。
在根据至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益时,可以根据至少两个噪音帧中的每个噪音帧的修正后增益,采用如下公式对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理:
Figure GDA0003803186230000081
其中,gi,j为做平滑处理后,得到的帧索引为i,时域采样点索引为j的时域采样点索引值,且帧索引为i的语音降噪训练数据单元为该至少两个噪音帧中的其中一个噪音帧。以便于对各时域采样点的增益做线性平滑处理。
在根据该至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到该至少两个噪音帧中的每个时域采样点的修正后分贝值时,可以根据该至少两个噪音帧中的每个时域采样点的时域采样点增益,采用如下公式计算该至少两个噪音帧中的每个时域采样点的修正后分贝值:
x′i,j=xi,j*gi,j
其中的xi,j为帧索引为i,时域采样点索引为j的时域采样点的原始分贝值,x′i,j为帧索引为i,时域采样点索引为j的时域采样点的修正后分贝值,即修改后的分贝值最为原始时域采样点的分贝值乘以该点的增益。
如图4为处理前的语音降噪训练数据的包络线和处理后的语音降噪训练数据的包络线的效果对比图,其中图4的上半张示意图为处理前的语音降噪训练数据的包络线,下半张示意图为处理后的语音降噪训练数据的包络线,图4中的每个矩形框所框住的是处理前和处理后的同一段噪音帧的包络线变化比对。可以看出,原始未被处理的语音降噪训练数据中具有较大的底噪和呼吸声,在处理后,底噪和呼吸声所对应的噪音帧得到有效的抑制(抑制程度在20分贝以上),且语音降噪训练数据中的语音帧部分没有一点损伤。从而能够后续采用处理后的语音降噪训练数据来训练深度神经网络模型,最终所得到的深度神经网络模型不仅能够消除噪声,还能够防止出现较大的语音损伤。
通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。
另外,本发明实施例还提供了一种语言降噪训练数据的处理装置,其中,该语音降噪训练数据用于训练深度神经网络模型。该处理装置包括接收单元、分帧单元、第一均方根值计算单元、最大均方根值计算单元、归一化处理单元及判断单元。其中,接收单元用于接收待处理的语音降噪训练数据。分帧单元用于将语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元。第一均方根值计算单元用于计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。最大均方根值计算单元用于计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。归一化处理单元用于根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值。判断单元用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值时,识别该帧语音降噪训练数据单元为噪音帧;在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值时,识别该帧语音降噪训练数据单元为语音帧。
在上述的方案中,通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值,之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值,再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值,从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比,本申请的方式以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。
另外,该处理装置还可以包括增益计算单元、以及调整单元。该增益计算单元用于对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;还用于对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
Figure GDA0003803186230000091
其中,gi表示每个噪音帧的增益;
RMStarget表示目标信号的均方根值;
gmin表示容许的最小增益值;
该调整单元用于根据每个语音帧和噪音帧的增益,调整语音降噪训练数据的包络线。
该调整单元具体调整语音降噪训练数据的包络线时,该调整单元用于对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到至少两个噪音帧中的每个噪音帧的修正后增益。该调整单元还用于根据至少两个噪音帧中的每个噪音帧的修正后增益,对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到至少两个噪音帧中的每个时域采样点的时域采样点增益。该调整单元还用于根据至少两个噪音帧中的每个时域采样点的时域采样点增益,计算至少两个噪音帧中的每个时域采样点的分贝值,得到至少两个噪音帧中的每个时域采样点的修正后分贝值。该调整单元还用于根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除至少两个噪音帧之外的其他噪音帧的增益,调整语音降噪训练数据的包络线。
应当理解的是,该处理装置中所包含的功能单元不仅仅限于上述示出的功能单元,还可以为其他能够执行前述语音降噪训练数据的处理方法中的每个步骤的其他的功能单元。需要额外说明的是,上述每个功能单元不仅包括存储能够实现对应的功能的软件程序的存储介质,还包括运行该软件程序的执行介质。其中的存储介质可以为诸如SRAM、MRAM、DRAM、ROM等的存储器,其中的执行介质可以为CPU、GPU等具有运行功能的处理器。
另外,本发明实施例还提供了一种深度神经网络模型的训练方法,该训练方法包括:建立深度神经网络模型;接收语音降噪训练数据;将语音降噪训练数据采用上述任一种处理方法进行处理;使用处理后的语音降噪训练数据训练深度神经网络模型。以每帧语音降噪训练数据的时域均方根值为依据,进行语音激活检测,简单实用,从而简化语音激活检测的算法,提高运算效率。且在语音激活检测的基础上,将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益,并让噪音帧乘以该增益,而对语音帧则不做任何处理,来降低噪音帧的分贝值,从而使调整后的语音降噪训练数据能够抑制噪音,进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型,既能够消除噪声,又能够防止出现较大的语音损伤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种语音降噪训练数据的处理方法,其中,所述语音降噪训练数据用于训练深度神经网络模型,其特征在于,所述处理方法包括:
接收待处理的语音降噪训练数据;
将所述语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;
计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;
计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;
根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;
依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;
如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值,则识别该帧语音降噪训练数据单元为噪音帧;
如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值,则识别该帧语音降噪训练数据单元为语音帧。
2.如权利要求1所述的处理方法,其特征在于,所述计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为:
采用如下公式计算每帧语音降噪训练数据单元的第一均方根值:
Figure FDA0003930265510000011
其中,i表示帧索引;
n表示每帧语音降噪训练数据单元中的时域采样点个数;
j表示每帧语音降噪训练数据单元中的各时域采样点索引;
x表示每个时域采样点的分贝值;
RMSi表示第i帧语音降噪训练数据单元的第一均方根值。
3.如权利要求2所述的处理方法,其特征在于,所述根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值具体为:
根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值采用如下公式进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值:
Figure FDA0003930265510000012
其中,RMSmax表示所述最大均方根值;
RMSref表示归一化参考值;
RMS′i表示每帧语音降噪训练数据单元的第二均方根值。
4.如权利要求1所述的处理方法,其特征在于,在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前,所述处理方法还包括:
从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧;
计算所述设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差;
按照如下公式计算所述噪音阈值:
Figure FDA0003930265510000021
其中,RMSthreshold表示所述噪音阈值;
Figure FDA0003930265510000022
表示所述设定个数的语音降噪训练数据单元的第一均方根值的均值;
RMSσ表示所述设定个数的语音降噪训练数据单元的第一均方根值的标准差;
b表示调整系数,b=2~4。
5.如权利要求2所述的处理方法,其调整在于,还包括:
对于被识别为语音帧的语音降噪训练数据单元,设置每个语音帧的增益恒为1;
对于被识别为噪音帧的语音降噪训练数据单元,采用如下公式计算每个噪音帧的增益:
Figure FDA0003930265510000023
其中,gi表示每个噪音帧的增益;
RMStdrget表示目标信号的均方根值;
gmin表示容许的最小增益值;
根据每个语音帧和噪音帧的增益,调整所述语音降噪训练数据的包络线。
6.如权利要求5所述的处理方法,其特征在于,所述根据每个语音帧和噪音帧的增益,调整所述语音降噪训练数据的包络线包括:
对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到所述至少两个噪音帧中的每个噪音帧的修正后增益;
根据所述至少两个噪音帧中的每个噪音帧的修正后增益,对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到所述至少两个噪音帧中的每个时域采样点的时域采样点增益;
根据所述至少两个噪音帧中的每个时域采样点的时域采样点增益,计算所述至少两个噪音帧中的每个时域采样点的分贝值,得到所述至少两个噪音帧中的每个时域采样点的修正后分贝值;
根据每个语音帧的增益、所述至少两个噪音帧中的每个时域采样点的修正后分贝值、以及所述噪音帧中除所述至少两个噪音帧之外的其他噪音帧的增益,调整所述语音降噪训练数据的包络线。
7.如权利要求6所述的处理方法,其调整在于,所述对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理,得到所述至少两个噪音帧中的每个噪音帧的修正后增益具体为:
对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益,采用如下公式做平滑处理:
g′i=max(min(gi,gi-1*α),gi-1*β)
其中,g′i为做平滑处理后,得到的所述至少两个噪音帧中的每个噪音帧的修正后增益;
α和β均为增益平滑因子,且α>1,β<1。
8.如权利要求7所述的处理方法,其特征在于,所述根据所述至少两个噪音帧中的每个噪音帧的修正后增益,对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理,得到所述至少两个噪音帧中的每个时域采样点的时域采样点增益具体为:
根据所述至少两个噪音帧中的每个噪音帧的修正后增益,采用如下公式对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理:
Figure FDA0003930265510000031
其中,gi,j为做平滑处理后,得到的帧索引为i,时域采样点索引为j的时域采样点索引值,且帧索引为i的语音降噪训练数据单元为所述至少两个噪音帧中的其中一个噪音帧。
9.一种语音降噪训练数据的处理装置,其中,所述语音降噪训练数据用于训练深度神经网络模型,其特征在于,所述处理装置包括:
接收单元,用于接收待处理的语音降噪训练数据;
分帧单元,用于将所述语音降噪训练数据进行分帧,获得多帧语音降噪训练数据单元;
第一均方根值计算单元,用于计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值;
最大均方根值计算单元,用于计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值;
归一化处理单元,用于根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理,得到每帧语音降噪训练数据单元的第二均方根值;
判断单元,用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值;还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值时,识别该帧语音降噪训练数据单元为噪音帧;在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值时,识别该帧语音降噪训练数据单元为语音帧。
10.一种深度神经网络模型的训练方法,其特征在于,包括:
建立深度神经网络模型;
接收语音降噪训练数据;
将所述语音降噪训练数据采用如权利要求1~8任一项所述的处理方法进行处理;
使用处理后的语音降噪训练数据训练所述深度神经网络模型。
CN202110707510.2A 2021-06-24 2021-06-24 一种语音降噪训练数据的处理方法及其装置、训练方法 Active CN113409812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707510.2A CN113409812B (zh) 2021-06-24 2021-06-24 一种语音降噪训练数据的处理方法及其装置、训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707510.2A CN113409812B (zh) 2021-06-24 2021-06-24 一种语音降噪训练数据的处理方法及其装置、训练方法

Publications (2)

Publication Number Publication Date
CN113409812A CN113409812A (zh) 2021-09-17
CN113409812B true CN113409812B (zh) 2022-12-27

Family

ID=77683168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707510.2A Active CN113409812B (zh) 2021-06-24 2021-06-24 一种语音降噪训练数据的处理方法及其装置、训练方法

Country Status (1)

Country Link
CN (1) CN113409812B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
CN110880329B (zh) * 2018-09-06 2022-11-04 腾讯科技(深圳)有限公司 一种音频识别方法及设备、存储介质
CN110706694B (zh) * 2019-09-26 2022-04-08 成都数之联科技股份有限公司 一种基于深度学习的语音端点检测方法及系统
CN111415674A (zh) * 2020-05-07 2020-07-14 北京声智科技有限公司 语音降噪方法及电子设备

Also Published As

Publication number Publication date
CN113409812A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
US6523003B1 (en) Spectrally interdependent gain adjustment techniques
CN112242147B (zh) 一种语音增益控制方法及计算机存储介质
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
CN104867497A (zh) 一种语音降噪方法
CN103544961A (zh) 语音信号处理方法及装置
EP1279163A1 (en) Speech presence measurement detection techniques
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
US9002030B2 (en) System and method for performing voice activity detection
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
CN113409812B (zh) 一种语音降噪训练数据的处理方法及其装置、训练方法
CN117351986A (zh) 一种噪声抑制方法及装置
CN111508512A (zh) 语音信号中的摩擦音检测
CN115602185A (zh) 语音降噪方法、装置、设备及计算机可读存储介质
CN112102818B (zh) 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN114360566A (zh) 一种语音信号的降噪处理方法、装置以及存储介质
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
CN113611319A (zh) 基于语音成分实现的风噪抑制方法、装置、设备及系统
US10600432B1 (en) Methods for voice enhancement
CN117995215B (zh) 语音信号的处理方法、装置、计算机设备及存储介质
Zehtabian et al. Optimized singular vector denoising approach for speech enhancement
CN117153192B (zh) 音频增强方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant