CN113409812B

CN113409812B - 一种语音降噪训练数据的处理方法及其装置、训练方法

Info

Publication number: CN113409812B
Application number: CN202110707510.2A
Authority: CN
Inventors: 胡伯承
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-12-27
Anticipated expiration: 2041-06-24
Also published as: CN113409812A

Abstract

本发明提供了一种语音降噪训练数据的处理方法及其装置、训练方法，该处理方法包括：接收待处理的语音降噪训练数据；将语音降噪训练数据进行分帧；计算每帧语音降噪训练数据单元的第一均方根值；计算多帧语音降噪训练数据单元中的最大均方根值；根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理；依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；如果该帧语音降噪训练数据单元的第二均方根值小于噪音阈值，则该帧语音降噪训练数据单元为噪音帧；否则，该帧语音降噪训练数据单元为语音帧。以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简化语音激活检测的算法，提高运算效率。

Description

一种语音降噪训练数据的处理方法及其装置、训练方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音降噪训练数据的处理方法及其装置、训练方法。

背景技术

当前，采用深度神经网络(Deep Neural Network，简称DNN)技术，在语音降噪方面已经取得了很大的成功，尤其对非平稳和类平稳噪声的抑制效果，明显优于传统方法。深度神经网络的训练过程需要大量非常干净的语音数据。但由于录音条件的限制，很多语音数据的底噪较大，且其中不可避免的包含呼吸声，这些干扰因素会直接影响深度神经训练的质量，导致深度网络训练的效果变差。

现有技术在消除噪声过程中，通常使用最小值跟踪或者最小值控制的递归平均(Minimum Controlled Regressive Averaging，简称MCRA)等算法进行语音激活检测，然后使用谱减法、维纳滤波等算法进行噪声估计并消除噪声。采用该方式，在对语音帧进行降噪时会不可避免的出现语音损伤，虽然人耳对这种损伤往往并不敏感，但使用这种损伤后的语音训练数据进行降噪训练后最终得到的深度神经网络模型会出现较大的语音损伤，导致效果不佳。且传统的降噪算法需要考虑各种复杂的带噪场景，因此运算量较大，尤其是面对大批量的语音训练数据时(100小时以上)，往往需要很长的处理时间(1小时以上)，导致效率不高。

发明内容

本发明提供了一种语音降噪训练数据的处理方法及其装置、训练方法，以简化语音激活检测的算法，提高运算效率。

第一方面，本发明提供了一种语音降噪训练数据的处理方法，其中，该语音降噪训练数据用于训练深度神经网络模型。该处理方法包括：接收待处理的语音降噪训练数据；将语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元；计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值；计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值；依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值，则识别该帧语音降噪训练数据单元为噪音帧；如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值，则识别该帧语音降噪训练数据单元为语音帧。

在上述的方案中，通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值，之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值，再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值，从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比，本申请的方式以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简单实用，从而简化语音激活检测的算法，提高运算效率。

在一个具体的实施方式中，计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为：采用如下公式计算每帧语音降噪训练数据单元的第一均方根值：

其中，i表示帧索引；

n表示每帧语音降噪训练数据单元中的时域采样点个数；

j表示每帧语音降噪训练数据单元中的各时域采样点索引；

x表示每个时域采样点的分贝值；

RMS_i表示第i帧语音降噪训练数据单元的第一均方根值。通过采集每帧语音降噪训练数据单元的多个时域采用点信息，并进行计算，以便于获取到每帧语音降噪训练数据单元的第一均方根值。

在一个具体的实施方式中，根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值具体为：根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值采用如下公式进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值：

其中，RMS_max表示最大均方根值；

RMS_ref表示归一化参考值；

RMS′_j表示每帧语音降噪训练数据单元的第二均方根值。以便于获取到每帧语音降噪训练数据单元的第二均方根值。

在一个具体的实施方式中，在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前，该处理方法还包括：从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧；计算设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差；按照如下公式计算噪音阈值：

其中，RMS_threshold表示噪音阈值；

表示设定个数的语音降噪训练数据单元的第一均方根值的均值；

RMS_σ表示设定个数的语音降噪训练数据单元的第一均方根值的标准差；

b表示调整系数，b＝2～4。以便于确定噪音阈值的大小。

在一个具体的实施方式中，该处理方法还包括：

对于被识别为语音帧的语音降噪训练数据单元，设置每个语音帧的增益恒为1；

对于被识别为噪音帧的语音降噪训练数据单元，采用如下公式计算每个噪音帧的增益：

其中，g_i表示每个噪音帧的增益；

RMS_targt表示目标信号的均方根值；

g_min表示容许的最小增益值；

根据每个语音帧和噪音帧的增益，调整语音降噪训练数据的包络线。通过在语音激活检测的基础上，将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益，并让噪音帧乘以该增益，而对语音帧则不做任何处理，来降低噪音帧的分贝值，从而使调整后的语音降噪训练数据能够抑制噪音，进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型，既能够消除噪声，又能够防止出现较大的语音损伤。

在一个具体的实施方式中，根据每个语音帧和噪音帧的增益，调整语音降噪训练数据的包络线包括：

对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到该至少两个噪音帧中的每个噪音帧的修正后增益；

根据该至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益；

根据该至少两个噪音帧中的每个时域采样点的时域采样点增益，计算至少两个噪音帧中的每个时域采样点的分贝值，得到该至少两个噪音帧中的每个时域采样点的修正后分贝值；

根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除该至少两个噪音帧之外的其他噪音帧的增益，调整语音降噪训练数据的包络线。通过仅对和语音帧交界附近的噪音帧进行增益平滑处理，不改变语音帧增益，不仅能够防止帧与帧之间增益的突变导致增强后的噪声电平忽大忽小，而且还能够防止噪音帧增益突然降低后与前一语音帧交界处的相位不连续而出现杂音。

在一个具体的实施方式中，对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到至少两个噪音帧中的每个噪音帧的修正后增益具体为：对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益，采用如下公式做平滑处理：

g′_i＝max(min(g_i，g_i-1*α)，g_i-1*β)

其中，g′_i为做平滑处理后，得到的至少两个噪音帧中的每个噪音帧的修正后增益；

α和β均为增益平滑因子，且α＞1，β＜1。以便于对每个噪音帧进行平滑处理，防止帧与帧之间增益的突变导致增强后的语音电平忽大忽小。

在一个具体的实施方式中，根据至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益具体为：根据至少两个噪音帧中的每个噪音帧的修正后增益，采用如下公式对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理：

其中，g_i，j为做平滑处理后，得到的帧索引为i，时域采样点索引为j的时域采样点索引值，且帧索引为i的语音降噪训练数据单元为该至少两个噪音帧中的其中一个噪音帧。以便于对各时域采样点的增益做线性平滑处理。

第二方面，本发明还提供了一种语言降噪训练数据的处理装置，其中，该语音降噪训练数据用于训练深度神经网络模型。该处理装置包括接收单元、分帧单元、第一均方根值计算单元、最大均方根值计算单元、归一化处理单元及判断单元。其中，接收单元用于接收待处理的语音降噪训练数据。分帧单元用于将语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元。第一均方根值计算单元用于计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。最大均方根值计算单元用于计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。归一化处理单元用于根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值。判断单元用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值时，识别该帧语音降噪训练数据单元为噪音帧；在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值时，识别该帧语音降噪训练数据单元为语音帧。

在一个具体的实施方式中，该处理装置还包括增益计算单元、以及调整单元。该增益计算单元用于对于被识别为语音帧的语音降噪训练数据单元，设置每个语音帧的增益恒为1；还用于对于被识别为噪音帧的语音降噪训练数据单元，采用如下公式计算每个噪音帧的增益：

其中，g_i表示每个噪音帧的增益；

RMS_target表示目标信号的均方根值；

g_min表示容许的最小增益值；

该调整单元用于根据每个语音帧和噪音帧的增益，调整语音降噪训练数据的包络线。

在一个具体的实施方式中，该调整单元用于对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到至少两个噪音帧中的每个噪音帧的修正后增益。该调整单元还用于根据至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益。该调整单元还用于根据至少两个噪音帧中的每个时域采样点的时域采样点增益，计算至少两个噪音帧中的每个时域采样点的分贝值，得到至少两个噪音帧中的每个时域采样点的修正后分贝值。该调整单元还用于根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除至少两个噪音帧之外的其他噪音帧的增益，调整语音降噪训练数据的包络线。

第三方面，本发明还提供了一种深度神经网络模型的训练方法，该训练方法包括：建立深度神经网络模型；接收语音降噪训练数据；将语音降噪训练数据采用上述任一种处理方法进行处理；使用处理后的语音降噪训练数据训练深度神经网络模型。

附图说明

图1为本发明实施例提供的一种语音降噪训练数据的处理方法的流程图；

图2为本发明实施例提供的另一种语音降噪训练数据的处理方法的流程图；

图3为本发明实施例提供的一种对噪音帧进行平滑处理的流程图；

图4为采用本发明实施例提供的处理方法处理后的语音降噪训练数据和原始语音降噪训练数据的效果对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了方便理解本发明实施例提供的语音降噪训练数据的处理方法，下面首先说明一下本发明实施例提供的语音降噪训练数据的处理方法的应用场景，该语音降噪训练数据的处理方法应用于采用深度神经网络进行语音降噪过程中，来对语音降噪训练数据进行处理，其中，该语音降噪训练数据用于训练深度神经网络模型。下面结合附图对该语音降噪训练数据的处理方法进行详细的叙述。

参考图1，本发明实施例提供的语音降噪训练数据的处理方法包括：

S10：接收待处理的语音降噪训练数据；

S20：将语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元；

S30：计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值；

S40：计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；

S50：根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值；

S60：依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；

S61：如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值，则识别该帧语音降噪训练数据单元为噪音帧；

S62：如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值，则识别该帧语音降噪训练数据单元为语音帧。

在上述的方案中，通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值，之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值，再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值，从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比，本申请的方式以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简单实用，从而简化语音激活检测的算法，提高运算效率。下面结合附图对上述各个步骤进行详细的介绍。

首先，如图1所示，接收待处理的语音降噪训练数据，该语音降噪训练数据为原始的语音降噪训练数据，其包络线可以为如图4的上半张示意图，为处理前的语音降噪训练数据的包络线示意图。

接下来，参考图1及图2，将语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元。具体分帧时，可以使每帧的时长为5ms、10ms、15ms、20ms等时长大小。

接下来，如图1及图2所示，计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。具体计算时，可以采用如下公式计算每帧语音降噪训练数据单元的第一均方根值：

其中，i表示帧索引；

n表示每帧语音降噪训练数据单元中的时域采样点个数；

j表示每帧语音降噪训练数据单元中的各时域采样点索引；

x表示每个时域采样点的分贝值；

接下来，如图1及图2所示，计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。具体的，可以采用如下公式计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值：

RMS_max＝max(RMS₁，RMS₂...RMS_m)

其中，RMS_max表示上述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；m表示该待处理的语音降噪训练数据分帧后的总帧数。

接下来，如图1及图2所示，根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值。具体进行归一化处理时，可以根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值，采用如下公式进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值：

其中，RMS_max表示最大均方根值；

RMS_ref表示归一化参考值，加入归一化参考值能够使使归一化处理后的第二均方根值的单位与归一化处理前的第一均方根值的单位保持一致；

RMS′_i表示每帧语音降噪训练数据单元的第二均方根值。以便于获取到每帧语音降噪训练数据单元的第二均方根值。

接下来，如图1及图2所示，依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值。根据每帧语音降噪训练数据单元的第二均方根值和噪音阈值的关系，能够得出不同的判断结果。如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值，则识别该帧语音降噪训练数据单元为噪音帧；如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值，则识别该帧语音降噪训练数据单元为语音帧。

另外，在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前，可以采用如下方式确定噪音阈值的大小：首先，从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧，该方式可以通过人工手动的方式进行，像图4上半张图中示出的包络线的振幅非常小，呈锯齿状杂乱的一段语音降噪训练数据中所包含的每帧语音降噪训练数据就是噪音帧，可以预先抽取设定格式的噪音帧，该设定个数具体可以为50个、100个、150个、200个等数值。之后，计算设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差。再后来，按照如下公式计算噪音阈值：

其中，RMS_threshold表示噪音阈值；

b表示调整系数，b＝2～4，具体的，b可以为2.0、2.5、3.0、3.5、4.0等值。采用上述方式确定的噪音阈值可以为45.8分贝等。以便于确定噪音阈值的大小。

如图2所示，该处理方法还包括对语音帧和噪音帧进行分别处理的步骤。例如，可以对于被识别为语音帧的语音降噪训练数据单元，设置每个语音帧的增益恒为1。对于被识别为噪音帧的语音降噪训练数据单元，采用如下公式计算每个噪音帧的增益：

其中，g_i表示每个噪音帧的增益；

RMS_target表示目标信号的均方根值，该目标信号的均方根值可以自由设置的，例如可以设置目标信号的均方根值为1，其单位与之前的计算的RMS一致。该目标信号的均方根值越小对噪声的抑制能力越强。

g_min表示容许的最小增益值，通过加入最小增益值，能够使语音降噪训练数据被处理后，仍然保留微弱的舒适噪声，以免使序列听起来太失真，该最小增益值是自由设置的，例如可以设置为0.1。

另外，在确定噪音帧和语音帧的增益之后，可以根据每个语音帧和噪音帧的增益，调整语音降噪训练数据的包络线。通过在语音激活检测的基础上，将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益，并让噪音帧乘以该增益，而对语音帧则不做任何处理，来降低噪音帧的分贝值，从而使调整后的语音降噪训练数据能够抑制噪音，进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型，既能够消除噪声，又能够防止出现较大的语音损伤。

在根据每个语音帧和噪音帧的增益，调整语音降噪训练数据的包络线时，参考图3，可以采用如下方式进行：

首先，对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到该至少两个噪音帧中的每个噪音帧的修正后增益；

其次，根据该至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益；

然后，根据该至少两个噪音帧中的每个时域采样点的时域采样点增益，计算至少两个噪音帧中的每个时域采样点的分贝值，得到该至少两个噪音帧中的每个时域采样点的修正后分贝值；

最后，根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除该至少两个噪音帧之外的其他噪音帧的增益，调整语音降噪训练数据的包络线。通过仅对和语音帧交界附近的噪音帧进行增益平滑处理，不改变语音帧增益，不仅能够防止帧与帧之间增益的突变导致增强后的噪声电平忽大忽小，而且还能够防止噪音帧增益突然降低后与前一语音帧交界处的相位不连续而出现杂音。

其中，在对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到至少两个噪音帧中的每个噪音帧的修正后增益时，可以对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益，采用如下公式做平滑处理：

g′_i＝max(min(g_i，g_i-1*α)，g_i-1*β)

在根据至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益时，可以根据至少两个噪音帧中的每个噪音帧的修正后增益，采用如下公式对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理：

在根据该至少两个噪音帧中的每个时域采样点的时域采样点增益，计算至少两个噪音帧中的每个时域采样点的分贝值，得到该至少两个噪音帧中的每个时域采样点的修正后分贝值时，可以根据该至少两个噪音帧中的每个时域采样点的时域采样点增益，采用如下公式计算该至少两个噪音帧中的每个时域采样点的修正后分贝值：

x′_i，j＝x_i，j*g_i，j

其中的x_i，j为帧索引为i，时域采样点索引为j的时域采样点的原始分贝值，x′_i，j为帧索引为i，时域采样点索引为j的时域采样点的修正后分贝值，即修改后的分贝值最为原始时域采样点的分贝值乘以该点的增益。

如图4为处理前的语音降噪训练数据的包络线和处理后的语音降噪训练数据的包络线的效果对比图，其中图4的上半张示意图为处理前的语音降噪训练数据的包络线，下半张示意图为处理后的语音降噪训练数据的包络线，图4中的每个矩形框所框住的是处理前和处理后的同一段噪音帧的包络线变化比对。可以看出，原始未被处理的语音降噪训练数据中具有较大的底噪和呼吸声，在处理后，底噪和呼吸声所对应的噪音帧得到有效的抑制(抑制程度在20分贝以上)，且语音降噪训练数据中的语音帧部分没有一点损伤。从而能够后续采用处理后的语音降噪训练数据来训练深度神经网络模型，最终所得到的深度神经网络模型不仅能够消除噪声，还能够防止出现较大的语音损伤。

通过计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值，之后根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值，再依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值，从而识别出原始的语音降噪训练数据中的噪音帧和语音帧。与现有技术的方案相比，本申请的方式以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简单实用，从而简化语音激活检测的算法，提高运算效率。

另外，本发明实施例还提供了一种语言降噪训练数据的处理装置，其中，该语音降噪训练数据用于训练深度神经网络模型。该处理装置包括接收单元、分帧单元、第一均方根值计算单元、最大均方根值计算单元、归一化处理单元及判断单元。其中，接收单元用于接收待处理的语音降噪训练数据。分帧单元用于将语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元。第一均方根值计算单元用于计算多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值。最大均方根值计算单元用于计算多帧语音降噪训练数据单元的第一均方根值中的最大均方根值。归一化处理单元用于根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值。判断单元用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于噪音阈值时，识别该帧语音降噪训练数据单元为噪音帧；在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于噪音阈值时，识别该帧语音降噪训练数据单元为语音帧。

另外，该处理装置还可以包括增益计算单元、以及调整单元。该增益计算单元用于对于被识别为语音帧的语音降噪训练数据单元，设置每个语音帧的增益恒为1；还用于对于被识别为噪音帧的语音降噪训练数据单元，采用如下公式计算每个噪音帧的增益：

其中，g_i表示每个噪音帧的增益；

RMS_target表示目标信号的均方根值；

g_min表示容许的最小增益值；

该调整单元具体调整语音降噪训练数据的包络线时，该调整单元用于对和每个语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到至少两个噪音帧中的每个噪音帧的修正后增益。该调整单元还用于根据至少两个噪音帧中的每个噪音帧的修正后增益，对至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到至少两个噪音帧中的每个时域采样点的时域采样点增益。该调整单元还用于根据至少两个噪音帧中的每个时域采样点的时域采样点增益，计算至少两个噪音帧中的每个时域采样点的分贝值，得到至少两个噪音帧中的每个时域采样点的修正后分贝值。该调整单元还用于根据每个语音帧的增益、至少两个噪音帧中的每个时域采样点的修正后分贝值、以及噪音帧中除至少两个噪音帧之外的其他噪音帧的增益，调整语音降噪训练数据的包络线。

应当理解的是，该处理装置中所包含的功能单元不仅仅限于上述示出的功能单元，还可以为其他能够执行前述语音降噪训练数据的处理方法中的每个步骤的其他的功能单元。需要额外说明的是，上述每个功能单元不仅包括存储能够实现对应的功能的软件程序的存储介质，还包括运行该软件程序的执行介质。其中的存储介质可以为诸如SRAM、MRAM、DRAM、ROM等的存储器，其中的执行介质可以为CPU、GPU等具有运行功能的处理器。

另外，本发明实施例还提供了一种深度神经网络模型的训练方法，该训练方法包括：建立深度神经网络模型；接收语音降噪训练数据；将语音降噪训练数据采用上述任一种处理方法进行处理；使用处理后的语音降噪训练数据训练深度神经网络模型。以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简单实用，从而简化语音激活检测的算法，提高运算效率。且在语音激活检测的基础上，将噪音帧的电平与目标信号的电平的差值作为噪音帧的增益，并让噪音帧乘以该增益，而对语音帧则不做任何处理，来降低噪音帧的分贝值，从而使调整后的语音降噪训练数据能够抑制噪音，进而使采用该处理后的语音降噪训练数据训练出的深度神经网络模型，既能够消除噪声，又能够防止出现较大的语音损伤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音降噪训练数据的处理方法，其中，所述语音降噪训练数据用于训练深度神经网络模型，其特征在于，所述处理方法包括：

接收待处理的语音降噪训练数据；

将所述语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元；

计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值；

计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；

根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值；

依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；

如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值，则识别该帧语音降噪训练数据单元为噪音帧；

如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值，则识别该帧语音降噪训练数据单元为语音帧。

2.如权利要求1所述的处理方法，其特征在于，所述计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为：

采用如下公式计算每帧语音降噪训练数据单元的第一均方根值：

其中，i表示帧索引；

n表示每帧语音降噪训练数据单元中的时域采样点个数；

j表示每帧语音降噪训练数据单元中的各时域采样点索引；

x表示每个时域采样点的分贝值；

RMS_i表示第i帧语音降噪训练数据单元的第一均方根值。

3.如权利要求2所述的处理方法，其特征在于，所述根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值具体为：

根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值采用如下公式进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值：

其中，RMS_max表示所述最大均方根值；

RMS_ref表示归一化参考值；

RMS′_i表示每帧语音降噪训练数据单元的第二均方根值。

4.如权利要求1所述的处理方法，其特征在于，在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前，所述处理方法还包括：

从多个语音降噪训练数据单元中预先抽取出设定个数的噪音帧；

计算所述设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差；

按照如下公式计算所述噪音阈值：

其中，RMS_threshold表示所述噪音阈值；

表示所述设定个数的语音降噪训练数据单元的第一均方根值的均值；

RMS_σ表示所述设定个数的语音降噪训练数据单元的第一均方根值的标准差；

b表示调整系数，b＝2～4。

5.如权利要求2所述的处理方法，其调整在于，还包括：

其中，g_i表示每个噪音帧的增益；

RMS_tdrget表示目标信号的均方根值；

g_min表示容许的最小增益值；

根据每个语音帧和噪音帧的增益，调整所述语音降噪训练数据的包络线。

6.如权利要求5所述的处理方法，其特征在于，所述根据每个语音帧和噪音帧的增益，调整所述语音降噪训练数据的包络线包括：

对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到所述至少两个噪音帧中的每个噪音帧的修正后增益；

根据所述至少两个噪音帧中的每个噪音帧的修正后增益，对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到所述至少两个噪音帧中的每个时域采样点的时域采样点增益；

根据所述至少两个噪音帧中的每个时域采样点的时域采样点增益，计算所述至少两个噪音帧中的每个时域采样点的分贝值，得到所述至少两个噪音帧中的每个时域采样点的修正后分贝值；

根据每个语音帧的增益、所述至少两个噪音帧中的每个时域采样点的修正后分贝值、以及所述噪音帧中除所述至少两个噪音帧之外的其他噪音帧的增益，调整所述语音降噪训练数据的包络线。

7.如权利要求6所述的处理方法，其调整在于，所述对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益做平滑处理，得到所述至少两个噪音帧中的每个噪音帧的修正后增益具体为：

对和每个所述语音帧相邻且连续的至少两个噪音帧中的每个噪音帧的增益，采用如下公式做平滑处理：

g′_i＝max(min(g_i，g_i-1*α)，g_i-1*β)

其中，g′_i为做平滑处理后，得到的所述至少两个噪音帧中的每个噪音帧的修正后增益；

α和β均为增益平滑因子，且α>1，β<1。

8.如权利要求7所述的处理方法，其特征在于，所述根据所述至少两个噪音帧中的每个噪音帧的修正后增益，对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理，得到所述至少两个噪音帧中的每个时域采样点的时域采样点增益具体为：

根据所述至少两个噪音帧中的每个噪音帧的修正后增益，采用如下公式对所述至少两个噪音帧中的每个噪音帧中的所有时域采样点的增益做平滑处理：

其中，g_i,j为做平滑处理后，得到的帧索引为i，时域采样点索引为j的时域采样点索引值，且帧索引为i的语音降噪训练数据单元为所述至少两个噪音帧中的其中一个噪音帧。

9.一种语音降噪训练数据的处理装置，其中，所述语音降噪训练数据用于训练深度神经网络模型，其特征在于，所述处理装置包括：

接收单元，用于接收待处理的语音降噪训练数据；

分帧单元，用于将所述语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元；

第一均方根值计算单元，用于计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值；

最大均方根值计算单元，用于计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；

归一化处理单元，用于根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值；

判断单元，用于依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；还用于在判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值时，识别该帧语音降噪训练数据单元为噪音帧；在判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值时，识别该帧语音降噪训练数据单元为语音帧。

10.一种深度神经网络模型的训练方法，其特征在于，包括：

建立深度神经网络模型；

接收语音降噪训练数据；

将所述语音降噪训练数据采用如权利要求1～8任一项所述的处理方法进行处理；

使用处理后的语音降噪训练数据训练所述深度神经网络模型。