CN111105810B

CN111105810B - 一种噪声估计方法、装置、设备及可读存储介质

Info

Publication number: CN111105810B
Application number: CN201911379976.3A
Authority: CN
Inventors: 管青松; 马峰; 李明子; 王海坤
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2022-09-06
Anticipated expiration: 2039-12-27
Also published as: CN111105810A

Abstract

本申请提供了一种噪声估计方法、装置、设备及可读存储介质，本方法获取跟踪参数，并将第n帧噪声的跟踪参数与第n‑1帧噪声的噪声值的乘积，作为第n帧噪声的估计值。因为，第n帧噪声的跟踪参数依据上一帧噪声(即第n‑1帧噪声)的变化状态确定，其中第n‑1帧噪声的变化状态由历史帧的变化确定。又因为，在第n‑1帧噪声过估计的情况下，第n‑1帧噪声减小得越快，第n帧噪声的跟踪参数越小，在第n‑1帧噪声欠估计的情况下，第n‑1帧噪声的增大得越快，第n帧噪声的跟踪参数越大。由此，本申请实施例提供的噪声估计方法能够适应环境噪声的变化，提高估计的准确性。

Description

一种噪声估计方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，更具体地说，涉及一种噪声估计方法、装置、设备及可读存储介质。

背景技术

噪声估计是语音增强的重要环节，针对于车载环境，由于车速变化、开关窗以及其它车辆经过导致的干扰等因素，会引起车内噪声的剧烈变化，因此，噪声估计的准确性会降低，通常，导致噪声的过估计(即噪声值估计过大)或者欠估计(即噪声值估计过小)。

发明内容

有鉴于此，本申请提供了一种噪声估计方法、装置、设备及可读存储介质，用于提噪声估计的准确性，如下：

一种噪声估计方法，包括：

获取跟踪参数，其中，第n帧噪声的所述跟踪参数依据第n-1帧噪声的变化状态确定，在所述第n-1帧噪声过估计的情况下，所述第n-1帧噪声减小得越快，所述第n帧噪声的所述跟踪参数越小，在所述第n-1帧噪声欠估计的情况下，所述第n-1帧噪声的增大得越快，所述第n帧噪声的所述跟踪参数越大；

将所述第n帧噪声的所述跟踪参数与所述第n-1帧噪声的噪声值的乘积，作为所述第n帧噪声的估计值。

可选地，获取跟踪参数，包括：

将声音信号的频谱输入预设的分类模型，得到所述分类模型输出的所述声音信号的类型和变化状态；

如果第n-1帧声音信号的类型为噪声，且所述第n-1帧声音信号的估计值大于计算值，则在所述第n-1帧声音信号的变化状态为缓慢减小的情况下，将第一数值作为所述第n帧声音信号的跟踪参数，在所述第n-1帧声音信号的变化状态为快速减小的情况下，将第二数值作为所述第n帧声音信号的跟踪参数，其中，所述第一数值大于所述第二数值，且所述第一数值和所述第二数值均使得所述第n帧声音信号的估计值小于所述第n-1帧声音信号的估计值；

如果所述第n-1帧声音信号的估计值小于所述计算值，则在所述第n-1帧声音信号的变化状态为缓慢增大的情况下，将第三数值作为所述第n帧声音信号的跟踪参数，在所述第n-1帧声音信号的变化状态为快速增大的情况下，将第四数值作为所述第n帧声音信号的跟踪参数，所述第三数值小于所述第四数值，且所述第三数值和所述第四数值均使得所述第n帧声音信号的估计值大于所述第n-1帧声音信号的估计值。

可选地，获取跟踪参数还包括：

如果第n-1帧声音信号的类型为非噪声，且所述第n-1帧声音信号的所述估计值不小于所述计算值，舍弃所述第n-1帧声音信号的估计值。

可选地，分类模型的训练过程包括：

获取第一样本噪声；

通过对所述第一样本噪声进行插值运算，得到第二样本噪声，所述第一样本噪声和所述第二样本噪声构成样本噪声；

将所述样本噪声与非噪声使用不同的信噪比进行叠加，得到训练数据；

使用所述训练数据和标注数据，训练所述分类模型，所述标注数据包括所述样本噪声的状态，所述样本噪声的状态包括声音信号的类型以及样本噪声的变化状态。

可选地，获取跟踪参数，包括：

将声音信号的频谱输入预设的跟踪参数估计模型，得到所述跟踪参数估计模型输出的所述跟踪参数；

所述跟踪参数估计模型的训练过程包括：

获取第一样本噪声；

使用所述训练数据和标注数据，训练所述分类模型，所述标注数据包括所述样本噪声对应的样本跟踪参数。

可选地，第n-1帧噪声的噪声值的获取方法包括：

获取所述第n-1帧噪声的估计值；

如果所述第n-1帧噪声之前预设时长内的噪声的变化状态为快速增大，增大所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值；

如果所述第n-1帧噪声之前预设时长内的噪声的变化状态为快速减小，缩小所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值。

可选地，在所述增大所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值之后，还包括：

如果所述第n帧噪声的变化状态为快速减小，将缩小后的所述第n帧噪声的估计值，作为所述第n帧噪声的噪声值；

在所述缩小所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值之后，还包括：

如果所述第n帧噪声的变化状态为快速增大，将增大后的所述第n帧噪声的估计值，作为所述第n帧噪声的噪声值。

一种噪声估计装置，包括：

参数获取单元，用于获取跟踪参数，其中，第n帧噪声的所述跟踪参数依据第n-1帧噪声的变化状态确定，在所述第n-1帧噪声过估计的情况下，所述第n-1帧噪声减小得越快，所述第n帧噪声的所述跟踪参数越小，在所述第n-1帧噪声欠估计的情况下，所述第n-1帧噪声的增大得越快，所述第n帧噪声的所述跟踪参数越大；

估计值确定单元，用于将所述第n帧噪声的所述跟踪参数与所述第n-1帧噪声的噪声值的乘积，作为所述第n帧噪声的估计值。

一种噪声估计设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的噪声估计方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上所述的噪声估计方法的各个步骤。

由上述的技术方案可以看出，本申请实施例提供的噪声估计方法，将第n帧噪声的跟踪参数与第n-1帧噪声的噪声值的乘积，作为第n帧噪声的估计值。因为，第n帧噪声的跟踪参数依据上一帧噪声(即第n-1帧噪声)的变化状态确定，其中第n-1帧噪声的变化状态由历史帧的变化确定。又因为，在第n-1帧噪声过估计的情况下，第n-1帧噪声减小得越快，第n帧噪声的跟踪参数越小，在第n-1帧噪声欠估计的情况下，第n-1帧噪声的增大得越快，第n帧噪声的跟踪参数越大。由此，本申请实施例提供的噪声估计方法能够适应环境噪声的变化，实现对于噪声的快速跟踪，从而提高噪声估计的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种噪声估计方法的流程示意图；

图2为本申请实施例提供的一种噪声估计装置的结构示意图；

图3为本申请实施例提供的一种噪声估计设备的结构示意图。

具体实施方式

本申请实施例提供的噪声估计方法具体可以应用于降噪场景。例如，车载环境中的语音增强，车内唤醒、识别、通信等功能容易受到噪声(例如发动机噪声，风噪，轮胎噪声和车内空调噪声)的干扰，导致唤醒困难、语音识别率低，通信信号质量差等问题，故需要对车辆中麦克风接收到的语音信号进行降噪，以实现语音增强。

目前，降噪的方法为在原始的语音信号的基础上，减去估计出的噪声值，。所以噪声估计的准确性对于降噪来说至关重要。针对于车载环境，由于车速变化、开关窗以及其它车辆经过导致的干扰等因素，会引起车内噪声的剧烈变化，因此，现有的噪声估计方法的准确性低，容易导致噪声过估计或者噪声欠估计。若噪声过估计，即噪声的估计值大于语音信号中的实际噪声值，则语音信号会失真，严重情况可能完全丢失，而如果噪声欠估计，即噪声的估计值小于语音信号中的实际噪声值，将导致语音信号中的噪声残留过大，则会影响听感。

需要说明的是，本申请实施例提供的噪声估计方法的应用场景不限于上述车载环境的语音增强的场景，还可以应用在其他环境中的降噪场景。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种噪声估计方法的流程示意图，具体可以包括以下步骤：

S101、获取跟踪参数。

具体地，第n帧噪声的跟踪参数依据第n-1帧噪声的变化状态确定。其中，第n帧噪声为任意一帧噪声。任一帧噪声的变化状态可以包括快速增大、缓慢增大、快速减少以及缓慢减少。其中，一帧的时间可以参照现有技术，记为t。

具体的，若任一帧噪声的变化状态为快速增大，则表示该帧噪声相对于上一帧噪声能量增大，并且，增大变化率(可以用来表示噪声增大的程度，值越大，说明在单位时间内增大的程度越大)大于第一阈值。若任一帧噪声的变化状态为缓慢增大，则表示该帧噪声相对于上一帧噪声能量增大，并且，增大变化率(可以用来表示噪声增大的程度，值越大，说明在单位时间内增大的程度越大)不大于第一阈值。若任一帧噪声的变化状态为快速减小，则表示该帧噪声相对于上一帧噪声能量减小，并且，减小变化率(可以用来表示噪声减小的程度，值越大，说明在单位时间内减小的程度越大)大于第二阈值。若任一帧噪声的变化状态为缓慢减小，则表示该帧噪声相对于上一帧噪声能量减小，并且，减小变化率(可以用来表示噪声减小的程度，值越大，说明在单位时间内减小的程度越大)不大于第二阈值。可选地，第一阈值和第二阈值可以预先设置，并且，第一阈值和第二阈值可以为同一数值。

可以理解的是，第n帧噪声的跟踪参数可以表征该帧噪声的噪声值相对于上一帧(即第n-1帧)噪声的噪声值的变化状态。

所以，在第n-1帧噪声过估计(第n-1帧噪声的估计值大于实际值)的情况下，第n帧的噪声的估计值需要适当减小，跟踪参数取值小于1。优选地，第n-1帧噪声减小得越快，即，第n-1帧噪声的减小变化率越大，第n帧噪声的跟踪参数越小。并且，第n-1帧噪声减小得越慢，即，第n-1帧噪声的减小变化率越小，第n帧噪声的跟踪参数越大。

在第n-1帧噪声欠估计(第n-1帧噪声的估计值小于实际值)的情况下，第n帧的噪声估计值需要适当增大，跟踪参数取值大于1。第n-1帧噪声增大得越快，即，第n-1帧噪声的增大变化率越大，第n帧噪声的跟踪参数越大。并且，第n-1帧噪声增大得越慢，即，第n-1帧噪声的增大变化率越小，第n帧噪声的跟踪参数越小。

可选地，本实施例可以通过计算第n-1帧的原始信号中噪声的能量，并将其与第n-1帧噪声的估计值进行比较，确定第n-1帧噪声为过估计或欠估计。具体过程可以参考现有技术。需要说明的是，第n-1帧噪声的估计值的计算方式，可以参见以下第n帧噪声的估计值。可选的，可以将第1帧噪声的能量的0.8倍，作为第1帧噪声的估计值。

S102、将第n帧噪声的跟踪参数与第n-1帧噪声的噪声值的乘积，作为第n帧噪声的估计值。

具体地，记k为噪声的频点数，P(k,n)为第n帧噪声的跟踪参数，N_g(k,n)为第n帧噪声的估计值，N_z(k,n-1)为第n-1帧噪声的噪声值。则，计算第n帧噪声的估计值的方法可以参照下述公式(1)。

N_g(k,n)＝P(k,n)*N_z(k,n-1) (1)

需要说明的是，N_z(k,n-1)可以为基于本申请的估计方法得到的第n-1帧噪声的估计值即N_g(k,n-1)，或对N_g(k,n-1)调整后的噪声值(详见后续D1～D3)，或测量得到的实际值N_j(k,n-1)。

由上述技术方案可以看出，本申请实施例提供的噪声估计方法，将第n帧噪声的跟踪参数与第n-1帧噪声的噪声值的乘积，作为第n帧噪声的估计值。因为，第n帧噪声的跟踪参数依据上一帧噪声(即第n-1帧噪声)的变化状态确定，其中第n-1帧噪声的变化状态由历史帧的变化状态确定。又因为，在第n-1帧噪声过估计的情况下，第n-1帧噪声减小得越快，第n帧噪声的跟踪参数越小，在第n-1帧噪声欠估计的情况下，第n-1帧噪声的增大得越快，第n帧噪声的跟踪参数越大。可见，本方法可以依据上一帧的估计状态(欠估计或过估计)以及变化状态调整当前帧的跟踪参数。由此，本申请实施例提供的噪声估计方法能够适应环境噪声的变化，即实现噪声跟踪的精度，从而提高噪声估计的准确性。进而，能够提高基于噪声估计值而进行的语音增强的技术的效果。

可选地，S101中的跟踪参数的获取方法可以包括多种，下面介绍其中可选的两种获取方法。

第一种、将声音信号的频谱输入预设的分类模型，得到分类模型输出的声音信号的类型和变化状态，并基于分类模型的输出结果与跟踪参数之间的对应关系，确定跟踪参数。

具体地，声音信号的频谱为依据声音信号的时域信号变换为频域信号得到。声音信号包括多帧声音信号。分类模型可以为经过训练后的神经网络模型，例如长短期记忆网络(LSTM，Long Short-Term Memory)模型、卷积神经网络模型(CNN，Convolutional NeuralNetwork)。需要说明的是，分类模型的输入数据为声音信号的频谱，输出数据为输入的声音信号每一帧声音信号的类型和变化状态。其中，声音信号的类型可以包括噪声或非噪声，变化状态包括快速增大、缓慢增大、快速减小或缓慢减小。

其中，分类模型的训练过程可以包括下述A1～A4。

A1、获取第一样本噪声。

可选地，可以将在实际的车载环境中录制的噪声作为第一样本噪声。例如风噪，空调噪声，胎噪，发动机噪声。由此获取多条第一样本噪声信号。

A2、通过对第一样本噪声进行插值运算，得到第二样本噪声，第一样本噪声和第二样本噪声构成样本噪声。

可选地，任一第二样本噪声可以由两个第一样本噪声信号进行插值运算得到。可选地，可以通过不同的插值运算得到代表突变噪声(例如轰油门、开关窗、车辆经过、以及鸣笛等产生的噪声)的第二样本噪声。

为了保证训练数据的多样性以及真实性，在本实施例中，样本噪声是由第一样本噪声以及第二样本噪声构成的语音信息。因此，在获得多条第一样本噪声以及第二样本噪声后，可以获得多条样本噪声，其中，任一条样本噪声包括N帧(N≥1)语音信号的噪声。

A3、将样本噪声与非噪声使用不同的信噪比进行叠加，得到训练数据。

可选地，本步骤的非噪声可以为平滑的语音信号，具体获取方式可以参考现有技术。本实施例将每一样本噪声与每一非噪声如语音信号按照预设的信噪比进行叠加，其中，不同样本噪声可以叠加相同的语音信号，也可以叠加不同的语音信号，不同的样本噪声叠加使用的信噪比不同。

本实施例将叠加后的声音信号作为训练数据。

A4、使用训练数据和标注数据，训练分类模型，标注数据包括样本噪声的状态。

样本噪声的状态包括声音信号的类型以及样本噪声的变化状态。

具体地，训练数据包括多条叠加后的声音信号，每一声音信号包括多帧声音信号，每一声音信号的标注数据包括每一帧的声音信号的类型，以及每一帧非噪声信号的能量值。

其中，每一帧的样本噪声的状态包括五种：

第一种状态：声音信号的类型为噪声，且，样本噪声的变化状态为快速增大；

第二种状态：声音信号的类型为噪声，且，样本噪声的变化状态为缓慢增大；

第三种状态：声音信号的类型为噪声，且，样本噪声的变化状态为快速减小；

第四种状态：声音信号的类型为噪声，且，样本噪声的变化状态为缓慢减小；

第五种状态：声音信号的类型为非噪声。

本实施例可以预设第一阈值、第二阈值以及第三阈值。可选地，标注数据中每一帧声音信号的类型可以基于叠加声音信号时使用的信噪比确定，标注数据中每一帧声音信号的变化状态可以依据该帧声音信号中样本噪声的变化率确定。

当任一帧的声音信号的信噪比小于第三阈值的情况下，如果样本噪声的变化率为增大变化率，表示该帧样本噪声相对于上一帧样本噪声能量增大，当增大变化率大于第一阈值，则该帧声音信号的类型为噪声，变化状态为快速增大。即该帧声音信号的标注数据为第一种状态(噪声，快速增大)。

当任一帧的声音信号的信噪比小于第三阈值的情况下，如果样本噪声的变化率为增大变化率，并且增大变化率不大于第一阈值，则该帧声音信号的类型为噪声，该帧声音信号的变化状态为缓慢增大。即该帧声音信号的标注数据为第二种状态(噪声，缓慢增大)。

当任一帧的声音信号的信噪比小于第三阈值的情况下，如果样本噪声的变化率为减小变化率，表示该帧样本噪声相对于上一帧样本噪声能量减小，当减小变化率大于第二阈值，则确定该帧声音信号的类型为噪声，变化状态为快速减小。即该帧声音信号的标注数据为第三种状态(噪声，快速减小)。

当任一帧的声音信号的信噪比小于第三阈值的情况下，如果样本噪声的变化率为减小变化率，并且减小变化率不大于第二阈值，则确定该帧声音信号的类型为噪声，变化状态为缓慢减小。即该帧声音信号的标注数据为第三种状态(噪声，缓慢减小)。

当任一帧的声音信号的信噪比不小于第三阈值时，表示该帧声音信号的类型为非噪声。则该帧声音信号的标注数据第五种状态，即非噪声。

本实施例中，基于每一帧的声音信号的标注数据训练分类模型，其中，需要对类型为噪声的每一个频点做声音信号的类型以及样本噪声的变化状态分类，由于是多分类问题，故模型的损失函数如下述公式(3)。

Loss＝∑-η_g(k,n)In(η(k,n)) (3)

其中，η_g(k,n)为变化状态的估计，η(k,n)为实际的变化状态。

基于此，得到的训练后的分类模型可以在输入任一声音信号时，输出该声音信号中每一帧声音信号的类型，并在声音信号的类型为噪声的情况下，输出该帧噪声的变化状态。

本实施例以第n帧噪声的跟踪参数的获取方法为例，基于上述分类模型得到第n-1帧噪声的变化状态后，依据预设的输出结果与跟踪参数之间的对应关系，确定第n帧噪声的跟踪参数。具体可以包括B1～B4四种可选的情况。

B1、如果第n-1帧声音信号的类型为噪声，且第n-1帧声音信号的估计值(本申请所述的估计方法获取的噪声值)大于计算值(第n-1帧声音信号的实际测量的能量值)。则，第n帧噪声的跟踪参数应使得第n帧声音信号的估计值小于第n-1帧声音信号的估计值，例如，对应关系中对应的跟踪参数为P(k,n)＝0.99。

进一步，在第n-1帧声音信号的变化状态为缓慢减小的情况下，将第一数值作为第n帧声音信号的跟踪参数。在第n-1帧声音信号的变化状态为快速减小的情况下，将第二数值作为第n帧声音信号的跟踪参数。其中，第一数值大于第二数值，且第一数值和第二数值均使得第n帧声音信号的估计值小于第n-1帧声音信号的估计值。

例如，第n-1帧噪声的变化状态为缓慢减小，则需要减小第n帧噪声的估计值，则可以取第n帧噪声的跟踪参数为第一数值，即对应关系中对应的跟踪参数为P₁(k,n)＝0.98。第n-1帧噪声的变化状态为快速减小，则可以取第n帧噪声的跟踪参数为第二数值，即对应关系中对应的跟踪参数为P₂(k,n)＝0.97。本实施例中，第n帧噪声的估计值为第n帧噪声的跟踪参数与第n-1帧噪声的噪声值的乘积。其中，第n-1帧噪声的噪声值可以为第n-1帧噪声的估计值。所以，P₁(k,n)＝0.99和P₂(k,n)＝0.97均使得第n帧声音信号的估计值小于第n-1帧声音信号的估计值，并且，快速减小的变化状态下，第n帧噪声的估计值相对于第n-1帧噪声的估计值减小的程度较大。

B2、如果第n-1帧声音信号的类型为噪声，且第n-1帧声音信号的估计值大于计算值的情况下，若第n-1帧声音信号的变化状态为缓慢增大或快速增大，则第n帧噪声的跟踪参数可以取值为第n-1帧噪声的跟踪参数。

B3、如果第n-1帧声音信号的类型为噪声，且第n-1帧声音信号的估计值小于计算值。则，第n帧噪声的跟踪参数使得第n帧声音信号的估计值大于第n-1帧声音信号的估计值，例如，对应关系中对应的跟踪参数为P(k,n)＝1.001。

进一步，在第n-1帧声音信号的变化状态为缓慢增大的情况下，将第三数值作为第n帧声音信号的跟踪参数。在第n-1帧声音信号的变化状态为快速增大的情况下，将第四数值作为第n帧声音信号的跟踪参数。第三数值小于第四数值，且第三数值和第四数值均使得第n帧声音信号的估计值大于第n-1帧声音信号的估计值。

例如，第n-1帧噪声的变化状态为缓慢增大，则需要增大第n帧噪声的估计值，则可以取第n帧噪声的跟踪参数为第三数值，即对应关系中对应的跟踪参数为P₃(k,n)＝1.01。第n-1帧噪声的变化状态为快速减小，则可以取第n帧噪声的跟踪参数为第四数值，即对应关系中对应的跟踪参数为P₄(k,n)＝1.1。可见，P₃(k,n)＝1.01和P₄(k,n)＝1.1均使得第n帧声音信号的估计值大于第n-1帧声音信号的估计值，并且，快速增大的变化状态下，第n帧噪声的估计值相对于第n-1帧噪声的估计值增大的程度较大。

B4、如果第n-1帧声音信号的类型为噪声，且第n-1帧声音信号的估计值小于计算值的情况下，若第n-1帧声音信号的变化状态为缓慢减小或快速减小，则第n帧噪声的跟踪参数可以取值为第n-1帧噪声的跟踪参数。

需要说明的是，当分类模型输出的第n-1帧声音信号的类型为非噪声，表示该帧声音信号的信噪比大(至少等于第三阈值)，也即，噪声信号在该帧声音信号中能量小于平滑的语音信号的能量。所以，当第n-1帧声音信号的估计值不小于计算值时，为了避免信号失真，本实施例舍弃第n-1帧声音信号的估计值，可选地，当第n-1帧声音信号为平滑的语音信号，则将该帧的噪声估计值看作0，即不对该帧声音信号进行降噪处理。

第二种、将声音信号的频谱输入预设的跟踪参数估计模型，得到跟踪参数估计模型输出的跟踪参数。

具体地，声音信号的频谱为依据声音信号的时域信号变换为频域信号得到。声音信号包括多帧声音信号。跟踪参数估计模型可以为经过训练后的神经网络模型，例如长短期记忆网络(LSTM，Long Short-Term Memory)模型。需要说明的是，跟踪参数估计模型的输入数据为声音信号的频谱，输出数据为输入的声音信号每一帧的跟踪参数。

其中，跟踪参数估计模型的训练过程包括下述C1～C4：

C1、获取第一样本噪声。

C2、通过对第一样本噪声进行插值运算，得到第二样本噪声，第一样本噪声和第二样本噪声构成样本噪声。

可选地，任一条第二样本噪声可以由两条第一样本噪声信号进行插值运算得到。并且，本实施例的样本噪声是由第一样本噪声以及第二样本噪声构成的。

由此获得多条样本噪声，任一条样本噪声包括N帧(N≥1)语音信号的噪声。

C3、将样本噪声与非噪声使用不同的信噪比进行叠加，得到训练数据。

可选地，本步骤的非噪声可以为平滑的语音信号。本实施例将每一样本噪声与每一语音信号按照预设的信噪比进行叠加，其中，不同样本噪声可以叠加相同的语音信号，也可以叠加不同的语音信号，不同的样本噪声叠加使用的信噪比不同。并将叠加后的声音信号作为训练数据。

C4、使用训练数据和标注数据，训练分类模型，标注数据包括样本噪声对应的样本跟踪参数。

具体地，训练数据包括多条叠加后的声音信号，每一声音信号包括多帧，每一声音信号的标注数据包括每一帧的样本噪声的跟踪参数。本实施例以每一帧声音信号的跟踪参数为目标输出训练跟踪参数估计模型。

本实施例中，模型的损失函数为相邻两帧噪声能量和的均方误差，具体可以参考公式(4)，如下：

Loss＝∑|N_g(k,n)+N_g(k,n-1)-(N(k,n)+N(k,n-1))|² (4)

其中，k表示频点数，N_g(k,n)为第n帧噪声的估计值，N_g(k,n-1)为第n-1帧噪声的估计值，N(k,n)为第n帧噪声的计算值，(k,n-1)为第n-1帧噪声的实际值。

基于此，得到的训练后的跟踪参数估计模型可以在输入任一声音信号时，输出该声音信号中每一帧声音信号的跟踪参数。与上述由模型得到声音信号的类型和变化状态，再查询对应关系获得跟踪参数的方式相比，由模型直接输出的跟踪参数，更为准确。但上述方式的更易实现。实际中，可以依据实际需求选择获取跟踪参数的方式。

进一步的，S102中的第n-1帧的噪声值在第n帧的噪声估计的过程中可以看作原始值，该原始值可以为第n-1帧的估计值，或，该原始值可以为基于第n-1帧的估计值调整后的噪声值。所以本申请实施例提供的噪声估计方法还包括：第n-1帧的噪声值的获取方法。

具体地，本实施例首先获取第n-1帧噪声的估计值，并获取在第n-1帧噪声之前的预设时长内的每一帧噪声的变化状态(简称为历史变化状态)。基于第n-1帧的噪声的估计值以及历史变化状态调整第n-1帧噪声值。具体可以包括下述D1～D3。

D1、如果第n-1帧噪声之前预设时长内的噪声的变化状态为快速增大，增大第n-1帧噪声的估计值，得到第n-1帧噪声的噪声值。

例如，预设时长为T，若第n-1帧噪声之前的T时长内的每一帧噪声的变化状态均为快速增大，则将第n-1帧噪声的估计值增大两倍得到调整后的第n-1帧噪声的噪声值。

可以理解的是，进一步的，在此状态下，如果第n帧噪声的变化状态为快速减小，说明有可能将第n-1帧噪声的噪声值增加得过大，所以将缩小后的第n帧噪声的估计值，作为第n帧噪声的噪声值。

D2、如果第n-1帧噪声之前预设时长内的噪声的变化状态为快速减小，缩小第n-1帧噪声的估计值，得到第n-1帧噪声的噪声值。

例如，预设时长为T，若第n-1帧噪声之前的T时长内的每一帧噪声的变化状态均为快速减小，则将第n-1帧噪声的估计值缩小两倍得到调整后的第n-1帧噪声的噪声值。

可以理解的是，进一步的，在此状态下，如果第n帧噪声的变化状态为快速增大，说明有可能将第n-1帧噪声的噪声值缩小得过小，所以将增大后的第n帧噪声的估计值，作为第n帧噪声的噪声值。

D3、如果第n-1帧噪声之前预设时长内的噪声的变化状态不符合上述D1或D2的情况，则可以直接将第n-1帧噪声的估计值作为第n-1帧噪声的噪声值。

由上述的技术方案可以看出，本申请实施例提供的噪声估计方法，基于模型输出噪声的动态变化，并进一步确定跟踪参数，或，基于模型直接输出跟踪参数，提高了噪声估计的准确性。进一步，基于模型直接输出跟踪参数能够做到动态调整跟踪参数，在提高估计的准确性的同时，能够快速追踪噪声的变化，提高估计的速度。

例如，为了应对车载环境中噪声变化剧烈的场景，需要快速跟踪噪声，而传统的基于最小值追踪的噪声估计方法，需要在一定的历史信号中，追踪最小值作为噪声估计的参数，噪声估计会有很大的延时，导致非平稳噪声听感较差。但是，本方法通过依据上一帧的估计状态和历史帧的变化，调整跟踪参数，从而提高噪声估计的速度，有效避免延迟，进一步保证平稳听感。

进一步，本申请实施例还提供一种对原始值进行调整的方法，基于估计值以及噪声在预设时长内的变化状态调整得到噪声值，并且后续会对过调整的噪声值进行校正，所以能够进一步保证噪声估计的准确性。

需要说明的是，基于上述的噪声估计方法能够快速且准确地得到任一帧的噪声估计值，进一步保证了良好的降噪效果。

本申请实施例还提供了一种噪声估计装置，下面对本申请实施例提供的噪声估计装置进行描述，下文描述的噪声估计装置与上文描述的噪声估计方法可相互对应参照。

请参阅图2，示出了本申请实施例提供的一种噪声估计装置的结构示意图，如图2所示，该装置可以包括：

参数获取单元201，用于获取跟踪参数，其中，第n帧噪声的所述跟踪参数依据第n-1帧噪声的变化状态确定，在所述第n-1帧噪声过估计的情况下，所述第n-1帧噪声减小得越快，所述第n帧噪声的所述跟踪参数越小，在所述第n-1帧噪声欠估计的情况下，所述第n-1帧噪声的增大得越快，所述第n帧噪声的所述跟踪参数越大；

估计值确定单元202，用于将所述第n帧噪声的所述跟踪参数与所述第n-1帧噪声的噪声值的乘积，作为所述第n帧噪声的估计值。

可选地，参数获取单元用于获取跟踪参数，包括：

所述参数获取单元具体用于：

可选地，参数获取单元用于获取跟踪参数，还包括：

所述参数获取单元具体用于：

可选地，本装置还包括分类模型训练单元，用于训练所述分类模型，包括：

分类模型训练单元具体用于：

获取第一样本噪声；

可选地，参数获取单元用于获取跟踪参数，包括：

所述参数获取单元具体用于：

所述跟踪参数估计模型的训练过程包括：

获取第一样本噪声；

可选地，本装置还包括：噪声值获取单元，用于获取第n-1帧噪声的噪声值，包括：

噪声值获取单元具体用于：

获取所述第n-1帧噪声的估计值；

可选地，噪声值获取单元用于获取第n-1帧噪声的噪声值，还包括：

噪声值获取单元具体用于：

在所述增大所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值之后，如果所述第n帧噪声的变化状态为快速减小，将缩小后的所述第n帧噪声的估计值，作为所述第n帧噪声的噪声值；

噪声值获取单元具体用于：

在所述缩小所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值之后，如果所述第n帧噪声的变化状态为快速增大，将增大后的所述第n帧噪声的估计值，作为所述第n帧噪声的噪声值。

本申请实施例还提供了一种噪声估计设备，请参阅图3，示出了该噪声估计设备的结构示意图，该设备可以包括：至少一个处理器301，至少一个通信接口302，至少一个存储器303和至少一个通信总线304；

在本申请实施例中，处理器301、通信接口302、存储器303、通信总线304的数量为至少一个，且处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信；

处理器301可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种噪声估计方法，其特征在于，包括：

将所述第n帧噪声的所述跟踪参数与所述第n-1帧噪声的噪声值的乘积，作为所述第n帧噪声的估计值；

其中，所述获取跟踪参数，包括：

如果所述第n-1帧声音信号的估计值小于所述计算值，则在所述第n-1帧声音信号的变化状态为缓慢增大的情况下，将第三数值作为所述第n帧声音信号的跟踪参数，在所述第n-1帧声音信号的变化状态为快速增大的情况下，将第四数值作为所述第n帧声音信号的跟踪参数，所述第三数值小于所述第四数值，且所述第三数值和所述第四数值均使得所述第n帧声音信号的估计值大于所述第n-1帧声音信号的估计值；

或，

所述获取跟踪参数，包括：

所述跟踪参数估计模型的训练过程包括：

获取第一样本噪声；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述分类模型的训练过程包括：

获取第一样本噪声；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第n-1帧噪声的噪声值的获取方法包括：

获取所述第n-1帧噪声的估计值；

5.根据权利要求4所述的方法，其特征在于，

在所述增大所述第n-1帧噪声的估计值，得到所述第n-1帧噪声的噪声值之后，还包括：

6.一种噪声估计装置，其特征在于，包括：

估计值确定单元，用于将所述第n帧噪声的所述跟踪参数与所述第n-1帧噪声的噪声值的乘积，作为所述第n帧噪声的估计值；

其中，所述获取跟踪参数，包括：

或，

所述获取跟踪参数，包括：

所述跟踪参数估计模型的训练过程包括：

获取第一样本噪声；

7.一种噪声估计设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～5中任一项所述的噪声估计方法的各个步骤。

8.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～5中任一项所述的噪声估计方法的各个步骤。