CN112151054B

CN112151054B - 音频降噪处理方法、装置、服务器及存储介质

Info

Publication number: CN112151054B
Application number: CN202010930120.7A
Authority: CN
Inventors: 张旭; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-02-13
Anticipated expiration: 2040-09-07
Also published as: CN112151054A

Abstract

本公开关于一种音频降噪处理方法、装置、服务器及存储介质，该方法包括：获取待处理音频信号中的噪声类型；获取与所述噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息；将所述待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号。采用本方法，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，有利于提高待处理音频信号的降噪收敛速度，从而提高了音频降噪处理效率，避免了采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，需要耗费大量时间，造成音频降噪处理效率较低的缺陷。

Description

音频降噪处理方法、装置、服务器及存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音频降噪处理方法、装置、服务器及存储介质。

背景技术

随着多媒体技术的发展，越来越多的音频应用到短视频中，为了保证短视频中的音频质量，需要对音频进行降噪处理。

相关技术中，对音频的降噪处理方法，一般是采用默认的初始音频状态信息，比如全0、全1或者随机，并结合神经网络对待处理音频信号进行降噪处理。但是，采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，需要耗费大量时间，造成音频降噪处理效率较低。

发明内容

本公开提供一种音频降噪处理方法、装置、服务器及存储介质，以至少解决相关技术中音频降噪处理效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频降噪处理方法，包括：

获取待处理音频信号中的噪声类型；

获取与所述噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息；

将所述待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号。

在一示例性实施例中，在将所述待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型之后，还包括：

对所述待处理音频信号中的当前时刻的音频信号进行语音识别；

若所述待处理音频信号中的当前时刻的音频信号为非语音信号，且所述预先训练的音频降噪模型在所述初始音频状态信息下的运行次数大于预设次数，则将所述初始音频状态信息，作为所述当前时刻输入到所述预先训练的音频降噪模型的音频状态信息。

在一示例性实施例中，所述对所述待处理音频信号中的当前时刻的音频信号进行语音识别，包括：

获取所述待处理音频信号中的当前时刻的音频信号的音频特征信息；

若所述音频特征信息与静音信号的音频特征信息匹配，则确认所述待处理音频信号中的当前时刻的音频信号为非语音信号。

在一示例性实施例中，所述获取待处理音频信号中的噪声类型，包括：

提取所述待处理音频信号中的音频特征信息；

通过预先训练的噪声分类模型对所述待处理音频信号中的音频特征信息进行分类处理，得到所述待处理音频信号中的噪声类型；所述预先训练的噪声分类模型是根据采集的样本音频信号，基于预设的神经网络训练得到的，用于对输入的音频信号中的音频特征信息进行处理，得到所述音频信号中的噪声类型。

在一示例性实施例中，所述获取与所述噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息，包括：

查询预设的噪声类型与噪声状态信息的对应关系，得到与所述待处理音频信号中的噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息。

在一示例性实施例中，所述预设的噪声类型与噪声状态信息的对应关系通过下述方式得到：

获取音频样本数据集合；所述音频样本数据集合中包括不同噪声类型的音频信号；

将各个所述音频信号输入所述预先训练的音频降噪模型，得到各个所述音频信号对应的多个音频状态信息；各个所述音频信号对应的多个音频状态信息均按照时间信息排列；

分别从各个所述音频信号对应的多个排列后的音频状态信息中，对应筛选出倒数N个音频状态信息；所述倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，所述N为大于或等于2的正整数；

分别获取各个所述音频信号对应的倒数N个音频状态信息的平均值，对应作为各个所述音频信号的噪声状态信息；

根据各个所述音频信号的所述噪声类型和所述噪声状态信息，构建所述预设的噪声类型与噪声状态信息的对应关系。

在一示例性实施例中，在将所述待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号之前，还包括：

识别所述待处理音频信号中的语音类型；

获取与所述语音类型对应的语音状态信息，作为所述待处理音频信号的初始音频状态信息。

根据本公开实施例的第二方面，提供一种音频降噪处理装置，包括：

噪声类型获取单元，被配置为执行获取待处理音频信号中的噪声类型；

噪声状态信息获取单元，被配置为执行获取与所述噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息；

音频降噪处理单元，被配置为执行将所述待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号。

在一示例性实施例中，所述装置还包括语音识别单元，被配置为执行对所述待处理音频信号中的当前时刻的音频信号进行语音识别；若所述待处理音频信号中的当前时刻的音频信号为非语音信号，且所述预先训练的音频降噪模型在所述初始音频状态信息下的运行次数大于预设次数，则将所述初始音频状态信息，作为所述当前时刻输入到所述预先训练的音频降噪模型的音频状态信息。

在一示例性实施例中，所述语音识别单元，还被配置为执行获取所述待处理音频信号中的当前时刻的音频信号的音频特征信息；若所述音频特征信息与静音信号的音频特征信息匹配，则确认所述待处理音频信号中的当前时刻的音频信号为非语音信号。

在一示例性实施例中，所述噪声类型获取单元，还被配置为执行提取所述待处理音频信号中的音频特征信息；通过预先训练的噪声分类模型对所述待处理音频信号中的音频特征信息进行分类处理，得到所述待处理音频信号中的噪声类型；所述预先训练的噪声分类模型是根据采集的样本音频信号，基于预设的神经网络训练得到的，用于对输入的音频信号中的音频特征信息进行处理，得到所述音频信号中的噪声类型。

在一示例性实施例中，所述噪声状态信息获取单元，还被配置为执行查询预设的噪声类型与噪声状态信息的对应关系，得到与所述待处理音频信号中的噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息。

在一示例性实施例中，所述装置还包括关系获取单元，被配置为执行获取音频样本数据集合；所述音频样本数据集合中包括不同噪声类型的音频信号；将各个所述音频信号输入所述预先训练的音频降噪模型，得到各个所述音频信号对应的多个音频状态信息；各个所述音频信号对应的多个音频状态信息均按照时间信息排列；分别从各个所述音频信号对应的多个排列后的音频状态信息中，对应筛选出倒数N个音频状态信息；所述倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，所述N为大于或等于2的正整数；分别获取各个所述音频信号对应的倒数N个音频状态信息的平均值，对应作为各个所述音频信号的噪声状态信息；根据各个所述音频信号的所述噪声类型和所述噪声状态信息，构建所述预设的噪声类型与噪声状态信息的对应关系。

在一示例性实施例中，所述装置还包括语音状态信息获取单元，被配置为执行识别所述待处理音频信号中的语音类型；获取与所述语音类型对应的语音状态信息，作为所述待处理音频信号的初始音频状态信息。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的音频降噪处理方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行第一方面的任一项实施例中所述的音频降噪处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面任一项实施例中所述的音频降噪处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取待处理音频信号中的噪声类型；然后获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息；最后将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号；这样，通过将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，有利于提高待处理音频信号的降噪收敛速度，从而提高了音频降噪处理效率，避免了采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，需要耗费大量时间，造成音频降噪处理效率较低的缺陷；同时，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的音频降噪效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频降噪处理方法的应用环境图。

图2是根据一示例性实施例示出的一种音频降噪处理方法的流程图。

图3是根据一示例性实施例示出的一种音频降噪处理方法的示意图。

图4是根据一示例性实施例示出的构建预设的噪声类型与噪声状态信息的对应关系的步骤的流程图。

图5是根据一示例性实施例示出的另一种音频降噪处理方法的示意图。

图6是根据一示例性实施例示出的又一种音频降噪处理方法的示意图。

图7是根据一示例性实施例示出的另一种音频降噪处理方法的流程图。

图8是根据一示例性实施例示出的再一种音频降噪处理方法的示意图。

图9是根据一示例性实施例示出的一种音频降噪处理装置的框图。

图10是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频降噪处理方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括服务器110，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图1中以服务器110是独立的服务器为例进行说明，参考图1，服务器110获取待处理音频信号中的噪声类型；获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息；将待处理音频信号和所述初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号。

需要说明的是，本公开的音频降噪处理方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。为了方便说明，下面示例性实施例中，本公开主要以服务器为例进行说明。

图2是根据一示例性实施例示出的一种音频降噪处理方法的流程图，如图2所示，音频降噪处理方法用于如图1所示的服务器中，包括以下步骤：

在步骤S210中，获取待处理音频信号中的噪声类型。

其中，待处理音频信号是指包含有噪声信号的音频信号，可以是音频片段，也可以是完整音频；在实际场景中，待处理音频信号可以是原唱歌曲、录制的歌曲片段、录制的语音、视频的配乐等。

其中，噪声类型用于标识噪声所对应的类型，不同噪声对应的噪声类型不一样，比如环境噪声、录音设备本身的噪声等。

具体地，终端获取待检测音频信号，根据待检测音频信号生成音频降噪请求，并将音频降噪请求发送至对应的服务器；接着，服务器对音频降噪请求进行解析，得到待处理音频信号，将待处理音频信号输入噪声类型分类器，通过噪声类型分类器对待处理音频信号中的噪声进行分类处理，得到待处理音频信号中的噪声类型。其中，噪声类型分类器是一种能够对音频信号中的噪声进行分类的神经网络模型。

举例说明，在K歌场景中，用户打开终端的K歌功能，终端响应用户的K歌触发操作，通过麦克风对用户演唱的歌曲片段进行音频录制，得到录制后的歌曲片段；由于录制的歌曲片段可能含有喷麦噪声，故通过终端将录制后的歌曲片段作为含有喷麦噪声的待处理音频信号上传至对应的服务器，由服务器对该待处理音频信号进行音频降噪处理。

进一步地，服务器还可以获取本地数据库或者网络上的待处理音频信号，将待处理音频信号输入噪声类型分类器，通过噪声类型分类器对待处理音频信号中的噪声进行分类处理，得到待处理音频信号中的噪声类型。举例说明，服务器获取网络上某个主播演唱的含有喷麦噪声的歌曲，作为含有喷麦噪声的待检测音频信号，并对待检测音频信号进行音频降噪处理。

在步骤S220中，获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

其中，与噪声类型对应的噪声状态信息，是指通过同一种噪声类型的噪声信号推理得到的状态信息，不同噪声类型对应的噪声状态信息不一样。

其中，音频状态信息是指通过音频降噪模型(比如循环神经网络)输出的音频信号的状态值，初始音频状态信息是指输入到音频降噪模型(比如循环神经网络)的状态起始值。

具体地，服务器查询噪声类型与噪声状态信息的对应关系，得到与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。这样，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的音频降噪效果，从而提高了待处理音频信号的音频降噪效果。

在步骤S230中，将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号。

其中，预先训练的音频降噪模型是指能够对待处理音频信号进行降噪处理的神经网络模型，比如RNN(Recurrent Neural Networ，循环神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、GRU(Gated Recurrent Unit，门控循环单元)等等。

其中，待处理音频信号对应的降噪音频信号，是指去除噪声信号的待处理音频信号。

具体地，服务器将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，通过音频降噪模型，基于初始音频状态信息，对待处理音频信号进行降噪处理，得到待处理音频信号对应的降噪音频信号。

举例说明，参考图3，服务器将待处理音频信号x(t)输入噪声类型分类器，通过噪声类型分类器对待处理音频信号x(t)中的噪声进行分类处理，得到待处理音频信号x(t)中的噪声类型；获取与待处理音频信号x(t)中的噪声类型对应的噪声状态信息h_n，作为待处理音频信号x(t)的初始音频状态信息，即待处理音频信号x(t)的初始音频状态信息为h_n；将待处理音频信号x(t)和初始音频状态信息h_n一起输入循环神经网络模型中，得到待处理音频信号x(t)的输出音频状态信息h(t)和输出音频信号y(t)；将输出音频状态信息h(t)作为下一帧音频信号的输入音频状态信息，不断重复此过程，可以对待处理音频信号进行降噪处理，从而得到待处理音频信号的降噪音频信号。

需要说明的是，输出音频状态信息h(t)代表了循环神经网络模型对之前输入的音频信号的记忆，可能是长时记忆，也可能是短期记忆，还可能是长时记忆和短时记忆。此外，输出音频状态信息h(t)可以是一个状态矩阵的时间序列，也可以是多个状态矩阵的时间序列。

上述音频降噪处理方法中，通过获取待处理音频信号中的噪声类型；然后获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息；最后将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号；这样，通过将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，有利于提高待处理音频信号的降噪收敛速度，从而提高了音频降噪处理效率，避免了采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，需要耗费大量时间，造成起始段降噪效果不好的缺陷；同时，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的音频降噪效果。

在一示例性实施例中，在步骤S210中，获取待处理音频信号中的噪声类型，包括：提取待处理音频信号中的音频特征信息；通过预先训练的噪声分类模型对待处理音频信号中的音频特征信息进行分类处理，得到待处理音频信号中的噪声类型；预先训练的噪声分类模型是根据采集的样本音频信号，基于预设的神经网络训练得到的，用于对输入的音频信号中的音频特征信息进行处理，得到音频信号中的噪声类型。

其中，待处理音频信号中的音频特征信息用于表征待处理音频信号的特征信息，不同待处理音频信号中的音频特征信息不一样。

其中，预先训练的噪声分类模型是一种能够对音频信号中的噪声进行分类的神经网络模型。

具体地，服务器根据预设的音频特征信息提取指令，对待处理音频信号进行音频特征提取处理，得到待处理音频信号中的音频特征信息；将待处理音频信号中的音频特征信息输入预先训练的噪声分类模型，通过预先训练的噪声分类模型对待处理音频信号中的音频特征信息进行分类处理，得到待处理音频信号中的噪声类型。

进一步地，预先训练的噪声分类模型通过下述方式训练得到：获取样本音频信号以及样本音频信号中的实际噪声类型；提取样本音频信号的音频特征信息，将样本音频信号的音频特征信息输入预设的神经网络中，得到样本音频信号中的预测噪声类型；根据样本音频信号中的预测噪声类型和实际噪声类型，结合损失函数，计算得到预设的神经网络的损失值；根据损失值调整预设的神经网络的网络参数，直到损失值低于预设阈值时，将该预设的神经网络作为预先训练的噪声分类模型。

本公开实施例提供的技术方案，通过噪声分类模型确定待处理音频信号中的噪声类型，有利于后续根据待处理音频信号中的噪声类型，选取对应的初始音频状态信息，以保证待处理音频信号的音频降噪效果；同时避免了采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，造成起始段降噪效果不好的缺陷。

在一示例性实施例中，在步骤S220中，获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，包括：查询预设的噪声类型与噪声状态信息的对应关系，得到与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

其中，预设的噪声类型与噪声状态信息的对应关系，是指噪声类型与噪声状态信息存在一一对应的关系。

具体地，服务器获取预设的噪声类型与噪声状态信息的对应关系，根据待处理音频信号中的噪声类型，查询预设的噪声类型与噪声状态信息的对应关系，得到与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

进一步地，服务器还可以根据待处理音频信号中的噪声类型，查询存储有多个噪声类型对应的噪声状态信息的数据库，从数据库中获取与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

本公开实施例提供的技术方案，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，可以达到预期的音频降噪效果，从而提高了待处理音频信号的音频降噪效果。

在一示例性实施例中，如图4所示，预设的噪声类型与噪声状态信息的对应关系通过下述步骤得到：

在步骤S410中，获取音频样本数据集合；音频样本数据集合中包括不同噪声类型的音频信号。

具体地，服务器基于大数据技术，获取多个不同噪声类型的音频信号，根据多个不同噪声类型的音频信号，构建音频样本数据集合。

在步骤S420中，将各个音频信号输入预先训练的音频降噪模型，得到各个音频信号对应的多个音频状态信息；各个音频信号对应的多个音频状态信息均按照时间信息排列。

具体地，服务器将音频信号在不同时刻的音频信息依次输入到预先训练的音频降噪模型，依次得到预先训练的音频降噪模型输出的不同时刻的音频状态信息，从而得到该音频信号对应的多个音频状态信息，这些音频状态信息均按照时间的先后顺序排列；参照此方法，可以得到不同噪声类型的音频信号对应的多个音频状态信息。

需要说明的是，音频降噪模型的具体内部计算过程参照循环神经网络的计算原理，在此不再具体赘述。

在步骤S430中，分别从各个音频信号对应的多个排列后的音频状态信息中，对应筛选出倒数N个音频状态信息；倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，N为大于或等于2的正整数。

其中，倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，说明通过预先训练的音频降噪模型输出的倒数N个音频状态信息达到收敛，进而说明音频降噪效果达到收敛。

在步骤S440中，分别获取各个音频信号对应的倒数N个音频状态信息的平均值，对应作为各个音频信号的噪声状态信息。

具体地，服务器分别计算每个音频信号对应的倒数N个音频状态信息的平均值，对应作为每个音频信号的噪声状态信息。；

举例说明，假设有一个N秒的音频信号，在T秒(T<N)之后，预先训练的音频降噪模型输出的音频状态信息达到收敛，几乎不再发生变化，说明音频降噪效果达到收敛，则取T秒以及T秒之后输出的音频状态信息，并通过下述公式计算得到音频信号的噪声状态信息h_mean：

接着，在得到音频信号的噪声状态信息h_mean之后，在下一次对与该音频信号的噪声类型对应的待处理音频信号进行音频降噪处理时，可以将输入到循环神经网络模型的状态起始值由默认的状态起始值(全0、全1、随机)替换为h_mean，如图5所示，状态起始值h₀＝h_mean，这样，避免了使用默认的状态起始值导致音频降噪效果较差的缺陷，从而提高了待处理音频信号的音频降噪效果。

在步骤S450中，根据各个音频信号的噪声类型和噪声状态信息，构建预设的噪声类型与噪声状态信息的对应关系。

具体地，服务器根据各个音频信号的噪声类型和噪声状态信息，构建噪声类型和噪声状态信息的一一对应关系，作为预设的噪声类型与噪声状态信息的对应关系。

本公开实施例提供的技术方案，通过获取噪声类型与噪声状态信息的对应关系，有利于保存不同噪声类型对应的噪声状态信息，便于后续在初始化状态时，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，以达到预期的音频降噪效果。

在一示例性实施例中，在步骤S230中，在将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型之后，还包括：对待处理音频信号中的当前时刻的音频信号进行语音识别；若待处理音频信号中的当前时刻的音频信号为非语音信号，且预先训练的音频降噪模型在初始音频状态信息下的运行次数大于预设次数，则将初始音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

其中，待处理音频信号中的当前时刻的音频信号为非语音信号，可以是指待处理音频信号中的当前时刻的音频信号为静音信号。

具体地，在音频降噪处理过程中，服务器通过VAD(Voice Activity Detection，语音端点检测)技术，对待处理音频信号中的当前时刻的音频信号进行语音识别；若待处理音频信号中的当前时刻的音频信号为非语音信号，且预先训练的音频降噪模型在初始音频状态信息下的连续运行次数大于预设次数，则进行状态重置，比如将待处理音频信号的初始音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

需要说明的是，在音频降噪处理过程中，若待处理音频信号中的当前时刻的音频信号为语音信号，或者待处理音频信号中的当前时刻的音频信号为非语音信号，且预先训练的音频降噪模型在初始音频状态信息下的连续运行次数小于或者等于预设次数，则将当前时刻的上一时刻的输出音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

举例说明，参考图6，在音频降噪处理过程中，服务器通过VAD技术，判断待处理音频信号中的当前时刻的音频信号x(t)是否为语音信号，如果VAD＝＝1，说明待处理音频信号中的当前时刻的音频信号x(t)为语音信号，则按照通常的循环神经网络的处理逻辑，将当前时刻的上一时刻的输出音频状态信息h(t-1)，作为当前时刻输入到循环神经网络模型的音频状态信息；若待处理音频信号中的当前时刻的音频信号x(t)为非语音信号，且循环神经网络模型在初始音频状态信息下的连续运行次数大于预设次数，则进行状态重置，将待处理音频信号的初始音频状态信息h_mean，作为当前时刻输入到循环神经网络模型的音频状态信息。

本公开实施例提供的技术方案，通过对待处理音频信号中的当前时刻的音频信号进行语音识别，有利于对待处理音频信号的输入音频状态信息更新的时间点进行择时重置，保证了音频降噪效果，避免了现有方案在网络推理过程中总是将上一帧的states当作下一帧的状态输入，导致在长时间推理时可能导致网络不稳定，且在环境产生变化时循环神经网络需要收敛时间去适应背景噪声的变化，导致音频降噪效果较差的缺陷。

在一示例性实施例中，对待处理音频信号中的当前时刻的音频信号进行语音识别，包括：获取待处理音频信号中的当前时刻的音频信号的音频特征信息；若音频特征信息与静音信号的音频特征信息匹配，则确认待处理音频信号中的当前时刻的音频信号为非语音信号。

具体地，服务器根据预设的音频特征信息提取指令，对待处理音频信号中的当前时刻的音频信号进行音频特征信息提取处理，得到待处理音频信号中的当前时刻的音频信号的音频特征信息；统计待处理音频信号中的当前时刻的音频信号的音频特征信息与静音信号的音频特征信息之间的特征匹配度；若特征匹配度大于预设匹配度，则说明待处理音频信号中的当前时刻的音频信号的音频特征信息与静音信号的音频特征信息匹配，则确认待处理音频信号中的当前时刻的音频信号为非语音信号。

本公开实施例提供的技术方案，通过对待处理音频信号中的当前时刻的音频信号进行语音识别，有利于后续根据语音识别结果对音频状态信息更新的时间点进行择时重置，可以避免长时间推理时可能导致网络不稳定影响音频降噪效果的问题。

在一示例性实施例中，在步骤S230中，在将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号之前，还包括：识别待处理音频信号中的语音类型；获取与语音类型对应的语音状态信息，作为待处理音频信号的初始音频状态信息。

其中，语音类型用于标识语音所对应的类型，不同语音对应的语音类型不一样。与语音类型对应的语音状态信息，是指通过同一种语音类型的语音信号推理得到的状态信息，不同语音类型对应的语音状态信息不一样。

具体地，服务器将待处理音频信号输入语音类型分类器，通过语音类型分类器对待处理音频信号中的语音进行分类处理，得到待处理音频信号中的语音类型。其中，语音类型分类器是一种能够对音频信号中的语音进行分类的神经网络模型。接着，服务器查询语音类型与语音状态信息的对应关系，得到与待处理音频信号中的语音类型对应的语音状态信息，作为待处理音频信号的初始音频状态信息。这样，将与待处理音频信号中的语音类型对应的语音状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的语音保留效果，从而提高了待处理音频信号的音频降噪效果。

举例说明，假设有一个N秒的纯净语音信号，在T秒(T<N)之后，预先训练的音频降噪模型输出的音频状态信息达到收敛，几乎不再发生变化，说明语音保留效果达到收敛，则取T秒以及T秒之后输出的音频状态信息，并通过下述公式计算得到纯净语音信号的语音状态信息h_mean：

接着，在得到纯净语音信号的语音状态信息h_mean之后，在下一次对与该音频信号的语音类型对应的待处理音频信号进行音频降噪处理时，可以将输入到循环神经网络模型的状态起始值由默认的状态起始值(全0、全1、随机)替换为h_mean，如图5所示，状态起始值h₀＝h_mean；这样，可以起到很好的语音保留效果，从而提高了待处理音频信号的语音保留效果。

本公开实施例提供的技术方案，将与待处理音频信号中的语音类型对应的语音状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的语音保留效果，避免了现有方案中默认固定的states起始值，无法适应各种环境的变化，可能造成语音的损伤的缺陷；从而保证了待处理音频信号中的语音保留效果。

图7是根据一示例性实施例示出的另一种音频降噪处理方法的流程图，如图7所示，音频降噪处理方法用于如图1所示的服务器中，包括以下步骤：

在步骤S710中，提取待处理音频信号中的音频特征信息。

在步骤S720中，通过预先训练的噪声分类模型对待处理音频信号中的音频特征信息进行分类处理，得到待处理音频信号中的噪声类型。

在步骤S730中，查询预设的噪声类型与噪声状态信息的对应关系，得到与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

在步骤S740中，将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型。

在步骤S750中，对待处理音频信号中的当前时刻的音频信号进行语音识别。

在步骤S760中，若待处理音频信号中的当前时刻的音频信号为非语音信号，且预先训练的音频降噪模型在初始音频状态信息下的运行次数大于预设次数，则将初始音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

在步骤S770中，若待处理音频信号中的当前时刻的音频信号为语音信号，则将当前时刻的上一时刻的输出音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

在步骤S780中，若待处理音频信号处理完毕，则得到待处理音频信号对应的降噪音频信号。

上述音频降噪处理方法中，通过将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，有利于提高待处理音频信号的降噪收敛速度，从而提高了音频降噪处理效率，避免了采用默认的初始音频状态信息，导致神经网络一开始的降噪收敛速度较慢，需要耗费大量时间，造成起始段降噪效果不好的缺陷；同时，将与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息，可以起到较好的音频降噪效果；此外，通过语音识别结果对音频状态信息更新的时间点进行择时重置，可以避免长时间推理时可能导致网络不稳定影响音频降噪效果的问题。

在一示例性实施例中，如图8所示，为了更清晰阐明本公开实施例提供的技术方案，以下将详细阐述本公开的音频降噪处理方法的一个应用实例，该应用实例的具体内容如下：

参考图8，在音频降噪处理过程中，服务器将待处理音频信号中的当前时刻的音频信号x(t)输入噪声类型分类器，通过噪声类型分类器对待处理音频信号中的当前时刻的音频信号x(t)中的噪声进行分类处理，得到待处理音频信号中的当前时刻的音频信号x(t)中的噪声类型；获取与待处理音频信号中的当前时刻的音频信号x(t)中的噪声类型对应的噪声状态信息h_n；同时，服务器通过VAD技术，判断待处理音频信号中的当前时刻的音频信号x(t)是否为语音信号，如果VAD＝＝1，说明待处理音频信号中的当前时刻的音频信号x(t)为语音信号，则按照通常的循环神经网络的处理逻辑，将当前时刻的上一时刻的输出音频状态信息以及待处理音频信号中的当前时刻的音频信号x(t)一起输入到循环神经网络模型中；若待处理音频信号中的当前时刻的音频信号x(t)为非语音信号，且循环神经网络模型在初始音频状态信息下的连续运行次数大于预设次数，则进行状态重置，将噪声状态信息h_n，作为当前时刻输入到循环神经网络模型的音频状态信息，同时将噪声状态信息h_n以及待处理音频信号中的当前时刻的音频信号x(t)一起输入到循环神经网络模型中。

本公开实施例提供的技术方案，通过音频状态信息初始化和择时重置，解决了由于初始化造成的降噪效果收敛慢和某些情况下损伤语音的情况以及长时间推理时可能导致网络不稳定影响降噪效果的问题，保证了待处理音频信号的音频降噪效果。

应该理解的是，虽然图2、4、7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图9是根据一示例性实施例示出的一种音频降噪处理装置的框图。参照图9，该装置包括噪声类型获取单元910，噪声状态信息获取单元920和音频降噪处理单元930。

噪声类型获取单元910，被配置为执行获取待处理音频信号中的噪声类型。

噪声状态信息获取单元920，被配置为执行获取与噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

音频降噪处理单元930，被配置为执行将待处理音频信号和初始音频状态信息输入预先训练的音频降噪模型，得到待处理音频信号对应的降噪音频信号。

在一示例性实施例中，本公开的音频降噪处理装置还包括语音识别单元，被配置为执行对待处理音频信号中的当前时刻的音频信号进行语音识别；若待处理音频信号中的当前时刻的音频信号为非语音信号，且预先训练的音频降噪模型在初始音频状态信息下的运行次数大于预设次数，则将初始音频状态信息，作为当前时刻输入到预先训练的音频降噪模型的音频状态信息。

在一示例性实施例中，语音识别单元，还被配置为执行获取待处理音频信号中的当前时刻的音频信号的音频特征信息；若音频特征信息与静音信号的音频特征信息匹配，则确认待处理音频信号中的当前时刻的音频信号为非语音信号。

在一示例性实施例中，噪声类型获取单元910，还被配置为执行提取待处理音频信号中的音频特征信息；通过预先训练的噪声分类模型对待处理音频信号中的音频特征信息进行分类处理，得到待处理音频信号中的噪声类型；预先训练的噪声分类模型是根据采集的样本音频信号，基于预设的神经网络训练得到的，用于对输入的音频信号中的音频特征信息进行处理，得到音频信号中的噪声类型。

在一示例性实施例中，噪声状态信息获取单元920，还被配置为执行查询预设的噪声类型与噪声状态信息的对应关系，得到与待处理音频信号中的噪声类型对应的噪声状态信息，作为待处理音频信号的初始音频状态信息。

在一示例性实施例中，本公开的音频降噪处理装置还包括关系获取单元，被配置为执行获取音频样本数据集合；音频样本数据集合中包括不同噪声类型的音频信号；将各个音频信号输入预先训练的音频降噪模型，得到各个音频信号对应的多个音频状态信息；各个音频信号对应的多个音频状态信息均按照时间信息排列；分别从各个音频信号对应的多个排列后的音频状态信息中，对应筛选出倒数N个音频状态信息；倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，N为大于或等于2的正整数；分别获取各个音频信号对应的倒数N个音频状态信息的平均值，对应作为各个音频信号的噪声状态信息；根据各个音频信号的噪声类型和噪声状态信息，构建预设的噪声类型与噪声状态信息的对应关系。

在一示例性实施例中，本公开的音频降噪处理装置还包括语音状态信息获取单元，被配置为执行识别待处理音频信号中的语音类型；获取与语音类型对应的语音状态信息，作为待处理音频信号的初始音频状态信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于执行上述音频降噪处理方法的设备1000的框图。例如，设备1000可以为一服务器。参照图10，设备1000包括处理组件1020，其进一步包括一个或多个处理器，以及由存储器1022所代表的存储器资源，用于存储可由处理组件1020的执行的指令，例如应用程序。存储器1022中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1020被配置为执行指令，以执行上述音频降噪处理方法。

设备1000还可以包括一个电源组件1024被配置为执行设备1000的电源管理，一个有线或无线网络接口1026被配置为将设备1000连接到网络，和一个输入输出(I/O)接口1028。设备1000可以操作基于存储在存储器1022的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1022，上述指令可由设备1000的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行本公开的任一项实施例中所述的音频降噪处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频降噪处理方法，其特征在于，包括：

获取待处理音频信号中的噪声类型；

查询预设的噪声类型与噪声状态信息的对应关系，得到与所述待处理音频信号中的噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息；所述初始音频状态信息是指输入到预先训练的音频降噪模型的状态起始值；

将所述待处理音频信号和所述初始音频状态信息输入所述预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号；

在将所述待处理音频信号和所述初始音频状态信息输入所述预先训练的音频降噪模型之后，还包括：

2.根据权利要求1所述的音频降噪处理方法，其特征在于，所述对所述待处理音频信号中的当前时刻的音频信号进行语音识别，包括：

3.根据权利要求1所述的音频降噪处理方法，其特征在于，所述获取待处理音频信号中的噪声类型，包括：

提取所述待处理音频信号中的音频特征信息；

4.根据权利要求1所述的音频降噪处理方法，其特征在于，所述预设的噪声类型与噪声状态信息的对应关系通过下述方式得到：

5.根据权利要求1至4任一项所述的音频降噪处理方法，其特征在于，在将所述待处理音频信号和所述初始音频状态信息输入所述预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号之前，还包括：

识别所述待处理音频信号中的语音类型；

6.一种音频降噪处理装置，其特征在于，包括：

噪声状态信息获取单元，被配置为执行查询预设的噪声类型与噪声状态信息的对应关系，得到与所述待处理音频信号中的噪声类型对应的噪声状态信息，作为所述待处理音频信号的初始音频状态信息；所述初始音频状态信息是指输入到预先训练的音频降噪模型的状态起始值；

音频降噪处理单元，被配置为执行将所述待处理音频信号和所述初始音频状态信息输入所述预先训练的音频降噪模型，得到所述待处理音频信号对应的降噪音频信号；

所述音频降噪处理装置还包括语音识别单元，被配置为执行对所述待处理音频信号中的当前时刻的音频信号进行语音识别；若所述待处理音频信号中的当前时刻的音频信号为非语音信号，且所述预先训练的音频降噪模型在所述初始音频状态信息下的运行次数大于预设次数，则将所述初始音频状态信息，作为所述当前时刻输入到所述预先训练的音频降噪模型的音频状态信息。

7.根据权利要求6所述的音频降噪处理装置，其特征在于，所述语音识别单元，还被配置为执行获取所述待处理音频信号中的当前时刻的音频信号的音频特征信息；若所述音频特征信息与静音信号的音频特征信息匹配，则确认所述待处理音频信号中的当前时刻的音频信号为非语音信号。

8.根据权利要求6所述的音频降噪处理装置，其特征在于，所述噪声类型获取单元，还被配置为执行提取所述待处理音频信号中的音频特征信息；通过预先训练的噪声分类模型对所述待处理音频信号中的音频特征信息进行分类处理，得到所述待处理音频信号中的噪声类型；所述预先训练的噪声分类模型是根据采集的样本音频信号，基于预设的神经网络训练得到的，用于对输入的音频信号中的音频特征信息进行处理，得到所述音频信号中的噪声类型。

9.根据权利要求6所述的音频降噪处理装置，其特征在于，所述装置还包括关系获取单元，被配置为执行获取音频样本数据集合；所述音频样本数据集合中包括不同噪声类型的音频信号；将各个所述音频信号输入所述预先训练的音频降噪模型，得到各个所述音频信号对应的多个音频状态信息；各个所述音频信号对应的多个音频状态信息均按照时间信息排列；分别从各个所述音频信号对应的多个排列后的音频状态信息中，对应筛选出倒数N个音频状态信息；所述倒数N个音频状态信息中，相邻两个音频状态信息之间的差值均小于预设阈值，所述N为大于或等于2的正整数；分别获取各个所述音频信号对应的倒数N个音频状态信息的平均值，对应作为各个所述音频信号的噪声状态信息；根据各个所述音频信号的所述噪声类型和所述噪声状态信息，构建所述预设的噪声类型与噪声状态信息的对应关系。

10.根据权利要求6至9任一项所述的音频降噪处理装置，其特征在于，所述装置还包括语音状态信息获取单元，被配置为执行识别待处理音频信号中的语音类型；获取与所述语音类型对应的语音状态信息，作为所述待处理音频信号的初始音频状态信息。

11.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的音频降噪处理方法。

12.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至5中任一项所述的音频降噪处理方法。