CN113345460B

CN113345460B - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN113345460B
Application number: CN202110895260.XA
Authority: CN
Inventors: 马路; 杨嵩; 王心恬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-16
Anticipated expiration: 2041-08-05
Also published as: CN113345460A

Abstract

本公开提供一种音频信号处理方法、装置、设备及存储介质，该方法包括：获取音频信号；利用预先训练的降噪模型确定所述音频信号对应的噪声特征；对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征；对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号。通过将音频信号输入到预先训练完成的降噪模型中，由于该降噪模型包括噪声分类器和语音降噪器，噪声分类器用于确定音频信号对应的噪声特征，语音降噪器用于根据音频信号对应的噪声特征确定音频信号对应的语音特征，从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪，更好的引导语音降噪器提取语音特征，从而达到更好的语音降噪效果。

Description

音频信号处理方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

随着人工智能、语音增强、语音识别和音视频通信等技术的不断发展，音频信号的音质越来越重要。为了提高音频信号的音质，可以对音频信号进行降噪处理。

但是，现有技术无法有效消除音频信号中的噪声，从而导致降噪效果不够理想。

发明内容

根据本公开的一方面，提供了一种音频信号处理方法，包括：

获取音频信号；

利用预先训练的降噪模型确定所述音频信号对应的噪声特征；

对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征；

对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号。

根据本公开的另一方面，提供了一种音频信号处理装置，包括：

获取模块，用于获取音频信号；

确定模块，用于利用预先训练的降噪模型确定所述音频信号对应的噪声特征；

处理模块，用于对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征；以及对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行所述的音频信号处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的音频信号处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述几方面所述的方法。

本申请实施例中提供的一个或多个技术方案，利用该噪声特征辅助进行语音降噪，更好的引导语音降噪器提取语音特征。也就是说根据噪声特征可以有针对性的消除带噪信号中的噪声，从而达到更好的语音降噪效果。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的降噪模型的示意图；

图2示出了根据本公开示例性实施例的应用场景的示意图；

图3示出了根据本公开示例性实施例的带噪语音的生成方法流程图；

图4示出了根据本公开示例性实施例的降噪模型的示意图；

图5示出了根据本公开示例性实施例的降噪模型的示意图；

图6示出了根据本公开示例性实施例的降噪模型的示意图；

图7示出了根据本公开示例性实施例的音频信号处理方法流程图；

图8示出了根据本公开示例性实施例的音频信号处理方法流程图；

图9示出了根据本公开示例性实施例的音频信号处理方法流程图；

图10示出了根据本公开示例性实施例的音频信号处理装置的结构示意图；

图11示出了根据本公开示例性实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

通常情况下，为了提高音频信号的音质，可以对音频信号进行降噪处理。目前的语音降噪主要采用开源工具，例如，网页实时通信（Web Real-Time Communication，WebRTC）中的降噪方法。具体的，针对待降噪的音频信号，计算其频谱平坦度、对数似然比（Likelihood Ratio Test, LRT）特征、频谱差异特征等，进一步，根据这些特征更新该音频信号中的语音分量和噪声分量之间的概率函数，根据该概率函数更新噪声估计，并根据噪声估计得到维纳滤波器。进一步，利用该维纳滤波器对该音频信号降噪。由于这种方法直接在带噪的音频信号中进行噪声和语音的估计，因此估计噪声的过程中，语音分量会影响噪声分量的准确估计，噪声分量的估计也会影响语音分量的估计，从而影响最终的降噪效果。针对该问题，本公开实施例提供了一种音频信号处理方法，该方法可以应用预先训练的降噪模型对音频信号进行处理，从而得到降噪后的目标音频信号。在介绍该音频信号处理方法之前，本公开实施例可以对该降噪模型的训练过程进行介绍。

图1所示为降噪模型的一种结构示意图，具体的，该降噪模型包括如下几个部分：音频编码器（Audio Encoder）、语谱编码器（Spectrogram Encoder）、噪声分类器（NoiseClassifier）、语音降噪器（Speech Denoiser）和音频解码器（Audio Decoder）。

具体的，该降噪模型属于机器学习模型、神经网络模型等模型。在本实施例中，该降噪模型具体可以是语音降噪网络或语音降噪模型，该降噪模型的输入音频信号可以是带噪的音频信号，例如，输入音频信号是根据样本噪声信号和样本音频信号生成的。该降噪模型对输入音频信号进行降噪处理后得到输出音频信号，即该降噪模型的输出音频信号。其中，样本音频信号可以是无噪声的样本音频信号，或者样本音频信号可以是噪声含量小于或等于预设阈值的样本音频信号。进一步，根据该样本音频信号和该降噪模型的输出音频信号对该降噪模型进行训练。

在本实施例中，该降噪模型的训练过程可以由如图2所示的服务器21来执行，当服务器21将该降噪模型训练完成后，服务器21可以将训练完成的降噪模型部署到终端22中，从而使得终端22可以根据该训练完成的降噪模型实现语音识别、语音增强、音视频通信等功能。或者，当服务器21将该降噪模型训练完成后，服务器21可以将训练完成的降噪模型保存在本地，终端22将待处理的音频信号发送给服务器21，从而使得服务器21可以根据该训练完成的降噪模型对该待处理的音频信号进行语音识别、语音增强等处理。也就是说，该降噪模型的训练阶段和使用阶段可以由不同设备分别执行，也可以由同一设备来执行。另外，可以理解的是，该模型训练方法不限于由服务器21来执行，例如还可以由台式机、笔记本电脑、一体机、智能手机等具有处理功能的设备来执行。此外，如图2所示的终端22具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。

如图2所示，服务器21可以对应有第一数据库和第二数据库，在一种实现方式中，第一数据库和第二数据库可以部署在该服务器21中。在另一种实现方式中，第一数据库和/或第二数据库部署在其他服务器中，其他服务器和服务器21可以通信连接。具体的，第一数据库中可以存储有多个无噪声的样本音频信号，第二数据库中可以存储有多个样本噪声信号。服务器21可以从第一数据库中随机选取一个无噪声的样本音频信号，从第二数据库中随机选取一个样本噪声信号。进一步，服务器21可以将该样本噪声信号和该无噪声的样本音频信号进行混合得到输入音频信号，该输入音频信号是带噪语音信号。其中，该无噪声的样本音频信号可以是无噪声的干净语音，另外，该无噪声的样本音频信号也可以称为参考语音信号。

在另一种可行的实现方式中，将该样本噪声信号和该无噪声的样本音频信号进行混合得到输入音频信号的过程可以由除服务器21之外的其他服务器来执行，进一步，服务器21从其他服务器中获取该输入音频信号。

可选的，根据样本噪声信号和样本音频信号生成输入音频信号，包括：获取样本噪声信号和样本音频信号；对所述样本音频信号和所述样本噪声信号之间的信噪比进行调整，使得调整后的信噪比在预设信噪比范围内；将信噪比调整后的所述样本音频信号和所述样本噪声信号进行叠加，得到所述输入音频信号。

如图3所示为输入音频信号生成过程的示意图，例如，从第一数据库中随机选择一个干净语音作为无噪声的样本音频信号。干净语音可以经过一个房间冲激响应（RoomImpulse Response, RIR）得到经过房间反射后的语音信号，从而模拟环境引入的混响。从第二数据库中随机选择一个噪声作为样本噪声信号。

进一步，计算该样本噪声信号的平均能量和该经过房间反射后的语音信号的平均能量。根据该样本噪声信号的平均能量和该经过房间反射后的语音信号的平均能量可以计算出该语音信号和该样本噪声信号之间的信噪比。可以理解的是，该信噪比可能并不符合要求。进一步，对该语音信号和该样本噪声信号之间的信噪比进行调整，使得调整后的信噪比在预设信噪比范围内。例如，根据真实应用场景中的噪声强度大小，按照预设的信噪比范围计算该语音信号和该样本噪声信号的幅度系数，进一步将该语音信号的幅度系数乘上该语音信号，将该样本噪声信号的幅度系数乘上该样本噪声信号。将信噪比调整后的该语音信号和该样本噪声信号直接叠加之后得到混合的带噪语音，该带噪语音可以是如上所述的输入音频信号。该输入音频信号作为该降噪模型在训练阶段中的输入。

下面结合具体的实施例介绍该降噪模型对输入音频信号进行处理得到输出音频信号的过程。

图4所示为降噪模型的另一种结构示意图。在本实施例中，输入音频信号可以是实时的音频流，该输入音频信号可以被分割为多个音频片段，此处的音频片段可以记为第一片段。例如，该输入音频信号可以被分割为

个音频片段即

个第一片段，每个音频片段可以记为一帧，每个音频片段包括

个采样点，例如该

个音频片段中的第

个音频片段可以表示为

，

。也就是说，此处的

个第一片段从第0个第一片段开始起算，直到第

个第一片段。该

个音频片段可以依次输入到该降噪模型中，例如图4所示的

是

个音频片段中当前输入到该降噪模型中的音频片段，

记为目标片段。音频编码器可以将该目标片段

从时域变换为时频语谱图，该时频语谱图记为目标片段

对应的第一时频语谱图

。

该语谱编码器可以对目标片段

对应的第一时频语谱图

进行处理，得到

对应的深度特征

，具体的，该语谱编码器可以将该目标片段

对应的第一时频语谱图

编码成一个深度特征

。该深度特征

一方面被送入噪声分类器，另一方面被送入语音降噪器。噪声分类器可以对该深度特征

进行处理，得到

对应的噪声特征。进一步，噪声分类器将该目标片段

对应的噪声特征提供给语音降噪器，语音降噪器可以根据该深度特征

和该目标片段

对应的噪声特征确定该目标片段

对应的语音特征。

在一种可能的实现方式中，如图4所示，噪声分类器包括噪声编码器和分类层。语音降噪器包括语音编码器、拼接器和掩码生成器。

噪声分类器对该深度特征

进行处理，得到

对应的噪声特征，包括：通过噪声编码器将目标片段

对应的深度特征

变换为第一目标特征

，将第一目标特征

作为

对应的噪声特征。进一步，

对应的噪声特征可以作为分类层的输入，同时，

对应的噪声特征可以作为语音降噪器中拼接器的输入。分类层对

对应的噪声特征进行处理，得到

对应的噪声类型。

另外，如图4所示，该目标片段

对应的深度特征

一方面被送入噪声分类器，另一方面被送入语音降噪器。语音降噪器根据该深度特征

和该目标片段

对应的噪声特征确定该目标片段

对应的语音特征，包括：语音降噪器中的语音编码器可以将该深度特征

变换为第二目标特征

。语音降噪器中的拼接器将

对应的噪声特征例如

和第二目标特征

拼接构成

对应的语音特征

。

进一步，语音降噪器中的掩码生成器可以对

对应的语音特征

进行处理，得到

对应的第一时频语谱图

的掩码。音频编码器可以对第一时频语谱图

和该掩码进行处理，得到

对应的第二时频语谱图，并对第二时频语谱图进行处理，得到

对应的降噪后的第二片段。

可以理解的是，由于上述所述的

个音频片段可以依次输入到该降噪模型中，因此，该

个音频片段中的每个音频片段可对应一个第二片段，从而使得该

个音频片段中每个音频片段分别对应的第二片段可以构成上述所述的输出音频信号。

在另一种可能的实现方式中，如图5所示，噪声分类器包括：噪声编码器（NoiseEncoder）、噪声注意力机制（Noise Attention）、拼接器和分类层（Classfier）。语音降噪器包括语音编码器（Speech Encoder）、语音注意力机制（Speech Attention）、拼接器和掩码生成器（Mask Generator）。可以理解的是，在一些实施例中，噪声分类器可以包括噪声注意力机制，语音降噪器不包括语音注意力机制。或者，在其他一些实施例中，噪声分类器可以不包括噪声注意力机制，语音降噪器包括语音注意力机制。下面以图5为例进行示意性说明。

噪声分类器对该深度特征

进行处理，得到

对应的噪声特征，包括：通过噪声编码器将目标片段

对应的深度特征

变换为第一目标特征

，该第一目标特征

可以是一个高维特征；通过噪声注意力机制对目标片段

之前的预设数量的第一片段分别对应的深度特征、以及目标片段

对应的深度特征

和第一目标特征

进行处理，得到第一注意力系数

。其中，目标片段

之前的预设数量的第一片段可以是目标片段

之前的

个第一片段。

例如，目标片段

之前的

个第一片段记为

，由于目标片段

是如上所述的

个音频片段中的第

帧，因此，音频片段

是第

帧，音频片段

是第

帧，依次类推，音频片段

是第

帧。

由于

依次输入该降噪模型。因此，当

输入该降噪模型时，音频编码器生成

对应的时频语谱图

，语谱编码器生成

对应的深度特征

。当

输入该降噪模型时，音频编码器生成

对应的时频语谱图

，语谱编码器生成

对应的深度特征

。以此类推，当

输入该降噪模型时，音频编码器生成

对应的时频语谱图

，语谱编码器生成

对应的深度特征

。当

输入该降噪模型时，音频编码器生成

对应的时频语谱图

，语谱编码器生成

对应的深度特征

，噪声编码器将

变换为第一目标特征

。具体的，噪声注意力机制可以根据

、

、…、

、

和

计算得到第一注意力系数

。

进一步，噪声分类器中的拼接器将第一注意力系数

和第一目标特征

进行拼接，从而构成目标片段

对应的噪声特征

。另外，

对应的噪声特征

可以作为分类层的输入，同时，

对应的噪声特征

可以作为语音降噪器中拼接器和语音注意力机制的输入。也就是说，噪声分类器中的拼接器不仅可以将

对应的噪声特征

提供给噪声分类器中的分类层，同时还可以将

提供给语音降噪器中的拼接器和语音注意力机制。分类层包括一个线性层和一个柔性最大（Softmax）激活函数，分类层对

对应的噪声特征

进行处理，得到

对应的噪声类型。

另外，如图5所示，语谱编码器生成的

、

、…、

、

不仅可以提供给噪声编码器，同时还可以提供给语音编码器。语音降噪器根据该深度特征

和该目标片段

对应的噪声特征确定该目标片段

对应的语音特征，包括：语音降噪器中的语音编码器将该深度特征

变换为第二目标特征

，第二目标特征

可以是一个高维特征。语音注意力机制对目标片段

对应的噪声特征

、目标片段

对应的深度特征

和第二目标特征

进行处理，得到第二注意力系数

。

例如，目标片段

之前的

个第一片段记为

，

分别对应的深度特征依次为

、

、…、

。

语音注意力机制可以根据

、

、…、

、

、

、

计算得到第二注意力系数

。例如，语音注意力机制可以将

与

拼接得到第一序列

，将

与

拼接得到第一序列

，以此类推，将

与

拼接得到第一序列

，将

与

进行拼接得到第一序列

。

另外，语音注意力机制还可以将

与

进行拼接得到第二序列

。进一步，语音注意力机制计算该第二序列和该多个第一序列之间的第二注意力系数

。

进一步，语音降噪器中的拼接器将第二注意力系数

、目标片段

对应的噪声特征

和第二目标特征

进行拼接，从而构成目标片段

对应的语音特征

。该语音降噪器中的拼接器可以将

提供给掩码生成器，掩码生成器包括一个线性层和一个sigmoid激活函数。掩码生成器可以对

对应的语音特征

进行处理，得到

对应的第一时频语谱图

的掩码。

音频编码器可以对第一时频语谱图

和该掩码进行处理，得到

对应的降噪后的第二片段。

图6所示为降噪模型的另一种结构示意图，具体的，图6所示的降噪模型是在图5的基础上进一步细化的结构。下面结合图6对图5所示的降噪模型的各个组成部分进行详细介绍。

图5所示的音频编码器可以由一个一维卷积层（1-D Conv）构成，该一维卷积层为图6所示的第一卷积层。该降噪模型的输入可以是如上所述的输入音频信号，第一卷积层可以将该输入音频信号分割为多个音频片段，例如，

个音频片段，每个音频片段包括

个采样点，

是当前输入到该降噪模型中的音频片段，该音频片段记为目标片段。

以

为例，该第一卷积层可以将

变换为二维时频语谱图。例如，变换前

包括

个采样点，经过一维卷积之后变成了

个点，该变换类似于短时傅里叶变换，该变换可以表示为如下公式（1）：

（1）

其中，

表示卷积操作，

表示非线性函数。

当

时，

。当

时，

。依次类推，当

时，

。

图6所示的语谱编码器可以由一个长短时记忆网络（long short term memory，LSTM）层实现。例如，LSTM层的处理过程可以表示为如下公式（2）：

（2）

其中，

表示语谱编码器的输出，即语谱编码器得到的深度特征。

表示语谱编码器的输入，另外，

也表示音频编码器的输出，即音频编码器的输出是语谱编码器的输入。

当

时，

。当

时，

。依次类推，当

时，

。

图5所示的噪声分类器具体可以包括噪声编码器（Noise Encoder）、噪声注意力机制（Noise Attention）和分类层（Classfier）。其中，噪声编码器可以由一个LSTM层构成，该LSTM层可以将深度特征变换为一个高维特征，该变换可以表示为如下公式（3）所示：

（3）

其中，

表示噪声编码器的输出，上标

表示噪声。

表示语谱编码器输出的深度特征。例如，当

时，

。当

时，

。依次类推，当

时，

。

噪声注意力机制可以采用标准的计算方式实现。例如，噪声注意力机制可以计算噪声编码器输出的当前帧的高维特征与语谱编码器输出的

帧的深度特征相似度。其中，该

帧包括当前帧和当前帧之前的

帧。例如，当前帧为第

帧，当前帧之前的

帧包括第

帧、第

帧、…、第

帧。其中，第

帧可以是如上所述的音频片段

，第

帧可以是如上所述的音频片段

，依次类推，第

帧可以是如上所述的音频片段

，第

帧可以是如上所述的音频片段

。该

帧的深度特征依次记为

，

，…，

，

。

可以是如上所述的

，

可以是如上所述的

。该当前帧的高维特征记为

。第一注意力系数

的计算公式可以表示为如下公式（4）：

（4）

公式（4）的具体计算过程可以是：根据

和

之间的相似度得到系数

，根据

和

之间的相似度得到系数

，依次类推，根据

和

之间的相似度得到系数

，根据

和

之间的相似度得到系数

。进一步，

可以具体表示为如下公式（5）：

（5）

其中，

表示噪声注意力机制得到的第

帧的输出，

表示公式（3）中

的第

帧输出。

如图6所示的分类层采用一个线性层和一个Softmax激活函数实现。

具体的，该噪声分类器中的拼接器（Concate）可以将

和

进行拼接得到

对应的噪声特征

，

。

分类层根据

对应的噪声特征

得到

对应的噪声类型，该噪声类型记为

，

可以表示为如下公式（6）：

（6）

其中，

表示分类层中的线性层的权重系数，

表示该线性层的偏移参数。

如图5所示，语音降噪器具体可以包括：语音编码器（Speech Encoder）、语音注意力机制（Speech Attention）和掩码生成器（Mask Generator）。其中，语音编码器可以由图6所示的LSTM层构成，使得语音编码器可以将语谱编码器输出的深度特征变换为一个高维特征，该变换可以表示为如下公式（7）：

（7）

其中，

表示语音编码器的输出，上标

表示语音降噪器，

表示语谱编码器输出的深度特征。

例如，当

时，

。当

时，

。依次类推，当

时，

。

具体的，噪声编码器生成的

、

、…、

、

和语音编码器生成的

、

、…、

、

之间的区别是上角标不同，上角标为

表示图6所示左侧的噪声分类器，上角标为

表示图6所示右侧的语音降噪器。

语音注意力机制可以将噪声分类器得到的

分别与语谱编码器得到的深度特征

、

、…、

、

进行拼接，例如，将

与

拼接得到第一序列

，将

与

拼接得到第一序列

，以此类推，将

与

拼接得到第一序列

，将

与

进行拼接得到第一序列

。

另外，语音注意力机制还可以将

与语音编码器输出的

进行拼接得到第二序列

。

其中，

表示第

帧，

表示第

帧，并且从第

帧到第

帧一共是

帧，

表示语音注意力机制的窗口大小，或者

表示噪声注意力机制的窗口大小。另外，语音注意力机制和上述的噪声注意力机制具体可以采用因果局部注意力机制（causal local attention），即当前帧参考其先前的

帧。

进一步，语音注意力机制计算该第二序列和该多个第一序列之间的第二注意力系数

。

可以表示为如下公式（8）：

（8）

其中，

的具体计算过程可以参照如上所述的公式（5），此处不再赘述。

表示语音注意力机制的输出，下角标

表示第

帧，上角标

表示语音降噪器。

语音降噪器中的拼接器可以将语音注意力机制的输出

、语音编码器的输出

、噪声分类器的输出

进行拼接得到

对应的语音特征

，

。

进一步，还可以将

输入一个映射层得到最终的语音特征

，该映射层位于语音降噪器中的拼接器和掩码生成器之间。

可以表示为如下公式（9）：

（9）

其中，

表示

激活函数，该

激活函数包括在该映射层中，

表示该映射层的权重系数，

表示该映射层的偏移系数。

表示映射得到的高维特征，上角标

表示语音降噪器，用于区分噪声分类器。进一步，将

输入掩码生成器，该掩码生成器包括一个线性层和一个sigmoid激活函数。

该掩码生成器可以根据

生成

对应的掩码，

对应的掩码记为

，其中，

表示音频编码器输出的第

帧的时频语谱图，

表示该掩码生成器中的线性层的权重系数，

表示该掩码生成器中的线性层的偏移系数。

对应的掩码具体可以是第

帧的时频语谱图

中每个时频点的掩码值。

如图5所示的音频解码器可以由一个一维卷积层来实现，该一维卷积层具体可以是如图6所示的第二卷积层。该第二卷积层可以将

对应的掩码和

相乘得到第二时频语谱图的估计

，该第二时频语谱图可以是第

帧的干净语音语谱图，

可以表示为如下公式（10）：

（10）

其中，

表示点乘，

表示音频编码器输出的第

帧的时频语谱图。

公式（10）中的

表示

对应的掩码。

进一步，音频解码器还可以将公式（10）中估计得到的干净语音语谱图变换为时域的音频信号

，该音频信号

为第

帧即音频片段

对应的降噪后的第二片段。

可以表示为如下公式（11）：

（11）

其中，

表示一维卷积，具体的，

可以是如上公式（1）所示的反变换，即公式（1）的作用是将时域的音频信号变换为时频语谱图，公式（11）的作用是将时频语谱图变换为时域的音频信号。

表示估计得到的第

帧的干净语音时域信号。也就是说，当

作为如图5或图 6所示的降噪模型的输入时，该降噪模型的输出是

，

是带噪的音频信号，

是降噪后的干净的音频信号。

可以理解的是，在降噪模型的训练过程中，由于降噪模型的输入音频信号可以被分割为多个音频片段，即多个第一片段。

是该多个第一片段中的一个，由于该多个第一片段可以依次输入降噪模型，因此，降噪模型可以对该多个第一片段依次进行处理，从而依次输出每个第一片段对应的第二片段。每个第一片段分别对应的第二片段构成该降噪模型的输出音频信号。另外，输入音频信号是根据样本噪声信号和样本音频信号生成的，生成过程参照上述过程，此处不再赘述。进一步，根据该样本音频信号和该输出音频信号，对该降噪模型进行训练。该训练过程可以是多次迭代过程，在不同迭代过程中，可以选择不同的样本噪声信号和不同的样本音频信号，从而生成不同的输入音频信号，使得降噪模型针对不同的输入音频信号输出不同的输出音频信号。如此，每个输入音频信号可以对应一个输出音频信号，即每个样本音频信号可以对应一个输出音频信号。由于样本音频信号可以是无噪声的干净语音，输出音频信号是该降噪模型对输入音频信号进行降噪处理后得到的音频信号，因此，根据多个样本音频信号、以及每个样本音频信号分别对应的输出音频信号，可以对该降噪模型进行多次迭代训练，在多次迭代训练过程中，该降噪模型涉及到的参数可以逐渐收敛，当收敛程度达到预设程度时，该降噪模型被训练完成。

本公开实施例通过样本噪声信号和无噪声的样本音频信号生成带噪的输入音频信号，并将该输入音频信号作为降噪模型的输入。由于该降噪模型包括噪声分类器和语音降噪器，噪声分类器用于确定该输入音频信号对应的噪声特征，语音降噪器用于根据该输入音频信号对应的噪声特征确定该输入音频信号对应的语音特征，从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪，更好的引导语音降噪器提取语音特征。也就是说，根据噪声特征可以有针对性的消除带噪信号中的噪声，从而达到更好的语音降噪效果。

下面结合具体的实施例介绍一下根据该样本音频信号和该输出音频信号，对该降噪模型进行一次训练的过程。

具体的，根据该样本音频信号和该输出音频信号，对该降噪模型进行训练，包括：将该样本音频信号分割为多个第三片段，所述多个第三片段和所述多个第一片段一一对应；根据所述多个第一片段中每个第一片段分别对应的第二片段、以及所述多个第三片段，确定第一损失函数；根据降噪模型确定的所述多个第一片段中每个第一片段分别对应的噪声类型、以及每个第一片段对应的真实的噪声类型，确定第二损失函数；根据所述第一损失函数和所述第二损失函数对所述降噪模型进行训练。

例如，对图5或图6所示的降噪模型的训练目标有两个，第一个训练目标是针对样本音频信号即参考的干净语音信号的估计精度，第二个训练目标是噪声分类的精度。其中，样本音频信号和输出音频信号用于实现第一个训练目标。所述输入音频信号对应的噪声类型和所述样本噪声信号的噪声类型用于实现第二个训练目标。

例如，该样本音频信号是无噪声的干净语音。在该样本音频信号中加入样本噪声信号

得到输入音频信号

。进一步，将该样本音频信号分割为

个第三片段，也就是说，该样本音频信号被分割成的第三片段的个数与

被分割成的第一片段的个数相同，并且

个第三片段和

个第一片段一一对应。例如，

个第三片段中的第

个第三片段记为

，

个第一片段中的第

个第一片段记为

，

和

对应。

当

输入降噪模型后，该降噪模型的输出是

，

可以记为

。

个第一片段依次输入降噪模型后，降噪模型可以输出

个第二片段，并且

个第二片段是依次输出的。进一步，根据

个第二片段和

个第三片段，确定第一损失函数。可选的，此处的

个第一片段、

个第二片段、

个第三片段分别可以从第1个片段开始起算，直到第

个片段。

例如，第一损失函数

可以表示为如下公式（12）：

（12）

其中，

表示最小均方误差（minimum mean square error，MSE）。第一损失函数可以记为MSE损失函数。公式（12）的目标是最小化估计出的输出音频信号与原始干净的样本音频信号之间的最小均方误差。

可以理解的是，在样本音频信号中加入样本噪声信号时，可以在样本音频信号中加入一种类型的样本噪声信号，或者加入多种类型的样本噪声信号。

例如，如上所述的第二数据库中可以存储有多个样本噪声信号，其中，每个样本噪声信号的噪声类型可以是预先存储在该第二数据库中的。具体的，该第二数据库中包括的噪声类型例如有20种，样本噪声信号的个数可以不限于20个，例如，可以大于20个，也就是说，该第二数据库中的样本噪声信号的个数可以大于20个，但是噪声类型一共可以是20种。此外，该20种噪声类型可以对应有相应的编号，例如，该20种噪声类型依次编号为0、1、2、…、19。从第二数据库中随机选取一个样本噪声信号时，该样本噪声信号的噪声类型是该20种噪声类型中的一种，例如，该样本噪声信号的噪声类型的编号为1，那么该样本噪声信号的噪声类型的分布概率为：该样本噪声信号的噪声类型的编号为1的概率是100%，该样本噪声信号的噪声类型的编号为其他值的概率均为0。

如果在样本音频信号中加入一种类型的样本噪声信号得到输入音频信号，那么将输入音频信号分割为

个第一片段后，由于

个第一片段依次输入降噪模型，降噪模型中的噪声分类器可以依次确定出每个第一片段对应的噪声类型，进一步，根据噪声分类器确定的

个第一片段分别对应的噪声类型、以及每个第一片段对应的真实的噪声类型，确定第二损失函数。

例如，当某个第一片段输入降噪模型时，该降噪模型中的噪声分类器可以输出该第一片段对应的噪声类型的分布概率，即该第一片段对应的噪声类型的编号为0的概率、该第一片段对应的噪声类型的编号为1的概率、…、该第一片段对应的噪声类型的编号为19的概率。例如，

表示噪声分类器输出的第

个第一片段即

对应的噪声类型的编号为

的概率。

表示

对应的噪声类型的编号为

的真实概率，该真实概率是该输入音频信号中包含的样本噪声信号的噪声类型的编号为

的概率。

如果在样本音频信号中加入多种类型的样本噪声信号得到输入音频信号，例如，在样本音频信号的前三分之一部分加入噪声类型的编号为1的样本噪声信号，在该样本音频信号的中间三分之一部分加入噪声类型的编号为2的样本噪声信号，在该样本音频信号的后三分之一部分加入噪声类型的编号为3的样本噪声信号，那么

表示

在该输入音频信号中对应的样本噪声信号的噪声类型的编号为

的概率。

如上所述的第二个训练目标具体可以是：针对同一个输入该降噪模型的音频片段，最小化噪声分类器输出的该音频片段的噪声类型的分布概率与该音频片段的真实噪声类型的分布概率之间的交叉熵损失函数，该交叉熵损失函数可以记为第二损失函数，该第二损失函数

可以表示为如下公式（13）：

（13）

其中，

表示噪声类型的数量，例如，如上所述的20。

进一步，根据如上所述的第一损失函数和第二损失函数可以得到该降噪模型总的损失函数，该总的损失函数记为

，该总的损失函数是交叉熵损失函数与MSE损失函数的加权平均结果，

可以表示为如下公式（14）：

（14）

其中，

表示权重系数，用于平衡噪声分类和语音降噪两个任务。对分类交叉熵

取log是为了将两种损失函数保持在同一个数量级。在训练过程中可以根据该总的损失函数对图5或图6所示的降噪模型进行训练。

本公开实施例通过一个降噪模型可以完成两个任务：噪声分类和语音降噪，并且将噪声分类过程中得到的噪声特征提供给语音降噪，使得语音降噪的过程中可以根据噪声特征更好的提取语音特征。例如，在语音注意力机制中参考噪声特征后，可以使得语音注意力机制提取到历史帧中与当前帧相似的帧，所谓的相似是指具有相同类型的噪声，从而使得语音注意力机制可以提取到更加重要的信息，从而可以达到更好的语音降噪目的。另外，将输入音频信号分割为多个音频片段，多个音频片段依次输入该降噪模型时，噪声分类过程可以确定每个音频片段的噪声类型，由于不同音频片段的噪声类型可能是不同的，因此根据不同噪声类型的音频片段对该降噪模型进行训练，可使得该降噪模型能够更好的识别动态噪声，从而可以更好的消除动态噪声。

可以理解的是，当上述的降噪模型被训练完成后，通过降噪模型可以对音频信号进行处理，从而得到降噪后的目标音频信号。下面结合具体的实施例来介绍音频信号处理方法。

图7为本公开实施例提供的音频信号处理方法流程图。该方法具体步骤如下：

S701、获取音频信号。

如图2所示，假设该降噪模型的训练过程由如图2所示的服务器21来执行，当服务器21将该降噪模型训练完成后，服务器21可以将训练完成的降噪模型部署到终端22中。具体的，终端22包括麦克风，麦克风可以采集音频信号，由于终端22周围的环境中可能存在噪声，例如，开关门声、走路声、敲桌子声等复杂的动态噪声，因此，麦克风采集的音频信号是带噪的音频信号。本实施例可以将麦克风采集的音频信号作为该降噪模型在使用阶段或推理阶段中的输入。

S702、利用预先训练的降噪模型确定所述音频信号对应的噪声特征。

当终端22中的麦克风采集到音频信号后，终端22可以利用预先训练的降噪模型确定该音频信号对应的噪声特征。该降噪模型的结构如图4、图5或图6所示，此处不再赘述。

可选的，所述降噪模型包括噪声分类器和语音降噪器；所述噪声分类器用于确定所述音频信号对应的噪声特征。图4、图5或图6所示，该降噪模型包括噪声分类器和语音降噪器，具体的，终端22可以利用该降噪模型中的噪声分类器确定该音频信号对应的噪声特征。

S703、对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征。

可选的，所述语音降噪器用于对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征。例如，当噪声分类器确定出该音频信号对应的噪声特征之后，噪声分类器可以将该音频信号对应的噪声特征提供给语音降噪器。终端22可以利用该语音降噪器对该音频信号对应的噪声特征进行处理，得到该音频信号对应的语音特征。

进一步，该降噪模型还可以根据第二音频信号对应的语音特征生成该第二音频信号对应的降噪后的输出音频信号，具体过程可以参照上述实施例所述的过程，此处不再赘述。

S704、对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号。

进一步，终端22还可以利用该降噪模型对该音频信号对应的语音特征进行处理，得到该音频信号对应的降噪后的目标音频信号。

S701-S704的具体过程可以参照如上所述的该降噪模型在训练过程中根据输入音频信号得到输出音频信号的过程，此处不再赘述。

本公开实施例将音频信号输入到预先训练完成的降噪模型中，由于该降噪模型包括噪声分类器和语音降噪器，噪声分类器用于确定音频信号对应的噪声特征，语音降噪器用于根据音频信号对应的噪声特征确定音频信号对应的语音特征，从而使得语音降噪器可以利用该噪声特征辅助进行语音降噪，更好的引导语音降噪器提取语音特征，从而达到更好的语音降噪效果。

可选的，利用预先训练的降噪模型确定所述音频信号对应的噪声特征，包括如图8所示的如下几个步骤：

S801、将所述音频信号分割为多个第一片段。

例如，将麦克风采集到的音频信号分割为多个第一片段的过程类似于上述将输入音频信号分割为多个第一片段的过程，此处不再赘述。例如，本实施例将该音频信号分割为

个第一片段。

S802、将所述多个第一片段依次输入所述预先训练的降噪模型，以生成目标片段对应的第一时频语谱图，其中，所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段。

该

个第一片段依次输入到预先训练完成的降噪模型中，假设当前输入到该降噪模型中的第一片段记为目标片段

。

可选的，所述降噪模型还包括音频编码器和语谱编码器；所述音频编码器用于生成所述音频信号中目标片段对应的第一时频语谱图。

例如，终端22可以利用该降噪模型中的音频编码器对目标片段

进行处理，从而生成该目标片段

对应的第一时频语谱图

。

S803、对所述目标片段对应的第一时频语谱图进行处理，得到所述目标片段对应的深度特征。

可选的，所述语谱编码器用于对所述目标片段对应的第一时频语谱图进行处理，得到所述目标片段对应的深度特征。

例如，音频编码器可以将该目标片段

对应的第一时频语谱图

提供给语谱编码器，从而使得终端22可以利用该语谱编码器对该目标片段

对应的第一时频语谱图

进行处理，从而得到该目标片段

对应的深度特征

。

S804、对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征。

例如，该语谱编码器不仅可以将该目标片段

对应的深度特征

提供给音频编码器，同时还可以将

提供给语谱编码器。音频编码器可以对该目标片段

对应的深度特征

进行处理，得到该目标片段

对应的噪声特征。

在一种可行的实现方式中，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征，包括：将所述目标片段对应的深度特征变换为第一目标特征，所述第一目标特征为所述目标片段对应的噪声特征。

可选的，所述噪声分类器包括：噪声编码器和分类层；所述噪声编码器用于将所述目标片段对应的深度特征变换为第一目标特征。所述分类层用于对所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的噪声类型。

例如图4所示，噪声分类器包括噪声编码器和分类层。通过噪声编码器将目标片段

对应的深度特征

变换为第一目标特征

，将第一目标特征

作为

对应的噪声特征。

进一步，噪声编码器将

对应的噪声特征提供给分类层，由分类层对

对应的噪声特征进行处理，得到

对应的噪声类型。在另一种可行的实现方式中，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征，包括：将所述目标片段对应的深度特征变换为第一目标特征；对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理，得到第一注意力系数，所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。

可选的，所述噪声分类器还包括：噪声注意力机制；所述噪声注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理，得到第一注意力系数。

如图5或图6所示，噪声分类器包括：噪声编码器（Noise Encoder）、噪声注意力机制（Noise Attention）、拼接器和分类层（Classfier）。通过噪声编码器将目标片段

对应的深度特征

变换为第一目标特征

，该第一目标特征

可以是一个高维特征；通过噪声注意力机制对目标片段

对应的深度特征

和第一目标特征

进行处理，得到第一注意力系数

。

进一步，噪声分类器中的拼接器将第一注意力系数

和第一目标特征

进行拼接，从而构成目标片段

对应的噪声特征

。

可选的，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征之后，所述方法还包括：对所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的噪声类型。

例如图5或图6所示，

对应的噪声特征

可以作为分类层的输入，分类层包括一个线性层和一个柔性最大（Softmax）激活函数，分类层对

对应的噪声特征

进行处理，得到

对应的噪声类型。

可选的，对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征，包括：对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征。

例如图4-图6所示，噪声分类器将该目标片段

和该目标片段

对应的噪声特征确定该目标片段

对应的语音特征。

在一种可行的实现方式中：对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，包括：将所述目标片段对应的深度特征变换为第二目标特征，所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

可选的，所述语音降噪器包括：语音编码器和掩码生成器；所述语音编码器用于将所述目标片段对应的深度特征变换为第二目标特征；所述掩码生成器用于对所述目标片段对应的语音特征进行处理，得到所述目标片段对应的第一时频语谱图的掩码。

如图4所示，语音降噪器包括语音编码器、拼接器和掩码生成器。语音编码器可以将该深度特征

变换为第二目标特征

。语音降噪器中的拼接器将

对应的噪声特征例如

和第二目标特征

拼接构成

对应的语音特征

。掩码生成器可以对

对应的语音特征

进行处理，得到

对应的第一时频语谱图

的掩码。

在另一种可行的实现方式中：对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，包括：将所述目标片段对应的深度特征变换为第二目标特征；对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

所述语音降噪器还包括：语音注意力机制；所述语音注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数。

如图5所示，语音降噪器包括语音编码器（Speech Encoder）、语音注意力机制（Speech Attention）、拼接器和掩码生成器（Mask Generator）。语音降噪器中的语音编码器将该深度特征

变换为第二目标特征

，第二目标特征

可以是一个高维特征。语音注意力机制对目标片段

对应的噪声特征

、目标片段

对应的深度特征

和第二目标特征

进行处理，得到第二注意力系数

。

进一步，语音降噪器中的拼接器将第二注意力系数

、目标片段

对应的噪声特征

和第二目标特征

进行拼接，从而构成目标片段

对应的语音特征

。

可选的，对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，包括：将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接，以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接，得到多个第一序列；将所述目标片段对应的噪声特征与所述第二目标特征进行拼接，得到第二序列；计算所述第二序列和所述多个第一序列之间的第二注意力系数。

例如，目标片段

之前的

个第一片段记为

，

分别对应的深度特征依次为

、

、…、

。语音注意力机制可以根据

、

、…、

、

、

、

计算得到第二注意力系数

。

例如，语音注意力机制可以将

与

拼接得到第一序列

，将

与

拼接得到第一序列

，以此类推，将

与

拼接得到第一序列

，将

与

进行拼接得到第一序列

。另外，语音注意力机制还可以将

与

进行拼接得到第二序列

。

本公开实施例通过将音频信号分割为多个第一片段，多个第一片段依次输入该降噪模型时，该降噪模型可以确定每个第一片段的噪声类型。由于不同的第一片段的噪声类型可能是不同的，因此通过该降噪模型可以更好的识别出该音频信号中的动态噪声，从而可以更好的消除该音频信号中的动态噪声。

可选的，对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号，包括如图9所示的如下几个步骤：

S901、对所述目标片段对应的语音特征进行处理，得到所述目标片段对应的第一时频语谱图的掩码。

S902、对所述第一时频语谱图和所述掩码进行处理，得到所述目标片段对应的第二时频语谱图。

S903、对所述第二时频语谱图进行处理，得到所述目标片段对应的降噪后的第二片段，所述目标音频信号包括所述多个第一片段中每个第一片段分别对应的第二片段。

可选的，所述降噪模型还包括音频解码器；所述音频解码器用于对所述第一时频语谱图和所述掩码进行处理，得到所述目标片段对应的第二时频语谱图；以及对所述第二时频语谱图进行处理，得到所述目标片段对应的降噪后的第二片段。例如，该语音降噪器中的拼接器可以将

提供给掩码生成器，掩码生成器包括一个线性层和一个sigmoid激活函数。

掩码生成器可以对

对应的语音特征

进行处理，得到

对应的第一时频语谱图

的掩码。音频编码器可以对第一时频语谱图

和该掩码进行处理，得到

对应的第二时频语谱图。音频编码器进一步还可以对第二时频语谱图进行处理，得到

对应的降噪后的第二片段。由于音频信号被分割为

个第一片段，该

个第一片段依次作为降噪模型的输入，并且该降噪模型针对

个第一片段中的每个第一片段可以输出一个第二片段，因此，每个第一片段分别对应的第二片段可以构成该音频信号对应的降噪后的目标音频信号。

可以理解的是，在降噪模型的使用阶段，噪声分类器可以提取噪声特征，而不输出噪声类型。

本公开实施例提供的音频信号处理方法可以应用在语音增强和语音识别领域，主要是提高麦克风接收语音信号的质量，进而提高语音识别的准确度。也可以应用在音视频通信领域，提高音频的音质，改善通信体验，特别是针对复杂噪声环境，如开关门声、走路声、敲桌子声等复杂的动态噪声。

图10为本公开实施例提供的音频信号处理装置的结构示意图。本公开实施例提供的音频信号处理装置可以执行音频信号处理方法实施例提供的处理流程，如图10所示，音频信号处理装置100包括：

获取模块101，用于获取音频信号；

确定模块102，用于利用预先训练的降噪模型确定所述音频信号对应的噪声特征；

处理模块103，用于对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征；以及对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号。

可选的，确定模块102包括分割单元1021、输入单元1022和第一处理单元1023，其中，分割单元1021用于将所述音频信号分割为多个第一片段；输入单元1022用于将所述多个第一片段依次输入所述预先训练的降噪模型，以生成目标片段对应的第一时频语谱图，其中，所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段；第一处理单元1023用于对所述目标片段对应的第一时频语谱图进行处理，得到所述目标片段对应的深度特征，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征。

可选的，第一处理单元1023具体用于：将所述目标片段对应的深度特征变换为第一目标特征，所述第一目标特征为所述目标片段对应的噪声特征。

可选的，第一处理单元1023具体用于：将所述目标片段对应的深度特征变换为第一目标特征；

对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理，得到第一注意力系数，所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。

可选的，第一处理单元1023还用于：对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征之后，对所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的噪声类型。

可选的，处理模块103具体用于：对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征。

可选的，处理模块103具体用于：将所述目标片段对应的深度特征变换为第二目标特征，所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

可选的，处理模块103包括：变换单元1031和第二处理单元1032，其中，变换单元1031用于将所述目标片段对应的深度特征变换为第二目标特征；第二处理单元1032用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

可选的，第二处理单元1032具体用于：将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接，以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接，得到多个第一序列；

将所述目标片段对应的噪声特征与所述第二目标特征进行拼接，得到第二序列；

计算所述第二序列和所述多个第一序列之间的第二注意力系数。

可选的，处理模块103在对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号时，具体用于：

对所述目标片段对应的语音特征进行处理，得到所述目标片段对应的第一时频语谱图的掩码；

对所述第一时频语谱图和所述掩码进行处理，得到所述目标片段对应的第二时频语谱图；

对所述第二时频语谱图进行处理，得到所述目标片段对应的降噪后的第二片段，所述目标音频信号包括所述多个第一片段中每个第一片段分别对应的第二片段。

可选的，所述降噪模型包括噪声分类器和语音降噪器；

所述噪声分类器用于确定所述音频信号对应的噪声特征；

所述语音降噪器用于对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征。

可选的，所述降噪模型还包括音频编码器和语谱编码器；

所述音频编码器用于生成所述音频信号中目标片段对应的第一时频语谱图；

所述语谱编码器用于对所述目标片段对应的第一时频语谱图进行处理，得到所述目标片段对应的深度特征。

可选的，所述噪声分类器包括：噪声编码器和分类层；

所述噪声编码器用于将所述目标片段对应的深度特征变换为第一目标特征；

所述分类层用于对所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的噪声类型。

可选的，所述噪声分类器还包括：噪声注意力机制；

所述噪声注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理，得到第一注意力系数。

可选的，所述语音降噪器包括：语音编码器和掩码生成器；

所述语音编码器用于将所述目标片段对应的深度特征变换为第二目标特征；

所述掩码生成器用于对所述目标片段对应的语音特征进行处理，得到所述目标片段对应的第一时频语谱图的掩码。

可选的，所述语音降噪器还包括：语音注意力机制；

所述语音注意力机制用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数。

可选的，所述降噪模型还包括音频解码器；

所述音频解码器用于对所述第一时频语谱图和所述掩码进行处理，得到所述目标片段对应的第二时频语谱图；以及

对所述第二时频语谱图进行处理，得到所述目标片段对应的降噪后的第二片段。

图10所示实施例的音频信号处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，音频信号处理方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行音频信号处理方法或模型训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种音频信号处理方法，包括：

获取音频信号；

对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号；

对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征，包括：对多个第一片段中的目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，其中，所述多个第一片段是通过所述音频信号进行分割得到的；

对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，包括：

将所述目标片段对应的深度特征变换为第二目标特征；

对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，其中，所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

2.如权利要求1所述的方法，其中，利用预先训练的降噪模型确定所述音频信号对应的噪声特征，包括：

将所述音频信号分割为多个第一片段；

将所述多个第一片段依次输入所述预先训练的降噪模型，以生成目标片段对应的第一时频语谱图，其中，所述目标片段是所述多个第一片段中当前输入到所述预先训练的降噪模型的第一片段；

对所述目标片段对应的第一时频语谱图进行处理，得到所述目标片段对应的深度特征；

对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征。

3.如权利要求2所述的方法，其中，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征，包括：

将所述目标片段对应的深度特征变换为第一目标特征，其中，所述第一目标特征为所述目标片段对应的噪声特征。

4.如权利要求2所述的方法，其中，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征，包括：

将所述目标片段对应的深度特征变换为第一目标特征；

对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的深度特征和所述第一目标特征进行处理，得到第一注意力系数，其中，所述第一注意力系数和所述第一目标特征构成所述目标片段对应的噪声特征。

5.如权利要求2所述的方法，其中，对所述目标片段对应的深度特征进行处理，得到所述目标片段对应的噪声特征之后，所述方法还包括：

对所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的噪声类型。

6.如权利要求1所述的方法，其中，对所述目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，包括：

将所述目标片段对应的深度特征变换为第二目标特征，所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

7.如权利要求1所述的方法，其中，对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，包括：

将所述目标片段对应的噪声特征与所述目标片段对应的深度特征进行拼接，以及将所述目标片段对应的噪声特征分别与所述预设数量的第一片段中每个第一片段对应的深度特征进行拼接，得到多个第一序列；

8.如权利要求2所述的方法，其中，对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号，包括：

9.如权利要求1所述的方法，其中，所述降噪模型包括噪声分类器和语音降噪器，

所述噪声分类器用于确定所述音频信号对应的噪声特征；

10.如权利要求9所述的方法，其中，所述降噪模型还包括音频编码器和语谱编码器，

11.如权利要求10所述的方法，其中，所述噪声分类器包括：噪声编码器和分类层，

12.如权利要求11所述的方法，其中，所述噪声分类器还包括：噪声注意力机制，

13.如权利要求10所述的方法，其中，所述语音降噪器包括：语音编码器和掩码生成器，

14.如权利要求13所述的方法，其中，所述语音降噪器还包括：语音注意力机制，

15.如权利要求13所述的方法，其中，所述降噪模型还包括音频解码器，

所述音频解码器用于对所述第一时频语谱图和所述掩码进行处理，得到所述目标片段对应的第二时频语谱图；以及对所述第二时频语谱图进行处理，得到所述目标片段对应的降噪后的第二片段。

16.一种音频信号处理装置，包括：

获取模块，用于获取音频信号；

处理模块，用于对所述音频信号对应的噪声特征进行处理，得到所述音频信号对应的语音特征；以及对所述音频信号对应的语音特征进行处理，得到所述音频信号对应的降噪后的目标音频信号；

所述处理模块还用于：对多个第一片段中的目标片段对应的深度特征和所述目标片段对应的噪声特征进行处理，得到所述目标片段对应的语音特征，其中，所述多个第一片段是通过所述音频信号进行分割得到的；

所述处理模块包括变换单元和第二处理单元，其中，变换单元用于将所述目标片段对应的深度特征变换为第二目标特征；第二处理单元用于对所述目标片段之前的预设数量的第一片段分别对应的深度特征、以及所述目标片段对应的噪声特征、所述目标片段对应的深度特征和所述第二目标特征进行处理，得到第二注意力系数，所述第二注意力系数、所述目标片段对应的噪声特征和所述第二目标特征构成所述目标片段对应的语音特征。

17.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-15中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。