CN116057626A

CN116057626A - 使用机器学习的降噪

Info

Publication number: CN116057626A
Application number: CN202180058353.5A
Authority: CN
Inventors: 双志伟
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-07-31
Filing date: 2021-08-02
Publication date: 2023-05-02

Abstract

一种降噪的方法包括使用神经网络控制维纳滤波器。由神经网络估计的增益与由维纳滤波器产生的增益相结合。以这种方式，与仅使用神经网络相比，降噪系统提供了改进的结果。

Description

使用机器学习的降噪

相关申请的交叉引用

本申请要求2020年11月11日提交的欧洲专利申请号20206921.7、2020年11月5日提交的美国临时专利申请号63/110,114、2020年8月20日提交的美国临时专利申请号63/068,227和2020年7月31日提交的国际专利申请号PCT/CN2020/106270的优先权，所述申请中的所有申请在此通过引用将其并入本文。

技术领域

本公开涉及音频处理，并且具体涉及降噪。

背景技术

除非本文另有说明，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且不因被包含在本节中而被承认是现有技术。

在移动设备中实现降噪具有挑战性。移动设备可以在各种用例(包括语音通信、用户生成内容的开发等)中捕获静态和非静态噪声两者。移动设备可能在功率消耗和处理能力方面受到限制，从而导致对于开发在由移动设备实现时有效的降噪过程的挑战。

发明内容

鉴于上述情况，需要开发一种在移动设备中工作良好的降噪系统。

根据一个实施例，一种计算机实现的音频处理方法包括使用机器学习模型生成音频信号的第一频带增益和语音活动检测值。该方法还包括基于第一频带增益和语音活动检测值生成背景噪声估计。该方法还包括通过使用由背景噪声估计控制的维纳(Wiener)滤波器处理音频信号来生成第二频带增益。该方法还包括通过组合第一频带增益和第二频带增益生成组合增益。该方法还包括通过使用组合增益修改音频信号来生成经修改的音频信号。

根据另一实施例，一种装置包括处理器和存储器。该处理器被配置为控制该装置实现本文描述的方法中的一个或多个方法。该装置可以另外包括与本文描述的方法中的一个或多个方法的细节类似的细节。

根据另一实施例，一种非暂时性计算机可读介质存储计算机程序，该程序在由处理器执行时控制装置执行包括本文描述的方法中的一个或多个方法的处理。

以下详细描述和附图提供了对各种实施方式的本质和优点的进一步理解。

附图说明

图1是降噪系统100的框图。

图2示出了适于实现本公开的示例实施例的示例系统200的框图。

图3是音频处理的方法300的流程图。

具体实施方式

本文描述了与降噪相关的技术。在下面的描述中，出于说明的目的，阐述了许多示例和具体细节，以便提供对本公开的透彻理解。然而，对于本领域技术人员来说，将明显的是，由权利要求所限定的本公开可以单独包括这些示例中的特征中的一些或所有特征，或者与下面描述的其他特征相结合，并且还可以包括本文描述的特征和概念的修改和等同物。

在下面的描述中，详细描述了各种方法、过程和程序。虽然特定的步骤可能以一定的顺序被描述，但是这种顺序主要是为了方便和清楚。特定的步骤可以重复多于一次，可以发生在其他步骤之前或之后(即使这些步骤另外以其他顺序被描述)，并且可以与其他步骤并行发生。只有当第一步骤必须在第二步骤开始之前完成时，才需要在第一步骤之后进行第二步骤。当根据上下文不清楚时，将特别指出这种情况。

在本文件中，使用了术语“和”、“或”以及“和/或”。这种术语将被理解为具有包含的含义。例如，“A和B”可以意指至少如下：“A和B两者”、“至少A和B两者”。作为另一示例，“A或B”可以意指至少如下：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一示例，“A和/或B”可以意指至少如下：“A和B”、“A或B”。当旨在异或时，将特别注明(例如，“A或B”，“A和B中的至多一个”)。

本文档描述了与诸如块、元件、组件、电路等结构相关联的各种处理功能。通常，这些结构可以由一个或多个计算机程序控制的处理器来实现。

图1是降噪系统100的框图。降噪系统100可以在诸如移动电话、具有麦克风的摄像机等移动设备(例如，参见图2)中实现。降噪系统100的组件可以由处理器来实现，例如根据一个或多个计算机程序来控制。降噪系统100包括加窗块102、变换块104、频带特征分析块106、神经网络108、维纳滤波器110、增益组合块112、频带增益到仓(bin)增益块114、信号修改块116、逆变换块118和逆加窗块120。降噪系统100可以包括(为了简洁)没有详细描述的其他组件。

加窗块102接收音频信号150，对音频信号150执行加窗，并生成音频帧152。音频信号150可以由实现降噪系统100的移动设备的麦克风捕获。通常，音频信号150是包括音频样本序列的时域信号。例如，可以以48kHz的采样率捕获音频信号150，其中，每个样本以16比特的比特率被量化。其他示例采样率可以包括44.1kHz、96kHz、192kHz等，并且其他比特率可以包括24比特、32比特等。

通常，加窗块102将重叠窗口应用于音频信号150的样本，以生成音频帧152。加窗块102可以实现各种形式的加窗，包括矩形窗口、三角形窗口、梯形窗口、正弦窗口等。

变换块104接收音频帧152，对音频帧152执行变换，并生成变换特征154。该变换可以是频域变换，并且变换特征154可以包括每个音频帧的仓特征和基频参数。(变换特征154也可以被称为仓特征154。)基频参数可以包括被称为F0的语音基频。变换块104可以实现各种变换，包括傅立叶变换(例如，快速傅立叶变换(FFT))、正交镜像滤波器(QMF)域变换等。例如，变换块104可以实现具有960个点的分析窗口和480个点的帧移位的FFT；可替代地，可以实现1024个点的分析窗口和512个点的帧移位。变换特征154中仓的数量通常与变换分析的点的数量有关；例如，960点FFT产生481个仓。

变换块104可以实现各种过程来确定每个音频帧的基频参数。例如，当变换是FFT时，变换块104可以从FFT参数中提取基频参数。作为另一示例，变换块104可以基于时域信号(例如，音频帧152)的自相关来提取基频参数。

频带特征分析块106接收变换特征154，对变换特征154执行频带分析，并生成频带特征156。频带特征156可以根据各种标度(scale)来生成，包括梅尔(Mel)标度、巴克(Bark)标度等。当使用不同的标度时，频带特征156中的频带数量可以不同，例如针对巴克标度为24个频带，针对梅尔标度为80个频带等。频带特征分析块106可以将频带特征156与基频参数(例如，F0)相结合。

频带特征分析块106可以使用矩形频带。频带特征分析块106也可以使用三角形频带，其中，峰值响应位于频带之间的边界处。

频带特征156可以是频带能量，诸如梅尔频带能量、巴克频带能量等。频带特征分析块106可以计算梅尔频带能量和巴克频带能量的对数值。频带特征分析块106可以应用频带能量的离散余弦变换(DCT)转换来生成新的频带特征，以使得新的频带特征比原始频带特征更不相关。例如，频带特征分析块106可以生成频带特征156作为梅尔频率倒谱系数(MFCC)、巴克频率倒谱系数(BFCC)等。

频带特征分析块106可以根据平滑值来执行对当前帧和先前帧的平滑。频带特征分析块106还可以通过计算当前帧和先前帧之间的一阶差和二阶差来执行差分析。

频带特征分析块106可以计算频带谐波特征，该频带谐波特征指示当前频带中有多少是由周期信号组成的。例如，频带特征分析块106可以基于当前帧的FFT频率绑定来计算频带谐波特征。作为另一示例，频带特征分析块106可以基于当前帧和先前帧之间的相关性来计算频带谐波特征。

一般来说，频带特征156在数量上少于仓特征154，因此减少了输入到神经网络108中的数据的维度。例如，仓特征可以是513个仓或481个仓的数量级，并且频带特征156可以是24个频带或80个频带的数量级。

神经网络108接收频带特征156，根据模型处理频带特征156，并生成增益158和语音活动决策(VAD)160。增益158也可以被称为D增益，例如以指示该增益是神经网络的输出。已经对该模型进行离线训练；训练模型(包括准备训练数据集)将在随后的部分中讨论。

神经网络108使用该模型来基于频带特征156(例如，包括基频F0)估计每个频带的增益和语音活动，并输出增益158和VAD 160。神经网络108可以是全连接神经网络(FCNN)、递归神经网络(RNN)、卷积神经网络(CNN)、另一类型的机器学习系统等或它们的组合。

降噪系统100可以对神经网络108的D增益输出应用平滑或限制。例如，降噪系统100可以沿着时间轴、频率轴等对增益158应用平均平滑或中值滤波。作为另一示例，降噪系统100可以对增益158应用限制，其中，最大增益为1.0并且最小增益对于不同频带是不同的。在一个实施方式中，降噪系统100将增益0.1(例如-20dB)设置为最低4个频带的最小增益，并将增益0.18(例如-15dB)设置为中间频带的最小增益。设置最小增益缓解了D增益中的不连续性。可以根据需要调整最小增益值；例如可以为各种频带设置-12dB、-15dB、-18dB、-20dB等最小增益。

维纳滤波器110接收频带特征156、增益158和VAD 160，执行维纳滤波，并生成增益162。增益162也可以被称为W增益，例如以指示该增益是维纳滤波器的输出。通常，维纳滤波器110根据频带特征156来估计输入信号150的每个频带中的背景噪声。(背景噪声也可以被称为稳定噪声。)维纳滤波器110使用由神经网络估计的增益158和VAD 160来控制其滤波处理。在一个实施方式中，对于没有语音活动(例如，VAD 160小于0.5)的给定输入帧(具有对应的频带特征156)，维纳滤波器110检查给定输入帧的频带增益(根据增益158(D增益))。对于具有小于0.5的D增益的频带，维纳滤波器110将这些频带视为噪声帧，并且平滑这些帧的频带能量以获得对背景噪声的估计。

维纳滤波器110还可以跟踪用于计算每个频带的频带能量的平均帧数，以获得噪声估计。当给定频带的该平均数量大于阈值帧数时，应用维纳滤波器110来计算给定频带的维纳频带增益。如果给定频带的该平均数量小于阈值帧数，则给定频带的维纳频带增益为1.0。每个频带的维纳频带增益被输出为增益162，也被称为维纳增益(或W增益)。

实际上，维纳滤波器110基于信号历史(例如，输入信号150的帧数)来估计每个频带中的背景噪声。阈值帧数给予维纳滤波器110足够的帧数，以得到对背景噪声的可靠估计。在一个实施方式中，阈值帧数是50。当一帧为10ms时，这对应于输入信号150的0.5秒。当帧数小于阈值时，维纳滤波器110实际上被旁路(例如，W增益是1.0)。

降噪系统100可以对维纳滤波器110的W增益输出应用限制，其中，最大增益为1.0并且最小增益对于不同频带是不同的。在一个实施方式中，降噪系统100将增益0.1(例如-20dB)设置为最低4个频带的最小增益，并将增益0.18(例如-15dB)设置为中间频带的最小增益。设置最小增益缓解了W增益中的不连续性。可以根据需要调整最小增益值；例如可以为各种频带设置-12dB、-15dB、-18dB、-20dB等最小增益。

增益组合块112接收增益158(D增益)和增益162(W增益)，组合增益，并生成增益164。增益164也可以被称为频带增益、组合频带增益或C增益，例如以指示该增益是D增益和W增益的组合。作为示例，增益组合块112可以将D增益和W增益相乘，以在每个频带的基础上生成C增益。

降噪系统100可以对增益组合块112的C增益输出应用限制，其中，最大增益为1.0并且最小增益对于不同频带是不同的。在一个实施方式中，降噪系统100将增益0.1(例如-20dB)设置为最低4个频带的最小增益，并将增益0.18(例如-15dB)设置为中间频带的最小增益。设置最小增益缓解了C增益中的不连续性。可以根据需要调整最小增益值；例如可以为各种频带设置-12dB、-15dB、-18dB、-20dB等最小增益。

频带增益到仓增益块114接收增益164，将频带增益转换为仓增益，并生成增益166(也称为仓增益)。实际上，频带增益到仓增益块114执行与频带特征分析块106执行的处理相反的处理，以便将增益164从频带增益转换为仓增益。例如，如果频带特征分析块106将1024个点的FFT仓处理为24个巴克标度频带，则频带增益到仓增益块114将增益164的24个巴克标度频带转换为增益166的1024个FFT仓。

频带增益到仓增益块114可以实现各种技术来将频带增益转换为仓增益。例如，频带增益到仓增益块114可以使用插值，例如线性插值。

信号修改块116接收变换特征154(包括仓特征和基频F0)和增益166，根据增益166修改变换特征154，并生成经修改的变换特征168(其包括经修改的仓特征和基频F0)。(经修改的变换特征168也可以被称为经修改的仓特征168。)信号修改块116可以基于增益166修改仓特征154的幅度频谱。在一个实施方式中，信号修改块116将在生成经修改的仓特征168时保持仓特征154的相位谱不变。在另一实施方式中，信号修改块116将在生成经修改的仓特征168时调整仓特征154的相位谱，例如通过基于经修改的仓特征168来执行估计。作为示例，信号修改块116可以使用短时傅立叶变换来调整相位谱，例如通过实施格里芬-利姆(Griffin-Lim)过程。

逆变换块118接收经修改的变换特征168，对经修改的变换特征168执行逆变换，并生成音频帧170。通常，所执行的逆变换是由变换块104执行的变换的逆变换。例如，逆变换块118可以实现逆傅立叶变换(例如，逆FFT)、逆QMF变换等。

逆加窗块120接收音频帧170，对音频帧170执行逆加窗，并生成音频信号172。通常，所执行的逆加窗是加窗块102所执行的加窗的逆过程。例如，逆加窗块120可以对音频帧170执行重叠相加，以生成音频信号172。

结果，使用神经网络108的输出来控制维纳滤波器110的组合可以提供比仅单独使用神经网络来执行降噪更好的结果，因为许多神经网络仅使用短存储来操作。

图2示出了适于实现本公开的示例实施例的示例系统200的框图。系统200包括一个或多个服务器计算机或任何客户端设备。系统200包括任何消费设备，包括但不限于智能电话、媒体播放器、平板电脑、膝上型电脑、可穿戴计算机、车载计算机、游戏控制台、环绕系统、信息亭等。

如图所示，系统200包括中央处理单元(CPU)201，该CPU能够根据存储在例如只读存储器(ROM)202中的程序或者从例如存储单元208加载到随机存取存储器(RAM)203的程序来执行各种过程。在RAM 203中，根据需要，还存储当CPU 201执行各种过程时所需的数据。CPU 201、ROM 202和RAM 203经由总线204相互连接。输入/输出(I/O)接口205也连接到总线204。

以下组件连接到I/O接口205：输入单元206，该输入单元可以包括键盘、鼠标、触摸屏、运动传感器、相机等；输出单元207，该输出单元可以包括诸如液晶显示器(LCD)等显示器和一个或多个扬声器；存储单元208，该存储单元包括硬盘或其他合适的存储设备；以及包括诸如网卡(例如，有线或无线)等网络接口卡的通信单元209。通信单元209还可以与无线输入和输出组件(例如无线麦克风、无线耳塞、无线扬声器等)通信。

在一些实施方式中，输入单元206包括在不同位置(取决于主机设备)的一个或多个麦克风，使得能够捕获各种格式(例如，单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。

在一些实施方式中，输出单元207包括具有各种数量的扬声器的系统。如图2所示，输出单元207(取决于主机设备的能力)可以以各种格式(例如，单声道、立体声、沉浸式、双声道和其他合适的格式)呈现音频信号。

通信单元209被配置为与其他设备通信(例如，经由网络)。根据需要，驱动器210也连接到I/O接口205。根据需要，诸如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可移动介质等可移动介质211被安装在驱动器210上，使得从该可移动介质读取的计算机程序被安装到存储单元208中。本领域技术人员将理解，尽管系统200被描述为包括上述组件，但是在实际应用中，可以添加、移除和/或替换这些组件中的一些，并且所有这些修改或变更都落入本公开的范围内。

例如，系统200可以例如通过在CPU 201上执行一个或多个计算机程序来实现降噪系统100(参见图1)的一个或多个组件。ROM 202、RAM 203、存储单元208等可以存储由神经网络108使用的模型。连接到输入单元206的麦克风可以捕获音频信号150，并且连接到输出单元207的扬声器可以输出对应于音频信号172的声音。

图3是音频处理的方法300的流程图。方法300可以由设备(例如，图2的系统200)实现，如由执行一个或多个计算机程序来控制。

在302处，使用机器学习模型生成音频信号的第一频带增益和语音活动检测值。例如，CPU 201可以实现神经网络108，以通过根据模型处理频带特征156来生成增益158和VAD160(参见图1)。

在304处，基于第一频带增益和语音活动检测值生成背景噪声估计。例如，作为操作维纳滤波器110的一部分，CPU 201可以基于增益158和VAD 160生成背景噪声估计。

在306处，通过使用由背景噪声估计控制的维纳滤波器处理音频信号来生成第二频带增益。例如，CPU 201可以实现维纳滤波器110，以通过处理频带特征156来生成增益162，如背景噪声估计(参见304)所控制的那样。例如，当噪声帧的数量超过针对特定频带的阈值(例如，50个噪声帧)时，维纳滤波器生成针对该特定频带的第二频带增益。

在308处，通过组合第一频带增益和第二频带增益生成组合增益。例如，CPU 201可以实现增益组合块112，以通过组合增益158(来自神经网络108)和增益162(来自维纳滤波器110)来生成增益164。第一频带增益和第二频带增益可以通过乘法来组合。可以通过针对每个频带选择第一频带增益和第二频带增益的最大值来组合第一频带增益和第二频带增益。可以对组合增益应用限制。第一频带增益和第二频带增益可以通过乘法或者通过针对每个频带选择最大值来组合，并且可以对组合增益应用限制。

在310处，通过使用组合增益修改音频信号来生成经修改的音频信号。例如，CPU201可以实现信号修改块116，以通过使用增益166修改仓特征154来生成经修改的仓特征168。

方法300可以包括类似于以上关于降噪系统100描述的那些步骤的其他步骤。示例步骤的非穷举讨论包括以下内容。作为生成神经网络108的输入的一部分，可以对音频信号执行加窗步骤(参见加窗块102)。作为生成神经网络108的输入的一部分，可以对音频信号执行变换步骤(参见变换块104)以将时域信息转换为频域信息。可以对音频信号执行仓到频带转换步骤(参见频带特征分析块106),以减少神经网络108的输入的维度。可以执行频带到仓转换步骤(参见频带增益到仓增益块114)，以将频带增益(例如，增益164)转换为仓增益(例如，增益166)。可以执行逆变换步骤(参见逆变换块118)，以将经修改的仓特征168从频域信息变换为时域信息(例如，音频帧170)。作为加窗步骤的逆步骤，可以执行逆加窗步骤(参见逆加窗块120)来重构音频信号172。

模型创建

如上所述，由神经网络108(参见图1)使用的模型可以被离线训练，然后由降噪系统100存储和使用。例如，计算机系统可以例如通过执行一个或多个计算机程序实现模型训练系统来训练模型。训练模型的一部分包括准备训练数据以生成输入特征和目标特征。输入特征可以通过噪声数据(X)的频带特征计算来计算。目标特征由理想频带增益和VAD决策组成。

噪声数据(X)可以通过组合干净话音(S)和噪声数据(N)来生成。

X＝S+N

VAD决策可以基于对干净话音S的分析。在一个实施方式中，VAD决策由当前帧的能量的绝对阈值来确定。在其他实施方式中可以使用其他VAD方法。例如，可以手动标记VAD。

理想频带增益g通过下式计算：

在上面的等式中，E_s(b)是干净话音的频带b的能量，而E_x(b)是噪声话音的频带b的能量。

为了使模型对不同用例具有鲁棒性，模型训练系统可以对训练数据执行数据扩充。给定具有S_i和N_i的输入话音文件，模型训练系统将在混合噪声数据之前改变S_i和N_i。数据扩充包括三个一般步骤。

第一步骤是控制干净话音的幅度。降噪模型的一个常见问题是它们抑制了低音量话音。因此，模型训练系统通过准备包含具有各种幅度的话音的训练数据来执行数据扩充。

模型训练系统设置范围从-45dB到0dB(例如，-45，-40，-35，-30，-25，-20，-15，-10，-5，0)的随机目标平均幅度。模型训练系统通过值a修改输入话音文件，以匹配目标平均幅度。

S_m＝a*S_i

第二步骤是控制信噪比(SNR)。对于话音文件和噪声文件的每个组合，模型训练系统将设置随机目标SNR。在一个实施方式中，目标SNR是以相等的概率从一组SNR[-5，-3，0，3，5，10，15，18，20，30]中随机选择的。然后模型训练系统通过值b修改输入噪声文件，以使S_m和N_m之间的SNR与目标SNR匹配：

N_m＝b*N_i

第三步骤是限制混合数据。模型训练系统首先通过下式计算混合信号X_ｍ：

X_ｍ＝(S_m+N_ｍ)

在限幅(clipping)的情况下(例如，当以16比特量化将X_ｍ保存为.wav文件时)，模型训练系统计算X_ｍ的最大绝对值，记为A_max。

然后修改率c可以通过下式计算：

c＝32767/A_max

在上面的等式中，值32,767来自16比特量化；该值可以根据其他比特量化精度的需要进行调整。

然后：

S＝c*S_m

N＝c*N_m

S和N将被混合为有噪声的话音X：

X＝S+N

根据需要，可以根据各种过程来执行对平均幅度和SNR的计算。模型训练系统可以在计算平均幅度之前使用最小阈值来移除静默片段。

以这种方式，通过使用各种目标平均幅度和目标SNR来调整训练数据的片段，数据扩充被用于增加训练数据的多样性。例如，使用目标平均幅度的10个变型和目标SNR的10个变型给出了单个训练数据片段的100个变型。数据扩充不需要增加训练数据的大小。如果训练数据在数据扩充之前是100小时，则不需要使用10,000小时的扩充训练数据的全集来训练模型；扩充的训练数据集可以被限制到更小的大小，例如100小时。更重要的是，数据扩充将增加训练数据中幅度和SNR的可变性。

实施细节

实施例可以用硬件、存储在计算机可读介质上的可执行模块或两者的组合(例如，可编程逻辑阵列)来实现。除非另有说明，否则由实施例执行的步骤不需要固有地与任何特定的计算机或其他装置相关，尽管它们在某些实施例中可能相关。特别地，各种通用机器可以与根据本文的教导编写的程序一起使用，或者构造更专用的装置(例如，集成电路)来执行所需的方法步骤可能更方便。因此，实施例可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实现，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口、以及至少一个输出设备或端口。程序代码被应用于输入数据以执行本文描述的功能并生成输出信息。以已知的方式将输出信息应用于一个或多个输出设备。

每个这样的计算机程序优选地被存储在或下载到由通用或专用可编程计算机可读的存储介质或设备(例如，固态存储器或介质、或磁性或光学介质)上，以用于在由计算机系统读取存储介质或设备时配置和操作计算机，以执行本文描述的过程。本发明的系统也可以被认为被实现为配置有计算机程序的计算机可读存储介质，其中，如此配置的存储介质使得计算机系统以特定且预定义的方式进行操作，以执行本文描述的功能。(软件本身以及无形或暂时的信号不包括在内，因为它们是不可授予专利的主题。)

以上描述示出了本公开的各种实施例以及可以如何实施本公开的各方面的示例。上述示例和实施例不应被认为是仅有的实施例，并且被呈现来说明由所附权利要求限定的本公开的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员来说将是显而易见的，并且可以在不脱离由权利要求限定的本公开的精神和范围的情况下被采用。

可从以下枚举的示例实施例(EEE)中了解本发明的各个方面：

EEE 1.一种计算机实现的音频处理的方法，该方法包括：

使用机器学习模型生成音频信号的第一频带增益和语音活动检测值；

基于第一频带增益和语音活动检测值生成背景噪声估计；

通过使用由背景噪声估计控制的维纳滤波器处理音频信号来生成第二频带增益；

通过组合第一频带增益和第二频带增益生成组合增益；以及

通过使用组合增益修改音频信号来生成经修改的音频信号。

EEE 2.如EEE 1所述的方法，其中，机器学习模型是使用数据扩充生成的，以增加训练数据的多样性。

EEE 3.如EEE 1-2中任一项所述的方法，其中，生成第一频带增益和语音活动检测值是使用全连接神经网络、递归神经网络和卷积神经网络中的一个来执行的。

EEE 4.如EEE 1-3中任一项所述的方法，其中，生成第一频带增益包括使用针对至少两个不同频带的至少两个不同限制来限制第一频带增益。

EEE 5.如EEE 1-4中任一项所述的方法，其中，生成背景噪声估计是基于噪声帧的数量超过针对特定频带的阈值的。

EEE 6.如EEE 1-5中任一项所述的方法，其中，生成第二频带增益包括基于特定频带的稳态噪声水平使用维纳滤波器。

EEE 7.如EEE 1-6中任一项所述的方法，其中，生成第二频带增益包括使用针对至少两个不同频带的至少两个不同限制来限制第二频带增益。

EEE 8.如EEE 1-7中任一项所述的方法，其中，生成组合增益包括：

将第一频带增益和第二频带增益相乘；以及

使用针对至少两个不同频带的至少两个不同限制来限制组合频带增益。

EEE 9.如EEE 1-8中任一项所述的方法，其中，生成经修改的音频信号包括使用组合频带增益修改音频信号的幅度谱。

EEE 10.如EEE 1-9中任一项所述的方法，还包括：

将重叠窗口应用于输入音频信号以生成多个帧，其中，音频信号对应于多个帧。

EEE 11.如EEE 1-10中任一项所述的方法，还包括：

对音频信号执行频谱分析以生成音频信号的多个仓特征和基频，

其中，第一频带增益和语音活动检测值基于多个仓特征和基频。

EEE 12.如EEE 11所述的方法，还包括：

基于多个仓特征生成多个频带特征，其中，该多个频带特征是使用梅尔频率倒谱系数和巴克频率倒谱系数中的一个生成的，

其中，第一频带增益和语音活动检测值基于多个频带特征和基频。

EEE 13.如EEE 1-12中任一项所述的方法，其中，组合增益是与音频信号的多个频带相关联的组合频带增益，该方法还包括：

将组合频带增益转换为组合仓增益，其中，组合仓增益与多个仓相关联。

EEE 14.一种存储计算机程序的非暂时性计算机可读介质，该计算机程序在由处理器执行时控制装置执行包括根据EEE 1-13中任一项所述的方法的处理。

EEE 15.一种用于音频处理的装置，该装置包括：

处理器；以及

存储器，

其中，处理器被配置为控制该装置使用机器学习模型生成音频信号的第一频带增益和语音活动检测值；

其中，处理器被配置为控制该装置基于第一频带增益和语音活动检测值生成背景噪声估计；

其中，处理器被配置为控制该装置通过使用由背景噪声估计控制的维纳滤波器处理音频信号来生成第二频带增益；

其中，处理器被配置为控制该装置通过组合第一频带增益和第二频带增益生成组合增益；并且

其中，处理器被配置为控制该装置通过使用组合增益修改音频信号来生成经修改的音频信号。

EEE 16.如EEE 15所述的装置，其中，机器学习模型是使用数据扩充生成的，以增加训练数据的多样性。

EEE 17.如EEE 15-16中任一项所述的装置，其中，在生成第一频带增益和第二频带增益中的至少一个时应用至少一个限制。

EEE 18.如EEE 15-17中任一项所述的装置，其中，生成背景噪声估计是基于噪声帧的数量超过特定频带的阈值的。

EEE 19.如EEE 15-18中任一项所述的装置，其中，处理器被配置为控制该装置对音频信号执行频谱分析，以生成音频信号的多个仓特征和基频，并且

EEE 20.如EEE 19所述的装置，其中，处理器被配置为控制该装置基于多个仓特征生成多个频带特征，其中，该多个频带特征是使用梅尔频率倒谱系数和巴克频率倒谱系数中的一个生成的，并且

参考文献

美国专利申请公开号2019/0378531。

美国专利号10,546,593B2；10,224,053B2；9,053,697B2。

中国专利公开号CN105513605B；CN111192599A；CN110660407B；CN110211598A；CN110085249A；CN109378013A；CN109065067A；CN107863099A。

Jean-Marc Valin，“A Hybrid DSP Deep Learning Approach to Real-TimeFull-Band Speech Enhancement”，2018IEEE第20届多媒体信号处理(MMSP)国际研讨会，DOI:10.1109/MMSP.2018.8547084。

Xia,Y.,Stern,R.，“A Priori SNR Estimation Based on a Recurrent NeuralNetwork for Robust Speech Enhancement”，Proc.Interspeech 2018，3274-3278，DOI:10.21437/Interspeech.2018-2423。

Zhang,Q.,Nicolson,A.M.,Wang,M.,Paliwal,K.,&Wang,C.-X.，“DeepMMSE:ADeepLearning Approach to MMSE-based Noise Power Spectral Density Estimation”，IEEE/ACM关于音频、语音和语言处理的汇刊，1–1.DOI:10.1109/taslp.2020.2987441。

Claims

1.一种计算机实现的音频处理的方法，所述方法包括：

基于所述第一频带增益和所述语音活动检测值生成背景噪声估计；

通过使用由所述背景噪声估计控制的维纳滤波器处理所述音频信号来生成第二频带增益；

通过组合所述第一频带增益和所述第二频带增益来生成组合增益；以及

通过使用所述组合增益修改所述音频信号来生成经修改的音频信号。

2.如权利要求1所述的方法，其中，所述机器学习模型是使用数据扩充生成的，以增加训练数据的多样性。

3.如权利要求1-2中任一项所述的方法，其中，生成所述第一频带增益包括使用针对至少两个不同频带的至少两个不同限制来限制所述第一频带增益。

4.如权利要求1-3中任一项所述的方法，其中，生成所述背景噪声估计是基于噪声帧的数量超过针对特定频带的阈值的。

5.如权利要求1-4中任一项所述的方法，其中，生成所述第二频带增益包括基于特定频带的稳态噪声水平来使用所述维纳滤波器。

6.如权利要求1-5中任一项所述的方法，其中，生成所述第二频带增益包括使用针对至少两个不同频带的至少两个不同限制来限制所述第二频带增益。

7.如权利要求1-6中任一项所述的方法，其中，生成所述组合增益包括：

将所述第一频带增益和所述第二频带增益相乘；以及

使用针对至少两个不同频带的至少两个不同限制来限制所述组合频带增益。

8.如权利要求1-7中任一项所述的方法，其中，生成所述经修改的音频信号包括使用所述组合频带增益修改所述音频信号的幅度谱。

9.如权利要求1-8中任一项所述的方法，还包括：

将重叠窗口应用于输入音频信号以生成多个帧，其中，所述音频信号对应于所述多个帧。

10.如权利要求1-9中任一项所述的方法，还包括：

对所述音频信号执行频谱分析以生成所述音频信号的多个仓特征和基频，

其中，所述第一频带增益和所述语音活动检测值基于所述多个仓特征和所述基频。

11.如权利要求10所述的方法，还包括：

基于所述多个仓特征生成多个频带特征，其中，所述多个频带特征是使用梅尔频率倒谱系数和巴克频率倒谱系数中的一个生成的，

其中，所述第一频带增益和所述语音活动检测值基于所述多个频带特征和所述基频。

12.如权利要求1-11中任一项所述的方法，其中，所述组合增益是与所述音频信号的多个频带相关联的组合频带增益，所述方法还包括：

将所述组合频带增益转换为组合仓增益，其中，所述组合仓增益与多个仓相关联。

13.一种存储计算机程序的非暂时性计算机可读介质，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1-12中任一项所述的方法的处理。

14.一种用于音频处理的装置，所述装置包括：

处理器；以及

存储器，

其中，所述处理器被配置为控制所述装置使用机器学习模型生成音频信号的第一频带增益和语音活动检测值；

其中，所述处理器被配置为控制所述装置基于所述第一频带增益和所述语音活动检测值生成背景噪声估计；

其中，所述处理器被配置为控制所述装置通过使用由所述背景噪声估计控制的维纳滤波器处理所述音频信号来生成第二频带增益；

其中，所述处理器被配置为控制所述装置通过组合所述第一频带增益和所述第二频带增益来生成组合增益；并且

其中，所述处理器被配置为控制所述装置通过使用所述组合增益修改所述音频信号来生成经修改的音频信号。

15.如权利要求14所述的装置，其中，在生成所述第一频带增益和所述第二频带增益中的至少一个时应用至少一个限制。