CN114333874A

CN114333874A - 处理音频信号的方法

Info

Publication number: CN114333874A
Application number: CN202111387922.9A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-04-12
Anticipated expiration: 2041-11-22
Also published as: CN114333874B

Abstract

本公开提供一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。例如，本公开能够对录音(尤其是对包含歌声的录音)进行智能降噪，其通过智能确定当前录音帧是否用于记录人声，并基于该确定的结果自适应地对录音中的不同片段应用不同的降噪方案，从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。

Description

处理音频信号的方法

技术领域

本公开涉及人工智能服务领域，更具体地涉及一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着短视频、直播业务应用的迅速推广普及，录音应用(例如录唱分享应用-在线K歌等等)正在用户间广泛流行。例如，录音应用可以播放伴奏，用户可以一边听着伴奏一边唱歌。录音应用可以利用具有录音功能的硬件设备(例如手机或者接入麦克风的声卡设备)对用户的歌声进行录音以生成录音信号。

然而，录音信号不仅包含了人声还包含了各种噪声(例如，环境噪声)。例如，由于录音环境嘈杂，录音信号中容易引入难以去除的各种环境噪声。同时录音应用要求尽可能的保留用户的人声，而传统的录音降噪算法容易将歌唱声误判成噪声，进而影响录音音质。因此，需要对现有的录音降噪方案进行进一步的改进。

发明内容

本公开的实施例提供了一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

本公开的实施例提供了一种处理音频信号的方法，包括：获取包括多个录音音频帧的音频信号，确定当前录音音频帧对应的时间戳；基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声；响应于当前录音音频帧用于记录人声，对当前录音音频帧进行第一降噪处理，或者响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理，其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

例如，所述第一降噪处理为深度学习降噪处理，所述第二降噪处理为统计降噪处理。

例如，所述对当前录音音频帧进行第一降噪处理包括：至少部分地基于降噪神经网络，确定所述当前录音音频帧的各个频点对应的降噪增益值；其中，所述降噪神经网络的训练样本包括由噪声音频信号和人声音频信号合成的带噪音频样本。

例如，所述降噪神经网络包括输入层、人声检测层、噪声谱估计层、噪声消除层，其中，所述输入层的输入为音频帧，输出为所述音频帧对应的音频特征；所述人声检测层的输入为所述音频帧对应的音频特征，输出为人声概率特征；所述噪声谱估计层的输入为所述音频帧对应的音频特征、所述人声概率特征，输出为噪声估计特征；以及所述噪声消除层的输入为所述音频帧对应的音频特征、所述人声概率特征以及所述噪声估计特征，输出为各个频点对应的降噪增益值。

例如，所述对当前录音音频帧进行第二降噪处理包括：至少部分地基于平稳噪声的统计分布和平稳特性，确定所述当前录音音频帧的各个频点对应的降噪增益值。

例如，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：对于所述当前录音音频帧的每个频点，基于在先前的多个录音音频帧中统计的所述频点处平稳噪声的功率占总功率的比值，确定所述当前录音音频帧的各个频点对应的降噪增益值。

例如，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：至少部分地基于平稳噪声的统计分布和平稳特性，确定所述第二降噪处理对应的维纳滤波器；基于所述维纳滤波器，确定所述当前录音音频帧的各个频点对应的降噪增益值。

例如，所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第一参考信号来确定的，所述第一参考信号的提取包括：从参考音源数据中去除伴奏音源数据以获取原唱音源数据；基于原唱音源数据，确定原唱对应多个起始时刻；基于所述多个起始时刻，确定所述第一参考信号。

例如，所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第二参考信号来确定的，所述第二参考信号的提取包括：从参考音源数据中去除伴奏音源数据以获取原唱音源数据；基于原唱音源数据，确定原唱对应多个暂停时刻或终止时刻；基于所述多个暂停时刻，确定所述第二参考信号。

本公开的实施例提供了一种处理音频信号的方法，包括：获取包括多个录音音频帧的音频信号，响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理；或者响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理；其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

本公开的实施例提供了一种用户终端，包括音频捕获电路和音频处理电路，其中，所述音频捕获电路被配置为获取包括多个录音音频帧的音频信号；所述音频处理电路被配置为：确定当前录音音频帧对应的时间戳；基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声；响应于当前录音音频帧用于记录人声，对当前录音音频帧进行第一降噪处理，或者响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理，其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

本公开的实施例提供了一种用户终端，包括音频捕获电路和音频处理电路，其中，所述音频捕获电路被配置为获取包括多个录音音频帧的音频信号；所述音频处理电路被配置为：响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理；或者响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理；其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

本公开实施例公开了一种电子设备，包括：一个或多个处理器；和一个或多个存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行上述的方法。

本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述方法。

根据本公开的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个方面或者上述各个方面的各种可选实现方式中提供的方法。

本公开的实施例提供一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。例如，本公开能够对录音(尤其是对包含歌声的录音)进行智能降噪，其通过智能提取原声音乐中的人声部分，并以这部分信号作为参考信号自适应地对录音中的不同片段应用不同的降噪方案，从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1是示出根据本公开实施例的应用场景的示例示意图。

图2是示出根据本公开实施例的处理音频信号的示例方法的流程图。

图3是示出根据本公开实施例的处理音频信号的示例方法的示意图。

图4是示出根据本公开实施例的第一参考信号和第二参考信号的示意图。

图5是示出根据本公开实施例的降噪神经网络的示例结构。

图6是示出根据本公开实施例的维纳滤波器的示例图。

图7示出了根据本公开实施例的电子设备的示意图。

图8示出了根据本公开实施例的示例性计算设备的架构的示意图。

图9示出了根据本公开实施例的存储介质的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本公开的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

首先，参照图1描述根据本公开实施例的处理音频信号的方法的应用场景。图1示出了根据本公开实施例的应用场景100的示意图，其中示意性地示出了服务器110和多个终端120。终端120以及服务器110可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

例如，根据本公开实施例的方法可以全部或部分地搭载在服务器110上以对音频信号进行处理。这里的服务器110可以是用于处理音频信号的独立的服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、定位服务以及大数据和人工智能平台等基础云计算服务的云服务器，本公开实施例对此不作具体限制。

例如，根据本公开实施例的方法还可以全部或部分地搭载在终端120上以对音频信号进行处理。多个终端120中的每个终端可以是诸如台式计算机等的固定终端，诸如智能手机、平板电脑、便携式计算机、手持设备、个人数字助理、智能可穿戴设备、车载终端等具有网络功能的移动终端，或者它们的任意组合，本公开实施例对此不作具体限制。

作为一个示例，服务器110可以为终端120提供各种人工智能云服务。其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

其中，人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序接口(API，Application ProgrammingInterface)的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

作为一个示例，服务器110可以作为训练本公开的降噪神经网络的执行主体。可选地，本公开的降噪神经网络可以是基于人工智能(Artificial intelligence，AI)的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如，对于本公开的降噪神经网络而言，其能够以类似于人类听歌听声的方式，确定声音中噪声部分和人声部分。人工智能通过研究各种智能机器的设计原理与实现方法，使本公开的降噪神经网络具有智能降低音频数据中的噪声部分的功能。

可以理解的是，本公开的实施例中对于降噪神经网络的训练也可以是在终端120上执行的，还可以是由终端和服务器共同执行的，本公开对此不进行限制。此外，可以理解的是，应用本公开的实施例的降噪神经网络来进行推理的装置既可以是终端，也可以是服务器，还可以是由终端和服务器组成的系统。

随着短视频、直播业务应用的迅速推广普及，录音应用(例如录唱分享应用-在线K歌等等)正在用户间广泛流行。例如，搭载在终端120上的录音应用可以利用扬声器(例如耳机)播放某首歌曲的伴奏音乐/或伴唱音乐。用户可以一边听着伴奏音乐/或伴唱音乐，一边通过终端120的硬件设备(例如手机或者接入麦克风的声卡设备)记录自己的歌声。录音应用可以捕获用户的声音以生成录音信号。然后，录音应用可以对录音信号进行一定处理然后将处理后的录音信号进行分享。例如，录音分享应用可以将录音信号与伴奏音乐进行混音处理，以使得分享的录音中更丰富。

然而，录音信号不仅包含了人声还包含了各种噪声(例如，环境噪声)。例如，由于录音环境不安静，例如一些户外唱歌的主播，其录音信号容易引入各种环境噪声。

例如，环境噪声包括稳态噪声和非稳态噪声。例如，稳态噪声是在测量时间内，被测声源的声级起伏不大于3dB(A)的噪声。在一个示例中，如果环境噪声测量值的最大值和最小值之间差值不大于3dB(A)的噪声，则可以被判断为稳态噪声。例如，稳态噪声可以是由于设备条件限制而引起的分布较为均匀的高斯白噪声等等。而不符合上述条件的噪声可以被认定为非稳态噪声，例如，马路汽车鸣笛声、汽车引擎声、周边人声等。

不论是稳态噪声还是非稳态噪声都对录音信号的音质造成不利影响，因此需要尽可能的剔除环境噪声。同时录音应用还要求尽可能的保留用户的人声，而传统的录音降噪算法容易将歌唱声误判成噪声，进而影响录音音质。需要对现有的录音降噪方案进行进一步的改进。

因此，本公开的实施例提供了一种处理音频信号的方法，该方法包括：获取包括多个录音音频帧的音频信号，确定当前录音音频帧对应的时间戳；基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声；响应于当前录音音频帧用于记录人声，对当前录音音频帧进行第一降噪处理，或者响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理，其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

本公开的各个方面基于录音音频帧对应的时间戳自适应地对录音中的不同片段应用不同的降噪方案，从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。更进一步地，本公开的各个方面还通过智能提取原声音乐(以下称为参考音源数据)中的人声部分，并以这部分信号作为参考信号自适应地对录音中的不同片段应用不同的降噪方案，从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。

以下参考图2至图9来对本公开实施例进行进一步的描述。

其中，作为示例，图2是示出根据本公开实施例的处理音频信号的示例方法200的流程图。图3是示出根据本公开实施例的处理音频信号的示例方法200的示意图。图4是示出根据本公开实施例的第一参考信号和第二参考信号的示意图。

参见图2，示例方法200包括步骤S201-S204之一或全部。本公开并不以此为限。如上所述，步骤S201可以是由终端120实时或非实时执行的，步骤S202至S204是由终端120实时执行的，也可以是由服务器110实时执行的，或者由终端120/服务器110离线执行。本公开并不对示例方法200各个步骤的执行主体进行限制，只要其能够实现本公开的目的即可。

例如，在步骤S201中，终端120可以获取包括多个录音音频帧的音频信号。

作为一个示例，终端120可以利用其音频捕获电路来获取(例如，捕获)所述包括多个录音音频帧的音频信号。音频捕获电路可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器进行后续的降噪处理，或者输入至射频电路以实现实时的录音分享。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端120的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器或射频电路的电信号(例如，伴奏音乐/伴唱音乐)转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频捕获电路还可以包括耳机插孔，由此，用户可以通过耳机来获取伴奏音乐/伴唱音乐的相关信息，而避免伴奏音乐/伴唱音乐对录音信号的进一步干扰。

作为一个示例，上述音频信号可以以电信号数据的形式被缓存在终端120的存储器中以进行下一步分析。被存储的音频信号又被称为音频数据。作为一个示例，音频数据可以以.mp3、.wav、.voc和.au格式等进行编码或存储。本公开不对音频数据的格式进行任何限制。

作为一个示例，虽然麦克风采集的录音音频数据可能是流式的，然而为了音频算法处理/传输的方便，可以设定捕获的2.5ms～60ms为单位的数据量为一个录音音频帧。这个时间被称之为“采样时间”。本公开并不对采样时间进行限制，只要其能够满足终端120的编解码器和具体应用的需求即可。

例如，在步骤S202中，确定当前录音音频帧对应的时间戳。例如，在捕获上述的录音音频数据时，会对应地记录各个录音音频帧对应的时间戳作为该录音音频帧的标签数据。时间戳(Timestamp)是录音标签中存在的一个数据，其并不一定与实际时间有联系，仅用于标识各个音频标签/录音音频帧的先后顺序。例如，每个录音音频帧均具有其对应的时间戳，其指示该录音音频帧被捕获的时刻，或者该录音音频帧与其它录音音频帧在时间上被记录的先后顺序。

例如，在步骤S203中，基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声。

作为一个示例，可以利用语音活动检测(Voice Activity detection,VAD)方案来确定当前录音音频帧是否用于记录人声。语音活动检测也被称为语音检测，在语音处理中用于检测语音/人声的存在与否，从而将信号中的语音段和非语音段分开。VAD可被用于回波消除、噪声抑制、语者识别和语音识别等。一种示例VAD方案包括：首先对当前录音音频帧通过频谱减法进行降噪，然后从降噪后的数据中提取人声特征，最后利用分类模型将人声特征对应音频帧分类为活动语音帧(例如，当前录音音频帧中包含人声的概率大于等于预定阈值)和非活动语音帧(例如，当前录音音频帧中包含人声的概率小于预定阈值)。本公开不对VAD方案进行限制。

例如，在一些示例中，上述的预定阈值可以是预设固定值(例如，固定为50％)。例如，如果VAD方案判定的某个录音音频帧有51％的概率为活动语音帧，那么可以确定当前录音音频帧用于记录人声。如果VAD方案判定的某个录音音频帧有30％的概率为活动语音帧，那么可以确定当前录音音频帧不用于记录人声。

在一些示例中，上述的阈值还可以是动态设定的阈值。例如，在某些不采用VAD方案的示例中，可以利用动态阈值来确定某个录音音频帧是否用于记录人声。例如，在某些示例中，可能会认定某首歌越靠后的音频帧有更大的概率为活动语音帧。因此，可能会随着歌曲的翻唱进度来动态调整预定阈值的大小。例如，在开始录音半分钟后，服务器可能会判定当前录音帧大概率是用于记录人声的。而到快结束录音时，服务器可能会判定当前录音帧大概率不是用于记录人声的。本公开不对预定阈值的设定进行限制。

作为又一个示例，可以利用参考音源数据作为参考，来确定当前录音音频帧是否用于记录人声。参考音源数据可以是用户期待翻唱的目标原声歌曲的全部或部分音源数据。作为另一个示例，参考音源数据也可以是用户所要翻唱的歌曲对应的伴奏音频数据。例如，参考音源数据可以以以下方案被获取：终端120根据参考音源数据的标识(歌曲名、专辑名、演唱者等)向服务器110发送参考音源数据的获取请求，然后接收服务器110根据上述请求返回的全部或部分伴奏音源数据或参考音源数据。该伴奏音源数据为参考音频数据当中的纯伴奏部分。参考音源数据包括人声部分和伴奏部分。

例如，进一步地，所述当前录音音频帧是否用于记录人声还可以至少部分地基于从参考音源数据中提取的第一参考信号或第二参考信号来确定的。接下来以参考音源数据为原声音源数据为例进一步描述如何提取所述第一参考信号和第二参考信号。

参考图3和图4，第一参考信号指示当前录音音频帧包含人声的概率大于等于预定阈值。所述第一参考信号的提取可以包括：从参考音源数据中去除伴奏音源数据以获取原唱音源数据；基于原唱音源数据，确定原唱对应多个起始时刻；基于所述多个起始时刻，确定所述第一参考信号。由此，在本公开提供的另一方面中，还可以响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理。其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。之后将详细描述第一降噪处理和第二降噪处理，本公开在此不再赘述。

例如，如图4所示，原唱音源数据可以仅包括参考音源数据的人声部分，其中，在原唱歌手未歌唱处的音频帧为静默音频帧或者数据量较低的音频帧，在原唱歌手歌唱处的音频帧中则包括人声数据。原唱音源数据又可以被称为干声音源数据，“干声”具有在音乐领域的常规含义，通常指无音乐的纯人声。在一些实施例中，干声可以与原声互换使用。

例如，可以利用另一语音活动检测(Voice Activity detection,VAD)方案来基于参考音源数据或原唱音源数据，确定原唱对应多个起始时刻。语音活动检测也被称为语音检测，在语音处理中用于检测语音的存在与否，从而将信号中的语音段和非语音段分开。该另一示例VAD方案包括：首先对原唱音源数据或参考音源数据通过频谱减法进行降噪，然后从降噪后的数据中提取原唱人声特征，最后利用分类模型将原唱人声特征对应音频帧分类为活动语音帧(例如该帧属于唱歌发声片段)和非活动语音帧(例如，该帧属于静默不发声片段)。本公开不对VAD方案进行限制。

例如，在一些示例中，上述的预定阈值可以是预设固定值(例如，固定为50％)。例如，假设VAD方案判定的原唱音源数据中对应于音乐开始后第25s的音频帧有51％的概率为活动语音帧。此时，如果当前录音音频帧的时间戳对应于开始录音后第25s的时刻，那么可以确定当前录音音频帧用于记录人声。并且，考虑到翻唱用户可能不能完全匹配上原唱的节奏，那么服务器还可以认为原唱音源数据中对应于第25s的音频帧的前0.1-0.5s的音频帧对应的录音音频帧大概率也会捕获到用户的歌声。

在另一些示例中，上述的阈值可以是动态设定的阈值。例如，在某些不采用VAD方案的示例中，可以利用动态阈值。例如，在某些示例中，可能会认定某首歌越靠后的音频帧有更大的概率为活动语音帧。因此，可能会随着歌曲的翻唱进度来动态调整预定阈值的大小。本公开不对预定阈值的设定进行限制。

作为另一示例，如果参考音源数据为纯音乐伴奏，那么也可以根据参考音源数据上的各种时刻的人工标记的原唱歌手开口时刻来确定原唱对应的多个起始时刻。本公开并不以此为限。

例如，进一步参考图4，翻唱的用户往往不能精准地在与原唱歌手开始唱歌的时刻也开口唱歌。例如，用户可能会提前开口唱歌。因此作为一个示例，从每个活动语音帧的起始时刻的前一段时间(例如，0.5s)开始，可以认为是用户可能开始唱歌的时刻。这个时刻可以被称为第一参考时刻，其对应于第一参考信号。也即，在录音音频帧的时间戳对应于从参考音源数据提取的第一参考时刻情况下，可以确定当前音频帧用于捕获人声。

又例如，继续参考图3和图4，第二参考信号指示当前录音音频帧包含人声的概率小于预定阈值。如上所述，参考音源数据可以是用户期待翻唱的目标原声歌曲的全部或部分音源数据。在参考音源数据为原声音源数据的示例中，所述第二参考信号的提取可以进一步包括：从参考音源数据中去除伴奏音源数据以获取原唱音源数据；基于原唱音源数据，确定原唱对应多个暂停时刻或终止时刻；基于所述多个暂停时刻或终止时刻，确定所述第二参考信号。由此，在本公开的另一方面中，还可以响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理。

例如，也可以采用与VAD类似的方案，来确定位于活动语音帧和静默音频帧之间的音频帧，并将该音频帧对应的时刻确定为暂停时刻或终止时刻。作为另一示例，如果参考音源数据为纯音乐伴奏，那么也可以根据参考音源数据上的各种时刻的人工标记的原唱歌手换气/暂停唱歌时刻来确定原唱对应的多个暂停时刻或终止时刻。本公开并不以此为限。

例如，进一步参考图4，翻唱的用户往往不能精准地在与原唱歌手换气/暂停的时刻也换气/暂停。例如，用户翻唱的节奏可能会滞后。因此作为一个示例，从每个活动语音帧的停止时刻的后一段时间(例如，01s-0.5s)开始，可以认为是用户可能换气/暂停的时刻。这个时刻可以被称为第二参考时刻，其对应于第二参考信号。也即，在录音音频帧的时间戳对应于从参考音源数据提取的第二参考时刻情况下，可以确定当前音频帧不用于捕获人声而仅用于捕获环境音。

而正如第二参考信号所指示的，当前录音音频帧可能对应于用户暂停翻唱/换气的时刻，需要尽可能的去除环境噪声。此时，可以使用利用对非稳态噪声的抑制能力较强的第一降噪处理方案来抑制非稳态噪声(马路汽车鸣笛声等)和/或稳态噪声(例如，白噪声等)。

例如，在步骤S204中，响应于当前录音音频帧用于记录人声，从对当前录音音频帧进行第一降噪处理。或者，响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理。例如，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

可选地，所述第一降噪处理对非稳态噪声的抑制能力高于所述第二降噪处理对非稳态噪声的抑制能力，而所述第一降噪处理对稳态噪声的抑制能力近似于所述第二降噪处理对稳态噪声的抑制能力。如上所述，稳态噪声可以是长时间的最高分贝和最低分贝之间的差值较低的噪声(例如，白噪声)，而非稳态噪声则可能是突发的、最高分贝和最低分贝之间差值较高的噪声(例如，马路汽车鸣笛声)。

因此，在用户大概率不开口翻唱歌曲的录音音频中，可以使用利用对非稳态噪声的抑制能力较强的第一降噪处理方案来抑制马路汽车鸣笛声等噪声。值得注意的是，第一降噪处理方案可能不仅对非稳态噪声具有较强的抑制能力，还可能对稳态噪声具有较强噪声，本公开并不以此为限。例如，第一降噪处理可以是基于强降噪参数的，其将捕获的大部分声音信号都认为是噪声，并且将这些声音信号的对应帧的降噪增益调至一个较低的数值。之后将参考图5进一步描述第一降噪处理的示例，本公开在此不再赘述。

例如，而正如第一参考信号所指示的或基于VAD方案确定的，当前录音音频帧可能对应于用户开始进行翻唱的时刻，需要尽可能的保留用户的真实人声。人声通常被认为是非稳态的音频信号，因此，需要使用对非稳态噪声的抑制能力较弱的第二降噪处理方案。例如，第二降噪处理可以是基于弱降噪参数的，其将捕获的大部分声音信号都认为是人声，并且将这些声音信号的对应帧的降噪增益调至一个较高的数值。此时，方法200将根据第一参考信号的指示，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理。之后将参考图6进一步描述第二降噪处理的示例，本公开在此不再赘述。

最后，如图3所示，方法200还包括将录音降噪后的信号与伴奏音源数据进行线性混合，以得到最后的录音降噪信号进行分享。由此，录音降噪信号能够尽可能的删除噪声，保留更多的用户人声，从而使得录唱分享应用的用户体验感更高。

由此，本公开提出了一种能够对录音(尤其是对包含歌声的录音)进行智能降噪的方案，其通过智能提取原声音乐中的人声部分，并以这部分信号作为参考信号自适应地对录音中的不同片段应用不同的降噪方案，从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。

本公开的实施例还提供了一种用户终端，包括音频捕获电路和音频处理电路，其中，所述音频捕获电路被配置为获取包括多个录音音频帧的音频信号；所述音频处理电路被配置为：确定当前录音音频帧对应的时间戳；基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声；响应于当前录音音频帧用于记录人声，对当前录音音频帧进行第一降噪处理，或者响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理，其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

以下参考图5来进一步描述第一降噪处理的示例。其中，第一降噪处理为深度学习降噪处理。图5是示出根据本公开实施例的降噪神经网络的示例结构。本领域技术人员应当理解，本公开并不以此为限。

可选地，本公开中的降噪神经网络采用了自然语言处理(Nature Languageprocessing,NLP)技术。自然语言处理技术是是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。由此，基于自然语言处理技术，第一降噪处理实现了对非稳态噪声的强抑制能力。

可选地，本公开的实施例采用的自然语言处理技术还可以是基于机器学习(Machine Learning,ML)和深度学习的。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地，下文中的可用于本公开的实施例的降噪神经网络都可以是人工智能模型，尤其是基于人工智能的神经网络模型。通常，基于人工智能的神经网络模型被实现为无环图，其中神经元布置在不同的层中。通常，神经网络模型包括输入层和输出层，输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点，并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式，本公开对此不作限制。

作为一个示例，上述的当前录音音频帧进行第一降噪处理包括：至少部分地基于降噪神经网络，确定所述当前录音音频帧的各个频点对应的降噪增益值。其中，所述降噪神经网络的训练样本包括由噪声音频信号和人声音频信号合成的带噪音频样本。

降噪神经网络的示例为图5所示的基于RNNoise的改进的降噪神经网络。如图5所示，降噪神经网络主要包括：输入层、人声检测层、噪声谱估计层、噪声消除层。

例如，如图5所示，所述输入层的输入为音频帧，输出为所述音频帧对应的音频特征。可选地，音频特征可以是一个42维输入特征向量。上述的音频特征是指可以从音频帧中提取的音频特征数据。为了表征语音数据和识别该语音数据，通常需要对该音频帧的功率谱、基音周期、功率谱分布特征等数据进行分析。这些数据均可以被称为该音频帧的“音频特征数据”。

为了便于音频帧的分析，上述的音频特征数据进一步地可以是利用各种音频特征提取模型而获取的。音频特征提取模型包括但不限于长短期记忆神经网络(LongShort-Term Memory，LSTM)、循环神经网络(recurrent neuralnetworks，RNN)、生成式对抗网络(generative adversarial networks，GAN)、卷积神经网络(convolutional neuralnetworks，CNN)、FBANK(又称FilterBank)或MFCC等。作为一个示例，通过FBANK音频特征提取模型提取出的音频特征数据又称为FBANK语音特征数据。FBANK音频特征提取模型可以以类似于人耳对其听到的声音进行处理的方式来提取音频特征。FBANK音频特征提取模型通过对音频帧进行傅里叶变换、能量谱计算和Mel滤波等操作，可以获取能够表征每个音频帧的数组(也被称为FBank特征向量)。该数组即为FBANK音频特征数据。本公开对音频特征提取模型并不进行限制。

在一些示例中，所述人声检测层的输入为所述音频帧对应的音频特征，输出为人声概率特征。所述人声检测层的示例包括级联的全连接tanh层、线性整流层、和全连接sig层。例如，全连接tanh层使用Dense tanh函数，以上述的42维的音频特征为输入，以24维的第一人声概率特征为输出。线性整流层可以例如是一个GRU ReLU(Gated Recurrent UnitRectified Linear Unit，基于门控循环单元的线性整流单元)层，以上述的第一人声概率特征为输入，并输出24维的第二人声概率特征。全连接sig层例如使用Dense Sigmoid函数，以上述的第二人声概率特征为输入，并输出1维的语音活动检测结果。上述的第一人声概率特征和第二人声概率特征均可以作为人声概率特征输入至噪声谱估计层。

在一些示例中，该1维的语音活动检测结果可以用于辅助检测用户是否开始翻唱/停止翻唱。在该示例中，步骤S202可以进一步包括基于该语音活动检测结果以及第一参考信号来从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理。步骤S203可以进一步包括基于该语音活动检测结果以及第二参考信号来从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理。然而本领域技术人员应当理解本公开并不以此为限。

在一些示例中，所述噪声谱估计层的输入为所述音频帧对应的音频特征、所述人声概率特征，输出为噪声估计特征。作为一个示例，所述噪声谱估计层也包括一个线性整流层(例如，GRU ReLU)。噪声估计特征例如是一个48维的向量。本公开并不以此为限。

在一些示例中，所述噪声消除层的输入为所述音频帧对应的音频特征、所述人声概率特征以及所述噪声估计特征，输出为各个频点对应的降噪增益值。所述噪声消除层的示例包括级联的线性整流层和全连接sig层。线性整流层可以例如是一个GRU ReLU，其输出96维向量。全连接sig层利用使用Dense Sigmoid函数，以上述的96维向量为输入，并输出22维的降噪增益值。

在一些示例中，可以通过在Bark(巴克)频率尺度的22个频点上的频谱特征参数和能量参数来还原一个音频帧。Bark频率尺度是一种符合人类听觉感知的频率尺度。例如，Bark频率尺度是以Hz(赫兹)为单位，把频率映射到心理声学的22个临界频点上，1个临界频点的宽度等于一个Bark，简单的说，Bark尺度是把物理频率转换到心理声学的频率。在一些示例中，对于上述多个频点的划分，高频部分的频点相对更宽，低频部分的频点相对更窄，因为人耳对于中低频声音的分辨率更高，通过对中低频部分进行更为细致的频点划分，有助于提升对人耳敏感部分的噪声抑制效果。

在上述示例中，上述的降噪增益值包括应用于音频帧的上述22个频点对应的降噪增益值。通过计算每个频点对应的降噪增益值，并把它应用到每个频点上即可实现对音频帧的降噪处理。该过程可以认为是使用了一个22个频点的均衡器，每个均衡器快速改变其增益并让人声信号通过，从而使得噪声受到抑制。每个频点对应的降噪增益值可以是一个取值在(0,1)这个区间范围内的值。而通过噪声消除层即可生成上述各个频点对应的降噪增益值。例如，假设对于某个频点，人声部分的占比为7.9，噪声部分的占比为2.1，那么该频点的降噪增益值可以是7.9。本领域技术人员应当理解上述示例仅用于说明降噪增益值与本公开中的降噪处理之间的关系，本公开并不限于此。

在一些示例中，所述降噪神经网络的训练样本可以以如下的样本生成步骤①至样本生成步骤③生成。这些样本生成步骤可以由上述的服务器110离线进行处理。本领域技术人员应当理解本公开可以包括更多或更少的样本生成步骤，本公开并不以此为限。

在样本生成步骤①中，获取训练数据，该训练数据包括人声音频信号集和噪声音频信号集，人声音频信号集中包括至少一个人声音频信号，噪声音频信号集中包括至少一个噪声音频信号。人声音频信号集中的人声音频信号可以认为是纯净的人声音频信号，即不含噪声的人声音频信号，例如从上述的原唱音源中提取出的人声音频信号。噪声音频信号集中的噪声音频信号可以依据使用需求进行选择，例如上述的鸣笛声等等。

在样本生成步骤②中，对人声音频信号和噪声音频信号进行混合生成带噪音频样本。例如，从人声音频信号集中选择一个人声音频信号，从噪声音频信号集中选择一个噪声音频信号，将该选择的人声音频信号和噪声音频信号在功率谱上进行叠加，即可得到带噪音频样本。

在样本生成步骤③中，以带噪音频样本为样本数据，带噪音频样本对应的真实降噪增益值为标签数据，生成训练样本。基于训练数据生成训练样本，该训练样本的样本数据包括对人声音频信号和噪声音频信号进行混合生成的带噪音频样本，训练样本的标签数据包括带噪音频样本对应的真实降噪增益值，真实降噪增益值包括应用于带噪音频样本的不同频点的真实降噪增益值。

可选地，该真实降噪增益值可以基于生成带噪音频样本的人声音频信号和噪声音频信号求解得到，如获取人声音频信号的能量值与噪声音频信号的能量值，将人声音频信号的能量值除以人声音频信号与噪声音频信号的能量值之和，得到真实降噪增益值。如上述的示例，假设对于第一频点，人声音频信号的能量值为7.9瓦，噪音音频信号的能量值为2.1瓦，那么真实的降噪增益值为0.79。也即，对于该带噪音频样本的第一频点，最理想的优化情况为将该频点的能量乘以0.79。

在一些示例中，所述降噪神经网络的训练可以以如下的训练步骤①至训练步骤③。这些训练步骤可以由上述的服务器110离线进行处理。本领域技术人员应当理解本公开可以包括更多或更少的训练步骤，本公开并不以此为限。

在训练步骤①中，服务器110可以获取上述步骤生成训练样本集，该训练样本集的样本为由噪声音频信号和人声音频信号合成的带噪音频样本，训练样本的标签数据包括带噪音频对应的真实降噪增益值，真实降噪增益值包括应用于带噪音频的不同频带的真实降噪增益值。

接着，在训练步骤②中，获取带噪音频的音频帧对应的音频特征，该音频特征包括用于反映带噪音频的频谱特征的参数。通过降噪神经网络基于音频特征，生成预估降噪增益值；其中，预估降噪增益值包括应用于带噪音频的各个频点对应的、预测的降噪增益值。

在训练步骤③中，基于预估降噪增益值和真实降噪增益值，计算降噪神经网络的损失函数值。然后，基于损失函数值调整降噪神经网络的参数，对降噪神经网络进行训练。例如，在对降噪神经网络进行训练的过程中，将训练样本的样本数据输入至降噪神经网络，由该降噪神经网络输出预估降噪增益值，然后基于该预估降噪增益值与训练样本的标签数据(也即真实降噪增益值)之间的差异，构建降噪神经网络的损失函数，通过不断调整降噪神经网络的参数，以最小化该损失函数的值，从而得到完成训练的降噪神经网络。另外，损失函数可以基于预估降噪增益值和真实降噪增益值之间的距离损失进行构建，该距离可以是欧式距离、余弦距离、MSE(Mean Squared Error，均方误差)等，本公开对此不作限定。

由此，经过离线的降噪神经网络的训练，服务器110能够实现在实际降噪处理时，只需将实际音频帧输入该训练好的降噪神经网络就能得到经第一降噪处理后的信号。此外，服务器110还可以直接将训练好的模型参数推送至终端120，从而使得终端120也能独立完成上述的第一降噪处理，本公开并不以此为限。

接着参考图6来进一步说明第二降噪处理的一个示例。作为一个示例，第二降噪处理为统计降噪处理。图6是示出根据本公开实施例的维纳滤波器的示例图。

例如，所述对当前录音音频帧进行第二降噪处理包括：至少部分地基于平稳噪声的统计分布和平稳特性，确定所述当前录音音频帧的各个频点对应的降噪增益值。考虑到人声对应的音频数据往往具有短时平稳性以及帧间相关性等特性，而平稳噪声则往往具有高斯分布和长时平稳特性，对平稳噪声进行统计后，即可通过统计降噪处理来将平稳噪声除去。因此，统计降噪处理可以对人声进行尽可能地保留，同时确保环境中的平稳噪声不会导致录音质量的降低。

如图6所示，在一些示例中，例如，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：至少部分地基于平稳噪声的统计分布和平稳特性，确定所述第二降噪处理对应的维纳滤波器；基于所述维纳滤波器，确定所述当前录音音频帧的各个频点对应的降噪增益值。

可以利用维纳维纳滤波器对输入信号(也即包括平稳噪声的用户翻唱歌声)进行第二降噪处理以产生输出信号(也即降噪后的用户翻唱人声)。而维纳滤波器的设计的目标是使得尽量逼近期望信号(例如，仅有用户翻唱人声没有任何平稳噪声的干声信号)。

作为一个示例，可以通过设计维纳滤波器的参数以使得可以输出信号和期望信号之间的估计误差最小化来实现。作为一个示例，估计误差可以是一种均方误差，而估计误差的最小化可以通过最小二乘法来实现。例如，在一些示例中，可以以公式(1)来表示上述的输入信号和输出信号之间的关系。

其中，y(n)为当前录音音频帧对应的各个频点的幅值，也即y(n)为采样后录音音频帧对应的频域信号。

为输出的降噪后的各个频点对应的幅值。h(n)为维纳滤波器。公式(1)说明输入信号与维纳滤波器的卷积即可得到对应的输出信号。

在已知各个频点对应幅值之后，可以求解得到各个频点对应的功率。在一些示例中，可以使用各个频点的DFT的幅度的平方来作为该频点对应的信号功率的度量。由此，经过维纳滤波器进行第二降噪处理后的当前录音音频帧的各个频点的能量值可以被看作输入频点的能量值与降噪增益值的积。

在其他的一些示例中，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：对于所述当前录音音频帧的每个频点，基于在先前的多个录音音频帧中统计的所述频点处平稳噪声的功率占总功率的比值，确定所述当前录音音频帧的各个频点对应的降噪增益值。例如，在该示例中，由于平稳噪声具有高斯分布和长时平稳特性，因此在每个频点处的平稳噪声的功率可以被大致看做不变的。例如，假设在之前几个录音帧中，对于第一频点，平稳噪声的功率值为2.1瓦。并进一步假设对于第一频点，当前录音音频帧的总功率为10瓦。那么可以求解得到对于当前录音音频帧的第一频点，降噪增益值为0.79，人声信号的功率应该为7.9瓦。上述数据仅是用于说明本示例，不表示实际应用中的功率值。

由此，不论是经过第一降噪处理还是第二降噪处理，当前录音音频帧中的各个频点均经过其对应的降噪增益值进行了衰减，从而尽可能的去掉了噪声部分。最后，经过反傅里叶变换，即可得到降噪后的时域录音信号。

由此，本公开的上述方面能够尽可能地满足录唱类应用对降噪的要求，其实现了利用第一降噪处理来对非唱歌部分的信号进行极大抑制，并利用第二降噪处理来确保了唱歌的声音的高保真还原。即使针对不专业的录音环境和不专业的录音设备，本公开也能有优异的表现。例如，针对有些主播在户外环境做录播的场景，即使环境噪声非常复杂，存在大量的非平稳噪声，例如汽车引擎声、汽车鸣笛声、周边人声等，本公开也能在非专业的简易录音设备(手机等移动终端)上呈现高品质的录音效果。

此外，本公开的实施例还提供了一种处理音频信号的方法，包括：获取包括多个录音音频帧的音频信号，响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理；或者响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理；其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

例如，可以基于从参考音源数据中提取的第一参考信号确定当前录音音频帧中包含人声的概率大于等于预定阈值，并基于从参考音源数据中提取的第二参考信号，确定当前录音音频帧中包含人声的概率小于预定阈值。以上已详细描述了第一参考信号和第二参考信号，本公开在此不再详述。此外，还可以基于VAD方案来确定当前录音音频帧中包含人声的概率是否大于等于预定阈值。VAD的方案可以类似图2-图6中提及的方案，本公开在此不再赘述。

对应的，本公开的实施例还提供了一种用户终端，包括音频捕获电路和音频处理电路，其中，所述音频捕获电路被配置为获取包括多个录音音频帧的音频信号；所述音频处理电路被配置为：响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理；或者响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理；其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

由此，本公开的各个方面基于第一参考信号和第二参考信号在统计降噪处理方案和深度学习降噪方案之间进行了智能的选择。或者本公开的各个方面基于VAD方案在统计降噪处理方案和深度学习降噪方案之间进行了智能的选择。由此，使得不同的降噪方案能够更好的适配录音应用。

具体地，统计降噪方法对平稳噪声更有效，而非平稳噪声由于不具备统计降噪的噪声高斯分布的假设，所以统计降噪方法能较好地保护人声部分不被误伤。深度学习降噪方法是基于大规模数据驱动的，其核心思想是通过深度学习网络找出人声和噪声在不同特征及其高阶特征空间上的非线性映射关系，从而具备把带噪信号映射成干净语音信号的能力，但是在实际场景中人声和噪声没有绝对的非线性映射关系，或者有些噪声和人声特征非常类似，例如人声的清音部分有些时候跟一些噪声特征很接近，导致深度学习网络在抑制噪声的同时也会误伤人声信号，而且有可能把部分人声信号完全消除，存在不确定性。

相比于现有降噪方案在处理整段输入音频信号过程中，只会使用一种降噪方法(统计降噪或深度学习降噪)，无法切换也没有额外的先验知识的指导切换，所以难以做到既能极大抑制噪声同时对人声部分也有很高的保真能力。而本公开上述描述的各个方面则实现了尝试从录唱这种特殊应用中挖掘出一些明确的先验知识(也即上述的第一参考信号和第二参考信号)，用以指导智能地选择降噪处理方案，让降噪处理方案有张有弛，兼顾噪声抑制和人声保真的要求。

此外根据本公开的又一方面，还提供了一种电子设备，用于实施根据本公开实施例的方法。图7示出了根据本公开实施例的电子设备2000的示意图。

如图7所示，所述电子设备2000可以包括一个或多个处理器2010，和一个或多个存储器2020。其中，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述一个或多个处理器2010运行时，可以执行如上所述的搜索请求处理方法。

本公开实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

例如，根据本公开实施例的方法或装置也可以借助于图8所示的计算设备3000的架构来实现。如图8所示，计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的用于确定车辆的驾驶风险的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。图9示出了根据本公开的存储介质的示意图4000。

如图9所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的方法。本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的方法。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本公开的范围内。

Claims

1.一种处理音频信号的方法，包括：

获取包括多个录音音频帧的音频信号，

确定当前录音音频帧对应的时间戳；

基于当前录音音频帧对应的时间戳，确定当前录音音频帧是否用于记录人声；

响应于当前录音音频帧用于记录人声，对当前录音音频帧进行第一降噪处理，或者

响应于当前录音音频帧不用于记录人声，对当前录音音频帧进行第二降噪处理，

其中，所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。

2.如权利要求1所述的方法，其中，所述第一降噪处理为深度学习降噪处理，所述第二降噪处理为统计降噪处理。

3.如权利要求2所述的方法，其中，所述对当前录音音频帧进行第一降噪处理包括：

至少部分地基于降噪神经网络，确定所述当前录音音频帧的各个频点对应的降噪增益值；

其中，所述降噪神经网络的训练样本包括由噪声音频信号和人声音频信号合成的带噪音频样本。

4.如权利要求3所述的方法，其中，所述降噪神经网络包括输入层、人声检测层、噪声谱估计层、噪声消除层，其中，

所述输入层的输入为音频帧，输出为所述音频帧对应的音频特征；

所述人声检测层的输入为所述音频帧对应的音频特征，输出为人声概率特征；

所述噪声谱估计层的输入为所述音频帧对应的音频特征、所述人声概率特征，输出为噪声估计特征；以及

所述噪声消除层的输入为所述音频帧对应的音频特征、所述人声概率特征以及所述噪声估计特征，输出为各个频点对应的降噪增益值。

5.如权利要求2所述的方法，其中，所述对当前录音音频帧进行第二降噪处理包括：

至少部分地基于平稳噪声的统计分布和平稳特性，确定所述当前录音音频帧的各个频点对应的降噪增益值。

6.如权利要求5所述的方法，其中，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：

对于所述当前录音音频帧的每个频点，基于在先前的多个录音音频帧中统计的所述频点处平稳噪声的功率占总功率的比值，确定所述当前录音音频帧的各个频点对应的降噪增益值。

7.如权利要求5所述的方法，其中，所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括：

至少部分地基于平稳噪声的统计分布和平稳特性，确定所述第二降噪处理对应的维纳滤波器；

基于所述维纳滤波器，确定所述当前录音音频帧的各个频点对应的降噪增益值。

8.如权利要求1所述的方法，其中，所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第一参考信号来确定的，所述第一参考信号的提取包括：

从参考音源数据中去除伴奏音源数据以获取原唱音源数据；

基于原唱音源数据，确定原唱对应多个起始时刻；

基于所述多个起始时刻，确定所述第一参考信号。

9.如权利要求1所述的方法，其中，所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第二参考信号来确定的，所述第二参考信号的提取包括：

从参考音源数据中去除伴奏音源数据以获取原唱音源数据；

基于原唱音源数据，确定原唱对应多个暂停时刻或终止时刻；

基于所述多个暂停时刻或终止时刻，确定所述第二参考信号。

10.一种处理音频信号的方法，包括：

获取包括多个录音音频帧的音频信号，

响应于当前录音音频帧中包含人声的概率大于等于预定阈值，从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理；或者

响应于当前录音音频帧中包含人声的概率小于预定阈值，从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理；

11.一种用户终端，包括音频捕获电路和音频处理电路，其中，

所述音频捕获电路被配置为获取包括多个录音音频帧的音频信号；

所述音频处理电路被配置为：

确定当前录音音频帧对应的时间戳；

12.一种用户终端，包括音频捕获电路和音频处理电路，其中，

所述音频处理电路被配置为：

13.一种电子设备，包括：

一个或多个处理器；和

一个或多个存储器，其中，所述存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-10中的任一项所述的方法。

15.一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1-10中任一项所述的方法。