CN115334349A

CN115334349A - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN115334349A
Application number: CN202210835546.3A
Authority: CN
Inventors: 任新蕾; 郑羲光; 陈联武; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-11
Anticipated expiration: 2042-07-15
Also published as: CN115334349B

Abstract

本公开提供了一种音频处理方法、装置、电子设备及存储介质，属于信号处理技术领域。该方法包括：采集音频数据；按照目标内容分类方式对该音频数据进行内容分类，得到该音频数据的内容类别；在与目标内容分类方式匹配的码率表中，获取与该内容类别匹配的目标码率；根据目标码率对该音频数据进行编码处理。本公开实施例会对音频数据进行内容分类，进而对不同类别的音频数据使用不同的码率进行编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理技术领域，特别涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着网络技术的快速发展和智能终端的迅速普及，音频编码作为一种音频信号处理技术被应用在多种场景下。然而，无论应用在何种场景下，在音频编码过程中必须要考虑的一个问题便是如何在保证不损伤音质的情况下，尽可能地节省音频传输时的网络带宽。因为不合适的音频编码方式会在音频传输时造成严重的网络负担及带宽浪费。基于此，如何通过一种新的音频处理方式来节省音频传输时的网络带宽，便成了本领域目前亟须解决的一个问题。

发明内容

本公开提供一种音频处理方法、装置、电子设备及存储介质。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，所述方法包括：

采集音频数据；

按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别；

在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率；

根据所述目标码率对所述音频数据进行编码处理。

在一种可能的实施方式中，所述音频数据为直播音频数据，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别之前，所述方法还包括：

根据目标参数，在多种内容分类方式中确定与所述目标参数匹配的所述目标内容分类方式；其中，所述目标参数包括设备性能参数和直播过程中的音质要求参数中的至少一项。

在一种可能的实施方式中，所述在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率，包括：

确定所述音频数据对应的声道类型；

在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别和所述声道类型匹配的目标码率；其中，所述码率表中记录了内容类别、声道类型与码率之间的对应关系。

在一种可能的实施方式中，响应于所述目标内容分类方式为第一内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

对于所述音频数据中的任意音频帧，获取所述音频帧的能量，根据所述音频帧的能量和背景噪声的参考能量，确定所述音频帧的内容类别；所述内容类别为非噪声或背景噪声；

所述在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率，包括：在与所述第一内容分类方式匹配的第一码率表中，获取与所述内容类别匹配的目标码率；

所述根据所述目标码率对所述音频数据进行编码处理，包括：根据所述目标码率对所述音频帧进行编码处理。

在一种可能的实施方式中，所述根据所述音频帧的能量和背景噪声的参考能量，确定所述音频帧的内容类别，包括：

确定所述音频帧的能量和背景噪声的参考能量之间的比值；

响应于所述比值大于第一阈值，确定所述音频帧为非噪声；

响应于所述比值小于第二阈值，确定所述音频帧为背景噪声。

在一种可能的实施方式中，响应于所述目标内容分类方式为第二内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到当前时间窗口内的音频数据的内容类别；所述内容分类模型是根据样本音频数据和所述样本音频数据的样本分类标签训练得到的；所述内容类别为背景噪声、背景音乐或用户语音；

所述在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率，包括：在与所述第二内容分类方式匹配的第二码率表中，获取与所述内容类别匹配的目标码率；

所述根据所述目标码率对所述音频数据进行编码处理，包括：根据所述目标码率对下一个时间窗口内的音频数据进行编码处理。

在一种可能的实施方式中，响应于所述目标内容分类方式为第三内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到第一分类结果，所述第一分类结果为基于所述内容分类模型得到的细分类结果；所述内容分类模型是根据样本音频数据和所述样本音频数据的样本分类标签训练得到的；

获取目标音频帧的第二分类结果，所述目标音频帧是下一个时间窗口内的音频数据，所述第二分类结果为基于音频数据中音频帧的能量得到的粗分类结果；

根据所述第一分类结果和所述第二分类结果，确定下一个时间窗口内的音频数据的内容类别；所述内容类别为背景噪声、背景音乐或用户语音；

所述在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率，包括：在与所述第三内容分类方式匹配的第三码率表中，获取与所述内容类别匹配的目标码率；

在一种可能的实施方式中，所述第二分类结果指示所述目标音频帧为背景噪声或非噪声；所述根据所述第一分类结果和所述第二分类结果，确定下一个时间窗口内的音频数据的内容类别，包括：

响应于所述第一分类结果为背景音乐，所述第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于所述第一分类结果为背景音乐，所述第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于所述第一分类结果为用户语音，所述第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音；

响应于所述第一分类结果为用户语音，所述第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音；

响应于所述第一分类结果为背景噪声，所述第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于所述第一分类结果为背景噪声，所述第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景噪声。

在一种可能的实施方式中，所述内容分类模型的训练过程包括：

获取样本音频数据和所述样本音频数据的样本分类标签；

将所述样本音频数据输入构建有目标损失函数的深度学习模型，获取所述深度学习模型输出的预测分类标签；

基于所述目标损失函数，确定所述样本音频数据的样本分类标签与预测分类标签是否匹配；响应于所述样本分类标签与所述预测分类标签不匹配，反复循环的迭代更新所述深度学习模型的模型参数直至模型收敛，得到所述内容分类模型。

根据本公开实施例的第二方面，提供一种音频处理装置，所述装置包括：

采集模块，被配置为采集音频数据；

分类模块，被配置为按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别；

获取模块，被配置为在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率；

处理模块，被配置为根据所述目标码率对所述音频数据进行编码处理。

在一些可能的实现方式中，所述音频数据为直播音频数据，所述装置还包括确定模块，被配置为：

在一些可能的实现方式中，所述获取模块，被配置为：

确定所述音频数据对应的声道类型；

在一些可能的实现方式中，响应于所述目标内容分类方式为第一内容分类方式，所述分类模块，被配置为：对于所述音频数据中的任意音频帧，获取所述音频帧的能量，根据所述音频帧的能量和背景噪声的参考能量，确定所述音频帧的内容类别；所述内容类别为非噪声或背景噪声；

所述获取模块，被配置为：在与所述第一内容分类方式匹配的第一码率表中，获取与所述内容类别匹配的目标码率；

所述处理模块，被配置为：根据所述目标码率对所述音频帧进行编码处理。

在一些可能的实现方式中，所述分类模块，被配置为：

确定所述音频帧的能量和背景噪声的参考能量之间的比值；

响应于所述比值大于第一阈值，确定所述音频帧为非噪声；

在一些可能的实现方式中，响应于所述目标内容分类方式为第二内容分类方式，所述分类模块，被配置为：基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到当前时间窗口内的音频数据的内容类别；所述内容分类模型是根据样本音频数据和所述样本音频数据的样本分类标签训练得到的；所述内容类别为背景噪声、背景音乐或用户语音；

所述获取模块，被配置为：在与所述第二内容分类方式匹配的第二码率表中，获取与所述内容类别匹配的目标码率；

所述处理模块，被配置为：根据所述目标码率对下一个时间窗口内的音频数据进行编码处理。

在一些可能的实现方式中，响应于所述目标内容分类方式为第三内容分类方式，所述分类模块，被配置为：基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到第一分类结果，所述第一分类结果为基于所述内容分类模型得到的细分类结果；所述内容分类模型是根据样本音频数据和所述样本音频数据的样本分类标签训练得到的；

所述获取模块，被配置为：在与所述第三内容分类方式匹配的第三码率表中，获取与所述内容类别匹配的目标码率；

在一些可能的实现方式中，所述第二分类结果指示所述目标音频帧为背景噪声或非噪声；所述获取模块，被配置为：

在一些可能的实现方式中，所述内容分类模型的训练过程包括：

获取样本音频数据和所述样本音频数据的样本分类标签；

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述音频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述音频处理方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音频处理方法。

本公开实施例提供的音频处理方案在采集到音频数据后，首先按照目标内容分类方式对该音频数据进行内容分类，之后，在与目标内容分类方式匹配的码率表中，获取与该音频数据的内容类别匹配的目标码率；最终实现根据目标码率对该音频数据进行编码处理。换一种表达方式，本公开实施例会对音频数据进行内容分类，进而对不同类别的音频数据使用不同的码率进行编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理方法的实施环境示意图。

图2是根据一示例性实施例示出的另一种音频处理方法的实施环境示意图。

图3是根据一示例性实施例示出的一种音频处理方法的流程图。

图4是根据一示例性实施例示出的另一种音频处理方法的流程图。

图5是根据一示例性实施例示出的另一种音频处理方法的流程图。

图6是根据一示例性实施例示出的另一种音频处理方法的流程图。

图7是根据一示例性实施例示出的一种音频处理装置的框图。

图8是根据一示例性实施例示出的一种终端800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。需要说明的是，本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

参见图1，信号处理技术中常涉及音频编码和音频解码过程，在通过音频编码设备101对模拟形式的音频数据进行编码处理后，得到压缩形式的音频数据。其中，压缩形式的音频数据通过网络传输至音频解码设备102后，经过音频解码设备102的解码处理后，完成对音频数据的还原。示例性地，图1中音频解码设备102输出的音频数据为数字形式。而音频解码设备102输出的音频数据通常还需再经过数模转换等处理后，方能被人耳听见。本公开实施例提供的音频处理方法应用于音频编码设备101，该音频编码设备101为电子设备。

在一些可能的实现方式中，本公开实施例提供的音频处理方法的应用场景包括但不限于：直播场景、远程会议场景、音频通话、音频广播等，本公开实施例在此不做限制。

示例性地，参见图2，以直播场景为例，则上述音频编码设备101通常为主播的终端(也称第一终端)201，而上述音频解码设备102通常为观众的终端(也称第二终端)202。

在另一些可能的实现方式中，第一终端201和第二终端202的类型为智能手机、智能手表、台式电脑、手提电脑、MP3(Moving Picture Experts Group Audio LayerⅢ，动态影像专家压缩标准音频层面3)展示器、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)展示器和膝上型便携计算机等设备中的至少一种。

图2仅是以第一终端201和第二终端202均为智能手机进行举例说明。另外，第一终端201和第二终端202上通常安装有支持直播功能的直播应用程序，以方便主播进入直播间进行直播，以及观众进入直播间内观看直播。在一个直播间内，通常主播为一个，即第一终端201的数量为一个，而观众有多个，即第二终端202的数量为多个。在本公开实施例中，直播应用程序既可以为专用于提供直播的专用应用程序，也可以为具有直播功能的其他应用程序，本公开实施例对此不作限定。

其中，服务器203为直播应用程序提供后台服务，进而在用户侧实现主播能够利用直播应用程序进行直播，观众能够利用直播应用程序观看直播。在一些可能的实现方式中，服务器203为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器203通过无线网络或有线网络与第一终端201和第二终端202相连。另外，上述服务器的数量可以更多或更少，本公开实施例对此不作限定。当然，服务器203还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图3是根据一示例性实施例示出的一种音频处理方法的流程图，该音频处理方法应用于电子设备中，如图3所示，包括以下步骤。

在步骤301中，电子设备采集音频数据。

在一些可能的实现方式中，该种音频处理方案应用在直播场景下。示例性地，音频数据主要包含：背景音乐，用户语音和背景噪声三大类。假设对这三种不同类别的音频数据采用相同的高码率进行统一编码，那么不可避免地会造成网络带宽的浪费，因为相比于背景音乐而言，用户语音和背景噪声其实可以采用相对较低的码率进行编码，且用户不会感知到音质的降低。为此，本公开实施例会对不同类别的音频数据使用不同的码率进行编码。

在步骤302中，电子设备在多种内容分类方式中确定与该音频数据对应的目标内容分类方式。

在一些可能的实现方式中，该种音频处理方案包含多种不同的编码模式。其中，不同的编码模式采用不同的内容分类方式对音频数据进行分类，即编码模式的不同本质上是内容分类方式的不同。

在另一些可能的实现方式中，可以根据具体的产品需要来选择合适的编码模式，也即选择合适的内容分类方式(也称目标分类方式)对该音频数据进行内容分类。示例性地，可以根据计算量大小和音质要求高低等来选择合适的编码模式，本公开实施例在此不做限制。

以直播场景为例，该音频数据为直播音频数据，在多种内容分类方式中确定与音频数据对应的目标内容分类方式，包括：根据目标参数，在多种内容分类方式中确定与目标参数匹配的目标内容分类方式；其中，目标参数包括设备性能参数和直播过程中的音质要求参数中的至少一项。在这种实施方式下，与目标参数匹配的目标内容分类方式也即是与该音频数据对应的内容分类方式。

本公开实施例会根据具体的产品需求来选择合适的内容分类方式，灵活性较高。示例性地，由于设备性能可以反映设备的计算能力，比如设备性能越好，计算能力越强，因此可以根据设备性能参数和音质要求参数，在多种内容分类方式中确定与该音频数据匹配的目标内容分类方式。在直播场景下，该音质要求参数即为直播过程中的音质要求参数，比如直播间观众的音质要求参数。

需要说明的是，该步骤302是可选步骤，电子设备可以在步骤301之后执行步骤302，也可以直接执行步骤303，本公开实施例对此不做限定。

在步骤303中，电子设备按照目标内容分类方式对该音频数据进行内容分类，得到该音频数据的内容类别。

在另一些可能的实现方式中，本公开实施例提供了三种不同的编码模式，分别为基于信号处理的编码模式、基于深度学习的编码模式、融合信号处理和深度学习的编码模式。

其中，基于信号处理的编码模式采用基于信号处理的内容分类方式对音频数据进行内容分类，该种内容分类方式在本文中也被称为第一内容分类方式；基于深度学习的编码模式采用基于深度学习的内容分类方式对音频数据进行内容分类，该种内容分类方式在本文中也被称为第二内容分类方式；融合信号处理和深度学习的编码模式采用二者融合的内容分类方式对音频数据进行内容分类，该种内容分类方式在本文中也被称为第三内容分类方式。

在步骤304中，电子设备在与目标内容分类方式匹配的码率表中，获取与该内容类别匹配的目标码率。

在另一些可能的实现方式中，不同的编码模式对应不同的码率表，即不同的内容分类方式对应不同的码率表，本公开实施例在此不做限制。

在另一些可能的实现方式中，在与目标内容分类方式匹配的码率表中，获取与该内容类别匹配的目标码率，包括：

确定该音频数据对应的声道类型；

在与目标内容分类方式匹配的码率表中，获取与该内容类别和该声道类型匹配的目标码率；其中，码率表中记录了内容类别、声道类型与码率之间的对应关系。

本公开实施例在确定该音频数据的类别后，还会再结合声道类型来确定适合的码率，该种处理方式较为精准，后续编码效果好，不但进一步地避免了网络带宽的浪费，而且还确保了音质。另外，码率表中使用的码率均是符合用户听觉需求的适宜码率，因此用户不会感知到音质的降低。

在步骤305中，电子设备根据目标码率对该音频数据进行编码处理。

本公开实施例提供的音频处理方案在采集到音频数据后，首先在多种内容分类方式中确定与该音频数据匹配的目标内容分类方式；之后，按照目标内容分类方式对该音频数据进行内容分类，并在与目标内容分类方式匹配的码率表中，获取与该音频数据的内容类别匹配的目标码率；最终实现根据目标码率对该音频数据进行编码处理。换一种表达方式，本公开实施例会对音频数据进行内容分类，进而对不同类别的音频数据使用不同的码率进行编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题，而且不会引入额外的延迟。

在另一些可能的实现方式中，响应于目标内容分类方式为第一内容分类方式，按照目标内容分类方式对该音频数据进行内容分类，得到该音频数据的内容类别，包括：

对于该音频数据中的任意音频帧，获取该音频帧的能量，根据该音频帧的能量和背景噪声的参考能量，确定该音频帧的内容类别；其中，内容类别为非噪声或背景噪声；

在与目标内容分类方式匹配的码率表中，获取与该内容类别匹配的目标码率，包括：在与第一内容分类方式匹配的第一码率表中，获取与该内容类别匹配的目标码率；

根据目标码率对音频数据进行编码处理，包括：根据目标码率对该音频帧进行编码处理。

在另一些可能的实现方式中，根据该音频帧的能量和背景噪声的参考能量，确定该音频帧的内容类别，包括：

确定该音频帧的能量和背景噪声的参考能量之间的比值；

响应于比值大于第一阈值，确定该音频帧为非噪声；

响应于比值小于第二阈值，确定该音频帧为背景噪声。

基于信号处理的编码模式首先确定当前音频帧为背景噪声还是非噪声，进而根据确定的内容类别在第一码率表中确定目标码率，并据此完成对当前音频帧的编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

在另一些可能的实现方式中，响应于目标内容分类方式为第二内容分类方式，按照目标内容分类方式对音频数据进行内容分类，得到音频数据的内容类别，包括：

基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到当前时间窗口内的音频数据的内容类别；该内容分类模型是根据样本音频数据和样本音频数据的样本分类标签训练得到的；内容类别为背景噪声、背景音乐或用户语音；

在与目标内容分类方式匹配的码率表中，获取与内容类别匹配的目标码率，包括：在与第二内容分类方式匹配的第二码率表中，获取与内容类别匹配的目标码率；

根据目标码率对音频数据进行编码处理，包括：根据目标码率对下一个时间窗口内的音频数据进行编码处理。

基于深度学习的编码模式以特定长度的时间窗口为处理步长对音频数据进行编码。首先确定当前时间窗口内的音频数据为背景噪声、背景音乐还是用户语音，进而根据确定的内容类别在第二码率表中确定目标码率，并以此作为下一个时间窗口内的音频数据的码率，进而完成对下一个时间窗口内的音频数据的编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

在另一些可能的实现方式中，响应于目标内容分类方式为第三内容分类方式，按照目标内容分类方式对音频数据进行内容分类，得到音频数据的内容类别，包括：

基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到第一分类结果；内容分类模型是根据样本音频数据和样本音频数据的样本分类标签训练得到的，该第一分类结果为基于该内容分类模型得到的细分类结果；

获取目标音频帧的第二分类结果，目标音频帧是下一个时间窗口内的音频数据，该第二分类结果为基于音频数据中音频帧的能量得到的粗分类结果；

根据第一分类结果和第二分类结果，确定下一个时间窗口内的音频数据的内容类别；内容类别为背景噪声、背景音乐或用户语音；

在与目标内容分类方式匹配的码率表中，获取与内容类别匹配的目标码率，包括：在与第三内容分类方式匹配的第三码率表中，获取与内容类别匹配的目标码率；

示例性地，第三码率表既可以与第二码率表相同，也可以与第二码率表不同，本公开实施例在此不做限制。

融合信号处理和深度学习的编码模式以特定长度的时间窗口为处理步长对音频数据进行编码。且分别基于信号处理(粗分类)和深度学习(细分类)的内容分类方式执行内容分类，并结合二者的分类结果来最终确定下一个时间窗口内的音频数据为背景噪声、背景音乐还是用户语音，进而根据确定的内容类别在第三码率表中确定目标码率，并以此作为下一个时间窗口内的音频数据的码率，进而完成对下一个时间窗口内的音频数据的编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

在另一些可能的实现方式中，第二分类结果指示目标音频帧为背景噪声或非噪声；根据第一分类结果和第二分类结果，确定下一个时间窗口内的音频数据的内容类别，包括：

响应于第一分类结果为背景音乐，第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于第一分类结果为背景音乐，第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于第一分类结果为用户语音，第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音；

响应于第一分类结果为用户语音，第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音；

响应于第一分类结果为背景噪声，第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐；

响应于第一分类结果为背景噪声，第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景噪声。

本公开实施例提供了多种方式来确定音频数据的内容类别，实现方式较为丰富。

在另一些可能的实现方式中，该内容分类模型的训练过程包括：

获取样本音频数据和样本音频数据的样本分类标签；

将样本音频数据输入构建有目标损失函数的深度学习模型，获取深度学习模型输出的预测分类标签；

基于目标损失函数，确定样本音频数据的样本分类标签与预测分类标签是否匹配；响应于样本分类标签与预测分类标签不匹配，反复循环地迭代更新深度学习模型的模型参数直至模型收敛，得到内容分类模型。

本公开实施例训练了内容分类模型来进行内容分类，分类结果更为准确。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例。

上述图3所示为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的音频处理方案进行进一步阐述，图4是根据一示例性实施例示出的另一种音频处理方法的流程图。该音频处理方法应用于电子设备中，对应上述基于信号处理的编码模式，该模式对音频数据划分为两大类，由于背景音乐和用户语音的能量往往大于背景噪声的能量，所以该模式主要将音频数据分为背景噪声和非噪声两大类别。如图4所示，包括以下步骤。

在步骤401中，电子设备采集音频数据。

在步骤402中，电子设备在多种内容分类方式中确定与该音频数据对应的第一内容分类方式。

本步骤与上述步骤302类似，此处不再赘述。

在一些可能的实现方式中，基于信号处理的编码模式逐帧进行内容分类、逐帧根据内容类别确定码率并编码；或者，以特定长度的时间窗口为处理步长对音频数据进行分类，且一个时间窗口内的音频数据使用相同的码率进行编码。示例性地，可以将一个时间窗口内的特定音频帧的内容类别作为该时间窗口内的音频数据的内容类别，例如，该特定音频帧可以为该时间窗口内的首个音频帧，本公开实施例在此不做限制。以下仅以逐帧进行内容分类、逐帧根据内容类别确定码率并编码为例进行示意说明。

在步骤403中，对于该音频数据中的任意音频帧，电子设备获取该音频帧的能量，根据该音频帧的能量和背景噪声的参考能量，确定该音频帧的内容类别。

在另一些可能的实现方式中，每个音频帧对应一个能量值，示例性地，该能量值是指音频信号的均方根能量，表示音频信号波形短时间内的平均能量。另外，可以采用噪声估计算法来估计背景噪声的能量(本文中称为参考能量)；示例性地，该噪声估计算法为最小值跟踪算法，本公开实施例在此不做限制。

在另一些可能的实现方式中，根据该音频帧的能量和背景噪声的参考能量，确定该音频帧的内容类别，包括：确定该音频帧的能量和背景噪声的参考能量之间的比值；响应于该比值大于第一阈值，确定该音频帧为非噪声；响应于该比值小于第二阈值，确定该音频帧为背景噪声。示例性地，第一阈值的取值大于第二阈值。

在步骤404中，电子设备在与第一内容分类方式匹配的第一码率表中，获取与该内容类别匹配的目标码率。

在另一些可能的实现方式中，在确定好内容类别后，本公开实施例还会考虑声道类型，进而根据内容类别和声道类型来确定目标码率。即，第一码率表中记录了内容类别、声道类型与码率之间的第一对应关系。示例性地，表1为第一码率表的一种可能形式。

表1

声道类型	非噪声(背景音乐/用户语音)	背景噪声
			双声道	60	32
单声道	56	32

需要说明的是，上述表1中码率的单位为kbps(千比特每秒)。

在步骤405中，电子设备根据目标码率对该音频帧进行编码处理。

上述图3所示为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的音频处理方案进行进一步阐述，图5是根据一示例性实施例示出的另一种音频处理方法的流程图。该音频处理方法应用于电子设备中，对应上述基于深度学习的编码模式，该模式对音频数据划分为三大类，主要分为背景噪声、背景音乐和用户语音三大类别。如图5所示，包括以下步骤。

在步骤501中，电子设备采集音频数据。

在步骤502中，电子设备在多种内容分类方式中确定与该音频数据对应的第二内容分类方式。

本步骤与上述步骤302类似，此处不再赘述。在一些可能的实现方式中，基于深度学习的编码模式以特定长度的时间窗口为处理步长对音频数据进行分类，且一个时间窗口内的音频数据使用相同的码率进行编码。示例性地，该种编码模式主要包括：使用内容分类模型确定内容类别(下述步骤503)，以及确定目标码率并据此进行编码(下述步骤504和步骤505)。在本公开实施例中，一个时间窗口的长度为T秒，示例性地，T在[1,3]之间取值。

在步骤503中，电子设备基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到当前时间窗口内的音频数据的内容类别；该内容分类模型是根据样本音频数据和样本音频数据的样本分类标签训练得到的。

在另一些可能的实现方式中，由于内容类别包括背景噪声、背景音乐和用户语音，因此该内容分类模型为三分类模型，该内容分类模型支持输入T秒的音频数据后输出相应的内容类别。示例性地，该内容分类模型的训练过程包括：获取样本音频数据和样本音频数据的样本分类标签；将样本音频数据输入构建有目标损失函数的深度学习模型，获取深度学习模型输出的预测分类标签；基于目标损失函数，确定样本音频数据的样本分类标签与预测分类标签是否匹配；响应于样本分类标签与预测分类标签不匹配，反复循环地迭代更新深度学习模型的模型参数直至模型收敛，得到内容分类模型。

需要说明的是，样本音频数据中包括背景噪声的音频和相应的样本分类标签、用户语音的音频和相应的样本分类标签、背景音乐的音频和相应的样本分类标签；另外，目标损失函数可以是交叉熵损失函数或负对数似然损失函数等，本公开实施例在此不做限制。该内容分类模型的模型结构可以是DNN(Deep Neural Networks，深度神经网络)、RNN(Recurrent Neural Network，循环神经网络)或CNN(convolutional neural network，卷积神经网络)等，本公开实施例在此同样不做限制。

在步骤504中，电子设备在与第二内容分类方式匹配的第二码率表中，获取与该内容类别匹配的目标码率。

在另一些可能的实现方式中，在确定好内容类别后，本公开实施例还会考虑声道类型，进而根据内容类别和声道类型来确定目标码率。即，第二码率表中记录了内容类别、声道类型与码率之间的第二对应关系。示例性地，表2为二码率表的一种可能形式。

表2

声道类型	背景音乐	用户语音	背景噪声
				双声道	64	48	32
单声道	56	40	32

需要说明的是，上述表2中码率的单位为kbps(千比特每秒)。

在步骤505中，电子设备根据目标码率对下一个时间窗口内的音频数据进行编码处理。

本公开实施例即是基于当前时间窗口内的音频数据的内容类别来确定目标码率，进而根据目标码率来指导对下一个时间窗口内的音频数据的编码。

上述图3所示为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的音频处理方案进行进一步阐述，图6是根据一示例性实施例示出的另一种音频处理方法的流程图。该音频处理方法应用于电子设备中，对应上述融合信号处理和深度学习的编码模式，该模式对音频数据划分为三大类，主要分为背景噪声、背景音乐和用户语音三大类别。如图6所示，包括以下步骤。

在步骤601中，电子设备采集音频数据。

在步骤602中，电子设备在多种内容分类方式中确定与该音频数据对应的第三内容分类方式。

本步骤与上述步骤302类似，此处不再赘述。

在一些可能的实现方式中，融合信号处理和深度学习的编码模式以特定长度的时间窗口为处理步长对音频数据进行分类，且一个时间窗口内的音频数据使用相同的码率进行编码。

示例性地，该种编码模式在利用噪声估计算法估计背景噪声的参考能量的过程中，会使用内容分类模型确定当前时间窗口内的音频数据的内容类别，即对应下述步骤602。

在步骤603中，电子设备基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到第一分类结果，该第一分类结果为基于该内容分类模型得到的细分类结果；该内容分类模型是根据样本音频数据和样本音频数据的样本分类标签训练得到的。

本步骤与上述步骤503类似，此处不再赘述。

在步骤604中，电子设备获取目标音频帧的第二分类结果，该目标音频帧是下一个时间窗口内的音频数据，该第二分类结果为基于音频数据中音频帧的能量得到的粗分类结果。

在另一些可能的实现方式中，目标音频帧可以为下一个时间窗口内的首个音频帧，本公开实施例在此不做限制。示例性地，本公开实施例基于第一内容分类方式对目标音频帧进行内容分类，详细的分类过程包括：获取目标音频帧的能量；确定目标音频帧的能量和背景噪声的参考能量之间的比值；响应于该比值大于第一阈值，确定目标音频帧为非噪声；响应于该比值小于第二阈值，确定目标音频帧为背景噪声。换一种表达方式，本步骤即是基于信号处理的编码模式确定下一个时间窗口内的首个音频帧是属于背景噪声还是非噪声。

在步骤605中，电子设备根据第一分类结果和第二分类结果，确定下一个时间窗口内的音频数据的内容类别。

示例性地，下述表3为融合信号处理和深度学习的编码模式下确定内容类别的一种可能形式。

表3

在步骤606中，电子设备在与第三内容分类方式匹配的第三码率表中，获取与该内容类别匹配的目标码率。

在另一些可能的实现方式中，第三码率表既可以与第二码率表相同，也可以与第二码率表不同，本公开实施例在此不做限制。

在步骤607中，电子设备根据目标码率对下一个时间窗口内的音频数据进行编码处理。

融合信号处理和深度学习的编码模式以特定长度的时间窗口为处理步长对音频数据进行编码。且分别基于信号处理和深度学习的内容分类方式执行内容分类，并结合二者的分类结果来最终确定下一个时间窗口内的音频数据为背景噪声、背景音乐还是用户语音，进而根据确定的内容类别在第二码率表中确定目标码率，并以此作为下一个时间窗口内的音频数据的码率，进而完成对下一个时间窗口内的音频数据的编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

图7是根据一示例性实施例示出的一种音频处理装置的框图。参照图7，该装置包括：

采集模块701，被配置为采集音频数据。

分类模块702，被配置为按照目标内容分类方式对该音频数据进行内容分类，得到该音频数据的内容类别。

获取模块703，被配置为在与该目标内容分类方式匹配的码率表中，获取与该内容类别匹配的目标码率。

处理模块704，被配置为根据该目标码率对该音频数据进行编码处理。

本公开实施例提供的音频处理方案在采集到音频数据后，首先在多种内容分类方式中确定与该音频数据匹配的目标内容分类方式。之后，按照目标内容分类方式对该音频数据进行内容分类，并在与目标内容分类方式匹配的码率表中，获取与该音频数据的内容类别匹配的目标码率。最终实现根据目标码率对该音频数据进行编码处理。换一种表达方式，本公开实施例会对音频数据进行内容分类，进而对不同类别的音频数据使用不同的码率进行编码，该种音频处理方案更为灵活和合理，能够节省音频传输时的网络带宽，避免了采用相同的高码率对各种类型的音频数据进行统一编码的带宽浪费问题。

在一些可能的实现方式中，该音频数据为直播音频数据，该装置还包括确定模块，被配置为：

根据目标参数，在多种内容分类方式中确定与该目标参数匹配的该目标内容分类方式。其中，该目标参数包括设备性能参数和直播过程中的音质要求参数中的至少一项。

在一些可能的实现方式中，该获取模块703，被配置为：

确定该音频数据对应的声道类型。

在与该目标内容分类方式匹配的码率表中，获取与该内容类别和该声道类型匹配的目标码率。其中，该码率表中记录了内容类别、声道类型与码率之间的对应关系。

在一些可能的实现方式中，响应于该目标内容分类方式为第一内容分类方式，该分类模块702，被配置为：对于该音频数据中的任意音频帧，获取该音频帧的能量，根据该音频帧的能量和背景噪声的参考能量，确定该音频帧的内容类别。该内容类别为非噪声或背景噪声。

该获取模块703，被配置为：在与该第一内容分类方式匹配的第一码率表中，获取与该内容类别匹配的目标码率。

该处理模块704，被配置为：根据该目标码率对该音频帧进行编码处理。

在一些可能的实现方式中，该分类模块702，被配置为：

确定该音频帧的能量和背景噪声的参考能量之间的比值。

响应于该比值大于第一阈值，确定该音频帧为非噪声。

响应于该比值小于第二阈值，确定该音频帧为背景噪声。

在一些可能的实现方式中，响应于该目标内容分类方式为第二内容分类方式，该分类模块702，被配置为：基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到当前时间窗口内的音频数据的内容类别。该内容分类模型是根据样本音频数据和该样本音频数据的样本分类标签训练得到的。该内容类别为背景噪声、背景音乐或用户语音。

该获取模块703，被配置为：在与该第二内容分类方式匹配的第二码率表中，获取与该内容类别匹配的目标码率。

该处理模块704，被配置为：根据该目标码率对下一个时间窗口内的音频数据进行编码处理。

在一些可能的实现方式中，响应于该目标内容分类方式为第三内容分类方式，该分类模块702，被配置为：基于内容分类模型，对当前时间窗口内的音频数据进行内容分类，得到第一分类结果，该第一分类结果为基于该内容分类模型得到的细分类结果。该内容分类模型是根据样本音频数据和该样本音频数据的样本分类标签训练得到的。

获取目标音频帧的第二分类结果，该目标音频帧是下一个时间窗口内的音频数据，该第二分类结果为基于音频数据中音频帧的能量得到的粗分类结果。

根据该第一分类结果和该第二分类结果，确定下一个时间窗口内的音频数据的内容类别。该内容类别为背景噪声、背景音乐或用户语音。

该获取模块703，被配置为：在与该第三内容分类方式匹配的第三码率表中，获取与该内容类别匹配的目标码率。

在一些可能的实现方式中，该第二分类结果指示该目标音频帧为背景噪声或非噪声。该获取模块703，被配置为：

响应于该第一分类结果为背景音乐，该第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐。

响应于该第一分类结果为背景音乐，该第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐。

响应于该第一分类结果为用户语音，该第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音。

响应于该第一分类结果为用户语音，该第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为用户语音。

响应于该第一分类结果为背景噪声，该第二分类结果为非噪声，确定下一个时间窗口内的音频数据的内容类别为背景音乐。

响应于该第一分类结果为背景噪声，该第二分类结果为背景噪声，确定下一个时间窗口内的音频数据的内容类别为背景噪声。

在一些可能的实现方式中，该内容分类模型的训练过程包括：

获取样本音频数据和该样本音频数据的样本分类标签。

将该样本音频数据输入构建有目标损失函数的深度学习模型，获取该深度学习模型输出的预测分类标签。

基于该目标损失函数，确定该样本音频数据的样本分类标签与预测分类标签是否匹配。响应于该样本分类标签与该预测分类标签不匹配，反复循环地迭代更新该深度学习模型的模型参数直至模型收敛，得到该内容分类模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是，上述实施例提供的音频处理装置在进行音频处理时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行该程序代码，以实现上述音频处理方法。

其中，响应于电子设备被提供为终端，图8是根据一示例性实施例示出的一种终端800的框图。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些可能的实现方式中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些可能的实现方式中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器801所执行以实现本公开中方法实施例提供的音频处理方法。

在一些可能的实现方式中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、电源808中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些可能的实现方式中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些可能的实现方式中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些可能的实现方式中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些可能的实现方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些可能的实现方式中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些可能的实现方式中，音频电路807还可以包括耳机插孔。

电源808用于为终端800中的各个组件进行供电。电源808可以是交流电、直流电、一次性电池或可充电电池。当电源808包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述音频处理方法。在一些可能的实现方式中，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

采集音频数据；

根据所述目标码率对所述音频数据进行编码处理。

2.根据权利要求1所述的音频处理方法，其特征在于，所述音频数据为直播音频数据，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述在与所述目标内容分类方式匹配的码率表中，获取与所述内容类别匹配的目标码率，包括：

确定所述音频数据对应的声道类型；

4.根据权利要求1所述的音频处理方法，其特征在于，响应于所述目标内容分类方式为第一内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据所述音频帧的能量和背景噪声的参考能量，确定所述音频帧的内容类别，包括：

确定所述音频帧的能量和背景噪声的参考能量之间的比值；

响应于所述比值大于第一阈值，确定所述音频帧为非噪声；

6.根据权利要求1所述的音频处理方法，其特征在于，响应于所述目标内容分类方式为第二内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

7.根据权利要求1所述的音频处理方法，其特征在于，响应于所述目标内容分类方式为第三内容分类方式，所述按照目标内容分类方式对所述音频数据进行内容分类，得到所述音频数据的内容类别，包括：

8.根据权利要求7所述的音频处理方法，其特征在于，所述第二分类结果指示所述目标音频帧为背景噪声或非噪声；所述根据所述第一分类结果和所述第二分类结果，确定下一个时间窗口内的音频数据的内容类别，包括：

9.根据权利要求6或7所述的音频处理方法，其特征在于，所述内容分类模型的训练过程包括：

获取样本音频数据和所述样本音频数据的样本分类标签；

10.一种音频处理装置，其特征在于，所述装置包括：

采集模块，被配置为采集音频数据；

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至9中任一项所述的音频处理方法。

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至9中任一项所述的音频处理方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的音频处理方法。