CN115641857A

CN115641857A - 音频处理方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN115641857A
Application number: CN202211176544.4A
Authority: CN
Inventors: 张旭; 陈联武; 李子涵; 陈翔宇; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-24

Abstract

本公开提供了一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及音视频处理技术领域。该方法包括：获取待处理音频，对待处理音频进行分类处理，得到待处理音频的音频类型；对待处理音频进行音质检测处理，并结合音频类型确定待处理音频对应的第一码率；确定待处理音频的音频特征，基于音频特征进行码率预测处理，得到待处理音频对应的第二码率；基于第一码率与第二码率确定待处理音频对应的目标码率。本公开通过对待处理音频进行音频分类和音质预测处理，确定对应的目标码率，可以在有效保证音频质量的同时，尽可能的降低传输过程中所需的音频压缩码率，进而降低传输带宽。

Description

音频处理方法、装置、电子设备、存储介质及程序产品

技术领域

本公开涉及音视频处理技术领域，尤其涉及一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

音频编码是指在音频传输过程中，利用编码技术对音频信号进行压缩的过程，其目的是用以减少音频流媒体的传输带宽需求与音频档案的存储大小。按照压缩方法可分为有损压缩和无损压缩。而音频流媒体的传输带宽和音频的压缩质量与音频的压缩码率息息相关。音频压缩码率是指单位时间播放连续的媒体压缩后的音频的比特数量。

一般情况下利用同一种压缩方法时，音频压缩码率越高，音频的质量越好，但是传输所需要的带宽也就越大。但是当音频压缩码率达到某一数值时，音频的质量的变化就不会被人类听感所感知，但是传输所需要的带宽依然在变大。因此，为了保证在人类听感所感知的音频质量不变时，尽可能的降低传输所需要的带宽，也就成了目前业内音频编码的重要工作。然而，目前采用原始信号处理算法可能存在准确率不足的问题，影响音频码率的确定。

发明内容

本公开提供一种音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以至少解决相关技术中采用深度学习技术确定音频码率存在准确率不足的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，包括：获取待处理音频，对所述待处理音频进行分类处理，得到所述待处理音频的音频类型；对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率；确定所述待处理音频的音频特征，基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率；基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率。

在本公开的一种示例性实施例中，所述对所述待处理音频进行分类处理，得到所述待处理音频的音频类型，包括：获取预先构建的音频分类网络；所述音频分类网络基于多个样本音频片段各自对应的梅尔谱特征值与音频类型标签训练得到；通过所述音频分类网络对所述待处理音频进行分类处理，得到所述音频类型。

在本公开的一种示例性实施例中，所述音频分类网络基于下述步骤得到：获取训练音频样本集与预先构建的初始分类网络；所述训练音频样本集包括多个样本音频片段以及各所述样本音频片段的音频类型标签；分别对各个所述样本音频片段进行时域变换处理，得到各所述样本音频片段对应的时域音频片段；对各个所述时域音频片段分别进行梅尔频率倒谱系数计算，得到各个所述时域音频片段的梅尔谱初始值；分别根据各个所述梅尔谱初始值确定多个所述时域音频片段各自对应的梅尔谱特征值；基于多个所述样本音频片段各自对应的音频类型标签与所述梅尔谱特征值，对所述初始分类网络进行模型训练，以得到所述音频分类网络。

在本公开的一种示例性实施例中，所述音质检测处理包括有效带宽检测与音频复杂度检测；所述对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率，包括：对所述待处理音频进行有效带宽检测，得到所述待处理音频的有效带宽；对所述待处理音频进行音频复杂度检测，得到所述待处理音频的频谱丰富度；对所述有效带宽、所述频谱丰富度与所述音频类型进行融合处理，得到所述第一码率。

在本公开的一种示例性实施例中，所述对所述待处理音频进行有效带宽检测，得到所述待处理音频的有效带宽，包括：获取所述待处理音频所处的时域区间，计算所述待处理音频的各个频带在所述时域区间内的频带能量；确定多个所述频带能量中的最大频带能量，根据所述最大频带能量确定所述待处理音频的音频带宽频带点；获取预先配置的快速傅里叶变换长度，以及所述待处理音频对应的音频采样率；根据所述音频带宽频带点、所述快速傅里叶变换长度与所述音频采样率确定所述有效带宽。

在本公开的一种示例性实施例中，所述对所述待处理音频进行音频复杂度检测，得到所述待处理音频的频谱丰富度，包括：确定所述待处理音频对应的总频带数；获取所述待处理音频的各个频带在时域区间内的频带能量，以及所述待处理音频对应的帧序列；所述帧序列包括多个音频帧，每个音频帧具有对应的帧序号；基于多个所述频带能量以及各所述音频帧的帧序号，确定频带能量截取数量；基于所述频带能量截取数量与所述总频带数，确定所述频谱丰富度。

在本公开的一种示例性实施例中，所述对所述有效带宽、所述频谱丰富度与所述音频类型进行融合处理，得到所述第一码率，包括：获取所述待处理视频对应的音频采样率、带宽上限与带宽下限；根据所述音频采样率与所述有效带宽确定有效带宽系数；根据所述有效带宽系数、所述带宽上限与带宽下限确定所述待处理音频的码率带宽上限与码率带宽下限；根据所述频谱丰富度、所述码率带宽上限与所述码率带宽下限确定第一码率。

在本公开的一种示例性实施例中，所述基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率，包括：获取预先构建的音质预测网络；所述音质预测网络基于样本音频片段与样本音频音质组成的训练样本对训练得到；所述样本音频音质通过对所述样本音频片段进行多码率编码处理得到；将所述音频特征输入至所述音质预测网络进行音质预测处理，得到所述待处理音频的目标音质；获取预先构建的码率音质曲线，基于所述码率音质曲线确定所述目标音质对应的所述第二码率。

在本公开的一种示例性实施例中，所述音质预测网络通过下述步骤构建：获取预先构建的初始神经网络与训练音频样本集；所述训练音频样本集包括多个样本音频片段；对所述样本音频片段进行多码率编码处理，得到所述样本音频片段对应的多个编码音频片段；对多个所述编码音频片段进行音质评估处理，得到对应的样本音频音质；对样本音频片段进行特征提取，得到样本音频片段对应的样本音频特征；将样本音频片段的样本音频特征与对应的样本音频音质作为训练样本对，对所述初始神经网络进行模型训练，以得到所述音质预测网络。

在本公开的一种示例性实施例中，所述基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率，包括：获取当前网络状态；根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率。

在本公开的一种示例性实施例中，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，包括：若所述当前网络状态为第一网络状态，则基于所述音频类型、所述第一码率与所述第二码率确定所述目标码率；所述第一网络状态为网络传输速率处于预设速率区间。

在本公开的一种示例性实施例中，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，还包括：若所述当前网络状态为第二网络状态，则确定所述第一码率与所述第二码率中的较大码率值；所述第二网络状态为网络传输速率大于所述预设速率区间对应的最大值；将所述较大码率值作为所述目标码率。

在本公开的一种示例性实施例中，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，还包括：若所述当前网络状态为第三网络状态，则确定所述第一码率与所述第二码率中的较小码率值；所述第三网络状态为网络传输速率大于所述预设速率区间对应的最小值；将所述较小码率值作为所述目标码率。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：音频类型确定模块，用于获取待处理音频，对所述待处理音频进行分类处理，得到所述待处理音频的音频类型；第一码率确定模块，用于对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率；第二码率确定模块，用于确定所述待处理音频的音频特征，基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率；目标码率确定模块，用于基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率。

在本公开的一种示例性实施例中，所述音频类型确定模块包括音频类型确定单元，用于：获取预先构建的音频分类网络；所述音频分类网络基于多个样本音频片段各自对应的梅尔谱特征值与音频类型标签训练得到；通过所述音频分类网络对所述待处理音频进行分类处理，得到所述音频类型。

在本公开的一种示例性实施例中，所述音频类型确定模块还包括分类网络训练单元，用于：获取训练音频样本集与预先构建的初始分类网络；所述训练音频样本集包括多个样本音频片段以及各所述样本音频片段的音频类型标签；分别对各个所述样本音频片段进行时域变换处理，得到各所述样本音频片段对应的时域音频片段；对各个所述时域音频片段分别进行梅尔频率倒谱系数计算，得到各个所述时域音频片段的梅尔谱初始值；分别根据各个所述梅尔谱初始值确定多个所述时域音频片段各自对应的梅尔谱特征值；基于多个所述样本音频片段各自对应的音频类型标签与所述梅尔谱特征值，对所述初始分类网络进行模型训练，以得到所述音频分类网络。

在本公开的一种示例性实施例中，所述第一码率确定模块包括第一码率确定单元，用于：对所述待处理音频进行有效带宽检测，得到所述待处理音频的有效带宽；对所述待处理音频进行音频复杂度检测，得到所述待处理音频的频谱丰富度；对所述有效带宽、所述频谱丰富度与所述音频类型进行融合处理，得到所述第一码率。

在本公开的一种示例性实施例中，所述第一码率确定单元包括有效带宽确定子单元，用于：获取所述待处理音频所处的时域区间，计算所述待处理音频的各个频带在所述时域区间内的频带能量；确定多个所述频带能量中的最大频带能量，根据所述最大频带能量确定所述待处理音频的音频带宽频带点；获取预先配置的快速傅里叶变换长度，以及所述待处理音频对应的音频采样率；根据所述音频带宽频带点、所述快速傅里叶变换长度与所述音频采样率确定所述有效带宽。

在本公开的一种示例性实施例中，所述第一码率确定单元包括复杂度确定子单元，用于：确定所述待处理音频对应的总频带数；获取所述待处理音频的各个频带在时域区间内的频带能量，以及所述待处理音频对应的帧序列；所述帧序列包括多个音频帧，每个音频帧具有对应的帧序号；基于多个所述频带能量以及各所述音频帧的帧序号，确定频带能量截取数量；基于所述频带能量截取数量与所述总频带数，确定所述频谱丰富度。

在本公开的一种示例性实施例中，所述第一码率确定单元包括第一码率确定子单元，用于：获取所述待处理视频对应的音频采样率、带宽上限与带宽下限；根据所述音频采样率与所述有效带宽确定有效带宽系数；根据所述有效带宽系数、所述带宽上限与带宽下限确定所述待处理音频的码率带宽上限与码率带宽下限；根据所述频谱丰富度、所述码率带宽上限与所述码率带宽下限确定第一码率。

在本公开的一种示例性实施例中，所述第二码率确定模块包括第二码率确定单元，用于：获取预先构建的音质预测网络；所述音质预测网络基于样本音频片段与样本音频音质组成的训练样本对训练得到；所述样本音频音质通过对所述样本音频片段进行多码率编码处理得到；将所述音频特征输入至所述音质预测网络进行音质预测处理，得到所述待处理音频的目标音质；获取预先构建的码率音质曲线，基于所述码率音质曲线确定所述目标音质对应的所述第二码率。

在本公开的一种示例性实施例中，所述第二码率确定模块包括预测网络确定单元，用于：获取预先构建的初始神经网络与训练音频样本集；所述训练音频样本集包括多个样本音频片段；对所述样本音频片段进行多码率编码处理，得到所述样本音频片段对应的多个编码音频片段；对多个所述编码音频片段进行音质评估处理，得到对应的样本音频音质；对样本音频片段进行特征提取，得到样本音频片段对应的样本音频特征；将样本音频片段的样本音频特征与对应的样本音频音质作为训练样本对，对所述初始神经网络进行模型训练，以得到所述音质预测网络。

在本公开的一种示例性实施例中，所述目标码率确定模块包括目标码率确定单元，用于：获取当前网络状态；根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率。

在本公开的一种示例性实施例中，所述目标码率确定单元包括第一目标码率确定子单元，用于：若所述当前网络状态为第一网络状态，则基于所述音频类型、所述第一码率与所述第二码率确定所述目标码率；所述第一网络状态为网络传输速率处于预设速率区间。

在本公开的一种示例性实施例中，所述目标码率确定单元还包括第二目标码率确定子单元，用于：若所述当前网络状态为第二网络状态，则确定所述第一码率与所述第二码率中的较大码率值；所述第二网络状态为网络传输速率大于所述预设速率区间对应的最大值；将所述较大码率值作为所述目标码率。

在本公开的一种示例性实施例中，所述目标码率确定单元还包括第三目标码率确定子单元，用于：若所述当前网络状态为第三网络状态，则确定所述第一码率与所述第二码率中的较小码率值；所述第三网络状态为网络传输速率大于所述预设速率区间对应的最小值；将所述较小码率值作为所述目标码率。

根据本公开的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述任意一项所述的音频处理方法。

根据本公开的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任意一项所述的音频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，计算机程序/指令被处理器执行时实现上述任意一项所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：一方面，对第一码率与第二码率进行融合处理计算得到目标码率，可以有效提高确定出的码率结果的准确率。另一方面，通过对待处理音频分别进行音频分类和音质预测处理，得到第一码率与第二码率，可以在有效保证音频质量的同时，尽可能的降低传输过程中所需的音频压缩码率，进而降低传输带宽。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理方法的流程图。

图2是根据一示例性实施例示出的确定待处理音频的目标码率的系统框图。

图3是根据一示例性实施例示出的基于信号处理方法确定待处理音频的第一码率的系统框图。

图4是根据一示例性实施例示出的基于码率音质曲线确定对某一音频片段的码率的示意图。

图5是根据一示例性实施例示出的采用深度学习技术预测待处理音频的第二码率的系统框图。

图6是根据一示例性实施例示出的一种音频处理装置的框图。

图7示意性示出了根据本公开一示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在音频传输过程中，在保证在人类听感所感知的音频质量不变的同时，尽可能的降低传输所需要的带宽，是目前业内音频编码的重要工作。

在一种实现方案中，可以利用信号处理算法，基于音频片段的分类结果以及音频特征参数，基于人工规则，设置该片段对应的音频码率，在保证音频质量的同时降低总体码率。然而，信号处理算法存在下述缺陷：第一，人工规则的方法只能基于少数特征和有限策略来设置音频码率，很难覆盖所有音频内容场景。第二，在实际场景中，权衡带宽成本和不同场景的用户体验，可能有不同的音质目标。为不同的音质目标设置不同的人工规则，过程相对繁琐且耗时较大。

在另一种实现方案中，可以利用深度学习技术，进行基于编码音质预测的音频码率优化方法，利用神经网络学习不同音频内容在不同码率编码后的音质指标，从而可以针对任意目标音质，为不同音频内容设置最优化的码率，达到优化音频码率的目的。然而，该方案是基于深度学习技术实现的，但是由于复杂度和网络性能的限制，致使该方法准确性不足。

图1是根据一示例性实施例示出的一种音频处理方法的流程图，如图1所示，音频处理方法可以用于计算机设备中，其中，本公开中描述的计算机设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端设备，以及诸如台式计算机等固定终端设备。本示例性实施例以该方法应用于计算机设备进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括计算机设备和服务器的系统，并通过计算机设备和服务器的交互实现。具体包括以下步骤。

在步骤S110中，获取待处理音频，对待处理音频进行分类处理，得到待处理音频的音频类型。

在本公开的一种示例性实施例中，待处理音频可以是待进行音频编码处理的音频片段。分类处理可以是确定待处理音频的具体类型的处理过程。音频类型可以是待处理音频的具体类型，例如，音频类型可以包括噪声、语音或音乐等。

在获取到待处理音频时，可以对待处理音频进行分类处理，例如，可以使用音频分类网络对待处理音频进行分类处理，确定出待处理音频对应的音频类型。举例而言，待处理音频可以是长度为T的音频信号x，输入至音频分类网络进行分类处理，确定待处理音频对应的音频类型，在确定出对应的音频类型后，可以确定出待处理音频对应的带宽上下限，如结合之前的时延结果，确定出各种不同音频类型的带宽上下限如下：噪声可以是32-48kbps，语音可以是48-64kbps，音乐可以是64-96kbps。

在步骤S120中，对待处理音频进行音质检测处理，并结合音频类型确定待处理音频对应的第一码率。

在本公开的一种示例性实施例中，音质检测处理可以是对待处理音频进行音质检测，以确定待处理音频对应的有效带宽和频谱丰富度的过程。第一码率可以是采用信号处理算法(如音质检测处理方案)确定出的待处理音频的码率值。

参考图2，图2是根据一示例性实施例示出的确定待处理音频的目标码率的系统框图。在步骤S210中，可以通过传统码率预测方法对里音频进行码率预测处理。例如，传统码率预测可以通过信号处理算法进行。对于获取到的待处理音频，可以对待处理音频进行音质检测处理，音质检测处理的目的主要是为了确定待处理音频对应的有效带宽与频谱丰富度，例如，采用信号处理算法对待处理音频进行音质检测处理，确定出对应的有效带宽及频谱丰富度。当待处理音频的有效带宽越高时，音频压缩码率越大；当待处理音频的频谱越丰富时，音频压缩码率越大。

在步骤S130中，确定待处理音频的音频特征，基于音频特征进行码率预测处理，得到待处理音频对应的第二码率。

在本公开的一种示例性实施例中，音频特征可以是从待处理音频中提取的整个音频片段的特征。码率预测处理可以是对待处理音频进行编码码率预测的处理过程。第二码率可以是对待处理音频进行码率预测处理所确定出的码率值。

继续参考图2，在步骤S220中，对待处理音频进行特征提取，将得到的多种特征拼接在一起，得到对应的多维特征向量。举例而言，可以对待处理音频的每个音频帧提取多种帧特征，然后将帧特征的统计均值和方差作为整个音频片段的特征。典型的帧特征可以包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)、子带能量比等等；其中，子带能量比可以是将频谱进行划分得到的子带的能量与频谱总能量的比值。

另外，可以直接从整个音频片段提取特征，例如待处理音频的有效带宽和音频丰富度均可以作为待处理音频的音频特征。例如，对于输入音频片段x，将多种特征拼接到一起，最终得到D维的特征向量；如待处理音频可以是3秒的音频片段，经过特征提取，可以提取出40维的音频特征向量。

在确定出经过特征提取得到的音频特征后，在步骤S230中，可以基于音频特征进行码率预测处理，得到待处理音频对应的第二码率。例如，可以采用深度学习码率预测方法，确定待处理音频对应的第二码率。

在步骤S140中，基于第一码率与第二码率确定待处理音频对应的目标码率。

在本公开的一种示例性实施例中，目标码率可以是对待处理音频进行编码处理时所采用的码率值，记为EB。

继续参考图2，在步骤S240中，在得到第一码率与第二码率后，可以将第一码率与第二码率进行融合处理，以得到对待处理音频进行编码处理时所采用的目标码率。目标码率EB的确定过程可以如公式1所示。

EB＝func(EB₀,EB₁) (公式1)

根据本示例实施例中的音频处理方法，一方面，对第一码率与第二码率进行融合处理计算得到目标码率，可以有效提高确定出的码率结果的准确率。另一方面，通过对待处理音频分别进行音频分类和音质预测处理，得到第一码率与第二码率，可以在有效保证音频质量的同时，尽可能的降低传输过程中所需的音频压缩码率，进而降低传输带宽。

下面，将对本示例实施例中的音频处理方法进行进一步的说明。

在本公开的一种示例性实施例中，对待处理音频进行分类处理，得到待处理音频的音频类型，包括：获取预先构建的音频分类网络；音频分类网络基于多个样本音频片段各自对应的梅尔谱特征值与音频类型标签训练得到；通过音频分类网络对待处理音频进行分类处理，得到音频类型。

其中，音频分类网络可以是用于对待处理音频进行音频类型分类的网络结构。样本音频片段可以是作为训练样本集以用于训练音频分类网络的音频片段。梅尔谱特征值可以是样本音频片段的梅尔谱相关特征的具体数值，例如，梅尔谱中通常可以包括时域-频域信息、感知相关的振幅信息与感知相关的频域信息。音频类型标签可以用于标识样本音频片段的具体音频类型。

参考图3，图3是根据一示例性实施例示出的基于信号处理方法确定待处理音频的第一码率的系统框图。在步骤S310中，对待处理音频进行音频分类处理。在对待处理音频进行分类处理时，可以基于音频分类网络进行，得到的音频类型标签310可以包括噪声、语音和音乐等。音频分类网络可以是基于样本音频片段对应的梅尔谱特征值以及对应的音频类型标签组成的数据对训练得到的，在训练音频分类网络时，可以获取多个样本音频片段，基于多个样本音频片段分别对应的梅尔谱特征值与音频类型标签，构建得到对应的训练音频样本集。并且，将获取到的多个样本音频片段各自对应的梅尔谱特征值作为输入特征，并将多个样本音频片段各自对应的音频类型标签作为网络学习的目标，进行模型训练，以得到音频分类网络。

将待处理音频输入至训练好的音频分类网络中，可以得到待处理音频对应的音频类型。在确定出待处理音频对应的音频类型的同时，可以确定出待处理音频对应的带宽上下限，分别记为B_max与B_min。在后续处理过程中，可以结合音频类型确定待处理音频对应的第一码率。

在本公开的一种示例性实施例中，音频分类网络基于下述步骤得到：获取训练音频样本集与预先构建的初始分类网络；训练音频样本集包括多个样本音频片段以及各样本音频片段的音频类型标签；分别对各个样本音频片段进行时域变换处理，得到各样本音频片段对应的时域音频片段；对各个时域音频片段分别进行梅尔频率倒谱系数计算，得到各个时域音频片段的梅尔谱初始值；分别根据各个梅尔谱初始值确定多个时域音频片段各自对应的梅尔谱特征值；基于多个样本音频片段各自对应的音频类型标签与梅尔谱特征值，对初始分类网络进行模型训练，以得到音频分类网络。

其中，训练音频样本集可以是用于训练初始分类网络以得到音频分类网络所采用的训练样本集，训练音频样本集可以是由多个样本音频片段以及每个样本音频片段各自对应的音频类型标签组成的数据对组成。初始分类网络可以是初始构建的分类网络结构。样本音频片段可以是用于训练音频样本集中包含的音频片段。音频类型标签可以用于标识样本音频片段对应的音频类型。时域变换处理可以是将样本音频片段进行短时傅里叶变换处理，以在时域内对样本音频片段进行分析。时域音频片段可以是对样本音频片段进行短时傅里叶变换处理过程中，采用窗函数对样本音频片段进行加窗处理，以把整个时域过程分解成多个等长的小片段。

梅尔频率倒谱系数可以是组成梅尔频率倒谱的系数；其中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔谱初始值可以是对时域音频片段进行梅尔频率倒谱系数特征提取得到的初始特征数值。梅尔谱特征值可以是对得到的梅尔谱初始值进行均值计算处理所得到的特征数值。音频分类网络可以是用于对待处理音频进行音频分类所采用的网络结构。

在训练音频分类网络时，可以获取预先构建的训练音频样本集，训练音频样本集可以包括多个样本音频片段，例如，样本音频片段可以是长度为T的原始音频信号x，记为x(t)，其中t代表时间，0<t≤T。对训练音频样本集中的每个样本音频片段进行时域变换处理，得到各自对应的时域音频片段，例如，可以对每个样本音频片段分别进行短时傅里叶变换(Short-Time Fourier Transform，STFT)，则各个样本音频片段x(t)在时频域可表示为公式2所示：

X(n,k)＝STFT(x(t)) (公式2)

其中，n为帧序列，0<n≤N，且N为总帧数；k为中心频率序列，0<k≤K，且K为总频带数。

在得到样本音频片段对应的时域音频片段后，可以对时域音频片段进行梅尔频率倒谱系数计算，得到多个时域音频片段的梅尔谱初始值。具体如公式3所示。

Mel_x(n,p)＝mfcc(X_16k(n,k)) (公式3)

其中，n为帧序列，0<n≤N，且N为总帧数；k为中心频率序列，0<k≤K，且K为总频带数；mfcc()是对时域音频片段进行梅尔频率倒谱系数计算的函数。

在得到多个梅尔谱初始值后，可以基于根据多个梅尔谱初始值确定时域音频片段对应的梅尔谱特征值，例如，可以对多个梅尔谱初始值在时间维度上取均值，得到梅尔谱特征值，如公式4所示。

Mel(p)＝ave(Mel_x(n,p)) (公式4)

其中，Mel_x(n,p)可以是各个时域音频片段对应的梅尔谱初始值；ave()可以是均值计算函数。

在本公开的其他示例性实施例中，还可以对梅尔谱初始值进行其他计算处理，得到对应的梅尔谱特征值，例如，可以对多个梅尔谱初始值在时间维度上取中位数，作为对应的梅尔谱特征值，本公开对此不作任何特殊限定。

在计算出样本音频片段对应的梅尔谱特征值后，可以将梅尔谱特征值Mel(p)作为初始分类网络的输入特征，并且每个样本音频片段标识有具有各自对应的音频类型标签，初始分类网络将确定每个样本音频片段对应的音频类型标签作为网络学习的目标，设计网络结构，基于训练音频样本集对初始分类网络进行模型训练，得到用于进行音频分类的音频分类网络。

在本公开的一种示例性实施例中，音质检测处理包括有效带宽检测与音频复杂度检测；对待处理音频进行音质检测处理，并结合音频类型确定待处理音频对应的第一码率，包括：对待处理音频进行有效带宽检测，得到待处理音频的有效带宽；对待处理音频进行音频复杂度检测，得到待处理音频的频谱丰富度；对有效带宽、频谱丰富度与音频类型进行融合处理，得到第一码率。

其中，有效带宽检测可以是确定待处理音频的有效带宽的处理过程。有效带宽，又称为有效频带宽度，可以是指包含主要谐波分量的这段频率范围。音频复杂度检测可以是对待处理音频的复杂度进行检测的过程。频谱丰富度可以是待处理音频的信号的稀疏程度。

继续参考图3，在步骤S320中，对待处理音频进行音质检测处理。在采用信号处理算法计算待处理音频对应的码率时，可以对待处理音频进行音质检测处理，音质检测处理可以包括对待处理音频进行有效带宽检测与音频复杂度检测，得到对应的音频检测结果320。对待处理音频进行有效带宽检测后，确定出对应的有效带宽；对待处理音频进行音频复杂度检测后，确定出对应的频谱丰富度。将得到的有效带宽、频谱丰富度与待处理音频的音频类型进行融合处理，可以得到待处理音频对应的第一码率。

在本公开的一种示例性实施例中，对待处理音频进行有效带宽检测，得到待处理音频的有效带宽，包括：获取待处理音频所处的时域区间，计算待处理音频的各个频带在时域区间内的频带能量；确定多个频带能量中的最大频带能量，根据最大频带能量确定待处理音频的音频带宽频带点；获取预先配置的快速傅里叶变换长度，以及待处理音频对应的音频采样率；根据音频带宽频带点、快速傅里叶变换长度与音频采样率确定有效带宽。

其中，时域区间可以是待处理音频的音频信号所处的时域范围。频带能量是指在频谱里指定的频段内提取的该频段内所对应的能量。最大频带能量可以是多个频带能量中的最大数值。音频带宽频带点可以是待处理音频中使最大频带能量与预设能量之间的差值大于频带能量的最小位置点。快速傅里叶变换(fast Fourier transform，FFT)可以是利用计算机计算离散傅里叶变换(Discrete Fourier Transform，DFT)的高效、快速计算方法的统称。快速傅里叶变换长度可以是DFT计算式中所采用的计算因子。音频采样率可以是录音设备在单位时间内对模拟信号(如待处理音频的音频信号)采样的多少。

对待处理音频进行有效带宽检测时，可以基于待处理音频对应的时域音频片段进行，可以先确定待处理音频对应的时域区间，例如，待处理音频的时域区间可以是0<t≤T；其中，t是待处理音频的时长。在确定出待处理音频所处的时域区间时，可以计算T时段内待处理音频在上述时域区间内各个频带的频带能量，具体如公式5所示。

P(k)＝20*log10(ave(abs(X(n,k)))) (公式5)

其中，abs()是求数据绝对值的函数；ave()是计算平均值的函数；log()是对数函数；X(n,k)可以是待处理音频在时域区间的表现形式；n为帧序列，0<n≤N，且N为总帧数；k为中心频率序列，0<k≤K，且K为总频带数。

在确定出多个频带能量后，可以确定多个频带能量中的最大频带能量，具体如公式6所示。

P_max＝max(P(k)) (公式6)

其中，k为中心频率序列，0<k≤K，且K为总频带数；max()为求最大值函数。

在确定出最大频带能量后，可以根据最大频带能量确定待处理音频的音频带宽频带点，具体如公式7所示。

index_k＝min(where(P(k)<P_max-60dB)) (公式7)

进而根据音频带宽频带点、快速傅里叶变换长度与音频采样率确定待处理音频的有效带宽，具体如公式8所示。

EB＝min(index_k*Fs/fft_len,Fs/2) (公式8)

其中，EB可以是待处理音频的有效带宽，index_k为音频带宽频带点；fft_len为FFT长度，Fs为音频采样率。通过上述处理步骤，可以确定出待处理音频对应的有效带宽。

在本公开的一种示例性实施例中，对待处理音频进行音频复杂度检测，得到待处理音频的频谱丰富度，包括：确定待处理音频对应的总频带数；获取待处理音频的各个频带在时域区间内的频带能量，以及待处理音频对应的帧序列；帧序列包括多个音频帧，每个音频帧具有对应的帧序号；基于多个频带能量以及各音频帧的帧序号，确定频带能量截取数量；基于频带能量截取数量与总频带数，确定频谱丰富度。

其中，总频带数可以是对待处理音频的FFT频带数量。帧序列可以是待处理音频在对应的时域区间内对应的音频帧序列。音频帧序列中包括多个音频帧。帧序号可以是每个音频帧对应的编号，例如，在音频帧序列中，可以按照数字从小到大对音频帧进行编号。频带能量可以是每个频带对应的能力。频带能量截取数量可以是表征输入的音频能量达到预设比值的最小的bin的数量。

在对待处理音频进行音频复杂度计算时，可以使用频谱丰富度/频谱稀疏性指标判断音频复杂程度，进而降低码率。待处理音频在对应的时域区间中可以对应由多个音频帧组成的帧序列。基于帧序列中每个音频帧的频带能量，以及各个音频帧的帧序号可以确定出对应的频带能量截取数量。具体的，音频丰富度(又称频谱稀疏度)可以定义公式9所示。

Sparsity₉₅＝C/N (公式9)

其中，N为FFT频带数量，n可以是多个频带各自对应的编号；C可以是频带能量截取数量，C可以是使得公式10成立的最小的值，即表征输入音频power 95％值的最小的bin的数量，可由公式11计算而得；S(n)可以表示频带能量。通过上述处理步骤，可以确定出待处理音频对应的频谱丰富度。

在本公开的一种示例性实施例中，对有效带宽、频谱丰富度与音频类型进行融合处理，得到第一码率，包括：获取待处理视频对应的音频采样率、带宽上限与带宽下限；根据音频采样率与有效带宽确定有效带宽系数；根据有效带宽系数、带宽上限与带宽下限确定待处理音频的码率带宽上限与码率带宽下限；根据频谱丰富度、码率带宽上限与码率带宽下限确定第一码率。

其中，带宽上限可以是某一类型的音频可理解的信息所构成的信息区间的最大值。带宽下限可以是某一类型的音频可理解的信息所构成的信息区间的最小值。有效带宽系数可以是基于音频采样率与有效带宽确定出的有效带宽所采用的计算系数。码率带宽上限可以是对带宽上限与有效带宽系数进行相应计算得到的码率带宽最大值。码率带宽下限可以是对带宽上限与有效带宽系数进行相应计算得到的码率带宽最小值。谱稀疏性系数可以是用于表征待处理音频的频谱稀疏度的系数。

继续参考图3，在步骤S330中，基于得到的音频类型310与音质检测结果320进行码率分配处理，以得到第一码率。在确定出待处理音频对应的有效带宽后，可以根据有效带宽与音频采样率确定有效带宽系数，有效带宽系数的计算过程具体如公式12所示。

β_eb＝EB/(Fs/2) (公式12)

其中，β_eb可以是待处理音频的有效带宽系数；EB可以是待处理音频的有效带宽；Fs为音频采样率。

在确定出待处理音频对应的音频类型后，可以同时确定出待处理音频对应的带宽上限B_max与带宽下限B_min。将确定出的带宽上限与带宽下限，与有效带宽系数相结合，可以确定出待处理音频对应的码率带宽上限与码率带宽下限，具体计算过程如公式13和公式14所示。

其中，β_eb可以是待处理音频的有效带宽系数；B_max可以是带宽上限；B_min可以是带宽下限；

可以是待处理音频的码率带宽上限；

可以是待处理音频的码率带宽下限。

在确定出码率带宽上限与码率带宽下限之后，可以结合频谱丰富度确定待处理音频的第一码率，如公式15所示。

其中，

可以是待处理音频的码率带宽上限；

可以是待处理音频的码率带宽下限；Sparsity₉₅可以是待处理音频的频谱丰富度(频谱稀疏性系数)。另一种表现形式可以如公式16所示。

在本公开的一种示例性实施例中，基于音频特征进行码率预测处理，得到待处理音频对应的第二码率，包括：获取预先构建的音质预测网络；音质预测网络基于样本音频片段与样本音频音质组成的训练样本对训练得到；样本音频音质通过对样本音频片段进行多码率编码处理得到；将音频特征输入至音质预测网络进行音质预测处理，得到待处理音频的目标音质；获取预先构建的码率音质曲线，基于码率音质曲线确定目标音质对应的第二码率。

其中，音质预测网络可以是用于预测待处理音频的码率的网络模型。样本音频音质可以是对样本音频片段进行音质评估处理后得到的音频音质。训练样本对可以是由样本音频片段与对应的样本音频音质构成的数据对。多码率编码处理可以是采用不同的码率对样本音频片段进行编码处理的具体过程。码率预测处理可以是采用音质预测网络确定待处理音频的码率的处理过程。目标音质可以是待处理音频的声音信号的保真度。码率音质曲线可以是用于表达音频的码率与音质之间对应关系的曲线。

为了弥补采用传统信号算法确定的码率适用场景较差的问题，本实施例中可以采用深度学习技术对待处理音频进行码率预测处理，以得到对应的第二码率；例如，通过预先构建的音质预测网络对待处理音频进行码率预测处理。音质预测网络可以是基于样本音频片段与样本音频音质组成的训练样本对作为训练数据训练得到的；将样本音频片段作为输入数据，将样本音频片段对应的目标音质作为训练目标，构建深度学习网络模型。

将训练样本对输入至构建得到的深度学习网络模型中，进行模型训练，得到用于确定目标音质的音质预测网络。在得到音质预测网络后，可以将音频特征输入至音质预测网络进行码率预测处理，以确定出待处理音频对应的目标音质。

为了确定出待处理音频的第二码率，可以基于预先构建的码率音质曲线进行。码率音质曲线可以是表示音频片段的编码码率和客观音质之间对应关系的曲线，参考图4，图4是根据一示例性实施例示出的基于码率音质曲线确定对某一音频片段的码率的示意图。从图4中可以看出，图4中给出了10种多种不同的码率下对音频进行编码处理所对应的音质，即N＝10，R＝[24,32,40,48,56,64,72,80,88,96]时对应的曲线；其中，星号(*)表示码率采样点R对应的音质预测S’结果。两个采样点之间可以采用线性插值的方式进行拟合。如图4所示，基于音频片段的码率音质曲线，对于某个目标音质，可以直接得到该片段编码所需的码率，以此确定出待处理音频的第二码率。

在本公开的一种示例性实施例中，音质预测网络通过下述步骤构建：获取预先构建的初始神经网络与训练音频样本集；训练音频样本集包括多个样本音频片段；对样本音频片段进行多码率编码处理，得到样本音频片段对应的多个编码音频片段；对多个编码音频片段进行音质评估处理，得到对应的样本音频音质；对样本音频片段进行特征提取，得到样本音频片段对应的样本音频特征；将样本音频片段的样本音频特征与对应的样本音频音质作为训练样本对，对初始神经网络进行模型训练，以得到音质预测网络。

其中，初始神经网络可以是预先构建的初始网络模型。训练音频样本集可以是用于训练初始神经网络以得到音质预测网络的样本数据集，训练音频样本集可以由多个样本音频片段构成。编码音频片段可以是对样本音频片段采用不同码率进行编码处理后得到的音频片段。音质评估处理可以是确定样本音频片段对应的音质的处理过程。样本音频音质可以是样本音频片段的声音信号的保真度。训练样本对可以是由样本音频片段与对应的样本音频音质构成的数据对。

参考图5，图5是根据一示例性实施例示出的采用深度学习技术预测待处理音频的第二码率的系统框图。在构建音质预测网络时，可以先对样本音频片段进行数据合成处理，在数据合成阶段，对于某个样本音频片段510(音频片段x)(可能是语音、音乐和环境声，或者是几种内容的混合)，使用音频编码算法，如高效性高级音频编码(high efficiencyAdvanced Audio Coding，HE-AAC)算法进行N种码率的编码。例如，编码处理所采用的码率为R＝[r1,r2,…,rN]，在对样本音频片段进行编码处理后，输出的音频片段为Y＝[y1,y2,…,yN]。

举例而言，一种典型的码率设置方式为N＝10，R＝[24,32,40,48,56,64,72,80,88,96]。在步骤S510中，进行客观音质计算。根据原始输入的样本音频片段x和编码后的音频片段Y＝[y1,y2,…,yN]，采用客观音频音质评估算法，得到多种码率对应的客观音质S＝[s1,s2,…,sN]。这里的客观音频音质可以采用国际电信联盟推荐的音频质量评估(Perceptual Evaluation of Audio Quality，PEAQ)指标，或者是多种客观音频音质指标的线性融合。若有大量主观标注数据，可改为预测主观音质，使得结果更加接近人类主观感知。

通过以上数据合成方式，我们可以得到大量原始的样本音频片段x和多码率N编码且进行音频评估处理后得到的音质S的数据对，用于音质预测网络的模型训练。

继续参考图5，对样本音频片段通过短时傅里叶变换后，可以得到多个音频帧对应的频谱数据。在步骤S520中，针对得到频谱数据，进行特征提取处理。对音频片段进行特征提取的过程已经在对待处理音频进行特征提取的处理过程进行介绍，本实施例对此不再进行赘述。对于输入的样本音频片段x，将多种特征拼接到一起，最终得到D维的特征向量。

获取预先构建的初始神经网络，初始神经网络的输入数据可以是D维的特征向量，以及N维的音质估计结果。初始神经网络的网络结构可以是简单的多层全连接网络，总共L层，每层K个节点(如L＝2，K＝100)。在模型训练过程中，通过最小化估计客观质量S’和参考客观质量S之间的均方误差(mean square error，MSE)函数，更新模型参数，以对模型进行训练，得到最终的音质预测网络520。在步骤S530中，将待处理音频的音频特征输入至音质预测网络520中，以进行音质预测处理，并根据得到的目标音质确定出对应的第二码率。

在本公开的一种示例性实施例中，基于第一码率与第二码率确定待处理音频对应的目标码率，包括：获取当前网络状态；根据当前网络状态、第一码率与第二码率确定目标码率。

其中，当前网络状态可以是当前进行数据传输的网络状态。

在确定出第一码率与第二码率后，可以获取数据传输网络的当前网络状态，当前网络状态可以代表网络的数据传输速率。基于当前网络状态将两者码率进行融合，得到待处理音频的目标码率。通过结合当前网络状态确定目标码率的方式，可以在有效保证音频质量的同时，尽可能地降低传输过程中所需的音频压缩码率，进而降低传输带宽。

在本公开的一种示例性实施例中，根据当前网络状态、第一码率与第二码率确定目标码率，包括：若当前网络状态为第一网络状态，则基于音频类型、第一码率与第二码率确定目标码率；第一网络状态为网络传输速率处于预设速率区间。

其中，第一网络状态可以是网络的传输速率处于预设速率区间的网络状态。网络传输速率可以是指网络传输数据的速度，一般以比特率(bps)为单位来表述网络传输速度，其含义是每秒钟传输的二进制数的位数。预设速率区间可以是预先配置的网络传输速率的数值区间，预设速率区间包含对应的区间最小值与区间最大值。

如果当前网络状态为第一网络状态，则可以认为当前数据传输网络的网络状态正常，当对进入的待处理音频进行音频分类时，由于音乐场景所需的码率较高，需要保持高品质；相反，在噪音场景下，用户对噪音的需求没有那么高，所以尽可能的降低码率；因此，若判断待处理音频为噪音时，则取第一码率与第二码率中的最小值；若判断待处理音频为音乐时，则取第一码率与第二码率中的最大值；若判断输入音频为语音时，则取第一码率与第二码率中的平均值；以此保证待处理音频在种类不同时，既能保证音质，又能保证降低码率。具体如公式17所示。

在本公开的一种示例性实施例中，根据当前网络状态、第一码率与第二码率确定目标码率，还包括：若当前网络状态为第二网络状态，则确定第一码率与第二码率中的较大码率值；第二网络状态为网络传输速率大于预设速率区间对应的最大值；将较大码率值作为目标码率。

其中，第二网络状态可以是当前网络传输速率大于预设速率区间对应的最大值的状态。较大码率值可以是第一码率与第二码率中数值较大的码率值。

如果当前网络状态处于第二网络状态，由于第二网络状态可以是指网络传输速率大于预设速率区间对应的最大值，此时，可以认为网络状态良好，在此情况下，为了保证待处理音频的音频质量，可选取第一码率与第二码率的较大码率值作为目标码率，以保证人们对音质的要求，具体如公式18所示。

EB＝max(EB₀,EB₁) (公式18)

在本公开的一种示例性实施例中，根据当前网络状态、第一码率与第二码率确定目标码率，还包括：若当前网络状态为第三网络状态，则确定第一码率与第二码率中的较小码率值；第三网络状态为网络传输速率大于预设速率区间对应的最小值；将较小码率值作为目标码率。

其中，第三网络状态可以是当前网络传输速率小于预设速率区间对应的最小值的状态。较小码率值可以是第一码率与第二码率中数值较小的码率值。

如果当前网络状态处于第三网络状态，由于第三网络状态可以是指网络传输速率小于预设速率区间对应的最小值，此时，可以认为网络状态较差，在此情况下，为了保证待处理音频的音频质量，可选取第一码率与第二码率的较小码率值作为目标码率，以尽可能的降低音频传输的码率，具体如公式19所示。

EB＝min(EB₀,EB₁) (公式19)

综上所述，获取待处理音频，对待处理音频进行分类处理，得到待处理音频的音频类型；对待处理音频进行音质检测处理，并结合音频类型确定待处理音频对应的第一码率；确定待处理音频的音频特征，基于音频特征进行码率预测处理，得到待处理音频对应的第二码率；基于第一码率与第二码率确定待处理音频对应的目标码率。一方面，通过对待处理音频分别进行音频分类和音质预测处理，得到第一码率与第二码率，可以在有效保证音频质量的同时，尽可能的降低传输过程中所需的音频压缩码率，进而降低传输带宽。另一方面，由于目标码率是基于第一码率与第二码率确定出的，可以有效提高结果的准确率。又一方面，将传统信号处理算法与深度学习预测方案相结合，使得确定出的目标码率具有较强的场景适用能力。

图6是根据一示例性实施例示出的一种音频处理装置框图。参照图6，该音频处理装置600包括音频类型确定模块610、第一码率确定模块620、第二码率确定模块630以及目标码率确定模块640。

具体的，音频类型确定模块610，用于获取待处理音频，对待处理音频进行分类处理，得到待处理音频的音频类型；第一码率确定模块620，用于对待处理音频进行音质检测处理，并结合音频类型确定待处理音频对应的第一码率；第二码率确定模块630，用于确定待处理音频的音频特征，基于音频特征进行码率预测处理，得到待处理音频对应的第二码率；目标码率确定模块640，用于基于第一码率与第二码率确定待处理音频对应的目标码率。

在本公开的一种示例性实施例中，音频类型确定模块610包括音频类型确定单元，用于：获取预先构建的音频分类网络；音频分类网络基于多个样本音频片段各自对应的梅尔谱特征值与音频类型标签训练得到；通过音频分类网络对待处理音频进行分类处理，得到音频类型。

在本公开的一种示例性实施例中，音频类型确定模块还包括分类网络训练单元，用于：获取训练音频样本集与预先构建的初始分类网络；训练音频样本集包括多个样本音频片段以及各样本音频片段的音频类型标签；分别对各个样本音频片段进行时域变换处理，得到各样本音频片段对应的时域音频片段；对各个时域音频片段分别进行梅尔频率倒谱系数计算，得到各个时域音频片段的梅尔谱初始值；分别根据各个梅尔谱初始值确定多个时域音频片段各自对应的梅尔谱特征值；基于多个样本音频片段各自对应的音频类型标签与梅尔谱特征值，对初始分类网络进行模型训练，以得到音频分类网络。

在本公开的一种示例性实施例中，第一码率确定模块620包括第一码率确定单元，用于：对待处理音频进行有效带宽检测，得到待处理音频的有效带宽；对待处理音频进行音频复杂度检测，得到待处理音频的频谱丰富度；对有效带宽、频谱丰富度与音频类型进行融合处理，得到第一码率。

在本公开的一种示例性实施例中，第一码率确定单元包括有效带宽确定子单元，用于：获取待处理音频所处的时域区间，计算待处理音频的各个频带在时域区间内的频带能量；确定多个频带能量中的最大频带能量，根据最大频带能量确定待处理音频的音频带宽频带点；获取预先配置的快速傅里叶变换长度，以及待处理音频对应的音频采样率；根据音频带宽频带点、快速傅里叶变换长度与音频采样率确定有效带宽。

在本公开的一种示例性实施例中，第一码率确定单元包括复杂度确定子单元，用于：确定待处理音频对应的总频带数；获取待处理音频的各个频带在时域区间内的频带能量，以及待处理音频对应的帧序列；帧序列包括多个音频帧，每个音频帧具有对应的帧序号；基于多个频带能量以及各音频帧的帧序号，确定频带能量截取数量；基于频带能量截取数量与总频带数，确定频谱丰富度。

在本公开的一种示例性实施例中，第一码率确定单元包括第一码率确定子单元，用于：获取待处理视频对应的音频采样率、带宽上限与带宽下限；根据音频采样率与有效带宽确定有效带宽系数；根据有效带宽系数、带宽上限与带宽下限确定待处理音频的码率带宽上限与码率带宽下限；根据频谱丰富度、码率带宽上限与码率带宽下限确定第一码率。

在本公开的一种示例性实施例中，第二码率确定模块630包括第二码率确定单元，用于：获取预先构建的音质预测网络；音质预测网络基于样本音频片段与样本音频音质组成的训练样本对训练得到；样本音频音质通过对样本音频片段进行多码率编码处理得到；将音频特征输入至音质预测网络进行音质预测处理，得到待处理音频的目标音质；获取预先构建的码率音质曲线，基于码率音质曲线确定目标音质对应的第二码率。

在本公开的一种示例性实施例中，第二码率确定模块630还包括预测网络确定单元，用于：获取预先构建的初始神经网络与训练音频样本集；训练音频样本集包括多个样本音频片段；对样本音频片段进行多码率编码处理，得到样本音频片段对应的多个编码音频片段；对多个编码音频片段进行音质评估处理，得到对应的样本音频音质；对样本音频片段进行特征提取，得到样本音频片段对应的样本音频特征；将样本音频片段的样本音频特征与对应的样本音频音质作为训练样本对，对初始神经网络进行模型训练，以得到音质预测网络。

在本公开的一种示例性实施例中，目标码率确定模块640包括目标码率确定单元，用于：获取当前网络状态；根据当前网络状态、第一码率与第二码率确定目标码率。

在本公开的一种示例性实施例中，目标码率确定单元包括第一目标码率确定子单元，用于：若当前网络状态为第一网络状态，则基于音频类型、第一码率与第二码率确定目标码率；第一网络状态为网络传输速率处于预设速率区间。

在本公开的一种示例性实施例中，目标码率确定单元还包括第二目标码率确定子单元，用于：若当前网络状态为第二网络状态，则确定第一码率与第二码率中的较大码率值；第二网络状态为网络传输速率大于预设速率区间对应的最大值；将较大码率值作为目标码率。

在本公开的一种示例性实施例中，目标码率确定单元还包括第三目标码率确定子单元，用于：若当前网络状态为第三网络状态，则确定第一码率与第二码率中的较小码率值；第三网络状态为网络传输速率大于预设速率区间对应的最小值；将较小码率值作为目标码率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面参考图7来描述根据本公开的这种实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备770(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述音频处理方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，其特征在于，计算机程序/指令被处理器执行时实现上述任意一项所述的音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取待处理音频，对所述待处理音频进行分类处理，得到所述待处理音频的音频类型；

对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率；

确定所述待处理音频的音频特征，基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率；

基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理音频进行分类处理，得到所述待处理音频的音频类型，包括：

获取预先构建的音频分类网络；所述音频分类网络基于多个样本音频片段各自对应的梅尔谱特征值与音频类型标签训练得到；

通过所述音频分类网络对所述待处理音频进行分类处理，得到所述音频类型。

3.根据权利要求2所述的方法，其特征在于，所述音频分类网络基于下述步骤得到：

获取训练音频样本集与预先构建的初始分类网络；所述训练音频样本集包括多个样本音频片段以及各所述样本音频片段的音频类型标签；

分别对各个所述样本音频片段进行时域变换处理，得到各所述样本音频片段对应的时域音频片段；

对各个所述时域音频片段分别进行梅尔频率倒谱系数计算，得到各个所述时域音频片段的梅尔谱初始值；

分别根据各个所述梅尔谱初始值确定多个所述时域音频片段各自对应的梅尔谱特征值；

基于多个所述样本音频片段各自对应的音频类型标签与所述梅尔谱特征值，对所述初始分类网络进行模型训练，以得到所述音频分类网络。

4.根据权利要求1所述的方法，其特征在于，所述音质检测处理包括有效带宽检测与音频复杂度检测；所述对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率，包括：

对所述待处理音频进行有效带宽检测，得到所述待处理音频的有效带宽；

对所述待处理音频进行音频复杂度检测，得到所述待处理音频的频谱丰富度；

对所述有效带宽、所述频谱丰富度与所述音频类型进行融合处理，得到所述第一码率。

5.根据权利要求4所述的方法，其特征在于，所述对所述待处理音频进行有效带宽检测，得到所述待处理音频的有效带宽，包括：

获取所述待处理音频所处的时域区间，计算所述待处理音频的各个频带在所述时域区间内的频带能量；

确定多个所述频带能量中的最大频带能量，根据所述最大频带能量确定所述待处理音频的音频带宽频带点；

获取预先配置的快速傅里叶变换长度，以及所述待处理音频对应的音频采样率；

根据所述音频带宽频带点、所述快速傅里叶变换长度与所述音频采样率确定所述有效带宽。

6.根据权利要求4所述的方法，其特征在于，所述对所述待处理音频进行音频复杂度检测，得到所述待处理音频的频谱丰富度，包括：

确定所述待处理音频对应的总频带数；

获取所述待处理音频的各个频带在时域区间内的频带能量，以及所述待处理音频对应的帧序列；所述帧序列包括多个音频帧，每个音频帧具有对应的帧序号；

基于多个所述频带能量以及各所述音频帧的帧序号，确定频带能量截取数量；

基于所述频带能量截取数量与所述总频带数，确定所述频谱丰富度。

7.根据权利要求4所述的方法，其特征在于，所述对所述有效带宽、所述频谱丰富度与所述音频类型进行融合处理，得到所述第一码率，包括：

获取所述待处理视频对应的音频采样率、带宽上限与带宽下限；

根据所述音频采样率与所述有效带宽确定有效带宽系数；

根据所述有效带宽系数、所述带宽上限与带宽下限确定所述待处理音频的码率带宽上限与码率带宽下限；

根据所述频谱丰富度、所述码率带宽上限与所述码率带宽下限确定第一码率。

8.根据权利要求1所述的方法，其特征在于，所述基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率，包括：

获取预先构建的音质预测网络；所述音质预测网络基于样本音频片段与样本音频音质组成的训练样本对训练得到；所述样本音频音质通过对所述样本音频片段进行多码率编码处理得到；

将所述音频特征输入至所述音质预测网络进行音质预测处理，得到所述待处理音频的目标音质；

获取预先构建的码率音质曲线，基于所述码率音质曲线确定所述目标音质对应的所述第二码率。

9.根据权利要求8所述的方法，其特征在于，所述音质预测网络通过下述步骤构建：

获取预先构建的初始神经网络与训练音频样本集；所述训练音频样本集包括多个样本音频片段；

对所述样本音频片段进行多码率编码处理，得到所述样本音频片段对应的多个编码音频片段；

对多个所述编码音频片段进行音质评估处理，得到对应的样本音频音质；

对所述样本音频片段进行特征提取，得到所述样本音频片段对应的样本音频特征；

将所述样本音频片段的样本音频特征与对应的样本音频音质作为训练样本对，对所述初始神经网络进行模型训练，以得到所述音质预测网络。

10.根据权利要求1所述的方法，其特征在于，所述基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率，包括：

获取当前网络状态；

根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率。

11.根据权利要求10所述的方法，其特征在于，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，包括：

若所述当前网络状态为第一网络状态，则基于所述音频类型、所述第一码率与所述第二码率确定所述目标码率；所述第一网络状态为网络传输速率处于预设速率区间。

12.根据权利要求10所述的方法，其特征在于，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，还包括：

若所述当前网络状态为第二网络状态，则确定所述第一码率与所述第二码率中的较大码率值；所述第二网络状态为网络传输速率大于所述预设速率区间对应的最大值；

将所述较大码率值作为所述目标码率。

13.根据权利要求10所述的方法，其特征在于，所述根据所述当前网络状态、所述第一码率与所述第二码率确定所述目标码率，还包括：

若所述当前网络状态为第三网络状态，则确定所述第一码率与所述第二码率中的较小码率值；所述第三网络状态为网络传输速率大于所述预设速率区间对应的最小值；

将所述较小码率值作为所述目标码率。

14.一种音频处理装置，其特征在于，包括：

音频类型确定模块，用于获取待处理音频，对所述待处理音频进行分类处理，得到所述待处理音频的音频类型；

第一码率确定模块，用于对所述待处理音频进行音质检测处理，并结合所述音频类型确定所述待处理音频对应的第一码率；

第二码率确定模块，用于确定所述待处理音频的音频特征，基于所述音频特征进行码率预测处理，得到所述待处理音频对应的第二码率；

目标码率确定模块，用于基于所述第一码率与所述第二码率确定所述待处理音频对应的目标码率。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至13中任一项所述的音频处理方法。

16.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至13中任一项所述的音频处理方法。