CN112767955A

CN112767955A - 音频编码方法及装置、存储介质、电子设备

Info

Publication number: CN112767955A
Application number: CN202010710476.XA
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-05-07
Anticipated expiration: 2040-07-22
Also published as: CN112767955B

Abstract

本公开提供一种音频编码方法及装置、电子设备、存储介质；涉及音视频编码技术领域。所述音频编码方法包括：获取音频数据，并将音频数据发送到预设的语音编码器；通过语音编码器对音频数据进行关键帧检测，确定音频数据对应的音频关键帧；对音频关键帧进行关键性量化处理，得到音频关键帧对应的关键性量化结果；基于音编码器，根据关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对音频数据的带内前向纠错编码，生成音频数据对应的标准音频数据。本公开可以分析音频数据中音频帧的关键性，进而根据音频帧的关键性对音频数据进行编码，从而提升实时音频数据传输时的音频数据的音频质量。

Description

音频编码方法及装置、存储介质、电子设备

技术领域

本公开涉及音视频编码技术领域，具体而言，涉及一种音频编码方法、音频编码装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展，语音编解码在现代通讯系统中占有重要的地位。语音编解码能够有效地降低语音信号传输的带宽，对于节省语音信息存储传输成本，保障通信网络传输过程中的语音信息完整性方面起了决定性作用。丢包(Packet loss)是指一个或多个数据包(Packet)的数据无法透过网络到达目的节点的现象。

目前，相关方案中通过内置带内FEC(Forward Error Correction，前向纠错)模块尽可能避免丢包现象，但是，该带内FEC方案，在预设一个编码码率下，FEC编码比特数和当前帧的编码比特数是有竞争关系的，即当FEC的编码比特数较高时会使当前帧语音的编码比特数变小，这样会降低编解码后的语音质量。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种音频编码方法、音频编码装置、电子设备以及计算机可读存储介质，进而在一定程度上克服由于相关技术的限制和缺陷而导致的，在相关方案中通过对语音数据进行带内FEC编码时，导致编解码后得到的语音质量不佳的问题。

根据本公开的第一方面，提供一种音频编码方法，包括：

获取音频数据，并将所述音频数据发送到预设的语音编码器；

通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧；

对所述音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果；

基于所述语音编码器，根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，生成所述音频数据对应的标准音频数据。

在本公开的一种示例性实施例中，基于前述方案，所述根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，包括：

根据所述关键性量化结果确定预测滤波器的预测增益，并通过所述预测增益分配所述音频关键帧在进行带内前向纠错编码时的编码比特数；

其中，如果所述关键性量化结果越大，则所述预测增益越小，进而分配的所述编码比特数越多；如果所述关键性量化结果越小，则所述预测增益越大，进而分配的所述编码比特数越少。

在本公开的一种示例性实施例中，基于前述方案，根据所述关键性量化结果以及所述编码比特分配表分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，还包括：

获取预设的编码比特分配表，其中所述编码比特分配表包括不同的关键性量化结果与占用的编码比特数的映射关系；

基于所述语音编码器，根据所述关键性量化结果以及所述编码比特分配表分配所述音频关键帧在进行带内前向纠错编码时的编码比特数。

在本公开的一种示例性实施例中，基于前述方案，所述根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，包括：

确定所述音频数据中前一音频关键帧对应的目标关键性量化结果；

根据所述目标关键性量化结果分配所述前一音频关键帧占用的目标编码比特数；

在对所述音频数据中的当前音频关键帧进行带内前向纠错编码时，根据所述目标编码比特数对所述前一音频关键帧与所述当前音频关键帧进行编码，以完成对所述音频数据的编码。

在本公开的一种示例性实施例中，基于前述方案，所述音频关键帧包括语音起始帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

通过所述语音编码器对所述音频数据进行语音端点检测，确定所述音频数据对应的语音起始帧。

在本公开的一种示例性实施例中，基于前述方案，所述音频关键帧包括能量突增帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

通过所述语音编码器对所述音频数据进行帧能量检测，确定所述音频数据对应的能量突增帧。

在本公开的一种示例性实施例中，基于前述方案，对所述音频数据进行帧能量检测，确定所述音频数据对应的能量突增帧，包括：

计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数；

将所述帧能量倍数大于倍数阈值的所述当前音频帧，确定为所述音频数据对应的能量突增帧。

在本公开的一种示例性实施例中，基于前述方案，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数，包括：

确定所述当前音频帧对应的第一时间窗，并将所述第一时间窗中数据样点值对应的平方和作为当前帧能量值；

确定所述前一音频帧对应的第二时间窗，并将所述第二时间窗中数据样点值对应的平方和作为前一帧能量值；

根据所述当前帧能量值和所述前一帧能量值，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数。

在本公开的一种示例性实施例中，基于前述方案，所述音频关键帧包括基音周期突变帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

通过所述语音编码器对所述音频数据进行基音周期检测，确定所述音频数据对应的基音周期突变帧。

在本公开的一种示例性实施例中，基于前述方案，对所述音频数据进行基音周期检测，确定所述音频数据对应的基音周期突变帧，包括：

计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的基音周期差值；

将所述基音周期差值的绝对值大于差值阈值的所述当前音频帧，确定为所述音频数据对应的基音周期突变帧。

在本公开的一种示例性实施例中，基于前述方案，所述音频关键帧包括非语音帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

通过所述语音编码器对所述音频数据进行语音端点检测，确定所述音频数据对应的非语音帧。

在本公开的一种示例性实施例中，基于前述方案，在基于所述音频关键帧对所述音频数据进行编码之前，所述方法还包括：

将所述音频数据中包含所述语音起始帧、所述能量突增帧、所述基音周期突变帧和所述非语音帧中一种或者多种情况的音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果。

根据本公开的第二方面，提供一种音频编码装置，包括：

音频数据获取模块，用于获取音频数据，并将所述音频数据发送到预设的语音编码器；

音频关键帧检测模块，用于通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧；

关键性量化模块，用于对所述音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果；

音频数据编码模块，用于基于所述语音编码器，根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，生成所述音频数据对应的标准音频数据。

在本公开的一种示例性实施例中，所述音频数据编码模块包括编码比特数分配单元，所述编码比特数分配单元被配置为：

在本公开的一种示例性实施例中，所述编码比特数分配单元还被配置为：

在本公开的一种示例性实施例中，所述音频数据编码模块包括前向纠错编码单元，所述前向纠错编码单元被配置为：

在本公开的一种示例性实施例中，所述音频关键帧检测模块包括语音起始帧检测单元，所述语音起始帧检测单元被配置为：

在本公开的一种示例性实施例中，所述音频关键帧检测模块包括能量突增帧检测单元，所述能量突增帧检测单元被配置为：

在本公开的一种示例性实施例中，所述能量突增帧检测单元还包括：

帧能量倍数计算子单元，用于计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数；

能量突增帧确定单元，用于将所述帧能量倍数大于倍数阈值的所述当前音频帧，确定为所述音频数据对应的能量突增帧。

在本公开的一种示例性实施例中，所述帧能量倍数计算子单元还被配置为：

在本公开的一种示例性实施例中，所述音频关键帧检测模块包括基音周期突变帧检测单元，所述基音周期突变帧检测单元被配置为：

在本公开的一种示例性实施例中，所述基音周期突变帧检测单元还被配置为：

在本公开的一种示例性实施例中，所述音频关键帧检测模块包括非语音帧检测单元，所述非语音帧检测单元被配置为：

在本公开的一种示例性实施例中，所述关键性量化模块包括关键性量化单元，所述关键性量化单元被配置为：

将所述音频数据中包含所述语音起始帧、所述能量突增帧、所述基音周期突变帧和所述非语音帧中一种或者多种情况的音频关键帧进行关键性量化，得到所述音频关键帧对应的关键性量化结果。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的音频编码方法中，获取实时采集的音频数据，并通过语音编码器对音频数据进行关键帧检测，确定音频数据对应的音频关键帧，然后确定音频关键帧对应的关键性量化结果，基于关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，进一步根据编码比特数对音频关键帧进行编码，生成音频数据对应的标准音频数据。一方面，结合检测出的音频关键帧对音频数据进行带内前向纠错编码，可以在编码的时候对音频数据中影响音频质量较大的音频关键帧给与更多的网络传输资源(带宽或者编码比特数)，有效提升编解码后得到的标准音频数据的音频质量；另一方面，通过对音频数据进行关键帧检测，以评价每个音频帧的关键性，在带内前向纠错编码时可以降低关键性较弱的音频帧对应的网络传输资源(带宽或者编码比特数)或者直接删除关键性较弱的音频帧，减少音频数据中的干扰音频帧或者空白帧，节约网络资源，压缩音频数据占用的空间，进一步提升标准音频数据的音频质量，提升标准音频数据的清晰度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种音频编码方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的一个实施例的音频编码方法的流程示意图；

图4示意性示出了根据本公开的一个实施例的确定语音起始帧的流程示意图；

图5示意性示出了根据本公开的一个实施例的确定能量突增帧的流程示意图；

图6示意性示出了根据本公开的一个实施例的计算帧能量倍数的流程示意图；

图7示意性示出了根据本公开的一个实施例的确定基音周期突变帧的流程示意图；

图8示意性示出了根据本公开的一个实施例的对当前音频帧进行前向纠错编码的流程示意图；

图9示意性示出了根据本公开的一个实施例的通过语音编码器对音频数据进行前向纠错编码的流程示意图；

图10示意性示出了根据本公开的一个实施例的通过语音解码器对音频数据进行解码的流程示意图；

图11示意性示出了根据本公开的一个实施例的音频编码装置的示意框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种音频编码方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群，该服务器集群能够实现人工智能云服务。所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本公开实施例所提供的音频编码方法一般由服务器105执行，相应地，音频编码装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的音频编码方法也可以由终端设备101、102、103执行，相应的，音频编码装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是用户通过终端设备101、102、103将音频数据上传至服务器105，服务器通过本公开实施例所提供的音频编码方法将标准音频数据传输给终端设备101、102、103等。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。

在一些实施例中，计算机系统200还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3～图9所示的各个步骤等。

以下对本公开实施例的技术方案进行详细阐述：

相关技术中的语音编码器的带内FEC是将前一帧的语音编码特征重新编码，并和本帧的编码码流捆绑一起打包发送到接收端进行解码处理。语音编码器带内FEC方案和传统的带外FEC方案的主要区别是：

带外FEC码流是独立于编码器实施的，是将单个或多个语音编码器码流用于FEC编码。其FEC码流和语音编码码流可以是两个不同的数据流，它们之间没有相互约束关系，没有带宽竞争问题，所以FEC码流大小没有限制，而本帧语音码流大小只取决于预设的编码码率值。

而带内FEC码流是和本帧语音编码码流是混合在一起的，其整体码流大小决定了最终输出码流的实际码率，所以受预设的编码码率值控制。即如果FEC分配比特较多则留给语音编码的比特就会变小，相反，如果FEC分配比特较少则可留给语音编码的比特就会较多。另外带内FEC的实际码流大小还跟接收端反馈的丢包率有关，例如对于Opus编码器，接收端反馈的丢包率高则会使Opus编码器的FEC的预测滤波器的预测增益减少，提高量化索引的熵，从而增加FEC的编码的比特数。相反，如果丢包率低则Opus编码器的FEC的预测滤波器的预测增益增加，降低量化索引的熵，从而减少FEC的编码的比特数。

发明人发现，现有语音编码器的带内FEC方案，因为FEC的编码比特数和当前语音帧的编码比特数的总和受预先设置的编码码率限制，在预设一个编码码率下，则FEC编码比特数和当前帧的编码比特数是有竞争关系的。即当FEC的编码比特数高则会让当前帧语音的编码比特数变小，这样会降低编解码后的语音质量，这对于整体通话体验是不利的。通过实验发现同一个音频信号在编码码率设置值相同情况下，语音编码器在关闭带内FEC和打开带内FEC下，PESQ(Perceptual evaluation of speech quality，客观语音质量评估)的客观质量MOS打分值对比，关闭带内FEC为3.9分，而打开带内FEC只有3.0分，MOS打分值由于带内FEC下降了0.9，这是较大的音质损失，其原因是打开了带内FEC后由于带内FEC占用了音频编码的比特数，导致音频编码质量显著下降。

基于上述一个或多个问题，本示例实施方式提供了一种音频编码方法。该音频编码方法可以应用于上述服务器105，也可以应用于上述终端设备101、102、103中的一个或多个，本示例性实施例中对此不做特殊限定。下面以终端设备为例进行说明，参考图3所示，该音频编码方法可以包括以下步骤S310至步骤S340：

步骤S310、获取音频数据，并将所述音频数据发送到预设的语音编码器。

步骤S320、通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧。

步骤S330、对所述音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果。

步骤S340、基于所述语音编码器，根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，生成所述音频数据对应的标准音频数据。

在本示例实施方式所提供的音频编码方法中，获取实时采集的音频数据，并通过语音编码器对音频数据进行关键帧检测，确定音频数据对应的音频关键帧，然后确定音频关键帧对应的关键性量化结果，基于关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，进一步根据编码比特数对音频关键帧进行编码，生成音频数据对应的标准音频数据。一方面，结合检测出的音频关键帧对音频数据进行带内前向纠错编码，可以在编码的时候对音频数据中影响音频质量较大的音频关键帧给与更多的网络传输资源(带宽或者编码比特数)，有效提升编解码后得到的标准音频数据的音频质量；另一方面，通过对音频数据进行关键帧检测，以评价每个音频帧的关键性，在带内前向纠错编码时可以降低关键性较弱的音频帧对应的网络传输资源(带宽或者编码比特数)或者直接删除关键性较弱的音频帧，减少音频数据中的干扰音频帧或者空白帧，节约网络资源，压缩音频数据占用的空间，进一步提升标准音频数据的音频质量，提升标准音频数据的清晰度。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S310中，获取音频数据，并将所述音频数据发送到预设的语音编码器。

本公开的一个示例实施例中，音频数据可以是指通过音频采集单元采集模拟声音信号，并由模数转换电路实时转换模拟的声音信号得到的数字音频信号，例如音频数据可以是电话通信过程中通过终端设备(如智能手机等)获取并转换得到的数字音频信号，也可以是网络直播过程中通过音频采集单元(如麦克风等)获取并转换得到的数字音频信号，当然，还可以是其他实时网络通信过程中的数字音频信号，本示例实施例对此不做特殊限定。

声音信号可以是由用户对象发出的，也可以是机器对象通过语音技术合成并输出的，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一，本示例实施例对声音信号的来源不做特殊限定。

预设的语音编码器可以是指预设的用于对音频数据进行前向纠错编码的编码器，例如预设的语音编码器可以是具有关键性分析模块的Opus编码器，也可以是具有关键性分析模块的Silk编码器，当然，还可以是其他具有关键性分析模块的语音编码器，本示例实施例对此不作特殊限定。

在实时网络通信中，模拟的声音信号经由音频采集单元采集得到，通过模数转换电路将模拟的声音信号信转换为数字音频信号，数字音频信号经过预设的语音编码器进行压缩编码。然后按照通信网络传输格式和协议打包并发送到接收端，接收端的设备在接收到数据包后，解包并输出语音编码压缩码流，通过语音解码器将语音编码压缩码流解码后，重新生成数字音频信号，最后数字音频信号通过扬声器播放出声音。

在步骤S320中，通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧。

本公开的一个示例实施例中，关键帧检测可以是指对音频数据中的音频帧进行关键性评价以评价每个音频帧的关键性的检测过程，例如关键帧检测可以是评价音频帧的语音起始关键性，也可以是评价音频帧的能量突增关键性，还可以是评价音频帧的基音周期突变关键性，当然，还可以是评价音频帧的非语音内容关键性，本示例实施对此不做特殊限定。

音频关键帧可以是指对音频数据中的音频帧进行关键性评价后确定的不同关键性的音频帧，例如音频关键帧可以是关键性较低的音频帧，也可以是关键性较高的音频帧，当然，还可以是关键性较低和关键性较高的音频帧，本示例实施例对此不做特殊限定。

在步骤S330中，对所述音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果。

本公开的一个示例实施例中，关键性量化结果可以是指对音频关键帧进行关键性评价，并对关键性评价进行关键性量化处理后得到的评分数据，例如，一个音频关键帧对应的关键性量化结果可以是0.9，另一个音频关键帧对应的关键性量化结果可以是0.5，则前者的关键性量化结果大于后者，说明前者比后者更加重要(包含的音频内容对整个音频数据的影响更大)。

在步骤S340中，基于所述语音编码器，根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，生成所述音频数据对应的标准音频数据。

本公开的一个示例实施例中，编码比特数可以是指单位时间内网络通信传送的数据量，在网络带宽(是指在单位时间内能够传输的数据量)一定的情况下，编码比特数也是一定的。标准音频数据可以是指基于音频关键帧对音频数据进行带内前向纠错编码后得到的音频数据，例如，标准音频数据可以是减少音频数据中关键性较低的音频关键帧对应传输资源(如带宽或者编码比特数等)或者删除音频数据中关键性较低的音频关键帧后得到的音频数据，也可以是增加音频数据中关键性较高的音频关键帧对应传输资源(如带宽或者编码比特数等)后得到的音频数据，当然，标准音频数据还可以是减少音频数据中关键性较低的音频关键帧对应传输资源(如带宽或者编码比特数等)或者删除音频数据中关键性较低的音频关键帧，以及增加音频数据中关键性较高的音频关键帧对应传输资源(如带宽或者编码比特数等)后得到的音频数据，本示例实施例对此不做特殊限定。

本公开的一个示例实施例中，音频关键帧可以包括语音起始帧，则具体可以通过语音编码器对音频数据进行语音端点检测，确定音频数据对应的语音起始帧。

其中，语音起始帧可以是指音频数据中出现具体语音内容的音频帧，例如，语音起始帧可以是音频数据中音频信号从0跳变到1的音频帧，即假设音频数据中第i-1帧的音频帧语音端点检测结果为0，第i帧的音频帧语音端点检测结果为1，则可以认为第i帧的音频帧为音频数据中的语音起始帧。语音端点检测一般用于鉴别音频信号当中的语音出现(Speech presence)和语音消失(Speech absence)。

具体的，可以通过语音端点检测算法(Voice Activity Detection，VAD)对音频数据进行语音端点检测，以确定音频数据对应的语音起始帧。可以通过基于子带信噪比判决的方法得到语音端点检测算法，也可以通过基于DNN(深度神经网络)的语音帧判决的方法得到语音端点检测算法，本示例实施例对此不做特殊限定。

举例而言，以基于DNN的语音帧判决的方法为例，通过语音端点检测算法对音频数据进行语音端点检测的具体步骤可以参考图4所示：

步骤S410，对音频数据进行分帧处理，得到音频数据对应的多个音频帧；

步骤S420，根据已知语音信号区域和静默信号区域的样本音频帧集合训练语音起始帧分类模型；

步骤S430，将多个音频帧输入到训练好的语音起始帧分类模型确定音频数据中的语音起始帧。

其中，语音起始帧分类模型可以是鉴别音频信号当中的语音出现的音频帧的分类模型(分类器)，例如语音起始帧分类模型可以是深度神经网络模型，也可以是支持向量机模型，本示例实施例对此不做特殊限定。语音起始帧分类模型的输入数据可以是音频帧，输出数据可以是0或者1，即0表示该音频帧不是语音起始帧，1表示该音频帧是语音起始帧。

语音起始帧分类模型是一种比较成熟的人工智能技术，人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

通过检测音频数据中的音频帧是否是语音起始帧，能够筛选过滤音频数据中语音内容开始前的空白音频帧或者噪音音频帧，降低空白音频帧或者噪音音频帧在编码时的关键性，并提高语音起始帧的关键性，进而提升音频数据的音频质量。

本公开的一个示例实施例中，音频关键帧可以包括能量突增帧，则具体可以通过语音编码器对音频数据进行帧能量检测，确定音频数据对应的能量突增帧。

其中，能量突增帧可以是指音频数据中相比于前一音频帧的帧能量发生了较大变化的音频帧，例如，假设音频数据中第i-1帧的音频帧对应的帧能量小于第i帧的音频帧对应的帧能量的预设倍数，且第i帧的音频帧的帧能量大于预设门限E，则可以认为第i帧的音频帧为音频数据中的能量突增帧。

具体的，可以参考图5中的步骤确定音频数据对应的能量突增帧：

步骤S510，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数；

步骤S520，将所述帧能量倍数大于倍数阈值的所述当前音频帧，确定为所述音频数据对应的能量突增帧。

其中，帧能量倍数可以是指当前音频帧对应的帧能量与当前音频帧的前一音频帧对应的帧能量的比值。倍数阈值可以是指预先设置用于判断当前音频帧发生能量突变的情况的数值，例如倍数阈值可以是3，即可以表示在当前音频帧对应的帧能量与当前音频帧的前一音频帧对应的帧能量的帧能量倍数大于3时，可以认为当前音频帧的帧能量发生了突变，则此时可以将当前音频帧作为音频数据中的能量突增帧。当然，倍数阈值也可以是4，还可以是5，具体数值需要根据实际情况进行设置，如在嘈杂的环境中可以将倍数阈值设置的较高，在安静的环境中，可以将倍数阈值设置的较低，本示例实施例对此不做特殊限定。

具体的，为了避免当前音频帧与前一音频帧均可能是不包含语音内容的音频帧的情况，需要对帧能量倍数大于倍数阈值的当前音频帧进行进一步判断。因此，将帧能量倍数大于倍数阈值，且帧能量值大于帧能量阈值的当前音频帧作为音频数据对应的能量突增帧。其中，帧能量阈值可以是指预先设置用于过滤当前音频帧中虽然帧能量倍数大于倍数阈值但是不包含任何语音内容的音频帧的数值，此处的帧能量阈值的具体数值需要根据实际情况进行设置，本示例实施例对此不做特殊限定。

进一步的，可以通过图6中的步骤计算当前音频帧相对于前一音频帧的帧能量倍数：

步骤S610，确定所述当前音频帧对应的第一时间窗，并将所述第一时间窗中数据样点值对应的平方和作为当前帧能量值；

步骤S620，确定所述前一音频帧对应的第二时间窗，并将所述第二时间窗中数据样点值对应的平方和作为前一帧能量值；

步骤S630，根据所述当前帧能量值和所述前一帧能量值，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数。

其中，时间窗可以是指在对音频数据中进行分帧时所采用预设大小的矩形窗口，通过指定大小的时间窗对音频数据进行分帧处理得到多个音频帧，每个音频帧对应的时间窗中包含多个音频信号采样点。数据样点值可以是指时间窗中每个音频信号采样点对应的数值。

第一时间窗是当前音频帧对应的时间窗，第二时间窗是前一音频帧对应的时间窗，当前帧能量值是通过计算第一时间窗中数据样点值对应的平方和得到的，前一帧能量值是通过计算第二时间窗中数据样点值对应的平方和得到的。具体可以通过关系式(1)计算音频帧的帧能量值：

其中，E可以表示音频帧的帧能量值，x(n)可以表示数据样点值，L可以表示音频帧的长度(即时间窗中音频信号采样点的数量)。

在计算得到当前帧能量值和前一帧能量值之后，将当前帧能量值与前一帧能量值的比值作为当前音频帧与当前音频帧对应的前一音频帧的帧能量倍数。

需要说明的是，本示例实施例中的“第一”、“第二”仅是为了区分并方便描述当前音频帧对应的时间窗和前一音频帧对应的时间窗，并不应对本示例实施例造成任何特殊限定。

由于音频数据中，帧能量变化较大则表示该音频帧包含较多或者较重要的语音信息，因此能量突增帧是音频数据中较重要的音频帧，通过检测音频数据中的能量突增帧，并在编码时对能量突增帧进行关键性处理(如分配更多的编码比特数)，能够有效提升音频数据的音频质量。

本公开的一个示例实施例中，音频关键帧可以包括基音周期突变帧，则具体可以通过语音编码器对音频数据进行基音周期检测，确定音频数据对应的基音周期突变帧。

其中，基音周期(Pitch Period)是一种用于记录基音的时间长度的检测方法，属于声音学，基音周期具体可以简单理解为声带每开启和闭合一次的时间。可以通过波形估计法(直接通过声音波形来估计基音周期，分析出波形上的周期峰值)确定音频帧的基音周期，也可以通过相关处理法(具体可以包括平均幅值差分函数法AMDF、简化逆滤波法SIFT)确定音频帧的基音周期，还可以通过倒谱变换法(将语音信号变换到频域或者倒谱域来估计基音周期)确定音频帧的基音周期，当然，还可以通过其他方式确定音频帧的基音周期，本示例实施例对此不做特殊限定。

基音周期突变帧可以是指基音周期发生较大改变的音频帧，例如，假设第i-1帧的音频帧对应的基音周期和第i帧的音频帧对应的基音周期的差值的绝对值大于预设门限，则可以认为第i-1帧的音频帧为音频数据对应的基音周期突变帧。

具体的，可以通过图7中的步骤确定音频数据对应的基音周期突变帧：

步骤S710，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的基音周期差值；

步骤S720，将所述基音周期差值的绝对值大于差值阈值的所述当前音频帧，确定为所述音频数据对应的基音周期突变帧。

其中，基音周期差值可以是指将当前音频帧对应的基音周期与前一音频帧对应的基音周期作差得到的值。例如，基于倒谱基音检测方法确定当前音频帧对应的基音周期，基于倒谱基音检测方法确定前一音频帧对应的基音周期，将当前音频帧对应的基音周期与前一音频帧对应的基音周期作差得到基音周期差值。

差值阈值可以是指预先设置用于判断基音周期发生较大改变的音频帧的值，例如差值阈值可以是50ms，在当前音频帧与前一音频帧的基音周期差值大于50ms时，可以认为当前音频帧的基音周期发生了较大改变，因此将基音周期差值的绝对值大于差值阈值的当前音频帧，确定为音频数据对应的基音周期突变帧。当然，差值阈值也可以是100ms，还可以是200ms，具体数值需要根据实际情况进行设置，本示例实施例对此不做特殊限定。

人们主要依靠声带进行发声，基音周期可以表示声带每开启和闭合一次的时间，是分析音频数据中是否包含关键语音信息的重要特征。而基音周期突变帧是音频数据中基音周期发生较大变化的音频帧，此时表示音频数据中的语音内容也发生了较大的变化，也是比较重要的音频帧。通过检测音频数据中的基音周期突变帧，并在编码时对基音周期突变帧进行关键性处理(如分配更多的编码比特数)，能够有效提升音频数据的音频质量。

本公开的一个示例实施例中，音频关键帧还可以包括非语音帧，则具体可以通过语音编码器对音频数据进行语音端点检测，确定音频数据对应的非语音帧。

其中，非语音帧可以是指不包含任何语音内容的音频帧，例如，可以对音频数据进行语音端点检测，将语音端点检测结果为0的音频帧作为音频数据对应的非语音帧。

具体对音频数据进行语音端点检测确定非语音帧的步骤请参照上述确定语音起始帧的实施例，在此不做再赘述。

非语音帧是不包含任何语音内容的音频帧，但是会在编码时影响音频数据的音频质量，因此也将非语音帧作为评价音频帧关键性的情况，通过检测音频数据中的非语音帧，并在编码时对非语音帧进行关键性处理(如分配较少的编码比特数或者直接删除非语音帧)，能够有效提升音频数据的音频质量。

本公开的一个示例实施例中，可以在基于音频关键帧对音频数据进行编码之前，将音频数据中包含语音起始帧、能量突增帧、基音周期突变帧和非语音帧中一种或者多种情况的音频关键帧进行关键性量化处理，得到音频关键帧对应的关键性量化结果。

其中，关键性量化可以是指将对音频帧的关键性评价结果量化为评分数据的过程：即根据音频帧是否是语音起始帧、能量突增帧、基音周期突变帧和非语音帧中一种或者多种情况的关键性评价结果，量化为该音频帧对应的关键性评分的过程。

具体的，在得到音频关键帧对应的关键性量化结果之后，可以根据关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对音频数据的编码。例如，在对音频数据进行带内前向纠错编码时，可以减少关键性量化结果较低的音频关键帧对应的编码比特数(如带宽或者其他传输资源等)或者删除关键性量化结果较低的音频关键帧，也可以是增加关键性量化结果较高的音频关键帧对应的编码比特数(如带宽或者其他传输资源等)，当然，还可以是减少关键性量化结果较低的音频关键帧对应的编码比特数(如带宽或者其他传输资源等)或者删除关键性量化结果较低的音频关键帧，以及增加关键性量化结果较高的音频关键帧对应的编码比特数(如带宽或者其他传输资源等)，本示例实施例对此不做特殊限定。

举例而言，以音频帧是否是语音起始帧、能量突增帧、基音周期突变帧和非语音帧确定该音频帧的关键性评价结果为例。若判定音频帧为语音起始帧，则语音起始关键性的量化结果为1，否则为0；若判定音频帧为能量突增帧，则能量突增关键性的量化结果为1，否则为0；若判定音频帧为基音周期突变帧，则基音周期突变关键性的量化结果为1，否则为0；若判定音频帧为非语音帧，则非语音关键性的量化结果为1，否则为0。具体可以根据关系式(2)计算该音频帧最终的关键性量化结果：

r＝0.1+(1-r₄)*(0.3*r₁+0.3*r₂+0.3*r₃) (2)

其中，r可以表示音频帧对应的关键性量化结果(关键性评分)，r₁可以表示语音起始关键性的量化结果，r₂可以表示能量突增关键性的量化结果，r₃可以表示基音周期突变关键性的量化结果，r₄可以表示非语音关键性的量化结果。当然，此处举例说明时，量化语音起始帧、能量突增帧、基音周期突变帧和非语音帧时的结果仅为0或者1，但实际应用中，量化结果的值可以根据语音起始帧、能量突增帧、基音周期突变帧和非语音帧的不同情况量化为0-1之间的任何数值，本示例实施例对此不做特殊限定。

本公开的一个示例实施例中，可以根据音频关键帧对应的关键性量化结果，对音频数据进行前向纠错编码。前向纠错编码技术是在不可靠或强噪声干扰的信道中传输数据时用来控制错误的一项技术，前向纠错编码技术具有引入级联信道编码等增益编码技术的特点，可以自动纠正传输误码，核心思想是发送方通过使用纠错码(ECC)对信息进行冗余编码。

进一步的，可以根据关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对音频数据的带内前向纠错编码。

其中，编码比特数可以是指单位时间内网络通信传送的数据量，在网络带宽(是指在单位时间内能够传输的数据量)一定的情况下，编码比特数也是一定的。在进行前向纠错编码时，需要将前一音频帧编码到当前音频帧中，此时前一音频帧会占用当前音频帧的带宽，由于在同一网络环境中的网络带宽是一定的，而对音频帧分配的编码比特数越多，音频帧解码后的音质越好。因此，对前一音频帧的分配的编码比特数越多，会导致当前音频帧的音质下降，而在相关技术方案中对所有音频帧分配的编码比特数均是一样的，这样会使一些关键性较低的音频帧占用大量的带宽，导致解码后的音频数据质量较差。通过关键性量化结果分配音频关键帧在进行前向纠错编码时的编码比特数，能够在保证前向纠错编码的功能性(抗丢包)不变的情况下，有效提升前向纠错编码后得到的标准音频数据的音频质量，提升用户体验。

本公开的一个示例实施例中，可以根据关键性量化结果确定预测滤波器的预测增益，并通过预测增益分配音频关键帧在进行带内前向纠错编码时的编码比特数。

其中，预测滤波器可以是指相关音频编码器中用于调节前向纠错编码的编码比特数的滤波器，例如，相关音频编码器可以是Opus编码器，此时定义一个单调递增函数f(x)，使预测滤波器的预测增益满足关系式(3)：

gain＝f(1-r) (3)

其中，gain可以表示预测滤波器的预测增益，r可以表示关键性量化结果(关键性评分)。

通过关系式(3)可以得到，如果关键性量化结果越大，则预测增益越小，进而分配的编码比特数越多；如果关键性量化结果越小，则预测增益越大，进而分配的编码比特数越少。

可选的，也可以通过获取预设的编码比特分配表，并基于语音编码器根据关键性量化结果以及编码比特分配表分配音频关键帧在进行带内前向纠错编码时的编码比特数。

其中，编码比特分配表可以包括不同的关键性量化结果与占用的编码比特数的映射关系，通过关键性量化结果在编码比特分配表中查询该关键性量化结果对应的音频关键帧应该分配的编码比特数，进而根据编码比特数对音频关键帧进行带内前向纠错编码，以实现关键性量化结果较高的音频关键帧分配较多的编码比特数，而关键性量化结果较低的音频关键帧分配较少的编码比特数，在能够实现前向纠错功能的同时，有效提高原来的音频数据的音频质量。

具体的，可以根据图8中的步骤实现对音频数据的带内前向纠错编码：

步骤S810，确定所述音频数据中前一音频关键帧对应的目标关键性量化结果；

步骤S820，根据所述目标关键性量化结果分配所述前一音频关键帧占用的目标编码比特数；

步骤S830，在对所述音频数据中的当前音频关键帧进行带内前向纠错编码时，根据所述目标编码比特数对所述前一音频关键帧与所述当前音频关键帧进行编码，以完成对所述音频数据的编码。

其中，前一音频关键帧可以是在对音频数据中的当前音频关键帧进行编码时对应的前一时刻的音频关键帧，目标关键性量化结果可以是前一音频关键帧对应的关键性量化结果，目标编码比特数可以是前一音频关键帧在进行带内前向纠错编码时分配的编码比特数。

在基于语音编码器，根据关键性量化结果分配音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对音频数据的编码之后，可以将标准音频数据通过网络通信实时传输到目标节点，目标节点对应的终端设备或者服务器通过语音解码器对该标准音频数据进行解码。在语音解码器未检测到丢包现象时，该语音解码器可以直接对标准音频数据进行普通解码并通过功放单元输出音频数据对应的标准音频；在语音解码器检测到丢包现象时，该语音解码器可以对标准音频数据进行前向纠错解码，通过产生丢包的音频帧的下一帧解码得到该音频帧，实现标准音频数据的解码，并通过功放单元输出音频数据对应的标准音频。

通过音频关键帧对音频数据进行前向纠错编码，对关键性量化结果较高的音频关键帧分配更多的编码比特数，对关键性量化结果较低的音频关键帧分配较少的编码比特数，能够有效避免对噪音帧或者空白帧进行前向纠错编码而导致原音频数据的音频质量下降的问题；同时增加音频数据中关键性量化结果较高的音频关键帧的编码比特数，这样在音频关键帧发生丢包时，根据音频关键帧的下一音频帧恢复该音频关键帧时，保证该音频关键帧的编码比特数，有效保证音频数据中关键性量化结果较高的音频关键帧的恢复后的音频质量，进而提升解码后的音频数据的音频质量。

前向纠错编码FEC主要分为两大类：基于信源的方式和基于信道的方式。通过分配前一音频帧与当前音频帧的编码比特数进行前向纠错编码，即通过下降码率的方式，是一种基于信道的方式进行抗丢包的编码方式。

可选的，在基于音频关键帧对音频数据进行带内前向纠错编码时，还可以通过基于信道的方式进行抗丢包的编码方式，即可以通过多发包的形式进行抗丢包编码。

举例而言，在对音频数据进行关键帧检测，确定音频关键帧之后，在编码时，可以根据音频关键帧的关键性量化结果确定音频关键帧的多发次数。例如，若音频关键帧的关键性量化结果为0.9(根据关系式(2)可知，关键性量化结果的取值在0-1之间)，则确定该音频关键帧的多发次数为3次，即在编码时，码流中包含3帧相同的该音频关键帧；若音频关键帧的关键性量化结果为0.4，则确定该音频关键帧的多发次数为2次，即在编码时，码流中包含2帧相同的该音频关键帧；若音频关键帧的关键性量化结果为0.1，则确定该音频关键帧的多发次数为1次，即在编码时，码流中仅包含1帧相同的该音频关键帧，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

通过确定音频关键帧，并基于音频关键帧的关键性量化结果确定音频关键帧的多发次数，并基于多发次数对音频数据进行编码，能够在保证抗丢包功能的同时，有效提升标准音频数据的音频质量。

图9示意性示出了根据本公开的一个实施例的通过语音编码器对音频数据进行前向纠错编码的流程示意图。

参考图9所示，步骤S901，获取实时采集的音频数据，并对音频数据进行分帧处理得到多个音频帧；

步骤S902，基于步骤S910中计算得到的前一音频帧分配的编码比特数，通过语音编码器(带内FEC)对当前音频帧以及前一音频帧进行编码比特分配；

步骤S903，通过语音编码器中的语音特征提取模型(如短时傅里叶变换STFT)提取当前音频帧以及前一音频帧对应的音频特征；

步骤S904，通过语音编码器对音频特征进行特征量化；

步骤S905，通过语音编码器对特征量化后的音频特征进行编码得到包含当前音频帧以及前一音频帧的音频帧；

步骤S906，通过语音编码器保存当前音频帧进行特征量化后的音频特征；

步骤S907，通过语音编码器对当前音频帧进行关键性分析，得到当前音频帧的关键性量化结果；

步骤S908，通过语音编码器延时一帧，使当前音频帧对应的特征量化后的音频特征参与下一帧音频帧的编码；

步骤S909，通过语音编码器根据当前音频帧的关键性量化结果对音频特征进行重新编码；

步骤S910，通过语音编码器根据当前音频帧的关键性量化结果计算当前音频帧参与到下一音频帧的前向纠错编码比特数，以在步骤S802中对下一音频帧以及当前音频帧进行编码比特分配；

步骤S911，通过语音编码器将包含当前音频帧以及前一音频帧的音频帧打包，生成数据包；

步骤S912，将生成的数据包通过网络通信进行码流输出。

图10示意性示出了根据本公开的一个实施例的通过语音解码器对音频数据进行解码的流程示意图。

参考图10所示，步骤S1001，通过网络通信接收发送节点输出的码流，并发送到语音解码器：

步骤S1002，通过语音解码器获取码流中的数据包；

步骤S1003，通过语音解码器检测是否发生丢包现象，如果未发生丢包现象，则执行步骤S1004，否则执行步骤S1005；

步骤S1004，通过语音解码器对当前音频帧对应的数据包进行普通的码流解码，得到当前音频帧数据；

步骤S1005，通过语音解码器对当前音频帧对应的下一音频帧的数据包进行前向纠错解码，得到当前音频帧数据；

步骤S1006，将语音解码器解码得到的当前音频帧数据进行音频输出。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种音频编码装置。该音频编码装置可以应用于一服务器或终端设备。参考图11所示，该音频编码装置1100可以包括音频数据获取模块1110、音频关键帧检测模块1120、关键性量化模块1130以及音频数据编码模块1140。其中：

音频数据获取模块1110用于获取音频数据，并将所述音频数据发送到预设的语音编码器；

音频关键帧检测模块1120用于通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧；

关键性量化模块1130用于对所述音频关键帧进行关键性量化处理，得到所述音频关键帧对应的关键性量化结果；

音频数据编码模块1140用于基于所述语音编码器，根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，生成所述音频数据对应的标准音频数据。

在本公开的一种示例性实施例中，所述音频数据编码模块1140包括编码比特数分配单元，所述编码比特数分配单元被配置为：

在本公开的一种示例性实施例中，所述音频数据编码模块1140包括前向纠错编码单元，所述前向纠错编码单元被配置为：

在本公开的一种示例性实施例中，所述音频关键帧检测模块1120包括语音起始帧检测单元，所述语音起始帧检测单元被配置为：

对所述音频数据进行语音端点检测，确定所述音频数据对应的语音起始帧。

在本公开的一种示例性实施例中，所述音频关键帧检测模块1120包括能量突增帧检测单元，所述能量突增帧检测单元被配置为：

对所述音频数据进行帧能量检测，确定所述音频数据对应的能量突增帧。

在本公开的一种示例性实施例中，所述音频关键帧检测模块1120包括基音周期突变帧检测单元，所述基音周期突变帧检测单元被配置为：

对所述音频数据进行基音周期检测，确定所述音频数据对应的基音周期突变帧。

在本公开的一种示例性实施例中，所述音频关键帧检测模块1120包括非语音帧检测单元，所述非语音帧检测单元被配置为：

对所述音频数据进行语音端点检测，确定所述音频数据对应的非语音帧。

在本公开的一种示例性实施例中，所述关键性量化模块1130还包括关键性量化单元，所述关键性量化单元被配置为：

在本示例实施方式所提供的音频编码装置中，一方面，结合检测出的音频关键帧对音频数据进行带内前向纠错编码，可以在编码的时候对音频数据中影响音频质量较大的音频关键帧给与更多的网络传输资源(带宽或者编码比特数)，有效提升编解码后得到的标准音频数据的音频质量；另一方面，通过对音频数据进行关键帧检测，以评价每个音频帧的关键性，在带内前向纠错编码时可以降低关键性较弱的音频帧对应的网络传输资源(带宽或者编码比特数)或者直接删除关键性较弱的音频帧，减少音频数据中的干扰音频帧或者空白帧，节约网络资源，压缩音频数据占用的空间，进一步提升标准音频数据的音频质量，提升标准音频数据的清晰度。

上述音频编码装置中各模块或单元的具体细节已经在对应的音频编码方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频编码方法，其特征在于，包括：

2.根据权利要求1所述的音频编码方法，其特征在于，所述根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，包括：

3.根据权利要求2所述的音频编码方法，其特征在于，根据所述关键性量化结果以及所述编码比特分配表分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，还包括：

4.根据权利要求2所述的音频编码方法，其特征在于，所述根据所述关键性量化结果分配所述音频关键帧在进行带内前向纠错编码时的编码比特数，以完成对所述音频数据的编码，包括：

5.根据权利要求1所述的音频编码方法，其特征在于，所述音频关键帧包括语音起始帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

6.根据权利要求1所述的音频编码方法，其特征在于，所述音频关键帧包括能量突增帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

7.根据权利要求6所述的音频编码方法，其特征在于，对所述音频数据进行帧能量检测，确定所述音频数据对应的能量突增帧，包括：

8.根据权利要求7所述的音频编码方法，其特征在于，计算所述音频数据中当前音频帧与所述当前音频帧对应的前一音频帧的帧能量倍数，包括：

9.根据权利要求1所述的音频编码方法，其特征在于，所述音频关键帧包括基音周期突变帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

10.根据权利要求9所述的音频编码方法，其特征在于，对所述音频数据进行基音周期检测，确定所述音频数据对应的基音周期突变帧，包括：

11.根据权利要求1所述的音频编码方法，其特征在于，所述音频关键帧包括非语音帧，所述通过所述语音编码器对所述音频数据进行关键帧检测，确定所述音频数据对应的音频关键帧，包括：

12.根据权利要求5至11任意一项所述的音频编码方法，其特征在于，对所述音频关键帧进行关键性量化处理，得到所述音频数据对应的关键性量化结果，包括：

13.一种音频编码装置，其特征在于，包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。