CN115831132A

CN115831132A - 音频编解码方法、装置、介质及电子设备

Info

Publication number: CN115831132A
Application number: CN202111093865.3A
Authority: CN
Inventors: 张思宇; 高毅; 罗程; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-03-21

Abstract

本申请属于音视频编解码技术领域，具体涉及一种音频编码方法、音频解码方法、音频编码装置、音频解码装置、计算机可读介质以及电子设备。音频编码方法，包括：对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；对所述语音帧和所述静音描述帧进行编码处理并跳过对所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。该方法可以提高资源利用率。

Description

音频编解码方法、装置、介质及电子设备

技术领域

本申请属于音视频编解码技术领域，具体涉及一种音频编码方法、音频解码方法、音频编码装置、音频解码装置、计算机可读介质以及电子设备。

背景技术

在音视频通话过程中，例如网络电话(Voice over Internet Protocol，VOIP)、音视频会议、网络直播等等，为了方便网络状态的统计与及时响应，也为了使用户获得舒适的通话体验，一般会采用数据连续传输模式。即在未设置静音的状态下，在语音激活时期会始终传输有效数据包，在语音未激活时期会传输零值。但一般情况下，用户在进行语音通信时大约有60％-70％的时间没有讲话，使得这种连续传输的方式极大占用了CPU、增大传输码率和流量等资源，对传输信道、带宽等也造成了极大的浪费。

发明内容

本申请的目的在于提供一种音频编码方法、音频解码方法、音频编码装置、音频解码装置、计算机可读介质以及电子设备，至少在一定程度上克服相关技术中存在的资源利用率低的技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种音频编码方法，该方法包括：对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；对所述语音帧和所述静音描述帧进行编码处理并跳过对所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。

根据本申请实施例的一个方面，提供一种音频编码装置，该装置包括：检测模块，被配置为对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；标记模块，被配置为将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；编码模块，被配置为对所述语音帧和所述静音描述帧进行编码处理并跳过对所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。

在本申请的一些实施例中，基于以上技术方案，标记模块包括：获取模块，被配置为获取用于记录非语音帧的连续分布数量的计数器；触发模块，被配置为当检测到非语音帧时，触发所述计数器增加计数值；第一标记模块，被配置为若所述计数值小于预设数量，则将当前检测到的非语音帧标记为静音描述帧；第二标记模块，被配置为若所述计数值大于所述预设数量，则将当前检测到的非语音帧标记为静音帧；重置模块，被配置为当检测到语音帧时，重置所述计数器，以将所述计数值归零。

在本申请的一些实施例中，基于以上技术方案，检测模块包括：分类模块，被配置为根据采样率带宽对音频数据进行分类，以确定所述音频数据为高带宽数据或者低带宽数据，所述低带宽数据的采样率带宽低于所述高带宽数据；提取模块，被配置为若所述音频数据为高带宽数据，则提取所述高带宽数据中的低频带信号，并对所述低频带信号中的各个数据帧进行语音活动检测；低频检测模块，被配置为若所述音频数据为低带宽数据，则对所述低带宽数据中的各个数据帧进行语音活动检测。

在本申请的一些实施例中，基于以上技术方案，提取模块被配置为对所述高带宽数据进行频带分离，得到频率低于频率阈值的低频带信号和频率高于频率阈值的高频带信号；所述音频编码装置还包括：合成模块，被配置为对所述低频带信号和所述高频带信号进行频带合成，得到恢复采样率带宽的高带宽数据。

在本申请的一些实施例中，基于以上技术方案，所述音频编码装置还包括：预处理模块，被配置为对所述低频带信号或者所述低带宽数据进行数据预处理，所述数据预处理的方法包括回声消除、噪声消除、增益控制或者啸叫抑制中的至少一种。

在本申请的一些实施例中，基于以上技术方案，所述音频编码装置还包括：第一标记添加模块，被配置为在所述语音帧的帧头中添加用于识别所述语音帧的第一标记；第二标记添加模块，被配置为在所述静音描述帧的帧头中添加用于识别所述静音描述帧的第二标记。

在本申请的一些实施例中，基于以上技术方案，编码模块包括：数量获取模块，被配置为获取参与音频通话的主体数量；噪声添加模块，被配置为若所述主体数量小于数量阈值，则向所述静音描述帧的数据实体中添加舒适噪声，并对携带所述舒适噪声的静音描述帧进行编码处理。

在本申请的一些实施例中，基于以上技术方案，编码模块包括：空数据替换模块，被配置为将所述静音描述帧的数据实体替换为空数据；空数据编码模块，被配置为对携带所述空数据的静音描述帧进行编码处理。

根据本申请实施例的一个方面，提供一种音频解码方法，该方法包括：接收非连续传输的编码数据流，所述编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，所述编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧；对所述语音帧和所述静音描述帧进行解码处理，得到对应于所述编码数据帧序列的解码数据帧序列。

根据本申请实施例的一个方面，提供一种音频解码装置，该装置包括：接收模块，被配置为接收非连续传输的编码数据流，所述编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，所述编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧；解码模块，被配置为对所述语音帧和所述静音描述帧进行解码处理，得到对应于所述编码数据帧序列的解码数据帧序列。

在本申请的一些实施例中，基于以上技术方案，音频解码装置还包括：类别检测模块，被配置为对所述编码数据帧序列中的各个编码数据帧进行类别检测，以确定所述编码数据帧为语音帧或者静音描述帧；状态统计模块，被配置为当检测到所述语音帧时，统计所述编码数据流的传输网络状态；统计停止模块，被配置为当检测到所述静音描述帧时，停止统计所述编码数据流的传输网络状态。

在本申请的一些实施例中，基于以上技术方案，音频解码装置还包括：数据填充模块，被配置为在两个相邻的解码数据帧序列之间填充对应于所述序列间隔的空白数据。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的音频编解码方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频编解码方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的音频编解码方法。

在本申请实施例提供的技术方案中，通过对待传输的数据帧进行语音活动检测，可以判定数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧。针对包含语音信号的语音帧，可以直接进行编码传输。针对不包含语音信号的非语音帧，可以根据其连续分布数量来判断是否需要对其进行编码传输。如果非语音帧的连续分布数量较少，表示这些非语音帧是连续语音信号中的不易察觉的短暂停顿或者是因语音活动检测误差而导致的错误检测结果，此时可以对其进行编码传输。而如果非语音帧的连续分布数量较多，表示这些非语音帧属于静默数据，此时可以停止对这些非语音帧进行编码传输。基于该音频编码方法可以极大地降低传输码率和传输带宽，减少CPU的占用，避免资源浪费，提高计算资源和网络资源的利用效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示意性地示出音视频编码装置和音视频解码装置在流式传输环境中的放置方式。

图3示意性地示出了本申请一个实施例中的音频编码方法的步骤流程图。

图4示意性地示出了本申请一个实施例中基于计数器控制判断是否进行数据帧连续传输的步骤流程图。

图5示意性地示出了本申请一个实施例中的音频解码方法的步骤流程图。

图6示意性地示出了本申请在一个应用场景中基于非连续传输的完整的音频编解码过程。

图7示意性地示出了本申请实施例提供的音频编码装置的结构框图。

图8示意性地示出了本申请实施例提供的音频解码装置的结构框图。

图9示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

如图1所示，系统架构100包括多个终端装置，所述终端装置可通过例如网络150彼此通信。举例来说，系统架构100可以包括通过网络150互连的第一终端装置110和第二终端装置120。在图1的实施例中，第一终端装置110和第二终端装置120执行单向数据传输。

举例来说，第一终端装置110可对音视频数据(例如由终端装置110采集的音视频数据流)进行编码以通过网络150传输到第二终端装置120，已编码的音视频数据以一个或多个已编码音视频码流形式传输，第二终端装置120可从网络150接收已编码音视频数据，对已编码音视频数据进行解码以恢复音视频数据，并根据恢复的音视频数据进行内容播放或显示。

在本申请的一个实施例中，系统架构100可以包括执行已编码音视频数据的双向传输的第三终端装置130和第四终端装置140，所述双向传输比如可以发生在音视频会议期间。对于双向数据传输，第三终端装置130和第四终端装置140中的每个终端装置可对音视频数据(例如由终端装置采集的音视频数据流)进行编码，以通过网络150传输到第三终端装置130和第四终端装置140中的另一终端装置。第三终端装置130和第四终端装置140中的每个终端装置还可接收由第三终端装置130和第四终端装置140中的另一终端装置传输的已编码音视频数据，且可对已编码音视频数据进行解码以恢复音视频数据，并根据恢复的音视频数据进行内容播放或显示。

在图1的实施例中，第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用音视频会议设备。网络150表示在第一终端装置110、第二终端装置120、第三终端装置130和第四终端装置140之间传送已编码音视频数据的任何数目的网络，包括例如有线和/或无线通信网络。通信网络150可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络150的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

在本申请的一个实施例中，图2示意性地示出音视频编码装置和音视频解码装置在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持音视频的应用，包括例如音视频会议、数字TV(television，电视机)、在包括CD、DVD、存储棒等的数字介质上存储压缩音视频等等。

流式传输系统可包括采集子系统213，采集子系统213可包括麦克风、摄像头等音视频源201，音视频源创建未压缩的音视频数据流202。相较于已编码的音视频数据204(或已编码的音视频码流204)，音视频数据流202被描绘为粗线以强调高数据量的音视频数据流，音视频数据流202可由电子装置220处理，电子装置220包括耦接到音视频源201的音视频编码装置203。音视频编码装置203可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于音视频数据流202，已编码的音视频数据204(或已编码的音视频码流204)被描绘为细线以强调较低数据量的已编码的音视频数据204(或已编码的音视频码流204)，其可存储在流式传输服务器205上以供将来使用。一个或多个流式传输客户端子系统，例如图2中的客户端子系统206和客户端子系统208，可访问流式传输服务器205以检索已编码的音视频数据204的副本207和副本209。客户端子系统206可包括例如电子装置230中的音视频解码装置210。音视频解码装置210对已编码的音视频数据的传入副本207进行解码，且产生可在输出端212(例如扬声器、显示器)或另一呈现装置上呈现的输出音视频数据流211。在一些流式传输系统中，可根据某些音视频编码/压缩标准对已编码的音视频数据204、音视频数据207和音视频数据209(例如音视频码流)进行编码。

应注意，电子装置220和电子装置230可包括图中未示出的其它组件。举例来说，电子装置220可包括音视频解码装置，且电子装置230还可包括音视频编码装置。

下面结合具体实施方式对本申请提供的音频编码方法、音频解码方法、音频编码装置、音频解码装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图3示意性地示出了本申请一个实施例中的音频编码方法的步骤流程图，该音频编码方法可以由图2所示的音视频编码装置执行。如图3所示，该音频编码方法主要可以包括如下的步骤S310至步骤S330。

步骤S310：对音频数据中的各个数据帧进行语音活动检测，以确定数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧。

步骤S320：将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于预设数量的非语音帧标记为静音帧。

步骤S330：对语音帧和静音描述帧进行编码处理并跳过对静音帧的编码过程，得到非连续传输的编码数据流，编码数据流包括对应于语音帧和静音描述帧的编码数据帧序列以及对应于静音帧的序列间隔。

在本申请实施例提供的音频编码方法中，通过对待传输的数据帧进行语音活动检测，可以判定数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧。针对包含语音信号的语音帧，可以直接进行编码传输。针对不包含语音信号的非语音帧，可以根据其连续分布数量来判断是否需要对其进行编码传输。如果非语音帧的连续分布数量较少，表示这些非语音帧是连续语音信号中的不易察觉的短暂停顿或者是因语音活动检测误差而导致的错误检测结果，此时可以对其进行编码传输。而如果非语音帧的连续分布数量较多，表示这些非语音帧属于静默数据，此时可以停止对这些非语音帧进行编码传输。基于该音频编码方法可以极大地降低传输码率和传输带宽，减少CPU的占用，避免资源浪费，提高计算资源和网络资源的利用效率。

以下分别对本申请实施例中音频编码方法的各个方法步骤的实现方案做详细说明。

在步骤S310中，对音频数据中的各个数据帧进行语音活动检测，以确定数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧。

语音活动检测(Voice Activity Detection，VAD)的作用是在一段音频数据中识别出语音片段和非语音片段，在对音频数据进行语音活动检测之前，可以首先对音频数据进行分帧处理，以得到组成音频数据的多个数据帧。举例而言，音频数据的音频信号采样率为16kHz，取分帧窗口大小为25ms，这种情况下，每一帧数据所包含的数据点为：0.025*16000＝400采样点。为保证数据帧之间的连续性，可以令相邻的两个数据帧存在一定的数据重叠，例如相邻两个数据帧之间重叠10ms。

在本申请的一个实施例中，可以基于对数据帧进行特征提取，得到时域或者频域上的特征参数，从而根据语音信号或者非语音信号在这些特征参数上的不同的分布规律来识别一个数据帧为语音帧或者非语音帧。其中，时域特征参数例如可以包括短时能量、过零率、自相关函数、基频等；频域特征参数例如可以包括LPC倒谱距离、频率方差、谱熵等。

在本申请的一个实施例中，可以采用高斯混合模型GMM(Gaussian MixtureModel)对语音和噪声进行建模，通过相应的概率来判断数据帧为语音帧或者非语音帧。GMM的优点在于，该模型为无监督模型，不需要经过严格的训练。

在本申请的一个实施例中，也可以采用预先训练的神经网络模型对数据帧进行语音活动检测，根据神经网络模型输出的分类概率来判断数据帧为语音帧或者非语音帧。

在本申请的一个实施例中，还可以采用音频能量检测算法对数据帧进行语音活动检测，例如可以将音频能量高于能量阈值的数据帧判定为语音帧，并将音频能量低于能量阈值的数据帧判定为非语音帧。

在本申请的一个实施例中，步骤S310中的对音频数据中的各个数据帧进行语音活动检测的方法可以包括：根据采样率带宽对音频数据进行分类，以确定音频数据为高带宽数据或者低带宽数据，低带宽数据的采样率带宽低于高带宽数据；若音频数据为高带宽数据，则提取高带宽数据中的低频带信号，并对低频带信号中的各个数据帧进行语音活动检测；若音频数据为低带宽数据，则对低带宽数据中的各个数据帧进行语音活动检测。

在本申请实施例中，通过对高带宽数据进行低频带信号提取，可以仅在低带宽数据或者高带宽数据的低频带信号上进行语音活动检测，从而减少语音活动检测的计算量。举例而言，当音频数据的采样率带宽为16kHz时，确定该音频数据为高带宽数据，可以提取其中频率低于8kHz的低频带信号进行语音活动检测；当音频数据的采样率带宽为8kHz时，确定该音频数据为低带宽数据，可以直接对其进行语音活动检测。

在本申请的一个实施例中，可以对高带宽数据进行频带分离，得到频率低于频率阈值的低频带信号和频率高于频率阈值的高频带信号，该频率阈值例如可以为8kHz。在此基础上，完成对低频带信号中的各个数据帧进行语音活动检测之后，可以对低频带信号和高频带信号进行频带合成，得到恢复采样率带宽的高带宽数据。

在本申请的一个实施例中，可以获取由对应于低频频段的低通滤波器和对应于高频频段的高通滤波器组成的正交镜像滤波器组(Quadrature Mirror Filter，QMF)，然后通过正交镜像滤波器组对高带宽数据进行频带分离以得到对应于低频频段的低频带信号和对应于高频频段的高频带信号。

正交镜像滤波器组是由两个或两个以上的滤波器通过共用输入接口或者共用输出接口的方式组合而成。本申请实施例可以将一个对应于低频频段的低通滤波器和一个对应于高频频段的高通滤波器通过共用输入接口的方式组成正交镜像滤波器组，当把高带宽数据输入至该正交镜像滤波器组时，可以经过频带分离后得到由低通滤波器输出的低频带信号以及由高通滤波器输出的高频带信号。使用正交镜像滤波器组的优点是可以抵消由于频带分离而带来的频谱混叠效应。

在本申请的一个实施例中，在对低频带信号或者低带宽数据中的各个数据帧进行语音活动检测之前，还可以对低频带信号或者低带宽数据进行数据预处理，数据预处理的方法包括回声消除、噪声消除、增益控制或者啸叫抑制中的至少一种。

回声消除(Acoustic Echo Canceller，AEC)，是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从麦克风的输入信号中减去，从而达到消除回声的目的，AEC还可以将话筒的输入与扬声器过去的值相比较，从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少，AEC可以消除各种延迟的回声。

噪声消除(Automatic Noise Suppression，ANS)可探测出背景固定频率的杂音并消除背景噪音，呈现出语音清晰的声音。

增益控制(Automatic Gain Control，AGC)可以自动调麦克风的收音量，使接收端可以保持接收到一定的音量水平，避免因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。

在本申请实施例中，首先基于以上预处理手段对数据帧进行预处理，可以首先从回声、噪声中剥离出语音帧、再经过增益控制，进一步提升VAD算法的准确性。

在步骤S320中，将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于预设数量的非语音帧标记为静音帧。

在本申请的一个实施例中，可以通过配置计数器，并根据语音活动检测的结果对计数器的工作状态做出实时调整，从而准确地对非语音帧的标记类型做出判断。

在本申请实施例中，首先获取用于记录非语音帧的连续分布数量的计数器；当检测到非语音帧时，触发计数器增加计数值；若计数值小于预设数量，则将当前检测到的非语音帧标记为静音描述帧；若计数值大于预设数量，则将当前检测到的非语音帧标记为静音帧；当检测到语音帧时，重置计数器，以将计数值归零。

图4示意性地示出了本申请一个实施例中基于计数器控制判断是否进行数据帧连续传输的步骤流程图。如图4所示，在通过对原始的音频数据进行VAD检测后，根据VAD检测结果判断是否连续传输数据帧的方法包括如下的步骤S401至步骤S408。

步骤S401：根据VAD检测结果判断当前数据帧是否为语音帧。

若判定当前数据帧为语音帧，则执行步骤S402。若判定当前数据帧为非语音帧，则跳转执行步骤S404。

步骤S402：在语音帧的帧头中添加用于识别语音帧的第一标记，则继续执行步骤S403，并跳转执行步骤S408。

通过在语音帧的帧头中添加第一标记，可以使解码端设备基于对数据帧的帧头进行检测，快速判断数据帧是否为语音帧。

步骤S403：重置计数器，以将其计数值清零。

步骤S404：触发计数器增加计数值。

步骤S405：判断计数器的计数值是否达到预设的数量阈值。若达到数量阈值，则将当前的非语音帧标记为静音帧，并执行步骤S406；若未达到数量阈值，则将当前的非语音帧标记为静音描述帧，并跳转执行步骤S407。

步骤S406：停止对静音帧的编码传输。

步骤S407：在静音描述帧的帧头中添加用于识别静音描述帧的第二标记。

通过在静音描述帧的帧头中添加第一标记，可以使解码端设备基于对数据帧的帧头进行检测，快速判断数据帧是否为静音描述帧。

步骤S408：对语音帧或者静音描述帧进行编码传输。

在本申请实施例的一个应用场景中，计数器从当前数据帧是一段连续语音帧后的第一个非语音帧开始计数。计数器需设置一个数量阈值，如5、10等。当计数器的计数值达到该数量阈值后，下一帧若仍是非语音帧，则停止对当前数据帧的编码流程。若此时始终是非语音帧但并未达到计数器的数量阈值，则将当前的非语音帧标记为静音描述帧SID(Silence Insertion Descriptor)。直至重新收到一帧新的语音帧，会重置计数器以刷新传输状态。随后将标记好的语音帧和SID帧送入编码器编码发送。

通过设置计数器的数量阈值可以增大VAD算法的容错能力，若偶尔出现一帧VAD检测失误将语音帧检测为非语音帧，由于不会达到计数的数量阈值，故此时不会停止编码传输，始终执行连续发送决策。

例如在一种可能的实施方式中，一段长时间语音(其中包含两段语音且中间夹杂一段静默时间)被送入通话引擎中，VAD算法检测当前是否为语音帧。若此时检测到第一个静音帧，说明第一段语音结束，此时计数器开始自增计数。若将计数器的数量阈值设置为10，那么计数器将一直检测到当前帧是否为最后一个语音帧之后的连续10个非语音帧，计数器达到阈值前的非语音帧都会被标记为SID，剩余静音时段则停止编码传输，直至收到第二段语音的第一个语音帧重新开始编码传输。若两段语音间的静默时间无法达到预设的数量阈值，那么此段传输始终是连续编码传输状态，而不会出现传输中断。

在步骤S330中，对语音帧和静音描述帧进行编码处理并跳过对静音帧的编码过程，得到非连续传输的编码数据流，编码数据流包括对应于语音帧和所述静音描述帧的编码数据帧序列以及对应于静音帧的序列间隔。

在本申请的一个实施例中，对静音描述帧进行编码处理的方法包括：获取参与音频通话的主体数量；若主体数量小于数量阈值，则向静音描述帧的数据实体中添加舒适噪声，并对携带舒适噪声的静音描述帧进行编码处理。当参与音频通话的主体数量较少时(例如双方通话)，如果不产生噪声，会给通话方产生通话中断的错觉，因此可以通过向静音描述帧的数据实体中添加舒适噪声，使得解码端可以对静音描述帧进行解码以产生相应的噪声。当参与音频通话的主体数量较多时(例如多人参与音视频会议)，一般会有多个主体同时输出语音，如果噪声较多会严重影响通话效果，因此可以直接对静音描述帧进行编码传输，解码端在对静音描述帧进行解码时不会产生噪声，从而满足降噪需求。

在本申请的一个实施例中，在对静音描述帧进行编码处理时，可以将静音描述帧的数据实体替换为空数据，并对携带空数据的静音描述帧进行编码处理。通过将静音描述帧的数据实体替换为空数据，可以进一步提高音频通话中的降噪效果。

图5示意性地示出了本申请一个实施例中的音频解码方法的步骤流程图，该音频解码方法可以由图2所示的音视频解码装置210执行。如图5所示，该音频解码方法主要可以包括如下的步骤S510至步骤S520。

步骤S510：接收非连续传输的编码数据流，编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧。

基于以上实施例中的音频编码方法可知，当编码端编码传输语音帧或者静音描述帧时，可以由编码端向解码端连续传输数据，形成编码数据流中连续分布的编码数据帧序列；当编码端停止编码静音帧时，即形成位于两个相邻的编码数据帧序列之间的序列间隔。

步骤S520：对语音帧和静音描述帧进行解码处理，得到对应于编码数据帧序列的解码数据帧序列。

编码数据帧序列中包括连续分布的语音帧和静音描述帧，解码端可以对编码数据帧序列进行逐帧解码得到与之对应的解码数据帧序列。

在本申请的一个实施例中，接收到由编码端非连续传输的编码数据流后，可以对编码数据帧序列中的各个编码数据帧进行类别检测，以确定编码数据帧为包含语音信号的语音帧或者不包含语音信号的静音描述帧。当检测到语音帧时，统计编码数据流的传输网络状态，例如可以正常统计网络传输的丢包率等数据。当检测到静音描述帧时，停止统计编码数据流的传输网络状态，由于传输中断是由编码端主动控制引起的，此时冻结对网络状态的统计，避免因序列间隔的存在而影响网络状态的统计准确性。

在本申请的一个实施例中，针对编码数据帧序列中的各个编码数据帧，可以对其进行帧头检测，以确定编码数据帧的帧头中的标记类型，如果帧头中的标记为第一标记，则可以确定该数据帧为包含语音信号的语音帧，如果帧头中的标记为第二标记，则可以确定该数据帧为不包含语音信号的静音描述帧SID。

在本申请的一个实施例中，可以在两个相邻的解码数据帧序列之间填充对应于序列间隔的空白数据，使得解码端可以基于空白数据进行音频渲染，提高音频的播放效果。

图6示意性地示出了本申请在一个应用场景中基于非连续传输的完整的音频编解码过程。如图6所示，该音频编解码过程包括如下的步骤S601至步骤S609。

步骤S601：编码端采集待传输的音频数据，并对语音数据量化后首先进行采样率判定；如果判断音频数据为16kHz带宽的超清数据，则执行步骤S602；如果判断音频数据为8kHz带宽的高清数据，则执行步骤S603。

步骤S602：对16kHz带宽的超清数据进行QMF镜像滤波达到频带分离的效果，分为高低频带各占8kHz带宽的高频带信号和低频带信号。

步骤S603：对高清数据或者分带后的低频数据先后进行回声消除(AEC)、噪声消除(ANS)、增益控制(AGC)、啸叫抑制(HS)等预处理。

步骤S604：对经过预处理后的原始数据进行VAD检测，以判断当前数据帧是否为语音帧。另外可以进一步将高频带信号和低频带信号重新合成为16kHz带宽的超清信号。

步骤S605：对经过VAD检测和频带合成后的数据进行DTX判决(非连续传输，Discontinuous Transmission)，若当前帧判定为语音帧或者SID帧则进行连续编码传输，否则不进行编码并且停止此次传输。

步骤S606：接收端设备接收到语音数据包后对当前数据包进行判断，因静音帧停止发送，此时接收端数据包只含有语音帧和SID帧。

步骤S607：对语音帧和SID帧进行解码处理。

步骤S608：当检测到SID帧时，冻结此时网络状态和部分统计信息，不再统计按时间丢包等数值，待下一次接收到语音帧时，再更新网络状态，恢复统计。

步骤S609：通知PLC等算法向渲染流程提供空数据包以供音频渲染使用。

基于以上应用场景可知，本申请实施例提供的音频编解码方法不仅对于VAD算法具有容错保护能力，且更大程度减少了传输码率和传输带宽，减小CPU的占用。本申请实施例不依赖编解码的VAD检测能力，不需要CNG算法，可以自由选择更加精准的VAD算法，配置自己的DTX判决决策。同时，将VAD检测装置和DTX决策装置与编码器分离，转移到编码器之前的语音预处理模块中，若此时为静默状态，不会触发编解码能力，进一步节省了计算资源。在双人或多人VOIP通话、多人音视频会议等场景经常会出现一人讲话多人静默的场景，若此时所有人都采用连续传输模式，会极大的消耗计算资源和传输资源。本申请实施例可以更好的适应类似场景，也可应用于各类通信、云会议、直播等产品。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的音频编解码方法。

图7示意性地示出了本申请实施例提供的音频编码装置的结构框图。如图7所示，音频编码装置700包括：检测模块710，被配置为对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；标记模块720，被配置为将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；编码模块730，被配置为对所述语音帧和所述静音描述帧进行编码处理并跳过对所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。

在本申请的一些实施例中，基于以上各实施例，标记模块720包括：获取模块，被配置为获取用于记录非语音帧的连续分布数量的计数器；触发模块，被配置为当检测到非语音帧时，触发所述计数器增加计数值；第一标记模块，被配置为若所述计数值小于预设数量，则将当前检测到的非语音帧标记为静音描述帧；第二标记模块，被配置为若所述计数值大于所述预设数量，则将当前检测到的非语音帧标记为静音帧；重置模块，被配置为当检测到语音帧时，重置所述计数器，以将所述计数值归零。

在本申请的一些实施例中，基于以上各实施例，检测模块710包括：分类模块，被配置为根据采样率带宽对音频数据进行分类，以确定所述音频数据为高带宽数据或者低带宽数据，所述低带宽数据的采样率带宽低于所述高带宽数据；提取模块，被配置为若所述音频数据为高带宽数据，则提取所述高带宽数据中的低频带信号，并对所述低频带信号中的各个数据帧进行语音活动检测；低频检测模块，被配置为若所述音频数据为低带宽数据，则对所述低带宽数据中的各个数据帧进行语音活动检测。

在本申请的一些实施例中，基于以上各实施例，提取模块被配置为对所述高带宽数据进行频带分离，得到频率低于频率阈值的低频带信号和频率高于频率阈值的高频带信号；所述音频编码装置还包括：合成模块，被配置为对所述低频带信号和所述高频带信号进行频带合成，得到恢复采样率带宽的高带宽数据。

在本申请的一些实施例中，基于以上各实施例，所述音频编码装置700还包括：预处理模块，被配置为对所述低频带信号或者所述低带宽数据进行数据预处理，所述数据预处理的方法包括回声消除、噪声消除、增益控制或者啸叫抑制中的至少一种。

在本申请的一些实施例中，基于以上各实施例，所述音频编码装置700还包括：第一标记添加模块，被配置为在所述语音帧的帧头中添加用于识别所述语音帧的第一标记；第二标记添加模块，被配置为在所述静音描述帧的帧头中添加用于识别所述静音描述帧的第二标记。

在本申请的一些实施例中，基于以上各实施例，编码模块包括：数量获取模块，被配置为获取参与音频通话的主体数量；噪声添加模块，被配置为若所述主体数量小于数量阈值，则向所述静音描述帧的数据实体中添加舒适噪声，并对携带所述舒适噪声的静音描述帧进行编码处理。

在本申请的一些实施例中，基于以上各实施例，编码模块包括：空数据替换模块，被配置为将所述静音描述帧的数据实体替换为空数据；空数据编码模块，被配置为对携带所述空数据的静音描述帧进行编码处理。

图8示意性地示出了本申请实施例提供的音频解码装置的结构框图。如图8所示，音频解码装置800包括：接收模块810，被配置为接收非连续传输的编码数据流，所述编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，所述编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧；解码模块820，被配置为对所述语音帧和所述静音描述帧进行解码处理，得到对应于所述编码数据帧序列的解码数据帧序列。

在本申请的一些实施例中，基于以上各实施例，音频解码装置800还包括：类别检测模块，被配置为对所述编码数据帧序列中的各个编码数据帧进行类别检测，以确定所述编码数据帧为语音帧或者静音描述帧；状态统计模块，被配置为当检测到所述语音帧时，统计所述编码数据流的传输网络状态；统计停止模块，被配置为当检测到所述静音描述帧时，停止统计所述编码数据流的传输网络状态。

在本申请的一些实施例中，基于以上各实施例，音频解码装置800还包括：数据填充模块，被配置为在两个相邻的解码数据帧序列之间填充对应于所述序列间隔的空白数据。

本申请各实施例中提供的音频编解码装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图9示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理器901(Central Processing Unit，CPU)，其可以根据存储在只读存储器902(Read-Only Memory，ROM)中的程序或者从存储部分908加载到随机访问存储器903(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器903中，还存储有系统操作所需的各种程序和数据。中央处理器901、在只读存储器902以及随机访问存储器903通过总线904彼此相连。输入/输出接口905(Input/Output接口，即I/O接口)也连接至总线904。

以下部件连接至输入/输出接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至输入/输出接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理器901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频编码方法，其特征在于，包括：

对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；

将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；

对所述语音帧和所述静音描述帧进行编码处理并跳过对所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。

2.根据权利要求1所述的音频编码方法，其特征在于，将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数据大于所述预设数量的非语音帧标记为静音帧，包括：

获取用于记录非语音帧的连续分布数量的计数器；

当检测到非语音帧时，触发所述计数器增加计数值；

若所述计数值小于预设数量，则将当前检测到的非语音帧标记为静音描述帧；

若所述计数值大于所述预设数量，则将当前检测到的非语音帧标记为静音帧；

当检测到语音帧时，重置所述计数器，以将所述计数值归零。

3.根据权利要求1所述的音频编码方法，其特征在于，对音频数据中的各个数据帧进行语音活动检测，包括：

根据采样率带宽对音频数据进行分类，以确定所述音频数据为高带宽数据或者低带宽数据，所述低带宽数据的采样率带宽低于所述高带宽数据；

若所述音频数据为高带宽数据，则提取所述高带宽数据中的低频带信号，并对所述低频带信号中的各个数据帧进行语音活动检测；

若所述音频数据为低带宽数据，则对所述低带宽数据中的各个数据帧进行语音活动检测。

4.根据权利要求3所述的音频编码方法，其特征在于，提取所述高带宽数据中的低频带信号，包括：

对所述高带宽数据进行频带分离，得到频率低于频率阈值的低频带信号和频率高于频率阈值的高频带信号；

在对所述低频带信号中的各个数据帧进行语音活动检测之后，所述方法还包括：

对所述低频带信号和所述高频带信号进行频带合成，得到恢复采样率带宽的高带宽数据。

5.根据权利要求3所述的音频编码方法，其特征在于，在对所述低频带信号或者所述低带宽数据中的各个数据帧进行语音活动检测之前，所述方法还包括：

对所述低频带信号或者所述低带宽数据进行数据预处理，所述数据预处理的方法包括回声消除、噪声消除、增益控制或者啸叫抑制中的至少一种。

6.根据权利要求1所述的音频编码方法，其特征在于，在对所述语音帧和所述静音描述帧进行编码处理之前，所述方法还包括：

在所述语音帧的帧头中添加用于识别所述语音帧的第一标记；

在所述静音描述帧的帧头中添加用于识别所述静音描述帧的第二标记。

7.根据权利要求1所述的音频编码方法，其特征在于，对所述静音描述帧进行编码处理，包括：

获取参与音频通话的主体数量；

若所述主体数量小于数量阈值，则向所述静音描述帧的数据实体中添加舒适噪声，并对携带所述舒适噪声的静音描述帧进行编码处理。

8.根据权利要求1所述的音频编码方法，其特征在于，对所述静音描述帧进行编码处理，包括：

将所述静音描述帧的数据实体替换为空数据；

对携带所述空数据的静音描述帧进行编码处理。

9.一种音频解码方法，其特征在于，包括：

接收非连续传输的编码数据流，所述编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，所述编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧；

对所述语音帧和所述静音描述帧进行解码处理，得到对应于所述编码数据帧序列的解码数据帧序列。

10.根据权利要求9所述的音频解码方法，其特征在于，在接收非连续传输的编码数据流之后，所述方法还包括：

对所述编码数据帧序列中的各个编码数据帧进行类别检测，以确定所述编码数据帧为语音帧或者静音描述帧；

当检测到所述语音帧时，统计所述编码数据流的传输网络状态；

当检测到所述静音描述帧时，停止统计所述编码数据流的传输网络状态。

11.根据权利要求9所述的音频解码方法，其特征在于，在对所述语音帧和所述静音描述帧进行解码处理之后，所述方法还包括：

在两个相邻的解码数据帧序列之间填充对应于所述序列间隔的空白数据。

12.一种音频编码装置，其特征在于，包括：

检测模块，被配置为对音频数据中的各个数据帧进行语音活动检测，以确定所述数据帧为包含语音信号的语音帧或者不包含语音信号的非语音帧；

标记模块，被配置为将连续分布数量小于预设数量的非语音帧标记为静音描述帧，将连续分布数量大于所述预设数量的非语音帧标记为静音帧；

编码模块，被配置为对所述语音帧和所述静音描述帧进行编码处理并跳过所述静音帧的编码过程，得到非连续传输的编码数据流，所述编码数据流包括对应于所述语音帧和所述静音描述帧的编码数据帧序列以及对应于所述静音帧的序列间隔。

13.一种音频解码装置，其特征在于，包括：

接收模块，被配置为接收非连续传输的编码数据流，所述编码数据流包括连续分布的编码数据帧序列和位于两个相邻的编码数据帧序列之间的序列间隔，所述编码数据帧序列包括包含语音信号的语音帧和不包含语音信号的静音描述帧；

解码模块，被配置为对所述语音帧和所述静音描述帧进行解码处理，得到对应于所述编码数据帧序列的解码数据帧序列。

14.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的方法。