CN115883527A

CN115883527A - 音频控制方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115883527A
Application number: CN202111145232.2A
Authority: CN
Inventors: 肖源; 罗厅
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2023-03-31
Also published as: WO2023050994A1

Abstract

本发明提供了一种音频控制方法、装置、设备及计算机可读存储介质，方法包括获取网络处理过程中的网络特征数据和音频处理过程中的音频特征数据；将所述网络特征数据和所述音频特征数据输入至分类器模型，得到若干音频控制指令；根据所述音频控制指令，控制对应的音频处理过程中对应的音频处理操作；本发明能够有效保证音频效果，可操作性较好。

Description

音频控制方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及但不限于网络通信技术领域，尤其涉及一种音频控制方法、装置、设备及计算机可读存储介质。

背景技术

在网络通信系统中通常包括音频通信。相关技术中，一般采用多种方法来优化网络，例如通过优化网络拓扑结构、发送端冗余发包等方法来进行优化，以保障播放端的音频质量。然而，对于网络拓扑结构的优化，由于缺乏可控性以及客观因素影响大，使得可操作性差；对于发送端冗余发包的方法需要发送端支持，但在拥塞情况下会使得网络情况变得更加糟糕，从而影响音频效果。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种音频控制方法、装置、设备及计算机可读存储介质，能够有效保证音频效果，可操作性较好。

第一方面，本发明实施例提供了一种音频控制方法，包括：

获取网络处理过程中的网络特征数据和音频处理过程中的音频特征数据；

将所述网络特征数据和所述音频特征数据输入至分类器模型，得到若干音频控制指令；

根据所述音频控制指令，控制对应的音频处理过程中对应的音频处理操作。

第二方面，本发明实施例还提供了一种音频控制装置，用于执行如上述第一方面所述的音频控制方法。

第三方面，本发明实施例还提供了一种音频控制设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的音频控制方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的音频控制方法。

本发明实施例包括：通过获取网络处理过程中的网络特征数据以及音频处理过程中的音频特征数据；之后将网络特征数据和音频特征数据输入分类器模型中，分类得到若干音频控制指令；再根据音频控制指令，控制对应的音频处理过程中对应的音频处理操作。通过如此设置，使得本发明实施例能够分别对网络处理过程和音频处理过程中所对应的特征数据分别进行特征提取，以便于分类器模型对该特征数据进行数据处理，从而得到分类结果即若干音频控制指令，之后根据分类得到的若干音频控制指令，自适应地下发该音频控制指令，以控制对应的音频处理过程中对应的音频处理操作，从而能够有效保证音频效果，可操作性较好。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的音频控制方法的流程示意图；

图2是本发明一个实施例提供的得到音频控制指令的流程示意图；

图3是本发明一个实施例提供的音频拉伸控制指令或音频压缩控制指令的流程示意图；

图4是本发明一个实施例提供的停止音频解码控制指令或音频解码均速控制指令的流程示意图；

图5是本发明一个实施例提供的音频拉伸数据的流程示意图；

图6是本发明一个实施例提供的音频压缩数据的流程示意图；

图7是本发明另一个实施例提供的停止音频解码控制指令或音频解码均速控制指令的流程示意图；

图8是本发明一个实施例提供的音频控制系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

相关技术中，一般采用多种方法来优化网络如优化网络抖动和网络丢包情况，具体可通过优化网络拓扑结构、发送端冗余发包等方法来进行优化，以保障播放端的音频质量。然而，对于网络拓扑结构的优化，由于缺乏可控性以及客观因素影响大，使得可操作性差；而对于发送端冗余发包的方法需要发送端在拥塞情况下能够支持，但在拥塞情况下也会使得网络情况变得更加糟糕，从而影响音频效果。

基于此，本发明实施例提供了一种音频控制方法、装置、设备及计算机可读存储介质，能够有效保证音频效果，可操作性较好。

可以理解的是，本发明实施例具体涉及音频的实时接收以及播放，包括但不限于视频会议、视频播放、实时语音交谈或连麦等应用场景。

下面结合附图，对本发明实施例作进一步阐述。

本发明第一方面实施例具体提供一种音频控制方法，如图1所示，图1是本发明一个实施例提供的音频控制方法的流程示意图。

本发明实施例的音频控制方法包括但不限于以下步骤：

步骤S100，获取网络处理过程中的网络特征数据和音频处理过程中的音频特征数据；

步骤S200，将网络特征数据和音频特征数据输入至分类器模型，得到若干音频控制指令；

步骤S300，根据音频控制指令，控制对应的音频处理过程中对应的音频处理操作。

可以理解的是，本发明实施例能够分别对网络处理过程和音频处理过程中所对应的特征数据分别进行特征提取，以便于分类器模型对该特征数据进行数据处理，从而得到分类结果即若干音频控制指令，之后根据分类得到的若干音频控制指令，自适应地下发该音频控制指令，以控制对应的音频处理过程中对应的音频处理操作，从而能够有效保证音频效果，可操作性较好。

可以理解的是，本发明实施例的分类器模型可以采用支持向量机(SupportVector Mach ine,SVM)。支持向量机能够按监督学习方式对特征数据(如网络特征数据和音频特征数据)进行二元分类，其是一种广义线性分类器。

本发明实施例采用支持向量机作为分类器模型对网络特征数据和音频特征数据进行有监督学习的分类。本实施例的支持向量机通常存在三种核函数：线性核、多项式核和高斯核。由于线性核具有参数少和迭代快等优点，对于有监督学习的分类具有较好效果，因此，本实施例采用线性核的支持向量机作为分类器模型，其训练时间较短、精度较高。

可以理解的是，还可以采用不同的分类器替代本发明实施例的支持向量机，包括但不限于：深度置信网络、线性分类器、随机森林等分类器。

可以理解的是，本发明实施例在将网络特征数据和音频特征数据输入至分类器模型之前，需要构建该分类器模型。

具体地，可采用离线训练和在线训练的方式来构建分类器模型。

例如，对于离线训练方式：收集来自不同平台的网络特征训练数据、音频特征训练数据等特征训练数据以构建训练样本，并将该训练样本进行数据存储。之后通过输入该训练样本至高性能机器中以训练出分类器模型。在离线训练中，可以对训练样本对应的特征训练向量不进行无监督聚类。

对于在线训练方式：在离线训练分类器模型的基础上，根据不同平台的网络处理情况、音频处理情况，对该分类器模型进行迭代微调，从而使得该分类器模型更加鲁棒。在在线训练中，需要专门设置一个子线程进行迭代微调，同时两次在线训练之间的时间间隔不能过短。

可以理解的是，相关技术中，在音频通信中，为了保障播放端的音频质量，可以采用播放端设计静态缓冲队列的方法来优化网络，例如优化网络抖动和丢包的情况。通过播放端设计静态缓冲队列的方法，虽然可以抵抗住大抖动，但是在缓冲队列长度设置不合理的情况下，会使得延时加大，导致实时性变差，从而影响音频效果。

基于此，本发明实施例的网络特征数据包括网络缓存队列数据、网络抖动数据和网络丢包率数据，网络处理过程包括网络缓存队列过程和网络预测过程；

其中，网络缓存队列数据由网络实时传输协议包数据经网络缓存队列过程中的网络缓存操作得到；网络抖动数据和网络丢包率数据均由网络实时传输协议包数据经网络缓存队列过程中的网络缓存操作之后，再经网络预测过程中的网络预测操作得到。

本发明实施例通过将音频编码数据进行打包，以形成网络实时传输协议包数据。网络实时传输协议包数据即可作为本实施例的音频控制方法的初始输入数据。网络实时传输协议包数据被传输至网络缓存队列过程中，通过网络缓存队列过程对网络实时传输协议包数据进行对应的网络缓存操作，以对初始输入数据即网络实时传输协议包数据实现网络缓存效果。例如，在网络缓存队列过程中可对接收到的每个网络实时传输协议包数据进行排序，该排序的方式可以以网络实时传输协议包数据依次进入网络缓存队列过程中对应的时间进行排序，从而得到每个网络实时传输协议包数据对应的序号数据，从而便于进一步计算得到网络抖动数据和网络丢包率数据。

具体地，网络缓存队列数据可以为网络缓存队列长度数据，例如可以以字节形式表示网络缓存队列长度数据的大小。网络缓存队列数据即为网络实时传输协议包数据在网络缓存队列过程中对应的缓存个数。

网络实时传输协议包数据进入网络缓存队列过程中，经对应的网络缓存操作，得到网络缓存队列数据。经网络缓存队列过程中对应的网络缓存操作之后取出网络实时传输协议包数据，此时，网络实时传输协议包数据再进入网络预测过程，经对应的网络预测操作，得到网络抖动数据和网络丢包率数据。通过设置动态缓冲队列，能够有效降低延时，提高实时性。

可以理解的是，本发明实施例的音频特征数据包括音频解码速率数据、音频缓存队列数据和音频消耗速率数据，音频处理过程包括音频解码过程、音频缓存过程和音频消耗过程；

其中，音频解码速率数据由网络实时传输协议包数据经网络缓存队列过程中的网络缓存操作之后，再经音频解码过程中的音频解码操作得到；音频缓存队列数据由网络实时传输协议包数据经音频解码过程中的音频解码操作得到音频解码数据之后，再由音频解码数据经音频缓存过程中的音频缓存操作得到；音频消耗速率数据由音频解码数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作得到。

本发明实施例的网络实时传输协议包数据经网络缓存队列过程中的网络缓存操作之后，再传输至音频解码过程中经对应的音频解码操作，得到音频解码速率数据和音频解码数据；之后，音频解码数据经音频缓存过程中对应的音频缓存操作，得到音频缓存队列数据；而音频解码数据经音频缓存过程中对应的音频缓存操作之后，再经音频消耗过程中的音频消耗操作得到音频消耗速率数据。

可以理解的是，本发明实施例的音频消耗可以为音频播放。

具体地，音频缓存队列数据可以为音频缓存队列长度数据，例如可以以字节形式表示音频缓存队列长度数据的大小。音频缓存队列数据即为音频解码数据在音频缓存过程中对应的缓存个数。

可以理解的是，定义网络缓存队列数据表示为L_net；音频缓存队列数据表示为L_audio；

一实施例中，音频编解码通常以20ms一个单位时间对应的音频数据作为基础处理单元。例如，对20ms一个单位时间对应的音频数据经音频编码过程中的音频编码操作得到音频编码数据，对该音频编码数据进行打包，以形成网络实时传输协议包数据，网络实时传输协议包数据作为初始输入数据进入网络处理过程中的网络缓存队列过程。本实施例的网络实时传输协议包数据经网络缓存队列过程中的网络缓存操作之后，再经音频解码过程中的音频解码操作得到音频解码数据。可以理解的是，该音频解码数据也可以为20ms一个单位时间对应的音频数据。

具体地，网络实时传输协议包数据经网络缓存队列过程中对应的网络缓存操作之后，再经网络预测过程中的网络预测操作。例如，网络预测过程中对应的网络预测操作，可以为：通过获取相邻两个网络实时传输协议包数据进入网络缓存队列过程中的时间差值、网络缓存队列过程中对应的网络实时传输协议包数据的缓存个数、网络缓存队列过程中每个网络实时传输协议包数据对应的序号数据等，来计算网络缓存队列数据、网络抖动数据和网络丢包率数据。之后，再将网络缓存队列数据、网络抖动数据和网络丢包率数据反馈到音频控制过程。可以理解的是，本实施例的音频控制过程，即执行步骤S200、S300。

定义相邻两个网络实时传输协议包数据进入网络缓存队列过程中的两包的时间差值为Net_jitter，即该时间差值Net_jitter具体表示为网络实时传输协议包数据对应的网络抖动数据；其中，Net_jitter＝T_current-T_last；T_current表示当前的网络实时传输协议包数据进入网络缓存队列过程对应的时间，T_last表示上一个网络实时传输协议包数据进入网络缓存队列过程对应的时间；

可以理解的是，在网络缓存队列过程中可对接收到的每个网络实时传输协议包数据进行排序，即根据每个网络实时传输协议包数据依次进入网络缓存队列过程中对应的时间进行排序，得到每个网络实时传输协议包数据对应的序号数据；

定义网络丢包率数据表示为Net_lost；具体地，通过网络缓存队列过程中对应的网络实时传输协议包数据的缓存个数除以网络缓存队列过程中网络实时传输协议包数据对应的最大序号数据和网络实时传输协议包数据对应的最小序号数据的差值，得到网络丢包率数据Net_lost，即Net_lost＝num(rtp)/(index(rtp)_max-index(rtp)_min)；其中，rtp表示网络实时传输协议包数据；num(rtp)表示网络缓存队列过程中对应的网络实时传输协议包数据的缓存个数；index(rtp)_max表示网络缓存队列过程中网络实时传输协议包数据对应的最大序号数据；index(rtp)_min表示网络缓存队列过程中网络实时传输协议包数据对应的最小序号数据。

可以理解的是，本实施例的音频特征数据包括音频解码速率数据、音频缓存队列数据和音频消耗速率数据。定义音频解码速率数据表示为V_decode，音频消耗速率数据表示为V_play。

具体地，V_decode＝T_audio1/T₂-T₁，其中，T_audio1表示音频解码过程中在预设的第一计算周期内音频解码数据所对应的解码时间，单位为ms；T₂表示上述第一计算周期对应的结束时间，T₁表示上述第一计算周期对应的起始时间；可以理解的是，audio1表示音频解码过程中在预设的第一计算周期内音频解码数据所对应的数据长度。

V_play＝T_audio2/T₄-T₃，其中，T_audio2表示音频消耗过程中在预设的第二计算周期内音频消耗数据所对应的消耗时间，单位为ms，T₄表示上述第二计算周期对应的结束时间，T₃表示上述第二计算周期对应的起始时间；可以理解的是，audio2表示音频消耗过程中在预设的第二计算周期内音频消耗数据所对应的音频消耗数据长度；其中，音频消耗数据可以为音频拉伸数据或音频压缩数据或音频解码数据。可以理解的是，第一计算周期和第二计算周期可以为相同也可以为不同，在此不作限定。例如，对于第二计算周期为100ms，一定音频消耗数据长度对应的音频消耗数据所对应的消耗时间为80ms，则对应的音频消耗速率数据为0.8。在其他实施例中，也可以表示为80％。

可以理解的是，网络缓存队列数据、网络抖动数据、网络丢包率数据、音频解码速率数据、音频缓存队列数据和音频消耗速率数据均为瞬时数据。通过在预设的计算周期内，获取上述网络特征数据和音频特征数据，并构建一个特征向量F。具体地，特征向量F[N]＝[L_net…L_audio…Net_jitter…Net_lost…V_decode…V_play]，以反馈到音频控制过程，即通过将网络特征数据和音频特征数据输入至分类器模型，得到若干音频控制指令，根据音频控制指令，控制对应的音频处理过程中对应的音频处理操作。

可以理解的是，训练好的分类器模型中带有w和b；通过输入特征向量F至分类器模型中，以输出得到类别标签C，即得到音频控制指令。具体地，C＝sigmoid(w*F+b)，其中，w表示特征矩阵，b表示偏移量，F表示特征向量，sigmoid表示激活函数，C表示类别标签。通过获取特征向量，从而预测得到将要下发的音频控制指令，以降低延时，进而保证音频效果。

参照图2，可以理解的是，步骤S200，包括但不限于：

步骤S210，将网络缓存队列数据、网络抖动数据、网络丢包率数据、音频解码速率数据、音频缓存队列数据和音频消耗速率数据均输入至分类器模型，得到音频解码控制指令和音频变调变速控制指令。

可以理解的是，网络特征数据包括网络抖动数据、网络丢包率数据；音频特征数据包括音频解码速率数据、音频缓存队列数据和音频消耗速率数据；

本发明实施例针对网络处理过程中的网络特征数据以及音频处理过程中的音频特征数据进行建模，即通过将网络特征数据和音频特征数据输入到训练好的分类器模型中，以分类得到若干音频控制指令，即音频解码控制指令和音频变调变速控制指令。在不影响音频效果例如音频消耗/播放效果的前提下，根据音频控制指令，控制对应的音频处理过程中对应的音频处理操作。本发明实施例能够适应不同的网络情况，保证音频效果，进而能够保证视频通信的有效性和实时性。

可以理解的是，本发明实施例通过对网络处理过程、音频处理过程的各个环节所对应的特征数据分别进行提取，即得到网络缓存队列数据、网络抖动数据、网络丢包率数据、音频解码速率数据、音频缓存队列数据和音频消耗速率数据。本发明实施例能够避免人为设定阈值和制定规则等，通过利用分类器模型对特征数据进行有监督的分类，以便于自适应下发音频控制指令，以降低延时。

可以理解的是，本发明实施例的根据音频控制指令，控制对应的音频处理过程中对应的音频处理操作，包括但不限于：

根据音频解码控制指令，控制对应的音频解码过程中对应的音频解码操作；和/或，

根据音频变调变速控制指令，控制对应的音频变调变速过程中对应的音频变调变速操作。

可以理解的是，音频变调变速过程具体包括音频拉伸过程和音频压缩过程。

可以理解的是，本发明实施例能够合理利用网络处理过程、音频处理过程的各个环节所对应的特征数据，在这过程中不需要设定阈值，通过分类器模型对该特征数据进行数据处理并通过自适应控制方式，控制对应的音频处理过程中对应的音频处理操作，可操作性较好。

参照图3，一些实施例中，音频变调变速控制指令可以由如下至少一个步骤得到：

步骤S201，当音频缓存队列数据对应的数据长度小于第一音频消耗速率对应的第一音频消耗数据长度，音频变调变速控制指令为音频拉伸控制指令；

步骤S202，当音频缓存队列数据对应的数据长度大于第一时间间隔阈值对应的第一音频数据长度且小于第二时间间隔阈值对应的第二音频数据长度，或音频缓存队列数据对应的数据长度大于第二音频消耗速率对应的第二音频消耗数据长度且小于第三音频消耗速率对应的第三音频消耗数据长度，音频变调变速控制指令为音频压缩控制指令，其中，第二音频消耗数据长度大于第一音频消耗数据长度。

本实施例通过根据分类条件，以使得将网络特征数据和音频特征数据输入至分类器模型中，能够得到对应的音频控制指令，具体地，根据分类条件，音频变调变速控制指令可以为音频拉伸控制指令或者音频压缩控制指令。

可以理解的是，上述步骤S201、步骤S202仅是对应的音频拉伸控制指令或者音频压缩控制指令的一个分类条件，在其他实施例中，还可以根据其他特征数据，得到音频拉伸控制指令或者音频压缩控制指令，在此不再赘述。

参照图4，一些实施例中，音频解码控制指令可以由如下至少一个步骤得到：

步骤S203，当音频缓存队列数据对应的数据长度大于第二时间间隔阈值对应的第二音频数据长度或大于第三音频消耗速率对应的第三音频消耗数据长度，音频解码控制指令为停止音频解码控制指令；

步骤S204，获取预设时间内音频拉伸控制指令对应的第一执行总次数和音频压缩控制指令对应的第二执行总次数，当预设时间内不存在停止音频解码控制指令，且第一执行总次数和第二执行总次数之间的差值的绝对值小于预设阈值，音频解码控制指令为音频解码均速控制指令。

本实施例通过根据分类条件，以使得将网络特征数据和音频特征数据输入至分类器模型中，能够得到对应的音频控制指令，具体地，根据分类条件，音频变调变速控制指令可以为停止音频解码控制指令或者音频解码均速控制指令。

可以理解的是，上述步骤S203、步骤S204仅是对应的停止音频解码控制指令或者音频解码均速控制指令的一个分类条件，在其他实施例中，还可以根据其他特征数据，得到停止音频解码控制指令或者音频解码均速控制指令，在此不再赘述。

可以理解的是，本实施例的音频控制指令包括音频拉伸控制指令、音频压缩控制指令、停止音频解码控制指令以及音频解码均速控制指令。

对于音频控制指令的下发，可预设一个下发时间间隔阈值T_control，即T_control表示每经过一个下发时间间隔阈值，则音频控制指令自适应下发一次。可以理解的是，该T_control可对应于一个网络实时传输协议包数据对应的数据长度，即一个预设的数据长度的网络实时传输协议包数据所对应的传输时间，可表示为T_control。

对于本实施例的分类器模型而言，除了特征训练向量外，对于每个网络特征训练数据、音频特征训练数据等特征训练数据都需要有与之对应的类别标签，才能训练出一个较好的分类器模型。分类器模型构建好后，将特征向量F输入至分类器模型中，便可输出得到类别标签，该类别标签即对应上述四个类别的音频控制指令(即音频拉伸控制指令、音频压缩控制指令、停止音频解码控制指令以及音频解码均速控制指令)中的之一，从而达到控制的效果，可操作性较好。

具体地，当音频缓存队列数据对应的数据长度大于第二时间间隔阈值6*T_control对应的第二音频数据长度或大于第三音频消耗速率6*V_play’对应的第三音频消耗数据长度，则该类别标签对应的音频解码控制指令为停止音频解码控制指令；

当音频缓存队列数据对应的数据长度小于第一音频消耗速率V_play’对应的第一音频消耗数据长度，则该类别标签对应的音频变调变速控制指令为音频拉伸控制指令；

当音频缓存队列数据对应的数据长度大于第一时间间隔阈值4*T_control对应的第一音频数据长度且小于第二时间间隔阈值6*T_control对应的第二音频数据长度，或音频缓存队列数据对应的数据长度大于第二音频消耗速率4*V_play’对应的第二音频消耗数据长度且小于第三音频消耗速率6*V_play’对应的第三音频消耗数据长度，该类别标签对应的音频变调变速控制指令为音频压缩控制指令，其中，第二音频消耗数据长度大于第一音频消耗数据长度；

获取预设时间内音频拉伸控制指令对应的第一执行总次数n_draw和音频压缩控制指令对应的第二执行总次数n_compress，当预设时间内例如当前n_control个音频控制指令中不存在停止音频解码控制指令，且第一执行总次数和第二执行总次数之间的差值的绝对值小于预设阈值Δn，即abs(n_draw-n_compress)<Δn，则该标签对应的音频解码控制指令为音频解码均速控制指令；此时，表示预设时间内音频拉伸控制指令和音频压缩控制指令间的执行总次数较一致。

可以理解的是，由于T_control可对应于一个网络实时传输协议包数据对应的数据长度，因此，第一时间间隔阈值4*T_control可对应于4个网络实时传输协议包数据对应的数据长度，即第一音频数据长度；第二时间间隔阈值6*T_control可对应于6个网络实时传输协议包数据对应的数据长度，即第二音频数据长度；

可以理解的是，第一音频消耗速率V_play’表示音频消耗过程中在预设单位时间内第一音频消耗数据所对应的音频消耗速率，其中，第一音频消耗数据对应第一音频消耗数据长度；因此，第二音频消耗速率4*V_play’表示音频消耗过程中在预设单位时间内4倍第一音频消耗数据所对应的音频消耗速率，其中，4倍第一音频消耗数据对应4倍第一音频消耗数据长度，即第二音频消耗数据长度；第三音频消耗速率6*V_play’表示音频消耗过程中在预设单位时间内6倍第一音频消耗数据所对应的音频消耗速率，其中，6倍第一音频消耗数据对应6倍第一音频消耗数据长度，即第三音频消耗数据长度。

可以理解的是，音频解码均速控制指令下发时，不存在音频拉伸控制指令、音频压缩控制指令和停止音频解码控制指令。

可以理解的是，上述的类别标签即音频控制指令是根据规则/分类条件而分类得到的。在一些实施例中，具有较大的重复性。为了减少特征数据的数目，降低分类器模型的数据处理难度，对于同一个类别中的输入样本数目进行无监督聚类，例如使用k均值聚类算法(k-means cluster ing algor ithm，k-means)，从而便于实现对特征数据的提取。通过无监督聚类，使得四个类别标签中的每个类别标签对应的输入样本数目变得均衡，同时使输入样本更具代表性。

可以理解的是，当音频消耗速率数据大于音频解码速率数据，下发音频拉伸控制指令。

一实施例中，在网络预测过程中，当网络抖动及丢包的情况较明显时，例如网络抖动数据和网络丢包率数据均大于设定值时，同时音频缓存过程中的音频解码数据即将不足音频消耗过程中的消耗，即不足执行音频消耗操作，下发音频拉伸控制指令；

一实施例中，当音频消耗过程中反馈的音频消耗速率数据小于音频解码速率数据，下发音频压缩控制指令；

一实施例中，当网络情况较好，音频解码速率数据较快，下发停止音频解码控制指令或者音频压缩控制指令。

参照图5，可以理解的是，音频处理过程包括音频拉伸过程；步骤S300，包括但不限于：

步骤S310，当音频变调变速控制指令为音频拉伸控制指令，根据音频拉伸控制指令，控制音频解码数据经音频拉伸过程中的音频拉伸操作，得到音频拉伸数据；

步骤S320，控制音频拉伸数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作。

可以理解的是，通过音频拉伸控制指令控制音频解码数据经音频拉伸过程中的音频拉伸操作，得到音频拉伸数据，进而使得音频拉伸数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作。

参照图6，可以理解的是，音频处理过程包括音频压缩过程；步骤S300，包括但不限于：

步骤S330，当音频变调变速控制指令为音频压缩控制指令，根据音频压缩控制指令，控制音频解码数据经音频压缩过程中的音频压缩操作，得到音频压缩数据；

步骤S340，控制音频压缩数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作。

可以理解的是，通过音频压缩控制指令控制音频解码数据经音频压缩过程中的音频压缩操作，得到音频压缩数据，进而使得音频压缩数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作。

可以理解的是，一些实施例中，本发明实施例的音频解码数据包括静音数据、浊音数据和未处理解码数据。音频变调变速过程包括音频拉伸过程、音频压缩过程。

具体地，通过音频拉伸控制指令控制静音数据和浊音数据经音频拉伸过程中的音频拉伸操作，得到音频拉伸数据(即静音拉伸数据和浊音拉伸数据)，之后，音频拉伸数据和未处理解码数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作；

或者，通过音频压缩控制指令控制静音数据和浊音数据经音频压缩过程中的音频压缩操作，得到音频压缩数据(即静音压缩数据和浊音压缩数据)，之后，音频压缩数据和未处理解码数据经音频缓存过程中的音频缓存操作之后，再经音频消耗过程中的音频消耗操作。

可以理解的是，本发明实施例通过根据网络处理情况和音频处理情况，可控地下发音频变调变速控制指令(例如音频拉伸控制指令或音频压缩控制指令)，使得音频解码数据经音频变调变速过程中对应的音频变调变速操作之后，得到音频变调变速数据(即音频拉伸数据或音频压缩数据)，从而有效保证音频效果，且能够降低延时。

参照图7，可以理解的是，音频解码过程包括停止音频解码过程和音频解码均速过程；步骤S300，包括如下至少之一：

步骤S350，当音频解码控制指令为停止音频解码控制指令，根据停止音频解码控制指令，控制网络实时传输协议包数据经停止音频解码过程中的停止音频解码操作；

步骤S360，当音频解码控制指令为音频解码均速控制指令，根据音频解码均速控制指令，控制网络实时传输协议包数据经音频解码均速过程中的音频解码均速操作。

本发明实施例通过根据停止音频解码控制指令以控制网络实时传输协议包数据经停止音频解码过程中的停止音频解码操作，进而保证音频缓存过程中的音频缓存操作能够正常执行，以避免造成音频缓存过程中的堆积，以降低延时；

本发明实施例根据音频解码均速控制指令以控制网络实时传输协议包数据经音频解码均速过程中的音频解码均速操作，进而保证音频解码均速过程中的音频解码均速操作均速进行，以保证较好的音频效果。

可以理解的是，本发明实施例能够针对缓冲队列长度设置不合理、音频拉伸或压缩不及时、音频延时较大等问题，通过设置本发明实施例的音频控制方法，能够通过音频控制过程中的分类器模型对网络特征数据和音频特征数据进行分类，以得到音频控制指令，从而有效降低延时，达到了兼顾延时和音频的效果。

本发明实施例还提供了一种音频控制装置，用于执行如上述第一方面所述的音频控制方法。

参照图8，一些实施例中，本发明实施例还提供了一种音频控制系统，包括：

音频控制装置，用于执行如上述第一方面所述的音频控制方法；

还包括网络缓存队列装置、网络预测装置、音频解码装置、音频缓存队列装置、音频变调变速装置和音频消耗装置；

其中，网络缓存队列装置、音频解码装置、音频缓存队列装置以及音频消耗装置依次连接，且网络缓存队列装置、音频解码装置、音频缓存队列装置以及音频消耗装置分别与音频控制装置连接，网络预测装置分别与网络缓存队列装置、音频控制装置连接，音频变调变速装置分别与音频缓存队列装置、音频控制装置连接。

可以理解的是，网络缓存队列装置：用于存储以及传输网络实时传输协议包数据，以适应网络抖动；具体地，网络缓存队列装置对应网络缓存队列过程，可用于执行网络缓存操作；网络实时传输协议包数据经网络缓存队列装置执行网络缓存操作后得到网络缓存队列数据；

网络预测装置：用于对网络实时传输协议包数据进行建模，通过网络预测操作，例如通过统计前一个周期的网络情况，得到网络抖动数据和网络丢包率数据等网络预测数据；具体地，网络预测装置对应网络预测过程，可用于执行网络预测操作；网络实时传输协议包数据经网络缓存队列装置执行网络缓存操作后，再经网络预测装置执行网络预测操作，得到网络抖动数据和网络丢包率数据；

音频解码装置：用于对网络实时传输协议包数据进行音频解码操作，得到音频解码速率数据和音频解码数据；具体地，音频解码装置对应音频解码过程，可用于执行音频解码操作；网络实时传输协议包数据经网络缓存队列装置执行网络缓存操作之后，再经音频解码装置执行音频解码操作，得到音频解码速率数据和音频解码数据；

音频缓存队列装置：用于存储以及传输音频解码装置执行音频解码操作后的音频解码数据，以进行音频缓存队列的自适应扩张；具体地，音频缓存队列装置对应音频缓存过程，可用于执行音频缓存操作；网络实时传输协议包数据经音频解码装置执行音频解码操作得到音频解码数据之后，再由音频解码数据经音频缓存队列装置执行音频缓存操作；

音频变调变速装置：用于对音频解码数据例如静音数据和浊音数据进行不同的音频变调变速操作，例如进行音频拉伸操作或音频压缩操作，从而有效保证音频效果。具体地，音频变调变速装置对应音频变调变速过程，可用于执行音频变调变速操作。具体地，音频变调变速操作包括音频拉伸操作和音频压缩操作，对应的，音频变调变速装置还包括音频拉伸模块和音频压缩模块。

例如，音频控制装置用于根据音频拉伸控制指令，控制音频解码数据经音频拉伸模块执行音频拉伸操作，得到音频拉伸数据；音频控制装置还用于控制音频拉伸数据经音频缓存队列装置执行音频缓存操作之后，再经音频消耗装置执行音频消耗操作；或者，音频控制装置用于根据音频压缩控制指令，控制音频解码数据经音频压缩模块执行音频压缩操作，得到音频压缩数据；音频控制装置还用于控制音频压缩数据经音频缓存队列装置执行音频缓存操作之后，再经音频消耗装置执行音频消耗操作；

音频消耗装置：用于针对不同的平台以及播放的拥塞情况，获取音频消耗/播放的规律，例如音频消耗速率数据，并反馈给音频控制装置；具体地，音频消耗装置对应音频消耗过程，可用于执行音频消耗操作；一些实施例中，音频消耗装置也可以为音频播放装置；音频解码数据经音频缓存队列装置执行音频缓存操作之后，再经音频消耗装置执行音频消耗操作得到音频消耗速率数据；

音频控制装置：用于下发音频控制指令，例如下发停止音频解码控制指令或音频解码均速控制指令，以控制音频解码装置是否进行解码；下发音频拉伸控制指令或者音频压缩控制指令，以控制音频变调变速装置进行音频拉伸操作或音频压缩操作。

音频控制装置还包括分类器模块，本发明实施例针对四种音频控制指令，可以通过分类器模块对特征数据进行监督学习，从而进行分类，以输出得到特征数据对应的类别标签，即对应的音频控制指令，达到自适应的目的。本发明实施例根据网络处理情况、音频处理情况进行自适应调节，参数量少且人工参与度低，可以在分类器模块例如训练好的分类器模型上进行微调，迭代速度快。

另外，本发明第三方面实施例还提供了一种音频控制设备，该音频控制设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述第一方面实施例的音频控制方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的音频控制方法，例如，执行以上描述的图1中的方法步骤S100至S300、图2中的方法步骤S210、图3中的方法步骤S201至S202、图4中的方法步骤S203至S204、图5中的方法步骤S310至S320、图6中的方法步骤S330至S340、图7中的方法步骤S350至S360。

以上所描述的设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的音频控制方法，例如，执行以上描述的图1中的方法步骤S100至S300、图2中的方法步骤S210、图3中的方法步骤S201至S202、图4中的方法步骤S203至S204、图5中的方法步骤S310至S320、图6中的方法步骤S330至S340、图7中的方法步骤S350至S360。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种音频控制方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述网络特征数据包括网络缓存队列数据、网络抖动数据和网络丢包率数据，所述网络处理过程包括网络缓存队列过程和网络预测过程；

其中，所述网络缓存队列数据由网络实时传输协议包数据经所述网络缓存队列过程中的网络缓存操作得到；所述网络抖动数据和所述网络丢包率数据均由所述网络实时传输协议包数据经所述网络缓存队列过程中的网络缓存操作之后，再经所述网络预测过程中的网络预测操作得到。

3.根据权利要求2所述的方法，其特征在于，所述音频特征数据包括音频解码速率数据、音频缓存队列数据和音频消耗速率数据，所述音频处理过程包括音频解码过程、音频缓存过程和音频消耗过程；

其中，所述音频解码速率数据由所述网络实时传输协议包数据经所述网络缓存队列过程中的网络缓存操作之后，再经所述音频解码过程中的音频解码操作得到；所述音频缓存队列数据由所述网络实时传输协议包数据经所述音频解码过程中的音频解码操作得到音频解码数据之后，再由所述音频解码数据经所述音频缓存过程中的音频缓存操作得到；所述音频消耗速率数据由所述音频解码数据经所述音频缓存过程中的音频缓存操作之后，再经所述音频消耗过程中的音频消耗操作得到。

4.根据权利要求3所述的方法，其特征在于，所述将所述网络特征数据和所述音频特征数据输入至分类器模型，得到若干音频控制指令，包括：

将所述网络缓存队列数据、所述网络抖动数据、所述网络丢包率数据、所述音频解码速率数据、所述音频缓存队列数据和所述音频消耗速率数据均输入至所述分类器模型，得到音频解码控制指令和音频变调变速控制指令。

5.根据权利要求4所述的方法，其特征在于，所述音频变调变速控制指令由如下至少一个步骤得到：

当所述音频缓存队列数据对应的数据长度小于第一音频消耗速率对应的第一音频消耗数据长度，所述音频变调变速控制指令为音频拉伸控制指令；

当所述音频缓存队列数据对应的数据长度大于第一时间间隔阈值对应的第一音频数据长度且小于第二时间间隔阈值对应的第二音频数据长度，或所述音频缓存队列数据对应的数据长度大于第二音频消耗速率对应的第二音频消耗数据长度且小于第三音频消耗速率对应的第三音频消耗数据长度，所述音频变调变速控制指令为音频压缩控制指令，其中，所述第二音频消耗数据长度大于所述第一音频消耗数据长度。

6.根据权利要求5所述的方法，其特征在于，所述音频解码控制指令由如下至少一个步骤得到：

当所述音频缓存队列数据对应的数据长度大于所述第二时间间隔阈值对应的第二音频数据长度或大于所述第三音频消耗速率对应的第三音频消耗数据长度，所述音频解码控制指令为停止音频解码控制指令；

获取预设时间内所述音频拉伸控制指令对应的第一执行总次数和所述音频压缩控制指令对应的第二执行总次数，当所述预设时间内不存在所述停止音频解码控制指令，且所述第一执行总次数和所述第二执行总次数之间的差值的绝对值小于预设阈值，所述音频解码控制指令为音频解码均速控制指令。

7.根据权利要求5所述的方法，其特征在于，所述音频处理过程包括音频拉伸过程；

所述根据所述音频控制指令，控制对应的音频处理过程中对应的音频处理操作，包括：

当所述音频变调变速控制指令为所述音频拉伸控制指令，根据所述音频拉伸控制指令，控制所述音频解码数据经所述音频拉伸过程中的音频拉伸操作，得到音频拉伸数据；

控制所述音频拉伸数据经所述音频缓存过程中的所述音频缓存操作之后，再经所述音频消耗过程中的音频消耗操作。

8.根据权利要求5至7任一项所述的方法，其特征在于，所述音频处理过程包括音频压缩过程；

当所述音频变调变速控制指令为所述音频压缩控制指令，根据所述音频压缩控制指令，控制所述音频解码数据经所述音频压缩过程中的音频压缩操作，得到音频压缩数据；

控制所述音频压缩数据经所述音频缓存过程中的所述音频缓存操作之后，再经所述音频消耗过程中的音频消耗操作。

9.根据权利要求6所述的方法，其特征在于，所述音频解码过程包括停止音频解码过程和音频解码均速过程；

所述根据所述音频控制指令，控制对应的音频处理过程中对应的音频处理操作，包括如下至少之一：

当所述音频解码控制指令为所述停止音频解码控制指令，根据所述停止音频解码控制指令，控制所述网络实时传输协议包数据经所述停止音频解码过程中的停止音频解码操作；

当所述音频解码控制指令为所述音频解码均速控制指令，根据所述音频解码均速控制指令，控制所述网络实时传输协议包数据经所述音频解码均速过程中的音频解码均速操作。

10.一种音频控制装置，其特征在于，用于执行如权利要求1至9任意一项所述的音频控制方法。

11.一种音频控制设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的音频控制方法。

12.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至9中任意一项所述的音频控制方法。