CN109981482B

CN109981482B - 音频处理方法及装置

Info

Publication number: CN109981482B
Application number: CN201910167691.7A
Authority: CN
Inventors: 郭志鸣; 梁学群; 张建红
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2022-04-05
Anticipated expiration: 2039-03-05
Also published as: CN109981482A

Abstract

本发明提供一种音频处理方法及装置，涉及音频处理技术领域，该方法包括：获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，可以得到M个第一网络抖动估算值和N个第二网络抖动估算值，在M个第一网络抖动估算值和N个第二网络抖动估算值中分别确定最大第一网络抖动估算值和最大第二网络抖动估算值，根据最大的第一网络抖动估算值和最大的第二网络抖动估算值可以确定网络状态，根据网络状态对缓冲区的音频数据进行处理，从而降低终端接收音频数据的延迟。

Description

音频处理方法及装置

技术领域

本发明涉及音频处理技术领域，具体而言，涉及一种音频处理方法及装置。

背景技术

随着科技的快速发展，音频播放的应用与技术愈加广泛，用户在终端上安装播放器后，就可以实现在线听取音频，终端在接收音频数据时，音频数据的语义完整是十分重要的。

相关技术中，音频数据在传输中通常会由于网络抖动因素，使得音频数据的传输受到影响，为了降低音频传输中网络抖动造成的影响，通常会引入buf(buffer,缓冲区)，在服务器中的缓冲区对音频数据进行存储，服务器的缓冲区将音频数据发送至终端，终端可以进行接收音频数据。

但是，当缓冲区的音频数据存储的比较多时，会导致音频数据的传输时间变长，使得终端接收音频数据出现延迟。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种音频处理方法及装置，以解决终端接收音频数据出现延迟的问题。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种音频处理方法，所述方法包括：

获取缓冲区初始音频数据中M次存取交替的音频数据，和所述缓冲区实时音频数据中N次存取交替的音频数据，其中，M大于等于1，N大于等于1，M和N为正整数；

根据所述M次存取交替的音频数据和所述N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值；

从M个所述第一网络抖动估算值中确定最大的第一网络抖动估算值得到所述初始音频数据的网络抖动估算值，从N个所述第二网络抖动估算值中确定最大的第二网络抖动估算值得到实时音频数据的网络抖动估算值；

根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态；

根据所述网络状态处理所述缓冲区的音频数据。

进一步地，根据所述M次存取交替的音频数据和所述N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值，包括：

获取初始音频数据M次存入音频数据和M次取出音频数据，得到M个所述第一网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第一网络抖动估算值，包括：

获取所述缓冲区初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据；

根据初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据的差值，得到初始音频数据一次存取交替的所述第一网络抖动估算值；

获取实时音频数据N次存入音频数据和N次取出音频数据，得到N个所述第二网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第二网络抖动估算值，包括：

获取所述缓冲区实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据；

根据实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据的差值，得到实时音频数据一次存取交替的第二网络抖动估算值。

进一步地，根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态，包括：

比较所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值；

若所述实时音频数据的网络抖动估算值大于等于所述初始音频数据的网络抖动估算值，确定所述缓冲区的网络状态变坏；

若所述实时音频数据的网络抖动估算值小于所述初始音频数据的网络抖动估算值，确定所述缓冲区的网络状态变好。

进一步地，根据所述网络状态处理所述缓冲区的音频数据，包括：

当所述缓冲区的网络状态变好时，根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值，确定待丢弃音频数据的量；

根据所述待丢弃音频数据的量，将待丢弃的音频数据在预设时间内进行丢弃；

当所述缓冲区的网络状态变坏时，增大所述缓冲区的容量值。

当所述缓冲区的网络状态变好时，对所述缓冲区的音频数据进行语音活动检测VAD得到静音数据，将所述静音数据进行丢弃；

本发明的另一目的在于提供一种音频处理装置，所述装置包括：

进一步地，第一获取模块，用于获取缓冲区初始音频数据中M次存取交替的音频数据，和所述缓冲区实时音频数据中N次存取交替的音频数据，其中，M大于等于1，N大于等于1，M、N为正整数；

第二获取模块，用于根据所述M次存取交替的音频数据和所述N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值；

第一确定模块，用于从M个所述第一网络抖动估算值中确定最大的第一网络抖动估算值得到所述初始音频数据的网络抖动估算值，从N个所述第二网络抖动估算值中确定最大的第二网络抖动估算值得到实时音频数据的网络抖动估算值；

第二确定模块，用于根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态；

处理模块，用于根据所述网络状态处理所述缓冲区的音频数据。

进一步地，所述第二获取模块包括第一网络抖动估算值模块和第二网络抖动估算值模块；所述第一网络抖动估算值模块，用于获取初始音频数据M次存入音频数据和M次取出音频数据，得到M个所述第一网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第一网络抖动估算值，包括：获取所述缓冲区初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据；根据初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据的差值，得到初始音频数据一次存取交替的所述第一网络抖动估算值；所述第二网络抖动估算值模块，用于获取实时音频数据N次存入音频数据和N次取出音频数据，得到N个所述第二网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第二网络抖动估算值，包括：获取缓冲区实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据；根据实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据的差值，得到实时音频数据一次存取交替的第所述二网络抖动估算值。

进一步地，所述第二确定模块，具体用于比较所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值；若所述实时音频数据的网络抖动估算值大于等于所述初始音频数据的网络抖动估算值，确定所述缓冲区的网络状态变坏；

进一步地，所述第二确定模块，具体用于当所述缓冲区的网络状态变好时，根据初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值，确定待丢弃音频数据的量；根据所述待丢弃音频数据的量，将待丢弃的音频数据在预设时间内进行丢弃；当所述缓冲区的网络状态变坏时，增大所述缓冲区的容量值。

进一步地，所述第二确定模块，还具体用于当所述缓冲区的网络状态变好时，对所述缓冲区的音频数据进行语音活动检测VAD得到静音数据，将所述静音数据进行丢弃，当所述缓冲区的网络状态变坏时，增大所述缓冲区的容量值。

综上所述，本发明实施例提供一种音频处理方法，通过获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，可以得到M个第一网络抖动估算值和N个第二网络抖动估算值，在M个第一网络抖动估算值和N个第二网络抖动估算值中分别确定最大第一网络抖动估算值和最大第二网络抖动估算值，根据最大的第一网络抖动估算值和最大的第二网络抖动估算值可以确定网络状态，根据网络状态对缓冲区的音频数据进行处理，从而降低终端接收音频数据的延迟。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的一实施例的音频处理方法的流程示意图；

图2为本发明另一实施例提供的音频处理方法的流程示意图；

图3为本发明又一实施例提供的音频处理方法的流程示意图；

图4为本发明又一实施例提供的音频处理方法的流程示意图；

图5为本发明又一实施例提供的音频处理方法的流程示意图；

图6为本发明又一实施例提供的音频处理方法的示意图；

图7为本发明另一实施例提供的音频处理方法的流程示意图；

图8为本发明一实施例提供的音频处理装置的示意图；

图9为本发明另一实施例提供的音频处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本发明提供的一种音频处理方法，该方法的执行设备可以是服务器、计算机、手机、平板电脑等终端，在此不做具体限定。

其中，若该方法的执行设备为服务器时，音频数据的发送方可以是第一终端，音频数据的接收方可以是第二终端，第一终端发送音频数据至服务器，服务器可以根据网络状态对音频数据进行处理并向第二终端转发处理后的音频数据。第一终端可以是计算机、手机、平板电脑等发送设备，第二终端可以是计算机、手机、收音机、耳机和混音设备等接收设备。音频数据的传输方式可以是有线传输或者无线传输。

例如：第一终端和第二终端分别为第一手机和第二手机，则第一手机可以根据用户的输入操作，获取音频数据，第一手机可以通过无线传输将音频数据发送至服务器，服务器可以根据网络状态对音频数据进行处理并转发至第二手机。

图1为本发明提供的一实施例的音频处理方法的流程示意图，如图1所示，该方法包括：

步骤101、获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，其中，M大于等于1，N大于等于1，M和N为正整数。

由于音频数据在传输中会受到网络抖动的影响，发送方发送音频数据后，引用缓冲区可以将音频数据缓存在缓冲区中，从缓冲区取出音频数据，向接收方发送音频数据，随着网络抖动的变化，需要对缓冲区中存储的音频数据进行处理，以使缓冲区中的音频数据可以适应当前的网络状态。因此，需要获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据。

其中，缓冲区初始音频数据中M次存取交替的音频数据可以是缓冲区最先缓存的音频数据中M次存入的音频数据和对应的从缓冲区音频数据中取出的M次音频数据。缓冲区实时音频数据中N次存取交替的音频数据可以是缓冲区缓存初始音频数据M次存取交替的音频数据之后的某个时间段存入缓冲区的N次音频数据和对应取出的N次音频数据。

具体地，可以获取缓冲区初始音频数据中M次存入的音频数据和对应的M次取出的音频数据，得到缓冲区初始音频数据中M次存取交替的音频数据，可以获取缓冲区实时音频数据中N次存入的音频数据和对应的N次取出的音频数据，得到缓冲区实时音频数据中的N次存取交替的音频数据，以便在后续步骤中，可以根据初始音频数据中M次存取交替的音频数据和缓冲区实时音频数据中的N次存取交替的音频数据判断网络状态。

例如：从音频数据传输时的某一时刻开始获取缓冲区音频数据30次中每一次存入和每一次取出的音频数据，这些音频数据作为缓冲区的初始音频数据30次存入的音频数据和对应的30次取出的音频数据。在获取缓冲区初始音频数据30次存取交替的音频数据之后，可以在某一时刻开始获取缓冲区音频数据30次中每一次存入和每一次取出的音频数据，这些音频数据可以作为缓冲区的实时音频数据中30次存入和取出的音频数据。

步骤102、根据M次存取交替的音频数据和N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值。

具体地，可以根据M次存取交替的音频数据中每一次存储交替的音频数据，得到M次存取交替的音频数据中每一次对应的第一网络抖动估算值，可以根据N次存取交替的音频数据中的每一次存储交替的音频数据，得到N次存储交替的音频数据中每一次对应的第二网络抖动估算值。

例如：继续上述举例说明，对于初始音频数据中一次存取交替的音频数据第一网络抖动估算值，具体的计算过程如下：初始音频数据中30次存取交替的音频数据中，某一次存入缓冲区的音频数据为A，从缓冲区取出音频数据B发送至接收方，在下次从缓冲区取数据之前，缓冲区的总的音频数据为C，则第一网络抖动估算值可以是C-A+B；对于实时音频数据中一次存取交替的音频数据第一网络抖动估算值，具体的计算过程如下：实时音频数据中30次存取交替的音频数据中，某一次存入缓冲区的音频数据为a，从缓冲区取出音频数据b发送至接收方，在下次从缓冲区取数据之前，缓冲区的总的音频数据为c，则第二网络抖动估算值可以是c-a+b。以次类推，可以根据30次存取交替的音频数据和30次存储交替的音频数据，最终可以得到30个第一网络抖动估算值和30个第二网络抖动估算值。

需要说明的是，缓冲区可以预先设置有缓存阈值，当缓冲区中的音频数据则可以从缓冲区取出音频数据，缓冲区中的音频数据小于缓存阈值时，则缓冲区只存入音频数据，可以根据缓存阈值多次向缓存区存入音频数据和从缓存区取出音频数据，在多次存取交替中可以得到根据M次存取交替的音频数据和N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值。

步骤103、从M个第一网络抖动估算值中确定最大的第一网络抖动估算值得到初始音频数据的网络抖动估算值，从N个第二网络抖动估算值中确定最大的第二网络抖动估算值得到实时音频数据的网络抖动估算值。

具体地，在初始音频数据中获取了M个第一网络抖动估算值和实时音频数据中N个第二网络抖动估算值，可以将M个第一网络抖动估算值按照从大到小或者从小到大的顺序进行排序，筛选出M个第一网络抖动估算值中的最大的第一网络抖动估算值，将最大的第一网络抖动估算值作为初始音频数据的网络抖动估算值，将N个第二网络抖动估算值按照从大到小或者从小到大进行排序，筛选出最大的第二网络抖动估算值，将最大的第二网络抖动估算值作为实时音频数据的网络抖动估算值。

例如：继续上述举例说明，在得到的30个第一网络抖动估算值30个第二网络抖动估算值之后，可以将30个第一网络抖动估算值和30个第二网络抖动估算值分别从大到小进行排序，从30个第一网络抖动估算值中确定最大的第一网络抖动估算值，将最大的第一网络抖动估算值作为初始音频数据的网络抖动估算值。从30个第二网络抖动估算值中确定最大第二网络抖动估算值，将最大的第二网络抖动估算值作为实时音频数据的网络抖动估算值。

需要说明的是，上述M和N的数值可以相同或者不同，本发明实施例对此不做限定。

步骤104、根据初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值确定缓冲区的网络状态。

具体地，可以比较初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值的大小，得到比较结果，根据比较结果可以进行确定缓冲区的网络状态。由于网络状态的好坏可以影响音频数据的传输速度，音频数据的传输速度可以影响音频数据在缓冲区的存取交替的音频数据的量，因此可以对初始音频数据的网络抖动估算值和实时音频数据网络抖动估算值进行比较，确定网络状态。

例如：网络状态好时，音频数据存取交替的速度比较快，缓冲区的数据较少，网络抖动估算值越小，网络状态变差时，音频数据存取交替的速度比较慢，缓冲区的数据较多，网络抖动估算值越大。因此可以根据初始音频数据和实时音频数据分别得到的网络抖动估算值进行判断网络状态的好坏。

另外，比较结果可分为两种，相对应的网络状态也为两种，其中，第一种，若实时音频数据的网络抖动估算值小于初始音频数据的网络抖动估算值，则指示网络状态变好，第二种，若实时音频数据的网络抖动估算值大于等于初始音频数据的网络抖动估算值，则指示网络状态变差。可以根据确定的网络状态，以便在后续步骤中根据确定缓冲区的网络状态对缓冲区的音频数据做相应的处理。

步骤105、根据网络状态处理缓冲区的音频数据。

具体地，可以根据网络状态对缓冲区的音频数据进行处理，若网络状态变好，则可以减小缓冲区存储的音频数据，以应对网络变好缓冲区存储的音频数据过多带来的延时问题。若网络状态变坏，则表明缓冲区需要缓存更多的音频数据。

综上所述，本发明实施例提供一种音频处理方法，通过获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，可以得到M个第一网络抖动估算值和N个第二网络抖动估算值，在M个第一网络估算抖动值和N个第二网络抖动估算值中分别确定最大的第一网络抖动估算值和最大第二网络抖动估算值，根据最大的第一网络抖动估算值和最大的第二网络抖动估算值可以确定网络状态，根据网络状态对缓冲区的音频数据进行处理，从而降低终端接收音频数据的延迟。

图2为本发明另一实施例提供的音频处理方法的流程示意图，如图2所示，该方法包括：

步骤201、获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据。

其中，M大于等于1，N大于等于1，M、N为正整数。步骤201的过程与步骤101的过程类似，在此不再赘述。

步骤202、获取初始音频数据M次存入音频数据和M次取出音频数据，得到M个第一网络抖动估算值。

具体地，可以获取缓冲区中初始音频数据M次音频数据中的每一次存入音频数据和每一次取出的音频数据，可以根据每一次存入音频数据和每一次取出的音频数据可以得到M个第一抖动抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到第一网络抖动估算值，参考图3,该步骤具体的过程详细描述如下：

步骤2021、获取缓冲区初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据。

由于音频数据在传输时，音频数据可以划分为多个音频数据包进行传输数据，对多个音频数据包可以按照序列号进行编码，缓冲区对音频数据进行缓存时，也可以根据音频包的序列号对音频数据进行缓存，避免音频数据缓存时出现的语义混乱。

具体地，在缓冲区存入音频数据和取出音频数据时，可以根据缓冲区音频数据中多个音频数据包的序列号，获取初始音频数据每次存入缓冲区时缓冲区中音频数据中的最大序列号的音频数据，以及从缓冲区取出时的缓冲区的最大序列号音频数据。

例如：若缓冲区初始音频数据为1、2、3、4、5、6、7、8，取出的缓冲区初始音频数据序列号是1、2、3、4，在下一次取之前若缓冲区的音频数据为5、6、7、8、9、10、11，则8为取出时缓冲区的音频数据的最大序列号，11为存入时缓冲区的音频数据的最大序列号。

步骤2022、根据初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据的差值，得到初始音频数据一次存取交替的第一网络抖动估算值。

具体地，根据初始音频数据存入时缓冲区的最大序列号音频数据和初始音频数据取出时缓冲区的最大序列号音频数据，可以计算存入时缓冲区初始音频数据的最大序列号音频数据和初始音频数据取出时缓冲区的最大序列号音频数据的差值，将差值作为初始音频数据一次存取交替的第一网络抖动估算值。

例如：若缓冲区初始音频数据为1、2、3、4、5、6、7、8，取出的缓冲区初始音频数据序列号是1、2、3、4，在下一次取之前若缓冲区的音频数据为5、6、7、8、9、10、11，则8为取出时缓冲区的音频数据的最大序列号，11为存入时缓冲区的音频数据的最大序列号，则将11对应的音频数据和8对应的音频数据做差，11-8＝3，则3可以作为第一网络抖动估算值。

需要说明的是每一个序列号对应的都可以是一个音频数据包，由于网络因素的影响各个时刻存入和取出音频数据包的个数可以是不同的。

步骤203、获取实时音频数据N次存入音频数据和N次取出音频数据，得到N个第二网络抖动估算值。

具体地，可以获取缓冲区中实时音频数据N次音频数据中的每一次存入音频数据和每一次取出的音频数据，根据每一次存入音频数据和每一次取出的音频数据可以得到N个第二网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到第二网络抖动估算值，参照图4,该步骤具体的过程详细描述如下：

步骤2031、获取缓冲区实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据。

具体地，在缓冲区存入实时音频数据和取出实时音频数据时，可以根据缓冲区实时音频数据的序列号，获取实时音频数据每次存入缓冲区时音频数据中的最大序列号的音频数据和从缓冲区取出时实时音频数据的最大序列号音频数据。

例如：若缓冲区实时音频数据为1、2、3、4、5、6、7、8，取出的缓冲区实时音频数据序列号是1、2、3、4，在下一次取之前若缓冲区的实时音频数据为5、6、7、8、9、10、11，则8为取出时缓冲区的实时音频数据的最大序列号，11为存入时缓冲区的实时音频数据的最大序列号。

步骤2032、根据实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据的差值，得到实时音频数据一次存取交替的第二网络抖动估算值。

具体地，根据实时音频数据存入时缓冲区的最大序列号音频数据和实时音频数据取出时缓冲区的最大序列号音频数据，可以计算存入时缓冲区实时音频数据的最大序列号音频数据和实时音频数据取出时缓冲区的最大序列号音频数据的差值，将差值作为实时音频数据一次存取交替的第二网络抖动估算值。

例如：若缓冲区实时音频数据为1、2、3、4、5、6、7、8，取出的缓冲区实时音频数据序列号是1、2、3、4，在下一次取之前若缓冲区的音频数据为5、6、7、8、9、10、11，则8为取出时缓冲区的音频数据的最大序列号，11为存入时缓冲区的音频数据的最大序列号，则将11对应的音频数据和8对应的音频数据做差，11-8＝3，则3可以作为第二网络抖动估算值。

步骤204、从M个第一网络抖动估算值中确定最大的第一网络抖动估算值得到初始音频数据的网络抖动估算值，从N个第二网络抖动估算值中确定最大的第二网络抖动估算值得到实时音频数据的网络抖动估算值。

具体地，步骤204的过程与步骤104的过程类似，在此不再赘述。

步骤205、比较初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值。

具体地，在获取初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值之后，可以对初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值进行比较，得到比较结果。

其中，比较结果可以分为三种，第一种，实时音频数据的网络抖动估算值大于初始音频数据的网络抖动估算值，第二种，实时音频数据的网络抖动估算值小于初始音频数据的网络抖动估算值；第三种，实时音频数据的网络抖动估算值等于初始音频数据的网络抖动估算值。以便后续步骤中可以根据比较结果，对缓冲区的音频数据进行处理。

步骤206、若实时音频数据的网络抖动估算值大于等于初始音频数据的网络抖动估算值，确定缓冲区的网络状态变坏。

具体地，网络状态变坏时可以分为两种，第一种，当实时音频数据的网络抖动估算值等于初始音频数据的网络抖动估算值不需要做任何调整，第二种，若实时音频数据的网络抖动估算值大于初始音频数据的网络抖动估算值时，对缓冲区的音频数据可以进行调整。

需要说明的是，网络的好坏影响音频数据的传输，网络变坏时音频数据的传输变慢，缓冲区中可以缓存更多的音频数据用来抵制网络抖动。

步骤207、若实时音频数据的网络抖动估算值小于初始音频数据的网络抖动估算值，确定缓冲区的网络状态变好。

具体地，若实时音频数据的网络抖动估算值小于初始音频数据的网络抖动估算值时，则可以表明当前的网络状态变好，网络状态变好时，若当前缓冲区缓存的音频数据过多影响音频数据的传输速度，可以适当的减小缓冲区的音频数据。

例如：若实时音频数据的网络抖动估算值为A，初始音频数据的网络抖动估算值为B，则当A小于B时，则可以说明网络状态变好，可以减小缓冲区缓存的音频数据。

步骤208、根据网络状态处理缓冲区的音频数据。

具体地，根据网络状态可以对缓冲区的音频数据进行处理。其中，网络状态可以分为二种，第一种，网络变好，第二种网络变坏，当网络变好时，可以减小缓冲区缓存的音频数据，当网络变坏时可以增加缓冲区缓存的音频数据，该步骤具体的过程可以通过步骤2081和步骤2082描述，详细描述如下：

其中，参考图5，步骤2081的详细步骤描述如下：

步骤20811、当缓冲区的网络状态变好时，根据初始音频数据的网络抖动估算值、实时音频数据的网络抖动估算值，确定待丢弃音频数据的量。

具体地，可以根据初始音频数据的网络抖动估算值、实时音频数据的网络抖动估算值计算需要丢弃的音频数据的量，将初始音频数据的网络估算值与实时音频数据的网络抖动估算值之间的差值，作为需要丢弃的音频数据的量。

例如：继续上述举例，若实时音频数据的网络抖动估算值为A，实时音频数据的网络抖动估算值为B，待丢弃音频数据的量可以是A-B。

步骤20812、根据待丢弃音频数据的量，将待丢弃的音频数据在预设时间内进行丢弃。

参照图6，若预设时间为一个自定义时间T时，则若在自定义时间T之内需要降低延时，若初始音频数据的网络抖动估算值为A，实时音频数据的网络抖动估算值为B，L表示丢弃间隔，则计算丢弃间隔可以参考下述公式：

L＝T/(A-B)

例如：若丢弃音频数据的量为50，50可以表示需要丢弃的音频数据的量为50个音频数据包，若预设时间为15S，则L＝15/50＝0.3S＝300ms，若一个音频数据包为20ms，则300/20＝15个，表示若丢弃第一个音频数据包的序列号是1时，则丢弃第二个音频数据包的序列号为16，丢弃第三个音频数据包的序列号为31。其中，每一个音频数据包代表的时间是固定的，根据丢弃间隔可以计算得到每一个需要丢弃的音频数据包。

在缓冲区可以每隔一个丢弃间隔丢弃一个丢弃音频数据包，T时间后，缓冲区中的音频数据量的值可以与实时网络抖动估算值一致。由于待丢弃音频数据是初始音频数据的网络抖动估算值、实时音频数据的网络抖动估算值以及预设时间确定的，多个相邻的音频数据包在解析时可以解析得到一个文字，因此若根据丢弃间隔丢弃不相邻的一个音频数据包并不会造成语义的不完整。

步骤20813、当缓冲区的网络状态变坏时，增大缓冲区的容量值。

由于网络状态变坏时，若一次传输过多的音频数据会导致接收方接收音频数据产生噪音，影响音频的传输质量，因此可以增大缓冲区的容量值，使得缓冲区可以缓存一定的音频数据，避免网络状态变坏带来的影响。其中，缓冲区的容量值为缓冲区大小的对应参数值，缓冲区容量值增大时，缓冲区可以缓存更多的音频数据。

具体地，当网络状态变坏时，可以调整缓冲区的容量值，增大缓冲区容量值，当缓冲区缓存的音频数据增多时，可以用于抵抗网络状态变坏导致的网络不稳。

例如：若容量值a，当网络状态变坏时，则可以增大容量值，此时容量值可以是b，则b大于a。

步骤2082的详细步骤参考图7，描述如下：

步骤20821、当缓冲区的网络状态变好时，对缓冲区的音频数据进行语音活动检测VAD得到静音数据，将静音数据进行丢弃。

音频数据在传输中，并不是一直在占用音频数据传输的信道，比如用户在打电话时，并不是总在占用通话信道，说话中间的思考、犹豫和停顿时会产生静音数据，静音数据中并无任何传递的语言文字，若网络状态变好时，若此时缓冲区缓存的数据过多,从缓冲区向接收方发送音频数据的速度会受到影响，因此可以对缓冲区的音频数据进行VAD检测，可以得到静音数据，丢弃缓冲区音频数据中的静音数据可以减少缓冲区音频数据的数量，提高了音频数据的传输速度。

由于网络状态变好时，若缓冲区缓存的音频数据过多可以导致音频数据传输中接收方接收音频数据出现延迟，因此可以减小缓冲区的音频数据，降低延时。

具体地，当缓冲区的网络状态变好时，可以对缓冲区的音频数据进行VAD检测，通过VAD检测可以得到静音数据，可以丢弃静音数据，由于丢弃的是静音数据，对音频数据的语义完成没有影响，丢弃静音数据，可以保证音频数据的语义完整。当缓冲区中的音频数据的量与实时网络抖动估算值一致时，则可以停止丢弃。

例如：初始音频数据的网络抖动估算值为m，实时音频数据的网络抖动估算值为n，当网络状态变好时，可以对缓冲区的音频数据进行VAD检测，通过VAD检测可以得到缓冲区音频数据中的静音数据，可以将静音数据进行丢弃，当缓冲区的音频数据的量减少到n时，缓冲区的音频数据的量与实时音频数据的网络抖动估算值一致，则停止VAD检测。

需要说明的是，音频数据的量可以通过音频数据中音频数据包的个数进行统计。

步骤20822、当缓冲区的网络状态变坏时，增大缓冲区的容量值。

具体地，步骤20822的过程与步骤20813的过程类似，在此不再赘述。

综上所述，本发明实施例提供一种音频处理方法，获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，可以得到M个第一网络抖动估算值和N个第二网络抖动估算值，在M个第一网络抖动估算值和N个第二网络抖动估算值中分别确定最大第一网络抖动估算值和最大第二网络抖动估算值，根据最大的第一网络抖动估算值和最大的第二网络抖动估算值可以确定网络状态，根据网络状态对缓冲区的音频数据进行处理，从而降低终端接收音频数据的延迟。

进一步地，当缓冲区的网络状态变好时，可以通过根据初始音频数据的网络抖动估算值、实时音频数据的网络抖动估算值以及预设时间，对预设时间T内待丢弃的音频数据进行丢弃，还可以通过对缓冲区的音频数据进行语音活动检测VAD得到静音数据，将静音数据进行丢弃。由于待丢弃的音频数据是根据预设时间及初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值计算的，相邻的多个待丢弃音频数据可以表示一个文字，因此若丢失一个待丢弃的音频数据并不会导致语义不完整，另外，由于丢弃的缓冲区的静音数据，也不会造成音频数据语义的缺失，两种丢弃缓冲区音频数据的方式均可以在保证语义完整的条件下进行丢弃音频数据，降低了缓冲区音频数据过多导致的延时。

图8为本发明一实施例提供的音频处理装置的示意图，该装置具体包括：

第一获取模块801，用于获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，其中，M大于等于1，N大于等于1，M、N为正整数；

第二获取模块802，用于根据M次存取交替的音频数据和N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值；

第一确定模块803，用于从M个第一网络抖动估算值中确定最大的第一网络抖动估算值得到初始音频数据的网络抖动估算值，从N个第二网络抖动估算值中确定最大的第二网络抖动估算值得到实时音频数据的网络抖动估算值；

第二确定模块804，用于根据初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值确定缓冲区的网络状态；

处理模块805，用于根据网络状态处理缓冲区的音频数据。

可选的，第二获取模块802包括第一网络抖动估算值模块和第二网络抖动估算值模块；第一网络抖动估算值模块，用于获取初始音频数据M次存入音频数据和M次取出音频数据，得到M个第一网络抖动估算值，其中，第一网络抖动估算值，包括：获取缓冲区初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据；根据初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据的差值，得到初始音频数据一次存取交替的第一网络抖动估算值；第二网络抖动估算值模块，用于获取实时音频数据N次存入音频数据和N次取出音频数据，得到N个第二网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到第二网络抖动估算值，包括：获取缓冲区实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据；根据实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据的差值，得到实时音频数据一次存取交替的第二网络抖动估算值。

可选的，第二确定模块804，具体用于比较初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值；若实时音频数据的网络抖动估算值大于等于初始音频数据的网络抖动估算值，确定缓冲区的网络状态变坏；

若实时音频数据的网络抖动估算值小于初始音频数据的网络抖动估算值，确定缓冲区的网络状态变好。

可选的，第二确定模块804，具体用于当缓冲区的网络状态变好时，根据初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值，确定待丢弃音频数据的量；根据待丢弃音频数据的量，将待丢弃的音频数据在预设时间内进行丢弃；当缓冲区的网络状态变坏时，增大缓冲区的容量值。

可选的，第二确定模块804，还具体用于当缓冲区的网络状态变好时，对缓冲区的音频数据进行语音活动检测VAD得到静音数据，将静音数据进行丢弃，当缓冲区的网络状态变坏时，增大缓冲区的容量值。

综上所述，本发明实施例提供一种音频处理装置，通过获取缓冲区初始音频数据中M次存取交替的音频数据，和缓冲区实时音频数据中N次存取交替的音频数据，可以得到M个第一网络抖动估算值和N个第二网络抖动估算值，在M个第一网络抖动估算值和N个第二网络抖动估算值中分别确定最大第一网络抖动估算值和最大第二网络抖动估算值，根据最大的第一网络抖动估算值和最大的第二网络抖动估算值可以确定网络状态，根据网络状态对缓冲区的音频数据进行处理，从而降低终端接收音频数据的延迟。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本发明一实施例提供的音频处理装置的示意图，该装置可以集成于终端设备或者终端设备的芯片，该终端可以是具备音频处理装置功能的计算设备。

该装置包括：存储器901、处理器902。

存储器901用于存储程序，处理器902调用存储器901存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态变坏或变好；

根据所述网络状态处理所述缓冲区的音频数据；

其中，根据所述M次存取交替的音频数据和所述N次存取交替的音频数据，分别得到M个第一网络抖动估算值和N个第二网络抖动估算值，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态变坏或变好，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述网络状态处理所述缓冲区的音频数据，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述网络状态处理所述缓冲区的音频数据，包括：

5.一种音频处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取缓冲区初始音频数据中M次存取交替的音频数据，和所述缓冲区实时音频数据中N次存取交替的音频数据，其中，M大于等于1，N大于等于1，M、N为正整数；

第二确定模块，用于根据所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值确定所述缓冲区的网络状态变坏或变好；

处理模块，用于根据所述网络状态处理所述缓冲区的音频数据；

其中，所述第二获取模块包括第一网络抖动估算值模块和第二网络抖动估算值模块；所述第一网络抖动估算值模块，用于获取初始音频数据M次存入音频数据和M次取出音频数据，得到M个所述第一网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第一网络抖动估算值，包括：获取所述缓冲区初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据；根据初始音频数据存入时的最大序列号音频数据和初始音频数据取出时的最大序列号音频数据的差值，得到初始音频数据一次存取交替的所述第一网络抖动估算值；所述第二网络抖动估算值模块，用于获取实时音频数据N次存入音频数据和N次取出音频数据，得到N个所述第二网络抖动估算值，其中，获取一次存入音频数据和一次取出音频数据，得到所述第二网络抖动估算值，包括：获取缓冲区实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据；根据实时音频数据存入时的最大序列号音频数据和实时音频数据取出时的最大序列号音频数据的差值，得到实时音频数据一次存取交替的第所述二网络抖动估算值。

6.根据权利要求5所述的装置，其特征在于，所述第二确定模块，具体用于比较所述初始音频数据的网络抖动估算值和所述实时音频数据的网络抖动估算值；若所述实时音频数据的网络抖动估算值大于等于所述初始音频数据的网络抖动估算值，确定所述缓冲区的网络状态变坏；

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块，具体用于当所述缓冲区的网络状态变好时，根据初始音频数据的网络抖动估算值和实时音频数据的网络抖动估算值，确定待丢弃音频数据的量；根据所述待丢弃音频数据的量，将待丢弃的音频数据在预设时间内进行丢弃；当所述缓冲区的网络状态变坏时，增大所述缓冲区的容量值。

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块，还具体用于当所述缓冲区的网络状态变好时，对所述缓冲区的音频数据进行语音活动检测VAD得到静音数据，将所述静音数据进行丢弃，当所述缓冲区的网络状态变坏时，增大所述缓冲区的容量值。