CN103259803B

CN103259803B - 一种音频回放方法、装置和系统

Info

Publication number: CN103259803B
Application number: CN201310218821.8A
Authority: CN
Inventors: 龙兴平; 刘洪�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-06-04
Filing date: 2013-06-04
Publication date: 2016-01-27
Anticipated expiration: 2033-06-04
Also published as: WO2014194641A1; CN103259803A

Abstract

本发明实施方式提出一种音频回放方法、装置和系统。方法包括：接收按照类型被标识的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况；当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。本发明实施方式提高了音乐帧回放流畅度，同时能平稳更多更大的网络抖动。

Description

一种音频回放方法、装置和系统

技术领域

本发明实施方式涉及音频处理技术领域，更具体地，涉及一种音频回放方法、装置和系统。

背景技术

互联网（Internet）和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且，随着移动互联网的发展，互联网也在向移动化发展。在当今的信息时代中，各种信息设备应运而生：有用于话音传输的固定电话、移动电话；有用于信息资源共享、处理的服务器和个人电脑；有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。

随着电子消费、计算机、通信（3C）融合的到来，人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上，以充分利用现有资源设备来为人们更好的服务。

各种语音处理应用已经逐渐成为网络用户日常和娱乐生活中不可缺少的一部分。用户可以在一个群体中一起实时语音交流和播放音乐，进行类似传统KTV的音乐演唱和交流。音频帧一般通过互联网传输，由于互联网传输本身的抖动性，会造成音频帧播放的不流畅，特别是听觉系统对音乐类型的音频帧特别敏感，音乐类型的音频帧通过互联网传输后的回放需要还原得更加逼真。

然而，在现有技术中，各种语音处理应用在涉及音频帧的网络通信和回放过程中，并没有区分语音帧和音乐帧，对于语音帧和音乐帧都是同等处理。语音帧和音乐帧同等的回放时长，要么造成音乐播放不流畅，要么造成说话交流的语音播放时延很大。而且，在网络传输抖动比较大、丢包比较多的情况下，音乐帧回放不流畅便达不到音乐回放逼真的效果。

发明内容

本发明实施方式提出一种音频回放方法，以提高音乐帧回放流畅度。

本发明实施方式提出一种音频回放装置，以提高音乐帧回放流畅度。

本发明实施方式提出一种音频回放系统，以提高音乐帧回放流畅度

本发明实施方式的技术方案如下：

一种音频回放方法，该方法包括：

接收按照类型被标识的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况；

当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

一种音频回放装置，包括音频数据帧接收单元、网络传输状况评估单元、数据帧类型确定单元和抖动缓冲器调整单元，其中：

音频数据帧接收单元，用于接收音频数据帧；

网络传输状况评估单元，用于评估该音频数据帧的网络传输状况；

数据帧类型确定单元，用于根据音频数据帧的类型标识确定音频数据帧的类型；

抖动缓冲器调整单元，用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

一种音频回放系统，包括音频发送装置和音频接收装置，其中：

音频发送装置，用于采集音频数据帧，对采集的音频数据帧按照类型进行标识，并向音频接收装置发送标识后的音频数据帧；

音频接收装置，用于接收所述标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况，其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

从上述技术方案可以看出，在本发明实施方式中，接收按照类型被标识的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况；当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见，应用本发明实施方式之后，根据音频帧的类型以及当前网络传输状况，估算和设定防抖动的抖动缓冲器阀值大小，如果音频帧的类型是音乐帧，并且当前网络抖动大或丢包率大，则增大抖动缓冲器的阀值，让网络音频包的传输能有更多的时间进行重传，从而提高音乐帧回放流畅度，而且大的抖动缓冲器阀值能平稳更多更大的网络抖动。

附图说明

图1为根据本发明实施方式音频回放方法流程图；

图2为根据本发明实施方式SAD算法检测流程图；

图3为根据本发明实施方式SAD算法决策流程图；

图4为根据本发明实施方式音频回放装置结构图；

图5为根据本发明实施方式音频回放系统结构图；

图6为根据本发明实施方式音频回放总体处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

在现有技术中，在涉及音频帧的网络通信和回放过程中，并没有区分语音帧和音乐帧，对于语音帧和音乐帧都是同等处理。这就造成音乐播放不流畅或说话交流的语音播放时延很大。而且，在网络传输抖动比较大、丢包比较多的情况下，音乐帧回放不流畅便达不到音乐回放逼真的效果。

在本发明实施方式中，在音频帧的接收端，根据音频帧的类型以及当前网络传输的抖动、丢包率等情况，估算和设定防抖动的抖动缓冲器（JitterBuffer）阀值大小，如果音频帧的类型是音乐帧，并且当前网络抖动大或丢包率大，则增大抖动缓冲器的阀值，让网络音频包的传输能有更多的时间进行重传，同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。

在本发明实施方式中，音频数据帧接收端接收已经按照类型被标识的音频数据帧。音频数据帧接收端再根据音频数据帧标识确定音频数据帧的类型，并且评估网络传输状况，其中当音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

图1为根据本发明实施方式音频回放方法流程图。

如图1所示，该方法包括：

步骤101：对采集的音频数据帧按照类型进行标识，并发送标识后的音频数据帧。

在这里，音频发送端可以首先利用各种音频采集设备（比如声卡设备）采集音频帧。音频发送端所采集音频帧的种类可以有多种，包括但是不局限于：语音帧、静音帧和音乐帧等等。

语音帧通常含义是人说话的音频帧；音乐帧一般指具有某些伴奏的音频帧。通常情况下，音乐帧比语音帧包含的频谱更宽。

在这里，通过能区分语音帧和音乐帧的各种算法技术（如SAD算法）确定所采集的音频数据帧的种类，并按照所确定类型对音频数据帧进行标识。SAD算法用于执行音频语音帧和音乐帧活动检测，可以检测一段音频帧是语音帧还是音乐帧。

比如，可以计算该音频数据帧的帧能量，并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较，如果帧能量低于预先设定的帧能量门限值，则将该音频数据帧标识为静音帧。

如果帧能量高于预先设定的帧能量门限值，进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm，如果Ps/Pm大于预先设定的比较门限值，则将该音频数据帧标识为语音帧类型；如果Ps/Pm不大于该预先设定的比较门限值，进一步对该音频数据帧进行联合判决，并根据联合判决结果按照类型进行标识。

对采集的音频数据帧按照类型进行标识之后，可以通过各种网络发送标识后的音频数据帧。

步骤102：接收所述标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况。评估网络传输状况的具体实施方式可以包括但是不限定于丢包率或网络抖动指标等指标参数。

在这里，音频接收端首先通过网络接收标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况。网络传输状况可以包括音频数据帧的丢包率或网络抖动指标。等等。

丢包率（LossTolerance或packetlossrate）是指音频帧打包传输中所丢失数据包数量占所发送数据包的比率。音频帧丢包率通常与音频帧数据包长度以及包发送频率相关。

网络抖动是QOS里面常用的一个概念，其意思是指分组延迟的变化程度。如果网络发生拥塞，排队延迟将影响端到端的延迟，并导致通过同一连接传输的分组延迟各不相同。

步骤103：当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。抖动缓冲器（JitterBuffer）常应用于对抖动量进行平滑处理的应用中。在各种语音处理应用中，针对网络传输本身的抖动性通常设置一定的缓冲区作为抖动缓冲器。只能到此缓冲区满时才开始播放音频帧，从而使得语音播放流畅。

抖动缓冲器是一个共享的数据区域，在这个数据区域中，每隔一段均匀的间隔，语音包会被收集，存储并发到语音处理器。包到达时间的变化，称作抖动，将会由于网络拥塞，定时漂移或路由变更而产生。抖动缓冲器放于语音连接的接收端，它有意地延迟到达的包，如此一来，终端用户就会感受到清晰且没有声音失真的播放效果。

抖动缓冲器一般有两种，包括静态和动态抖动缓冲器。静态抖动缓冲器是基于硬件的，它是由厂家来配置的。而动态抖动缓冲器是基于软件的，它由网管配置以适应网络延迟的改变。

调整抖动缓冲器的阈值的方式可以有多种，比如基于丢包率的大小或网络抖动指标提高抖动缓冲器的阈值等等，具体可以包括：

在一个实施方式中：

在步骤102中的评估网络传输状况为：通过包序号计算所述音频数据帧的丢包率。此时，当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

可见，在丢包率较高所造成的网络传输状况不佳的情形下，通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值，可以让网络音频包的传输能有更多的时间进行重传，同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。

在一个实施方式中：

在步骤102中的评估网络传输状况为：通过包到达时刻计算网络抖动指标。此时，当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

可见，在网络抖动较大所造成的网络传输状况不佳的情形下，通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值，可以让网络音频包的传输能有更多的时间进行重传，同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。

在一个实施方式中：

在步骤102中的评估网络传输状况为：通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标。此时，当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

可见，在丢包率较高且网络抖动较大所造成的网络传输状况不佳的情形下，通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值，可以让网络音频包的传输能有更多的时间进行重传，同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。

在本发明实施方式中，针对不同类型的音频帧（语音帧或音乐帧），在回放过程中，抖动缓冲器的阈值可以发生变换。对于易受干扰的音乐帧而且网络传输状况较差的情形，通过有意提高抖动缓冲器的阈值，可以提高音乐帧的播放流畅度，而且使得语音回放时延更低。

下面以SAD算法为例对音频采集检测的过程进行说明。

图2为根据本发明实施方式SAD算法检测流程图。

在图2中，首先对采集到的数据执行预滤波、噪声抑制等预处理。再对该预处理后的数据分别做时域和频域分析。

时域分析主要包括基于周期的提取、基音周期标准差，过零率、能零比参数提取。频域分析先执行FFT处理，然后从频谱系数中分别提取MFCC参数、熵谱、能量分布，信号的频谱质心，谱宽系数等等。

接着，对提取到的时域、频域系数输入到决策模块，最后输出帧类型标志，并且对决策模块判决出来的结果做相应的平滑，确保不会频繁的切换。

图3为根据本发明实施方式SAD算法决策流程图。

如图3所示，首先计算帧能量，并判断帧能量是否超过预先设定的能量门限值，如果没有超过则返回静音帧，否则把12维的MFCC系数输入到高斯混合模型中分别计算帧的语音概率密度Ps以及音乐概率密度Pm，如果Ps/Pm>固定门限，则判定为语音帧类型，否则继续判断当前帧处于上升沿还是下降沿，并且联合预滤波、噪声抑制等其他预处理参数，进一步基于现有技术的语音帧联合决策判断算法判断帧类型为语音帧类型或音乐帧类型；再对联合决策结果做相应的一次平滑，保证联合判决器的稳定输出。

以上以SAD算法为对音频采集检测以及类型判决的过程进行了详细描述。本领域技术人员可以意识到，这种描述仅仅是示范性的，并不用于对本发明实施方式的保护范围进行限定。

基于上述详细分析，本发明实施方式还提出了一种音频回放装置。

图4为根据本发明实施方式音频回放装置结构图。

如图4所示，该装置包括音频数据帧接收单元401、网络传输状况评估单元402、数据帧类型确定单元403和抖动缓冲器调整单元404，其中：

音频数据帧接收单元401，用于接收音频数据帧；

网络传输状况评估单元402，用于评估该音频数据帧的网络传输状况；

数据帧类型确定单元403，用于根据音频数据帧的类型标识确定音频数据帧的类型；

抖动缓冲器调整单元404，用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

网络传输状况评估单元402，用于通过包序号计算所述音频数据帧的丢包率；

抖动缓冲器调整单元404，用于当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

网络传输状况评估单元402，用于通过包到达时刻计算网络抖动指标；

抖动缓冲器调整单元404，用于当所述音频数据帧的类型为音乐帧且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

网络传输状况评估单元402，用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标；

抖动缓冲器调整单元404，用于当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

基于上述详细分析，本发明实施方式还提出了一种音频回放系统。

图5为根据本发明实施方式音频回放系统结构图。

如图5所示，该系统包括音频发送装置501和音频接收装置502，其中：

音频发送装置501，用于采集音频数据帧，对采集的音频数据帧按照类型进行标识，并向音频接收装置502发送标识后的音频数据帧；

音频接收装置502，用于接收所述标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况，其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

音频接收装置502，用于通过包序号计算所述音频数据帧的丢包率，并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

音频接收装置502，用于通过包到达时刻计算网络抖动指标，并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

音频接收装置502，用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标，并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

在一个实施方式中：

音频发送装置501，用于计算采集到音频数据帧的帧能量，并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较，如果帧能量低于预先设定的帧能量门限值，则将该音频数据帧标识为静音帧；如果帧能量高于预先设定的帧能量门限值，进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm，如果Ps/Pm大于预先设定的比较门限值，则将该音频数据帧标识为语音帧类型。

在一个实施方式中：

音频发送装置501，进一步用于当Ps/Pm不大于该预先设定的比较门限值时，对该音频数据帧进行联合判决，并根据联合判决结果按照类型进行标识。

图6为根据本发明实施方式音频回放总体处理流程图。

如图6所示：

在音频采集端，首先利用各种音频采集设备采集音频帧数据，并且对采集到的音频帧数据执行预滤波、噪声抑制等预处理，再对该预处理后的数据分别执行时域和频域分析。时域分析主要包括基于周期的提取、基音周期标准差，过零率，能零比参数提取。频域分析先执行FFT处理，然后从频谱系数中分别提取MFCC参数、熵谱、能量分布，信号的频谱质心，谱宽系数等等。

接着，在音频采集端，将提取到的时域、频域系数输入到决策模块，最后输出帧类型标志（即标识）；并且对决策模块判决出来的结果做相应的平滑处理，确保不会频繁的切换。

然后，在音频采集端对音频帧数据进行编码，并通过各种网络发送到音频播放端。

在音频播放端，首先接收标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况。当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。其中：

（1）、可以通过包序号计算音频数据帧的丢包率，并当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

（2）、可以通过包到达时刻计算网络抖动指标，并当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

（3）、可以通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标，并当音频数据帧的类型为音乐帧、音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存音频数据帧的抖动缓冲器的阈值。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的音频回放方法、装置和系统。

比如，可以遵循一定规范的应用程序接口，将音频回放方法编写为安装到浏览器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出音频回放方法、装置和系统。

用户可以在各种终端上采集并播放音频数据，这些终端可以包括但是不局限于：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等。

以上虽然详细罗列了终端的具体实例，本领域人员可以意识到，这些罗列仅是阐述目的，并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的InternetExplorer、Mozilla的Firefox、Apple的Safari，Opera、GoogleChrome、GreenBrowser等浏览器。

以上虽然详细列出了一些常用浏览器，本领域技术人员可以意识到，本发明实施方式并不局限于这些浏览器，而是可以适用于任意可用于显示网页服务器或档案系统内的文件、并让用户与文件互动的应用（App），这些应用可以是目前常见的各种浏览器，也可以是其他的任意具有网页浏览功能的应用程序。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的音频回放方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（MemoryStick）、xD卡等。

另外，还可以将本发明实施方式所提出的音频回放方法应用到基于闪存（Nandflash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，对采集的音频数据帧按照类型进行标识，并发送标识后的音频数据帧；接收所述标识后的音频数据帧，根据标识确定音频数据帧的类型，并且评估网络传输状况；当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见，应用本发明实施方式之后，可以根据音频帧的类型以及当前网络传输状况，估算和设定防抖动的抖动缓冲器阀值大小，如果音频帧的类型是音乐帧，并且当前网络抖动大或丢包率大，此时增大抖动缓冲器的阀值，让网络音频包的传输能有更多的时间进行重传，而且提高音乐帧回放流畅度，同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频回放方法，其特征在于，该方法包括：

当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值；

进一步的，在音频数据帧发送端对采集的音频数据帧按照类型进行标识，其中所述进行标识包括：

计算该音频数据帧的帧能量，并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较，如果帧能量低于预先设定的帧能量门限值，则将该音频数据帧标识为静音帧；如果帧能量高于预先设定的帧能量门限值，进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm，如果Ps/Pm大于预先设定的比较门限值，则将该音频数据帧标识为语音帧类型。

2.根据权利要求1所述的音频回放方法，其特征在于，所述评估网络传输状况为：通过包序号计算所述音频数据帧的丢包率；

所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时，调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括：

当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

3.根据权利要求1所述的音频回放方法，其特征在于，所述评估网络传输状况为：通过包到达时刻计算网络抖动指标；

当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

4.根据权利要求1所述的音频回放方法，其特征在于，所述评估网络传输状况为：通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标；

当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

5.根据权利要求1所述的音频回放方法，其特征在于，该方法进一步包括，如果Ps/Pm不大于该预先设定的比较门限值，进一步对该音频数据帧进行联合判决，并根据联合判决结果按照类型进行标识。

6.一种音频回放系统，其特征在于，包括音频发送装置和音频接收装置，其中：

音频发送装置，用于采集音频数据帧，对采集的音频数据帧按照类型进行标识，并向音频接收装置发送标识后的音频数据帧；所述音频发送装置用于计算采集到音频数据帧的帧能量，并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较，如果帧能量低于预先设定的帧能量门限值，则将该音频数据帧标识为静音帧；如果帧能量高于预先设定的帧能量门限值，进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm，如果Ps/Pm大于预先设定的比较门限值，则将该音频数据帧标识为语音帧类型；

7.根据权利要求6所述的音频回放系统，其特征在于，

音频接收装置，用于通过包序号计算所述音频数据帧的丢包率，并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

8.根据权利要求6所述的音频回放系统，其特征在于，

音频接收装置，用于通过包到达时刻计算网络抖动指标，并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

9.根据权利要求6所述的音频回放系统，其特征在于，

音频接收装置，用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标，并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时，提高用于缓存所述音频数据帧的抖动缓冲器的阈值。

10.根据权利要求6所述的音频回放系统，其特征在于，

音频发送装置，进一步用于当Ps/Pm不大于该预先设定的比较门限值时，对该音频数据帧进行联合判决，并根据联合判决结果按照类型进行标识。