CN101119323A

CN101119323A - 解决网络抖动的方法及装置

Info

Publication number: CN101119323A
Application number: CNA2007101546713A
Authority: CN
Inventors: 王新亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-09-21
Filing date: 2007-09-21
Publication date: 2008-02-06
Also published as: US20100208605A1; US8363673B2; WO2009039783A1

Abstract

本发明公开了一种解决网络抖动的方法及装置。本发明方法包括：在接收到的语音帧中查找是否有静音帧，如果有，若判断得到网络延时增加，则在静音帧构成的静音段中插入静音帧，若判断得到网络延时减小，则从静音帧构成的静音段中抽取静音帧。本发明还提供了一种与所述方法对应的解决网络抖动的装置。当网络延时变化时，在本发明实施例通过改变接收到的语音帧中的静音帧的数量，调整播放接收到的语音帧的时间以消除网络抖动对语音通信的影响，并且，插入或者抽取静音帧并不影响非静音帧的播放。因此，本发明实施例提供的技术方案不仅解决了网络抖动问题，而且还解决了因网络抖动引起的语音失真问题。

Description

解决网络抖动的方法及装置

技术领域

本发明涉及数据传输技术，尤其涉及一种解决网络抖动的方法及装置。

背景技术

随着互联网技术的不断成熟，在网络上进行语音交流变得相当普及，但现有网络的质量状况并不能充分满足语音交流的需要，网络中固有的延时、网络抖动、丢包、乱序等问题对网络上进行的语音交流造成了不可避免的影响，从而直接影响到语音交流的服务质量(Qos)。

在对语音交流造成影响的各个因素中，网络抖动是较常见的一个。网络抖动是指网络中相邻数据包的延时变化，以实现语音交流的即时通讯为例，发送端以相同的时间间隔，如10毫秒(ms)，将语音帧发送到互联网，通过互联网将语音帧发送到接收端，如果互联网的网络质量状况能够充分满足语音交流的需要，则这些语音帧在到达接收端时，仍会保持发送时的时间间隔，从而使得接收端播放的语音与发送端发送的语音相一致。

但是，现有网络的质量状况并不能满足语音交流的需要，发送端发送的语音帧在网络上经历不同的路由和网络拥塞，使得每个语音帧在网络中的延时各不相同，在此情况下，语音帧到达接收端的时间间隔不再与发送时的时间间隔完全一致，从而导致接收端播放的语音产生失真，直接影响到语音交流的服务质量。

为了解决网络抖动对语音交流的影响，现有技术提供了一种Time-scale抗抖动技术，该技术利用接收端的抖动缓冲区保存接收到的语音帧，采用同步叠加算法(SOLA)、基音同步叠加算法(PSOLA)或者基于波形相似性的同步叠加算法(WSOLA)等，对保存在抖动缓冲区中的所有语音帧进行时域的拉伸或压缩处理。具体包括：若判断得到在新的语音帧到来前，抖动缓冲区中的所有语音帧将被播放完，即网络延时增加时，则采用上述任一算法对保存在抖动缓冲区中的所有语音帧做时域的拉伸处理，以延长语音帧的播放时间；相反，若判断得到抖动缓冲区将在短时间内收到很多语音帧，即网络延时减小时，为避免抖动缓冲区中的语音帧溢出，则采用上述任一算法对保存在抖动缓冲区中的所有语音帧做时域的压缩处理，以缩短语音帧的播放时间。

在对现有技术的研究和实践过程中，发明人发现现有技术存在以下问题：

Time-scale技术通过调整抖动缓冲区中保存的所有语音帧的播放时间来适应网络抖动的变化，但是语音帧中包括静音帧和非静音帧，由于对非静音帧进行时域处理会改变非静音帧的原始采样频率，因此，如果接收端按照原始采样频率播放经时域处理的非静音帧，则会产生语音失真的问题，具体表现是语速加快或者语速变的很慢。由此可见，Time-scale技术虽然能够适应网络抖动的变化，但无法消除网络抖动所带来的语音失真问题。

发明内容

本发明实施例要解决的技术问题是提供一种解决网络抖动的方法及装置，能够消除网络抖动带来的语音失真。

为解决上述技术问题，本发明所提供的实施例是通过以下技术方案实现的：

本发明实施例提供了一种解决网络抖动的方法，包括：

在接收到的语音帧中查找是否有静音帧，如果有，若判断得到网络延时增加，则在静音帧构成的静音段中插入静音帧，若判断得到网络延时减小，则从静音帧构成的静音段中抽取静音帧。

优选的，上述方法进一步包括：对接收到的语音帧进行静音检测，并标识出静音帧。

优选的，所述对接收到的语音帧进行静音检测，并标识出静音帧具体包括：

计算接收到的语音帧的语音信号能量以及背景噪声能量，若所述背景噪声能量与语音信号能量的比值大于预置的静音域值，则将所述语音帧标识为静音帧。

优选的，判断网络延时是否增加具体包括：

获取网络抖动预测值，以及播放接收到的语音帧所需时间；

计算所述网络抖动预测值与所述时间的差值；

将所述差值与预置的网络抖动第一域值进行比较，若所述差值大于所述网络抖动第一域值，则判断得到网络延时增加；

判断网络延时是否减小具体包括：

将所述网络抖动预测值与所述时间的差值与预置的网络第二域值进行比较，若所述差值小于所述网络抖动第二域值，则判断得到网络延时减小。

优选的，所述获取网络抖动预测值具体为：

用从接收到的语音帧中取走语音帧的时间减去相对所述取走的语音帧最近一次接收的语音帧的接收时间，得到网络抖动预测值。

优选的，所述在所述静音帧构成的静音段中插入静音帧具体包括：

用所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值减去所述网络抖动第一域值，再除以每帧语音帧播放时间，获得插入静音帧的帧数；

在静音帧构成的静音段中插入所述帧数的静音帧。

优选的，所述从所述静音帧构成的静音段中抽取静音帧具体包括：

用所述网络抖动第二域值减去所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值，再除以每帧语音帧播放时间，获得抽取静音帧的帧数；

从静音帧构成的静音段中抽取所述帧数的静音帧。

本发明实施例还提供了一种解决网络抖动的装置，包括：静音帧查找单元，延时判断单元，静音帧插入单元，静音帧抽取单元；

所述静音帧查找单元，用于在接收到的语音帧中查找是否有静音帧，如果有，则触发所述延时判断单元；

所述延时判断单元，若判断得到网络延时增加，则触发所述静音帧插入单元，若判断得到网络延时减小，则触发所述静音帧抽取单元；

所述静音帧插入单元，用于在静音帧构成的静音段中插入静音帧；

所述静音帧抽取单元，用于从静音帧构成的静音段中抽取静音帧。

优选的，上述装置进一步包括：静音帧检测单元；

所述静音帧检测单元，用于对语音帧进行静音检测，并标识出静音帧。

优选的，所述静音检测单元具体包括：

能量计算单元，用于计算接收到的语音帧的语音信号能量以及背景噪声能量；

静音标识单元，用于计算背景噪声能量与语音信号能量的比值，若所述比值大于预置的静音域值，则将所述语音帧标识为静音帧。

优选的，所述延时判断单元具体包括：抖动预测单元，第一差值计算单元，判断单元；

所述抖动预测单元，用于获取网络抖动预测值，以及播放所述接收到的语音帧所需时间；

所述第一差值计算单元，用于计算所述网络抖动预测值与所述时间的差值；

所述判断单元，用于将所述差值与预置的网络抖动第一域值进行比较，若所述差值大于所述网络抖动第一域值，则判断得到网络延时增加，如果否，则将所述差值与预置的网络抖动第二域值进行比较，若所述差值小于所述网络抖动第二域值，则判断得到网络延时减小。

优选的，所述抖动预测单元具体包括：第一时间获取单元，第二时间获取单元，第二差值计算单元；

所述第一时间获取单元，用于获取从接收到的语音帧中取走语音帧的时间；

所述第二时间获取单元，用于获取相对所述取走的语音帧最近一次接收的语音帧的接收时间；

所述第二差值计算单元，用于用所述第一时间获取单元获取的时间减去所述第二时间获取单元获取的时间，得到网络抖动预测值。

优选的，所述静音帧插入单元具体包括：第三差值计算单元，插入帧数计算单元，插帧单元；

所述第三差值计算单元，用于用所述第一差值计算单元获取的差值减去所述网络抖动第一域值；

所述插入帧数计算单元，用于用所述第三差值计算单元的计算结果除以每帧语音帧播放时间，获得插入静音帧的帧数；

所述插帧单元，用于在静音帧构成的静音段中插入所述帧数的静音帧。

优选的，所述静音帧抽取单元具体包括：第四差值计算单元，抽取帧数计算单元，抽帧单元；

所述第四差值计算单元，用于用所述网络抖动第二域值减去所述第一差值计算单元获取的差值；

所述抽取帧数计算单元，用于用所述第四差值计算单元的计算结果除以每帧语音帧播放时间，获得抽取静音帧的帧数；

所述抽帧单元，用于从静音帧构成的静音段中抽取所述帧数的静音帧。

上述技术方案中具有如下有益效果：

本发明实施例中，如果接收到的语音帧中有标识为静音帧的语音帧，则判断网络延时是否变化，如果网络延时增加，则在静音帧构成的静音段中插入静音帧，如果网络延时减小，则从静音帧构成的静音段中抽取静音帧。当网络延时变化时，在本发明实施例通过改变接收到的语音帧中的静音帧的数量，调整播放接收到的语音帧的时间以消除网络抖动对语音通信的影响，并且，插入或者抽取静音帧并不影响非静音帧的播放。因此，本发明实施例提供的技术方案不仅解决了网络抖动问题，而且还解决了因网络抖动引起的语音失真问题。

附图说明

图1为本发明第一实施例提供的解决网络抖动的方法流程图；

图2为本发明第二实施例提供的解决网络抖动的方法流程图；

图3为本发明第三实施例提供的解决网络抖动的方法流程图；

图4为本发明实施例提供的解决网络抖动的装置组成示意图；

图5为本发明实施例提供的延时判断单元的组成示意图；

图6为本发明实施例提供的抖动预测单元的组成示意图；

图7为本发明实施例提供的静音帧插入单元的组成示意图；

图8为本发明实施例提供的静音帧抽取单元的组成示意图；

图9为本发明实施例提供的静音帧检测单元的组成示意图。

具体实施方式

本发明实施例提供了一种解决网络抖动的方法及装置，为了更清楚的解释本发明实施例的具体实现方式，以下结合附图对本发明实施例进行详细描述。

以下结合附图对本发明实施例提供的解决网络抖动的方法进行具体描述。

在本发明实施例中，接收到的语音帧保存在抖动缓冲区中，该抖动缓冲区为大小固定的一段存储区。

本发明实施例提供的解决网络抖动的方法包括：在接收到的语音帧中查找是否有静音帧，如果有，若判断得到网络延时增加，则在静音帧构成的静音段中插入静音帧，若判断得到网络延时减小，则从静音帧构成的静音段中抽取静音帧。

请参见图1，为本发明第一实施例提供的解决网络抖动的方法流程图，包括：

步骤101：在接收到的语音帧中查找是否有静音帧的语音帧，如果有，则进入步骤102，如果否，则结束流程；

步骤102：判断网络延时是否增加，如果是，则进入步骤103，如果否，则进入步骤104；

步骤103：在静音帧构成的静音段中插入静音帧；

步骤104：判断网络延时是否减小，如果是，则进入步骤105；如果否，则结束。

步骤105：从静音帧构成的静音段中抽取静音帧。

本发明第一实施例提供的方法中，当网络延迟变化时，通过改变接收到的语音帧中的静音帧的数量，调整播放接收到的语音帧的时间，消除了网络抖动对语音通信的影响。

请参见图2，为本发明第二实施例提供的解决网络抖动的方法流程图，该方法包括：

步骤201：在接收到的语音帧中查找是否有静音帧，如果有，则进入步骤202，如果否，则结束流程；

步骤202：获取网络抖动预测值T_pred，以及播放接收到的语音帧所需时间T_buff；

其中，接收到的语音帧的帧数可以实时统计，比如，每收到一个语音帧，则帧数加1，取走一个语音帧，则帧数减1，并且，在传送语音帧前，语音帧发送端会将语音帧的编码方式发送给语音帧接收端，语音帧接收端根据所述编码方式，获得每帧语音帧播放时间T_frame，因此，T_buff可以计算得到。

步骤203：计算T_pred与T_buff的差值；

步骤204：将步骤203中计算出的差值与预置的网络抖动第一域值T_max进行比较，若所述差值大于T_max，则说明网络延时增加，进入步骤205；如果否，则进入步骤206；

步骤205：在静音帧构成的静音段中插入静音帧；

步骤206：将步骤203计算出的差值与预置的网络抖动第二域值T_min进行比较，若该差值小于T_min，则说明网络延时减小，进入步骤207；如果该差值大于T_min，则结束。

步骤207：从静音帧构成的静音段中抽取静音帧。

本发明第二实施例提供的方法中，采用的判断网络延迟是否变化的具体手段为：获取网络抖动预测值T_pred，以及播放接收到的语音帧所需时间T_buff，将T_pred与T_buff的差值与预置网络抖动域值进行比较，从而判断网络延迟是否变化。该实施例亦可实现消除网络抖动对语音通信的影响，

请参见图3，为本发明第三实施例提供的解决网络抖动的方法流程图，该方法包括：

步骤301：在接收到的语音帧中查找是否有静音帧，如果有，则进入步骤302，如果否，则结束流程；

步骤302：获取从接收到的语音帧中取走语音帧的时间T_get，以及相对所述取走的语音帧最近一次接收的语音帧的接收时间T_last；

其中，抖动缓冲区为一个大小固定的存储区，并且先进入该抖动缓冲区中的语音帧先出去，因此，能够被取走的语音帧可以认为是排在抖动缓冲区第一位的语音帧，而相对该语音帧排在抖动缓冲区中最后一位的语音帧则是相对被取走的语音帧最近一次接收到的语音帧。比如，抖动缓冲区可以保存五个语音帧，这五个语音帧分别是A，B，C，D，E，其中，A为五个语音帧中第一个进入抖动缓冲区的语音帧，其次为B，C，D，而E为五个语音帧中最后一个进入抖动缓冲区的语音帧，那么，在这五个语音帧中当前能够被取走的则是排在第一位的A，而排在抖动缓冲区最后一位的E则是相对A最近一次接收到的语音帧。

步骤303：用T_get减去T_last，得到网络抖动预测值T_pred；

步骤304：获取播放接收到的语音帧所需时间T_buff；

步骤305：计算T_pred与T_buff的差值；

步骤306：将步骤305计算出的差值与预置的网络抖动第一域值T_max进行比较，若所述差值大于T_max，则说明网络延时增加，进入步骤307；如果否，则进入步骤308；

步骤307：用T_pred与T_buff的差值减去T_max，再除以每帧语音帧播放时间T_frame，获得插入静音帧的帧数，在静音帧构成的静音段中插入所述帧数的静音帧；

步骤308：将步骤305计算出的差值与预置的网络抖动第二域值T_min进行比较，若差值小于T_min，则说明网络延时减小，进入步骤309；如果该差值大于T_min，则结束。

步骤309：用T_min减去T_pred与T_buff的差值，再除以T_frame获得抽取静音帧的帧数，从所静音帧构成的静音段中抽取所述帧数的静音帧。

本发明第三实施例提供的方法中，采用的获取预测网络抖动值T_pred的具体手段为：用从接收到的语音帧中取走语音帧的时间T_get减去相对所述取走的语音帧最近一次接收的语音帧的接收时间T_last，得到网络抖动预测值。

由于本发明第三实施例提供的方法中，需要得到T_get和T_last，因此，该方法的执行条件为：每次从抖动缓冲区中取走一帧语音帧进行播放时，或者，抖动缓冲区中每接收一帧语音帧时，执行步骤301至步骤309。

并且，本发明第三实施例中，根据T_pred，T_buff以及预置的网络抖动域值计算得到的抽取或者插入静音帧的帧数，可以准确的消除网络抖动对语音的影响。

此外，为了进一步提高消除网络抖动对语音帧影响的准确度，可以对步骤307及步骤309中计算出的插帧帧数和抽帧帧数进行调整。比如，可以用抽帧帧数减去调节量x，插帧帧数加上调节量x，x为大于等于0的整数，在具体实现时，技术人员可以按照系统要求选定x的取值。

本发明第四实施例提供的方法与本发明第二实施例提供的方法的区别仅在于，该方法采用固定阈值判断方法，判断网络是否延迟，固定阈值判断方法具体包括：

在接收一个语音帧时，用该语音帧的网络延时与预置的域值进行比较，若该语音帧的网络延时大于该阈值，则说明网络延时增加，若小于该域值则说明网络延时减小。本发明第四实施例与本发明第二实施例的相同之处，请参见前文内容，此处不再赘述。

进一步，在该方法中为了准确消除网络抖动对语音通信的影响，则可用接收一个语音帧的网络延时减去预置的域值得到网络抖动预测值，然后按照本发明第三实施例提供计算帧数的方法得到插入静音帧的帧数或者抽取静音帧的帧数。

以下介绍获得网络抖动第一域值T_max，及网络抖动第二域值T_min的方法。

对于T_max和T_min的选择，需要考虑网络抖动的情况，如果T_max太大，或者T_min太小都会造成无法准确判断网络延时变化的情况，反之亦然，因此，本发明实施例中采用网络抖动跟踪技术，依据多次网络抖动情况来选择T_max和T_min。具体方法包括：取连续N次网络抖动预测值中较小的M个网络抖动预测值的平均值作为T_max；取连续N次网络抖动预测值中较大的M个网络抖动预测值的平均值作为T_min。比如，取连续五次网络抖动预测值中较大的三个网络抖动预测的平均值作为T_max，取连续五次网络抖动预测值中较小的三个网络抖动预测的平均值作为T_min。

在本发明实施例中，接收到的语音帧保存在抖动缓冲区中，因此，可以在抖动缓冲区中每收到一个语音帧，就对该语音帧进行静音检测，并标识出静音帧。那么，本发明第一实施例至第四实施例中查找静音帧的方法具体为：根据静音标识，在接收到的语音帧中查找静音帧。

如果不在抖动缓冲区每接收一个语音帧时进行静音检测，则本发明第一实施例至第四实施例中查找静音帧的方法具体为：对接收到的语音帧进行静音检测，获的静音帧。

其中，对语音帧进行静音检测可以采用如下几种方法：

第一种方式：计算语音帧的语音信号能量以及背景噪声能量，若所述背景噪声能量与语音信号能量的比值大于预置的静音域值，则将所述语音帧标识为静音帧。其中，静音域值可以取大于等于0.6小于1的任意数，但并不排除静音域值取其他值的可能性。

第二种方式：计算语音帧的短时平均能量，若该能量小于静音的能量判断阈值，则将该语音帧标识为静音帧；

第三种方式：根据语音帧的时域过零率判断，如果过零率超过阈值，则将该语音帧标识为静音。

以上简要叙述了几种静音检测方法，由于静音检测方法众多，此处不再列举，其他未列举的静音检测方法也适用于本发明实施例。

以上介绍了本发明实施例提供的方法的具体实现过程，以下介绍本发明实施例提供的装置。

请参见图4，为本发明实施例提供的一种解决网络抖动的装置，包括：静音帧查找单元401，延时判断单元402，静音帧插入单元403，静音帧抽取单元404；

所述静音帧查找单元401，用于在接收到的语音帧中查找是否有静音帧，如果有，则触发所述延时判断单元402；

所述延时判断单元402，若判断得到网络延时增加，则触发所述静音帧插入单元403，若判断得到网络延时减小，则触发所述静音帧抽取单元404；

所述静音帧插入单元403，用于在所述静音帧构成的静音段中插入静音帧；

所述静音帧抽取单元404，用于从所述静音帧构成的静音段中抽取静音帧。

在本发明实施例提供的装置中，所述延时判断单元402可以有多种实现方式，此处列举一种，请参见图5，该单元具体包括：抖动预测单元4021，第一差值计算单元4022，判断单元4023；

所述抖动预测单元4021，用于获取网络抖动预测值T_pred，以及播放所述接收到的语音帧所需时间T_buff；

所述第一差值计算单元4022，用于计算所述网络抖动预测值T_pred与T_buff的差值；

所述判断单元4023，用于将所述差值与预置的网络抖动第一域值T_max进行比较，若所述差值大于所述网络抖动第一域值T_max，则说明网络延时增加，如果否，则将所述差值与预置的网络抖动第二域值T_min进行比较，若所述差值小于所述网络抖动第二域值T_min，则说明网络延时减小。

在本发明实施例提供的装置中，所述抖动预测单元4021也有多种实现方式，此处仅列举一种，请参见图6，该单元具体包括：第一时间获取单元40211，第二时间获取单元40212，第二差值计算单元40213；

所述第一时间获取单元40211，用于获取从接收到的语音帧中取走语音帧的时间；

所述第二时间获取单元40212，用于获取相对所述取走的语音帧最近一次接收到的语音帧的接收时间；

所述第二差值计算单元40213，用于用所述第一时间获取单元获取的时间减去所述第二时间获取单元获取的时间，得到网络抖动预测值T_pred。

为了能够实现准确的插帧及抽帧处理，当所述抖动预测单元4021采用如图6所示的实现方式时，请参见图7，静音帧插入单元403具体包括：第三差值计算单元4031，插入帧数计算单元4032，插帧单元4033；

第三差值计算单元4031，用于用所述第一差值计算单元4022获取的差值减去预置的网络抖动第一域值T_max；

插入帧数计算单元4032，用第三差值计算单元4031的计算结果除以每帧语音帧播放时间T_frame，获得插入静音帧的帧数；

插帧单元4033，用于在所述静音帧构成的静音段中插入所述帧数的静音帧。

请参见图8，静音帧抽取单元404具体包括：第四差值计算单元4041，抽取帧数计算单元4042，抽帧单元4043；

第四差值计算单元4041，用于用所述网络抖动第二域值T_min减去第一差值计算单元4022获取的差值；

抽取帧数计算单元4042，用于用所述第四差值计算单元4041的计算结果除以语音帧播放时间T_frame，获得抽取静音帧的帧数；

抽帧单元4043，用于从所述静音帧构成的静音段中抽取所述帧数的静音帧。

如果采用在抖动缓冲区接收一个语音帧的时候进行一次静音检测，那么，本发明实施例提供了一种静音帧检测单元，请参见图9，该用于对接收到的语音帧进行静音检测，并标识出静音帧。该静音检测单元具体包括：

能量计算单元901，用于计算语音帧的语音信号能量以及背景噪声能量；

静音标识单元902，用于计算背景噪声能量与语音信号能量的比值，若该比值大于预置的静音域值，则将所述语音帧标识为静音帧。

本发明实施例提供的静音帧查找单元401具体用于根据静音标识查找静音帧。

该静音检测单元可以设置在本发明实施例提供的解决网络抖动的装置中，亦可设置的其他设备中并不影响本发明实施例的实现。

如果本发明实施例不采用在抖动缓冲区每收到一个语音帧，对语音帧静音检测的方式，则在本发明实施例提供的静音帧查找单元401具体包括：能量计算单元，用于计算语音帧的语音信号能量以及背景噪声能量；

触发单元，用于计算背景噪声能量与语音信号能量的比值，若该比值大于预置的静音域值，则触发延时判断单元402。

值得注意的是，在本发明实施例提供的方法及装置中，也可以先判断网络延时是否减小，再判断网络延时是否增加，并不影响本发明实施例的实现。

以上对本发明所提供的一种解决网络抖动的方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种解决网络抖动的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法进一步包括：对接收到的语音帧进行静音检测，并标识出静音帧。

3.如权利要求2所述的方法，其特征在于，所述对接收到的语音帧进行静音检测，并标识出静音帧具体包括：

4.如权利要求1或2或3所述的方法，其特征在于，判断网络延时是否增加具体包括：

获取网络抖动预测值，以及播放接收到的语音帧所需时间；

计算所述网络抖动预测值与所述时间的差值；

判断网络延时是否减小具体包括：

5.如权利要求4所述的方法，其特征在于，所述获取网络抖动预测值具体为：

6.如权利要求5所述的方法，其特征在于，所述在所述静音帧构成的静音段中插入静音帧具体包括：

在静音帧构成的静音段中插入所述帧数的静音帧。

7.如权利要求6所述的方法，其特征在于，所述从所述静音帧构成的静音段中抽取静音帧具体包括：

从静音帧构成的静音段中抽取所述帧数的静音帧。

8.一种解决网络抖动的装置，其特征在于，包括：静音帧查找单元，延时判断单元，静音帧插入单元，静音帧抽取单元；

9.如权利要求8所述的装置，其特征在于，所述装置进一步包括：静音帧检测单元；

10.如权利要求9所述的装置，其特征在于，所述静音检测单元具体包括：

11.如权利要求8或9或10所述的装置，其特征在于，所述延时判断单元具体包括：抖动预测单元，第一差值计算单元，判断单元；

12.如权利要求11所述的装置，其特征在于，所述抖动预测单元具体包括：第一时间获取单元，第二时间获取单元，第二差值计算单元；

13.如权利要求12所述的装置，其特征在于，所述静音帧插入单元具体包括：第三差值计算单元，插入帧数计算单元，插帧单元；

14.如权利要求12所述的装置，其特征在于，所述静音帧抽取单元具体包括：第四差值计算单元，抽取帧数计算单元，抽帧单元；