CN101119323A - 解决网络抖动的方法及装置 - Google Patents

解决网络抖动的方法及装置 Download PDF

Info

Publication number
CN101119323A
CN101119323A CNA2007101546713A CN200710154671A CN101119323A CN 101119323 A CN101119323 A CN 101119323A CN A2007101546713 A CNA2007101546713 A CN A2007101546713A CN 200710154671 A CN200710154671 A CN 200710154671A CN 101119323 A CN101119323 A CN 101119323A
Authority
CN
China
Prior art keywords
frame
quiet
unit
speech
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101546713A
Other languages
English (en)
Inventor
王新亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNA2007101546713A priority Critical patent/CN101119323A/zh
Publication of CN101119323A publication Critical patent/CN101119323A/zh
Priority to PCT/CN2008/072437 priority patent/WO2009039783A1/zh
Priority to US12/678,965 priority patent/US8363673B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/19Flow control; Congestion control at layers above the network layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种解决网络抖动的方法及装置。本发明方法包括:在接收到的语音帧中查找是否有静音帧,如果有,若判断得到网络延时增加,则在静音帧构成的静音段中插入静音帧,若判断得到网络延时减小,则从静音帧构成的静音段中抽取静音帧。本发明还提供了一种与所述方法对应的解决网络抖动的装置。当网络延时变化时,在本发明实施例通过改变接收到的语音帧中的静音帧的数量,调整播放接收到的语音帧的时间以消除网络抖动对语音通信的影响,并且,插入或者抽取静音帧并不影响非静音帧的播放。因此,本发明实施例提供的技术方案不仅解决了网络抖动问题,而且还解决了因网络抖动引起的语音失真问题。

Description

解决网络抖动的方法及装置
技术领域
本发明涉及数据传输技术,尤其涉及一种解决网络抖动的方法及装置。
背景技术
随着互联网技术的不断成熟,在网络上进行语音交流变得相当普及,但现有网络的质量状况并不能充分满足语音交流的需要,网络中固有的延时、网络抖动、丢包、乱序等问题对网络上进行的语音交流造成了不可避免的影响,从而直接影响到语音交流的服务质量(Qos)。
在对语音交流造成影响的各个因素中,网络抖动是较常见的一个。网络抖动是指网络中相邻数据包的延时变化,以实现语音交流的即时通讯为例,发送端以相同的时间间隔,如10毫秒(ms),将语音帧发送到互联网,通过互联网将语音帧发送到接收端,如果互联网的网络质量状况能够充分满足语音交流的需要,则这些语音帧在到达接收端时,仍会保持发送时的时间间隔,从而使得接收端播放的语音与发送端发送的语音相一致。
但是,现有网络的质量状况并不能满足语音交流的需要,发送端发送的语音帧在网络上经历不同的路由和网络拥塞,使得每个语音帧在网络中的延时各不相同,在此情况下,语音帧到达接收端的时间间隔不再与发送时的时间间隔完全一致,从而导致接收端播放的语音产生失真,直接影响到语音交流的服务质量。
为了解决网络抖动对语音交流的影响,现有技术提供了一种Time-scale抗抖动技术,该技术利用接收端的抖动缓冲区保存接收到的语音帧,采用同步叠加算法(SOLA)、基音同步叠加算法(PSOLA)或者基于波形相似性的同步叠加算法(WSOLA)等,对保存在抖动缓冲区中的所有语音帧进行时域的拉伸或压缩处理。具体包括:若判断得到在新的语音帧到来前,抖动缓冲区中的所有语音帧将被播放完,即网络延时增加时,则采用上述任一算法对保存在抖动缓冲区中的所有语音帧做时域的拉伸处理,以延长语音帧的播放时间;相反,若判断得到抖动缓冲区将在短时间内收到很多语音帧,即网络延时减小时,为避免抖动缓冲区中的语音帧溢出,则采用上述任一算法对保存在抖动缓冲区中的所有语音帧做时域的压缩处理,以缩短语音帧的播放时间。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题:
Time-scale技术通过调整抖动缓冲区中保存的所有语音帧的播放时间来适应网络抖动的变化,但是语音帧中包括静音帧和非静音帧,由于对非静音帧进行时域处理会改变非静音帧的原始采样频率,因此,如果接收端按照原始采样频率播放经时域处理的非静音帧,则会产生语音失真的问题,具体表现是语速加快或者语速变的很慢。由此可见,Time-scale技术虽然能够适应网络抖动的变化,但无法消除网络抖动所带来的语音失真问题。
发明内容
本发明实施例要解决的技术问题是提供一种解决网络抖动的方法及装置,能够消除网络抖动带来的语音失真。
为解决上述技术问题,本发明所提供的实施例是通过以下技术方案实现的:
本发明实施例提供了一种解决网络抖动的方法,包括:
在接收到的语音帧中查找是否有静音帧,如果有,若判断得到网络延时增加,则在静音帧构成的静音段中插入静音帧,若判断得到网络延时减小,则从静音帧构成的静音段中抽取静音帧。
优选的,上述方法进一步包括:对接收到的语音帧进行静音检测,并标识出静音帧。
优选的,所述对接收到的语音帧进行静音检测,并标识出静音帧具体包括:
计算接收到的语音帧的语音信号能量以及背景噪声能量,若所述背景噪声能量与语音信号能量的比值大于预置的静音域值,则将所述语音帧标识为静音帧。
优选的,判断网络延时是否增加具体包括:
获取网络抖动预测值,以及播放接收到的语音帧所需时间;
计算所述网络抖动预测值与所述时间的差值;
将所述差值与预置的网络抖动第一域值进行比较,若所述差值大于所述网络抖动第一域值,则判断得到网络延时增加;
判断网络延时是否减小具体包括:
将所述网络抖动预测值与所述时间的差值与预置的网络第二域值进行比较,若所述差值小于所述网络抖动第二域值,则判断得到网络延时减小。
优选的,所述获取网络抖动预测值具体为:
用从接收到的语音帧中取走语音帧的时间减去相对所述取走的语音帧最近一次接收的语音帧的接收时间,得到网络抖动预测值。
优选的,所述在所述静音帧构成的静音段中插入静音帧具体包括:
用所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值减去所述网络抖动第一域值,再除以每帧语音帧播放时间,获得插入静音帧的帧数;
在静音帧构成的静音段中插入所述帧数的静音帧。
优选的,所述从所述静音帧构成的静音段中抽取静音帧具体包括:
用所述网络抖动第二域值减去所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值,再除以每帧语音帧播放时间,获得抽取静音帧的帧数;
从静音帧构成的静音段中抽取所述帧数的静音帧。
本发明实施例还提供了一种解决网络抖动的装置,包括:静音帧查找单元,延时判断单元,静音帧插入单元,静音帧抽取单元;
所述静音帧查找单元,用于在接收到的语音帧中查找是否有静音帧,如果有,则触发所述延时判断单元;
所述延时判断单元,若判断得到网络延时增加,则触发所述静音帧插入单元,若判断得到网络延时减小,则触发所述静音帧抽取单元;
所述静音帧插入单元,用于在静音帧构成的静音段中插入静音帧;
所述静音帧抽取单元,用于从静音帧构成的静音段中抽取静音帧。
优选的,上述装置进一步包括:静音帧检测单元;
所述静音帧检测单元,用于对语音帧进行静音检测,并标识出静音帧。
优选的,所述静音检测单元具体包括:
能量计算单元,用于计算接收到的语音帧的语音信号能量以及背景噪声能量;
静音标识单元,用于计算背景噪声能量与语音信号能量的比值,若所述比值大于预置的静音域值,则将所述语音帧标识为静音帧。
优选的,所述延时判断单元具体包括:抖动预测单元,第一差值计算单元,判断单元;
所述抖动预测单元,用于获取网络抖动预测值,以及播放所述接收到的语音帧所需时间;
所述第一差值计算单元,用于计算所述网络抖动预测值与所述时间的差值;
所述判断单元,用于将所述差值与预置的网络抖动第一域值进行比较,若所述差值大于所述网络抖动第一域值,则判断得到网络延时增加,如果否,则将所述差值与预置的网络抖动第二域值进行比较,若所述差值小于所述网络抖动第二域值,则判断得到网络延时减小。
优选的,所述抖动预测单元具体包括:第一时间获取单元,第二时间获取单元,第二差值计算单元;
所述第一时间获取单元,用于获取从接收到的语音帧中取走语音帧的时间;
所述第二时间获取单元,用于获取相对所述取走的语音帧最近一次接收的语音帧的接收时间;
所述第二差值计算单元,用于用所述第一时间获取单元获取的时间减去所述第二时间获取单元获取的时间,得到网络抖动预测值。
优选的,所述静音帧插入单元具体包括:第三差值计算单元,插入帧数计算单元,插帧单元;
所述第三差值计算单元,用于用所述第一差值计算单元获取的差值减去所述网络抖动第一域值;
所述插入帧数计算单元,用于用所述第三差值计算单元的计算结果除以每帧语音帧播放时间,获得插入静音帧的帧数;
所述插帧单元,用于在静音帧构成的静音段中插入所述帧数的静音帧。
优选的,所述静音帧抽取单元具体包括:第四差值计算单元,抽取帧数计算单元,抽帧单元;
所述第四差值计算单元,用于用所述网络抖动第二域值减去所述第一差值计算单元获取的差值;
所述抽取帧数计算单元,用于用所述第四差值计算单元的计算结果除以每帧语音帧播放时间,获得抽取静音帧的帧数;
所述抽帧单元,用于从静音帧构成的静音段中抽取所述帧数的静音帧。
上述技术方案中具有如下有益效果:
本发明实施例中,如果接收到的语音帧中有标识为静音帧的语音帧,则判断网络延时是否变化,如果网络延时增加,则在静音帧构成的静音段中插入静音帧,如果网络延时减小,则从静音帧构成的静音段中抽取静音帧。当网络延时变化时,在本发明实施例通过改变接收到的语音帧中的静音帧的数量,调整播放接收到的语音帧的时间以消除网络抖动对语音通信的影响,并且,插入或者抽取静音帧并不影响非静音帧的播放。因此,本发明实施例提供的技术方案不仅解决了网络抖动问题,而且还解决了因网络抖动引起的语音失真问题。
附图说明
图1为本发明第一实施例提供的解决网络抖动的方法流程图;
图2为本发明第二实施例提供的解决网络抖动的方法流程图;
图3为本发明第三实施例提供的解决网络抖动的方法流程图;
图4为本发明实施例提供的解决网络抖动的装置组成示意图;
图5为本发明实施例提供的延时判断单元的组成示意图;
图6为本发明实施例提供的抖动预测单元的组成示意图;
图7为本发明实施例提供的静音帧插入单元的组成示意图;
图8为本发明实施例提供的静音帧抽取单元的组成示意图;
图9为本发明实施例提供的静音帧检测单元的组成示意图。
具体实施方式
本发明实施例提供了一种解决网络抖动的方法及装置,为了更清楚的解释本发明实施例的具体实现方式,以下结合附图对本发明实施例进行详细描述。
以下结合附图对本发明实施例提供的解决网络抖动的方法进行具体描述。
在本发明实施例中,接收到的语音帧保存在抖动缓冲区中,该抖动缓冲区为大小固定的一段存储区。
本发明实施例提供的解决网络抖动的方法包括:在接收到的语音帧中查找是否有静音帧,如果有,若判断得到网络延时增加,则在静音帧构成的静音段中插入静音帧,若判断得到网络延时减小,则从静音帧构成的静音段中抽取静音帧。
请参见图1,为本发明第一实施例提供的解决网络抖动的方法流程图,包括:
步骤101:在接收到的语音帧中查找是否有静音帧的语音帧,如果有,则进入步骤102,如果否,则结束流程;
步骤102:判断网络延时是否增加,如果是,则进入步骤103,如果否,则进入步骤104;
步骤103:在静音帧构成的静音段中插入静音帧;
步骤104:判断网络延时是否减小,如果是,则进入步骤105;如果否,则结束。
步骤105:从静音帧构成的静音段中抽取静音帧。
本发明第一实施例提供的方法中,当网络延迟变化时,通过改变接收到的语音帧中的静音帧的数量,调整播放接收到的语音帧的时间,消除了网络抖动对语音通信的影响。
请参见图2,为本发明第二实施例提供的解决网络抖动的方法流程图,该方法包括:
步骤201:在接收到的语音帧中查找是否有静音帧,如果有,则进入步骤202,如果否,则结束流程;
步骤202:获取网络抖动预测值T_pred,以及播放接收到的语音帧所需时间T_buff;
其中,接收到的语音帧的帧数可以实时统计,比如,每收到一个语音帧,则帧数加1,取走一个语音帧,则帧数减1,并且,在传送语音帧前,语音帧发送端会将语音帧的编码方式发送给语音帧接收端,语音帧接收端根据所述编码方式,获得每帧语音帧播放时间T_frame,因此,T_buff可以计算得到。
步骤203:计算T_pred与T_buff的差值;
步骤204:将步骤203中计算出的差值与预置的网络抖动第一域值T_max进行比较,若所述差值大于T_max,则说明网络延时增加,进入步骤205;如果否,则进入步骤206;
步骤205:在静音帧构成的静音段中插入静音帧;
步骤206:将步骤203计算出的差值与预置的网络抖动第二域值T_min进行比较,若该差值小于T_min,则说明网络延时减小,进入步骤207;如果该差值大于T_min,则结束。
步骤207:从静音帧构成的静音段中抽取静音帧。
本发明第二实施例提供的方法中,采用的判断网络延迟是否变化的具体手段为:获取网络抖动预测值T_pred,以及播放接收到的语音帧所需时间T_buff,将T_pred与T_buff的差值与预置网络抖动域值进行比较,从而判断网络延迟是否变化。该实施例亦可实现消除网络抖动对语音通信的影响,
请参见图3,为本发明第三实施例提供的解决网络抖动的方法流程图,该方法包括:
步骤301:在接收到的语音帧中查找是否有静音帧,如果有,则进入步骤302,如果否,则结束流程;
步骤302:获取从接收到的语音帧中取走语音帧的时间T_get,以及相对所述取走的语音帧最近一次接收的语音帧的接收时间T_last;
其中,抖动缓冲区为一个大小固定的存储区,并且先进入该抖动缓冲区中的语音帧先出去,因此,能够被取走的语音帧可以认为是排在抖动缓冲区第一位的语音帧,而相对该语音帧排在抖动缓冲区中最后一位的语音帧则是相对被取走的语音帧最近一次接收到的语音帧。比如,抖动缓冲区可以保存五个语音帧,这五个语音帧分别是A,B,C,D,E,其中,A为五个语音帧中第一个进入抖动缓冲区的语音帧,其次为B,C,D,而E为五个语音帧中最后一个进入抖动缓冲区的语音帧,那么,在这五个语音帧中当前能够被取走的则是排在第一位的A,而排在抖动缓冲区最后一位的E则是相对A最近一次接收到的语音帧。
步骤303:用T_get减去T_last,得到网络抖动预测值T_pred;
步骤304:获取播放接收到的语音帧所需时间T_buff;
步骤305:计算T_pred与T_buff的差值;
步骤306:将步骤305计算出的差值与预置的网络抖动第一域值T_max进行比较,若所述差值大于T_max,则说明网络延时增加,进入步骤307;如果否,则进入步骤308;
步骤307:用T_pred与T_buff的差值减去T_max,再除以每帧语音帧播放时间T_frame,获得插入静音帧的帧数,在静音帧构成的静音段中插入所述帧数的静音帧;
步骤308:将步骤305计算出的差值与预置的网络抖动第二域值T_min进行比较,若差值小于T_min,则说明网络延时减小,进入步骤309;如果该差值大于T_min,则结束。
步骤309:用T_min减去T_pred与T_buff的差值,再除以T_frame获得抽取静音帧的帧数,从所静音帧构成的静音段中抽取所述帧数的静音帧。
本发明第三实施例提供的方法中,采用的获取预测网络抖动值T_pred的具体手段为:用从接收到的语音帧中取走语音帧的时间T_get减去相对所述取走的语音帧最近一次接收的语音帧的接收时间T_last,得到网络抖动预测值。
由于本发明第三实施例提供的方法中,需要得到T_get和T_last,因此,该方法的执行条件为:每次从抖动缓冲区中取走一帧语音帧进行播放时,或者,抖动缓冲区中每接收一帧语音帧时,执行步骤301至步骤309。
并且,本发明第三实施例中,根据T_pred,T_buff以及预置的网络抖动域值计算得到的抽取或者插入静音帧的帧数,可以准确的消除网络抖动对语音的影响。
此外,为了进一步提高消除网络抖动对语音帧影响的准确度,可以对步骤307及步骤309中计算出的插帧帧数和抽帧帧数进行调整。比如,可以用抽帧帧数减去调节量x,插帧帧数加上调节量x,x为大于等于0的整数,在具体实现时,技术人员可以按照系统要求选定x的取值。
本发明第四实施例提供的方法与本发明第二实施例提供的方法的区别仅在于,该方法采用固定阈值判断方法,判断网络是否延迟,固定阈值判断方法具体包括:
在接收一个语音帧时,用该语音帧的网络延时与预置的域值进行比较,若该语音帧的网络延时大于该阈值,则说明网络延时增加,若小于该域值则说明网络延时减小。本发明第四实施例与本发明第二实施例的相同之处,请参见前文内容,此处不再赘述。
进一步,在该方法中为了准确消除网络抖动对语音通信的影响,则可用接收一个语音帧的网络延时减去预置的域值得到网络抖动预测值,然后按照本发明第三实施例提供计算帧数的方法得到插入静音帧的帧数或者抽取静音帧的帧数。
以下介绍获得网络抖动第一域值T_max,及网络抖动第二域值T_min的方法。
对于T_max和T_min的选择,需要考虑网络抖动的情况,如果T_max太大,或者T_min太小都会造成无法准确判断网络延时变化的情况,反之亦然,因此,本发明实施例中采用网络抖动跟踪技术,依据多次网络抖动情况来选择T_max和T_min。具体方法包括:取连续N次网络抖动预测值中较小的M个网络抖动预测值的平均值作为T_max;取连续N次网络抖动预测值中较大的M个网络抖动预测值的平均值作为T_min。比如,取连续五次网络抖动预测值中较大的三个网络抖动预测的平均值作为T_max,取连续五次网络抖动预测值中较小的三个网络抖动预测的平均值作为T_min。
在本发明实施例中,接收到的语音帧保存在抖动缓冲区中,因此,可以在抖动缓冲区中每收到一个语音帧,就对该语音帧进行静音检测,并标识出静音帧。那么,本发明第一实施例至第四实施例中查找静音帧的方法具体为:根据静音标识,在接收到的语音帧中查找静音帧。
如果不在抖动缓冲区每接收一个语音帧时进行静音检测,则本发明第一实施例至第四实施例中查找静音帧的方法具体为:对接收到的语音帧进行静音检测,获的静音帧。
其中,对语音帧进行静音检测可以采用如下几种方法:
第一种方式:计算语音帧的语音信号能量以及背景噪声能量,若所述背景噪声能量与语音信号能量的比值大于预置的静音域值,则将所述语音帧标识为静音帧。其中,静音域值可以取大于等于0.6小于1的任意数,但并不排除静音域值取其他值的可能性。
第二种方式:计算语音帧的短时平均能量,若该能量小于静音的能量判断阈值,则将该语音帧标识为静音帧;
第三种方式:根据语音帧的时域过零率判断,如果过零率超过阈值,则将该语音帧标识为静音。
以上简要叙述了几种静音检测方法,由于静音检测方法众多,此处不再列举,其他未列举的静音检测方法也适用于本发明实施例。
以上介绍了本发明实施例提供的方法的具体实现过程,以下介绍本发明实施例提供的装置。
请参见图4,为本发明实施例提供的一种解决网络抖动的装置,包括:静音帧查找单元401,延时判断单元402,静音帧插入单元403,静音帧抽取单元404;
所述静音帧查找单元401,用于在接收到的语音帧中查找是否有静音帧,如果有,则触发所述延时判断单元402;
所述延时判断单元402,若判断得到网络延时增加,则触发所述静音帧插入单元403,若判断得到网络延时减小,则触发所述静音帧抽取单元404;
所述静音帧插入单元403,用于在所述静音帧构成的静音段中插入静音帧;
所述静音帧抽取单元404,用于从所述静音帧构成的静音段中抽取静音帧。
在本发明实施例提供的装置中,所述延时判断单元402可以有多种实现方式,此处列举一种,请参见图5,该单元具体包括:抖动预测单元4021,第一差值计算单元4022,判断单元4023;
所述抖动预测单元4021,用于获取网络抖动预测值T_pred,以及播放所述接收到的语音帧所需时间T_buff;
所述第一差值计算单元4022,用于计算所述网络抖动预测值T_pred与T_buff的差值;
所述判断单元4023,用于将所述差值与预置的网络抖动第一域值T_max进行比较,若所述差值大于所述网络抖动第一域值T_max,则说明网络延时增加,如果否,则将所述差值与预置的网络抖动第二域值T_min进行比较,若所述差值小于所述网络抖动第二域值T_min,则说明网络延时减小。
在本发明实施例提供的装置中,所述抖动预测单元4021也有多种实现方式,此处仅列举一种,请参见图6,该单元具体包括:第一时间获取单元40211,第二时间获取单元40212,第二差值计算单元40213;
所述第一时间获取单元40211,用于获取从接收到的语音帧中取走语音帧的时间;
所述第二时间获取单元40212,用于获取相对所述取走的语音帧最近一次接收到的语音帧的接收时间;
所述第二差值计算单元40213,用于用所述第一时间获取单元获取的时间减去所述第二时间获取单元获取的时间,得到网络抖动预测值T_pred。
为了能够实现准确的插帧及抽帧处理,当所述抖动预测单元4021采用如图6所示的实现方式时,请参见图7,静音帧插入单元403具体包括:第三差值计算单元4031,插入帧数计算单元4032,插帧单元4033;
第三差值计算单元4031,用于用所述第一差值计算单元4022获取的差值减去预置的网络抖动第一域值T_max;
插入帧数计算单元4032,用第三差值计算单元4031的计算结果除以每帧语音帧播放时间T_frame,获得插入静音帧的帧数;
插帧单元4033,用于在所述静音帧构成的静音段中插入所述帧数的静音帧。
请参见图8,静音帧抽取单元404具体包括:第四差值计算单元4041,抽取帧数计算单元4042,抽帧单元4043;
第四差值计算单元4041,用于用所述网络抖动第二域值T_min减去第一差值计算单元4022获取的差值;
抽取帧数计算单元4042,用于用所述第四差值计算单元4041的计算结果除以语音帧播放时间T_frame,获得抽取静音帧的帧数;
抽帧单元4043,用于从所述静音帧构成的静音段中抽取所述帧数的静音帧。
如果采用在抖动缓冲区接收一个语音帧的时候进行一次静音检测,那么,本发明实施例提供了一种静音帧检测单元,请参见图9,该用于对接收到的语音帧进行静音检测,并标识出静音帧。该静音检测单元具体包括:
能量计算单元901,用于计算语音帧的语音信号能量以及背景噪声能量;
静音标识单元902,用于计算背景噪声能量与语音信号能量的比值,若该比值大于预置的静音域值,则将所述语音帧标识为静音帧。
本发明实施例提供的静音帧查找单元401具体用于根据静音标识查找静音帧。
该静音检测单元可以设置在本发明实施例提供的解决网络抖动的装置中,亦可设置的其他设备中并不影响本发明实施例的实现。
如果本发明实施例不采用在抖动缓冲区每收到一个语音帧,对语音帧静音检测的方式,则在本发明实施例提供的静音帧查找单元401具体包括:能量计算单元,用于计算语音帧的语音信号能量以及背景噪声能量;
触发单元,用于计算背景噪声能量与语音信号能量的比值,若该比值大于预置的静音域值,则触发延时判断单元402。
值得注意的是,在本发明实施例提供的方法及装置中,也可以先判断网络延时是否减小,再判断网络延时是否增加,并不影响本发明实施例的实现。
以上对本发明所提供的一种解决网络抖动的方法及装置进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种解决网络抖动的方法,其特征在于,包括:
在接收到的语音帧中查找是否有静音帧,如果有,若判断得到网络延时增加,则在静音帧构成的静音段中插入静音帧,若判断得到网络延时减小,则从静音帧构成的静音段中抽取静音帧。
2.如权利要求1所述的方法,其特征在于,所述方法进一步包括:对接收到的语音帧进行静音检测,并标识出静音帧。
3.如权利要求2所述的方法,其特征在于,所述对接收到的语音帧进行静音检测,并标识出静音帧具体包括:
计算接收到的语音帧的语音信号能量以及背景噪声能量,若所述背景噪声能量与语音信号能量的比值大于预置的静音域值,则将所述语音帧标识为静音帧。
4.如权利要求1或2或3所述的方法,其特征在于,判断网络延时是否增加具体包括:
获取网络抖动预测值,以及播放接收到的语音帧所需时间;
计算所述网络抖动预测值与所述时间的差值;
将所述差值与预置的网络抖动第一域值进行比较,若所述差值大于所述网络抖动第一域值,则判断得到网络延时增加;
判断网络延时是否减小具体包括:
将所述网络抖动预测值与所述时间的差值与预置的网络第二域值进行比较,若所述差值小于所述网络抖动第二域值,则判断得到网络延时减小。
5.如权利要求4所述的方法,其特征在于,所述获取网络抖动预测值具体为:
用从接收到的语音帧中取走语音帧的时间减去相对所述取走的语音帧最近一次接收的语音帧的接收时间,得到网络抖动预测值。
6.如权利要求5所述的方法,其特征在于,所述在所述静音帧构成的静音段中插入静音帧具体包括:
用所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值减去所述网络抖动第一域值,再除以每帧语音帧播放时间,获得插入静音帧的帧数;
在静音帧构成的静音段中插入所述帧数的静音帧。
7.如权利要求6所述的方法,其特征在于,所述从所述静音帧构成的静音段中抽取静音帧具体包括:
用所述网络抖动第二域值减去所述网络抖动预测值与所述播放接收到的语音帧所需时间的差值,再除以每帧语音帧播放时间,获得抽取静音帧的帧数;
从静音帧构成的静音段中抽取所述帧数的静音帧。
8.一种解决网络抖动的装置,其特征在于,包括:静音帧查找单元,延时判断单元,静音帧插入单元,静音帧抽取单元;
所述静音帧查找单元,用于在接收到的语音帧中查找是否有静音帧,如果有,则触发所述延时判断单元;
所述延时判断单元,若判断得到网络延时增加,则触发所述静音帧插入单元,若判断得到网络延时减小,则触发所述静音帧抽取单元;
所述静音帧插入单元,用于在静音帧构成的静音段中插入静音帧;
所述静音帧抽取单元,用于从静音帧构成的静音段中抽取静音帧。
9.如权利要求8所述的装置,其特征在于,所述装置进一步包括:静音帧检测单元;
所述静音帧检测单元,用于对语音帧进行静音检测,并标识出静音帧。
10.如权利要求9所述的装置,其特征在于,所述静音检测单元具体包括:
能量计算单元,用于计算接收到的语音帧的语音信号能量以及背景噪声能量;
静音标识单元,用于计算背景噪声能量与语音信号能量的比值,若所述比值大于预置的静音域值,则将所述语音帧标识为静音帧。
11.如权利要求8或9或10所述的装置,其特征在于,所述延时判断单元具体包括:抖动预测单元,第一差值计算单元,判断单元;
所述抖动预测单元,用于获取网络抖动预测值,以及播放所述接收到的语音帧所需时间;
所述第一差值计算单元,用于计算所述网络抖动预测值与所述时间的差值;
所述判断单元,用于将所述差值与预置的网络抖动第一域值进行比较,若所述差值大于所述网络抖动第一域值,则判断得到网络延时增加,如果否,则将所述差值与预置的网络抖动第二域值进行比较,若所述差值小于所述网络抖动第二域值,则判断得到网络延时减小。
12.如权利要求11所述的装置,其特征在于,所述抖动预测单元具体包括:第一时间获取单元,第二时间获取单元,第二差值计算单元;
所述第一时间获取单元,用于获取从接收到的语音帧中取走语音帧的时间;
所述第二时间获取单元,用于获取相对所述取走的语音帧最近一次接收的语音帧的接收时间;
所述第二差值计算单元,用于用所述第一时间获取单元获取的时间减去所述第二时间获取单元获取的时间,得到网络抖动预测值。
13.如权利要求12所述的装置,其特征在于,所述静音帧插入单元具体包括:第三差值计算单元,插入帧数计算单元,插帧单元;
所述第三差值计算单元,用于用所述第一差值计算单元获取的差值减去所述网络抖动第一域值;
所述插入帧数计算单元,用于用所述第三差值计算单元的计算结果除以每帧语音帧播放时间,获得插入静音帧的帧数;
所述插帧单元,用于在静音帧构成的静音段中插入所述帧数的静音帧。
14.如权利要求12所述的装置,其特征在于,所述静音帧抽取单元具体包括:第四差值计算单元,抽取帧数计算单元,抽帧单元;
所述第四差值计算单元,用于用所述网络抖动第二域值减去所述第一差值计算单元获取的差值;
所述抽取帧数计算单元,用于用所述第四差值计算单元的计算结果除以每帧语音帧播放时间,获得抽取静音帧的帧数;
所述抽帧单元,用于从静音帧构成的静音段中抽取所述帧数的静音帧。
CNA2007101546713A 2007-09-21 2007-09-21 解决网络抖动的方法及装置 Pending CN101119323A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA2007101546713A CN101119323A (zh) 2007-09-21 2007-09-21 解决网络抖动的方法及装置
PCT/CN2008/072437 WO2009039783A1 (fr) 2007-09-21 2008-09-19 Procédé et dispositif de traitement pour caractère de temps de retard de réseau
US12/678,965 US8363673B2 (en) 2007-09-21 2008-09-19 Method and device for processing network time delay characteristics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101546713A CN101119323A (zh) 2007-09-21 2007-09-21 解决网络抖动的方法及装置

Publications (1)

Publication Number Publication Date
CN101119323A true CN101119323A (zh) 2008-02-06

Family

ID=39055262

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101546713A Pending CN101119323A (zh) 2007-09-21 2007-09-21 解决网络抖动的方法及装置

Country Status (3)

Country Link
US (1) US8363673B2 (zh)
CN (1) CN101119323A (zh)
WO (1) WO2009039783A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009039783A1 (fr) * 2007-09-21 2009-04-02 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif de traitement pour caractère de temps de retard de réseau
WO2010094234A1 (zh) * 2009-02-18 2010-08-26 腾讯科技(深圳)有限公司 一种视音频数据播放的控制方法及装置
CN102063923A (zh) * 2009-11-18 2011-05-18 新奥特(北京)视频技术有限公司 一种动画自适应播放的方法和装置
CN102648606A (zh) * 2009-09-18 2012-08-22 索尼计算机娱乐公司 终端装置、声音输出方法以及信息处理系统
CN102708904A (zh) * 2011-03-28 2012-10-03 晨星软件研发(深圳)有限公司 音频的时间伸缩方法与相关装置
CN103327368A (zh) * 2012-03-25 2013-09-25 联发科技股份有限公司 执行多媒体播放控制的方法及其装置
CN104243101A (zh) * 2014-09-30 2014-12-24 深圳市云之讯网络技术有限公司 一种基于模型预测的抖动计算方法及其装置
CN102063924B (zh) * 2009-11-18 2015-07-15 新奥特(北京)视频技术有限公司 一种动画播放的方法和装置
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN105527841A (zh) * 2015-12-10 2016-04-27 北京联合大学 一种时变信号的网络化跟踪控制方法
CN107770124A (zh) * 2016-08-15 2018-03-06 北京信威通信技术股份有限公司 一种ip语音缓冲区的动态控制方法及装置
US10230797B2 (en) 2014-02-19 2019-03-12 Tencent Technology (Shenzhen) Company Limited Information processing method, device, and system
CN110636176A (zh) * 2019-10-09 2019-12-31 科大讯飞股份有限公司 一种通话故障检测方法、装置、设备及存储介质
CN111295864A (zh) * 2018-08-31 2020-06-16 华为技术有限公司 一种提高语音通话质量的方法、终端和系统
CN111314335A (zh) * 2020-02-10 2020-06-19 腾讯科技(深圳)有限公司 数据传输方法、装置、终端、存储介质和系统
CN111711992A (zh) * 2020-06-23 2020-09-25 瓴盛科技有限公司 Cs语音下行链路抖动的校准方法
CN111787268A (zh) * 2020-07-01 2020-10-16 广州视源电子科技股份有限公司 音频信号的处理方法、装置、电子设备及存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20145493A (fi) * 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
CN105933181B (zh) * 2016-04-29 2019-01-25 腾讯科技(深圳)有限公司 一种通话时延评估方法及装置
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
WO2019232235A1 (en) 2018-05-31 2019-12-05 Shure Acquisition Holdings, Inc. Systems and methods for intelligent voice activation for auto-mixing
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
TW202044236A (zh) 2019-03-21 2020-12-01 美商舒爾獲得控股公司 具有抑制功能的波束形成麥克風瓣之自動對焦、區域內自動對焦、及自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020237206A1 (en) 2019-05-23 2020-11-26 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
EP4018680A1 (en) 2019-08-23 2022-06-29 Shure Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
CN113132059B (zh) * 2021-04-21 2022-02-25 广东工业大学 一种面向空白帧传输的帧同步方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658027B1 (en) 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
CN1225883C (zh) 2001-07-27 2005-11-02 华为技术有限公司 一种节约带宽的语音传送方法
CN100550821C (zh) 2003-03-13 2009-10-14 华为技术有限公司 用于消除ip语音数据抖动的自适应抖动缓存实现方法
WO2006020560A2 (en) * 2004-08-09 2006-02-23 Nielsen Media Research, Inc Methods and apparatus to monitor audio/visual content from various sources
CN100407694C (zh) 2004-09-30 2008-07-30 华为技术有限公司 降低实时业务时延及时延抖动的方法
CN1984057B (zh) 2006-05-30 2010-11-10 华为技术有限公司 一种iub口时延性能获取方法与装置
US20090016333A1 (en) * 2006-06-14 2009-01-15 Derek Wang Content-based adaptive jitter handling
CN101119323A (zh) * 2007-09-21 2008-02-06 腾讯科技(深圳)有限公司 解决网络抖动的方法及装置

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363673B2 (en) 2007-09-21 2013-01-29 Tencent Technology (Shenzhen) Company Ltd. Method and device for processing network time delay characteristics
WO2009039783A1 (fr) * 2007-09-21 2009-04-02 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif de traitement pour caractère de temps de retard de réseau
WO2010094234A1 (zh) * 2009-02-18 2010-08-26 腾讯科技(深圳)有限公司 一种视音频数据播放的控制方法及装置
RU2507707C2 (ru) * 2009-02-18 2014-02-20 Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед Способ и устройство управления воспроизведением видео- и аудиоданных
US8594184B2 (en) 2009-02-18 2013-11-26 Tencent Technology (Shenzhen) Company Limited Method and apparatus for controlling video-audio data playing
US8949115B2 (en) 2009-09-18 2015-02-03 Sony Corporation Terminal device, audio output method, and information processing system
CN102648606A (zh) * 2009-09-18 2012-08-22 索尼计算机娱乐公司 终端装置、声音输出方法以及信息处理系统
CN102648606B (zh) * 2009-09-18 2015-06-24 索尼计算机娱乐公司 终端装置、声音输出方法以及信息处理系统
CN102063923A (zh) * 2009-11-18 2011-05-18 新奥特(北京)视频技术有限公司 一种动画自适应播放的方法和装置
CN102063923B (zh) * 2009-11-18 2015-05-27 新奥特(北京)视频技术有限公司 一种动画自适应播放的方法和装置
CN102063924B (zh) * 2009-11-18 2015-07-15 新奥特(北京)视频技术有限公司 一种动画播放的方法和装置
CN102708904A (zh) * 2011-03-28 2012-10-03 晨星软件研发(深圳)有限公司 音频的时间伸缩方法与相关装置
CN102708904B (zh) * 2011-03-28 2015-09-02 晨星软件研发(深圳)有限公司 音频的时间伸缩方法与相关装置
CN103327368A (zh) * 2012-03-25 2013-09-25 联发科技股份有限公司 执行多媒体播放控制的方法及其装置
CN103327368B (zh) * 2012-03-25 2016-12-21 联发科技股份有限公司 执行多媒体播放控制的方法及其装置
US10230797B2 (en) 2014-02-19 2019-03-12 Tencent Technology (Shenzhen) Company Limited Information processing method, device, and system
CN104243101A (zh) * 2014-09-30 2014-12-24 深圳市云之讯网络技术有限公司 一种基于模型预测的抖动计算方法及其装置
CN104243101B (zh) * 2014-09-30 2017-07-11 深圳市云之讯网络技术有限公司 一种基于模型预测的抖动计算方法及其装置
CN105429984A (zh) * 2015-11-27 2016-03-23 刘军 媒体播放方法、设备及音乐教学系统
CN105429984B (zh) * 2015-11-27 2019-03-15 刘军 媒体播放方法、设备及音乐教学系统
CN105527841A (zh) * 2015-12-10 2016-04-27 北京联合大学 一种时变信号的网络化跟踪控制方法
CN105527841B (zh) * 2015-12-10 2018-03-23 北京联合大学 一种时变信号的网络化跟踪控制方法
CN107770124A (zh) * 2016-08-15 2018-03-06 北京信威通信技术股份有限公司 一种ip语音缓冲区的动态控制方法及装置
CN111295864A (zh) * 2018-08-31 2020-06-16 华为技术有限公司 一种提高语音通话质量的方法、终端和系统
CN111295864B (zh) * 2018-08-31 2022-04-05 华为技术有限公司 一种提高语音通话质量的方法、终端和系统
CN110636176A (zh) * 2019-10-09 2019-12-31 科大讯飞股份有限公司 一种通话故障检测方法、装置、设备及存储介质
CN110636176B (zh) * 2019-10-09 2022-05-17 科大讯飞股份有限公司 一种通话故障检测方法、装置、设备及存储介质
CN111314335A (zh) * 2020-02-10 2020-06-19 腾讯科技(深圳)有限公司 数据传输方法、装置、终端、存储介质和系统
CN111314335B (zh) * 2020-02-10 2021-10-08 腾讯科技(深圳)有限公司 数据传输方法、装置、终端、存储介质和系统
CN111711992A (zh) * 2020-06-23 2020-09-25 瓴盛科技有限公司 Cs语音下行链路抖动的校准方法
CN111711992B (zh) * 2020-06-23 2023-05-02 瓴盛科技有限公司 Cs语音下行链路抖动的校准方法
CN111787268A (zh) * 2020-07-01 2020-10-16 广州视源电子科技股份有限公司 音频信号的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20100208605A1 (en) 2010-08-19
US8363673B2 (en) 2013-01-29
WO2009039783A1 (fr) 2009-04-02

Similar Documents

Publication Publication Date Title
CN101119323A (zh) 解决网络抖动的方法及装置
CN109963184B (zh) 一种音视频网络播放的方法、装置以及电子设备
Liang et al. Adaptive playout scheduling using time-scale modification in packet voice communications
CN103916716B (zh) 一种无线网络下视频实时传输的码率平滑方法
EP1497937B1 (en) Apparatus and method for synchronization of audio and video streams
JP4560269B2 (ja) 無音検出
US6680753B2 (en) Method and apparatus for skipping and repeating audio frames
US20070019931A1 (en) Systems and methods for re-synchronizing video and audio data
EP2490214A1 (en) Signal processing method, device and system
CN107529097A (zh) 一种自适应调整视频缓冲大小的方法及装置
EP2936489A1 (en) Audio processing apparatus and audio processing method
KR100722707B1 (ko) 멀티미디어 신호를 전송하기 위한 전송 시스템
CN103124412A (zh) 一种基于rtp协议的网络抖动处理技术
KR20050094036A (ko) 최소의 두드러진 아티팩트들을 갖는 드리프트된 데이터스트림들의 재동기화
KR101516113B1 (ko) 음성 복호 장치
CN107770124A (zh) 一种ip语音缓冲区的动态控制方法及装置
JPH10247093A (ja) オーディオ情報分類装置
US7339958B2 (en) System and method for performing signal synchronization of data streams
CN116259322A (zh) 音频数据压缩方法及相关产品
CN101378512B (zh) 一种音视频数据同步的方法、装置
CN102414744B (zh) 数字信号再生装置以及数字信号压缩装置
CN114333864A (zh) 一种音频数据混音方法、终端及计算机可读存储介质
CN114242067A (zh) 语音识别方法、装置、设备和存储介质
FR2848049B1 (fr) Procede de traitement de paquets de donnees recus sur des reseaux asynchrones, et dispositif pour la mise en oeuvre du procede
CN101958984A (zh) 一种上下行语音驱动处理方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080206