CN103259803A - 一种音频回放方法、装置和系统 - Google Patents

一种音频回放方法、装置和系统 Download PDF

Info

Publication number
CN103259803A
CN103259803A CN2013102188218A CN201310218821A CN103259803A CN 103259803 A CN103259803 A CN 103259803A CN 2013102188218 A CN2013102188218 A CN 2013102188218A CN 201310218821 A CN201310218821 A CN 201310218821A CN 103259803 A CN103259803 A CN 103259803A
Authority
CN
China
Prior art keywords
data frame
audio data
threshold value
type
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102188218A
Other languages
English (en)
Other versions
CN103259803B (zh
Inventor
龙兴平
刘洪�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310218821.8A priority Critical patent/CN103259803B/zh
Publication of CN103259803A publication Critical patent/CN103259803A/zh
Priority to PCT/CN2013/089580 priority patent/WO2014194641A1/en
Priority to US14/261,782 priority patent/US9313250B2/en
Application granted granted Critical
Publication of CN103259803B publication Critical patent/CN103259803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2475Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/752Media network packet handling adapting media to network capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • H04J3/0632Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施方式提出一种音频回放方法、装置和系统。方法包括:接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。本发明实施方式提高了音乐帧回放流畅度,同时能平稳更多更大的网络抖动。

Description

一种音频回放方法、装置和系统
技术领域
本发明实施方式涉及音频处理技术领域,更具体地,涉及一种音频回放方法、装置和系统。
背景技术
互联网(Internet)和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联网也在向移动化发展。在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。
随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
各种语音处理应用已经逐渐成为网络用户日常和娱乐生活中不可缺少的一部分。用户可以在一个群体中一起实时语音交流和播放音乐,进行类似传统KTV的音乐演唱和交流。音频帧一般通过互联网传输,由于互联网传输本身的抖动性,会造成音频帧播放的不流畅,特别是听觉系统对音乐类型的音频帧特别敏感,音乐类型的音频帧通过互联网传输后的回放需要还原得更加逼真。
然而,在现有技术中,各种语音处理应用在涉及音频帧的网络通信和回放过程中,并没有区分语音帧和音乐帧,对于语音帧和音乐帧都是同等处理。语音帧和音乐帧同等的回放时长,要么造成音乐播放不流畅,要么造成说话交流的语音播放时延很大。而且,在网络传输抖动比较大、丢包比较多的情况下,音乐帧回放不流畅便达不到音乐回放逼真的效果。
发明内容
本发明实施方式提出一种音频回放方法,以提高音乐帧回放流畅度。
本发明实施方式提出一种音频回放装置,以提高音乐帧回放流畅度。
本发明实施方式提出一种音频回放系统,以提高音乐帧回放流畅度
本发明实施方式的技术方案如下:
一种音频回放方法,该方法包括:
接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;
当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
一种音频回放装置,包括音频数据帧接收单元、网络传输状况评估单元、数据帧类型确定单元和抖动缓冲器调整单元,其中:
音频数据帧接收单元,用于接收音频数据帧;
网络传输状况评估单元,用于评估该音频数据帧的网络传输状况;
数据帧类型确定单元,用于根据音频数据帧的类型标识确定音频数据帧的类型;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
一种音频回放系统,包括音频发送装置和音频接收装置,其中:
音频发送装置,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置发送标识后的音频数据帧;
音频接收装置,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
从上述技术方案可以看出,在本发明实施方式中,接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见,应用本发明实施方式之后,根据音频帧的类型以及当前网络传输状况,估算和设定防抖动的抖动缓冲器阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,则增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,从而提高音乐帧回放流畅度,而且大的抖动缓冲器阀值能平稳更多更大的网络抖动。
附图说明
图1为根据本发明实施方式音频回放方法流程图;
图2为根据本发明实施方式SAD算法检测流程图;
图3为根据本发明实施方式SAD算法决策流程图;
图4为根据本发明实施方式音频回放装置结构图;
图5为根据本发明实施方式音频回放系统结构图;
图6为根据本发明实施方式音频回放总体处理流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在现有技术中,在涉及音频帧的网络通信和回放过程中,并没有区分语音帧和音乐帧,对于语音帧和音乐帧都是同等处理。这就造成音乐播放不流畅或说话交流的语音播放时延很大。而且,在网络传输抖动比较大、丢包比较多的情况下,音乐帧回放不流畅便达不到音乐回放逼真的效果。
在本发明实施方式中,在音频帧的接收端,根据音频帧的类型以及当前网络传输的抖动、丢包率等情况,估算和设定防抖动的抖动缓冲器(JitterBuffer)阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,则增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在本发明实施方式中,音频数据帧接收端接收已经按照类型被标识的音频数据帧。音频数据帧接收端再根据音频数据帧标识确定音频数据帧的类型,并且评估网络传输状况,其中当音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
图1为根据本发明实施方式音频回放方法流程图。
如图1所示,该方法包括:
步骤101:对采集的音频数据帧按照类型进行标识,并发送标识后的音频数据帧。
在这里,音频发送端可以首先利用各种音频采集设备(比如声卡设备)采集音频帧。音频发送端所采集音频帧的种类可以有多种,包括但是不局限于:语音帧、静音帧和音乐帧等等。
语音帧通常含义是人说话的音频帧;音乐帧一般指具有某些伴奏的音频帧。通常情况下,音乐帧比语音帧包含的频谱更宽。
在这里,通过能区分语音帧和音乐帧的各种算法技术(如SAD算法)确定所采集的音频数据帧的种类,并按照所确定类型对音频数据帧进行标识。SAD算法用于执行音频语音帧和音乐帧活动检测,可以检测一段音频帧是语音帧还是音乐帧。
比如,可以计算该音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧。
如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型;如果Ps/Pm不大于该预先设定的比较门限值,进一步对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
对采集的音频数据帧按照类型进行标识之后,可以通过各种网络发送标识后的音频数据帧。
步骤102:接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。评估网络传输状况的具体实施方式可以包括但是不限定于丢包率或网络抖动指标等指标参数。
在这里,音频接收端首先通过网络接收标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。网络传输状况可以包括音频数据帧的丢包率或网络抖动指标。等等。
丢包率(Loss Tolerance或packet loss rate)是指音频帧打包传输中所丢失数据包数量占所发送数据包的比率。音频帧丢包率通常与音频帧数据包长度以及包发送频率相关。
网络抖动是QOS里面常用的一个概念,其意思是指分组延迟的变化程度。如果网络发生拥塞,排队延迟将影响端到端的延迟,并导致通过同一连接传输的分组延迟各不相同。
步骤103:当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。抖动缓冲器(JitterBuffer)常应用于对抖动量进行平滑处理的应用中。在各种语音处理应用中,针对网络传输本身的抖动性通常设置一定的缓冲区作为抖动缓冲器。只能到此缓冲区满时才开始播放音频帧,从而使得语音播放流畅。
抖动缓冲器是一个共享的数据区域,在这个数据区域中,每隔一段均匀的间隔,语音包会被收集,存储并发到语音处理器。包到达时间的变化,称作抖动,将会由于网络拥塞,定时漂移或路由变更而产生。抖动缓冲器放于语音连接的接收端,它有意地延迟到达的包,如此一来,终端用户就会感受到清晰且没有声音失真的播放效果。
抖动缓冲器一般有两种,包括静态和动态抖动缓冲器。静态抖动缓冲器是基于硬件的,它是由厂家来配置的。而动态抖动缓冲器是基于软件的,它由网管配置以适应网络延迟的改变。
调整抖动缓冲器的阈值的方式可以有多种,比如基于丢包率的大小或网络抖动指标提高抖动缓冲器的阈值等等,具体可以包括:
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率。此时,当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在丢包率较高所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包到达时刻计算网络抖动指标。此时,当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在网络抖动较大所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标。此时,当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在丢包率较高且网络抖动较大所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在本发明实施方式中,针对不同类型的音频帧(语音帧或音乐帧),在回放过程中,抖动缓冲器的阈值可以发生变换。对于易受干扰的音乐帧而且网络传输状况较差的情形,通过有意提高抖动缓冲器的阈值,可以提高音乐帧的播放流畅度,而且使得语音回放时延更低。
下面以SAD算法为例对音频采集检测的过程进行说明。
图2为根据本发明实施方式SAD算法检测流程图。
在图2中,首先对采集到的数据执行预滤波、噪声抑制等预处理。再对该预处理后的数据分别做时域和频域分析。
时域分析主要包括基于周期的提取、基音周期标准差,过零率、能零比参数提取。频域分析先执行FFT处理,然后从频谱系数中分别提取MFCC参数、熵谱、能量分布,信号的频谱质心,谱宽系数等等。
接着,对提取到的时域、频域系数输入到决策模块,最后输出帧类型标志,并且对决策模块判决出来的结果做相应的平滑,确保不会频繁的切换。
图3为根据本发明实施方式SAD算法决策流程图。
如图3所示,首先计算帧能量,并判断帧能量是否超过预先设定的能量门限值,如果没有超过则返回静音帧,否则把12维的MFCC系数输入到高斯混合模型中分别计算帧的语音概率密度Ps以及音乐概率密度Pm,如果Ps/Pm>固定门限,则判定为语音帧类型,否则继续判断当前帧处于上升沿还是下降沿,并且联合预滤波、噪声抑制等其他预处理参数,进一步基于现有技术的语音帧联合决策判断算法判断帧类型为语音帧类型或音乐帧类型;再对联合决策结果做相应的一次平滑,保证联合判决器的稳定输出。
以上以SAD算法为对音频采集检测以及类型判决的过程进行了详细描述。本领域技术人员可以意识到,这种描述仅仅是示范性的,并不用于对本发明实施方式的保护范围进行限定。
基于上述详细分析,本发明实施方式还提出了一种音频回放装置。
图4为根据本发明实施方式音频回放装置结构图。
如图4所示,该装置包括音频数据帧接收单元401、网络传输状况评估单元402、数据帧类型确定单元403和抖动缓冲器调整单元404,其中:
音频数据帧接收单元401,用于接收音频数据帧;
网络传输状况评估单元402,用于评估该音频数据帧的网络传输状况;
数据帧类型确定单元403,用于根据音频数据帧的类型标识确定音频数据帧的类型;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包序号计算所述音频数据帧的丢包率;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
基于上述详细分析,本发明实施方式还提出了一种音频回放系统。
图5为根据本发明实施方式音频回放系统结构图。
如图5所示,该系统包括音频发送装置501和音频接收装置502,其中:
音频发送装置501,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置502发送标识后的音频数据帧;
音频接收装置502,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包序号计算所述音频数据帧的丢包率,并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频发送装置501,用于计算采集到音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型。
在一个实施方式中:
音频发送装置501,进一步用于当Ps/Pm不大于该预先设定的比较门限值时,对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
图6为根据本发明实施方式音频回放总体处理流程图。
如图6所示:
在音频采集端,首先利用各种音频采集设备采集音频帧数据,并且对采集到的音频帧数据执行预滤波、噪声抑制等预处理,再对该预处理后的数据分别执行时域和频域分析。时域分析主要包括基于周期的提取、基音周期标准差,过零率,能零比参数提取。频域分析先执行FFT处理,然后从频谱系数中分别提取MFCC参数、熵谱、能量分布,信号的频谱质心,谱宽系数等等。
接着,在音频采集端,将提取到的时域、频域系数输入到决策模块,最后输出帧类型标志(即标识);并且对决策模块判决出来的结果做相应的平滑处理,确保不会频繁的切换。
然后,在音频采集端对音频帧数据进行编码,并通过各种网络发送到音频播放端。
在音频播放端,首先接收标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。其中:
(1)、可以通过包序号计算音频数据帧的丢包率,并当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
(2)、可以通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
(3)、可以通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当音频数据帧的类型为音乐帧、音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存音频数据帧的抖动缓冲器的阈值。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的音频回放方法、装置和系统。
比如,可以遵循一定规范的应用程序接口,将音频回放方法编写为安装到浏览器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出音频回放方法、装置和系统。
用户可以在各种终端上采集并播放音频数据,这些终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
以上虽然详细罗列了终端的具体实例,本领域人员可以意识到,这些罗列仅是阐述目的,并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的Internet Explorer、Mozilla的Firefox、Apple的Safari,Opera、GoogleChrome、GreenBrowser等浏览器。
以上虽然详细列出了一些常用浏览器,本领域技术人员可以意识到,本发明实施方式并不局限于这些浏览器,而是可以适用于任意可用于显示网页服务器或档案系统内的文件、并让用户与文件互动的应用(App),这些应用可以是目前常见的各种浏览器,也可以是其他的任意具有网页浏览功能的应用程序。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的音频回放方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的音频回放方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,对采集的音频数据帧按照类型进行标识,并发送标识后的音频数据帧;接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见,应用本发明实施方式之后,可以根据音频帧的类型以及当前网络传输状况,估算和设定防抖动的抖动缓冲器阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,此时增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,而且提高音乐帧回放流畅度,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种音频回放方法,其特征在于,该方法包括:
接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;
当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
2.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
3.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包到达时刻计算网络抖动指标;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
4.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
5.根据权利要求1所述的音频回放方法,其特征在于,进一步在音频数据帧发送端对采集的音频数据帧按照类型进行标识,其中所述进行标识包括:
计算该音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型。
6.根据权利要求5所述的音频回放方法,其特征在于,该方法进一步包括,如果Ps/Pm不大于该预先设定的比较门限值,进一步对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
7.一种音频回放装置,其特征在于,包括音频数据帧接收单元、网络传输状况评估单元、数据帧类型确定单元和抖动缓冲器调整单元,其中:
音频数据帧接收单元,用于接收音频数据帧;
网络传输状况评估单元,用于评估该音频数据帧的网络传输状况;
数据帧类型确定单元,用于根据音频数据帧的类型标识确定音频数据帧的类型;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
8.根据权利要求7所述的音频回放装置,其特征在于,
网络传输状况评估单元,用于通过包序号计算所述音频数据帧的丢包率;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
9.根据权利要求7所述的音频回放装置,其特征在于,
网络传输状况评估单元,用于通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
10.根据权利要求7所述的音频回放装置,其特征在于,
网络传输状况评估单元,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
11.一种音频回放系统,其特征在于,包括音频发送装置和音频接收装置,其中:
音频发送装置,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置发送标识后的音频数据帧;
音频接收装置,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
12.根据权利要求11所述的音频回放系统,其特征在于,
音频接收装置,用于通过包序号计算所述音频数据帧的丢包率,并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
13.根据权利要求11所述的音频回放系统,其特征在于,
音频接收装置,用于通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
14.根据权利要求11所述的音频回放系统,其特征在于,
音频接收装置,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
15.根据权利要求11所述的音频回放系统,其特征在于,
音频发送装置,用于计算采集到音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型。
16.根据权利要求15所述的音频回放系统,其特征在于,
音频发送装置,进一步用于当Ps/Pm不大于该预先设定的比较门限值时,对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
CN201310218821.8A 2013-06-04 2013-06-04 一种音频回放方法、装置和系统 Active CN103259803B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310218821.8A CN103259803B (zh) 2013-06-04 2013-06-04 一种音频回放方法、装置和系统
PCT/CN2013/089580 WO2014194641A1 (en) 2013-06-04 2013-12-16 Audio playback method, apparatus and system
US14/261,782 US9313250B2 (en) 2013-06-04 2014-04-25 Audio playback method, apparatus and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310218821.8A CN103259803B (zh) 2013-06-04 2013-06-04 一种音频回放方法、装置和系统

Publications (2)

Publication Number Publication Date
CN103259803A true CN103259803A (zh) 2013-08-21
CN103259803B CN103259803B (zh) 2016-01-27

Family

ID=48963500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310218821.8A Active CN103259803B (zh) 2013-06-04 2013-06-04 一种音频回放方法、装置和系统

Country Status (2)

Country Link
CN (1) CN103259803B (zh)
WO (1) WO2014194641A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014194641A1 (en) * 2013-06-04 2014-12-11 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
CN104934040A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 音频信号的时长调整方法和装置
US9313250B2 (en) 2013-06-04 2016-04-12 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
CN105847857A (zh) * 2016-03-07 2016-08-10 乐视致新电子科技(天津)有限公司 倍速播放视频时处理音频的方法及装置
WO2017202290A1 (zh) * 2016-05-25 2017-11-30 腾讯科技(深圳)有限公司 语音数据传输方法及装置
CN104168218B (zh) * 2014-08-15 2018-03-06 珠海多玩信息技术有限公司 抖动缓冲方法及装置
CN107979482A (zh) * 2016-10-25 2018-05-01 腾讯科技(深圳)有限公司 一种信息处理方法、装置、发送端、去抖动端、接收端
CN109963184A (zh) * 2017-12-14 2019-07-02 阿里巴巴集团控股有限公司 一种音视频网络播放的方法、装置以及电子设备
WO2020088090A1 (zh) * 2018-10-31 2020-05-07 北京达佳互联信息技术有限公司 延迟控制方法、延迟控制装置、终端设备以及存储介质
CN112187705A (zh) * 2019-07-04 2021-01-05 成都鼎桥通信技术有限公司 音频播放方法及设备
CN113556292A (zh) * 2021-06-18 2021-10-26 珠海惠威科技有限公司 Ip网络的音频播放方法及系统
US11310558B2 (en) * 2019-07-17 2022-04-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Buffer processing method, apparatus, device and computer storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113900619A (zh) * 2019-09-27 2022-01-07 北京西山居互动娱乐科技有限公司 一种音频数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756230A (zh) * 2004-09-30 2006-04-05 华为技术有限公司 降低实时业务时延及时延抖动的方法
CN101854308A (zh) * 2010-06-09 2010-10-06 武汉必联网络技术有限公司 VoIP系统高音质服务网络自适应实现方法
US7953069B2 (en) * 2006-04-18 2011-05-31 Cisco Technology, Inc. Device and method for estimating audiovisual quality impairment in packet networks
CN102761468A (zh) * 2011-04-26 2012-10-31 中兴通讯股份有限公司 一种自适应调整语音抖动缓存区的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1671124B (zh) * 2004-03-19 2011-10-19 清华大学 通信终端装置、通信终端接收方法、通信系统、网关
US20070263672A1 (en) * 2006-05-09 2007-11-15 Nokia Corporation Adaptive jitter management control in decoder
CN102739503B (zh) * 2011-04-01 2014-12-03 华平信息技术股份有限公司 VoIP去抖动缓冲区的处理方法
CN103259803B (zh) * 2013-06-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频回放方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1756230A (zh) * 2004-09-30 2006-04-05 华为技术有限公司 降低实时业务时延及时延抖动的方法
US7953069B2 (en) * 2006-04-18 2011-05-31 Cisco Technology, Inc. Device and method for estimating audiovisual quality impairment in packet networks
CN101854308A (zh) * 2010-06-09 2010-10-06 武汉必联网络技术有限公司 VoIP系统高音质服务网络自适应实现方法
CN102761468A (zh) * 2011-04-26 2012-10-31 中兴通讯股份有限公司 一种自适应调整语音抖动缓存区的方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313250B2 (en) 2013-06-04 2016-04-12 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
WO2014194641A1 (en) * 2013-06-04 2014-12-11 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
CN104934040A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 音频信号的时长调整方法和装置
CN104168218B (zh) * 2014-08-15 2018-03-06 珠海多玩信息技术有限公司 抖动缓冲方法及装置
CN105847857A (zh) * 2016-03-07 2016-08-10 乐视致新电子科技(天津)有限公司 倍速播放视频时处理音频的方法及装置
US10594449B2 (en) 2016-05-25 2020-03-17 Tencent Technology (Shenzhen) Company Limited Voice data transmission method and device
WO2017202290A1 (zh) * 2016-05-25 2017-11-30 腾讯科技(深圳)有限公司 语音数据传输方法及装置
CN107979482A (zh) * 2016-10-25 2018-05-01 腾讯科技(深圳)有限公司 一种信息处理方法、装置、发送端、去抖动端、接收端
CN107979482B (zh) * 2016-10-25 2021-06-11 腾讯科技(深圳)有限公司 一种信息处理方法、装置、发送端、去抖动端、接收端
CN109963184A (zh) * 2017-12-14 2019-07-02 阿里巴巴集团控股有限公司 一种音视频网络播放的方法、装置以及电子设备
CN109963184B (zh) * 2017-12-14 2022-04-29 阿里巴巴集团控股有限公司 一种音视频网络播放的方法、装置以及电子设备
WO2020088090A1 (zh) * 2018-10-31 2020-05-07 北京达佳互联信息技术有限公司 延迟控制方法、延迟控制装置、终端设备以及存储介质
US11490156B2 (en) 2018-10-31 2022-11-01 Beijing Dajia Internet Information Technology Co., Ltd. Delay control method, delay control apparatus, terminal device and storage medium
CN112187705A (zh) * 2019-07-04 2021-01-05 成都鼎桥通信技术有限公司 音频播放方法及设备
CN112187705B (zh) * 2019-07-04 2022-04-15 成都鼎桥通信技术有限公司 音频播放方法及设备
US11310558B2 (en) * 2019-07-17 2022-04-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Buffer processing method, apparatus, device and computer storage medium
CN113556292A (zh) * 2021-06-18 2021-10-26 珠海惠威科技有限公司 Ip网络的音频播放方法及系统

Also Published As

Publication number Publication date
WO2014194641A1 (en) 2014-12-11
CN103259803B (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN103259803B (zh) 一种音频回放方法、装置和系统
US9313250B2 (en) Audio playback method, apparatus and system
JP6916352B2 (ja) 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答
CN113539283B (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
US10354307B2 (en) Method, device, and system for obtaining information based on audio input
US20160094509A1 (en) Method and system for presenting a listing of message logs
US20150039304A1 (en) Voice Activity Detection Using A Soft Decision Mechanism
US20170286049A1 (en) Apparatus and method for recognizing voice commands
CN104091596A (zh) 一种乐曲识别方法、系统和装置
CN109493852A (zh) 一种语音识别的评测方法及装置
JP7567028B2 (ja) ターゲットビデオを生成するための方法、装置、サーバ及び媒体
US20150254054A1 (en) Audio Signal Processing
CN106649645B (zh) 一种播放列表处理方法及装置
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
CN104700830B (zh) 一种语音端点检测方法及装置
WO2023193573A1 (zh) 一种音频处理方法、装置、存储介质及电子设备
CN106847299B (zh) 延时的估计方法及装置
CN112307260A (zh) 视频鉴别方法、装置、电子设备及计算机可读存储介质
CN106899843B (zh) 一种视频业务质量评估方法及装置
CN110659006A (zh) 跨屏显示的方法、装置、电子设备及可读存储介质
CN115083440A (zh) 音频信号降噪方法、电子设备和存储介质
CN115243087A (zh) 音视频合拍处理方法、装置、终端设备及存储介质
CN116259322A (zh) 音频数据压缩方法及相关产品
CN103780612A (zh) 数据处理方法和电子设备
JP2017034469A (ja) 情報提示方法、情報提示プログラム及び情報提示装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant