CN103259803B - 一种音频回放方法、装置和系统 - Google Patents
一种音频回放方法、装置和系统 Download PDFInfo
- Publication number
- CN103259803B CN103259803B CN201310218821.8A CN201310218821A CN103259803B CN 103259803 B CN103259803 B CN 103259803B CN 201310218821 A CN201310218821 A CN 201310218821A CN 103259803 B CN103259803 B CN 103259803B
- Authority
- CN
- China
- Prior art keywords
- audio data
- data frame
- frame
- type
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000005540 biological transmission Effects 0.000 claims abstract description 83
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 description 1
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2475—Traffic characterised by specific attributes, e.g. priority or QoS for supporting traffic characterised by the type of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/28—Flow control; Congestion control in relation to timing considerations
- H04L47/283—Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/752—Media network packet handling adapting media to network capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/062—Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
- H04J3/0632—Synchronisation of packets and cells, e.g. transmission of voice via a packet network, circuit emulation service [CES]
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施方式提出一种音频回放方法、装置和系统。方法包括:接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。本发明实施方式提高了音乐帧回放流畅度,同时能平稳更多更大的网络抖动。
Description
技术领域
本发明实施方式涉及音频处理技术领域,更具体地,涉及一种音频回放方法、装置和系统。
背景技术
互联网(Internet)和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联网也在向移动化发展。在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。
随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
各种语音处理应用已经逐渐成为网络用户日常和娱乐生活中不可缺少的一部分。用户可以在一个群体中一起实时语音交流和播放音乐,进行类似传统KTV的音乐演唱和交流。音频帧一般通过互联网传输,由于互联网传输本身的抖动性,会造成音频帧播放的不流畅,特别是听觉系统对音乐类型的音频帧特别敏感,音乐类型的音频帧通过互联网传输后的回放需要还原得更加逼真。
然而,在现有技术中,各种语音处理应用在涉及音频帧的网络通信和回放过程中,并没有区分语音帧和音乐帧,对于语音帧和音乐帧都是同等处理。语音帧和音乐帧同等的回放时长,要么造成音乐播放不流畅,要么造成说话交流的语音播放时延很大。而且,在网络传输抖动比较大、丢包比较多的情况下,音乐帧回放不流畅便达不到音乐回放逼真的效果。
发明内容
本发明实施方式提出一种音频回放方法,以提高音乐帧回放流畅度。
本发明实施方式提出一种音频回放装置,以提高音乐帧回放流畅度。
本发明实施方式提出一种音频回放系统,以提高音乐帧回放流畅度
本发明实施方式的技术方案如下:
一种音频回放方法,该方法包括:
接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;
当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
一种音频回放装置,包括音频数据帧接收单元、网络传输状况评估单元、数据帧类型确定单元和抖动缓冲器调整单元,其中:
音频数据帧接收单元,用于接收音频数据帧;
网络传输状况评估单元,用于评估该音频数据帧的网络传输状况;
数据帧类型确定单元,用于根据音频数据帧的类型标识确定音频数据帧的类型;
抖动缓冲器调整单元,用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
一种音频回放系统,包括音频发送装置和音频接收装置,其中:
音频发送装置,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置发送标识后的音频数据帧;
音频接收装置,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
从上述技术方案可以看出,在本发明实施方式中,接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见,应用本发明实施方式之后,根据音频帧的类型以及当前网络传输状况,估算和设定防抖动的抖动缓冲器阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,则增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,从而提高音乐帧回放流畅度,而且大的抖动缓冲器阀值能平稳更多更大的网络抖动。
附图说明
图1为根据本发明实施方式音频回放方法流程图;
图2为根据本发明实施方式SAD算法检测流程图;
图3为根据本发明实施方式SAD算法决策流程图;
图4为根据本发明实施方式音频回放装置结构图;
图5为根据本发明实施方式音频回放系统结构图;
图6为根据本发明实施方式音频回放总体处理流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在现有技术中,在涉及音频帧的网络通信和回放过程中,并没有区分语音帧和音乐帧,对于语音帧和音乐帧都是同等处理。这就造成音乐播放不流畅或说话交流的语音播放时延很大。而且,在网络传输抖动比较大、丢包比较多的情况下,音乐帧回放不流畅便达不到音乐回放逼真的效果。
在本发明实施方式中,在音频帧的接收端,根据音频帧的类型以及当前网络传输的抖动、丢包率等情况,估算和设定防抖动的抖动缓冲器(JitterBuffer)阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,则增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在本发明实施方式中,音频数据帧接收端接收已经按照类型被标识的音频数据帧。音频数据帧接收端再根据音频数据帧标识确定音频数据帧的类型,并且评估网络传输状况,其中当音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
图1为根据本发明实施方式音频回放方法流程图。
如图1所示,该方法包括:
步骤101:对采集的音频数据帧按照类型进行标识,并发送标识后的音频数据帧。
在这里,音频发送端可以首先利用各种音频采集设备(比如声卡设备)采集音频帧。音频发送端所采集音频帧的种类可以有多种,包括但是不局限于:语音帧、静音帧和音乐帧等等。
语音帧通常含义是人说话的音频帧;音乐帧一般指具有某些伴奏的音频帧。通常情况下,音乐帧比语音帧包含的频谱更宽。
在这里,通过能区分语音帧和音乐帧的各种算法技术(如SAD算法)确定所采集的音频数据帧的种类,并按照所确定类型对音频数据帧进行标识。SAD算法用于执行音频语音帧和音乐帧活动检测,可以检测一段音频帧是语音帧还是音乐帧。
比如,可以计算该音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧。
如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型;如果Ps/Pm不大于该预先设定的比较门限值,进一步对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
对采集的音频数据帧按照类型进行标识之后,可以通过各种网络发送标识后的音频数据帧。
步骤102:接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。评估网络传输状况的具体实施方式可以包括但是不限定于丢包率或网络抖动指标等指标参数。
在这里,音频接收端首先通过网络接收标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。网络传输状况可以包括音频数据帧的丢包率或网络抖动指标。等等。
丢包率(LossTolerance或packetlossrate)是指音频帧打包传输中所丢失数据包数量占所发送数据包的比率。音频帧丢包率通常与音频帧数据包长度以及包发送频率相关。
网络抖动是QOS里面常用的一个概念,其意思是指分组延迟的变化程度。如果网络发生拥塞,排队延迟将影响端到端的延迟,并导致通过同一连接传输的分组延迟各不相同。
步骤103:当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。抖动缓冲器(JitterBuffer)常应用于对抖动量进行平滑处理的应用中。在各种语音处理应用中,针对网络传输本身的抖动性通常设置一定的缓冲区作为抖动缓冲器。只能到此缓冲区满时才开始播放音频帧,从而使得语音播放流畅。
抖动缓冲器是一个共享的数据区域,在这个数据区域中,每隔一段均匀的间隔,语音包会被收集,存储并发到语音处理器。包到达时间的变化,称作抖动,将会由于网络拥塞,定时漂移或路由变更而产生。抖动缓冲器放于语音连接的接收端,它有意地延迟到达的包,如此一来,终端用户就会感受到清晰且没有声音失真的播放效果。
抖动缓冲器一般有两种,包括静态和动态抖动缓冲器。静态抖动缓冲器是基于硬件的,它是由厂家来配置的。而动态抖动缓冲器是基于软件的,它由网管配置以适应网络延迟的改变。
调整抖动缓冲器的阈值的方式可以有多种,比如基于丢包率的大小或网络抖动指标提高抖动缓冲器的阈值等等,具体可以包括:
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率。此时,当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在丢包率较高所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包到达时刻计算网络抖动指标。此时,当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在网络抖动较大所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在一个实施方式中:
在步骤102中的评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标。此时,当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
可见,在丢包率较高且网络抖动较大所造成的网络传输状况不佳的情形下,通过提高用于缓存所述音频数据帧的抖动缓冲器的阈值,可以让网络音频包的传输能有更多的时间进行重传,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
在本发明实施方式中,针对不同类型的音频帧(语音帧或音乐帧),在回放过程中,抖动缓冲器的阈值可以发生变换。对于易受干扰的音乐帧而且网络传输状况较差的情形,通过有意提高抖动缓冲器的阈值,可以提高音乐帧的播放流畅度,而且使得语音回放时延更低。
下面以SAD算法为例对音频采集检测的过程进行说明。
图2为根据本发明实施方式SAD算法检测流程图。
在图2中,首先对采集到的数据执行预滤波、噪声抑制等预处理。再对该预处理后的数据分别做时域和频域分析。
时域分析主要包括基于周期的提取、基音周期标准差,过零率、能零比参数提取。频域分析先执行FFT处理,然后从频谱系数中分别提取MFCC参数、熵谱、能量分布,信号的频谱质心,谱宽系数等等。
接着,对提取到的时域、频域系数输入到决策模块,最后输出帧类型标志,并且对决策模块判决出来的结果做相应的平滑,确保不会频繁的切换。
图3为根据本发明实施方式SAD算法决策流程图。
如图3所示,首先计算帧能量,并判断帧能量是否超过预先设定的能量门限值,如果没有超过则返回静音帧,否则把12维的MFCC系数输入到高斯混合模型中分别计算帧的语音概率密度Ps以及音乐概率密度Pm,如果Ps/Pm>固定门限,则判定为语音帧类型,否则继续判断当前帧处于上升沿还是下降沿,并且联合预滤波、噪声抑制等其他预处理参数,进一步基于现有技术的语音帧联合决策判断算法判断帧类型为语音帧类型或音乐帧类型;再对联合决策结果做相应的一次平滑,保证联合判决器的稳定输出。
以上以SAD算法为对音频采集检测以及类型判决的过程进行了详细描述。本领域技术人员可以意识到,这种描述仅仅是示范性的,并不用于对本发明实施方式的保护范围进行限定。
基于上述详细分析,本发明实施方式还提出了一种音频回放装置。
图4为根据本发明实施方式音频回放装置结构图。
如图4所示,该装置包括音频数据帧接收单元401、网络传输状况评估单元402、数据帧类型确定单元403和抖动缓冲器调整单元404,其中:
音频数据帧接收单元401,用于接收音频数据帧;
网络传输状况评估单元402,用于评估该音频数据帧的网络传输状况;
数据帧类型确定单元403,用于根据音频数据帧的类型标识确定音频数据帧的类型;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包序号计算所述音频数据帧的丢包率;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
网络传输状况评估单元402,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标;
抖动缓冲器调整单元404,用于当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述音频数据帧的网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
基于上述详细分析,本发明实施方式还提出了一种音频回放系统。
图5为根据本发明实施方式音频回放系统结构图。
如图5所示,该系统包括音频发送装置501和音频接收装置502,其中:
音频发送装置501,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置502发送标识后的音频数据帧;
音频接收装置502,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包序号计算所述音频数据帧的丢包率,并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频接收装置502,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
在一个实施方式中:
音频发送装置501,用于计算采集到音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型。
在一个实施方式中:
音频发送装置501,进一步用于当Ps/Pm不大于该预先设定的比较门限值时,对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
图6为根据本发明实施方式音频回放总体处理流程图。
如图6所示:
在音频采集端,首先利用各种音频采集设备采集音频帧数据,并且对采集到的音频帧数据执行预滤波、噪声抑制等预处理,再对该预处理后的数据分别执行时域和频域分析。时域分析主要包括基于周期的提取、基音周期标准差,过零率,能零比参数提取。频域分析先执行FFT处理,然后从频谱系数中分别提取MFCC参数、熵谱、能量分布,信号的频谱质心,谱宽系数等等。
接着,在音频采集端,将提取到的时域、频域系数输入到决策模块,最后输出帧类型标志(即标识);并且对决策模块判决出来的结果做相应的平滑处理,确保不会频繁的切换。
然后,在音频采集端对音频帧数据进行编码,并通过各种网络发送到音频播放端。
在音频播放端,首先接收标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况。当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。其中:
(1)、可以通过包序号计算音频数据帧的丢包率,并当音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
(2)、可以通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
(3)、可以通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当音频数据帧的类型为音乐帧、音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存音频数据帧的抖动缓冲器的阈值。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的音频回放方法、装置和系统。
比如,可以遵循一定规范的应用程序接口,将音频回放方法编写为安装到浏览器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出音频回放方法、装置和系统。
用户可以在各种终端上采集并播放音频数据,这些终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
以上虽然详细罗列了终端的具体实例,本领域人员可以意识到,这些罗列仅是阐述目的,并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的InternetExplorer、Mozilla的Firefox、Apple的Safari,Opera、GoogleChrome、GreenBrowser等浏览器。
以上虽然详细列出了一些常用浏览器,本领域技术人员可以意识到,本发明实施方式并不局限于这些浏览器,而是可以适用于任意可用于显示网页服务器或档案系统内的文件、并让用户与文件互动的应用(App),这些应用可以是目前常见的各种浏览器,也可以是其他的任意具有网页浏览功能的应用程序。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的音频回放方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(MemoryStick)、xD卡等。
另外,还可以将本发明实施方式所提出的音频回放方法应用到基于闪存(Nandflash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,对采集的音频数据帧按照类型进行标识,并发送标识后的音频数据帧;接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。由此可见,应用本发明实施方式之后,可以根据音频帧的类型以及当前网络传输状况,估算和设定防抖动的抖动缓冲器阀值大小,如果音频帧的类型是音乐帧,并且当前网络抖动大或丢包率大,此时增大抖动缓冲器的阀值,让网络音频包的传输能有更多的时间进行重传,而且提高音乐帧回放流畅度,同时大的抖动缓冲器阀值能平稳更多更大的网络抖动。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频回放方法,其特征在于,该方法包括:
接收按照类型被标识的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况;
当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值;
进一步的,在音频数据帧发送端对采集的音频数据帧按照类型进行标识,其中所述进行标识包括:
计算该音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型。
2.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
3.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包到达时刻计算网络抖动指标;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧而且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
4.根据权利要求1所述的音频回放方法,其特征在于,所述评估网络传输状况为:通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标;
所述当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值包括:
当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
5.根据权利要求1所述的音频回放方法,其特征在于,该方法进一步包括,如果Ps/Pm不大于该预先设定的比较门限值,进一步对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
6.一种音频回放系统,其特征在于,包括音频发送装置和音频接收装置,其中:
音频发送装置,用于采集音频数据帧,对采集的音频数据帧按照类型进行标识,并向音频接收装置发送标识后的音频数据帧;所述音频发送装置用于计算采集到音频数据帧的帧能量,并将该音频数据帧的帧能量与预先设定的帧能量门限值进行比较,如果帧能量低于预先设定的帧能量门限值,则将该音频数据帧标识为静音帧;如果帧能量高于预先设定的帧能量门限值,进一步计算该音频数据帧的语音概率密度Ps和音乐概率密度Pm,如果Ps/Pm大于预先设定的比较门限值,则将该音频数据帧标识为语音帧类型;
音频接收装置,用于接收所述标识后的音频数据帧,根据标识确定音频数据帧的类型,并且评估网络传输状况,其中当所述音频数据帧的类型为音乐帧而且网络传输状况评估结果不符合预先设定的传输基准条件时,调整用于缓存所述音频数据帧的抖动缓冲器的阈值。
7.根据权利要求6所述的音频回放系统,其特征在于,
音频接收装置,用于通过包序号计算所述音频数据帧的丢包率,并当所述音频数据帧的类型为音乐帧而且所述音频数据帧的丢包率高于预先设定的丢包门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
8.根据权利要求6所述的音频回放系统,其特征在于,
音频接收装置,用于通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
9.根据权利要求6所述的音频回放系统,其特征在于,
音频接收装置,用于通过包序号计算所述音频数据帧的丢包率以及通过包到达时刻计算网络抖动指标,并当所述音频数据帧的类型为音乐帧、所述音频数据帧的丢包率高于预先设定的丢包门限值且所述网络抖动指标高于预先设定的网络抖动指标门限值时,提高用于缓存所述音频数据帧的抖动缓冲器的阈值。
10.根据权利要求6所述的音频回放系统,其特征在于,
音频发送装置,进一步用于当Ps/Pm不大于该预先设定的比较门限值时,对该音频数据帧进行联合判决,并根据联合判决结果按照类型进行标识。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310218821.8A CN103259803B (zh) | 2013-06-04 | 2013-06-04 | 一种音频回放方法、装置和系统 |
PCT/CN2013/089580 WO2014194641A1 (en) | 2013-06-04 | 2013-12-16 | Audio playback method, apparatus and system |
US14/261,782 US9313250B2 (en) | 2013-06-04 | 2014-04-25 | Audio playback method, apparatus and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310218821.8A CN103259803B (zh) | 2013-06-04 | 2013-06-04 | 一种音频回放方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103259803A CN103259803A (zh) | 2013-08-21 |
CN103259803B true CN103259803B (zh) | 2016-01-27 |
Family
ID=48963500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310218821.8A Active CN103259803B (zh) | 2013-06-04 | 2013-06-04 | 一种音频回放方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103259803B (zh) |
WO (1) | WO2014194641A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103259803B (zh) * | 2013-06-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频回放方法、装置和系统 |
US9313250B2 (en) | 2013-06-04 | 2016-04-12 | Tencent Technology (Shenzhen) Company Limited | Audio playback method, apparatus and system |
CN104934040B (zh) * | 2014-03-17 | 2018-11-20 | 华为技术有限公司 | 音频信号的时长调整方法和装置 |
CN104168218B (zh) * | 2014-08-15 | 2018-03-06 | 珠海多玩信息技术有限公司 | 抖动缓冲方法及装置 |
CN105847857A (zh) * | 2016-03-07 | 2016-08-10 | 乐视致新电子科技(天津)有限公司 | 倍速播放视频时处理音频的方法及装置 |
CN106067847B (zh) | 2016-05-25 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音数据传输方法及装置 |
CN107979482B (zh) * | 2016-10-25 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、发送端、去抖动端、接收端 |
CN109963184B (zh) * | 2017-12-14 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 一种音视频网络播放的方法、装置以及电子设备 |
CN109327716B (zh) | 2018-10-31 | 2020-09-11 | 北京达佳互联信息技术有限公司 | 延迟控制方法、延迟控制装置和计算机可读存储介质 |
CN112187705B (zh) * | 2019-07-04 | 2022-04-15 | 成都鼎桥通信技术有限公司 | 音频播放方法及设备 |
CN110351595B (zh) * | 2019-07-17 | 2023-08-18 | 北京百度网讯科技有限公司 | 一种缓冲处理方法、装置、设备和计算机存储介质 |
CN113900619A (zh) * | 2019-09-27 | 2022-01-07 | 北京西山居互动娱乐科技有限公司 | 一种音频数据处理方法及装置 |
CN113556292B (zh) * | 2021-06-18 | 2022-09-13 | 珠海惠威科技有限公司 | Ip网络的音频播放方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1756230A (zh) * | 2004-09-30 | 2006-04-05 | 华为技术有限公司 | 降低实时业务时延及时延抖动的方法 |
CN101854308A (zh) * | 2010-06-09 | 2010-10-06 | 武汉必联网络技术有限公司 | VoIP系统高音质服务网络自适应实现方法 |
US7953069B2 (en) * | 2006-04-18 | 2011-05-31 | Cisco Technology, Inc. | Device and method for estimating audiovisual quality impairment in packet networks |
CN102761468A (zh) * | 2011-04-26 | 2012-10-31 | 中兴通讯股份有限公司 | 一种自适应调整语音抖动缓存区的方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1671124B (zh) * | 2004-03-19 | 2011-10-19 | 清华大学 | 通信终端装置、通信终端接收方法、通信系统、网关 |
US20070263672A1 (en) * | 2006-05-09 | 2007-11-15 | Nokia Corporation | Adaptive jitter management control in decoder |
CN102739503B (zh) * | 2011-04-01 | 2014-12-03 | 华平信息技术股份有限公司 | VoIP去抖动缓冲区的处理方法 |
CN103259803B (zh) * | 2013-06-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频回放方法、装置和系统 |
-
2013
- 2013-06-04 CN CN201310218821.8A patent/CN103259803B/zh active Active
- 2013-12-16 WO PCT/CN2013/089580 patent/WO2014194641A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1756230A (zh) * | 2004-09-30 | 2006-04-05 | 华为技术有限公司 | 降低实时业务时延及时延抖动的方法 |
US7953069B2 (en) * | 2006-04-18 | 2011-05-31 | Cisco Technology, Inc. | Device and method for estimating audiovisual quality impairment in packet networks |
CN101854308A (zh) * | 2010-06-09 | 2010-10-06 | 武汉必联网络技术有限公司 | VoIP系统高音质服务网络自适应实现方法 |
CN102761468A (zh) * | 2011-04-26 | 2012-10-31 | 中兴通讯股份有限公司 | 一种自适应调整语音抖动缓存区的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2014194641A1 (en) | 2014-12-11 |
CN103259803A (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103259803B (zh) | 一种音频回放方法、装置和系统 | |
US9313250B2 (en) | Audio playback method, apparatus and system | |
CN113539283B (zh) | 基于人工智能的音频处理方法、装置、电子设备及存储介质 | |
CN104091596B (zh) | 一种乐曲识别方法、系统和装置 | |
CN104091276B (zh) | 在线分析点击流数据的方法和相关装置及系统 | |
US20150179187A1 (en) | Voice Quality Monitoring Method and Apparatus | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN104869467A (zh) | 媒体播放中的信息输出方法、装置和系统 | |
WO2015058651A1 (zh) | 音频文件均衡器参数配置的方法和装置 | |
CN104038473A (zh) | 用于插播音频广告的方法、装置、设备和系统 | |
CN109982068B (zh) | 合成视频质量评估方法、装置、设备及介质 | |
CN206378900U (zh) | 一种基于移动终端的广告投放效果评价系统 | |
CN106649645B (zh) | 一种播放列表处理方法及装置 | |
WO2015032334A1 (zh) | 一种内容推荐的方法及移动终端 | |
CN106486136A (zh) | 一种声音识别方法、装置及语音交互方法 | |
WO2023193573A1 (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
CN105551504B (zh) | 一种基于哭声触发智能移动终端功能应用的方法及装置 | |
CN112307260A (zh) | 视频鉴别方法、装置、电子设备及计算机可读存储介质 | |
US10558697B2 (en) | Segmenting a set of media data using a set of social networking data | |
CN116259322A (zh) | 音频数据压缩方法及相关产品 | |
CN111933184B (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN113382241A (zh) | 视频编码方法、装置、电子设备和存储介质 | |
CN103024710A (zh) | 一种在线播放音乐的方法 | |
CN110928515A (zh) | 分屏显示方法、电子设备及计算机可读存储介质 | |
US20130132074A1 (en) | Method and system for reproducing and distributing sound source of electronic terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |