CN102903364B - 一种进行语音自适应非连续传输的方法及装置 - Google Patents

一种进行语音自适应非连续传输的方法及装置 Download PDF

Info

Publication number
CN102903364B
CN102903364B CN201110216374.3A CN201110216374A CN102903364B CN 102903364 B CN102903364 B CN 102903364B CN 201110216374 A CN201110216374 A CN 201110216374A CN 102903364 B CN102903364 B CN 102903364B
Authority
CN
China
Prior art keywords
frame
spectrum
spectrum energy
insertion description
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110216374.3A
Other languages
English (en)
Other versions
CN102903364A (zh
Inventor
顾彩霞
袁浩
江东平
黎家力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201110216374.3A priority Critical patent/CN102903364B/zh
Priority to PCT/CN2012/078878 priority patent/WO2013017018A1/zh
Publication of CN102903364A publication Critical patent/CN102903364A/zh
Application granted granted Critical
Publication of CN102903364B publication Critical patent/CN102903364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Abstract

本发明公开了一种进行语音自适应非连续传输的方法及装置,此方法包括:在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化,采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行,能很好地跟踪信号的变化,在保持较低平均码率的同时保证音质。

Description

一种进行语音自适应非连续传输的方法及装置
技术领域
本发明涉及数字信号处理领域,尤其涉及一种进行语音自适应非连续传输(Discontinuous Transmission,简称DTX)的方法及装置。
背景技术
在实际用户通信过程中,一般情况下,较少时间用于传送用户话音,较多时间用于传送非话音的背景音。如果按照对语音信号的编码方式对通信过程进行全程编码,会造成很大的资源浪费。现有技术中为了减少这种浪费,发送端利用语音激活检测(VoiceActivity Detector,简称VAD)算法进行信号检测,检测到通话中的静音(inactive)段时,在静音段中使用较低码率对信号的重要信息进行编码,即将信号编码成为静音插入描述(Silence InsertionDescriptor,简称SID)帧,并且采用不连续方式发送SID帧。解码端根据接收到的SID帧以舒适噪声产生(Comfort Noise Generation,简称CNG)的方式进行解码。这样,在对音质影响不大的基础上,大大减少平均码率,节省资源,这无疑对于有效地使用日益紧张的网络带宽资源具有积极地意义。因此,在静音段采用什么样的策略以及多大间隔来发送SID帧,也就决定了节省带宽的多少。
目前在语音自适应非连续传输中进行SID帧发送的方式主要包括两类:一,以固定间隔发送;二:以可变间隔发送。
采用方式一的以固定间隔发送方案时,采用事先设定好的参数,在静音段每隔一定的帧数发送一SID帧,例如3GPP AMR和AMR-WB语音编码标准中就是使用的该方法,固定每8帧发送一次。该方法的优点是计算简单,容易实现,缺点是不能根据信号特征自动调节码率。
自适应多速率(Adaptive Multi Rate,简称AMR)的SID帧发送机制中,发送端在语音帧后检测到静音帧时,不立即进入静音段,而是采用一定的缓冲(hangover)机制,在此缓冲阶段,仍然按照对正常语音的编码进行编码,在缓冲阶段之后,仍然检测到静音帧,则在静音段之后的第一个静音帧位置发送SIDFIRST帧(即第一SID帧),在第三个静音帧位置发送每一个SID更新(SIDUPDATE)帧,之后,固定每隔7帧发送一个SID更新帧,这样在缓冲阶段后按固定低码率对SID帧进行参数更新,以达到更新参数的目的。在另一种实现方式中,在连续N个语音帧后检测到静音帧并且此N的值小于34时,取消缓冲阶段,直接进行SID更新帧的发送。此方法计算简单,只需要使用计数器就可以实现,不需要进行额外的参数计算,并且码率可控,算法稳定。此方法的缺点是采用固定间隔,使码率固定,对于不同噪声使用统一的码率,不能根据噪声信号的变化进行调整。比如对于白噪声,参数非常稳定,但是仍然频繁发送SID帧,不能有效降低码率。而对于变化很快的噪声信号,又不能及时跟踪信号变化,造成信息延迟,导致在解码端进行CNG恢复的时候噪声信号失真很大。
采用方式二的以可变间隔发送方案时,采用一定算法对静音段的信号进行实时评估,根据信号的实时变化,决定是否需要发送SID帧。该方法的优点是灵活,可以根据信号的实时变化而变化,最大限度地节省带宽,并且平均码率可调节,缺点是计算相对复杂。
ITU-T G.729语音编码器中就是采用的可变间隔发送方式,通过对信号的LPC等参数的计算,来衡量信号是否发生重大改变,以决定是否需要更新,虽然该方法能自适应地跟踪信号,但是计算复杂度较高。该方法是建立在线性预测基础上的。首先对信号进行线性预测编码(Linear Predictive Coding,简称LPC)得到信号的线性预测参数a和残差能量E,然后使用该系数的数学表示,与存储器中存储的上一个发送的SID帧的同参数做比较,如果LPC的包络或者能量中任意一个比较结果大于一定的门限,则认为信号发生变化,则发送SID更新帧,否则不发送。由于该方法是在时域进行,首先必须要进行信号的LPC分析,计算比较复杂。并且LPC系数对信号频谱的真实反映程度取决于LPC的阶数,而LPC的阶数与计算复杂度是成正比的。另外使用信号的残差能量或者LPC包络单独进行检测,难以整体反映信号的变化。比如,如果LPC对本帧信号的描述不准确,则直接导致信号的残差能量发生比较大变化。
发明内容
本发明要解决的技术问题是提供一种进行语音自适应非连续传输的方法及装置,克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化,采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。
为了解决上述技术问题,本发明提供了一种进行语音自适应非连续传输的方法,包括:在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。
进一步地,上述方法还可以具有以下特点:
所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息,或者,对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。
进一步地,上述方法还可以具有以下特点:
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧。
进一步地,上述方法还可以具有以下特点:
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。
进一步地,上述方法还可以具有以下特点:
所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指:
所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;
或者,
所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
进一步地,上述方法还可以具有以下特点:
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧。
为了解决上述技术问题,本发明提供了一种进行语音自适应非连续传输的装置,其中,所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元;所述静音插入描述帧处理单元,用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧;所述静音插入描述帧存储单元,用于在所述装置发送静音插入描述帧后,存储此静音插入描述帧的频谱信息。
进一步地,上述装置还可以具有以下特点:
所述静音插入描述帧处理单元,还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息;
所述静音插入描述帧存储单元,还用于存储经过平滑处理后的频域信号。
进一步地,上述装置还可以具有以下特点:
所述静音插入描述帧处理单元,还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧;或者,还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距;
所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指:所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;或者,所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
进一步地,上述装置还可以具有以下特点:
所述静音插入描述帧处理单元,还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧。
本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化,采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行,能很好地跟踪信号的变化,在保持较低平均码率的同时保证音质。
附图说明
图1是进行语音自适应非连续传输的装置的结构示意图;
图2是进行语音自适应非连续传输的装置的另一种结构示意图;
图3是具体实施例二中进行语音自适应非连续传输的流程示意图;
图4是具体实施例三中进行语音自适应非连续传输的流程示意图.
具体实施方式
如图1所示,进行语音自适应非连续传输的装置包括静音插入描述帧处理单元和静音插入描述帧存储单元。
静音插入描述帧处理单元,用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧;
静音插入描述帧存储单元,用于在所述装置发送静音插入描述帧后,存储此静音插入描述帧的频谱信息。
实施方式一中,静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧。
静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。
其中,语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距值大于预设限度是指:
语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;或者,语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
实施方式二中,静音插入描述帧处理单元用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧。
实施方式三中,静音插入描述帧处理单元用于同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述帧。
如图2所示,所述装置还可以包括平滑滤波单元;平滑滤波单元用于对语音信号的频域信号进行平滑滤波后,输入至所述静音插入描述帧处理单元,静音插入描述帧处理单元对平滑处理后的频域信号进行上述处理,静音插入描述帧存储单元还需保存平滑处理后的频域信号。
进行语音自适应非连续传输的方法包括:在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。
所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息,或者,对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。
平滑处理主要为更准确地比较信号频谱变化,减小频谱的细节对整体比较的影响,消除频谱尖峰和毛刺,使输出频谱更加平滑,使得频谱包络更加平稳。此频谱平滑可以使用一个平滑滤波器实现。以16kHz采样,20ms帧长为例进行说明。通过采用FFT,将时域信号变换到频域,得到本帧信号的频谱参数,FFT采用长度为320点。可以采用以下平滑滤波器:
H(z)=a0Z-2+a1Z-1+a2+a3Z+a4Z2
其中系数[a0,a1,a2,a3,a4]是平滑系数,取值可以为[0.15,0.15,0.4,0.15,0.15]。经过平滑处理后,谱线趋势不变,但是瞬时突变减小,更有利于观察信号频谱包络的变化。上述频谱平滑包括但是不限于上述使用滤波器的方式。在滤波器使用过程中,也可以通过调节滤波器的系数或者阶数来达到不同的调整效果。
实施方式一中,判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧。
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。
其中,所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指:所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;或者,所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
实施方式二中,判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧。
实施方式三中,可以同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述帧。
下面通过具体实施例进行详细说明。
具体实施例一
本实施例中采用频谱相关值参数进行判断。
本装置在每次进行SID帧后,将此SID帧的频谱能量信息存储于SID帧存储单元中,即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。
在进行是否发送SID帧的判决时,首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限(THR1),如果不满足上述条件,则认为信号执行维持低能量,不需要发送SID帧,满足上述条件后,根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的相关值:
其中,S(i)代表当前语音信号帧的频谱能量,Slast(i)表示当前帧的前一SID帧的频谱能量,N代表频谱长度,本实施例中取320。
如果上式中两个频谱相关值R1的绝对值小于频谱相关性门限(THR2),则判定需要发送SID帧,同时更新SID帧存储单元的信息。
具体实施例二
本实施例中采用频谱能量的比值进行判断。
本装置在每次进行SID帧后,将此SID帧的频谱能量信息存储于SID帧存储单元中,即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。
如图3所示,在进行是否发送SID帧的判决时,首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限,如果不满足上述条件,则认为信号执行维持低能量,不需要发送SID帧,满足上述条件后,根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的比值:
其中,S(i)代表当前语音信号帧的频谱能量,Slast(i)表示当前帧的前一SID帧的频谱能量,N代表频谱长度。
如果两者的比值R2大于门限值THR3或者小于THR3的倒数,THR3为大于1的实数,说明信号能量发生较大变化,需发送一个SID帧,否则,不需要发送SID帧。
具体实施例三
本实施例中采用频谱能量的比值进行判断。
本装置在每次进行SID帧后,将此SID帧的频谱能量信息存储于SID帧存储单元中,即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。
如图4所示,在进行是否发送SID帧的判决时,首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限,如果不满足上述条件,则认为信号执行维持低能量,不需要发送SID帧,满足上述条件后,根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的比值:
其中,S(i)代表当前语音信号帧的频谱能量,Slast(i)表示当前帧的前一SID帧的频谱能量,N代表频谱长度。
如果两者的比值R2大于门限值THR3或者小于THR3的倒数,THR3为大于1的实数,说明信号能量发生较大变化,进行下一步判断,否则,不需要发送SID帧。
进一步判断两者的比值R2大于门限值THR4或者小于THR4的倒数时(THR4为大于THR3的实数),说明信号能量突然发生非常大(比如静音中突然出现能量非常大的噪声),则设置一个连续更新信号,并强制连续发送两个SID帧,不满足此条件时,只需发送一个SID帧。
具体实施例四
本实施例中采用频谱能量的差值进行判断。
本装置在每次进行SID帧后,将此SID帧的频谱能量信息存储于SID帧存储单元中,即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。
在进行是否发送SID帧的判决时,首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限,如果不满足上述条件,则认为信号执行维持低能量,不需要发送SID帧,满足上述条件后,根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差值:
其中,S(i)代表当前语音信号帧的频谱能量,Slast(i)表示当前帧的前一SID帧的频谱能量,N代表频谱长度。
如果两者的差值R3的绝对值大于门限值THR5,说明信号能量发生较大变化,需要发送SID帧,同时更新SID帧存储单元的信息。
在上述方案以及具体实施例中,可以加入缓冲(hangover)算法,以保证在语音结尾阶段的音质,并且使得CNG算法初始化完成。即在连续语音帧后检测到静音帧时,不是直接进入不连续传输方式,而是在最初的几个静音帧继续按照语音帧方式来处理。之后,才进入到不连续传输模式。例如,在语音帧后检测到第一个静音帧时,在最初的7个静音帧继续按照语音帧方式来处理。之后如果检测到的仍然是静音帧,则发送SID_FIRST帧,在SID_FIRST之后第三帧发送SID_UPDATE,然后根据上述描述的判决算法决定是否发送SID帧。所述hangover算法包括了对连续语音帧的计数,在检测到第一个静音帧时,判断此连续语音帧的数值大于设置的缓冲门限(thr_hangover)时,按照上述的缓冲算法设置缓冲阶段,否则,直接发送SID_UPDATE,并且进入自动检测状态,同时将对连续语音帧的计数清零。
在上述方案以及具体实施例中,还可以设置最大SID间隔门限值。在当前帧进行判决时,当前帧与上一SID帧的间隔超过此最大SID间隔门限值时,强制更新一帧SID,以保证系统稳定,减少由于SID帧丢失等异常情况造成的不利影响。
在上述方案以及具体实施例中,还可以设置最小SID间隔门限值。在当前帧进行判决时,当前帧与上一SID帧的间隔超过小于此最小SID间隔门限值时,判定不发送SID帧,暂时不更新,以减少SID帧的频繁发送。
本方案可以用于实时双向通信如无线、IP会议电视等领域的语音的不连续传输情况,在基本不影响音质的情况下有效节省带宽资源,提高网络使用效率。本发明计算复杂度较低,对信号频谱变化的跟踪比较准确,能够在噪声变化快的情况下进行有效跟踪,在噪声平稳情况下有效节省带宽,并且不依赖于具体的语音频编码器,具有灵活高效的特点。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

Claims (10)

1.一种进行语音自适应非连续传输的方法,其中,
在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧,包括:
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧;或者,
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。
2.如权利要求1所述的方法,其特征在于,
所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息,或者,对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。
3.如权利要求1所述的方法,其特征在于,
所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指:
所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;或者,
所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
4.一种进行语音自适应非连续传输的方法,其特征在于,
在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧,包括:判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧。
5.如权利要求4所述的方法,其特征在于,
所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息,或者,对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。
6.一种进行语音自适应非连续传输的装置,其中,所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元;
所述静音插入描述帧处理单元,用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧,包括:
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时,发送静音插入描述帧;或者,
判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一,进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时,连续发送两个静音插入描述帧,其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距;
所述静音插入描述帧存储单元,用于在所述装置发送静音插入描述帧后,存储此静音插入描述帧的频谱信息。
7.如权利要求6所述的装置,其特征在于,
所述静音插入描述帧处理单元,还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息;
所述静音插入描述帧存储单元,还用于存储经过平滑处理后的频域信号。
8.如权利要求6所述的装置,其特征在于,
所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指:所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数,其中所述比值门限为大于1的实数;或者,所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。
9.一种进行语音自适应非连续传输的装置,其特征在于,所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元;
所述静音插入描述帧处理单元,用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧,包括:判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时,根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值,判断所述频谱相关值小于频谱相关性门限时,发送静音插入描述帧;
所述静音插入描述帧存储单元,用于在所述装置发送静音插入描述帧后,存储此静音插入描述帧的频谱信息。
10.如权利要求9所述的装置,其特征在于,
所述静音插入描述帧处理单元,还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息;
所述静音插入描述帧存储单元,还用于存储经过平滑处理后的频域信号。
CN201110216374.3A 2011-07-29 2011-07-29 一种进行语音自适应非连续传输的方法及装置 Active CN102903364B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110216374.3A CN102903364B (zh) 2011-07-29 2011-07-29 一种进行语音自适应非连续传输的方法及装置
PCT/CN2012/078878 WO2013017018A1 (zh) 2011-07-29 2012-07-19 一种进行语音自适应非连续传输的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110216374.3A CN102903364B (zh) 2011-07-29 2011-07-29 一种进行语音自适应非连续传输的方法及装置

Publications (2)

Publication Number Publication Date
CN102903364A CN102903364A (zh) 2013-01-30
CN102903364B true CN102903364B (zh) 2017-04-12

Family

ID=47575567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110216374.3A Active CN102903364B (zh) 2011-07-29 2011-07-29 一种进行语音自适应非连续传输的方法及装置

Country Status (2)

Country Link
CN (1) CN102903364B (zh)
WO (1) WO2013017018A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217723B (zh) 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
CN104378474A (zh) * 2014-11-20 2015-02-25 惠州Tcl移动通信有限公司 一种降低通话输入噪音的移动终端及其方法
US9748929B1 (en) * 2016-10-24 2017-08-29 Analog Devices, Inc. Envelope-dependent order-varying filter control
US10805191B2 (en) 2018-12-14 2020-10-13 At&T Intellectual Property I, L.P. Systems and methods for analyzing performance silence packets

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1964408A (zh) * 2005-11-12 2007-05-16 鸿富锦精密工业(深圳)有限公司 静音处理装置及方法
CN101213591A (zh) * 2005-06-18 2008-07-02 诺基亚公司 用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法
WO2008121035A1 (en) * 2007-03-29 2008-10-09 Telefonaktiebolaget Lm Ericsson (Publ) Method and speech encoder with length adjustment of dtx hangover period
CN101335001A (zh) * 2007-11-02 2008-12-31 华为技术有限公司 一种dtx判决方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101213591A (zh) * 2005-06-18 2008-07-02 诺基亚公司 用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法
CN1964408A (zh) * 2005-11-12 2007-05-16 鸿富锦精密工业(深圳)有限公司 静音处理装置及方法
WO2008121035A1 (en) * 2007-03-29 2008-10-09 Telefonaktiebolaget Lm Ericsson (Publ) Method and speech encoder with length adjustment of dtx hangover period
CN101335001A (zh) * 2007-11-02 2008-12-31 华为技术有限公司 一种dtx判决方法和装置

Also Published As

Publication number Publication date
WO2013017018A1 (zh) 2013-02-07
CN102903364A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
US11417354B2 (en) Method and device for voice activity detection
US8275609B2 (en) Voice activity detection
US7983906B2 (en) Adaptive voice mode extension for a voice activity detector
US8032370B2 (en) Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
RU2251750C2 (ru) Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале
JP5712220B2 (ja) 音声活動検出のための方法および背景推定器
CN102903364B (zh) 一种进行语音自适应非连续传输的方法及装置
JP2013508773A (ja) 音声エンコーダの方法およびボイス活動検出器
WO2009088431A1 (en) Method and apparatus for detecting and suppressing echo in packet networks
US7231348B1 (en) Tone detection algorithm for a voice activity detector
KR101408625B1 (ko) Dtx 행오버 주기의 길이를 조정하는 방법 및 음성 인코더
KR20000062171A (ko) 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법
CN101393744B (zh) 调整声音激活检测门限值的方法及装置
Farsi et al. Improving voice activity detection used in ITU-T G. 729. B

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant