CN1342309A - 语音中非话音部分的低数据位速率编码 - Google Patents

语音中非话音部分的低数据位速率编码 Download PDF

Info

Publication number
CN1342309A
CN1342309A CN99815573A CN99815573A CN1342309A CN 1342309 A CN1342309 A CN 1342309A CN 99815573 A CN99815573 A CN 99815573A CN 99815573 A CN99815573 A CN 99815573A CN 1342309 A CN1342309 A CN 1342309A
Authority
CN
China
Prior art keywords
energy
time resolution
speech
high time
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99815573A
Other languages
English (en)
Other versions
CN1241169C (zh
Inventor
A·达斯
S·曼朱那什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1342309A publication Critical patent/CN1342309A/zh
Application granted granted Critical
Publication of CN1241169C publication Critical patent/CN1241169C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Abstract

一种用于语音的非话音部分的低数据速率编码方案,它包括这样一些步骤:从语音帧获取高时间分辨率能量系数、使能量系数量化、从量化的能量系数中产生高时间分辨率的能量包络,以及用能量包络的量化值形成随机产生的噪声矢量从而重新构筑残留信号。能量包络可以采用线性插入技术来产生。可以获得后处理测量,并将其与预定的阈值比较,以确定编码规则是否执行恰当。

Description

语音中非话音部分的低数据位速率编码
                发明背景
I.发明领域
本发明总的涉及语音处理领域,本发明尤其涉及语音中非话音部分的低数据位速率编码的方法和装置。
II.技术背景
采用数字技术进行话音传输已经非常广泛,尤其是在长途和数字无线电话应用领域更是这样。接着,这又在确定可以在信道上发送的最少信息量并同时保持重新构筑的语音感觉质量方面,引起了人们的兴趣。如果发送信息是通过简单地进行取样和数字化来进行的,则为实现传统的模拟电话语音质量时需要每秒64千位(kbps)数量级的数据速率。然而,通过采用语音分析,随后采用适当的编码、传输,再在接收机处重新合成,可以大大减小数据速率。
我们把采用获取与人的语音发生模型有关的参数对语音进行压缩的技术的装置称为语音编码器。语音编码器将输入的语音信号分为一些时间段,或者是一些分析帧。语音编码器通常包括编码器或译码器,或编码译码器。编码器对输入的语音帧进行分析,并获取某些相关的参数,随后将这些参数量化成二进制表述,即,量化成一组数据位或二进制的数据包。这些数据包在通信信道上传送到接收机和译码器。译码器对数据包进行处理,并将它们解量化,产生参数,随后再用这些解量化的参数,对这些语音帧进行重新合成。
语音编码器的作用是通过去除语音中所有固有的自然冗余,将数字化的语音信号压缩成低数据位速率的信号。数字压缩是通过用一组参数来代表输入的语音帧并用量化来代表具有一组数据位的参数来实现的。如果输入的语音帧的数据位数是Ni,而由语音编码器所产生的数据包的数据位数是No,那么由语音编码器所实现的压缩倍数是Cr=Ni/No。我们所面临的挑战是在实现目标压缩倍数的同时,保持高话音质量的译码语音。语音编码器的性能取决于(1)上述语音模型或分析及合成处理过程的组合的良好程度,以及(2)在每帧的目标数据位速率No时,参数量化过程进行的量化程度。所以,语音模型的目标是用每帧较少的一组参数,来捕获语音信号的基本部分或目标话音质量。
在低数据位速率下有效地对语音进行编码的一种有效的技术是多模式编码。多模式编码对不同类型的输入语音帧实施不同的模式规则或编译码规则。每一种模式或编译码过程以最有效的方式来表达某种类型的语音段(即,发声的、不发声的,或者是背景噪声)。采用一种外部模式决定机构来检查输入的语音帧,并对采用什么模式用于该帧作出决定。通常,通过从输入的帧中取出几个参数,并对它们进行评估,而作出采用哪一种模式的决定,以开环方式决定所采用的模式。所以,模式决定是在事先不知道输出语音的准确情况即按照语音质量或其他的特性测量来说输出语音与输入的语音有多大的相似程度而作出的。语音编译码器的一种典型的开环模式决定见美国专利5,414,796,该专利已转让给本发明的受让人。
多模式编码可以是固定速率的,对每一帧采用相同数量的数据位No;也可以采用变速率的,这时,不同的模式采用不同的数据位速率。变速率编码仅采用将编译码器参数编码成适合获得目标质量水平的数据位数。因此,采用变数据位速率(VBR)技术,在明显较低的平均速率下,可以得到与固定速率、更高速率编码器相同的目标话音质量。典型的变速率语音编码器见美国专利5,414,796,该专利已转让给本发明的受让人。
目前,人们无论是在商业上还是在研究兴趣上都强烈地希望开发一种能在中等的到较低数据位速率(在2.4到4kbps或以下的范围内)下工作的高质量的语音编码器。其应用范围包括无线电话、卫星通信、互联网电话、各种多媒体和话音流应用、话音邮件以及其他的话音储存系统。其驱动力是在数据包丢失的情况下,需要具有高容量,以及对较强性能的要求。近来建立各种语音编码标准的努力是推动低速语音编码规则的研究和开发的另一直接的驱动力。低速语音编码器在每一许可的应用带宽下生成更多的信道或用户,并且与合适信道编码附加层耦合的低速语音编码器可以适合编码器技术规范的整个数据位预算,并在信道出现差错的情况下,仍具有较强的性能。
所以,多模式VBR语音编码是一种在低数据位速率下对语音进行编码的有效的机制。传统的多模式技术需要对各个语音段(如,非话音的、话音的以及过渡部分)设计有效的编码方案或模式以及用于背景噪声或无声的模式。语音编码器的全部性能取决于每一种模式工作的良好程度,而编码器的平均速率取决于用于非话音的、话音的、以及语音其他部分不同模式的数据位速率。为了实现低平均速率下的目标质量,必须设计一些有效的、高性能的模式,并且其中的某些模式必须在较低的数据位速率下工作。通常,话音的和非话音的语音段是在高数据速率下捕获的,而背景噪声和无声部分是用在明显较低的速率下工作的模式来代表的。所以,需要有一种低数据速率的编码技术,在采用每一帧最少数量的数据位的时候能够捕获语音的非话音部分。
                    发明概述
本发明是一种采用每一帧最少数量的数据位准确捕获语音的非话音部分的低数据速率编码技术。因此,按照本发明对语音的非话音部分进行编码的方法最好包括这样一些步骤,即,从一个语音帧中获取高时间分辨率的能量系数;对高时间分辨率的能量系数进行量化处理;从经量化的能量系数中产生高时间分辨率的能量包;并且通过使随机生成的噪声矢量具有能量包络的量化值来重新构筑剩余的信号。
本发明还提供了一种对语音的非话音部分进行编码的语音编码器,它包括从一个帧的语音中获取高时间分辨率的能量系数的装置;使高时间分辨率的能量系数量化的装置;从量化的能量系数中产生高时间分辨率的能量包络的装置;以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的装置。
本发明还提供了对语音的非话音部分进行编码的语音编码器,它最好包括从一个帧的语音中获取高时间分辨率的能量系数的模块;使高时间分辨率的能量系数量化的模块;从量化的能量系数中产生高时间分辨率的能量包络的模块;以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的模块。
                    附图简述
图1是由语音编码器在每一端处终断的通信信道的方框图。
图2是一编码器的方框图。
图3是一译码器的方框图。
图4是描述对用于语音的非话音部分进行低数据速率编码的技术的步骤的流程图。
图5A-E给出的是信号幅度对于离散时间的关系。
图6是描绘锥形进位矢量量化编码过程的功能方框图。
                较佳实施例的详细描述
图1中,第一编码器10接收数字化的语音取样s(n),并对取样信号s(n)进行编码,用于在传输介质12或通信信道12上传输到第一译码器14。译码器14对经编码的语音取样信号进行译码,并合成输出语音信号s合成(n)。对于沿相反方向上进行的传输,第二编码器16对数字化的语音取样信号s(n)进行编码,而该取样信号是在通信信道18上传输的。第二译码器20接收经编码的语音取样信号,并对其进行译码,产生经合成的输出语音信号s合成(n)。
语音取样信号S(n)代表已经按照本领域方法(如,脉冲编码调制(PCM)、压扩μ律或A律)中的任何一种方法数字化和量化的语音信号。
正如本领域中人们所知道的那样,语音取样信号S(n)被组织成输入数据帧,其中,每一帧包含预定数量的数字化语音取样信号s(n)。在一种典型的实施例中,采用8kHz的取样速率,这时,每一20毫秒的帧包含160个取样信号。在下面描述的实施例中,从8kbps(全速率)到4kbps(二分之一速率)到2kbps(四分之一速率)到1kbps(八分之一),数据传输的速率在逐个帧的基础上是可变的。最好数据传输速率是可变的,这是因为对于包含相对较少语音信息的数据帧来说,可以有选择地采用较低的数据速率。正如本领域中的普通技术人员所了解的那样,也可以采用其他的取样速率、帧大小和数据传输速率。
第一编码器10和第二译码器20一起包含一个第一语音编码器或语音编译码器。同样,第二编码器16和第一译码器14一起包含一个第二语音编码器。本领域中的技术人员能够理解,语音编码器能够用数字信号处理器(DSP)、专用集成电路(ASIC)、离散电路的逻辑门电路、固件或传统的可编程软件模块和微处理器来构成。软件模块可以做在RAM存储器、按块擦除存储器、寄存器、或本领域中已知的其他形式的可写储存介质。也可以用任何一种传统的处理器、控制器或状态机来代替微处理器。特别设计用于语音编码的专用集成电路见美国专利5,727,123和申请日为1994年2月16日、标题为“声码器专用集成电路”的美国专利申请08/197,417,二者均已转让给本发明的受让人。
图2中,可以用在语音编码器中的编码器100包括:模式决定模块102、基音估计模块104、LP分析模块106、LP分析滤波器108、LP量化模块110和残留量化模块112。输入语音帧s(n)被提供到模块决定模块102、基音估计模块104、LP分析模块106以及LP分析滤波器108。模式决定模块102根据每一输入语音帧s(n)的周期性,产生模式索引IM和模式M。按照周期性对语音帧进行分类的各种方法见申请日为1997年3月11日、标题是“METHOD AND APPARATUS FOR PERFORMING REDUCEDRATE VARIABLE RATE VOCODING”的美国专利申请08/815,354,该专利申请已转让给本发明的受让人。这些方法也已并入电信行业协会行业暂行标准TIA/EIA IS-127和TIA/EIA IS-733。
基音估计模块104根据每一输入的语音帧s(n)产生基音索引IP和滞后值P0。LP分析模块106对每一输入的语音帧s(n)执行线性预告分析,产生LP参数a。LP参数a被提供到LP量化模块110。LP量化模块110还接收模式M。LP量化模块110产生LP索引ILP以及经量化的参数。LP分析滤波器108除了输入语音帧s(n)以外还接收经量化的LP参数。LP分析滤波器108产生LP残留信号R[n],它代表输入语音帧s(n)和量化的线性预告参数之间的误差。LP残留R[n]、模式M和量化LP参数被提供到残留量化模块112。根据这些值,残留量化模块112产生残留索引IR和经量化的残留信号
Figure A9981557300081
图3中,语音编码器中可以使用的译码器200包括LP参数译码模块202、剩余译码模块204、模式译码模块206以及LP合成滤波器208。模式译码模块206接收模式索引IM并对其进行译码,由此产生模式M。LP参数译码模块202接收模式M,和LP索引ILP。LP参数译码模块202对接收值进行译码,以产生经量化的LP参数。剩余译码模块204接收剩余索引IR、基音索引IP和模式索引IM。剩余译码模块204对接收值进行译码,产生量化的残留信号 。经量化的残留信号 和经量化的LP参数被提供到LP合成滤波器208,由它来合成经译码的输出语音信号[n]。
图2所示编码器100各种模块的操作和构成以及图3中所示译码器是本领域中已知的,其详细描述见L.B Rabiner和R.W.Schafer的Digital Processing ofSpeech Signal,396-453(1978)。典型的编码器和典型的译码器见美国专利5,414,796。
图4中的流程图描述了一种按照一种实施例用于语音的非话音段低数据速率编码技术。图4中所示的低速率非话音编码模式提供了一种在更低平均数据速率下的多模式语音编码器,通过准确捕获每一帧数量较少的数据位的非话音部分,它保留了整体较高的话音质量。
在步骤300,编码器对非话音的以及不是非话音的输入语音帧执行外部数量确定和识别。速率的确定是通过考虑到从语音帧S[n]获取的几个参数来完成的,这里,n=1,2,3,…,N,比如,帧的能量(E)、帧的周期(Rp)以及频谱倾斜(Ts)。将这些参数与一组预定的阈值比较。根据比较的结果,判断当前帧是否是非话音的。如下所述,如果当前帧是非话音的,则将其编码为非话音的帧。
按照下面的等式,可以确定帧的能量: E = 1 N * Σ m = 1 N S [ m ] * S [ m ]
按照下面的等式,可以决定帧的周期:
Rp=所有k中的最大值{R(S[n],S[n+k])},k=1,2,…,N
这里,R(x[n],x[n+k])是x的自相关函数。按照下面的等式,可以确定频谱倾斜:
Ts=(Eh/El)
这里,Eh和El是Sl[n]和Sh[n]的能量值,Sl和Sh是原始语音帧S[n]的低通和高通分量,它们可以由一组低通滤波器和高通滤波器来产生。
在步骤302,进行LP分析,产生非话音帧的线性预告剩余。线性预告(LP)是采用本领域中众所周知的技术来完成的,详见美国专利5,414,796,和L.B.Rabiner与R.W.Schafer的Digital Processing of Speech Signals 396-458(1978)。N取样的非话音LP剩余R[n]是从输入语音帧S[n]中产生的,这里,n=1,2,…,N。正如在上面对比文献中所描述的那样,采用已知的LSP量化技术,在线性频谱对(LSP)域中使LP参数量化。原始语音信号幅度与离散时间索引之间的关系见图5A中所示。经量化的非话音语音信号幅度与离散时间索引之间的关系见图5B所示。原始非话音剩余信号幅度与离散时间索引之间的关系见图5C所示。能量包络幅度与离散时间索引之间的关系见图5D所示。经量化的非话音残留信号幅度与离散时间索引之间的关系见图5E所示。
在步骤304,获取非话音残留信号的精细时间分辨率能量参数。执行下面的步骤,从非话音剩余R[n]中获取几个(M)本地能量参数Ei,这里,i=1,2,…,M。将N个取样剩余R[n]分成(M-2)子块Xi,这里,i=1,2,3,…,M-1,每一块Xi的长度是L=N/(M-2)。从前一帧的过去(past)量化剩余中得到L个取样的过去剩余块X1。(L个取样的过去剩余块X1含有最后语音帧N个取样剩余的最后L个取样)。从下一个帧的LP剩余中得到L个取样的将来剩余块XM。(L个取样的将来剩余块XM含有下一个语音帧N取样LP剩余开头的L个取样。)按照下面的等式,从M个块Xi中的每一个中产生M个本地能量参数Ei,这里,i=1,2,…,M。 E = 1 L * Σ m = 1 N X i [ m ] * X i [ m ]
在步骤306,按照锥形进位矢量量化(PVQ)方法,用Nr个数据位,对M个能量参数进行编码。所以,用Nr个数据位对M-1个本地能量值Ei进行编码,形成量化的能量值Wi,这里,i=2,3,…,M。采用数据位N1,N2,…,NK的K个步骤的PVQ编码方案,从而N1+N2+…+NK=Nr,即,用于量化非话音剩余R[n]的数据位总数。对于k个级(stage)中的每一个级,执行下面的步骤(这里,k=1,2,…,K)。对于第一级(即,k=1),将频带数设置在Bk=Bl=1,并且频带长度设置在Lk=1。对于每一频带Bk,按照下面的等式,设置平均值meanj,这里,j=1,2,…,Bk mea n j = 1 L j * Σ m = 1 L j E m
用Nk=Nl将Bk平均值meanj量化,而形成平均值qmeanj的量化组,这里,j=1,2,…,Bk。将属于每一频带Bk的能量除以相关量化的平均值qmeanj,而产生新的一组能量值{Ek,i}={El,i},这里,i=1,2,…,M。在第一级的情况下(即,对于k=1),对于每一i,(i=1,2,…,M):
El,I=Ei/qmeansl
分成子频带、获取每一频带的平均值、用每一级的数据位使平均值量化,并且随后将子频带的分量除以子带的量化平均值,对于每一以后的级k,重复这一过程,这里k=2,3,…,K-1。
在第k级,采用全部Nk个数据位,用为每一频带而设计的各个VQ,使Bk子频带中每一个的分矢量量化。M=8以及级=4的PVQ编码过程是通过图6中所示的例子来描述的。
在步骤308,形成M个量化的能量矢量。通过用最终剩余的分矢量和量化平均值最终使上述PVQ编码过程反向,从编码簿(codebook)和代表PVQ信息的Nr个数据位中形成M个量化的能量矢量。图7中通过举例,描述了M=3以及级k=3时的PVQ译码过程。正如本领域中的普通技术人员能够理解的那样,非话音的(UV)增益可以用任何一种传统的编码技术来量化。编码技术方案并非仅限于图4-7中所描述的实施例的PVQ方案。
在步骤310,形成高分辨率的能量包络。按照下面计算,从经译码的能量值Wi,形成N个取样(即,语音帧的长度),高时间分辨率的能量包络ENV[n],这里,n=1,2,3,…,N,i=1,2,3,…,M。M个能量值代表语音当前剩余M-2个子帧的能量,每一子帧的长度L=N/M。Wl和WM的值分别代表最后的剩余帧的过去的L个取样,和下一个剩余帧未来L个取样的能量。
如果Wm-1、Wm和Wm+1分别代表第m-1个、第m个和第m+1个子带的能量,那么对于n=m*L-L/2至n=m*L+L/2,代表第m个子帧的能量包络ENV[n]的采样计算如下:对于n=m*L-L/2,一直到n=m*L, ENV [ n ] = W m - 1 + ( 1 / L ) * ( n - m * L + L ) * ( W m - W m - 1 )
并且对于n=m*L,一直到n=m*L+L/2, ENV [ n ] = W m + ( 1 / L ) * ( n - m * L ) * ( W m + 1 - W m )
假设m=2,3,4,…,M,对于M-1个频带中的每一个频带,重复对能量包络ENV[n]进行计算的步骤,以计算整个能量包络ENV[n],这里,对于当前剩余帧,n=1,2,…,N。
在步骤312,通过使能量包络ENV[n]对随机噪声进行着色,形成量化后的非话音残留信号。按照下面的等式,形成量化后的非话音剩余qR[n]:
qR[n]=噪声[n]*ENV[n],    n=1,2,…,N
这里,噪声[n]是具有单位方差的随机白噪声信号,它是由与编码器和译码器同步的随机数发生器模拟产生的。
在步骤314,形成量化的非话音语音帧。正如在本领域中以及在上述美国专利5,414,796中以及L.B.Rabiner与R.W.Schafer在Digital Processing of SpeechSignal,396-458(1978)中所描述的那样,采用传统的LP合成技术,通过将量化后的非话音语音进行逆向LP滤波,产生量化的非话音剩余qS[n]。
在一种实施例中,通过测量感测的(perceptual))误差测量如感测的信噪比(PSNR),可以执行质量控制步骤,而PSNR定义如下: PSNR = 10 * log 10 Σ n = 1 N ( x [ n ] - e [ n ] ) 2 Σ n = 1 N e [ n ] * e [ n ]
这里,x[n]=h[n]*R[n],而e(n)=h[n]*qR[n],“*”表示卷积或滤波操作,h(n)是感测的加权LP滤波器,而R[n]和qR[n]分别是原始的和量化的非话音剩余。将PSNR与一预定的阈值比较。如果PSNR小于该阈值,则非话音编码方案就不会进行恰当地得到执行,并且可以执行更高速率的编码方式,代替更精确地捕获当前帧。另一方面,如果PSNR超过预定的阈值,则非话音的编码方案就得到了很好的执行,并保留该模式判断。
上文中已经描述了本发明的较佳实施例。然而,对本领域中普通技术人员而言,在不偏离本发明的精神和范围的情况下,还可以对这些实施例作各种各样的修正。所以,本发明并非仅限于这些实施例,而应当以权利要求书来限定本发明。

Claims (18)

1.一种对语音的非话音部分进行编码的方法,其特征在于,它包含下述步骤:
从语音帧中获取高时间分辨率能量系数;
使高时间分辨率能量系数量化;
从量化的能量系数,产生高时间分辨率能量包络;以及
通过用能量包络的量化值形成随机产生的噪声矢量,重新构成残留信号。
2.如权利要求1所述的方法,其特征在于,按照锥形进位矢量量化方案,执行所述量化步骤。
3.如权利要求1所述的方法,其特征在于,所述产生步骤是用线性插入的方法来完成的。
4.如权利要求1所述的方法,其特征在于,它还包含这样一个步骤,即,获得后处理性能测量,并且将所述后处理性能测量与一预定的阈值比较。
5.如权利要求1所述的方法,其特征在于,所述产生步骤包含产生高时间分辨率能量包络,包括前一帧剩余预定个数的过去取样的能量表述。
6.如权利要求1所述的方法,其特征在于,所述产生步骤包含产生高时间分辨率能量包络,包括下一帧剩余预定个数的未来取样的能量表述。
7.一种对语音的非话音部分进行编码的语音编码器,其特征在于,它包含:
从一个语音帧获取高时间分辨率能量系数的装置;
将所述高时间分辨率能量系数进行量化处理的装置;
从量化的能量系数中产生高时间分辨率能量包络的装置;以及
用能量包络的量化值随机产生噪声矢量从而重新构筑残留信号的装置。
8.如权利要求7所述的语音编码器,其特征在于,所述量化装置包含按照锥形进位矢量量化方案进行量化的装置。
9.如权利要求7所述的语音编码器,其特征在于,所述产生的装置包含一个线性插入模块。
10.如权利要求7所述的语音编码器,其特征在于,它还包含获得后处理性能测量的装置和将所述后处理性能测量与一预定阈值比较的装置。
11.如权利要求7所述的语音编码器,其特征在于,所述产生的装置包含产生高时间分辨率能量包络的装置,所述能量包络包括前一剩余帧的预定数量的过去取样的能量表述。
12.如权利要求7所述的语音编码器,其特征在于,所述产生的装置包含产生高时间分辨率能量包络的装置,所述能量包络包括下一个剩余帧的预定数量的未来取样的能量表述。
13.一种对语音的非话音部分进行编码的语音编码器,其特征在于,它包含:
从一个语音帧获取高时间分辨率能量系数的模块;
使所述高时间分辨率能量系数量化的模块;
从所述量化的能量系数中产生高时间分辨率的能量包络的模块;以及
用所述能量包络的量化值形成随机产生的噪声矢量从而重新构筑一残留信号的模块。
14.如权利要求13所述的语音编码器,其特征在于,所述量化是按照一锥形进位矢量量化方案来进行的。
15.如权利要求13所述的语音编码器,其特征在于,所述产生是以线性插入的方法进行的。
16.如权利要求13所述的语音编码器,其特征在于,它还包含获得以及将一后处理性能测量与一预定的阈值进行比较的装置。
17.如权利要求13所述的语音编码器,其特征在于,所述高时间分辨率能量包络包括前一剩余帧的预定数量的过去取样的能量表述。
18.如权利要求13所述的语音编码器,其特征在于,所述高时间分辨率能量包络包括下一剩余帧的预定数量的未来取样的能量表述。
CNB99815573XA 1998-11-13 1999-11-12 语音中非话音部分的低数据位速率编码 Expired - Lifetime CN1241169C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/191,633 US6463407B2 (en) 1998-11-13 1998-11-13 Low bit-rate coding of unvoiced segments of speech
US09/191,633 1998-11-13

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN200410045610XA Division CN1815558B (zh) 1998-11-13 1999-11-12 语音中非话音部分的低数据位速率编码

Publications (2)

Publication Number Publication Date
CN1342309A true CN1342309A (zh) 2002-03-27
CN1241169C CN1241169C (zh) 2006-02-08

Family

ID=22706272

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200410045610XA Expired - Lifetime CN1815558B (zh) 1998-11-13 1999-11-12 语音中非话音部分的低数据位速率编码
CNB99815573XA Expired - Lifetime CN1241169C (zh) 1998-11-13 1999-11-12 语音中非话音部分的低数据位速率编码

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN200410045610XA Expired - Lifetime CN1815558B (zh) 1998-11-13 1999-11-12 语音中非话音部分的低数据位速率编码

Country Status (11)

Country Link
US (3) US6463407B2 (zh)
EP (1) EP1129450B1 (zh)
JP (1) JP4489960B2 (zh)
KR (1) KR100592627B1 (zh)
CN (2) CN1815558B (zh)
AT (1) ATE286617T1 (zh)
AU (1) AU1620700A (zh)
DE (1) DE69923079T2 (zh)
ES (1) ES2238860T3 (zh)
HK (1) HK1042370B (zh)
WO (1) WO2000030074A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100487719B1 (ko) * 2003-03-05 2005-05-04 한국전자통신연구원 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기
US6987591B2 (en) * 2003-07-17 2006-01-17 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Volume hologram
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
WO2008056775A1 (fr) * 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
US20100285938A1 (en) * 2009-05-08 2010-11-11 Miguel Latronica Therapeutic body strap
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
KR102132522B1 (ko) 2014-02-27 2020-07-09 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오/비디오 샘플 벡터의 피라미드 벡터 양자화 인덱싱 및 디인덱싱을 위한 방법 및 장치
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN113627499B (zh) * 2021-07-28 2024-04-02 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation

Also Published As

Publication number Publication date
US20010049598A1 (en) 2001-12-06
KR100592627B1 (ko) 2006-06-23
KR20010080455A (ko) 2001-08-22
US7146310B2 (en) 2006-12-05
EP1129450A1 (en) 2001-09-05
CN1815558A (zh) 2006-08-09
DE69923079D1 (de) 2005-02-10
CN1815558B (zh) 2010-09-29
WO2000030074A1 (en) 2000-05-25
CN1241169C (zh) 2006-02-08
US6463407B2 (en) 2002-10-08
US20050043944A1 (en) 2005-02-24
HK1042370A1 (en) 2002-08-09
JP2002530705A (ja) 2002-09-17
ES2238860T3 (es) 2005-09-01
ATE286617T1 (de) 2005-01-15
AU1620700A (en) 2000-06-05
JP4489960B2 (ja) 2010-06-23
US20020184007A1 (en) 2002-12-05
HK1042370B (zh) 2006-09-29
EP1129450B1 (en) 2005-01-05
DE69923079T2 (de) 2005-12-15
US6820052B2 (en) 2004-11-16

Similar Documents

Publication Publication Date Title
CN1241169C (zh) 语音中非话音部分的低数据位速率编码
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1154086C (zh) Celp转发
CN100350453C (zh) 强壮语音分类方法和装置
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN1212607C (zh) 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器
CN1161749C (zh) 保持语言编码中目标比特率的方法和装置
CN102985969B (zh) 编码装置、解码装置和编码方法、解码方法
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1922659A (zh) 编码模式选择
CN1375096A (zh) 话音编码设备的频谱幅度量化
CN1133151C (zh) 纠正传输差错的声频信号解码方法
CN1739143A (zh) 用于分布式语音识别系统内语音重构的方法和设备
CN1145930C (zh) 用于交织语音编码器中线性谱信息量化方法的方法和设备
CN1348582A (zh) 音调原型波形借助于时间同步波形内插的语音合成
CN1290077C (zh) 用来对相位谱信息进行子抽样的方法和设备
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1447963A (zh) 语音编码中噪音鲁棒分类方法
CN101783142B (zh) 转码方法、装置和通信设备
CN1104010A (zh) 产生用于话音编码器的频谱噪音加权滤波器的方法
CA2293165A1 (en) Method for transmitting data in wireless speech channels
CN101170590B (zh) 一种背景噪声的编码码流传输的方法、系统及装置
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
CN1815894A (zh) 一种音频信号编码的方法和设备

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20060208

CX01 Expiry of patent term