CN101171626A - 通过修改残余对声码器内的帧进行时间扭曲 - Google Patents
通过修改残余对声码器内的帧进行时间扭曲 Download PDFInfo
- Publication number
- CN101171626A CN101171626A CNA2006800151895A CN200680015189A CN101171626A CN 101171626 A CN101171626 A CN 101171626A CN A2006800151895 A CNA2006800151895 A CN A2006800151895A CN 200680015189 A CN200680015189 A CN 200680015189A CN 101171626 A CN101171626 A CN 101171626A
- Authority
- CN
- China
- Prior art keywords
- pitch period
- vocoder
- voice
- section
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
在一个实施例中,本发明包括:声码器,其具有至少一个输入及至少一个输出;编码器,其包括滤波器,所述滤波器具有至少一个以可操作方式连接至所述声码器的输入的输入及至少一个输出;及解码器,其包括合成器,所述合成器具有至少一个以可操作方式连接至所述编码器的至少一个输出的输入及至少一个以可操作方式连接至所述声码器的至少一个输出的输出,其中所述编码器包括存储器,且所述编码器适于执行存储在所述存储器内的指令,所述指令包括对语音段进行分类及对语音段进行编码,且所述解码器包括存储器,且所述解码器适于执行存储在所述存储器内的指令,所述指令包括将残余语音信号时间扭曲成所述残余信号的扩展或压缩型式。
Description
根据35U.S.C§119主张优先权
本申请案要求于2005年3月11日提出申请的标题为“Time Warping Frames Insidethe Vocoder by Modifying the Residual”的第60/660,824号的美国临时申请案的权利,本申请案的整个揭示内容被视为本申请案揭示内容的部分且以引用方式并入本文中。
技术领域
大体而言,本发明涉及一种时间扭曲(扩展或压缩)声码器内声码器帧的方法。时间扭曲在分组交换网络中具有很多应用,其中声码器分组可不同步地到达。虽然时间扭曲可在声码器内部实施也可在其外部实施,但在声码器内实施时间扭曲可提供很多优点,例如,扭曲帧的品质更好且计算的负荷减小。本文件中所提供的方法可应用于任何使用本申请案中所提及的类似技术来声编码声音数据的声码器。
背景技术
本发明包括一种用于通过调处语音信号来时间扭曲语音帧的设备及方法。于一实施例中,本发明方法及设备用于(但不限于)第四代声码器(4GV)。所揭示的实施例包括用来扩展/压缩不同类型语音段的方法及设备。
发明内容
鉴于以上所述,大体而言,本发明所揭示的特征涉及一种或多种用于传送语音的改良系统、方法及/或设备。
于一实施例中,本发明包括一种传送语音的方法,其包括如下的步骤:将语音段分类;使用代码激励线性预测来编码所述语音段;及将残余语音信号时间扭曲成所述残余语音信号的扩展或压缩型式。
于另一实施例中,所述传送语音的方法进一步包括:发送语音信号通过线性预测编码滤波器,由此滤除所述语音信号中的短期相关性;及输出线性预测编码系数及残余信号。
于另一实施例中,所述编码是代码激励线性预测编码,且所述时间扭曲步骤包括:估计音调延迟;将语音帧划分成音调周期,其中所述音调周期的边界是使用所述语音帧中不同点处的音调延迟来确定;如果压缩所述语音残余信号,则重叠所述音调周期;及如果扩展所述语音残余信号,则相加所述音调周期。
于另一实施例中,所述编码是原型音调周期编码,且所述时间扭曲的步骤包括:估计至少一个音调周期;对所述至少一个音调周期进行内插;当扩展所述残余语音信号时,相加所述至少一个音调周期;及当压缩所述残余语音信号时,减去所述至少一个音调周期。
于另一实施例中,所述编码为噪声激励线性预测编码,且所述时间扭曲的步骤包括:在对其进行合成之前,可对语音段的不同部分应用不同的增益。
于另一实施例中,本发明包括:声码器,其具有至少一个输入及至少一个输出;编码器,其包括滤波器,所述滤波器具有至少一个以可操作方式连接至所述声码器输入的输入及至少一个输出;及解码器,其包括合成器,所述合成器具有至少一个以可操作方式连接至所述编码器的至少一个输出的输入及至少一个以可操作方式连接至所述声码器的至少一个输出的输出。
于另一实施例中,所述编码器包括存储器,其中所述编码器适于执行存储于所述存储器中的指令,所述指令包括将语音段分类成1/8帧、原型音调周期、代码激励线性预测或噪声激励线性预测。
于另一实施例中,所述解码器包括内存,且所述解码器适于执行存储于所述内存中的指令,所述指令包括将残余信号时间扭曲成所述残余信号的扩展或压缩型式。
根据下文说明书、权利要求书及图,本发明的其它适用范围将变得明显。然而应理解,尽管所述说明书及具体实例显示本发明的较佳实施例,但却仅以举例说明方式给出,因为所属技术领域的技术人员将易于得出各种归属于本发明主旨及范畴内的变化及修改。
附图说明
根据下文给出的详细说明、随附权利要求书及附图,可更加完整地理解本发明,图式中:
图1是线性预测编码(LPC)声码器的方块图;
图2A是包含浊音语音的语音信号;
图2B是包含清音语音的语音信号;
图2C是包含瞬态语音的语音信号;
图3是图解说明编码残余后的语音LPC滤波的方块图;
图4A是原始语音的图表;
图4B是LPC滤波之后的残余语音信号的图表;
图5图解说明使用先前与当前原型音调周期之间的内插来产生波形;
图6A绘示通过内插来确定音调延迟;
图6B绘示识别音调周期;
图7A代表呈音调周期形式的原始语音信号;
图7B表示使用重叠-相加来扩展的语音信号;
图7C表示使用重叠-相加来压缩的语音信号;
图7D表示如何使用加权来压缩所述残余信号;
图7E表示在不使用重叠-相加情况下进行压缩的语音信号;
图7F表示如何使用加权来扩展所述残余信号;且
图8包含所述相加-重叠方法中所使用的两个方程。
具体实施方式
在本文中,“实例性”一词用于意指“用作实例、例子或例解”。本文中阐述为“实例性”的任何实施例未必视为比其它实施例较佳或有利。
在声码器中使用时间扭曲的特征
人类的声音由两种组分构成。一个组分包括对音调敏感的基波,而另一个是对音调不敏感的固定谐波。声音中所感知到的音调是耳朵对频率的响应,亦即,对于大多数实际用途,音调便是频率。谐波组分使个人声音具有独特的特征。其随声带及声道的实际形状而改变,且被称为共振峰。
人类声音可由数字信号s(n)10来表示。假定s(n)10是在典型谈话期间获得的数字语音信号,其包括不同的口声及静默周期。优选地,将语音信号s(n)10划分成若干个帧20。于一态样中,以8kHz对s(n)10进行数字取样。
当前的编码方案通过去除语音中所固有的所有自然冗余(亦即,相关的元素)将数字化语音信号10压缩成低位率信号。语音通常表现出由唇及舌头的机械动作而引起的短期冗余,且表现出由声带的颤动所引起的长期冗余。线性预测编码(LPC)通过去除所述冗余来滤波语音信号10,从而产生残余语音信号30。然后,其将所获得的残余信号30模拟成白高斯噪声。可通过加权数个过去样本40的和来预测语音波形的取样值,所述数个过去的样本每一者均被乘以线性预测系数50。因此,线性预测编码器通过传输滤波器系数50及量化噪声,而并非传输全部的带宽语音信号10来达成减少的位率。通过从残余信号30的当前帧20提取原型周期100来编码残余信号30。
本发明方法及设备所使用的LPC声码器70的一个实施例的方块图可见于图1中。LPC的功能是最小化在有限持续时间内的原始语音信号与估计语音信号之间的平方差的和。此可产生一组唯一的预测变量系数50,在正常情况下每一帧20均对所述预测变量系数进行估计。帧20通常20ms长。时变数字滤波器75的转移函数可由如下给出:
其中所述预测变量系数50是由ak代表,而增益由G代表。
从k=1到k=p计算所述求和。如果使用LPC-10方法,则p=10。此意味着仅前10个系数传输至LPC合成器80。最常用来计算所述系数的两个方法是(但不限于)协方差方法及自动相关方法。
通常,不同说话者说话的速度是不同的。时间压缩是一种可减少个别说话者速度变化的影响的方法。可通过扭曲其中一个语音模式的时间轴来减少两个语音模式之间的定时差,以便获得与另一者的最大重合。这种时间压缩技术被称为时间扭曲。此外,时间扭曲可压缩或扩展声音信号而不改变其音调。
典型声码器是以优选的8kHz速率来产生持续时间为20微秒的帧20,所述帧包括160个样本90。帧20中经时间扭曲的压缩型式具有小于20微秒的持续时间,而经时间扭曲的扩展型式具有大于20微秒的持续时间。当通过分组交换网络发送声音数据时(其会在声音分组的传输中引入延迟抖动),声音数据的时间扭曲具有若干显著优点。在此类网络中,可使用时间扭曲来减轻延迟抖动的影响并产生貌似“同步”的声音流。
本发明的实施例涉及一种用于通过调处语音残余30来时间扭曲声码器70内的帧20的设备及方法。于一实施例中,所述方法及设备用于4GV中。所揭示的实施例包括若干种方法及设备,用于扩展/压缩使用原型音调周期(PPP)、代码激励线性预测(CELP)或噪声激励线性预测(NELP)编码进行编码的不同类型的4GV音调段110。
术语“声码器”70通常是指通过提取基于人类语音产生模型的参数来压缩浊音语音的装置。声码器70包括编码器204及解码器206。编码器204对进入的语音进行分析并提取相关的参数。于一实施例中,编码器包括滤波器75。解码器206使用其从编码器204经由传输通道208接收而来的参数来合成所述语音。于一实施例中,所述解码器包括合成器80。语音信号10常常被划分成若干数据帧20并由声码器70进行块处理。
所属技术领域的技术人员应了解,人类的语音可按很多不同的方式来分类。三个传统的语音分类是浊音、清音及瞬态语音。图2A是浊音语音信号s(n)402。图2A显示浊音语音中一个可测量的普遍性质,其被称为音调周期100。
图2B是清音语音信号s(n)404。清音语音信号404类似于有色噪声。
图2C绘示瞬态语音信号s(n)406(亦即,既不是浊音,也不是清音的语音)。图2C中所示的瞬态语音406的实例可代表清音语音与浊音语音之间的s(n)过渡。所述三种分类并非涵盖所有的情况。有很多不同的语音分类,可根据本文所述的方法使用不同的语音分类来达成相当的结果。
使用4个不同帧类型的4GV声码器
本发明一实施例中所使用的第四代声码器(4GV)70可为通过无线网络的应用提供吸引人的特征。其中某些特征包括:能在质量与位率之间进行折衷选择、当面对增加的分组错误率(PER)时更为弹性的声编码、更好的擦除隐匿等。4GV声码器70可使用四个不同编码器204及解码器206的任一者。不同的编码器204及解码器206是根据不同的编码方案来进行操作。某些编码器204可更有效地编码语音信号s(n)10中表现出某些特性的部分。因此,于一实施例中,可基于当前帧20的分类来选择编码器204及解码器206。
4GV编码器204将声音数据的每一帧20编码成四种不同帧20类型的其中一个类型:原型音调周期波形内插(PPPWI)、代码激励线性预测(CELP)、噪声激励线性预测(NELP)或静默1/8速率帧。CELP是用来编码周期性差的语音或从一个周期段110到另一个周期段发生变化的语音。因此,通常,选择CELP模式来编码被分类为瞬态语音的帧。由于这些段110无法仅通过一个原型音调周期进行精确的重构,故CELP对完整语音段110的特性进行编码。所述CELP模式使用线性预测残余信号30的量化型式来激励线性预测声带模型。在本文所述的所有编码器204及解码器206中,CELP通常可产生更为精确的语音复制,但需要较高的位率。
可选择原型音调周期(PPP)模式来编码被分类为浊音语音的帧20。浊音语音含有由所述PPP模式加以利用的慢时变周期组分。所述PPP模式对每一帧20内的音调周期100的子集进行编码。语音信号10的剩余周期100是通过在这些原型周期100之间内插来进行重构。通过利用浊音语音的周期性,PPP能够实现比CELP低的位率,并仍可以精确感知的方式来复制语音信号10。
PPPWI是用来对具有周期性的语音数据进行编码。此类语音是以若干个不同的类似于“原型”音调周期(PPP)的音调周期100为特征。所述PPP是编码器204唯一需要编码的声音信息。所述解码器可使用所述PPP重构语音段110中的其他音调周期100。
可选择“噪声激励线性预测”(NELP)编码器204来编码被分类为清音语音的帧20。如果语音信号10几乎没有或没有任何音调结构,则NELP编码在信号复制方面可有效地操作。更具体而言,NELP是用来编码具有噪声样特性的语音,例如,清音语音或背景噪声。NELP使用经滤波的伪随机噪声信号来模拟浊音语音。可通过在解码器206处产生随机信号并向其施加适合的增益来重构语音段110的噪声样特性。NELP对所述已编码语音使用最简单的模型,且因此实现较低的位率。
第1/8th速率帧是用来对静默进行编码,亦即,使用者并非在说话的周期。
上述的所有四个声编码方案可共用图3中所示的初始LPC滤波程序。在根据其特性将所述语音分为4个种类的其中一个之后,发送语音信号10通过线性预测编码(LPC)滤波器80,所述线性预测编码滤波器使用线性预测来滤除所述语音中的短期相关性。这个块的输出是LPC系数50及“残余”信号30,所述残余信号基本上是原始语音信号10(其中短期相关性被去除)。然后,使用由所述声编码方法针对帧20所选择使用的具体方法来编码残余信号30。
图4A-4B显示原始语音信号10及在LPC块80之后的残余信号30的实例。可看出,残余信号30比原始语音10更为清楚地显示音调周期100。因此,很合理,使用残余信号30,可比原始语音信号10(其也包含短期相关性)更为精确地确定语音信号的音调周期100。
残余时间扭曲
如上所述,时间扭曲可用来扩展或压缩语音信号10。虽然很多方法都可用来实现此目的,但这些方法中的大多数方法是基于添加或删除来自信号10的音调周期100。可在接收残余信号30之后但在合成信号30之前在解码器206中完成音调周期100的相加或相减。对于使用CELP或PPP(并非NELP)进行编码的语音数据,所述信号包括若干个音调周期100。因此,可对语音信号10添加或自其删除的最小单元是音调周期100,因为任何比其小的单元均将导致相位的不连续性,从而导致引入显著的语音假象。因此,应用于CELP或PPP语音的时间扭曲方法中的一个步骤是对音调周期100进行估计。解码器206已经知道CELP/PPP语音帧20的音调周期100。在PPP及CELP二者的情况下,编码器204使用自动校准方法来计算音调信息并将其传输至解码器206。因此,解码器206可精确地知道音调周期100。此使得可更加容易地在解码器206中应用本发明的时间扭曲方法。
此外,如上所述,在合成信号10之前时间扭曲信号10是比较容易的。如果在解码信号10之后应用此类时间扭曲方法,则需要估计信号10的音调周期100。此不仅需要额外的计算,而且对音调周期100的估计可能不是很精确,因为残余信号30同样包含LPC信息170。
另一方面,如果额外音调周期100的估计不太复杂,则在解码之后进行时间扭曲就不需要对解码器206做出改动,且因此可仅针对所有的声码器80实施一次时间扭曲。
之所以在使用LPC编码合成对所述信号进行合成之前,在解码器206内进行时间扭曲的另一个原因,是因为可对残余信号30应用压缩/扩展。此使得可将线性预测编码(LPC)合成应用于时间扭曲残余信号30。LPC系数50在语音效果如何方面起到重要作用,且在扭曲之后应用合成可确保将正确的LPC信息170保持信号中10。
如果另一方面时间扭曲是在解码残余信号30之后完成,则LPC合成在时间扭曲之前已经实施。因此,所述扭曲程序可能改变信号10的LPC信息171,尤其是在音调周期100预测的后解码已不是很精确的情况下。于一实施例中,将由本申请案所揭示的时间扭曲方法所实施的步骤存储为存储器82内软件或固件81中的指令。图1中显示所述存储器位于解码器206内。存储器82还可位于解码器206之外。
取决于帧20是表示浊音、清音还是表示瞬态语音,编码器204(例如,4GV内的一个编码器)可将语音帧20分类成PPP(周期性的)、CELP(稍微周期性的)或NELP(有噪声的)。使用关于语音帧20类型的信息,解码器206可使用不同的方法来时间扭曲不同的帧20类型。例如,NELP语音帧20不知道音调周期,且其残余信号30是在解码器206处使用“随机”信息来产生。因此,CELP/PPP的音调周期100估计并非适用于NELP,且通常可按照不到一个音调周期100来扭曲(扩展/压缩)NELP帧20。如果时间扭曲是在解码器206中解码残余信号30之后实施,则此类信息便不可用。通常,在解码之后时间扭曲NELP样帧20会导致语音假象。另一方面,在解码器206中扭曲NELP帧20会产生好得多的质量。
因此,与后解码器相反(亦即,在合成残余信号30之后),在解码器206中进行时间扭曲(亦即,在合成残余信号30之前)有两个优点:(i)减少计算开销(例如,避免音调周期100的搜索);及(ii)扭曲质量得到改善,这是因为a)知道帧20的类型;b)对经扭曲的信号实施LPC合成;及c)可更为精确地估计/知道音调周期。
残余的时间扭曲方法
下文阐述其中本发明方法及设备在PPP、CELP及NELP解码器中时间扭曲语音残余30的方法及设备。在每一解码器206中实施如下两个步骤:(i)将残余信号30时间扭曲成扩展或压缩型式;及(ii)通过LPC滤波器80发送经时间扭曲的残余30。此外,对于PPP、CELP及NELP语音段110,步骤(i)的实施方式有所不同。所述实施例将在下文阐述。
当语音段110为PPP时,残余信号的时间扭曲
如上所述,当语音段110为PPP时,可相加或从所述信号删除的最小单元是一个音调周期100。在可从原型音调周期100来解码信号10(并重构残余30)之前,解码器206将信号10从先前原型音调周期100(其被存储起来)内插到当前帧20内的原型音调周期100,从而在所述过程中添加所丢失的音调周期100。此过程图解说明于图5中。通过产生或多或少的内插音调周期100,这种内插可有助于更加容易地进行时间扭曲。此会导致经压缩或扩展的残余信号30,然后将其发送通过LPC合成。
当语音段110为CELP时,对残余信号的时间扭曲
如早先所述,当语音段110为PPP时,可相加或从所述信号删除的最小单元是一个音调周期100。另一方面,在CELP的情况下,扭曲不如在PPP情况下那么直接。为扭曲残余30,解码器206使用已编码帧20中所包含的音调延迟180信息。音调延迟180实际上就是帧20末尾处的音调延迟180。应在此处注意,即使在周期性帧20中,音调延迟180也会稍微地变化。可通过在最后一个帧20末尾处的音调延迟180与当前帧20末尾处的音调延迟之间进行内插来估计所述帧中任一点处的音调延迟180。图6对此予以显示。一旦已知帧20中所有点处的音调延迟180,则可将帧20划分成若干个音调周期100。可使用帧20内不同点处的音调延迟180来确定音调周期100的边界。
图6A显示如何将帧20划分成其音调周期100的实例。例如,第70号样本具有约等于70的音调延迟180,且第142号样本具有约为72的音调延迟180。因此,音调周期100是从样本编号[1-70]且从[71-142]。参见图6B。
一旦帧20被划分成音调周期100,则然后可重叠/添加音调周期100以增加/减小残余30的大小。参见图7B至7F。在重叠及相加合成中,通过如下方式来获得经修改的信号:从输入信号10中剪掉段110;使其沿时间轴重新定位并实施加权重叠相加以构造经合成的信号150。在一实施例中,段110可等于一个音调周期100。通过“合并”语音段110,所述重叠-相加方法用一个语音段110来替代两个不同的语音段110。合并语音是通过尽可能多地保持语音质量的方式来完成。可通过小心地选择拟合并的段110来实现语音质量的保持并使引入语音的假象最少。(假象是不希望有的诸如咔哒声、爆声等项目。语音段110的选择是基于段的“相似性”。语音段110的相似性越近,则所获得的语音质量会越好,且当重叠两个语音段110以减小/增大语音残余30的大小时引入语音假象的可能性越低。用于确定是否应该重叠-相加音调周期的规则是所述两个音调延迟是否相似(作为一个实例,所述音调延迟是否相差少于15个样本,此对应于大约1.8微秒)。
图7C显示如何使用重叠-相加来压缩残余30。如上所解释,所述重叠/相加方法的第一步骤是将输入样本序列s[n]10分段成其音调周期。图7A中显示包括4个音调周期100(PP)的原始语音信号10。下一个步骤包括:去除图7A中所示信号10的音调周期100并用经合并的音调周期100来替代这些音调周期100。例如,在图7C中,去除音调周期PP2及PP3,并然后用一个其中PP2及PP3经重叠-相加的音调周期100来替代。更具体而言,在图7C中,重叠-相加音调周期100 PP2及PP3,以使第二音调周期100(PP2)的组分继续减小,而使PP3的组分逐渐增大。所述相加-重叠方法从两个不同的语音段110产生一个语音段110。于一实施例中,使用经加权的样本来实施所述相加-重叠。如图8中显示,方程a)及b)对此进行说明。使用加权以便在段1(110)的第一PCM(脉冲编码调制)样本与段2(110)的最后一个PCM样本之间提供平滑的过度。
图7D是经重叠-相加的PP2及PP3的另一图形图解。当与简单去除一个段110并邻接剩余的毗邻段110(如图7E中所示)比较时,交叉衰落可改善经所述方法时间压缩的信号10的感知质量。
在音调周期100正在改变的情况下,所述重叠-相加方法可合并两个不等长度的音调周期110。于所述情况下,可通过在重叠/添加两个音调周期100之前使其峰值对准来实现更好的合并。最后,发送所述扩展/压缩残余通过所述LPC合成。
语音扩展
扩展语音的简单方法是多次重复相同的PCM样本。然而,重复相同的PCM样本一次以上可形成若具有音调平坦度的区域,其是由人类容易感觉到的假象(例如,语音听起来有些“机械”)。为保持语音品质,可使用所述相加-叠加方法。
图7B显示可如何使用本发明叠加-相加方法来扩展语音信号10。于图7B中,相加由音调周期100 PP1及PP2所形成的额外音调周期100。在额外的音调周期100中,重叠-相加音调周期100 PP2及PP1,以使第二音调100周期的(PP2)组分继续减小而PP1的组分逐渐增大。图7F是经重叠相加的PP2及PP3的另一图形图解。
当语音段为NELP时,对残余信号的时间
对于NELP语音段,所述编码器编码语音段110的不同部分的LPC信息以及增益。没有必要编码任何其他信息,因为所述语音在性质上非常类似于噪声。于一实施例中,将所述增益编码成若干个组16个PCM样本。因此,例如,一个由160个样本构成的帧可由10编码增益值来表示,每16个语音样本可由一个增益值来表示。解码器206通过产生随机值并然后对其应用各自的增益来产生残余信号30。于这种情况下,可能不存在音调周期100的概念,且如此,所述下频带扩展/压缩不必为音调周期100的粒度。
为扩展或压缩NELP段,取决于是扩展还是压缩段110,解码器206产生数量大于或小于160的段(110)。然后,将所述10个经解码的增益应用于所述样本以产生经扩展或压缩的残余30。由于这10个经解码增益对应于原始的160个样本,所以不直接将这些增益应用于所述扩展/压缩样本。可使用不同的方法来应用这些增益。下面对这些方法的一些加以阐述。
如果拟产生的样本数量小于160,则无需应用全部10个增益。例如,如果样本数量为144,则可应用前9个增益。在这个实例中,将所述第一增益应用于前16个样本(样本1-16),将所述第二增益应用于接下来的16个样本(样本17-32)等。类似地,如果样本大于160个,则可应用第10个增益一次以上。例如,如果样本为192个,则可对样本145-160、161-176及177-192应用第10个增益。
作为另一选择,可将所述样本划分成10个等数量的组,每一组具有等数量的样本,且可对所述10个组应用10个增益。例如,如果样本数量为140个,则可分别将所述10个增益应用于由若干14个样本构成的组。在这个实例中,将所述第一增益应用于前14个样本(样本1-14),将所述第二增益应用于接下来的14个样本(样本15-28)等。
如果所述样本数量未能由10除尽,则可将第10增益应用于除以10之后所获得的剩余样本。例如,如果样本数量为145,则可对若干由14个样本构成的组应用所述10个增益。另外,对样本141-145应用第10个增益。
在时间扭曲之后,在使用上述编码方法任一者时,发送经扩展/压缩的残余30通过所述LPC合成。
所属技术领域的技术人员应了解,可使用各种不同技术及技法的任一种来表示信息及信号。例如,整个上述说明中可能提及的数据、指令、命令、信息、信号、位、符号和码片可由电压、电流、电磁波、磁场或粒子、光场或粒子、或其任一组合来表示。
所属技术领域的技术人员应进一步了解,结合本文所揭示实施例阐述的各种实例性逻辑块、模块、电路、及算法步骤可构建为电子硬件、计算机软件、或二者的组合。为清晰地显示硬件与软件的互换性,上文大体是功能性方面来阐述各种说明性组件、块、模块、电路、及步骤。此种功能性是构建成硬件还是构建成软件取决于具体的应用及施加于整个系统的设计制约条件。所属技术领域的技术人员可针对每一具体应用以不同的方式来构建所述功能性,但不应将这些实施方案的决定解释为导致背离本发明的范畴。
结合本文所揭示实施例所述的各种实例性逻辑块、模块、及电路可通过如下装置来构建或实施:通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、场可程序化门阵列(FPGA)或其它可程序化逻辑装置、离散门或晶体管逻辑、离散硬件组件、或其设计用于执行本文所述功能的任一组合。通用处理器可为微处理器,但作为另一选择,处理器也可为任何传统的处理器、控制器、微控制器或状态机。处理器也可构建为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核心的联合或任一其它此类组态。
结合所揭示实施例所阐述的方法或算法的步骤可直接实施在硬件、由处理器执行的软件模块或二者的组合中。软件模块可驻存在随机存取存储器(RAM)、闪存、唯读存储器(ROM)、电子可程序化ROM(EPROM)、电子可擦除程序化ROM(EEPROM)、寄存器、硬磁盘、可抽换式磁盘、CD-ROM或此项技术中已知的任一其他形式的存储媒体中。实例性存储媒体耦合至处理器,以使所述处理器可自所述存储媒体中读取信息或将信息写入其中。在替代方案中,所述存储媒体可为处理器的组成部分。所述处理器及存储媒体可驻存于ASIC中。所述ASIC则可驻存在使用者终端中。在替代方案中,所述处理器及存储媒体可作为分立组件驻存于使用者终端中。上述对所揭示实施例的说明旨在使任一所属技术领域的技术人员均能够制作或使用本发明。所属技术领域的技术人员将易于得出所述实施例的各种修改,且本文所界定的一般原理也可适用于其它实施例,此并未背离本发明的主旨或范畴。因此,本文并非意欲将本发明限定于本文所示的实施例,而欲赋予其与本文所揭示原理及新颖特征相一致的最宽广范畴。
Claims (46)
1.一种传输语音的方法,其包括:
将残余语音信号时间扭曲成所述残余语音信号的扩展或压缩型式;及
合成所述经时间扭曲的残余语音信号。
2.如权利要求1所述的传输语音的方法,其进一步包括如下步骤:
对语音段进行分类;及
编码所述语音段。
3.如权利要求2所述的传输语音的方法,其中所述编码语音段的步骤包括使用原型音调周期、码激励线性预测、噪声激励线性预测或1/8帧编码。
4.如权利要求2所述的传输语音的方法,其进一步包括如下步骤:
发送所述语音信号穿过线性预测编码滤波器,借此滤除所述语音信号中的短期相关性;及
输出线性预测编码系数及残余信号。
5.如权利要求2所述的传输语音的方法,其中所述对语音信号进行分类的步骤包括:依据帧是表示浊音、清音还是瞬态语音,将所述语音帧分类成周期性的、稍微周期性的或有噪声的。
6.如权利要求2所述的传输语音的方法,其中所述编码是码激励线性预测编码。
7.如权利要求2所述的传输语音的方法,其中所述编码是原型音调周期编码。
8.如权利要求2所述的传输语音的方法,其中所述编码为噪声激励线性预测编码。
9.如权利要求6所述的方法,其中所述时间扭曲的步骤包括:
估计音调周期;及
在接收所述残余信号之后,加上或减去所述音调周期中的至少一者。
10.如权利要求6所述的方法,其中所述时间扭曲的步骤包括:
估计音调延迟;
将语音帧划分成音调周期,其中所述音调周期的边界是使用所述语音帧中不同点处的所述音调延迟确定的;
如果减小所述残余语音信号,则重叠所述音调周期;及
如果增大所述残余语音信号,则加上所述音调周期。
11.如权利要求7所述的方法,其中所述时间扭曲的步骤包括如下步骤:
估计至少一个音调周期;及
内插所述至少一个音调周期;
当扩展所述残余语音信号时,加上所述至少一个音调周期;及
当压缩所述残余语音信号时,减去所述至少一个音调周期。
12.如权利要求8所述的方法,其中所述编码的步骤包括将线性预测编码信息编码为语音段的不同部分的增益。
13.如权利要求10所述的方法,其中所述如果减小所述语音残余信号则重叠所述音调周期的步骤包括:
将输入样本序列分段成样本块;
以规则的时间间隔去除所述残余信号的段;
合并所述去除的段;及
用合并的段来替代所述去除的段。
14.如权利要求10所述的方法,其中所述估计所述音调延迟的步骤包括在最后一个帧的末尾与当前帧的末尾的音调延迟之间进行内插。
15.如权利要求10所述的方法,其中所述加上所述音调周期的步骤包括合并语音段。
16.如权利要求10所述的方法,其中所述如果增大所述残余语音信号则加上所述音调周期的步骤包括:加上由第一音调段及第二音调段形成的额外音调周期。
17.如权利要求12所述的方法,其中针对若干组语音样本来编码所述增益。
18.如权利要求13所述的方法,其中所述合并所述去除段的步骤包括:增大第一音调周期段的组分并减小第二音调周期段的组分。
19.如权利要求15所述的方法,其进一步包括选择类似语音段的步骤,其中所述类似语音段被合并。
20.如权利要求15所述的方法,其进一步包括使语音段相关的步骤,借此选择类似的语音段。
21.如权利要求16所述的方法,其中所述加上由第一音调段及第二音调周期段形成的额外音调周期的步骤包括:加上所述第一及所述第二音调段,以使所述第一音调周期段的组分增加而所述第二音调周期段的组分减小。
22.如权利要求17所述的方法,其进一步包括通过产生随机值并然后将所述增益应用至所述随机值来产生残余信号的步骤。
23.如权利要求17所述的方法,其进一步包括将所述线性预测编码信息表示为10个经编码增益值的步骤,其中每一经编码增益值表示16个语音样本。
24.一种声码器,其具有至少一个输入及至少一个输出,所述声码器包括:
编码器,其包括滤波器,所述滤波器具有至少一个以可操作方式连接至所述声码器的输入的输入及至少一个输出;及
解码器,其包括合成器,所述合成器具有至少一个以可操作方式连接至所述编码器的所述至少一个输出的输入及至少一个以可操作方式连接至所述声码器的所述至少一个输出的输出。
25.如权利要求24所述的声码器,其中所述解码器包括:
存储器,其中所述解码器适于执行存储在所述存储器内的软件指令,所述软件指令包括将残余语音信号时间扭曲成所述残余信号的扩展或压缩型式。
26.如权利要求24所述的声码器,其中所述编码器包括:
存储器,且所述编码器适于执行存储在所述存储器中的软件指令,所述指令包括:将语音段分类成1/8帧、原型音调周期、代码激励线性预测或噪声激励线性预测。
27.如权利要求26所述的声码器,其中所述解码器包括:
存储器,且所述解码器适于执行存储在所述存储器中的软件指令,所述软件指令包括将残余信号时间扭曲成所述残余语音信号的扩展或压缩型式。
28.如权利要求27所述的声码器,其中所述滤波器是适于进行如下操作的线性预测编码滤波器:
滤除语音信号中的短期相关性;及
输出线性预测编码系数及残余信号。
29.如权利要求27所述的声码器,其中所述编码器包括:
存储器,且所述编码器适于执行存储在所述存储器内的软件指令,所述软件指令包括使用码激励线性预测编码来编码所述语音段。
30.如权利要求27所述的声码器,其中所述编码器包括:
存储器,且所述编码器适于执行存储在所述存储器内的软件指令,所述软件指令包括使用原型音调周期编码来编码所述音调段。
31.如权利要求27所述的声码器,其中所述编码器包括:
存储器,且所述编码器适于执行存储在所述存储器内的软件指令,所述软件指令包括使用噪声激励线性预测编码来编码所述音调段。
32.如权利要求29所述的声码器,其中所述时间扭曲软件指令包括:
估计至少一个音调周期;及
在接收所述残余信号之后,加上或减去所述至少一个音调周期。
33.如权利要求29所述的声码器,其中所述时间扭曲软件指令包括:
估计音调延迟;
将语音帧划分成音调周期,其中所述音调周期的边界是使用所述语音帧中不同点处的所述音调延迟确定的;
如果减小所述残余语音信号,则重叠所述音调周期;且
如果增大所述残余语音信号,则加上所述音调周期。
34.如权利要求30所述的声码器,其中所述时间扭曲软件指令包括:
估计至少一个音调周期;及
内插所述至少一个音调周期;
当扩展所述残余语音信号时,加上所述至少一个音调周期;及
当压缩所述残余语音信号时,减去所述至少一个音调周期。
35.如权利要求31所述的声码器,其中所述使用噪声激励线性预测编码软件指令来编码所述语音段包括:将线性预测编码信息编码成语音段的不同部分的增益。
36.如权利要求33所述的声码器,其中所述如果减小所述语音残余信号则重叠所述音调周期的指令包括:
将输入样本序列分段成样本块;
以规则的时间间隔去除所述残余信号的段;
合并所述去除的段;及
用合并的段来替代所述去除的段。
37.如权利要求33所述的声码器,其中所述估计音调延迟的指令包括:在最后一个帧的末尾与当前帧的末尾的音调延迟之间进行内插。
38.如权利要求33所述的声码器,其中所述加上所述音调周期指令包括合并语音段。
39.如权利要求33所述的声码器,其中所述如果增大所述音调残余信号则加上所述音调周期的指令包括:加上由第一音调段及第二音调周期段形成的额外音调周期。
40.如权利要求35所述的声码器,其中针对若干组语音样本来编码所述增益。
41.如权利要求36所述的声码器,其中所述合并所述去除段的指令包括:增大第一音调周期段的组分并减小第二音调周期段的组分。
42.如权利要求38所述的声码器,其进一步包括选择类似语音段的步骤,其中所述类似语音段被合并。
43.如权利要求38所述的声码器,其中所述时间扭曲指令进一步包括使语音段相关,借此选择类似的语音段。
44.如权利要求39所述的声码器,其中所述加上由第一音调段及第二音调周期段形成的额外音调周期的指令包括:加上所述第一及所述第二音调段,以使所述第一音调周期段的组分增大而所述第二音调周期段的组分减小。
45.如权利要求40所述的声码器,其中所述时间扭曲的指令进一步包括:通过产生随机值且然后将所述增益应用至所述随机值来产生残余语音信号。
46.如权利要求40所述的声码器,其中所述时间扭曲的指令进一步包括将所述线性预测编码信息表示为10个经编码增益值,其中每一经编码增益值表示16个语音样本。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66082405P | 2005-03-11 | 2005-03-11 | |
US60/660,824 | 2005-03-11 | ||
US11/123,467 US8155965B2 (en) | 2005-03-11 | 2005-05-05 | Time warping frames inside the vocoder by modifying the residual |
US11/123,467 | 2005-05-05 | ||
PCT/US2006/009472 WO2006099529A1 (en) | 2005-03-11 | 2006-03-13 | Time warping frames inside the vocoder by modifying the residual |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101171626A true CN101171626A (zh) | 2008-04-30 |
CN101171626B CN101171626B (zh) | 2012-03-21 |
Family
ID=39334897
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800151895A Active CN101171626B (zh) | 2005-03-11 | 2006-03-13 | 通过修改残余对声码器内的帧进行时间扭曲 |
CN2006800144603A Active CN101167125B (zh) | 2005-03-11 | 2006-03-13 | 用于对声码器内的帧进行相位匹配的方法及设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800144603A Active CN101167125B (zh) | 2005-03-11 | 2006-03-13 | 用于对声码器内的帧进行相位匹配的方法及设备 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN101171626B (zh) |
UA (1) | UA90506C2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102884573A (zh) * | 2010-03-10 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器、方法及计算机程序 |
CN102881292A (zh) * | 2008-10-30 | 2013-01-16 | 高通股份有限公司 | 用于低位速率应用的译码方案选择 |
CN102007537B (zh) * | 2008-07-11 | 2013-08-28 | 弗劳恩霍弗实用研究促进协会 | 时间扭曲轮廓计算方法及计算器、音频编码方法及编码器 |
CN110033781A (zh) * | 2018-01-10 | 2019-07-19 | 盛微先进科技股份有限公司 | 音频处理方法、装置及非暂时性电脑可读媒体 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4375993A3 (en) | 2013-06-21 | 2024-08-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
AU2014283389B2 (en) | 2013-06-21 | 2017-10-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization |
CN106328158B (zh) * | 2015-06-17 | 2019-08-06 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
-
2006
- 2006-03-13 CN CN2006800151895A patent/CN101171626B/zh active Active
- 2006-03-13 CN CN2006800144603A patent/CN101167125B/zh active Active
- 2006-03-13 UA UAA200711176A patent/UA90506C2/ru unknown
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102007537B (zh) * | 2008-07-11 | 2013-08-28 | 弗劳恩霍弗实用研究促进协会 | 时间扭曲轮廓计算方法及计算器、音频编码方法及编码器 |
CN102881292A (zh) * | 2008-10-30 | 2013-01-16 | 高通股份有限公司 | 用于低位速率应用的译码方案选择 |
CN102203855B (zh) * | 2008-10-30 | 2013-02-20 | 高通股份有限公司 | 用于低位速率应用的译码方案选择 |
CN102881292B (zh) * | 2008-10-30 | 2015-11-18 | 高通股份有限公司 | 用于低位速率应用的译码方案选择 |
CN102884573A (zh) * | 2010-03-10 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器、方法及计算机程序 |
CN102884573B (zh) * | 2010-03-10 | 2014-09-10 | 弗兰霍菲尔运输应用研究公司 | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器及方法 |
CN110033781A (zh) * | 2018-01-10 | 2019-07-19 | 盛微先进科技股份有限公司 | 音频处理方法、装置及非暂时性电脑可读媒体 |
Also Published As
Publication number | Publication date |
---|---|
UA90506C2 (ru) | 2010-05-11 |
CN101167125B (zh) | 2012-02-29 |
CN101171626B (zh) | 2012-03-21 |
CN101167125A (zh) | 2008-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101506877B (zh) | 对宽带声码器的帧进行时间弯曲 | |
CA2600713C (en) | Time warping frames inside the vocoder by modifying the residual | |
CN100369112C (zh) | 可变速率语音编码 | |
CN101171626B (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
TW201250671A (en) | Audio codec using noise synthesis during inactive phases | |
EP1756807B1 (en) | Audio encoding | |
US7869993B2 (en) | Method and a device for source coding | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
JP3410931B2 (ja) | 音声符号化方法及び装置 | |
Gersho | Speech coding | |
Gersho | Linear prediction techniques in speech coding | |
Giacobello et al. | Estimation of frame independent and enhancement components for speech communication over packet networks | |
Kwong et al. | Design and implementation of a parametric speech coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1113011 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1113011 Country of ref document: HK |