CN104126201B - 用于语音编码的混合码本激励的系统和方法 - Google Patents

用于语音编码的混合码本激励的系统和方法 Download PDF

Info

Publication number
CN104126201B
CN104126201B CN201380009887.4A CN201380009887A CN104126201B CN 104126201 B CN104126201 B CN 104126201B CN 201380009887 A CN201380009887 A CN 201380009887A CN 104126201 B CN104126201 B CN 104126201B
Authority
CN
China
Prior art keywords
code
entry
book
code book
coefficient correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380009887.4A
Other languages
English (en)
Other versions
CN104126201A (zh
Inventor
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN104126201A publication Critical patent/CN104126201A/zh
Application granted granted Critical
Publication of CN104126201B publication Critical patent/CN104126201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

根据实施例,一种编码音频/语音信号的方法包括基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括来自第一码本的第一码本条目和来自第二码本的第二码本条目的总和。所述方法进一步包括基于所述确定的混合码本向量生成已编码的音频信号,以及发送所述确定的混合码本向量的码激励索引。

Description

用于语音编码的混合码本激励的系统和方法
本发明要求2013年2月15日递交的发明名称为“用于语音编码的混合码本激励的系统和方法(System and Method for Mixed Codebook Excitation for SpeechCoding)”的第13/768814号美国非临时申请案、2012年2月17日递交的发明名称为“语音编码的激励的脉冲噪声混合码本结构(Pulse-Noise Mixed Codebook Structure ofExcitation for Speech Coding)”的第61/599937号美国临时申请案以及2012年2月17日递交的发明名称为“语音编码的混合码本激励的快速搜索方法(Fast Searching Approachof Mixed Codebook Excitation for Speech Coding)”的第61/599938号美国临时申请案,这些在先申请的内容以全文引用的方式并入本文中。
技术领域
本发明大体涉及信号编码领域。具体而言,本发明涉及低比特率语音编码领域。
背景技术
传统来讲,所有的参数语音编码方法利用语音信号本身的冗余,来减少必须要发送的信息量并估算一个信号的语音样本在短时段内的参数。这种冗余主要起因于语音波形周期性的重复和语音信号的频谱包络慢变过程。
语音波形的冗余对应于不同类型的语音信号,例如浊音和清音。就浊音语音而言,语音信号基本上是周期性的;然而,这种周期性在语音段中是变化的,而且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊音语音周期还称为基音周期,这种基音周期预测通常被命名为长时预测(LTP:Long-Term Prediction)。至于清音语音,其信号更像是一个随机噪声,可预测性也较小。
针对任一种情形,参数编码可用于通过分割频谱包络分量和语音信号的激励分量来减少语音段的冗余。频谱包络慢变过程可以被描述成线性预测编码(LPC:LinearPrediction Coding),也称为短时预测(STP:Short-Term Prediction)。低比特率的语音编码也同样受益于短时预测。这种编码的优点就来自于参数的慢速变化。然而,参数值不会在几毫秒内有很大不同。因此,在8千赫兹(kHz)、12.8kHz或16kHz采样率时,语音编码算法将10毫秒至30毫秒范围内的语音段作为常用的帧长,其中20毫秒是最常用的帧长。在G.723.1、G.729、G.718、EFR、SMV、AMR、VMR-WB或AMR-WB等较近期的知名标准中已经采用了码激励线性预测技术("CELP":Code Excited Linear Prediction Technique),CELP通常理解为一种码激励、长时预测和短时预测技术的结合。尽管不同编解码器的CELP细节可能显著不同,但利用码激励线性预测(CELP:Code-Excited Linear Prediction)的语音编码算法在语音压缩领域已经相当流行。
图1示出了常规CELP编码器,其中利用所谓的综合分析方法最小化合成语音102和原始语音101之间的加权误差109。W(z)是误差加权滤波器110,1/B(z)是长时线性预测滤波器105,以及1/A(z)是短时线性预测滤波器103。码激励108,也称为固定码本激励,在通过线性滤波器之前乘以增益Gc106。短时线性预测滤波器103通过分析原始信号101获取并由一组系数表示:
加权滤波器110与上述短期线性预测滤波器函数有关。加权滤波器的典型形式为:
其中β<α、0<β<1且0<α≤1。在标准编解码器ITU-T G.718中,感知加权滤波器具有以下形式:
W(z)=A(z/γ1)Hde-emph(z)=A(z/γ1)/(1-β1z-1) (3)
其中,
且β1等于0.68。
长时预测105取决于基音周期和基音周期增益。可以从原始信号、残余信号或加权原始信号中估计基音周期。原则上,长时预测函数可以表示为:
B(z)=1-β·z-Pitch (5)
码激励108通常包括类脉冲信号或类噪声信号,这些信号从数学意义上构建或保存在码本(codebook)中。最终,码激励索引、量化增益索引、量化长时预测参数索引以及量化短时预测参数索引可以发送到解码器。
图2示出了在合成语音206之后添加后处理块207的初始解码器。解码器是多个块的组合,多个块包含码激励201、激励增益202、长时预测203、短时预测205以及后处理207。除了后处理块207,其余每块都和图1的编码器中的块具有相同定义。后处理块207还可包含短时后处理和长时后处理。
图3所示为基础CELP编码器,其通过使用自适应码本307实现长时线性预测,自适应码本307包含过去的合成激励304或在基音周期内重复过去的激励基音周期。当基音周期较大或长时,可以整数值编码基音周期。当基音周期较小或短时,可以更加准确的极小值编码基音周期。基音周期的周期性信息用来产生自适应激励分量。随后将这种激励分量乘以增益Gp305(还称为基音周期增益)。乘以增益Gc306的码激励块308生成第二激励分量。Gc还称为固定码本增益,因为码激励通常来自固定码本。这两个由增益控制幅度的激励分量在通过短时线性预测滤波器303前被加到一起。这两个增益(Gp和Gc)需量化,然后发送到解码器。
图4示出了与图3中的编码器对应的常规解码器,该解码器在合成语音407之后添加了后处理块408。添加了自适应码本307之后,该解码器与图2类似。解码器是多个块的组合,多个块包含码激励402、自适应码本401、短时预测406以及后处理408。除了后处理块408,其余每块都和图3的编码器中的块具有相同定义。后处理块408还可包含短时后处理和长时后处理。
由于浊音语音(voiced speech)具有较强的周期性,因此长时预测在浊音语音编码中起着非常重要的作用。浊音语音的相邻基音周期可以彼此相似,这意味着,从数学意义上来说,下面激励表达中的基音周期增益Gp较高或接近1,
e(n)=Gp·ep(n)+Gc·ec(n), (6)
其中ep(n)是一个以n为取样序数的子帧,它来自包括过去激励304的自适应码本307;ep(n)可能已自适应地进行低通滤波,因为低频区域可能比高频区域的周期性更强或具有更强谐波;ec(n)来自码激励码本308(还称为固定码本),码激励码本是当前激励贡献;以及可以通过高通滤波增强、基音周期增强、色散增强、共振峰增强等增强ec(n)。对于浊音语音,来自自适应码本的ep(n)的贡献可以是主导的,而且基音周期增益Gp305的值大约为1。通常可以为每个子帧更新激励。一个典型的帧的大小约为20毫秒,一个典型子帧的大小约为5毫秒。
发明内容
根据实施例,一种编码音频/语音信号的方法包括基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括来自第一码本的第一码本条目和来自第二码本的第二码本条目的总和。所述方法进一步包括基于所述确定的混合码本向量生成编码的音频信号,以及发送所述确定的混合码本向量的码激励索引。
本发明的第一方面公开了一种编码音频/语音信号的方法,所述方法包括:
基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于第一码本,所述第二码本条目属于第二码本,其中所述第一码本包括类脉冲条目,所述第二码本包括类噪声条目;
基于所述确定的混合码本向量生成已编码的音频信号;以及
发送所述确定的混合码本向量的码激励索引,其中使用基于硬件的音频编码器执行所述确定和生成。
在第一方面的第一种实现方式中,所述第一码本和所述第二码本都包括固定码本。
在第一方面的第二种实现方式中,所述确定混合码本向量包括:
计算已滤波的目标向量和所述第一码本中已滤波的条目之间的第一相关系数,其中所述已滤波的目标向量基于所述输入音频信号;
确定第一组最高第一相关系数;
计算已滤波的目标向量和所述第二码本中已滤波的条目之间的相关系数;
确定第二组最高第二相关系数;以及
计算所述第一组最高第一相关系数和所述第二组最高第二相关系数的组合的第一判据函数,其中所述第一判据函数包括所述第一组最高第一相关系数中的一个、所述第二组最高第二相关系数中的一个以及所述第一码本和所述第二码本的对应条目的能量的函数。
结合第一方面的第二种实现方式,在第一方面的第三种实现方式中,进一步包括:
基于计算出的最大第一判据函数确定第三组候选相关系数;以及
基于将第二判据函数应用于所述第三组候选相关系数来选择所述混合码本向量,其中所述混合码本向量对应于来自所述第一码本的与所述第二判据函数的最大值相关联的码本条目以及所述第二码本的与所述第二判据函数的最大值相关联的码本条目。
结合第一方面的第三种实现方式,在第一方面的第四种实现方式中:
所述第一判据函数为:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个条目的能量以及E–CB2(i)是所述第二码本中的所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目;以及
所述第二判据函数为:
其中zCB1(ik)是所述第一码本中所述第i个条目的已滤波的向量,zCB2(jk)是所述第二码本的所述第j个条目的已滤波的向量以及K是所述第三组候选相关系数的条目数目。
结合第一方面的第二种实现方式,在第一方面的第五种实现方式中,进一步包括基于计算出的最高第一判据函数选择所述混合码本向量。
结合第一方面的第五种实现方式,在第一方面的第六种实现方式中,所述第一判据函数是:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是所述已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个条目的能量以及E–CB2(i)是所述第二码本中所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目。
结合第一方面的第二种实现方式,在第一方面的第七种实现方式中,进一步包括计算来自所述第一码本和所述第二码本的所述对应条目的能量。
结合第一方面的第二种实现方式,在第一方面的第八种实现方式中,将来自所述第一码本和所述第二码本的对应条目的所述能量存储在存储器中。
结合第一方面的第二种实现方式,在第一方面的第九种实现方式中,所述第一组最高第一相关系数比第二组最高第二相关系数包括更多的条目。
在第一方面的第十种实现方式中,进一步包括:
将第一强调函数应用于所述第一码本条目;以及
将第二强调函数应用于所述第二码本条目。
结合第一方面的第十种实现方式,在第一方面的第十一种实现方式中:
所述第一强调函数包括低通滤波函数;以及
所述第二强调函数包括高通滤波函数。
在第一方面的第十二种实现方式中,所述基于硬件的音频编码器包括处理器。
在第一方面的第十三种实现方式中,所述基于硬件的音频编码器包括专用硬件。
本发明的第二方面提供了一种用于编码音频/语音信号的系统,所述系统包括:
基于硬件的音频编码器用于:
基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于类脉冲码本,所述第二码本条目属于类噪声码本。
基于所述确定的混合码本向量生成已编码的音频/语音信号;以及
发送所述确定的混合码本向量的码激励索引。
在第二方面的第一种实现方式中,所述基于硬件的音频编码器进一步用于:
计算已滤波的目标向量和所述类脉冲码本中条目之间的第一相关系数,其中所述已滤波的目标向量基于所述输入音频信号;
确定第一组最高第一相关系数;
计算已滤波的目标向量和所述类噪声码本中条目之间的相关系数;
确定第二组最高第二相关系数;以及
计算所述第一组最高第一相关系数和第二组最高第二相关系数的组合的第一判别函数,其中所述第一判别函数包括所述第一组最高第一相关系数中第一个、所述第二组最高第二相关系数中的一个以及所述类脉冲码本和所述类噪声码本的对应条目的能量的函数。
结合第二方面的第一种实现方式,在第二方面的第二种实现方式中,进一步包括存储器,用于存储来自所述类脉冲码本和所述类噪声码本的对应条目的所述能量值。
结合第二方面的第一种实现方式,在第二方面的第三种实现方式中,所述基于硬件的音频编码器还用于基于计算出的最大第一判据函数选择所述混合码本向量。
结合第二方面的第一种实现方式,在第二方面的第四种实现方式中,所述第一判据函数是:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是所述已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个条目的能量以及E–CB2(i)是所述第二码本中所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目。
在第二方面的第五种实现方式中,所述基于硬件的音频编码器包括处理器。
在第二方面的第六种实现方式中,所述基于硬件的音频编码器包括专用硬件。
本发明的第三方面提供了一种用于编码音频/语音信号的混合码本的快速搜索方法,所述方法包括:
基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于第一码本,所述第二码本条目属于第二码本;
计算已滤波的目标向量和所述第一码本中已滤波的条目之间的第一相关系数,其中所述已滤波的目标向量基于所述输入音频信号;
确定第一组最高第一相关系数;
计算已滤波的目标向量和所述第二码本中已滤波的条目之间的相关系数;
确定第二组最高第二相关系数;
计算所述第一组最高第一相关系数和所述第二组最高第二相关系数的组合的第一判别函数,其中所述第一判别函数包括所述第一组最高第一相关系数中的一个、所述第二组最高第二相关系数中的一个以及所述第一码本和所述第二码本的对应条目的能量的函数;
基于计算出的最大第一判别函数确定第三组候选相关系数;
基于将第二判据函数应用于所述第三组候选相关系数来选择所述混合码本向量,其中所述混合码本向量对应于来自所述第一码本的与所述第二判据函数的最大值相关联的码本条目和所述第二码本的与所述第二判据函数的最大值相关联的码本条目;
基于所述确定的混合码本向量生成已编码的音频信号;以及
发送所述确定的混合码本向量的码激励索引,其中使用基于硬件的音频编码器执行所述确定和生成。
在第三方面的第一种实现方式中:
所述第一判据函数为:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是所述已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个条目的能量以及E–CB2(i)是所述第二码本中所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目;以及
所述第二判据函数为:
其中zCB1(ik)是所述第一码本的所述第i个条目的已滤波的向量,zCB2(jk)是所述第二码本的所述第j个条目的已滤波的向量以及K是所述第三组候选相关系数的条目数目。
在第三方面的第二种实现方式中,所述第一码本包括类脉冲码本,所述第二码本包括类噪声码本。
附图说明
为了更完整地理解本发明及其优点,现在参考以下结合附图进行的描述,其中:
图1示出了常规CELP语音编码器;
图2示出了常规CELP语音解码器;
图3示出了利用自适应码本的常规CELP编码器;
图4示出了利用自适应码本的常规CELP语音解码器;
图5示出了包含用于构建码激励的类噪声候选向量的FCB结构;
图6示出了包含用于构建码激励的类脉冲候选向量的FCB结构;
图7示出了脉冲噪声混合FCB的实施例结构;
图8示出了脉冲噪声混合FCB的实施例结构;
图9示出了脉冲噪声混合FCB的通用结构;
图10示出了实施例脉冲噪声混合FCB的进一步通用结构;
图11示出了实施例脉冲噪声混合FCB的进一步通用结构;
图12示出了实施例混合FCB的进一步通用结构;
图13示出了激励编码系统的方框图;
图14示出了基于实施例混合码本的激励编码系统的方框图;
图15a和15b示出了实施例方法的流程图;以及
图16示出了实施例通信系统。
除非另有指示,否则不同图中的对应标号和符号通常指代对应部分。绘制各图是为了清楚地说明优选实施例的相关方面,而未必是按比例绘制。为了更加清楚地说明某些实施例,表示相同结构、材料或流程步骤的不同变化情况的字母会跟随在附图编号后面。
具体实施方式
下文将详细论述当前优选实施例的制作和使用。然而,应了解,本发明提供可在各种具体上下文中体现的许多适用的发明性概念。所论述的具体实施例仅仅说明用以实施和使用本发明的具体方式,而不限制本发明的范围。
本发明将结合具体上下文中的实施例进行描述,该具体上下文即基于CELP的音频编码器和解码器。应理解,本发明的实施例可以指向其它系统。
如上所述,通过受益于人类声音特征或人类嗓音产生模型,CELP主要用于对语音信号进行编码。CELP算法是一种已经在ITU-T、MPEG、3GPP以及3GPP2等各种标准中使用的流行技术。为了更加有效地对语音信号进行编码,可以将语音信号分成不同的种类,其中每个种类以不同的方式进行编码。例如,在G.718、VMR-WB或AMR-WB等一些标准中,可以将语音信号分成如下几类:清音信号(UNVOCIED)、瞬态信号(TRANSITION)、一般信号(GENERIC)、浊音信号(VOICED)以及噪声信号(NOISE)。对于每个种类,LPC或STP滤波器通常用于表示频谱包络;但是对LPC滤波器的激励可能不一样。UNVOICED和NOISE种类的语音信号可以使用噪声激励和一些激励增强(excitation enhancement)进行编码。TRANSITION种类的语音信号可以在不使用自适应码本或LTP的情况下使用脉冲激励和一些激励增强进行编码。GENERIC种类的语音信号可以使用传统的CELP方法(例如,G.729或AMR-WB中使用的代数CELP)进行编码,其中一个20毫秒(ms)的帧包含四个5ms的子帧,自适应码本激励分量和固定码本激励分量通过每个帧的一些激励增强产生,第一个和第三个子帧中的自适应码本的基音周期进行从最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX的全范围编码,第二个和第四个子帧中的自适应码本的基音周期与在先编码的基音周期以不同方式进行编码。VOICED种类的语音信号的编码与GENERIC种类的语音信号的编码略有不同,其中第一个子帧中的基音周期进行从最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX的全范围编码,其它子帧中的基音周期与在先编码的基音周期以不同方式进行编码。
图4中的码激励块402和图3中的码激励块308示出了用于通用CELP编码的固定码本(FCB:Fixed Codebook)的位置;来自FCB的所选的码向量乘以通常称为Gc的增益。对于NOISE或UNVOICED种类的语音信号,从感知质量的角度来看,包含类噪声向量的FCB可能是最佳结构,因为自适应码本贡献或LTP贡献很小或不存在,还因为主要激励贡献取决于NOISE或UNVOICED种类的语音信号的FCB分量。在这种情况下,如果使用了如图6所示的类脉冲FCB,那么由于在从设计用于低比特率编码的类脉冲FCB中选择的码向量中找到许多零,因此输出的合成语音信号可能听起来不连续。图5示出了包含用于构建码激励的类噪声候选向量的FCB结构。501是类噪声FCB;502是类噪声码向量;以及将所选的码向量乘以增益503。
对于VOICED种类的语音信号,从感知角度来看,类脉冲FCB比类噪声产生更高质量的输出,这是因为对于较强周期性的VOICED种类的语音信号,自适应码本贡献或LTP贡献是主要的,并且主要激励贡献并不取决于VOICED种类的语音信号的FCB分量。在这种情况下,如果使用了类噪声FCB,那么输出的合成语音信号可能听起来很吵或周期性较弱,因为很难通过使用从设计用于低比特率编码的类噪声FCB中选择的码向量实现较好的波形匹配。图6示出了包含用于构建码激励的类脉冲候选向量的FCB结构。601表示类脉冲FCB,602表示类脉冲码向量。选择的码向量乘以增益603。
对于正常语音信号,大部分CELP编解码器运作良好;但在存在尤其嘈杂的语音信号的情况下或对于GENERIC种类的语音信号而言,低比特率CELP编解码器可能失败。如上文所述,类噪声FCB可能是NOISE或UNVOICED种类的语音信号的最佳选择,而类脉冲FCB可能是VOICED种类的语音信号的最佳选择。GENERIC种类的语音信号处于VOICED种类的语音信号和UNVOICED种类的语音信号之间。在统计学上,GENERIC种类的语音信号的LTP增益或基音周期增益可能低于VOICED种类的语音信号但高于UNVOICED种类的语音信号。GENERIC种类的语音信号可能包含类噪声分量信号和周期性分量信号。低比特速率时,如果类脉冲FCB用于GENERIC种类的语音信号,那么输出的合成语音信号仍然听起来不连续,因为从设计用于低比特率编码的类脉冲FCB中选择的码向量中存在多个零。例如,当6800bps或7600bps的编解码器以12.8kHz采样率对语音信号进行编码时,来自类脉冲码本的码向量仅能承担两个非零脉冲,因此使噪声语音产生了不连续的声音。如果类噪声FCB用于GENERIC种类的语音信号,那么输出的合成语音信号可能不具有足够好的波形匹配以生成周期性分量,从而使清晰语音产生了噪声。因此,以低比特速率编码GENERIC种类的语音信号可能需要类噪声和类脉冲之间的新FCB结构。
对GENERIC种类的语音信号进行更好地低比特率语音编码的其中一种解决方案是使用脉冲噪声混合FCB替代类脉冲FCB或类噪声FCB。图7示出了脉冲噪声混合FCB的实施例结构。701指示整个脉冲噪声混合FCB。所选的码向量702通过组合(添加)来自类脉冲子码本704的向量和来自类噪声子码本705的向量生成。随后将所选的码向量702乘以FCB增益Gc703。例如,将6个比特分配给类脉冲子码本704,其中5个比特用于编码一个脉冲位置而1个比特用于编码类脉冲向量的符号;将6个比特分配给类噪声子码本705,其中5个比特用于编码32个不同类噪声向量而1个比特用于编码类噪声向量的符号。
图8示出了脉冲噪声混合FCB801的实施例结构。由于来自脉冲噪声混合FCB的码向量是来自类脉冲子码本的向量和来自类噪声子码本的向量的组合,不同的增强可分别应用于来自类脉冲子码本的向量和来自类噪声子码本的向量。例如,低通滤波器可应用于来自类脉冲子码本的向量;这是因为低频区域通常比高频区域的周期性更强,低频区域比高频区域需要更多的类脉冲激励;高通滤波器可应用于来自类噪声子码本的向量;这是因为高频区域的噪声通常比低频区域的更大且高频区域比低频区域需要更多的类噪声激励。所选的码向量802通过组合(添加)来自类脉冲子码本804的已低通滤波的向量和来自类噪声子码本805的已高通滤波的向量生成。806指示低通滤波器可以是固定的或自适应的。例如,一阶滤波器(1+0.4Z-1)用于接近浊音语音信号的GENERIC语音帧,而一阶滤波器(1+0.3Z-1)用于接近清音语音信号的GENERIC语音帧。807指示高通滤波器可以是固定的或自适应的;例如,一阶滤波器(1-0.4Z-1)用于接近清音语音信号的GENERIC语音帧,而一阶滤波器(1-0.3Z-1)用于接近浊音语音信号的GENERIC语音帧。增强型滤波器806和807通常不花费比特对滤波器系数进行解码,且增强型滤波器的系数可适用于编码器和解码器中的可用参数。随后将所选的码向量802乘以FCB增益Gc803。如图8给出的示例,如果12个比特可用于解码图8中的脉冲噪声混合FCB,则将6个比特分配给类脉冲子码本804,其中5个比特用于编码一个脉冲位置而1个比特用于编码类脉冲向量的符号。例如,可将6个比特分配给类噪声子码本805,其中5个比特用于编码32个不同的类噪声向量而1个比特用于编码类噪声向量的符号。
图9示出了实施例脉冲噪声混合FCB901的更通用的结构。由于图9中来自脉冲噪声混合FCB的码向量是来自类脉冲子码本的向量和来自类噪声子码本的向量的组合,不同的增强可分别应用于来自类脉冲子码本的向量和来自类噪声子码本的向量。例如,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的增强可以应用于来自类脉冲子码本的向量;类似地,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的增强可以应用于来自类噪声子码本的向量。所选的码向量902通过组合(添加)来自类脉冲子码本904的增强向量和来自类噪声子码本905的增强向量生成。906指示类脉冲向量的增强,其可以是固定的或自适应的。907指示类噪声向量的增强,其也可以是固定的或自适应的。增强906和907通常不花费比特来对增强参数进行编码。增强的参数可自适应于编码器和解码器中的可用参数。随后将所选的码向量902乘以FCB增益Gc903。如图9给出的示例,如果12个比特可用于编码图9中的脉冲噪声混合FCB,则将6个比特分配给类脉冲子码本904,其中5个比特用于编码一个脉冲位置而1个比特用于编码类脉冲向量的符号;以及可将6个比特分配给类噪声子码本905,其中5个比特用于编码32个不同的类噪声向量而1个比特用于编码类噪声向量的符号。
图10示出了实施例脉冲噪声混合FCB的进一步通用结构。由于图10中来自脉冲噪声混合FCB的码向量是来自类脉冲子码本的向量和来自类噪声子码本的向量的组合,不同的增强可分别应用到来自类脉冲子码本的向量和来自类噪声子码本的向量。例如,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的第一增强可以应用于来自类脉冲子码本的向量;类似地,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的第二增强可以应用于来自类噪声子码本的向量。1001指示整个脉冲噪声混合FCB。所选的码向量1002通过组合(添加)来自类脉冲子码本1004的第一增强向量和来自类噪声子码本1005的第二增强向量生成。1006指示类脉冲向量的第一增强,其可以是固定的或自适应的。1007指示类噪声向量的第二增强,其也可以是固定的或自适应的。1008指示脉冲噪声组合向量的第三增强,其也可以是固定的或自适应的。增强1006、1007和1008通常不花费比特来编码增强参数;因为增强的参数可以适用于编码器和解码器中的可用参数。随后将所选的码向量1002乘以FCB增益Gc1003。如图10给出的示例,如果12个比特可用于编码图10中的脉冲噪声混合FCB,则将6个比特分配给类脉冲子码本1004,其中5个比特用于编码一个脉冲位置而1个比特用于编码类脉冲向量的符号;以及可将6个比特分配给类噪声子码本1005,其中5个比特用于编码32个不同的类噪声向量而1个比特用于编码类噪声向量的符号。如果FCB增益Gc带符号,那么仅需要编码类脉冲向量的符号或类噪声向量的符号。
图11示出了实施例脉冲噪声混合FCB的进一步通用结构。由于图11中来自脉冲噪声混合FCB的码向量是来自类脉冲子码本的向量和来自类噪声子码本的向量的组合,不同的增强可分别应用于来自类脉冲子码本的向量和来自类噪声子码本的向量。例如,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的第一增强H1(z)可以应用于来自类脉冲子码本的向量;类似地,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的第二增强H2(z)可以应用于来自类噪声子码本的向量。1101指示整个脉冲噪声混合FCB。所选的码向量1102通过组合(添加)来自类脉冲子码本1104的第一增强向量和来自类噪声子码本1105的第二增强向量生成。1106指示类脉冲向量的第一增强H1(z),其可以是固定的或自适应的。1107指示类噪声向量的第二增强H2(z),其也可以是固定的或自适应的。1108指示脉冲噪声组合向量的第三增强H3(z),其也可以是固定的或自适应的。通常不花费比特来编码增强1106、1107和1108的增强参数;因为增强的参数可以适用于编码器和解码器的可用参数。随后将所选的码向量1102乘以FCB增益Gc1103。如图11给出的示例,如果12个比特可用于编码图11中的脉冲噪声混合FCB,则将6个比特分配给类脉冲子码本1104,其中5个比特用于编码一个脉冲位置而1个比特用于编码类脉冲向量的符号;以及可将6个比特分配给类噪声子码本1105,其中5个比特用于编码32个不同的类噪声向量而1个比特用于编码类噪声向量的符号。如果FCB增益Gc1103带符号,那么仅需要编码类脉冲向量的符号或类噪声向量的符号。
图12示出了实施例混合FCB的更通用的结构。图12和图11的主要差异在于方框1204中的码本1可包含类脉冲或类噪声向量,方框1205中的码本2也可包含类脉冲或类噪声向量;这意味着混合码本可以是类脉冲和/或类噪声向量的任意组合。由于图12中来自混合FCB的码向量是来自码本1的向量和来自码本2的向量的组合,不同的增强可分别应用于来自码本1的向量和来自码本2的向量。例如,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的增强H1(z)可以应用于来自码本1的向量。类似地,包括低通滤波器、高通滤波器、基音周期滤波器和/或共振峰滤波器的增强H2(z)可以应用于来自码本2的向量。1201指示整个混合FCB。所选的码向量1202通过组合(添加)来自码本1的增强向量和来自码本2的增强向量生成。1206指示码本1的向量的增强H1(z),其可以是固定的或自适应的。1207指示码本2的向量的增强H2(z),其也可以是固定的或自适应的。1208指示组合向量的第三增强H3(z),其也可以是固定的或自适应的。增强1206、1207和1208通常不花费比特来编码增强参数;因为增强的参数可以适用于编码器和解码器中的可用参数。随后将所选的码向量1202乘以FCB增益Gc1203。
假设固定码本结构如图11所示,且按每个(64个样本)(即,每帧四次)码激励信号;本节提供了一种用于脉冲噪声混合码本的快速搜索方法。激励编码的原理在图13的示意图中示出,该原理实际上类似于图3所示的原理。理论上,图3允许联合优化自适应码本激励分量和固定码本激励分量(即,码激励分量)。实际上,为简洁起见,通常先确定自适应码本激励分量然后再确定固定码本激励分量。
对于每个子帧,LP残值通过以下公式给出:
其中s(n)为输入信号1301,其通常被预强调并用于宽带语音编码而不是窄带语音编码。例如,预强调滤波器可以是:
Hemph(z)=1-β1z-1 (8)
且β1等于0.68。或者,β1可采取不同值。
用于自适应码本1307搜索的目标信号1303x(n)可以通过从加权预强调输入信号中减去加权综合滤波器W(z)/A(z)的零输入响应(未在图13中示出)计算而得,加权预强调输入信号通过用加权滤波器1302滤波输入信号1301s(n)而得。这基于子帧执行。计算目标信号的等效过程为通过综合滤波器1/A(z)和加权滤波器W(z)的组合滤波残余信号r(n)。
为每个子帧计算加权综合滤波器W(z)/A(z)的脉冲响应h(n)。在上述等式中,A(z)是量化的LP滤波器。自适应和固定码本的搜索需要脉冲响应h(n)。自适应码本搜索包括执行闭环基音周期搜索,随后通过在所选的分数基音周期P处插入过去的激励来计算自适应码向量ep(n)。例如,可以通过应用自适应低通滤波器增强ep(n)。自适应码本参数(或基音周期参数)是为每个子帧计算的闭环基音周期P和基音周期增益(gp,自适应码本增益)1305。y(n)表示在应用基音周期增益1305之前已滤波的自适应码本贡献。由于该小节着重描述混合FCB(固定码本)搜索,因此将不在此处讨论计算自适应码本参数的细节。
在从目标信号x(n)中减去已滤波的和已增益的自适应码本贡献之后,得到的差异信号x2(n)1304成为用于确定码激励贡献的第二目标信号。码激励ec(n)1308和对应的增益Gc1306通过加权误差1310的最小化1309确定。
图14示出了与图13类似的结构,除了图14中的固定码本或码激励是混合码本结构。自适应码本1407搜索的目标信号1403x(n)是通过从加权预强调输入信号减去加权综合滤波器W(z)/A(z)的零输入响应(未在图14中示出)计算而得;加权预强调输入信号是通过用加权滤波器1402滤波输入信号s(n)1401而得。自适应码本参数(或基音周期参数)是为每个子帧计算的闭环基音周期和基音周期增益(gp,自适应码本增益)1405。y(n)表示在应用基音周期增益1405之前已滤波的自适应码本贡献。在从目标信号1403x(n)中减去已滤波的和已增益的自适应码本贡献之后,得到的差异信号x2(n)1404成为用于确定混合码激励贡献的第二目标信号。混合码本激励1408ec(n)和对应增益1406Gc通过加权误差1410的最小化1409确定。z(n)表示在应用增益1406Gc之前已滤波的混合码本贡献。
假设混合码本1408中的CB1是类脉冲码本,混合码本1408中的CB2是类噪声码本。1408中的H1(z)表示CB1向量的增强滤波器,1408中的H2(z)表示CB2向量的增强滤波器,1408中的H3(z)表示CB1和CB2向量的增强滤波器。为方便下文描述,H1(z)、H2(z)或H3(z)的脉冲响应分别用h1(n)、h2(n)或h3(n)表示。
类脉冲码本CB1索引或码字表示脉冲位置和符号。因此,由于可以通过索引自身(无查找表)中包含的信息在解码器中构建码向量,所以不需要码本存储。可通过将一定数目的带符号脉冲放置在一定数目的轨道中来构建不同的类脉冲码本。类脉冲码本的独立或临时搜索可以通过在码本搜索之前首先组合增强滤波器H1(z)和H3(z)以及加权综合滤波器W(z)/A(z)来执行。因此,加权综合滤波器的脉冲响应h(n)必须修改为包括增强滤波器H1(z)和H3(z)。也就是说:
hp(n)=h1(n)*h3(n)*h(n) (9)
类噪声码本CB2索引或码字表示噪声向量和符号。类噪声码本通常保存在存储设备中。为了减少存储量,可通过移动噪声向量位置重叠和生成噪声向量。类噪声码本的独立或临时搜索可以通过在码本搜索之前首先组合增强滤波器H2(z)和H3(z)以及加权综合滤波器W(z)/A(z)来执行。因此,加权综合滤波器的脉冲响应h(n)必须修改为包括增强滤波器H2(z)和H3(z)。也就是说:
hn(n)=h2(n)*h3(n)*h(n) (10)
由于H3(z)通常用于类脉冲向量和类噪声向量,因此综合滤波器1/A(z)、加权滤波器W(z)和增强滤波器H3(z)的组合的脉冲响应特别表示为:
hh(n)=h3(n)*h(n) (11)
通过最小化更新的目标信号1404x2(n)和所乘的已滤波的码向量之间的误差搜索混合码本。更新后的目标信号通过以下等式给出:
x2(n)=x(n)-Gp·y(n),n=0,1,........,63(12)
其中y(n)=ep(n)*h(n)是已滤波的自适应码向量,Gp是自适应码本增益。将矩阵H定义为具有主对角线hh(0)和低对角线hh(1)……hh(63)的下三角托普利兹卷积矩阵,d=HTx2(还称为后向滤波的目标向量)为更新后的信号x2(n)和脉冲响应hh(n)之间的相关系数(correlation)。此外,假设Φ=HTH是hh(n)的相关系数的矩阵。理论上,向量d(n)的元素可以通过以下等式计算:
对称矩阵Φ的元素可以通过以下等式计算:
在一些实施例中,等式(13)可以通过使用较为简单的后向滤波来计算,在当前快速搜索混合脉冲噪声码本的情况下可能不需要等式(14)。
假设ck(n)是混合码向量,即:
ck(n)=cp(n)*h1(n)+cn(n)*h2(n),n=0,1,..........63.(15)
此处,cp(n)是来自类脉冲码本的候选向量,cn(n)是来自类噪声码本的候选向量。混合码本激励ck(n)或ec(n)=ck(n)*h3(n)以及混合码本激励的对应增益1103Gc可以通过加权误差1110的最小化1109确定:
等式(16)的最小化等同于以下判据的最大化:
在等式(17)中,zk是已滤波的混合激励码本贡献。
zk=Hck (18)
在一些实施例中,向量d(n)和矩阵Φ在码本搜索之前计算。在一些实施例中,可能不需要并因此省略矩阵Φ的计算。
等式(17)的分子中的相关系数通过以下等式给出:
在等式(19)中,可以通过滤波器H1(z)和H2(z)进行简单后向滤波d(n)来预计算如果H1(z)和H2(z)使用一阶滤波器实施,那么后向滤波器过程较为简单。等式(17)的分母中的能量通过以下等式给出:
在等式(20)中,可以通过以下滤波过程或卷积预计算Hp=HH1and Hn=HH2
在一些实施例中,H1(z)和H2(z)可以通过一阶滤波器实施,所以等式(21)或(22)中的滤波过程和等式(11)中已经计算出的hh(n)一样简单。
在等式(20)中,zp是已滤波的脉冲贡献:
zp=Hpcp (23)
zn是已滤波的噪声贡献:
zn=Hncn. (24)
等式(20)可进一步表示为:
Ek=zp Tzp+2zp Tzn+zn Tzn=Ep+2zp Tzn+En (25)
其中
Ep=zp Tzp (26)
是已滤波的脉冲贡献的能量;以及
En=zn Tzn (27)
是已滤波的噪声贡献的能量。
假设来自脉冲子码本的(15)中的码向量cp(n)是带符号的向量:
cp=sp·vp(ip) (28)
来自噪声子码本的(15)中的码向量cn(n)也是带符号的向量:
cn=sn·vn(in), (29)
其中vp(ip)表示尺寸64(子帧大小)的第ip个脉冲向量,其由一个或多个脉冲组成;vn(in)表示尺寸64(子帧大小)的第in个噪声向量,其从噪声表中读取;sp和sn是相当于–1或1的符号,ip和in是定义向量的索引。
搜索过程的目标是找到两个最佳向量的索引ip和in以及它们对应的符号sp和sn。这通过最大化搜索判据(17)实现,其中分子通过等式(19)计算而得,分母通过等式(25)计算而得。查看分子(19)和分母(25),最复杂的计算来自分母(25)的中项zp Tzn,其包含交叉相关的所有可能组合。例如,如果cp具有Kp个可能,cn具有Kn个可能,那么中项zp Tzn最多具有(Kp·Kn)个可能。
图15a示出了快速混合码本搜索的实施例方法的流程图1500。在步骤1502,在码本向量与用于脉冲码本和噪声码本的各个已滤波的目标向量之间计算相关系数。在一个示例中,在计算等式(19)中的向量d1和d2之后,使用预确定过程从所有Kp个可能脉冲向量中识别出以及从所有Kn个可能噪声向量识别出这样搜索过程将局限于这些个可能脉冲向量和个可能噪声向量。
通过为Kp个脉冲向量测试等式(19)中的来预确定脉冲,Kp个脉冲向量在d1和cp之间具有最大绝对点积(或平方点积)。也就是说,保留产生Rp(i)的个最大值的个脉冲向量的索引。这些索引存储在索引向量mi中,其中为了进一步简化搜索,还预设了每个预确定向量对应的符号信息。对应于每个预确定向量的符号由该向量的Rp(i)的符号给出。这些预设符号存储在符号向量sp(i)中,其中 由于候选向量cp包含许多零,因此在一些实施例中,上述预确定的计算可能比较简单。
通过为Kn个噪声向量测试等式(19)中的来预确定脉冲,Kn个脉冲向量在d2和cn之间具有最大绝对点积(或平方点积)。也就是说,保留产生|Rn(j)|的个最大值的噪声向量的索引。这些索引存储在索引向量nj中,其中为了进一步简化搜索,还预设了每个预确定向量对应的符号信息。对应于每个预确定向量的符号由该向量的Rp(j)的符号给出。这些预设符号存储在符号向量sn(j)中,其中
由于混合激励码本通常用于低比特率语音编码,Kp或Kn并不大;在这种情况下,预确定过程仅将所有个可能脉冲向量作为候选以及将所有个可能噪声向量作为候选。
在步骤1504,为脉冲码本和噪声码本确定每个已滤波的码本向量的能量。例如,为来自步骤1502的有限可能脉冲向量计算等式(25)中的已滤波的脉冲向量的能项Ep(i)=zp Tzp,并将该能项和索引向量 一起存储。在一些实施例中,脉冲向量仅包含少量非零脉冲,从而使得等式(23)中zp的计算相对简单。例如,如果脉冲向量仅包含一个脉冲,那么该能项计算可简单地使用递归方式和从左到右移动脉冲位置来完成。
为来自步骤1502的有限可能噪声向量计算等式(25)中的已滤波的噪声向量的能项En(j)=zn Tzn,并将该能项和索引向量 一起存储。如果所有噪声向量以重叠方式存储在表中,那么等式(24)中zn的计算可以递归方式和在噪声表中移动噪声向量位置来完成。
接着,在步骤1506中,计算第一组已滤波的目标向量和已滤波的脉冲码本向量的最高相关系数,在步骤1508中,计算第二组已滤波的目标向量和已滤波的脉冲噪声向量的最高相关系数。例如,在一项实施例中,在从步骤1502和步骤1504获取的个可能组合中计算和选择K个混合脉冲噪声贡献的可能组合。在一项实施例中,K比小得多,即在某个示例中,选择四个噪声向量和六个脉冲向量作为K个可能组合,因此总共将要测试24个组合。在其它示例中,可以选择其它数目的噪声向量和脉冲向量。在实施例中,候选脉冲向量的数目可能超过候选噪声向量的数目,这是因为,由于一些脉冲向量的稀疏性质,脉冲向量的计算可能比噪声向量的计算效率更高。(即,脉冲向量内的许多元素可能被设置为零。)
接着,在步骤1510中,将第一判据函数(criterion function)应用于第一和第二组的组合。在一项实施例中,K个可能组合的选择可通过最大化等式(17)的以下简化判据实现,
在上述表达式中,Rp(i)和Rn(j)已在步骤1502中计算;Ep(i)和En(j)已在步骤1504中计算。
接着,在步骤1512中,基于最大第一判据函数确定第一组脉冲向量和噪声向量组合。例如,在一项实施例中,保留产生Q(i,j)的K个最大值的K个组合的索引。这些索引存储在索引矩阵[ik,jk],k=0,1,...,K-1中。K比脉冲和噪声向量的可能组合的总数目小得多。
接着,在步骤1514中,将第二判据函数应用于第三组脉冲向量和噪声向量组合,并且选择具有最大第二判据的脉冲向量和噪声向量的索引。例如,在一项实施例中,一旦在上述步骤1502、1504、1506、1508、1510和1512中预确定了脉冲和噪声向量的最有可能的K个组合及其对应符号,该搜索继续在这K个组合中选择一个脉冲向量和一个噪声向量,这将最大化等式(17)的全搜索判据Qk:
MAX{Qk,k=0,1,...,K-1} (33)
在(32)中,在步骤1502和1504中获取了Rp(ik)、Rn(jk)、Ep(ik)和En(jk),在步骤1504中计算得出了zp(ik)和zn(jk)。如果脉冲向量仅包含一个脉冲,那么(32)中已滤波的脉冲向量zp(ik)从第一元素到脉冲位置都具有零,这能够进一步简化计算。
在本发明的一些实施例中,在具有相对较小数量的码本条目的实施例中可省略步骤1510和1512。在这种实施例中,第一和第二组的候选组合直接应用于第二判据函数,例如等式(32)和(33),且选择与第二判据函数的最大值对应的索引。
如果对CB1包含脉冲向量和CB2包含噪声向量没有限制,那么可以用与上述关于使用脉冲和噪声向量的码本的描述类似的方式快速搜索通用混合码本。CB1激励的脉冲响应为:
hCB1(n)=h1(n)*h3(n)*h(n) (34)
CB2激励的脉冲响应为:
hCB2(n)=h2(n)*h3(n)*h(n). (35)
假设ck(n)是混合码向量,即:
ck(n)=cCB1(n)*h1(n)+cCB2(n)*h2(n),n=0,1,..........63. (36)
可通过最小化判据确定混合码本激励ck(n)或ec(n)=ck(n)*h3(n)以及对应增益1406Gc:
其中
zCB1=HCB1cCB1 (38)
zCB2=HCB2cCB2 (39)
ECB1=zCB1 TzCB1 (40)
ECB2=zCB2 TzCB2. (41)
假设码向量cCB1和cCB2为带符号的向量:
cCB1=sCB1·vCB1(iCB1) (42)
cCB2=sCB2·vCB2(iCB2). (43)
搜索过程的目标是找到两个最佳向量的索引iCB1和iCB2以及它们对应的符号sCB1和sCB2。
图15b示出了用于快速搜索通用混合码本的实施例方法1550。应理解,上文所述的图15a的方法1500可被视为一些实施例中的方法1550的特例。
在一个实施例中,在步骤1552中,计算等式(37)中的向量d1和d2之后,使用预确定过程从所有KCB1个可能CB1向量中识别出以及从所有KCB2个可能CB2向量识别出通过为KCB1个CB1向量测试等式(37)中的来预确定CB1,KCB1个CB1向量在d1和cCB1之间具有最大绝对点积(或平方点积)。也就是说,保留产生|RCB1(i)|的个最大值的个CB1向量的索引。这些索引存储在索引向量mi中,其中为了进一步简化搜索,还预设了每个预确定向量对应的符号信息。对应于每个预确定向量的符号由该向量的RCB1(i)的符号给出。这些预设符号存储在符号向量sCB1(i)中,其中
通过为KCB2个CB2向量测试等式(37)中的来预确定CB2,KCB2个CB2向量在d2和cCB2之间具有最大绝对点积(或平方点积)。也就是说,保留产生|RCB2(j)|的个最大值的个CB2向量的索引。这些索引存储在索引向量nj中,其中为了进一步简化搜索,还预设了每个预确定向量对应的符号信息。对应于每个预确定向量的符号由该向量的RCB2(j)的符号给出。这些预设符号存储在符号向量sCB2(j)中,其中
由于混合激励码本通常用于低比特率语音编码,因此KCB1或KCB2并不大。在这种情况下,预确定过程仅将所有个可能CB1向量作为候选以及将所有个可能CB2向量作为候选。
接着,在步骤1554中,计算能项ECB1和ECB2。在实施例中,为来自步骤1552的有限个可能CB1向量计算等式(40)中的已滤波的CB1向量的项ECB1(i)=zCB1 TzCB1,并将该项和索引向量一起存储。
还为来自步骤1552的有限个可能CB2向量计算等式(41)中的已滤波的CB2向量的能项ECB2(j)=zCB2 TzCB2,并将能项和索引向量 一起存储。在一些实施例中,能项ECB1和ECB2可以预计算并存储在存储器中。
在步骤1556中,在从步骤1552和步骤1554获取的个可能组合中计算和选择K个混合脉冲码本贡献的可能组合。在一些实施例中,K小于通过最大化等式(37)的以下简化判据实现K个可能组合的选择:
在上述表达式中,RCB1(i)和RCB2(j)已在步骤1552中计算,ECB1(i)和ECB2(j)已在步骤1554中计算。保留产生Q(i,j)的K个的最大值的K个组合的索引。这些索引存储在索引矩阵[ik,jk],k=0,1,...,K-1中。K比混合码本向量的可能组合的总数目小得多。
接着,在步骤1558中,从步骤1556中确定的K个可能组合中选择向量。例如,一旦在上述步骤1552、1554和1556中预确定了混合码本向量的最有可能的K个组合及其对应符号,该搜索继续在这K个组合中选择一个CB1向量和一个CB2向量,这将最大化(37)的全搜索判据Qk:
MAX{Qk,k=0,1,...,K-1}. (47)
在(46)中,RCB1(ik)、RCB2(jk)、ECB1(ik)和ECB2(jk)在步骤1556中获取;zCB1(ik)和zCB2(jk)在步骤1554中计算而得。
在本发明的一些实施例中,等式(44)和(45)的计算可省略,等式(46)和(47)可用于为具有相对较小码本的实施例直接确定所选的混合码本向量。
在具有相对较小数目的码本条目的实施例中可省略步骤1510和1512。在这种实施例中,第一和第二组的候选组合直接应用于第二判据函数,例如等式(32)和(33),且如下选择和评估与第二判据函数的最大值对应的索引:
在一些实施例中,等式(48)和(49)也可应用于上述方法1500。
信噪比(SNR:Signal to Noise Ratio)是语音编码的客观测试测量方法之一。加权分段SNR(WsegSNR:Weighted Segmental SNR)是另一种主观测量方法。WsegSNR可能比SNR略接近真感知质量测量。SNR或WsegSNR中较小的差别可能察觉不到。而SNR或WsegSNR中的较大差别可能很容易察觉到。对于清晰的语音信号,使用脉冲噪声混合FCB获得的SNR或WsegSNR可能相当于使用具有相同FCB大小的类脉冲FCB获取的SNR或WsegSNR。对于嘈杂的语音信号,使用脉冲噪声混合FCB获得的SNR或WsegSNR可能略大于使用具有相同FCB大小的类脉冲FCB获取的SNR或WsegSNR。此外,对于所有种类的语音信号,使用快速混合FCB搜索获取的SNR或WsegSNR非常接近使用全混合FCB搜索获取的SNR或WsegSNR。
在一些实施例中,监听测试结果指示通过使用脉冲噪声混合FCB而不是类脉冲FCB明显提高了嘈杂语音信号的感知质量,使得嘈杂语音信号听起来更加平滑自然且不连续减弱。此外,测试结果显示使用快速混合FCB搜索的感知质量相当于使用全混合FCB搜索的感知质量。
图16示出了根据本发明的实施例的通信系统10。通信系统10具有音频接入设备6和8,其经由通信链路38和40耦接到网络36。在一项实施例中,音频接入装置6和8是IP承载语音(VOIP:voice over internet protocol)设备,且网络36是广域网(WAN:wide areanetwork)、公共电话交换网(PSTN:public switched telephone network)和/或因特网。通信链路38和40是有线和/或无线宽带连接。在替代性实施例中,音频接入设备6和8是蜂窝电话或移动电话,链路38和40是无线移动电话信道,且网络36表示移动电话网络。
音频接入设备6使用麦克风12以将例如音乐或人的语音等声音转换成模拟音频输入信号28。麦克风接口16将模拟音频输入信号28转换成输入到编解码器20的编码器22的数字音频信号32。根据本发明的各项实施例,编码器22产生已编码音频信号TX,用于经由网络接口26传输到网络26。编解码器20内的解码器24经由网络接口26从网络36接收已编码音频信号RX,并将已编码音频信号RX转换成数字音频信号34。扬声器接口18将数字音频信号34转换成适合驱动扬声器14的音频信号30。
在本发明的各项实施例中,音频接入设备6是VOIP设备,音频接入设备6内的一些或所有部件可在手机内实施。但在一些实施例中,麦克风12和扬声器14是独立单元,且麦克风接口16、扬声器接口18、编解码器20和网络接口26在个人计算机内实施。编解码器20可在计算机或专用处理器上运行的软件中实施,或者可由例如专用集成电路(ASIC:application specific integrated circuit)上的专用硬件实施。麦克风接口16由模拟/数字(A/D:analog-to-digital)转换器以及位于手机内和/或计算机内的其它接口电路实施。同样,扬声器接口18由数字/模拟转换器以及位于手机内和/或计算机内的其它接口电路实施。在其它实施例中,音频接入设备6可以所属领域已知的其它方式实施和划分。
在本发明的各项实施例中,音频接入设备6是蜂窝电话或移动电话,音频接入设备6内的元件在蜂窝手机内实施。编解码器20由手机内处理器上运行的软件或专用硬件实施。在本发明的其它实施例中,音频接入设备可在其它设备(例如,端对端有线和无线数字通信系统,例如内部通信和无线电手机)中实施。在消费者音频设备等应用中,音频接入设备可包括例如在数字麦克风系统或音乐回放设备中只有编码器22或解码器24的编解码器。在本发明的其它实施例中,可在例如接入PSTN的蜂窝基站中没有麦克风12和扬声器14的情况下使用编解码器20。
根据实施例,一种编码音频/语音信号的方法包括基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于第一码本,所述第二码本条目属于第二码本。所述方法进一步包括基于所述确定的混合码本向量生成已编码的音频信号,以及发送所述确定的混合码本向量的码激励索引。在实施例中,第一码本包括类脉冲条目而第二码本包括类噪声条目。在一些实施例中,第一和第二码本都包括固定码本。可使用基于硬件的音频编码器执行确定和生成的步骤。基于硬件的音频编码器可包括处理器和/或专用硬件。
在实施例中,确定混合码本向量包括计算已滤波的目标向量和第一码本中已滤波的条目之间的第一相关系数,确定第一组最高第一相关系数,计算已滤波的目标向量和第二码本中的已滤波的条目之间的相关系数,确定第二组最高第二相关系数,以及计算第一组最高第一相关系数和所述第二组最高第二相关系数的组合的第一判据函数。第一判据函数包括第一组最高第一相关系数中的一个、第二组最高第二相关系数中的一个以及第一码本和第二码本的对应条目的能量的函数。已滤波的目标向量基于输入音频信号。
在实施例中,该方法进一步包括基于计算出的最大第一判据函数确定第三组候选相关系数,以及基于将第二判据函数应用于第三组候选相关系数来选择混合码本向量。混合码本向量对应于来自第一码本的与所述第二判据函数的最大值相关联的码本条目以及所述第二码本的与所述第二判据函数的最大值相关联的码本条目。
在实施例中,第一判据函数为:
其中R–CB1(i)是已滤波的目标向量和第一码本中第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和第二码本中第j个条目之间的相关系数,E–CB1(i)是第一码本中第i个条目的能量以及E–CB2(i)是第二码本中第j个条目的能量,是第一组最高第一相关系数中第一码本条目的数目,是第二组最高第二相关系数中第二码本条目的数目。第二判据函数可表示为:
其中zCB1(ik)是第一码本中第i个条目的已滤波的向量,zCB2(jk)是第二码本中第j个条目的已滤波的向量以及K是第三组候选相关系数中的条目数目。
在一些实施例中,该方法包括基于计算出的最大第一判据函数选择混合码本向量。计算出的最大第一判据函数可以是:
其中R–CB1(i)是已滤波的目标向量和第一码本中第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和第二码本中第j个条目之间的相关系数,E–CB1(i)是第一码本中第i个条目的能量以及E–CB2(i)是第二码本中第j个条目的能量,是第一组最高第一相关系数中第一码本条目的数目,是第二组最高第二相关系数中第二码本条目的数目。
在实施例中,该方法还包括计算来自第一码本和第二码本的对应条目的能量。在一些情况下,来自第一码本和第二码本的对应条目的能量存储在存储器中。此外,第一组最高第一相关系数可比第二组最高第二相关系数包括更多条目。
在实施例中,该方法还包括将第一强调函数应用于第一码本条目,以及将第二强调函数应用于第二码本条目。第一强调函数可包括低通滤波函数,第二强调函数可包括高通滤波函数。
根据另一实施例,一种用于编码音频/语音信号的系统包括基于硬件的音频编码器,用于基于输入音频/语音信号确定混合码本向量,基于确定的混合码本向量生成已编码的音频/语音信号以及发送确定的混合码本向量的码激励索引。混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于类脉冲码本,所述第二码本条目属于类噪声码本。基于硬件的音频编码器可包括处理器和/或专用硬件。
在实施例中,基于硬件的音频编码器进一步用于计算已滤波的目标向量和类脉冲码本中的条目之间的相关系数,确定第一组最高第一相关系数,计算已滤波的目标向量和类噪声码本中的条目之间的相关系数,确定第二组最高第二相关系数以及计算第一和第二组的组合的第一判据函数。第一判据函数包括第一组最高第一相关系数中的一个、第二组最高第二相关系数中的一个以及类脉冲码本和类噪声码本的对应条目的能量的函数。此外,已滤波的目标向量基于输入音频信号。在一些实施例中,该系统还包括存储器,用于存储来自类脉冲码本和类噪声码本的对应条目的能量值。
在实施例中,基于硬件的音频编码器还用于基于计算出的最大第一判据函数选择混合码本向量。第一判据函数可表示为:
其中R–CB1(i)是已滤波的目标向量和第一码本中第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和第二码本中第j个条目之间的相关系数,E–CB1(i)是第一码本中第i个条目的能量以及E–CB2(i)是第二码本中第j个条目的能量,是第一组最高第一相关系数中第一码本条目的数目,是第二组最高第二相关系数中第二码本条目的数目。
根据其它实施例,一种用于编码音频/语音信号的混合码本的快速搜索方法包括基于输入音频/语音信号确定混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于第一码本,所述第二码本条目属于第二码本。该方法还包括已滤波的目标向量和计算第一码本中已滤波的条目之间的第一相关系数,确定第一组最高第一相关系数,计算已滤波的目标向量和第二码本中的已滤波的条目之间的相关系数,确定第二组最高第二相关系数以及计算第一组最高第一相关系数和第二组最高第二相关系数的组合的第一判据函数。第一判据函数包括第一组最高第一相关系数中的一个、第二组最高第二相关系数中的一个以及第一码本和第二码本的对应条目的能量的函数,已滤波的目标向量基于输入音频信号。该方法还包括基于计算出的最大第一判据函数确定第三组候选相关系数,基于将第二判据函数应用于第三组候选相关系数来选择混合码本向量,其中所述混合码本向量对应于来自第一码本的与所述第二判据函数的最大值相关联的码本条目和第二码本的与第二判据函数的最大值相关联的码本条目。此外,该方法还包括基于确定的混合码本向量生成已编码的音频信号,以及发送确定的混合码本向量的码激励索引,其中使用基于硬件的视频编码器执行所述确定和生成。基于硬件的音频编码器可包括处理器和/或专用硬件。
在实施例中,第一判据函数为:
其中R–CB1(i)是已滤波的目标向量和第一码本中的第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和第二码本中第j个条目之间的相关系数,E–CB1(i)是第一码本中第i个条目的能量以及E–CB2(i)是第二码本中第j个条目的能量,是第一组最高第一相关系数中第一码本条目的数目,是第二组最高第二相关系数中第二码本条目的数目。第二判据函数为:
其中zCB1(ik)是第一码本中第i个条目的已滤波的向量,zCB2(jk)是第二码本中第j个条目的已滤波的向量以及K是第三组候选相关系数中的条目数目。在一些实施例中,第一码本可以是类脉冲码本而第二码本可以是类噪声码本。
与使用仅脉冲激励或仅噪声激励相比,使用混合脉冲噪声激励的实施例系统的优点包括能够产生更好的GENERIC语音信号的感知质量。此外,在一些实施例中,脉冲噪声激励的快速搜索方法产生低复杂度的系统,从而使得脉冲噪声激励算法更加吸引人。
虽然已参考说明性实施例描述了本发明,但此描述并不意图限制本发明。所属领域的一般技术人员在参考该描述后,会显而易见地认识到说明性实施例的各种修改和组合,以及本发明的其它实施例。因此,希望所附权利要求书涵盖任何此类修改或实施例。

Claims (15)

1.一种基于码激励线性预测CELP的编码音频/语音信号的方法,其特征在于,所述方法包括:
基于输入音频/语音信号确定自适应码本激励分量以及混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于第一码本,所述第二码本条目属于第二码本,其中所述第一码本包括类脉冲条目,所述第二码本包括类噪声条目,所述自适应码本激励分量来自于自适应码本;
基于所述确定的混合码本向量生成已编码的音频信号;以及
发送所述确定的混合码本向量的码激励索引,其中使用基于硬件的音频编码器执行所述确定和生成;
所述第一码本和所述第二码本都包括固定码本。
2.根据权利要求1所述的方法,其特征在于,所述确定混合码本向量包括:
计算已滤波的目标向量和所述第一码本中已滤波的条目之间的第一相关系数,其中所述已滤波的目标向量基于所述输入音频/语音信号;
确定第一组最高第一相关系数;
计算已滤波的目标向量和所述第二码本中已滤波的条目之间的相关系数;
确定第二组最高第二相关系数;以及
计算所述第一组最高第一相关系数和所述第二组最高第二相关系数的组合的第一判据函数,其中所述第一判据函数包括所述第一组最高第一相关系数中的一个、所述第二组最高第二相关系数中的一个以及所述第一码本和所述第二码本的对应条目的能量的函数。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
基于计算出的最大第一判据函数确定第三组候选相关系数;以及
基于将第二判据函数应用于所述第三组候选相关系数来选择所述混合码本向量,其中所述混合码本向量对应于来自所述第一码本的与所述第二判据函数的最大值相关联的码本条目以及所述第二码本的与所述第二判据函数的最大值相关联的码本条目。
4.根据权利要求3所述的方法,其特征在于:
所述第一判据函数为:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个第一条目的能量以及E–CB2(i)是所述第二码本中的所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目;以及
所述第二判据函数为:
其中zCB1(ik)是所述第一码本中所述第i个第一条目的已滤波的向量,zCB2(jk)是所述第二码本的所述第j个条目的已滤波的向量以及K是所述第三组候选相关系数的条目数目。
5.根据权利要求2所述的方法,其特征在于,进一步包括基于计算出的最高第一判据函数选择所述混合码本向量。
6.根据权利要求5所述的方法,其特征在于,所述第一判据函数是:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是所述已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个第一条目的能量以及E–CB2(i)是所述第二码本中所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目。
7.根据权利要求2所述的方法,其特征在于,进一步包括计算来自所述第一码本和所述第二码本的所述对应条目的能量。
8.根据权利要求2所述的方法,其特征在于,将来自所述第一码本和所述第二码本的对应条目的所述能量存储在存储器中。
9.根据权利要求2所述的方法,其特征在于,所述第一组最高第一相关系数比第二组最高第二相关系数包括更多的条目。
10.根据权利要求1所述的方法,其特征在于,进一步包括:
将第一强调函数应用于所述第一码本条目;以及
将第二强调函数应用于所述第二码本条目。
11.根据权利要求10所述的方法,其特征在于:
所述第一强调函数包括低通滤波函数;以及
所述第二强调函数包括高通滤波函数。
12.一种基于码激励线性预测CELP的编码音频/语音信号的系统,其特征在于,所述系统包括:
基于硬件的音频编码器用于:
基于输入音频/语音信号确定自适应码本激励分量以及混合码本向量,所述混合码本向量包括第一码本条目和第二码本条目的和,所述第一码本条目属于类脉冲码本,所述第二码本条目属于类噪声码本,所述自适应码本激励分量来自于自适应码本,所述第一码本和所述第二码本都包括固定码本;
基于所述确定的混合码本向量生成已编码的音频/语音信号;以及
发送所述确定的混合码本向量的码激励索引。
13.根据权利要求12所述的系统,其特征在于,所述基于硬件的音频编码器进一步用于:
计算已滤波的目标向量和所述类脉冲码本中条目之间的第一相关系数,其中所述已滤波的目标向量基于所述输入音频/语音信号;
确定第一组最高第一相关系数;
计算已滤波的目标向量和所述类噪声码本中条目之间的相关系数;
确定第二组最高第二相关系数;以及
计算所述第一组最高第一相关系数和第二组最高第二相关系数的组合的第一判别函数,其中所述第一判别函数包括所述第一组最高第一相关系数中第一个、所述第二组最高第二相关系数中的一个以及所述类脉冲码本和所述类噪声码本的对应条目的能量的函数。
14.根据权利要求13所述的系统,其特征在于,所述基于硬件的音频编码器还用于基于计算出的最大第一判据函数选择所述混合码本向量。
15.根据权利要求13所述的系统,其特征在于,所述第一判据函数是:
其中R–CB1(i)是所述已滤波的目标向量和所述第一码本中第i个第一条目之间的相关系数,R–CB2(j)是所述已滤波的目标向量和所述第二码本中第j个条目之间的相关系数,E–CB1(i)是所述第一码本中所述第i个第一条目的能量以及E–CB2(i)是所述第二码本中所述第j个条目的能量,是所述第一组最高第一相关系数中第一码本条目的数目,是所述第二组最高第二相关系数中第二码本条目的数目。
CN201380009887.4A 2013-02-15 2013-07-29 用于语音编码的混合码本激励的系统和方法 Active CN104126201B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/768,814 US9972325B2 (en) 2012-02-17 2013-02-15 System and method for mixed codebook excitation for speech coding
US13/768,814 2013-02-15
PCT/CN2013/080268 WO2014124577A1 (en) 2013-02-15 2013-07-29 System and method for mixed codebook excitation for speech coding

Publications (2)

Publication Number Publication Date
CN104126201A CN104126201A (zh) 2014-10-29
CN104126201B true CN104126201B (zh) 2017-08-04

Family

ID=48982948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380009887.4A Active CN104126201B (zh) 2013-02-15 2013-07-29 用于语音编码的混合码本激励的系统和方法

Country Status (18)

Country Link
US (1) US9972325B2 (zh)
EP (2) EP2805324B1 (zh)
JP (2) JP6395612B2 (zh)
KR (2) KR101727577B1 (zh)
CN (1) CN104126201B (zh)
AU (1) AU2013378636B2 (zh)
BR (1) BR112014024648B1 (zh)
CA (2) CA2864247C (zh)
ES (2) ES2716462T3 (zh)
HK (1) HK1199542A1 (zh)
IN (1) IN2014KN01667A (zh)
MX (1) MX350290B (zh)
MY (1) MY172894A (zh)
PT (1) PT3214619T (zh)
RU (2) RU2633105C1 (zh)
SG (1) SG11201404753QA (zh)
WO (1) WO2014124577A1 (zh)
ZA (1) ZA201406064B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103636129B (zh) * 2011-07-01 2017-02-15 诺基亚技术有限公司 多尺度码本搜索
RU2646357C2 (ru) 2013-10-18 2018-03-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра
RU2644123C2 (ru) 2013-10-18 2018-02-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
KR20180026528A (ko) 2015-07-06 2018-03-12 노키아 테크놀로지스 오와이 오디오 신호 디코더를 위한 비트 에러 검출기
EP3413308A1 (en) * 2017-06-07 2018-12-12 Nokia Technologies Oy Efficient storage of multiple structured codebooks
EP3429230A1 (en) * 2017-07-13 2019-01-16 GN Hearing A/S Hearing device and method with non-intrusive speech intelligibility prediction
US11086843B2 (en) 2017-10-19 2021-08-10 Adobe Inc. Embedding codebooks for resource optimization
US11120363B2 (en) 2017-10-19 2021-09-14 Adobe Inc. Latency mitigation for encoding data
US10942914B2 (en) * 2017-10-19 2021-03-09 Adobe Inc. Latency optimization for digital asset compression

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1539139A (zh) * 2001-06-06 2004-10-20 �����ɷ� 减少对于码本矢量搜索的存储要求
CN1711587A (zh) * 2002-11-08 2005-12-21 摩托罗拉公司 对信息信号编码的方法和设备
US7797156B2 (en) * 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
CN102129862A (zh) * 1996-11-07 2011-07-20 松下电器产业株式会社 降噪装置及包括降噪装置的声音编码装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6053999A (ja) 1983-09-05 1985-03-28 日本電気株式会社 音声合成器
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JPH08179796A (ja) 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
US5699485A (en) 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
KR100527217B1 (ko) 1997-10-22 2005-11-08 마츠시타 덴끼 산교 가부시키가이샤 확산 벡터 생성 방법, 확산 벡터 생성 장치, celp형 음성 복호화 방법 및 celp형 음성 복호화 장치
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6449313B1 (en) 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
US6980948B2 (en) * 2000-09-15 2005-12-27 Mindspeed Technologies, Inc. System of dynamic pulse position tracks for pulse-like excitation in speech coding
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
EP1496500B1 (en) 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
US7519532B2 (en) * 2003-09-29 2009-04-14 Texas Instruments Incorporated Transcoding EVRC to G.729ab
CN1989548B (zh) 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
WO2006107837A1 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
US20060253421A1 (en) 2005-05-06 2006-11-09 Fang Chen Method and product for searching title metadata based on user preferences
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
JP5127170B2 (ja) 2006-07-07 2013-01-23 株式会社東芝 復号装置およびスペクトル整形方法
CN101578508B (zh) 2006-10-24 2013-07-17 沃伊斯亚吉公司 用于对语音信号中的过渡帧进行编码的方法和设备
US8175870B2 (en) * 2006-12-26 2012-05-08 Huawei Technologies Co., Ltd. Dual-pulse excited linear prediction for speech coding
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JPWO2010016270A1 (ja) * 2008-08-08 2012-01-19 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
CN101557367B (zh) 2009-02-27 2011-10-05 东南大学 多点有限协同多输入多输出通信系统预编码方法
KR20110022252A (ko) 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
CN102006144B (zh) 2009-09-01 2014-01-08 华为技术有限公司 预编码方法、装置及频域均衡方法、装置
CA2827272C (en) 2011-02-14 2016-09-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129862A (zh) * 1996-11-07 2011-07-20 松下电器产业株式会社 降噪装置及包括降噪装置的声音编码装置
CN1539139A (zh) * 2001-06-06 2004-10-20 �����ɷ� 减少对于码本矢量搜索的存储要求
CN1711587A (zh) * 2002-11-08 2005-12-21 摩托罗拉公司 对信息信号编码的方法和设备
US7797156B2 (en) * 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Strategies to improve the performance of very low bit rate speech coders and application to a variable rate 1.2 kb/s codec;R.C. de Lamare等;《IEE Proc.-Vis. Image Signal Process》;20050228;第152卷(第1期);摘要、第76页左栏第21行-右栏第18行 *

Also Published As

Publication number Publication date
BR112014024648A8 (pt) 2021-06-22
JP2015515644A (ja) 2015-05-28
MY172894A (en) 2019-12-13
EP3214619A1 (en) 2017-09-06
WO2014124577A1 (en) 2014-08-21
RU2604425C2 (ru) 2016-12-10
EP3214619B1 (en) 2018-11-14
JP6395612B2 (ja) 2018-09-26
PT3214619T (pt) 2019-02-06
CA2864247C (en) 2020-09-08
RU2633105C1 (ru) 2017-10-11
US20130218578A1 (en) 2013-08-22
KR101727577B1 (ko) 2017-04-17
EP2805324A4 (en) 2014-12-03
CN104126201A (zh) 2014-10-29
IN2014KN01667A (zh) 2015-10-23
MX2014011964A (es) 2015-02-10
CA3069661A1 (en) 2014-08-21
JP2017134436A (ja) 2017-08-03
BR112014024648B1 (pt) 2022-08-09
ES2716462T3 (es) 2019-06-12
BR112014024648A2 (pt) 2017-06-20
RU2014140195A (ru) 2016-04-20
EP2805324B1 (en) 2017-04-19
US9972325B2 (en) 2018-05-15
CA3069661C (en) 2022-05-03
ZA201406064B (en) 2015-04-29
JP6392409B2 (ja) 2018-09-19
KR20170042816A (ko) 2017-04-19
AU2013378636B2 (en) 2016-05-26
KR101810020B1 (ko) 2017-12-18
AU2013378636A1 (en) 2014-09-11
EP2805324A1 (en) 2014-11-26
CA2864247A1 (en) 2014-08-21
HK1199542A1 (zh) 2015-07-03
SG11201404753QA (en) 2014-10-30
KR20150091516A (ko) 2015-08-11
MX350290B (es) 2017-09-04
ES2627581T3 (es) 2017-07-28

Similar Documents

Publication Publication Date Title
CN104126201B (zh) 用于语音编码的混合码本激励的系统和方法
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US11721349B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
KR102039399B1 (ko) 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상
CN105359211A (zh) 语音处理的清音/浊音判决
JP3103108B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1199542

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1199542

Country of ref document: HK