CN1739142A - 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备 - Google Patents
用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备 Download PDFInfo
- Publication number
- CN1739142A CN1739142A CNA2003801074657A CN200380107465A CN1739142A CN 1739142 A CN1739142 A CN 1739142A CN A2003801074657 A CNA2003801074657 A CN A2003801074657A CN 200380107465 A CN200380107465 A CN 200380107465A CN 1739142 A CN1739142 A CN 1739142A
- Authority
- CN
- China
- Prior art keywords
- vector
- prediction
- predicated error
- error vector
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 463
- 238000013139 quantization Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract 4
- 238000011002 quantification Methods 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000011084 recovery Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims 4
- 238000013461 design Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100445834 Drosophila melanogaster E(z) gene Proteins 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于在可变比特率声音信号编码中量化线性预测参数的方法和设备,其中接收输入线性预测参数向量;将对应于该输入线性预测参数向量的声音信号帧进行分类;计算预测向量;从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量;以及对预测误差向量进行量化。预测向量的计算包括选择与声音信号帧的分类相关的多个预测方案中的一个,并且通过所选择的预测方案来处理预测误差向量。本发明还涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的方法和设备,其中接收至少一个量化下标和关于对应于量化下标的声音信号帧的分类的信息;通过将所述下标应用于至少一个量化表来恢复预测误差向量;重建预测向量;以及响应于所恢复的预测误差向量和所重建的预测向量来生成线性预测参数向量。预测向量的重建包括依赖于帧分类信息通过多个预测方案中的一个来处理所恢复的预测误差向量。
Description
技术领域
本发明涉及一种考虑到传送和合成声音信号而对该声音信号、特别是但不仅仅是语音信号进行数字编码的改进技术。更特别地,本发明涉及一种用于在基于可变比特率线形预测的编码中向量量化线性预测参数的方法和设备。
背景技术
语音编码和线性预测(LP)参数的量化:
数字语音通信系统、比如无线系统在保持高的语音质量的同时使用语音编码器来增加容量。语音编码器将语音信号转换成数字比特流,该数字比特流通过通信信道传送或者存储在存储介质中。语音信号被数字化,即以通常每个样值16比特来取样和量化。语言编码器具有在保持好的主观语音质量的同时用较小数量的比特来表示这些数字取样的作用。语音解码器或者合成器对所传送或所存储的比特流执行操作并将其转换回声音信号。
基于线性预测分析的数字语音编码方法在低比特率语音编码方面已经非常成功了。特别地,编码激励线性预测(CELP)编码是在主观质量和比特率之间达到好的折衷的最好公知技术中的一种。这种编码技术是无线和有线应用中的多种语音编码标准的基础。在CELP编码中,所取样的语音信号以连续的通常被称为帧的具有N个样值的块的方式被处理,其中N典型地是对应于10-30ms的预定数。对线性预测(LP)滤波器A(z)进行计算、编码并且传送每一帧。LP滤波器A(z)的计算典型地需要先行,其由来自接下来的帧的5-15ms的语音段组成。N个样值的帧被分成更小的被称为子帧的块。通常子帧的数量是三或四,从而形成4-10ms的子帧。在每个子帧中,通常从两个分量、即过去的激励和创新的、固定码簿激励获得激励信号。由过去的激励形成的分量通常被称为适应性码簿或音调激励。表示激励信号特征的参数被编码并且传送到解码器,在该解码器中重建的激励信号被用作LP合成滤波器的输入。
LP合成滤波器由下列给出:
其中αi是线性预测系数,M是LP分析的阶次。LP合成滤波器对语音信号的频谱包络进行建模。在解码器中,语音信号通过经LP合成滤波器对解码后的激励进行滤波来重建。
该组线性预测系数αi这样来计算,使得预测误差
因此预测误差如下给出:
这在z变换域中对应于:
E(z)=S(z)A(z)
其中A(z)是如下给出的阶次为M的LP滤波器:
典型地,线性预测系数αi是通过最小化在L个样值的块上的均方预测误差来计算的,L是通常等于或大于N的整数(L通常对应于20-30ms)。另外,线性预测系数的计算对于本领域的普通技术人员来说是公知的。在【ITU-TRecommendation G.722..2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s using adaptivemulti-rate wideband(AMR-WB))”,日内瓦,2002年】中给出了这种计算的一个例子。
线性预测系数αi不能被直接量化以便传送到解码器。原因是线性预测系数的小的量化误差可能产生LP滤波器的传递函数的大的频谱误差,并且甚至可能导致滤波器不稳定。因此,在量化之前对线性预测系数αi进行变换。该变换产生被称为线性预测系数αi的表示这一结果。在接收到量化的变换后的线性预测系数αi后,解码器于是可应用逆变换来获得量化的线性预测系数。一种广为使用的线性预测系数αi的表示是线谱频率(LSF),也叫做线谱对(LSP)。线谱频率的计算的细节可在【ITU-T Recommendation G.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding of speech at 8kbit/s usingconjugate-structure algebraic-code-excited linear prediction(CS-ACELP)”,日内瓦,1996年3月】中找到。
类似的表示是阻纳频谱频率(ISF),其已被用于AMR-WB编码标准中【ITU-T Recommendation G.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s usingAdaptive Multi-Rate Wideband(AMR-WB))”,日内瓦,2002年】。其它的表示也是可能的并且已被使用。在不失一般性的情况下,ISF表示的特殊情况将在以下描述中被考虑。
这样获得的LP参数(LSFs,ISFs,等)利用标量量化(SQ)或向量量化(VQ)之一来进行量化。在标量量化中,LP参数被单独量化并且通常每个参数需要3或4比特。在向量量化中,LP参数被分成向量并且作为整体进行量化。包括该组量化向量的码簿或表被存储。量化器根据某个距离量度在该码簿中搜索最接近于输入向量的码簿条目。所选的量化向量的下标被传送到解码器。向量量化具有比标量量化更好的性能,但是代价是增加了复杂度和对存储器的要求。
结构向量量化通常用来减小VQ的复杂度和存储要求。在分裂VQ中,LP参数向量被拆分成被单独量化的至少两个子向量。在多阶段VQ中,量化向量是来自多个码簿的条目的和。分裂VQ和多阶段VQ在保持好的量化性能的同时减小了存储器和复杂度。此外,一种有趣的方法是结合多阶段和分裂VQ来进一步减小复杂度和对存储器的要求。在参考文献【ITU-T RecommendationG.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding ofspeech at 8kbit/s using conjugate-structure algebraic-code-excited linearprediction(CS-ACELP)”,日内瓦,1996年3月】中,LP参数向量在两个阶段中被量化,其中第二阶段向量被拆分为两个子向量。
LP参数显示出了连续帧之间的强相关性,并且这通常通过预测量化的使用被利用来改进性能。在预测向量量化中,预测LP参数向量是基于来自过去帧的信息来计算的。然后,预测向量被从输入向量中除去并且预测误差被向量量化。通常使用两种预测:自回归(AR)预测和移动平均(MA)预测。在AR预测中,预测向量被当作来自过去帧的量化向量的组合来计算。在MA预测中,预测向量被当作来自过去帧的预测误差向量的组合来计算。AR预测产生较好的性能。但是,AR预测对于在无线和基于包的通信系统中遇到的帧丢失情况来说并不稳健。在丢失帧的情况下,由于预测是基于先前被破坏的帧,因此误差将扩散到连续的帧。
可变比特率(VBR)编码
在多个通信系统、例如使用码分多址(CDMA)技术的无线系统中,源受控可变比特率(VBR)语音编码的使用显著提高了系统的容量。在源受控VBR编码中,编码器可以以多种比特率工作,并且速率选择模块被用于基于语音帧的特性、例如有声的、无声的、瞬变的、背景噪音等来确定用于编码每一语音帧的比特率。目标是以给定的平均比特率(也被称为平均数据率(ADR))来达到最好的语音质量。编码器也能通过调节速率选择模块来按照不同的工作模式工作以达到不同的模式的不同的ADR,其中编码器的性能随着ADR的增加而提高。这给编码器提供了一种在语音质量和系统容量之间折衷的机制。在CDMA系统、例如CDMA-1和CDMA2000中,典型地使用4种比特率,这4种比特率被称为全速率(FR)、半速率(HR)、四分之一速率(QR)以及八分之一速率(ER)。在这一CDMA系统中,两组速率被支持并且被称为速率组I和速率组II。在速率组II中,具有速率选择机制的可变速率编码器以对应于总比特率14.4、7.2、3.6以及1.8kbit/s(一些比特被添加用于错误检测)的源编码比特率13.3(FR)、6.2(HR)、2.7(QR)以及1.0(ER)kbit/s进行操作。
宽带编解码器也叫做适应性多速率宽带(AMR-WB)语音编解码器最近被ITU-T(国际电信联盟—电信标准部门)选择用于多个宽带语音电话和服务,并且被3GPP(第三代合作计划)选择用于GSM和W-CDMA(宽带码分多址)第三代无线系统。AMR-WB编解码器包括九个在从6.6到23.85kbit/s范围内的比特率。为CDMA2000系统设计基于AMR-WB的源受控VBR编解码器具有实现CDMA2000和其它使用AMR-WB编解码器的系统之间的互操作性的优点。12.65kbit/s的AMR-WB比特率是能够适应CDMA2000速率组II的13.3kbit/s的全速率的最接近的速率。12.65kbit/s的速率可被用作CDMA2000宽带VBR编解码器和AMR-WB编解码器之间的共用速率,用来实现互操作性而不需要降低语音质量的代码转换。6.2kbit/s的半速率必须被增加以实现在速率组II框架中的有效的操作。所得到的编解码器能够以少数CDMA2000特定的模式工作,并且包括能够与使用AMR-WB编解码器的系统实现互操作性的模式。
在输入语音信号稳定的帧中典型地选择半速率编码。与全速率相比较,比特节约是通过不太频繁地更新编码参数或通过使用较少比特来编码这些编码参数中的一些来实现的。更特别地,在稳定有声段中,音调信息只在每帧被编码一次,并且较少的比特被用来表示固定码簿参数和线性预测系数。
由于利用MA预测的预测VQ典型地被应用于编码线性预测系数,因此量化噪声的不必要的增加可在这些线性预测系数中观察到。与AR预测相反,MA预测被用于增加对帧丢失的稳健性;但是在稳定的帧中线性预测系数如此慢地演变以至于在这种特定情况下使用AR预测会比在丢失帧的情况下对误差扩散具有更小的影响。这可以通过观察在丢失帧的情况下大多数解码器应用实质上外推最后帧的线性预测系数的隐蔽步骤而看出。如果丢失帧是稳定有声的,这种外推则产生非常接近于实际所传送的、而不是所接收的LP参数的值。因此重建的LP参数向量接近于帧没有丢失时应当被解码的值。因此在这个特定的情况下,在线性预测系数的量化步骤中使用AR预测不会具有对量化误差扩散的非常不利的作用。
发明内容
根据本发明,提供一种用于在可变比特率声音信号编码中量化线性预测参数的方法,包括接收输入线性预测参数向量,将对应于该输入线性预测参数向量的声音信号帧进行分类,计算预测向量,从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量,缩放预测误差向量,并且量化所缩放的预测误差向量。计算预测向量包括选择与声音信号帧的分类相关的多个预测方案中的一个,并且根据所选择的预测方案来计算预测向量。缩放预测误差向量包括选择与所选择的预测方案相关的多个缩放方案中的至少一个,并且根据所选择的缩放方案来缩放预测误差向量。
同样根据本发明,提供一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括用于接收输入线性预测参数向量的装置,用于将对应于该输入线性预测参数向量的声音信号帧进行分类的装置,用于计算预测向量的装置,用于从该输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的装置,用于缩放预测误差向量的装置,以及用于量化所缩放的预测误差向量的装置。用于计算预测向量的装置包括用于选择与声音信号帧的分类相关的多个预测方案中的一个的装置,以及用于根据所选择的预测方案来计算预测向量的装置。同样,用于缩放预测误差向量的装置包括用于选择与所选择的预测方案相关的多个缩放方案中的至少一个的装置,以及用于根据所选择的缩放方案来缩放预测误差向量的装置。
本发明还涉及一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括用于接收输入线性预测参数向量的输入端,对应于输入线性预测参数向量的声音信号帧的分类器,预测向量的计算器,从输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的减法器,被提供预测误差向量的缩放单元,该单元对预测误差向量进行缩放,以及所缩放的预测误差向量的量化器。预测向量的计算器包括选择与声音信号帧的分类相关的多个预测方案中的一个以便根据其所选择的预测方案来计算预测向量的选择器。缩放单元包括用于选择与所选择的预测方案相关的多个缩放方案中至少的一个以便根据所选择的缩放方案来缩放预测误差向量的选择器。
本发明进一步涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的方法,包括接收至少一个量化下标,接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息,通过将至少一个下标应用于至少一个量化表来恢复预测误差向量,重建预测向量,并且响应于恢复的预测误差向量和重建的预测向量来生成线性预测参数向量。预测向量的重建包括根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量。
本发明还进一步涉及一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括用于接收至少一个量化下标的装置,用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置,用于通过将至少一个下标应用于至少一个量化表来恢复预测误差向量的装置,用于重建预测向量的装置,以及用于响应于恢复的预测误差向量和重建的预测向量来生成线性预测参数向量的装置。预测向量重建装置包括用于根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量的装置。
根据本发明的最后一个方面,提供一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括用于接收至少一个量化下标的装置,用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置,被提供所述至少一个量化下标来恢复预测误差向量的至少一个量化表,预测向量重建单元,以及响应于恢复的预测误差向量和重建的预测向量的线性预测参数向量的生成器。预测向量重建单元至少一个预测器,其被提供恢复的预测误差向量,以便根据帧的分类信息通过多个预测方案之一来处理恢复的预测误差向量。
本发明的上述以及其它目的、优点和特征将通过阅读以下对其说明性的实施方式的非限制性的描述而变得更加清楚,该描述将仅参考附图通过实例来给出。
附图说明
在附图中:
图1是说明多阶段向量量化器的非限制性实例的示意框图;
图2是说明分裂向量向量量化器的非限制性实例的示意框图;
图3是说明使用自回归(AR)预测的预测向量量化器的非限制性实例的示意框图;
图4是说明使用移动平均(MA)预测的预测向量量化器的非限制性实例的示意框图;
图5是根据本发明的非限制性的说明性实施方式的、编码器中的切换预测向量量化器的一个实例的示意框图;
图6是根据本发明的非限制性的说明性实施方式的、解码器中的切换预测向量量化器的一个实例的示意框图;
图7是ISF在频率上的分布的非限制性示意实例,其中每个分布是在ISF向量中的给定位置处找到ISF的概率的函数;和
图8是说明通过连续语音帧的ISF参数的演变的典型实例的图表。
具体实施方式
尽管本发明的说明性实施方式将在以下与语音信号的应用相关的说明中进行描述,应当明了的是本发明也可应用于其它类型的声音信号。
大多数最近的语音编码技术都是基于线性预测分析、比如CELP编码。LP参数在10-30ms的帧中被计算和量化。在本说明性实施方式中,使用20ms的帧并且假设LP分析阶次为16。在语音编码系统中计算LP参数的一个实例可在下列参考文献中找到【ITU-T Recommendation G.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech ataround 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB))”,日内瓦,2002年】。在这个说明性实施方式中,经预处理的语音信号被加窗处理并且被加窗处理的语音的自相关被计算。然后Levinson-Durbin递归被用来从自相关R(k),k=0,...,M中计算线性预测系数αi,i=1,...,M,其中M是预测阶次。
线性预测系数αi不能被直接量化以便传送到解码器。原因是线性预测系数的小的量化误差可能在LP滤波器的传递函数中产生大的频谱误差,并且甚至可能导致滤波器不稳定。因此,在量化之前对线性预测系数αi进行变换。该变换产生被称为线性预测系数αi的表示的结果。在接收到量化的、变换后的线性预测系数后,解码器可应用逆变换来获得量化的线性预测系数。一种广为使用的线性预测系数αi的表示是线谱频率(LSF)(也叫做线谱对(LSP))。线谱频率的计算的细节可在参考文献【ITU-T Recommendation G.729“使用共轭结构的代数编码激励线性预测的8kbit/s的语音编码(Coding of speech at 8kbit/s usingconjugate-structure algebraic-code-excited linear prediction(CS-ACELP)”,日内瓦,1996年3月】中找到。LSF包括多项式的极点:
P(z)=(A(z)+z-(M+1)A(z-1))/(1+z-1)
以及
Q(z)=(A(z)-z-(M+1)A(z-1))/(1-z-1)
对于M的偶数值,每个多项式在单位圆(e±jwi)上具有M/2个共轭根。因此多项式可被写成:
以及
其中qi=cos(ωi)中的ωi是满足下列顺序特性0<ω1<ω2<...<ωM<π的线谱频率(LSF)。在这个特定实施方式中,LSF构成了LP(线性预测)参数。
类似的表示是阻纳频谱对(ISP)或阻纳频谱频率(ISF),其被用于AMR-WB编码标准中。计算ISF的详情可在下列参考文献中找到【ITU-T RecommendationG.722.2“使用适应性多速率宽带(AMR-WB)的大约16kbit/s的语音宽带编码(Wideband coding of speech at around 16kbit/s using Adaptive Multi-RateWideband(AMR-WB))”,日内瓦,2002年】。其它的表示也是可能的,并已经被使用。在不失一般性的情况下,以下的描述将考虑ISF表示作为非限制性的说明性实施方式的情况。
对于第M阶的LP滤波器,其中M是偶数,ISP被定义为下列多项式的根:
F1(z)=A(z)+z-MA(z-1)
以及
F2(z)=(A(z)-z-MA(z-1))/(1-z-2)
多项式F1(z)和F2(z)分别在单位圆(e±jwi)上具有M/2和M/2-1个共轭根。因此多项式可被写成:
以及
其中qi=cos(ωi)中的ωi是阻纳频谱频率(ISF),以及αM是最后的线性预测系数。ISF满足下列顺序特性0<ω1<ω2<...<ωM-1<π。在这个特定实施方式中,LSF构成了LP(线性预测)参数。因此ISF包括除最后的线性预测系数之外的M-1个频率。在这个说明性实施方式中ISF利用以下关系被映射到0到fs/2的范围中的频率,其中fs是取样频率:
以及
LSF和ISF(LP参数)由于使其适合于量化目的的多种特性而已被广泛使用。这些特性包括明确定义的动态范围,它们的导致强的帧间和帧内关系的平滑演变并且保证量化LP滤波器的稳定性的顺序特性的存在。
在这篇文献中,术语“LP参数”用来表示LP系数的任何表示,例如LSF,ISF,去除平均LSF,或者去除平均ISF。
现在将描述ISF(LP(线性预测)参数)的主要特性以便理解所使用的量化方法。图7示出了ISF系数的概率分布函数(PDF)的典型实例。每条曲线表示各个ISF系数的PDF。每个分布的平均值表示在水平轴(μk)上。例如ISF1的曲线表示由第一ISF系数在一帧中可获得的所有值以及它们的发生概率。ISF2的曲线表示由第二ISF系数在一帧中可获得的所有值以及它们的发生概率,等等。PDF函数典型地通过将直方图应用到如通过多个连续帧所观察到的给定系数所获得的值来获得。我们看到每个ISF系数在所有可能的ISF值上占据了有限的间隔。这有效地减小了量化器必须覆盖的空间并且增加了比特率效率。同样重要的是注意,当ISF系数的PDF可能重叠时,给定帧中的ISF系数总是顺序排列的。(ISFk+1-ISFk>0,其中k是ISF系数在ISF系数的向量中的位置)。
随着在语音编码器中帧长度典型地是10到30ms,ISF系数显示了帧间关系。图8说明了在语音信号中ISF系数怎样在帧之间演变。图8是通过对同时包括有声帧和无声帧的语音段中的30个20ms的连续帧执行LP分析获得的。LP系数(每帧16个)被变换成ISF系数。图8示出了从不彼此交叉的线,这意味着ISF总是顺序排列的。图8也示出了与帧速率相比典型地慢慢演变的ISF系数。这实际上意味着预测量化可被应用来减小量化误差。
图3说明使用自回归(AR)预测的预测向量量化器300的一个实例。如图3所示,预测误差向量en首先通过从待量化的输入LP参数向量xn中减去(处理器301)预测向量pn来获得。这里,标记n表示时间上的帧下标。预测向量pn通过预测器P(处理器302)使用过去的量化LP参数向量
等来计算。然后预测误差向量en被量化(处理器303)从而产生例如通过信道传送的下标i以及产生量化预测误差向量ên总量化LP参数向量
通过将量化预测误差向量ên和预测向量pn相加(处理器304)来获得。预测器P(处理器302)的一般形式如下:
其中Ak是M×M维的预测矩阵,并且K是预测器阶次。预测器P(处理器302)的一种简单的形式是使用一阶预测:
其中A是M×M维的预测矩阵,其中M是LP参数向量xn的维数。预测矩阵A的一种简单形式是具有对角线元素α1,α2,...αM的对角矩阵,其中αi是各个LP参数的预测因子。如果针对所有的LP参数使用相同的因子α,那么等式(2)将简化为:
等式(4)的递归形式意味着,当使用如图3所示的那种形式的AR预测量化器300时,信道误差将在多个帧上扩散。这在当把等式(4)写成下列数学等价形式时可以更加清楚:
这个形式清楚地表示原则上每个过去的解码预测误差向量ên-k都会对量化LP参数向量
的值产生影响。因此,在有将会相对于编码器所发送的值而修改解码器所接收的ên的值的信道误差的情况下,通过等式(4)所获得的解码向量
在解码器将与在编码器不同。因为预测器P的递归性质,甚至在随后的帧中没有信道误差,这种编码器—解码器失配将在以后扩散并且影响接下来的向量等。因此,预测向量量化对于信道误差是不稳健的,特别是当预测因子很高时(在等式(4)和(5)中α接近1)。
为了缓解这个扩散问题,移动平均(MA)预测可用来代替AR预测。在MA预测中,等式(5)的无限序列被截成有限数量的项。这个思路是通过使用等式(5)中的小数量的项来近似于等式(4)中的自回归形式的预测器P。注意,在求和中的权重可以被修改来更好地近似于等式(4)中的预测器P。
MA预测向量量化器400的一个非限制性实例如图4所示,其中处理器401,402,403和404分别对应于处理器301,302,303和304。预测器P(处理器402)的一般形式是:
pn=B1ên-1+B2ên-2+...+BKên-K
其中Bk是M×M维的预测矩阵,并且K是预测器阶次。应当注意的是,在MA预测中,传送误差仅仅扩散到随后的K帧。
预测器P(处理器402)的一个简单形式是使用一阶预测:
pn=Bên-1 (6)
其中B是M×M维的预测矩阵,其中M是LP参数向量的维数。预测矩阵的一种简单形式是具有对角线元素β1,β2,...βM的对角矩阵,其中βi是各个LP参数的预测因子。如果针对所有的LP参数使用相同的因子β,那么等式(6)将简化为:
使用等式(7)的简单预测形式,则在图4中量化LP参数向量
通过下列移动平均(MA)关系给出:
在使用如图4所示的MA预测的预测向量量化器400的示意实例中,预测器存储器(在处理器402中)通过过去的解码预测误差向量ên-1,ên-2等形成。因此,信道误差可能在其上扩散的帧的最大数量是预测器P(处理器402)的阶次。在等式(8)的示意性预测器实例中,使用一阶预测以便MA预测误差可以仅仅在一帧上扩散。
虽然对于传送误差比AR预测更加稳健,但MA预测不能对给定的预测阶次获得相同的预测增益。因此预测误差具有更大的动态范围,并且可能比AR预测量化需要更多的比特来达到相同的编码增益。因此折衷是对信道误差的稳健性对在给定比特率时的编码增益。
在源受控可变比特率(VBR)编码中,编码器可以多个比特率进行操作,并且速率选择模块被用于基于语音帧的性质、例如有声的、无声的、瞬变的、背景噪音等来确定用于编码每一语音帧的比特率。语音帧的性质、例如有声的、无声的、瞬变的、背景噪音等可以以与针对CDMA VBR相同的方式来确定。目标是以一个给定的平均比特率(也被称为平均数据率(ADR))来达到最好的语音质量。作为一个示意性实例,在CDMA系统、例如CDMA-1和CDMA2000中,典型地使用4种比特率并且这4种比特率被称为全速率(FR),半速率(HR),四分之一速率(QR),以及八分之一速率(ER)。在该CDMA系统中,支持两组速率并且这两组速率被称为速率组I和速率组II。在速率组II中,具有速率选择机制的可变速率编码器以源编码比特率13.3(FR)、6.2(HR)、2.7(QR)以及1.0(ER)kbit/s进行操作。
在VBR编码中,分类和速率选择机制被用来根据语音帧的性质(有声的,无声的,瞬变的,噪音等)来将其分类并且根据分类和所要求的平均数据率(ADR)来选择对帧进行编码所需的比特率。半速率编码典型地被选择用于输入语音信号稳定的帧。与全速率相比较而言的比特节约是通过不太频繁地更新编码器参数或通过使用较少比特来编码一些参数来达到的。进一步地,这些帧显示了可被利用来减小比特率的强相关性。更特别地,在稳定有声段中,音调信息只在每帧中编码一次,并且较少的比特被用于固定码簿和LP系数。在无声帧中,不需要音调预测并且激励可用HR中小的码簿或者QR中的随机噪声来建模。
由于利用MA预测的预测VQ典型地被应用来编码LP参数,这导致量化噪声的不必要的增加。与AR预测相反,MA预测被用于增加对帧丢失的稳健性;但是在稳定的帧中LP系数慢慢演变,因此在这种情况下使用AR预测将比在丢失帧的情况下对误差扩散具有更小的影响。这可以通过观察在丢失帧的情况下大多数解码器应用实质上是外推最后帧的LP参数的隐蔽步骤来进行检测。如果丢失的帧是稳定有声的,这个外推步骤值将非常类似于实际所传送的而不是接收的LP参数。因此,重建的LP参数向量接近于在该帧没有丢失时应当被解码的向量。在这个特定的情况下,在LP系数的量化步骤中使用AR预测不会对量化误差扩散产生非常不利的影响。
因此,根据本发明的非限制性的说明性实施方式,公开了一种LP参数的预测VQ方法,其中根据正被处理的语音帧的性质在MA和AR预测之间切换预测器。更特别地,在瞬变和不稳定的帧中使用MA预测,而在稳定的帧中使用AR预测。此外,由于AR预测导致与MA预测相比较具有更小的动态范围的预测误差向量en,所以为这两种类型的预测使用相同的量化表是无效的。为了克服这个问题,在AR预测之后的预测误差向量被适当地缩放以便使其能通过使用与在MA预测情况中相同的量化表来量化。当使用多阶段VQ来量化预测误差向量时,在对AR预测误差向量进行适当缩放后,第一阶段可被用于两种类型的预测。由于在第二阶段中使用无需大存储器的分裂VQ就足够了,所以该第二阶段的量化表可分别针对两种类型的预测来训练和设计。当然,代替为MA预测设计第一阶段的量化表并且缩放AR预测误差向量,相反的方式也是有效的,即第一阶段可被设计用于AR预测并且MA预测误差向量在量化之前进行缩放。
因此,根据本发明的非限制性的说明性实施方式,还公开了一种预测向量量化方法,用于在可变比特率语音编解码器中对LP参数进行量化,其中根据关于正被处理的语音帧的性质的分类信息在MA和AR预测之间切换预测器P,并且其中预测误差向量被适当地缩放以便在预测误差的多阶段VQ中可针对两种类型的预测使用相同的第一阶段量化表。
实例1
图1表示二阶段向量量化器100的非限制性实例。输入向量x首先利用量化器Q1(处理器101)进行量化来生成量化向量
和量化下标i1。计算(处理器102)输入向量x和第一阶段量化向量
之间的差来生成误差向量x2,该误差向量x2进一步利用第二阶段VQ(处理器103)进行量化从而生成具有量化下标i2的量化第二阶段误差向量
下标i1和i2通过信道传送(处理器104)并且量化向量
在解码器中被重建为
图2表示分裂向量量化器200的说明性实例。M维的输入向量x被拆分为维数为N1,N2,...NK的K个子向量,并且分别利用向量量化器Q1,Q2,...QK(处理器201.1,201.2,...201.K)进行量化。得到具有量化下标i1,i2和iK的量化子向量
量化下标通过信道传送(处理器202)并且通过将量化子向量进行简单连接来重建量化向量
一种有效的向量量化的方法是将多阶段和分裂VQ结合起来,这导致在质量和复杂度之间的好的折衷。在第一示意实例中,可以使用二阶段VQ,其中将第二阶段误差向量ê2拆分成多个子向量并且分别用第二阶段量化器Q21,Q22,...Q2K进行量化。在第二示意实例中,输入向量可被拆分成两个子向量,然后每个子向量用二阶段VQ来进行量化,其如在第一示意实例中一样在第二阶段中使用进一步的分裂。
图5是说明根据本发明的切换预测向量量化器500的非限制性实例的示意框图。首先,从输入LP参数向量z中除去平均LP参数向量μ来生成去除平均的LP参数向量x(处理器501)。如前所述,LP参数向量可以是LSF参数向量,ISF参数向量,或者任意其它相关的LP参数的表示。从输入LP参数向量z中除去平均LP参数向量μ是可选的,但是导致提高的预测性能。如果停用处理器501,那么去除平均的LP参数向量x将与输入LP参数向量z相同。在此应当注意的是,在图3和4中所使用的帧下标n在这里为了简化的目的被丢弃了。然后计算预测向量p并且其被从去除平均的LP参数向量x中除去来生成预测误差向量e(处理器502)。然后,基于帧分类信息,如果对应于输入LP参数向量z的帧是稳定有声的,那么使用AR预测并且误差向量e通过某个因子来进行缩放(处理器503)以获得缩放的预测误差向量e’。如果帧不是稳定有声的,就使用MA预测并且缩放因子(处理器503)等于1。再次,帧的分类、例如有声的、无声的、瞬变的、背景噪声等等可例如用与针对CDMA VBR相同的方式来确定。缩放因子典型地大于1并且导致尺度放大预测误差向量的动态范围以便使其可以利用为MA预测设计的量化器来量化。缩放因子的值依赖于MA和AR预测所使用的系数。非限制性的典型的值为:MA预测系数β=0.33,AR预测系数α=0.65,以及缩放因子=1.25。如果量化器是为AR预测设计的,那么将执行相反的操作:MA预测的预测误差向量将被缩放并且缩放因子将小于1。
然后缩放的预测误差向量e’被向量量化(处理器508)来生成量化的缩放的预测误差向量ê′。在图5的实例中,处理器508包括二阶段向量量化器,其中分裂VQ被用于两个阶段,并且其中第一阶段的向量量化表对于MA和AR预测来说是相同的。二阶段向量量化器508包括处理器504,505,506,507,和509。在第一阶段量化器Q1中,缩放的预测误差向量e’被量化来生成第一阶段量化预测误差向量ê1(处理器504)。从缩放的预测误差向量e’中除去该向量ê1(处理器505)来生成第二阶段预测误差向量e2。然后该第二阶段预测误差向量e2被第二阶段向量量化器QMA或第二阶段向量量化器QAR量化(处理器506)来生成第二阶段量化预测误差向量ê2。第二阶段向量量化器QMA和QAR之间的选择依赖于帧分类信息(例如如上所提到的,如果帧是稳定有声的则选择AR以及如果帧不是稳定有声的则选择MA)。通过对来自两个阶段的量化预测误差向量ê1和ê2求和:ê′=ê1+ê2来重建量化缩放预测误差向量ê′(处理器509)。最后,与处理器503的缩放相反的缩放被应用到量化缩放预测误差向量ê′上(处理器510)来生成量化预测误差向量ê。在本示意性实例中,向量的维数是16,并且在两个阶段中都使用分裂VQ。来自量化器Q1和量化器QMA或者QAR的量化下标i1和i2被多路复用并通过通信信道传送(处理器507)。
预测向量p在MA预测器(处理器511)或AR预测器(处理器512)中依赖于帧分类信息(例如如上所提到的,如果帧是稳定有声的则用AR以及如果帧不是稳定有声的则用MA)来计算。如果帧是稳定有声的,那么预测向量等于AR预测器512的输出。否则预测向量等于MA预测器511的输出。如上所解释的,MA预测器511对来自先前帧的量化预测误差向量进行操作而AR预测器512对来自先前帧的量化输入LP参数向量进行操作。量化输入LP参数向量(去除平均的)是通过将量化预测误差向量ê与预测向量p相加来构造的(处理器514):
图6是示出根据本发明在解码器中的切换预测向量量化器600的非限制性实例的示意框图。在解码器侧,所接收的那组量化下标i1和i2被量化表(处理器601和602)用来生成第一阶段和第二阶段的量化预测误差向量ê1和ê2。注意:第二阶段的量化(处理器602)包括如上面根据图5的编码器侧所述的两组用于MA和AR预测的表。然后在处理器603中通过对两个阶段的量化预测误差向量求和来重建缩放预测误差向量:ê′=ê1+ê2。在处理器609中应用反缩放来生成量化预测误差向量ê。注意:反缩放是所接收的帧分类信息的函数并且对应于由图5的处理器503所执行的缩放的反换式。然后,量化后的去除平均的输入LP参数向量
在处理器604中通过将预测向量p与量化预测误差向量ê相加来重建:
在平均LP参数向量μ已经在编码器器被去除的情况下,它在处理器608中被加上来生成量化输入LP参数向量
应当注意的是,如在图5的编码器侧的情况下那样,预测向量p依赖于帧分类信息是MA预测器605的输出或者是AR预测器606的输出;这个选择是根据处理器607响应于帧分类信息的逻辑而作出的。更特别地,如果帧是稳定有声的,那么预测向量p等于AR预测器606的输出。否则预测向量p等于MA预测器605的输出。
当然,虽然仅有MA预测器或者AR预测器的输出用于某一帧的事实,但是假设MA或者AR预测可以在下一帧中使用,两个预测器的存储器将在每一帧进行更新。这对于编码器和解码器侧都是有效的。
为了优化编码增益,为MA预测设计的第一阶段的一些向量可以被一些为AR预测设计的新向量代替。在非限制性的说明性实施方式中,第一阶段码簿的大小是256,并且具有与在AMR-WB标准中在12.65kbit/s时相同的内容,并且当使用AR预测时28个向量在第一阶段码簿中被代替。因此,如下形成扩展的第一阶段码簿:首先,在应用AR预测时较少使用但是可用于MA预测的28个第一阶段向量被置于表的开头,然后余下的256-28=228个可用于AR和MA预测的第一阶段向量被追加在表中,并且最后可用于AR预测的28个新向量被置于表的结尾。表的长度是256+28=284个向量。当使用MA预测时,表的开头256个向量被用于第一阶段;当使用AR预测时表的最后256个向量被使用。为了保证与AMR-WB标准的互操作性,包括第一阶段向量在该新的码簿中的位置和它在AMR-WB第一阶段码簿中的原始位置之间的映射的表被使用。
总的来说,本发明的上述根据图5和6所描述的非限制性的说明性实施方式呈现了以下特征:
—依赖于可变速率编码器的编码模式来使用切换AR/MA预测,该编码模式本身依赖于当前语音帧的性质。
—基本上不管使用AR预测或MA预测,使用相同的第一阶段量化器,这导致节省了存储器。在非限制性的说明性实施方式中,16阶LP预测被使用并且LP参数在ISF域中被表示。第一阶段码簿与在AMR-WB编码器的12.65kbit/s模式中所使用的相同,其中是使用MA预测来设计码簿的(16维LP参数向量被拆分成2份来获得两个具有7维和9维的子向量,并且在第一阶段量化中,使用两个256个条目的码簿)。
—代替MA预测,在稳定模式中、特别是在半速率有声模式中使用AR预测;否则使用MA预测。
—在AR预测的情况下,第一阶段的量化器与MA预测情况相同。但是,可为AR预测适当地设计和训练第二阶段。
—为了考虑到预测器模式的这种切换,假设MA或者AR预测器都能被用于下一帧,MA和AR预测器的存储器在每一帧都进行更新。
—进一步地,为了优化编码增益,为MA预测设计的第一阶段的一些向量可以被一些为AR预测设计的新向量代替。根据该非限制性的说明性实施方式,当使用AR预测时28个向量在第一阶段码簿中被代替。
—因此,扩展的第一阶段码簿可如下形成:首先,在应用AR预测时较少使用的28个第一阶段向量被置于表的开头,然后余下的256-28=228个第一阶段向量被追加在表中,并且最后,28个新向量被置于表的结尾。因此表的长度是256+28=284个向量。当使用MA预测时,表的开头256个向量被用于第一阶段;当使用AR预测时表的最后256个向量被使用。
—为了保证与AMR-WB标准的互操作性,包括第一阶段向量在该新的码簿中的位置和它在AMR-WB第一阶段码簿中的原始位置之间的映射的表被使用。
—由于当使用在稳定信号上时AR预测比MA预测获得更低的预测误差能量,所以缩放因子被应用到预测误差上。在非限制性的说明性实施方式中,当使用MA预测时缩放因子是1,当使用AR预测时缩放因子是1/0.8。这使AR预测误差增加到MA预测误差的动态等价值。因此,在第一阶段中可以为MA和AR预测使用相同的量化器。
尽管本发明已在上述关于其非限制性的说明性实施方式的说明中进行了描述,但是这些实施方式可以在不脱离本发明的性质和范围的情况下在后附的权利要求的范围内进行任意修改。
Claims (57)
1.一种用于在可变比特率声音信号编码中量化线性预测参数的方法,包括:
接收输入线性预测参数向量;
将对应于所述输入线性预测参数向量的声音信号帧进行分类;
计算预测向量;
从所述输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量;
缩放所述预测误差向量;
对所缩放的预测误差向量进行量化;
其中:
—计算预测向量包括选择与声音信号帧的分类相关的多个预测方案中的一个,并且根据所选择的预测方案来计算预测向量;和
—缩放所述预测误差向量包括选择与所选择的预测方案相关的多个缩放方案中的至少一个,并且根据所选择的缩放方案来缩放所述预测误差向量。
2.如权利要求1所述的用于量化线性预测参数的方法,其中对预测误差向量进行量化包括:
通过至少一个量化器使用所选择的预测方案来处理预测误差向量。
3.如权利要求1所述的用于量化线性预测参数的方法,其中:
多个预测方案包括移动平均预测和自回归预测。
4.如权利要求1所述的用于量化线性预测参数的方法,进一步包括:
生成平均线性预测参数的向量;以及
从输入线性预测参数向量中除去平均线性预测参数的向量来生成去除平均的线性预测参数向量。
5.如权利要求1所述的用于量化线性预测参数的方法,其中
将声音信号帧进行分类包括确定声音信号帧是稳定有声帧;
选择多个预测方案中的一个包括选择自回归预测;
计算预测向量包括通过自回归预测计算预测误差向量;
选择多个缩放方案中的一个包括选择缩放因子;以及
缩放该预测误差向量包括在进行量化之前使用所述缩放因子来缩放该预测误差向量。
6.如权利要求1所述的用于量化线性预测参数的方法,其中:
将声音信号帧进行分类包括确定声音信号帧不是稳定有声帧;
计算预测向量包括通过移动平均预测计算预测误差向量。
7.如权利要求5所述的用于量化线性预测参数的方法,其中缩放因子大于1。
8.如权利要求1所述的用于量化线性预测参数的方法,其中对预测误差向量进行量化包括:
通过二阶段向量量化处理来处理所述预测误差向量。
9.如权利要求8所述的用于量化线性预测参数的方法,进一步包括在向量量化处理的两个阶段中使用分裂向量量化。
10.如权利要求3所述的用于量化线性预测参数的方法,其中:
对预测误差向量进行量化包括通过包括第一和第二阶段的二阶段向量量化处理来处理预测误差向量;
通过二阶段向量量化处理来处理预测误差向量包括将预测误差向量应用于第一阶段的向量量化表,该表对于移动平均和自回归预测来说是相同的。
11.如权利要求8所述的用于量化线性预测参数的方法,其中对预测误差向量进行量化包括:
在二阶段向量量化处理的第一阶段中,对预测误差向量进行量化来生成第一阶段量化预测误差向量;
从所述预测误差向量中除去第一阶段量化预测误差向量来生成第二阶段预测误差向量;
在二阶段向量量化处理的第二阶段中,对第二阶段预测误差向量进行量化来生成第二阶段量化预测误差向量;以及
通过对第一阶段和第二阶段量化预测误差向量求和来生成量化预测误差向量。
12.如权利要求11所述的用于量化线性预测参数的方法,其中对第二阶段预测误差向量进行量化包括:
依赖于声音信号帧的分类,通过移动平均预测量化器或自回归预测量化器来处理第二阶段预测误差向量。
13.如权利要求8所述的用于量化线性预测参数的方法,其中对预测误差向量进行量化包括:
为二阶段向量量化处理的两个阶段生成量化下标;
通过通信信道传送量化下标。
14.如权利要求8所述的用于量化线性预测参数的方法,其中:
将声音信号帧进行分类包括确定声音信号帧是稳定有声帧;并且
计算预测向量包括:
将通过对第一阶段和第二阶段量化预测误差向量求和而生成的(a)量化预测误差向量和(b)所计算的预测向量相加来生成量化输入向量;并且
通过自回归预测来处理该量化输入向量。
15.如权利要求2所述的用于量化线性预测参数的方法,其中:
—多个预测方案包括移动平均预测和自回归预测;
—对预测误差向量进行量化包括:
通过包括第一阶段码簿的二阶段向量量化器来处理预测误差向量,该第一阶段码簿自身依次包括:
在应用移动平均预测时可用的并被置于表的开头的第一组向量;
在应用移动平均或者自回归预测时可用的并被置于表中第一组向量和第三组向量之间的第二组向量;
在应用自回归预测时可用的并被置于表的结尾的第三组向量;
—通过至少一个量化器使用所选择的预测方案来处理预测误差向量包括:
当所选择的预测方案是移动平均预测时,通过表中的第一和第二组向量来处理预测误差向量;和
当所选择的预测方案是自回归预测时,通过第二和第三组向量来处理预测误差向量。
16.如权利要求15所述的用于量化线性预测参数的方法,其中,为了保证与AMR-WB标准的互操作性,第一阶段向量在第一阶段码簿的表中的位置和该第一阶段向量在AMR-WB第一阶段码簿中的原始位置之间的映射通过映射表来进行。
17.如权利要求1所述的用于量化线性预测参数的方法,其中:
将声音信号帧进行分类包括确定声音信号帧是稳定有声帧或非稳定有声帧;以及
对于稳定有声帧,选择与声音信号帧的分类相关的多个预测方案中的一个包括选择自回归预测,根据所选择的预测方案计算预测向量包括通过自回归预测计算预测误差向量,选择与所选择的预测方案相关的多个缩放方案中的至少一个包括选择大于1的缩放因子,以及根据所选择的缩放方案来缩放预测误差向量包括在进行量化之前使用大于1的缩放因子来缩放预测误差向量;
对于非稳定有声帧,选择与声音信号帧的分类相关的多个预测方案中的一个包括选择移动平均预测,根据所选择的预测方案计算预测向量包括通过移动平均预测计算预测误差向量,选择与所选择的预测方案相关的多个缩放方案中的至少一个包括选择等于1的缩放因子,以及根据所选择的缩放方案来缩放预测误差向量包括在进行量化之前使用等于1的缩放因子来缩放预测误差向量。
18.一种用于在可变比特率声音信号解码中解量化线性预测参数的方法,包括:
接收至少一个量化下标;
接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息;
通过将所述至少一个下标应用于至少一个量化表来恢复预测误差向量;
重建预测向量;以及
响应于所恢复的预测误差向量和所重建的预测向量来生成线性预测参数向量;
其中
—重建预测向量包括依赖于帧分类信息通过多个预测方案中的一个来处理所恢复的预测误差向量。
19.如权利要求18所述的用于解量化线性预测参数的方法,其中恢复预测误差向量包括:
使用所述一个预测方案将所述至少一个下标和分类信息应用于至少一个量化表。
20.如权利要求18所述的用于解量化线性预测参数的方法,其中:
接收至少一个量化下标包括接收第一阶段量化下标和第二阶段量化下标;以及
将所述至少一个下标应用于所述至少一个量化表包括将第一阶段量化下标应用于第一阶段量化表来生成第一阶段预测误差向量,以及将第二阶段量化下标应用于第二阶段量化表来生成第二阶段预测误差向量。
21.如权利要求20所述的用于解量化线性预测参数的方法,其中:
多个预测方案包括移动平均预测和自回归预测;
第二阶段量化表包括移动平均预测表和自回归预测表;以及
所述方法进一步包括将声音信号帧分类应用于第二阶段量化表,以便依赖于所接收的帧分类信息通过移动平均预测表或者自回归预测表来处理第二阶段量化下标。
22.如权利要求20所述的用于解量化线性预测参数的方法,其中恢复预测误差向量包括:
对第一阶段预测误差向量和第二阶段预测误差向量求和来生成所恢复的预测误差向量。
23.如权利要求22所述的用于解量化线性预测参数的方法,进一步包括:
对所恢复的预测向量实施作为所接收的帧分类信息的函数的反缩放操作。
24.如权利要求18所述的用于解量化线性预测参数的方法,其中生成线性预测参数向量包括:
将所恢复的预测误差向量和所重建的预测向量相加来生成线性预测参数向量。
25.如权利要求24所述的用于解量化线性预测参数的方法,进一步包括将平均线性预测参数的向量和所恢复的预测误差向量以及所重建的预测向量相加来生成线性预测参数向量。
26.如权利要求18所述的用于解量化线性预测参数的方法,其中:
多个预测方案包括移动平均预测和自回归预测;以及
重建预测向量包括依赖于帧分类信息通过移动平均预测来处理所恢复的预测误差向量或者通过自回归预测来处理所生成的参数向量。
27.如权利要求26所述的用于解量化线性预测参数的方法,其中重建预测向量包括:
当帧分类信息指示声音信号帧是稳定有声的时通过自回归预测来处理所生成的参数向量;以及
当帧分类信息指示声音信号帧不是稳定有声的时通过移动平均预测来处理所恢复的预测误差向量。
28.一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括:
用于接收输入线性预测参数向量的装置;
用于将对应于输入线性预测参数向量的声音信号帧进行分类的装置;
用于计算预测向量的装置;
用于从输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的装置;
用于缩放预测误差向量的装置;
用于量化所缩放的预测误差向量的装置;
其中:
—用于计算预测向量的装置包括用于选择与声音信号帧的分类相关的多个预测方案中的一个的装置,以及用于根据所选择的预测方案来计算预测向量的装置;和
—用于缩放预测误差向量的装置包括用于选择与所选择的预测方案相关的多个缩放方案中的至少一个的装置,以及用于根据所选择的缩放方案来缩放预测误差向量的装置。
29.一种用于在可变比特率声音信号编码中量化线性预测参数的设备,包括:
用于接收输入线性预测参数向量的输入端;
对应于输入线性预测参数向量的声音信号帧的分类器;
预测向量计算器;
用于从输入线性预测参数向量中除去所计算的预测向量来生成预测误差向量的减法器;
被提供预测误差向量的缩放单元,所述单元对预测误差向量进行缩放;以及
所缩放的预测误差向量的量化器;
其中:
—预测向量计算器包括用于选择与声音信号帧的分类相关的多个预测方案中的一个以便根据所选择的预测方案来计算预测向量的选择器;以及
—缩放单元包括用于选择与所选择的预测方案相关的多个缩放方案中的至少一个以便根据所选择的缩放方案来缩放预测误差向量的选择器。
30.如权利要求29所述的用于量化线性预测参数的设备,其中:
量化器被提供预测误差向量,用于通过所选择的预测方案来处理所述预测误差向量。
31.如权利要求29所述的用于量化线性预测参数的设备,其中:
多个预测方案包括移动平均预测和自回归预测。
32.如权利要求29所述的用于量化线性预测参数的设备,进一步包括:
用于生成平均线性预测参数的向量的装置;以及
用于从输入线性预测参数向量中除去平均线性预测参数的向量来生成去除平均的输入线性预测参数向量的减法器。
33.如权利要求29所述的用于量化线性预测参数的设备,其中,当分类器确定声音信号帧是稳定有声帧时,预测向量计算器包括:
用于将自回归预测应用于预测误差向量的自回归预测器。
34.如权利要求29所述的用于量化线性预测参数的设备,其中,当分类器确定声音信号帧不是稳定有声帧时:
预测向量计算器包括用于将移动平均预测应用于预测误差向量的移动平均预测器。
35.如权利要求33所述的用于量化线性预测参数的设备,其中缩放单元包括:
用于将大于1的缩放因子应用于预测误差向量的乘法器。
36.如权利要求29所述的用于量化线性预测参数的设备,其中量化器包括二阶段向量量化器。
37.如权利要求36所述的用于量化线性预测参数的设备,其中二阶段向量量化器包括使用分裂向量量化的两个阶段。
38.如权利要求31所述的用于量化线性预测参数的设备,其中:
量化器包括具有第一和第二阶段的二阶段向量量化器;以及
该二阶段向量量化器包括对于移动平均和自回归预测来说相同的第一阶段量化表。
39.如权利要求36所述的用于量化线性预测参数的设备,其中二阶段向量量化器包括:
被提供预测误差向量以便量化所述预测误差向量并且生成第一阶段量化预测误差向量的第一阶段向量量化器;
用于从预测误差向量中除去第一阶段量化预测误差向量来生成第二阶段预测误差向量的减法器;
被提供第二阶段预测误差向量以便量化所述第二阶段预测误差向量并且生成第二阶段量化预测误差向量的第二阶段向量量化器;以及
用于通过对第一阶段和第二阶段量化预测误差向量求和来生成量化预测误差向量的加法器。
40.如权利要求39所述的用于量化线性预测参数的设备,其中第二阶段向量量化器包括:
用于使用移动平均预测来量化第二阶段预测误差向量的移动平均第二阶段向量量化器;
用于使用自回归预测来量化第二阶段预测误差向量的自回归第二阶段向量量化器。
41.如权利要求36所述的用于量化线性预测参数的设备,其中二阶段向量量化器包括:
用于生成第一阶段量化下标的第一阶段向量量化器;
用于生成第二阶段量化下标的第二阶段向量量化器;以及
通过通信信道传送第一阶段和第二阶段量化下标的传送器。
42.如权利要求39所述的用于量化线性预测参数的设备,其中,当分类器确定声音信号帧是稳定有声帧时,预测向量计算器包括:
用于将通过对第一阶段和第二阶段量化预测误差向量求和而生成的(a)量化预测误差向量和(b)所计算的预测向量相加来生成量化输入向量的加法器;以及
用于处理量化输入向量的自回归预测器。
43.如权利要求30所述的用于量化线性预测参数的设备,其中:
—多个预测方案包括移动平均预测和自回归预测;
—量化器包括:
包括第一阶段码簿的二阶段向量量化器,该第一阶段码簿本身依次包括:
在应用移动平均预测时可用的并被置于表的开头的第一组向量;
在应用移动平均或者自回归预测时可用的并被置于表中第一组向量和第三组向量之间的第二组向量;
在应用自回归预测时可用的并被置于表的结尾的第三组向量;
—预测误差向量处理装置包括:
当所选择的预测方案是移动平均预测时通过表中的第一和第二组向量来处理预测误差向量的装置;
当所选择的预测方案是自回归预测时通过第二和第三组向量来处理预测误差向量的装置。
44.如权利要求43所述的用于量化线性预测参数的设备,为了保证与AMR-WB标准的互操作性,进一步包括映射表,该映射表在第一阶段向量在第一阶段码簿的表中的位置和该第一阶段向量在AMR-WB第一阶段码簿中的原始位置之间建立映射。
45.如权利要求31所述的用于量化线性预测参数的设备,其中:
预测向量计算器包括用于将自回归预测应用于预测误差向量的自回归预测器以及用于将移动平均预测应用于预测误差向量的移动平均预测器;以及
假设移动平均或者自回归预测能够在下一帧中被使用,自回归预测器和移动平均预测器包括在每个声音信号帧进行更新的相应存储器。
46.一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括:
用于接收至少一个量化下标的装置;
用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置;
用于通过将所述至少一个下标应用于至少一个量化表来恢复预测误差向量的装置;
用于重建预测向量的装置;
用于响应于所恢复的预测误差向量和所重建的预测向量来生成线性预测参数向量的装置;
其中:
预测向量重建装置包括用于依赖于帧分类信息通过多个预测方案中的一个来处理所恢复的预测误差向量的装置。
47.一种用于在可变比特率声音信号解码中解量化线性预测参数的设备,包括:
用于接收至少一个量化下标的装置;
用于接收关于对应于所述至少一个量化下标的声音信号帧的分类的信息的装置;
被提供所述至少一个量化下标以便恢复预测误差向量的至少一个量化表;
预测向量重建单元;
响应于所恢复的预测误差向量和所重建的预测向量的线性预测参数向量的生成器;
其中:
预测向量重建单元包括被提供所恢复的预测误差向量以便依赖于帧分类信息通过多个预测方案中的一个来处理所恢复的预测误差向量的至少一个预测器。
48.如权利要求47所述的用于解量化线性预测参数的设备,其中所述至少一个量化表包括:
使用所述一个预测方案并且被提供所述至少一个下标和分类信息的量化表。
49.如权利要求47所述的用于解量化线性预测参数的设备,其中:
量化下标接收装置包括两个用于接收第一阶段量化下标和第二阶段量化下标的输入端;以及
所述至少一个量化表包括被提供第一阶段量化下标以生成第一阶段预测误差向量的第一阶段量化表,以及被提供第二阶段量化下标以生成第二阶段预测误差向量的第二阶段量化表。
50.如权利要求49所述的用于解量化线性预测参数的设备,其中:
多个预测方案包括移动平均预测和自回归预测;
第二阶段量化表包括移动平均预测表和自回归预测表;以及
所述设备进一步包括用于将声音信号帧分类应用于第二阶段量化表以便依赖于所接收的帧分类信息通过移动平均预测表或者自回归预测表来处理第二阶段量化下标的装置。
51.如权利要求49所述的用于解量化线性预测参数的设备,进一步包括:
用于对第一阶段预测误差向量和第二阶段预测误差向量求和来生成恢复的预测误差向量的加法器。
52.如权利要求51所述的用于解量化线性预测参数的设备,进一步包括:
用于对所重建的预测向量实施作为所接收的帧分类信息的函数的反缩放操作的装置。
53.如权利要求47所述的用于解量化线性预测参数的设备,其中线性预测参数向量的生成器包括:
用于将所恢复的预测误差向量和所重建的预测向量相加来生成线性预测参数向量的加法器。
54.如权利要求53所述的用于解量化线性预测参数的设备,进一步包括用于将平均线性预测参数的向量和所恢复的预测误差向量以及所重建的预测向量相加来生成线性预测参数向量的装置。
55.如权利要求47所述的用于解量化线性预测参数的设备,其中:
多个预测方案包括移动平均预测和自回归预测;以及
预测向量重建单元包括移动平均预测器和自回归预测器,用于依赖于帧分类信息通过移动平均预测来处理所恢复的预测误差向量或者通过自回归预测来处理所生成的参数向量。
56.如权利要求55所述的用于解量化线性预测参数的设备,其中预测向量重建单元包括:
用于当帧分类信息指示声音信号帧是稳定有声的时通过自回归预测器来处理所生成的参数向量的装置;以及
用于当帧分类信息指示声音信号帧不是稳定有声的时通过移动平均预测器来处理所恢复的预测误差向量的装置。
57.如权利要求55所述的用于解量化线性预测参数的设备,其中:
所述至少一个预测器包括用于将自回归预测应用于预测误差向量的自回归预测器以及用于将移动平均预测应用于预测误差向量的移动平均预测器;以及
假设移动平均或者自回归预测能够在下一帧中被使用,自回归预测器和移动平均预测器包括在每个声音信号帧进行更新的相应存储器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA002415105A CA2415105A1 (en) | 2002-12-24 | 2002-12-24 | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
CA2,415,105 | 2002-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1739142A true CN1739142A (zh) | 2006-02-22 |
CN100576319C CN100576319C (zh) | 2009-12-30 |
Family
ID=32514130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200380107465A Expired - Lifetime CN100576319C (zh) | 2002-12-24 | 2003-12-18 | 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备 |
Country Status (16)
Country | Link |
---|---|
US (2) | US7149683B2 (zh) |
EP (1) | EP1576585B1 (zh) |
JP (1) | JP4394578B2 (zh) |
KR (1) | KR100712056B1 (zh) |
CN (1) | CN100576319C (zh) |
AT (1) | ATE410771T1 (zh) |
AU (1) | AU2003294528A1 (zh) |
BR (2) | BR0317652A (zh) |
CA (1) | CA2415105A1 (zh) |
DE (1) | DE60324025D1 (zh) |
HK (1) | HK1082587A1 (zh) |
MX (1) | MXPA05006664A (zh) |
MY (1) | MY141174A (zh) |
RU (1) | RU2326450C2 (zh) |
UA (1) | UA83207C2 (zh) |
WO (1) | WO2004059618A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN105811995A (zh) * | 2016-03-04 | 2016-07-27 | 广东工业大学 | 一种减少量化噪声的方法 |
CN108205505A (zh) * | 2016-12-20 | 2018-06-26 | 桑迪士克科技有限责任公司 | 基于误比特率的多通道存储器操作 |
CN108701466A (zh) * | 2016-01-03 | 2018-10-23 | 奥罗技术公司 | 使用预测器模型的信号编码器、解码器和方法 |
CN111179952A (zh) * | 2014-03-07 | 2020-05-19 | 弗劳恩霍夫应用研究促进协会 | 用于信息编码的概念 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
CA2415105A1 (en) * | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
ATE485582T1 (de) | 2005-04-01 | 2010-11-15 | Qualcomm Inc | Verfahren und vorrichtung zur vektorquantisierung einer spektralenvelop-repräsentation |
ES2705589T3 (es) * | 2005-04-22 | 2019-03-26 | Qualcomm Inc | Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia |
US9071344B2 (en) * | 2005-08-22 | 2015-06-30 | Qualcomm Incorporated | Reverse link interference cancellation |
US8611305B2 (en) * | 2005-08-22 | 2013-12-17 | Qualcomm Incorporated | Interference cancellation for wireless communications |
US8630602B2 (en) * | 2005-08-22 | 2014-01-14 | Qualcomm Incorporated | Pilot interference cancellation |
US8594252B2 (en) * | 2005-08-22 | 2013-11-26 | Qualcomm Incorporated | Interference cancellation for wireless communications |
US8743909B2 (en) * | 2008-02-20 | 2014-06-03 | Qualcomm Incorporated | Frame termination |
US7587314B2 (en) * | 2005-08-29 | 2009-09-08 | Nokia Corporation | Single-codebook vector quantization for multiple-rate applications |
KR100717401B1 (ko) * | 2006-03-02 | 2007-05-11 | 삼성전자주식회사 | 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치 |
GB2436191B (en) * | 2006-03-14 | 2008-06-25 | Motorola Inc | Communication Unit, Intergrated Circuit And Method Therefor |
WO2007114290A1 (ja) * | 2006-03-31 | 2007-10-11 | Matsushita Electric Industrial Co., Ltd. | ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法 |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
KR101046982B1 (ko) * | 2006-08-15 | 2011-07-07 | 브로드콤 코포레이션 | 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법 |
DK2535894T3 (en) | 2007-03-02 | 2015-04-13 | Ericsson Telefon Ab L M | Practices and devices in a telecommunications network |
US20080249783A1 (en) * | 2007-04-05 | 2008-10-09 | Texas Instruments Incorporated | Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding |
CN101821800B (zh) * | 2007-10-12 | 2012-09-26 | 松下电器产业株式会社 | 矢量量化装置、矢量反量化装置和其方法 |
CN101335004B (zh) * | 2007-11-02 | 2010-04-21 | 华为技术有限公司 | 一种多级量化的方法及装置 |
US8995417B2 (en) * | 2008-06-09 | 2015-03-31 | Qualcomm Incorporated | Increasing capacity in wireless communication |
US9237515B2 (en) * | 2008-08-01 | 2016-01-12 | Qualcomm Incorporated | Successive detection and cancellation for cell pilot detection |
US9277487B2 (en) | 2008-08-01 | 2016-03-01 | Qualcomm Incorporated | Cell detection with interference cancellation |
JP5188913B2 (ja) * | 2008-09-26 | 2013-04-24 | 株式会社エヌ・ティ・ティ・ドコモ | 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置 |
US20100097955A1 (en) * | 2008-10-16 | 2010-04-22 | Qualcomm Incorporated | Rate determination |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
US8493244B2 (en) * | 2009-02-13 | 2013-07-23 | Panasonic Corporation | Vector quantization device, vector inverse-quantization device, and methods of same |
US9160577B2 (en) | 2009-04-30 | 2015-10-13 | Qualcomm Incorporated | Hybrid SAIC receiver |
US8787509B2 (en) * | 2009-06-04 | 2014-07-22 | Qualcomm Incorporated | Iterative interference cancellation receiver |
US8831149B2 (en) * | 2009-09-03 | 2014-09-09 | Qualcomm Incorporated | Symbol estimation methods and apparatuses |
US8452606B2 (en) | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
WO2011063569A1 (en) | 2009-11-27 | 2011-06-03 | Qualcomm Incorporated | Increasing capacity in wireless communications |
KR101376676B1 (ko) | 2009-11-27 | 2014-03-20 | 퀄컴 인코포레이티드 | 무선 통신들에서의 용량 증가 |
WO2011083849A1 (ja) * | 2010-01-08 | 2011-07-14 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体 |
DE102010010736A1 (de) * | 2010-03-09 | 2011-09-15 | Arnold & Richter Cine Technik Gmbh & Co. Betriebs Kg | Verfahren zur Kompression von Bilddaten |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
GB2486663A (en) * | 2010-12-21 | 2012-06-27 | Sony Comp Entertainment Europe | Audio data generation using parametric description of features of sounds |
KR101863687B1 (ko) | 2011-04-21 | 2018-06-01 | 삼성전자주식회사 | 선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기 |
TWI591621B (zh) | 2011-04-21 | 2017-07-11 | 三星電子股份有限公司 | 線性預測編碼係數的量子化方法、聲音編碼方法、線性預測編碼係數的去量子化方法、聲音解碼方法以及記錄媒體 |
CN103477388A (zh) * | 2011-10-28 | 2013-12-25 | 松下电器产业株式会社 | 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 |
EP3547261B1 (en) | 2012-03-29 | 2023-08-09 | Telefonaktiebolaget LM Ericsson (publ) | Vector quantizer |
CN103928031B (zh) | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
CN104112451B (zh) * | 2013-04-18 | 2017-07-28 | 华为技术有限公司 | 一种选择编码模式的方法及装置 |
CN107316647B (zh) | 2013-07-04 | 2021-02-09 | 超清编解码有限公司 | 频域包络的矢量量化方法和装置 |
BR112016010273B1 (pt) * | 2013-11-07 | 2022-05-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina |
US11343301B2 (en) * | 2017-11-30 | 2022-05-24 | Goto Group, Inc. | Managing jitter buffer length for improved audio quality |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0286231A (ja) * | 1988-09-21 | 1990-03-27 | Matsushita Electric Ind Co Ltd | 音声予測符号化装置 |
JP3254696B2 (ja) * | 1991-09-25 | 2002-02-12 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置および音源生成方法 |
US5614996A (en) * | 1994-03-03 | 1997-03-25 | Kyocera Corporation | Toner storage unit, residual toner collect unit, toner container with these units and image forming apparatus with such toner container |
US5848384A (en) * | 1994-08-18 | 1998-12-08 | British Telecommunications Public Limited Company | Analysis of audio quality using speech recognition and synthesis |
JPH0863198A (ja) * | 1994-08-22 | 1996-03-08 | Nec Corp | ベクトル量子化器 |
KR100322706B1 (ko) * | 1995-09-25 | 2002-06-20 | 윤종용 | 선형예측부호화계수의부호화및복호화방법 |
US5774839A (en) * | 1995-09-29 | 1998-06-30 | Rockwell International Corporation | Delayed decision switched prediction multi-stage LSF vector quantization |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
JP3067676B2 (ja) * | 1997-02-13 | 2000-07-17 | 日本電気株式会社 | Lspの予測符号化装置及び方法 |
US6064954A (en) * | 1997-04-03 | 2000-05-16 | International Business Machines Corp. | Digital audio signal coding |
TW408298B (en) * | 1997-08-28 | 2000-10-11 | Texas Instruments Inc | Improved method for switched-predictive quantization |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
FI973873A (fi) * | 1997-10-02 | 1999-04-03 | Nokia Mobile Phones Ltd | Puhekoodaus |
KR100651438B1 (ko) * | 1997-10-22 | 2006-11-28 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치, celp 음성 부호화 방법, 대수적 구조 음원의 직교화 탐색 방법 |
DE69735262D1 (de) * | 1997-11-24 | 2006-04-20 | St Microelectronics Srl | MPEG-2 Dekodierung mit reduziertem Speicherbedarf durch Rekomprimierung mit adaptiver baumstrukturierter Vektorquantisierung |
US6141640A (en) * | 1998-02-20 | 2000-10-31 | General Electric Company | Multistage positive product vector quantization for line spectral frequencies in low rate speech coding |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
JP3578933B2 (ja) * | 1999-02-17 | 2004-10-20 | 日本電信電話株式会社 | 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 |
JP2000305597A (ja) * | 1999-03-12 | 2000-11-02 | Texas Instr Inc <Ti> | 音声圧縮のコード化 |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6505222B1 (en) * | 1999-10-29 | 2003-01-07 | International Business Machines Corporation | Systems methods and computer program products for controlling undesirable bias in an equalizer |
KR100324204B1 (ko) * | 1999-12-24 | 2002-02-16 | 오길록 | 예측분할벡터양자화 및 예측분할행렬양자화 방식에 의한선스펙트럼쌍 양자화기의 고속탐색방법 |
US7010482B2 (en) * | 2000-03-17 | 2006-03-07 | The Regents Of The University Of California | REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding |
US6785805B1 (en) * | 2000-08-08 | 2004-08-31 | Vi Technology, Inc. | Network-based configuration method for systems integration in test, measurement, and automation environments |
JP3916934B2 (ja) * | 2000-11-27 | 2007-05-23 | 日本電信電話株式会社 | 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置 |
EP1860650A1 (en) * | 2000-11-30 | 2007-11-28 | Matsushita Electric Industrial Co., Ltd. | Vector quantizing device for LPC parameters |
KR20020075592A (ko) * | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
US7042841B2 (en) | 2001-07-16 | 2006-05-09 | International Business Machines Corporation | Controlling network congestion using a biased packet discard policy for congestion control and encoded session packets: methods, systems, and program products |
US6885988B2 (en) * | 2001-08-17 | 2005-04-26 | Broadcom Corporation | Bit error concealment methods for speech coding |
CA2415105A1 (en) * | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
-
2002
- 2002-12-24 CA CA002415105A patent/CA2415105A1/en not_active Abandoned
-
2003
- 2003-12-18 WO PCT/CA2003/001985 patent/WO2004059618A1/en active Application Filing
- 2003-12-18 AU AU2003294528A patent/AU2003294528A1/en not_active Abandoned
- 2003-12-18 CN CN200380107465A patent/CN100576319C/zh not_active Expired - Lifetime
- 2003-12-18 JP JP2004562408A patent/JP4394578B2/ja not_active Expired - Lifetime
- 2003-12-18 AT AT03785421T patent/ATE410771T1/de active
- 2003-12-18 BR BR0317652-5A patent/BR0317652A/pt active IP Right Grant
- 2003-12-18 KR KR1020057011861A patent/KR100712056B1/ko active IP Right Grant
- 2003-12-18 MX MXPA05006664A patent/MXPA05006664A/es active IP Right Grant
- 2003-12-18 DE DE60324025T patent/DE60324025D1/de not_active Expired - Lifetime
- 2003-12-18 UA UAA200505920A patent/UA83207C2/ru unknown
- 2003-12-18 RU RU2005123381/09A patent/RU2326450C2/ru active
- 2003-12-18 BR BRPI0317652-5A patent/BRPI0317652B1/pt unknown
- 2003-12-18 EP EP03785421A patent/EP1576585B1/en not_active Expired - Lifetime
- 2003-12-23 MY MYPI20034968A patent/MY141174A/en unknown
-
2005
- 2005-01-19 US US11/039,659 patent/US7149683B2/en not_active Expired - Lifetime
-
2006
- 2006-03-18 HK HK06103461.8A patent/HK1082587A1/xx not_active IP Right Cessation
- 2006-11-22 US US11/604,188 patent/US7502734B2/en not_active Expired - Lifetime
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483922A (zh) * | 2009-06-29 | 2012-05-30 | 三星电子株式会社 | 使用加权线性预测变换对音频信号进行编码和解码的设备和方法 |
CN111179952A (zh) * | 2014-03-07 | 2020-05-19 | 弗劳恩霍夫应用研究促进协会 | 用于信息编码的概念 |
US11640827B2 (en) | 2014-03-07 | 2023-05-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding of information |
CN111179952B (zh) * | 2014-03-07 | 2023-07-18 | 弗劳恩霍夫应用研究促进协会 | 用于信息编码的概念 |
CN108701466A (zh) * | 2016-01-03 | 2018-10-23 | 奥罗技术公司 | 使用预测器模型的信号编码器、解码器和方法 |
CN108701466B (zh) * | 2016-01-03 | 2023-05-02 | 奥罗技术公司 | 使用预测器模型的信号编码器、解码器和方法 |
CN105811995A (zh) * | 2016-03-04 | 2016-07-27 | 广东工业大学 | 一种减少量化噪声的方法 |
CN108205505A (zh) * | 2016-12-20 | 2018-06-26 | 桑迪士克科技有限责任公司 | 基于误比特率的多通道存储器操作 |
CN108205505B (zh) * | 2016-12-20 | 2020-11-03 | 桑迪士克科技有限责任公司 | 基于误比特率的多通道存储器操作 |
Also Published As
Publication number | Publication date |
---|---|
MXPA05006664A (es) | 2005-08-16 |
US7502734B2 (en) | 2009-03-10 |
US20070112564A1 (en) | 2007-05-17 |
EP1576585B1 (en) | 2008-10-08 |
RU2326450C2 (ru) | 2008-06-10 |
CN100576319C (zh) | 2009-12-30 |
EP1576585A1 (en) | 2005-09-21 |
KR100712056B1 (ko) | 2007-05-02 |
MY141174A (en) | 2010-03-31 |
AU2003294528A1 (en) | 2004-07-22 |
BR0317652A (pt) | 2005-12-06 |
JP4394578B2 (ja) | 2010-01-06 |
US7149683B2 (en) | 2006-12-12 |
ATE410771T1 (de) | 2008-10-15 |
DE60324025D1 (de) | 2008-11-20 |
HK1082587A1 (en) | 2006-06-09 |
BRPI0317652B1 (pt) | 2018-05-22 |
KR20050089071A (ko) | 2005-09-07 |
US20050261897A1 (en) | 2005-11-24 |
UA83207C2 (ru) | 2008-06-25 |
WO2004059618A1 (en) | 2004-07-15 |
RU2005123381A (ru) | 2006-01-20 |
CA2415105A1 (en) | 2004-06-24 |
JP2006510947A (ja) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1739142A (zh) | 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备 | |
RU2509379C2 (ru) | Устройство и способ квантования и обратного квантования lpc-фильтров в суперкадре | |
JP5658307B2 (ja) | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 | |
JP5456310B2 (ja) | ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更 | |
CN1154086C (zh) | Celp转发 | |
CN1135721C (zh) | 音频信号编码方法及其有关设备 | |
CN1241170C (zh) | 语音编解码器中用于线频谱频率矢量量化的方法和系统 | |
CN1220972C (zh) | 解码装置及编码装置与解码方法及编码方法 | |
JP5596800B2 (ja) | 符号化方法、周期性特徴量決定方法、周期性特徴量決定装置、プログラム | |
EP3125241B1 (en) | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization | |
CN1922658A (zh) | 音频信号的分类 | |
CN109147827B (zh) | 编码方法、编码装置以及记录介质 | |
CN1942928A (zh) | 音频信号编码 | |
KR102400540B1 (ko) | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 | |
JPWO2007114290A1 (ja) | ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法 | |
US6611797B1 (en) | Speech coding/decoding method and apparatus | |
JP5694751B2 (ja) | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 | |
JPH08272395A (ja) | 音声符号化装置 | |
CN1132157C (zh) | 线性预测分析合成的编码方法和编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160112 Address after: Espoo, Finland Patentee after: NOKIA TECHNOLOGIES OY Address before: Espoo, Finland Patentee before: NOKIA Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20091230 |
|
CX01 | Expiry of patent term |