CN103081007A - 量化装置及量化方法 - Google Patents
量化装置及量化方法 Download PDFInfo
- Publication number
- CN103081007A CN103081007A CN2011800423091A CN201180042309A CN103081007A CN 103081007 A CN103081007 A CN 103081007A CN 2011800423091 A CN2011800423091 A CN 2011800423091A CN 201180042309 A CN201180042309 A CN 201180042309A CN 103081007 A CN103081007 A CN 103081007A
- Authority
- CN
- China
- Prior art keywords
- candidate
- vector
- quantization
- distortion
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/94—Vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0006—Tree or treillis structures; Delayed decisions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Abstract
提供以较少的计算量减小编码失真,并获得充分的编码性能的量化装置及量化方法。多级矢量量化单元(102)在第1级矢量量化单元(201-1)中设为预先指定的候选数N,在第2级以后的矢量量化单元(201-2~201-J)中,每前进一级,将候选数逐次减1,当候选数减到3以下时,每次都评估量化失真,若量化失真大于规定的阈值,则将下一级的候选数设为预定的数值P,若量化失真为规定的阈值以下,则将下一级的候选数设为比预定的P小的数值Q。
Description
技术领域
本发明涉及使用树搜索(tree search)进行量化的量化装置及量化方法。
背景技术
在移动通信中,为了有效利用传输频带,必须进行语音及图像的数字信息的压缩编码。其中,对移动电话广泛利用的语音编解码(编码/解码)技术的期待很高,相对于压缩率高的以往的高效率编码,要求更好的音质。另外,为了便于公众利用而必须实施标准化,在世界性地积极进行研究开发。
近年来,ITU-T(International Telecommunication Union TelecommunicationStandardization Sector,国际电信联盟远程通信标准化组织)及MPEG(MovingPicture Expert Group,动态图像专家组)正在研究不管对于语音还是音乐都能够进行编码的编解码器的标准化,正寻求更高效率且高质量的语音编解码。
通过20年前建立的对语音的发声机构进行建模并巧妙地应用矢量量化的基本方式即CELP(Code Excited Linear Prediction,码激励线性预测),语音编码技术大幅提高了性能。国际规格中,在ITU-T标准G.729、G.722.2、ETSI标准AMR、AMR-WB、3GPP2标准VMR-WB等多个标准方式中采用了CELP。
上述CELP的主要技术是能够以低比特率对声谱的轮廓进行编码的LPC(Linear Prediction Coding,线性预测编码)分析、以及通过LPC分析获得的参数的量化。尤其,近年的大部分标准方式中使用的是基于线谱的量化。其代表是LSP(Line Spectral Pair,线谱对)和对其改良后的ISP(ImmittanceSpectral Pair,导抗谱对),两者因插值性好,因此与矢量量化(以下称作“VQ(Vector Quantization)”)的兼容性都较高。通过将它们用于编码,能够以低比特率传输频谱信息。由此,以CELP为基本的编解码的性能显著提高。
最近,为了应对高效率且高质量的语音编解码的需求,在ITU-T、MPEG、3GPP等中正逐渐标准化对宽带信号(16kbps)、超宽带信号(32kbps)进行编码的编解码。在为了对宽带、超宽带的数字信号进行编码而使用LPC系数时,必须以较多的比特数对16阶以上的多阶数的LSP或ISP进行编码。因此,一般使用将编码对象(目标矢量)分割成多个并将其分别矢量量化的“分割VQ”,但无法进行矢量的元素间的统计性的相关,因此编码性能降低。
因此,作为进一步获得编码性能的方法,使用多级量化(Multiple stagequantization)。多级量化是指:不分割目标矢量,而是使用多个小的矢量量化连续地进行量化以逐渐减小误差。即,多级量化是将前级的量化的误差矢量在下一级进行量化的方法。如果只使用在前级误差最小的量化结果,则能够使计算量非常小。但是,如果只将误差最小的量化结果作为候选来进行多级量化,则综合性的编码失真不是充分小,量化性能差。
因此,考虑使用从误差最小的候选起,保留前几个误差小的量化结果的候选的树搜索。由此,能够在一定程度上以较少的计算量获得高编码性能。尤其,在分配比特数多的情况下,为了将计算量抑制得较少,须增加级数,而在多级数的多级量化中,若不使用树搜索,将无法获得充分的量化性能。
专利文献1中公开了以多级量化CELP的激励矢量的方法。另外,已广泛知晓的是,在级数多时,通过使用树搜索,能够实现高效率的搜索。在各级中将保留的候选(误差小的量化结果)的数量设为N来进行搜索的方法被称作“N-best搜索(N best search)”,作为高效率的多级的搜索方法已为人所知。
另外,专利文献2中公开了不使用矢量量化而利用N-best搜索来进行搜索的例子。
现有技术文献
专利文献
[专利文献1]日本特开2003-8446号公报
[专利文献2]日本特开2000-261321号公报
发明内容
发明要解决的问题
但是,使用上述N>1的N-best搜索的多级矢量量化虽然能够使最终的编码失真小于将各级的候选锁定为一个(N=1)的做法,但计算量增加至N倍。相反,若将N的数量抑制得较少,则又会导致编码失真变大。
这样,在以往的使用N-best搜索的多级矢量量化中,并未致力于以更少的计算量来减小编码失真,无法获得充分的编码性能。
本发明的目的在于,提供以少的计算量减小编码失真,获得充分的编码性能的量化装置及量化方法。
解决问题的方案
本发明的量化装置使用树搜索进行多级量化,该量化装置采用的结构包括:搜索单元,进行作为编码对象的一个以上的每个目标与存储在码本中的码矢量之间的匹配,并从量化失真最小的候选起,求一个以上的、在前级中确定的或者预先设定的候选数的候选;计算单元,对于所述候选,从所述目标减去所述码矢量,计算量化误差矢量;以及候选数确定单元,基于在所述前级确定的候选数,确定在下一级使用的候选数。
本发明的量化方法使用树搜索进行多级量化,该方法包括以下步骤:进行作为编码对象的一个以上的每个目标与存储在码本中的码矢量之间的匹配,并在第1级,从量化失真最小的候选起,求一个以上的、预先指定的候选数的候选,在第2级以后,从量化失真最小的候选起,求一个以上的、在前级确定的候选数的候选;对于所述候选,从所述目标减去所述码矢量,计算量化误差矢量;以及基于在所述前级确定的候选数,确定在下一级使用的候选数。
发明的效果
根据本发明,能够以少的计算量减小编码失真,获得充分的编码性能。
附图说明
图1是表示本发明实施方式1的CELP编码装置的结构的方块图。
图2是表示图1所示的多级矢量量化单元的内部结构的方块图。
图3是表示图2所示的矢量量化单元的内部结构的方块图。
图4是表示图3所示的候选数确定单元中的候选数确定程序的流程图。
图5是表示本发明实施方式2的候选数确定单元中的候选数确定程序的流程图。
标号说明
101LPC分析单元
102多级矢量量化单元
103自适应码本
104固定码本
105增益码本
106、107乘法器
108、110加法器
109LPC合成滤波器
111听觉加权单元
112失真最小化单元
201-1~201-J矢量量化单元
202码确定单元
301失真计算及码本搜索单元
302码本
303候选数确定单元
304暂定目标计算单元
具体实施方式
以下,参照附图详细地说明本发明的实施方式。
(实施方式1)
图1是表示本发明实施方式1的CELP编码装置100的结构的方块图。该CELP编码装置100在包含声道信息及激励源信息的语音信号S11中,对于声道信息,通过求LPC参数(线性预测系数)来进行编码。另外,CELP编码装置100对于激励源信息,通过求指定使用预先存储的哪个语音模型的码数据、即指定以自适应码本103及固定码本104生成何种激励矢量(码矢量)的码数据,从而对激励源信息进行编码。
具体而言,CELP编码装置100的各单元进行以下的动作。
LPC分析单元101对语音信号S11实施线性预测分析,求作为频谱包络信息的LPC参数,并输出至多级矢量量化单元102及听觉加权单元111。
多级矢量量化单元102对由LPC分析单元101获得的LPC参数进行多级矢量量化,将获得的量化LPC参数输出至LPC合成滤波器109,将量化LPC参数的码数据输出至CELP编码装置100的外部。
另一方面,自适应码本103存储有由LPC合成滤波器109使用的先前的激励源,按照与由失真最小化单元112指示的码数据对应的自适应码本延迟(lag),由存储的激励源生成1子帧量的激励矢量。该激励矢量作为自适应码本矢量被输出至乘法器106。
固定码本104预先存储有多个规定形状的激励矢量,将与由失真最小化单元112指示的码数据对应的激励矢量作为固定码本矢量输出至乘法器107。这里,固定码本104为代数码本,对于使用了由两种个数的脉冲构成的代数码本时的结构,说明通过加法进行加权的情况。
代数激励源是指多数标准编解码中采用的激励源,是设立了仅以位置与极性(+/-)为信息的、大小为1的少量脉冲的激励源。例如在ARIB规格书“RCR STD-27K”的5.3节“CS-ACELP”中的5.3.1.9章、5.4节的“ACELP”中的5.4.3.7章等中已有公开。
此外,上述自适应码本103是为了表现如浊音般周期性强的分量而使用。另一方面,固定码本104是为了表现如白噪声般周期性弱的分量而使用。
增益码本105根据来自失真最小化单元112的指示,生成用于从自适应码本103输出的自适应码本矢量的增益(自适应码本增益)及用于从固定码本104输出的固定码本矢量的增益(固定码本增益),并分别输出至乘法器106、107。
乘法器106将从增益码本105输出的自适应码本增益乘以从自适应码本103输出的自适应码本矢量,并输出至加法器108。
乘法器107将从增益码本105输出的固定码本增益乘以从固定码本104输出的固定码本矢量,并输出至加法器108。
加法器108将从乘法器106输出的自适应码本矢量与从乘法器107输出的固定码本矢量相加,并将相加后的激励矢量作为激励源输出至LPC合成滤波器109。
LPC合成滤波器109将从多级矢量量化单元102输出的量化LPC参数设为滤波器系数,并使用将由自适应码本103及固定码本104生成的激励矢量设为激励源的滤波器函数即LPC合成滤波器,生成合成信号。该合成信号被输出至加法器110。
加法器110通过从语音信号S11中减去由LPC合成滤波器109生成的合成信号而计算误差信号,并将该误差信号输出至听觉加权单元111。此外,该误差信号相当于编码失真。
听觉加权单元111对从加法器110输出的编码失真实施听觉加权,并输出至失真最小化单元112。
失真最小化单元112对每个子帧求使从听觉加权单元111输出的编码失真为最小的自适应码本103、固定码本104及增益码本105的各索引,并将这些索引作为码数据输出至CELP编码装置100的外部。更详细而言,基于上述自适应码本103及固定码本104生成合成信号并求该信号的编码失真的一连串处理为闭环控制(反馈控制),失真最小化单元112通过在1子帧内使对各码本指示的码数据进行各种变化来搜索各码本,并输出最终获得的、使编码失真为最小的各码本的码数据。
此外,编码失真成为最小时的激励源在每个子帧被反馈给自适应码本103。自适应码本103根据该反馈更新所存储的激励源。
这里,说明固定码本104的搜索方法。首先,通过搜索使以下的式(1)的编码失真最小的激励矢量,进行激励矢量的搜索与码数据的导出。
E=|x-(pHa+qHs)|2 ......(1)
E:编码失真,x:编码目标,p:自适应码本矢量的增益,H:听觉加权合成滤波器,a:自适应码本矢量,q:固定码本矢量的增益,s:固定码本矢量
一般而言,以开环(以各自的环)搜索自适应码本矢量与固定码本矢量,因此通过搜索使以下的式(2)的编码失真为最小的固定码本矢量,进行固定码本104的码的导出。
y=x-pHa
E=|y-qHs|2 ......(2)
E:编码失真,x:编码目标(听觉加权语音信号),p:自适应码本矢量的最优增益,H:听觉加权合成滤波器,a:自适应码本矢量,q:固定码本矢量的增益,s:固定码本矢量,y:固定码本搜索的目标矢量
这里,在搜索激励源的码之后确定增益p、q,因此,这里假设以最优增益进行搜索。于是,上述式(2)可写成以下的式(3)。
并且,可知使该失真的算式最小化等价于使以下的式(4)的函数C最大化。
因而,在搜索如代数码本的激励源般由少量脉冲构成的激励源的情况下,只要预先计算yH和HH,便能够以较少的计算量计算上述函数C。
图2是表示图1所示的多级矢量量化单元102的内部结构的方块图。本实施方式中,作为频谱参数(LPC参数)的量化方法,使用多级矢量量化(多级VQ)。多级VQ是指连续进行多个级的VQ,是将前级的量化失真在下一级进行量化的方法。这里,设想量化比特数相对较多且级数也相对较多的6~10级以上的情况,说明多级矢量量化单元102的内部结构。
矢量量化单元201-1对由LPC分析单元101获得的LPC参数、即编码对象(目标矢量)进行量化。具体而言,进行如下的矢量量化:计算与存储在码本中的码矢量之间的距离(量化失真)并求距离最小者的号码。在树搜索中,求从距离(量化失真)最小候选起的数个候选的号码。矢量量化单元201-1求暂定目标矢量、码候选(树搜索中为号码的串(候选号码串))及候选数作为量化失真,将求得的暂定目标矢量、码候选及候选数输出至矢量量化单元201-2,并将码候选还输出至码确定单元202。
矢量量化单元201-2对于从矢量量化单元201-1输出的暂定目标矢量(在树搜索中有时存在多个),进行与矢量量化单元201-1同样的量化,将暂定目标矢量、码候选(候选号码串)及候选数输出至矢量量化单元201-3,并将码候选还输出至码确定单元202。
矢量量化单元201-3~201-J分别进行与矢量量化单元201-1同样的量化,矢量量化单元203-J将暂定目标矢量、码候选(候选号码串)及候选数输出至码确定单元202。
码确定单元202将从矢量量化单元201-1~201-J输出的候选号码串中的、量化失真最少的候选号码串的号码合并为一个数据串,并作为码数据而传送到CELP编码装置100的外部。另外,如果从多级矢量量化单元102的输入即目标矢量中减去最终的失真,则成为使用码数据进行解码的结果可获得的解码矢量。从该解码矢量,求LPC合成滤波器109中使用的量化LPC参数,并传送到LPC合成滤波器109。
图3是表示图2所示的矢量量化单元201-j(1≤j≤J)的内部结构的方框图。以下,使用图3说明矢量量化单元201-j(1≤j≤J)的内部结构。
矢量量化单元201-j输入三个信号。一是候选数j,它是在量化单元201-j中作为候选而保留并输出至下一级矢量量化单元201-(j+1)的、候选号码串及暂定目标矢量的数量。其次是目标矢量或暂定目标矢量(以下,有时将它们统称为“暂定目标矢量”)j,它是最初的编码对象(目标矢量)或者是在级的中途由前一矢量量化单元201-(j-1)获得的作为编码失真矢量的暂定目标矢量。最后是候选号码串j,它是直至矢量量化单元201-j为止失真最少的各矢量量化单元的号码串。再有,目标矢量虽为一个,但暂定目标矢量j与候选号码串j有时存在多个。
这里,将候选数j设为K,将候选数j-1设为M。此外,矢量量化单元201-1中,由于目标矢量为一个,因此M=1。另外,在最后级的矢量量化单元201-J中,只要求出一个候选号码串即可,因此K=1即可。须注意的是,M是指输入的目标矢量与候选号码串j的数量,K是指输出至下一级矢量量化单元201-(j+1)的候选数。
失真计算及码本搜索单元301将M个暂定目标矢量全部与存储在码本302中的所有码矢量进行匹配(一般是利用欧氏距离(作为矢量的每个要素取差值并求出平方和)的距离计算),从距离(量化失真)最小的起搜索K个候选,并求它们的码号码。此时,原来的号码串也被确定。然后,参照候选号码串j,将候选的码号码连接到初始的号码串计算K个候选号码串j+1,并输出至下一级矢量量化单元201-(j+1)。另外,将候选数j、候选的码号码的码矢量、量化对象的目标矢量输出至暂定目标计算单元304。另外,从候选数j与编码失真中将一个值输出至候选数确定单元303。
此外,当该矢量量化单元201-j为最前级的矢量量化单元201-1时,已在矢量量化单元201-1的内部预先设定候选数j及候选号码列j,仅输入目标矢量。另外,当该矢量量化单元201-j为最后级的矢量量化单元201-J时,候选数为1,只将距离(量化失真)成为最小的号码连接到与目标矢量对应的候选号码串而输出至码确定单元202作为候选号码串j+1,而不使候选数确定单元303及暂定目标计算单元304动作。
下面示出失真计算及码本搜索单元301的具体处理例。设j=4、M=4、K=3、矢量长为L,目标(这里为暂定目标矢量)为xi 0、xi 1、xi 2、xi 3,候选号码串为j=4,因此,设为至此之前存在使用了大小为64(6比特)的码本的三级矢量量化单元,假设(5,12,31)(5,12,48)(31,11,57)(31,3,18)的四个串。这四个候选串各自与上述四个暂定目标矢量存在一对一的关系。码矢量设为Ci m。m设为码矢量的号码。量化失真En,m由以下的式(5)表示。
然后,求从该量化失真En,m成为最小的码号码起排在前三位的码号码。假设求出的结果,前三位码号码为(1)暂定目标矢量为0时的码号码35、(2)暂定目标矢量为0时的码号码8、(3)暂定目标矢量为3时的码号码52。若参照上述候选号码串并在最后加上上述码号码,则作为候选号码串j+1,接下来送出的三个号码串为(5,12,31,35)、(5,12,31,8)、(31,3,18,52)。而且,将(xi 0,Ci 35)、(xi 0,Ci 8)、(xi 3,Ci 52)这三组暂定目标矢量与码矢量输出至暂定目标计算单元304。而且,将候选数3以及前三位中的一个距离(量化失真)输出至候选数确定单元303。此外,本实施方式中,可以输出三个距离中的任一个。这是因为,无论输出哪个,在性能上都不会存在大的差异。
候选数确定单元303参照从失真计算及码本搜索单元301输出的候选数j和距离(量化失真),确定在下一级矢量量化单元201-(j+1)中使用的候选数j+1,并输出至矢量量化单元201-(j+1)。
暂定目标计算单元304参照从失真计算及码本搜索单元301输出的目标与码矢量的组,从目标矢量中减去码矢量而计算K个暂定目标矢量j+1。上述具体例中,(xi 0-Ci 35)、(xi 0-Ci 8)、(xi 3-Ci 52)三个矢量为暂定目标矢量j+1。
接下来,对于上述候选数确定单元303,将算法的效果包括在内进行详细说明。首先,在树搜索VQ中使用的N-best搜索中,在级数多时,计算量与候选数N成正比地增加至N倍,相反,若减小N,则量化性能变差。因此,本发明人反复进行使用树搜索的多级VQ的仿真实验,进行树搜索的性能分析,提取出以下的四个倾向。
即,(1)N-best搜索中的候选数N即使在每级中增加或不变,也无法获得与计算量相应程度的性能。只在多级量化中的最初的级中,保留多个候选对量化性能有效。(2)如果在前进一级时急遽减少搜索的候选数,则量化性能大幅下降。(3)N=2与N=1存在极大的差异,在级数多的情况下,N=2就可获得大致充分的量化性能。(4)在前进多个级数后编码失真未变小时,最终的异常值(量化误差达到某值以上的比例)恶化的可能性增加。
鉴于上述倾向,本发明人提出通过组合以下的三个算法实现的树搜索。即,包括以下的程序。(程序1)第1级保留预先指定的候选数N而进至下一级。(程序2)从第2级开始,每当前进一级时,将候选数逐次减1如N-1、N-2。(程序3)在候选数达到预定的值P以下时,每次都评估量化失真,若大于规定阈值,则将下一级的候选数设为P,若为阈值以下,则将下一级的候选数设为比预先设定的P小的值Q。在以下的说明中,作为P和Q的例子,设P=3、Q=2来进行说明。此外,在计算量存在余裕时,该数值也可为更大的数值。此时,能够进一步减小编码失真。
适用这样的算法的是候选数确定单元303,其结果,通过最初使候选加多而每当前进一级时逐次减1(即(程序2)),从而能够在最初的部分选择准确的候选,另外,不会使量化性能恶化而能够尽可能快地得出最小限度的候选数,而且,能够以少的计算量获得充分的量化性能。另外,在候选数减到3(=P)以下时,每次都评估量化失真,若量化失真大,则将候选数增加到3(=P),若量化失真充分小,则将候选数减小至2(=Q)(即(程序3)),由此,能够控制成以最低限度的计算量得出充分小的编码失真,从而能够以较少的计算量获得充分的量化性能。
接下来,使用图4说明候选数确定单元303中的候选数确定程序。在以下的说明中,以KK表示候选数j+1。输入到候选数确定单元303的是从失真计算及码本搜索单元301获得的候选数j(K)、距离(量化失真)。假设级数J由候选数确定单元303掌握。另外,设为在开始本量化之前预定K的初始值和距离的基准值。此外,在图4中,作为距离的基准值,例如设为50000,但也可能存在其他值更为适当的情况。只要根据矢量的维数或要素的值的大小等确定适当的值即可。
首先,步骤(以下缩写作“ST”)401中,判定级号码是否为j=1,即,判定是否为矢量量化单元201-1,若级号码j=1(“是”),则转移至ST402,若非级号码j=1(“否”),则转移至ST405。
ST402中,将候选数K(此时为K的初始值)作为输入,判定总级数是否大于7,若总级数大于7,则转移至ST403,若总级数并非大于7,则转移至ST404。此外,对于该数值“7”,当然根据条件的不同,也可能存在其他值更为适当的情况。只要根据总级数或候选数的初始值等来预先确定适当的值即可。
ST403中,设KK=K-1,另外,ST404中,设KK=K。
ST405中,在ST401中判定为级号码并非j=1(并非矢量量化单元201-1),因此设KK=K-1,ST406中,判定级号码是否为j=4以上且距离(量化失真)是否超过基准值,若满足该条件(“是”),则转移至ST407,若不满足该条件(“否”),则转移至ST409。此外,这里,设定为级号码j=4以上,但也可能存在其他值更为适当的情况。
ST407中,判定为KK是否小于3(=P),若KK小于3(=P)(“是”),则转移至ST408,设KK=3,若KK并非小于3(=P)(“否”),则转移至ST411。
另外,ST409中,判定KK是否小于2(=Q),若KK小于2(=Q)(“是”),则转移至ST410,设KK=2,若KK并非小于2(=Q)(“否”),则转移至ST411。
这样,在ST406~ST410中,若在量化进行到某个程度的阶段中距离(量化失真)已充分小,则将候选数设定为小,若距离还大,则进一步加大候选数,以获得进一步减小综合的量化失真的效果。此算法是在确保最低候选数“2”(=Q)的同时使用候选数“3”(=P),从而进一步减小综合的量化失真的算法。在本发明人的量化实验中已确认:通过该距离的判定,能够降低异常值(量化失真达到某个大值以上的比例)。
ST411中,判定级号码是否j=J,即,判定是否为最终级,若级号码j=J(“是”),则转移至ST412,若非级号码j=J(“否”),则结束该级中的候选数确定程序。
ST412中,设定为KK=1,结束最终级中的候选数确定处理。
这里,为了展示本发明的有效性,示出适用于CELP的ISF量化的量化实验。编码器以CELP为基本,比特率为约24kbps,所用的数据为宽频的40个日语样本。量化的是ISF(Immittance Spectral Frequency,导抗谱频率)的16维的矢量。作为基准的多级VQ为以N为基础的树搜索,有六级以上的级数。本发明同样将N设为初始的候选数。将量化实验结果示于以下的表1。
[表1]
MAXwMOPS | S/N | S/Nseg | SD | 异常值>2dB | |
基准 | 45.389 | 14.51 | 13.00 | 1.1604 | 2.76% |
本发明 | 43.718 | 14.49 | 13.00 | 1.1706 | 2.97% |
由上述表1可知的是,能够将最大帧的计算量削减约1.7wMOPS(weighted Mega Operation Per Second,每秒加权百万次操作数),能够大幅削减计算量。另外,可知S/N比(Signal/Noise ratio,信噪比)几乎不改变,在客观值上,合成音几乎不发生劣化。即使以SD(Spectral Distance,频谱距离)比较ISF的失真,也只有0.01dB的轻微恶化,对于观察2dB以上的比例的异常值而言,劣化仅为0.2%。这是每500帧1次的比例,表示几乎不劣化。并且,本发明中增加的处理只是候选数的确定,其计算量微不足道,因此对算法整体造成的影响也小。
这样,根据实施方式1,在使用树搜索的多级VQ中,第1级采用预先指定的候选数N,在第2级以后,每前进一级时将候选数逐次减1,当候选数减到3以下时,每次都评估量化失真,若大于规定阈值,则将下一级的候选数设为3(=P),若为阈值以下,则将下一级的候选数设为2(=Q)。由此,能够在最初的部分选择准确的候选,另外,不使量化性能劣化而能够尽可能快地得出最小限度的候选数,而且,能够以较少的计算量获得充分的量化性能。另外,能够控制成以最低限度的计算量得出充分小的编码失真。
(实施方式2)
本发明实施方式2的CELP编码装置的结构与实施方式1的图1所示的结构相同,仅有矢量量化单元201-j的候选数确定单元303的功能不同,因此根据需要引用图1~图3进行说明。
图5是表示本发明实施方式2的候选数确定单元303中的候选数确定程序的流程图。以下,使用图5说明候选数确定程序。另外,在图5中,对于与图4共同的部分附加与图4相同的标号,省略重复的说明。
另外,在以下的说明中,采用与实施方式1的图4相同的条件。即,以KK表示候选数j+1。输入到候选数确定单元303的是从失真计算及码本搜索单元301获得的候选数j(K)、距离(量化失真)。另外,设为候选数确定单元303已掌握级数J。另外,在开始本量化之前预定K的初始值和距离的基准值。此外,在图5中,作为距离的基准值,例如设为50000,但也可能存在其他值更为适当的情况。只要根据矢量的维数或要素的值的大小等确定适当的值即可。
ST501中,判定级号码是否为j=3以上或者是否为KK=3以下,若满足该条件(“是”),则转移至ST502,若不满足该条件(“否”),则转移至ST411。
ST502中,判定距离(量化失真)是否超过基准值,若超过(“是”),则转移至ST407,若未超过(“否”),则转移至ST409。
这样,根据实施方式2,通过在评估量化失真之前确认候选数KK已变得充分小,从而若候选数KK变得充分小,则能够立即进行使用量化失真的候选数控制,能够以尽可能少的计算量获得充分的量化性能。
此外,上述各实施方式中,如图3所示,将候选数确定单元303设在失真计算及码本搜索单元301的后级,但也可将候选数确定单元303设在失真计算及码本搜索单元301的前级。此时,候选数确定单元303能够使用来自前级矢量量化单元的距离(量化失真)及候选数,显然可以获得同样的效果。
另外,上述各实施方式中,示出了CELP中的例子,但本发明是能够利用于矢量量化的发明,所以当然并不限于CELP。例如,既能够利用于利用了MDCT(Modified Discrete Cosine Transform,改进离散余弦变换)或QMF(Quadrature Mirror Filter,正交镜像滤波器)的频谱的量化,也能够应用于扩频技术中的、从低频区域的频谱中搜索相似的频谱形状的算法。而且,本发明能够适用于使用LPC分析的所有编码方式。
另外,上述各实施方式中,示出了对ISF进行编码的例子,但本发明并不限于此,也能够适用于对ISP(Immittance Spectral Pairs,导抗谱对)、LSP(LineSpectral Pairs,线谱对)、PARCOR(PARtial autoCORrelation,偏自相关)等参数进行量化的情况。这是因为,只要取代实施方式中的ISF量化而使用其他量化法即可。
另外,上述各实施方式中,对于CELP的频谱参数的树搜索VQ适用了本发明,但在其他参数矢量的量化中本发明显然也有效。这是因为,参数的性质不会对本发明造成影响。
另外,上述各实施方式中,在失真计算及码本搜索单元301中使用了欧氏距离,但也可为加权欧氏距离或者曼哈顿距离(绝对值之和)等其他距离尺度。这是因为,本发明在于候选数确定单元303的算法,距离尺度与本发明无关。
另外,上述各实施方式中,示出了应用于编码器的情况,但本发明也能够应用在用于语音识别或图像识别等图案匹配(pattern matching)的树搜索中。这是因为,本发明涉及的是树搜索的候选数的确定,并不影响算法整体的目的。
另外,上述各实施方式中说明的编码装置能够搭载到通信终端装置或基站装置中使用。
另外,上述各实施方式中,将与距离(量化失真)进行比较的基准值设为预先确定的常数,但当然也可以是对各级(级号码)而不同的值。这是因为,本发明并不限制基准值。通过在各级(级号码)中改变基准值,能够实现更有效的搜索。
另外,上述各实施方式中,对于候选数的控制,使用“3及2”这预定的数值,但其也可以使用“4及3”、“4及2”等数值。另外,也可使该数值在各级(级号码)中不同。只要根据情况,例如计算量存在余量的情况或需要更高性能的情况等,来设定这些数值即可。
另外,实施方式2中,对于j和KK的判定,分别使用了“3及3”这预定的数值(常数),但其也可改为“2及2”、“2及3”、“4及3”、“2及4”、“4及4”或“5及4”等。另外,也可使该数值在各级(级号码)中不同。只要根据情况,例如根据计算量存在余裕的情况、需要更高性能的情况等来设定这些数值即可。
另外,在上述各实施方式中,以由硬件构成本发明的情况为例进行了说明,但本发明在硬件的协作下,也可以由软件实现。
另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为单芯片,也可以包含一部分或全部地被集成为单芯片。虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以使用可在LSI制造后编程的FPGA(Field ProgrammableGate Array:现场可编程门阵列),或者可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
在2010年9月17日提交的特愿第2010-210116号以及在2010年10月13日提交的特愿第2010-230537号的日本专利申请所包含的说明书、附图和说明书摘要的公开内容,全部引用于本申请。
工业实用性
本发明的量化装置及量化方法能够适用于语音编码装置等。
Claims (6)
1.量化装置,使用树搜索进行多级量化,该量化装置包括:
搜索单元,进行作为编码对象的一个以上的每个目标与存储在码本中的码矢量之间的匹配,并从量化失真最小的候选起,求一个以上的、在前级中确定的或者预先设定的候选数的候选;
计算单元,对于所述候选,从所述目标减去所述码矢量,计算量化误差矢量;以及
候选数确定单元,基于在所述前级确定的候选数,确定在下一级使用的候选数。
2.如权利要求1所述的量化装置,
所述候选数确定单元确定在下一级使用从在所述前级确定的候选数中减1所得的候选数。
3.如权利要求1所述的量化装置,
所述候选数确定单元在所述前级确定的候选数为预先指定的值P以下的情况下,在所述量化失真大于规定的阈值时,确定在下一级使用候选数P,而在所述量化失真为所述规定的阈值以下时,确定在下一级使用比预先指定的P小的值Q作为候选数。
4.如权利要求1所述的量化装置,
所述搜索单元在其为第1级的情况下,从量化失真最小的候选起求预先指定的候选数的候选。
5.如权利要求1所述的量化装置,
所述候选数确定单元在当前的级数为规定的级数以上或者候选数为规定的候选数P以下的情况下,
在所述量化失真大于规定的阈值且候选数小于规定的候选数R时,确定在下一级使用候选数R,
在所述量化失真为所述规定的阈值以下且候选数小于比所述候选数R小的规定的候选数Q时,确定在下一级使用候选数Q。
6.量化方法,使用树搜索进行多级量化,该方法包括以下步骤:
进行作为编码对象的一个以上的每个目标与存储在码本中的码矢量之间的匹配,并在第1级,从量化失真最小的候选起,求一个以上的、预先指定的候选数的候选,在第2级以后,从量化失真最小的候选起,求一个以上的、在前级确定的候选数的候选;
对于所述候选,从所述目标减去所述码矢量,计算量化误差矢量;以及
基于在所述前级确定的候选数,确定在下一级使用的候选数。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-210116 | 2010-09-17 | ||
JP2010210116 | 2010-09-17 | ||
JP2010-230537 | 2010-10-13 | ||
JP2010230537 | 2010-10-13 | ||
PCT/JP2011/005244 WO2012035781A1 (ja) | 2010-09-17 | 2011-09-16 | 量子化装置及び量子化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103081007A true CN103081007A (zh) | 2013-05-01 |
Family
ID=45831266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800423091A Pending CN103081007A (zh) | 2010-09-17 | 2011-09-16 | 量化装置及量化方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9135919B2 (zh) |
EP (1) | EP2618331B1 (zh) |
JP (1) | JP5687706B2 (zh) |
KR (1) | KR20130112869A (zh) |
CN (1) | CN103081007A (zh) |
BR (1) | BR112013006103A2 (zh) |
CA (1) | CA2810995A1 (zh) |
RU (1) | RU2013111526A (zh) |
TW (1) | TW201220715A (zh) |
WO (1) | WO2012035781A1 (zh) |
ZA (1) | ZA201301886B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764696A (zh) * | 2019-09-26 | 2020-02-07 | 开放智能机器(上海)有限公司 | 向量信息存储及更新的方法、装置、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9153238B2 (en) | 2010-04-08 | 2015-10-06 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
CN104918046B (zh) * | 2014-03-13 | 2019-11-05 | 中兴通讯股份有限公司 | 一种局部描述子压缩方法和装置 |
KR20240033374A (ko) * | 2022-09-05 | 2024-03-12 | 서울대학교산학협력단 | 비터비 빔 서치를 이용한 레지듀얼 벡터 양자화 장치, 방법 및 컴퓨터 판독 가능 매체 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
US5966688A (en) * | 1997-10-28 | 1999-10-12 | Hughes Electronics Corporation | Speech mode based multi-stage vector quantizer |
CN1200403C (zh) * | 2000-11-30 | 2005-05-04 | 松下电器产业株式会社 | 线性预测编码参数的矢量量化装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62234432A (ja) * | 1986-04-04 | 1987-10-14 | Hitachi Ltd | 双方向光伝送方法とその装置 |
JPH07120958B2 (ja) * | 1986-04-04 | 1995-12-20 | 三菱電機株式会社 | 木探索ベクトル量子化器 |
JP3114197B2 (ja) * | 1990-11-02 | 2000-12-04 | 日本電気株式会社 | 音声パラメータ符号化方法 |
JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
JP3296363B2 (ja) | 1991-04-30 | 2002-06-24 | 日本電信電話株式会社 | 音声の線形予測パラメータ符号化方法 |
US5774839A (en) * | 1995-09-29 | 1998-06-30 | Rockwell International Corporation | Delayed decision switched prediction multi-stage LSF vector quantization |
JP3246715B2 (ja) * | 1996-07-01 | 2002-01-15 | 松下電器産業株式会社 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
JP3973789B2 (ja) | 1999-03-09 | 2007-09-12 | 三菱電機株式会社 | 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体 |
JP3594854B2 (ja) * | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
JP2002229597A (ja) * | 2000-11-30 | 2002-08-16 | Matsushita Electric Ind Co Ltd | Lpcパラメータのベクトル量子化装置 |
JP3428595B2 (ja) | 2002-06-03 | 2003-07-22 | 日本電気株式会社 | 音声符号化方式 |
US9153238B2 (en) * | 2010-04-08 | 2015-10-06 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
-
2011
- 2011-09-16 RU RU2013111526/08A patent/RU2013111526A/ru unknown
- 2011-09-16 CN CN2011800423091A patent/CN103081007A/zh active Pending
- 2011-09-16 BR BR112013006103A patent/BR112013006103A2/pt not_active IP Right Cessation
- 2011-09-16 US US13/821,577 patent/US9135919B2/en active Active
- 2011-09-16 TW TW100133377A patent/TW201220715A/zh unknown
- 2011-09-16 JP JP2012533874A patent/JP5687706B2/ja not_active Expired - Fee Related
- 2011-09-16 KR KR1020137006545A patent/KR20130112869A/ko not_active Application Discontinuation
- 2011-09-16 CA CA2810995A patent/CA2810995A1/en not_active Abandoned
- 2011-09-16 WO PCT/JP2011/005244 patent/WO2012035781A1/ja active Application Filing
- 2011-09-16 EP EP11824794.9A patent/EP2618331B1/en not_active Not-in-force
-
2013
- 2013-03-13 ZA ZA2013/01886A patent/ZA201301886B/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
US5966688A (en) * | 1997-10-28 | 1999-10-12 | Hughes Electronics Corporation | Speech mode based multi-stage vector quantizer |
CN1200403C (zh) * | 2000-11-30 | 2005-05-04 | 松下电器产业株式会社 | 线性预测编码参数的矢量量化装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110764696A (zh) * | 2019-09-26 | 2020-02-07 | 开放智能机器(上海)有限公司 | 向量信息存储及更新的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20130173263A1 (en) | 2013-07-04 |
RU2013111526A (ru) | 2014-10-27 |
EP2618331A4 (en) | 2013-10-09 |
CA2810995A1 (en) | 2012-03-22 |
WO2012035781A1 (ja) | 2012-03-22 |
EP2618331B1 (en) | 2016-08-31 |
ZA201301886B (en) | 2013-11-27 |
TW201220715A (en) | 2012-05-16 |
BR112013006103A2 (pt) | 2019-09-24 |
JPWO2012035781A1 (ja) | 2014-01-20 |
EP2618331A1 (en) | 2013-07-24 |
KR20130112869A (ko) | 2013-10-14 |
JP5687706B2 (ja) | 2015-03-18 |
US9135919B2 (en) | 2015-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2301021B1 (en) | Device and method for quantizing lpc filters in a super-frame | |
US7392179B2 (en) | LPC vector quantization apparatus | |
CN1957398B (zh) | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 | |
US5675702A (en) | Multi-segment vector quantizer for a speech coder suitable for use in a radiotelephone | |
EP1684268A2 (en) | Orthogonalization search for the CELP based speech coding | |
CN101903945A (zh) | 编码装置、解码装置以及编码方法 | |
CN101578508A (zh) | 用于对语音信号中的过渡帧进行编码的方法和设备 | |
US6928406B1 (en) | Excitation vector generating apparatus and speech coding/decoding apparatus | |
US20040049380A1 (en) | Audio decoder and audio decoding method | |
EP2867892B1 (en) | Linear prediction based audio coding using improved probability distribution estimation | |
CN100578618C (zh) | 一种解码方法及装置 | |
CN103069483B (zh) | 编码装置以及编码方法 | |
EP3279895A1 (en) | Audio encoding based on an efficient representation of auto-regressive coefficients | |
CN103081007A (zh) | 量化装置及量化方法 | |
CN101765880B (zh) | 语音编码装置和语音编码方法 | |
CN103518122B (zh) | 码激励线性预测编码器和解码器中的变换域码本 | |
US20060080090A1 (en) | Reusing codebooks in parameter quantization | |
EP0866443A2 (en) | Speech signal coder | |
Delprat et al. | Fractional excitation and other efficient transformed codebooks for CELP coding of speech | |
JP2013055417A (ja) | 量子化装置及び量子化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130501 |