CN101622663A - 编码装置以及编码方法 - Google Patents

编码装置以及编码方法 Download PDF

Info

Publication number
CN101622663A
CN101622663A CN200880006418A CN200880006418A CN101622663A CN 101622663 A CN101622663 A CN 101622663A CN 200880006418 A CN200880006418 A CN 200880006418A CN 200880006418 A CN200880006418 A CN 200880006418A CN 101622663 A CN101622663 A CN 101622663A
Authority
CN
China
Prior art keywords
retrieval
pulse
gain
shape
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880006418A
Other languages
English (en)
Other versions
CN101622663B (zh
Inventor
森井利幸
押切正浩
山梨智史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101622663A publication Critical patent/CN101622663A/zh
Application granted granted Critical
Publication of CN101622663B publication Critical patent/CN101622663B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了即使在信息比特较少的情况下也能获得听觉上良好的音质的编码装置。该编码装置中,形状量化单元(111)包括:区间检索单元(121),对将规定的检索区间分割为多个所得的每一个频带检索脉冲,并进行编码;以及全体检索单元(122),在全体该规定的检索区间检索脉冲,该编码装置用少数的脉冲的位置和极性对输入谱的形状进行量化。增益量化单元(112)对每个频带计算由形状量化单元(111)检索出的脉冲的增益,并进行量化。

Description

编码装置以及编码方法
技术领域
本发明涉及对语音信号和音频信号进行编码的编码装置以及编码方法。
背景技术
在移动通信中,为了实现电波等的传输路径容量和记录媒体的有效利用,必须对语音和图像的数字信息进行压缩编码,至今为止开发了诸多编码/解码方式。
其中,语音编码技术通过“CELP(Code Excited Linear Prediction,码激励线性预测)”而大幅提高了其性能,该CELP为对语音的发声机构进行模式化并巧妙地应用矢量量化的基本方式。另外,音频编码等音乐编码技术通过变换编码技术(MPEG标准ACC和MP3等)而大幅提高了其性能。
另一方面,通过ITU-T(International Telecommunication Union-Telecommunication Standardization Sector,国际电信联盟-电信标准化分部)等进行标准化的可扩展编解码中的规格覆盖从以往的语音频带(300Hz~3.4kHz)直到宽带(~7kHz),比特速率也设定了直到32kbps程度的高速率。因此,宽带的编解码中需要对音乐也进行一定程度的编码,所以,仅通过如CELP那样的、基于人的发声模式的以往的低比特速率语音编码方法,无法对应。因此,在以往推荐的ITU-T标准G.729.1中,对宽带以上的语音的编码采用了音频编解码的编码方式的变换编码。
专利文献1示出了,在使用谱参数和音调参数(pitch parameter)的编码方式中,对用谱参数使语音信号通过逆滤波器所得的信号进行正交变换,从而进行编码的技术,以及作为该编码的例子,通过代数结构的码本进行编码的方法。
另外,专利文献2示出了通过分离为线性预测参数与残差分量而进行的编码方式,该编码方式为,对残差分量进行正交变换,以正交变换后的功率对残差波形进行归一化之后,再进行增益的量化和归一化残差的量化。而且,专利文献2中,举例了矢量量化作为归一化残差的量化方法。
另外,非专利文献1公开了,在TCX(通过变换编码后的驱动激励和谱参数的滤波处理进行了模式化的编码的基本方式)中,使用改进了激励谱的代数码本进行编码的方法,在ITU-T标准G.729.1中采用了该方法。
另外,非专利文献2中记述有MPEG标准方式“TC-WVQ(变换编码-波形矢量量化)”。该方式也是作为正交变换方法使用DCT(离散余弦变换)来对线性预测残差进行变换,对谱进行矢量量化的方法。
通过上述四个先前技术等,在编码中能够使用作为语音信号的有效的编码要素技术的、像线性预测参数那样的谱参数的量化,能够实现音频编码的效率化和低速率化。
[专利文献1]日本专利申请特开平10-260698号公报
[专利文献2]日本专利申请特开平07-261800号公报
[非专利文献1]Xie,Adoul,”EMBEDDED ALGEBRAIC VECTORQUANTIZERS(EAVQ)WITH APPLICATION TO WIDEBAND SPEECHCODING”ICASSP’96
[非专利文献2]Moriya,Honda,”Transform Coding of Speech Using aWeighted Vector Quantizer”IEEE journal on selected areas in communications,Vol.6,No.2,February 1988
发明内容
发明要解决的问题
然而,特别在可扩展编解码的较低层,被分配的比特数少,所以激励的变换编码的性能并不充足。例如,ITG-T标准G.729.1中,直到电话频带(300Hz~3.4kHz)的第二层为止有12kbps的比特速率,但是对于其次的、用于处理宽带(50Hz~7kHz)的第三层,仅进行2kbps的分配。在这样信息比特较少的情况下,通过以使用码本的矢量量化对由正交变换所得的谱进行编码的方法,听觉上无法获得充足的性能。
本发明的目的为,提供即使在信息比特较少的情况下,也能够获得听觉上良好的音质的编码装置和编码方法。
解决问题的方案
本发明的编码装置采用的结构包括:形状量化单元,对频谱的形状进行编码;以及增益量化单元,对所述频谱的增益进行编码,所述形状量化单元包括:区间检索(search)单元,对将规定的检索区间分割为多个所得的每一个频带,检索第一固定波形;以及全体检索单元,在全体所述规定的检索区间检索第二固定波形。
本发明的编码方法包括:形状量化步骤,对频谱的形状进行编码;以及增益量化步骤,对所述频谱的增益进行编码,所述形状量化步骤包括:区间检索步骤,对将规定的检索区间分割为多个所得的每一个频带,检索第一固定波形;以及全体检索步骤,在全体所述规定的检索区间检索第二固定波形。
发明的效果
根据本发明,能够对能量存在的频率(位置)正确地进行编码,所以能够提高谱编码特有的定性性能,即使在低比特速率的情况下,也能够获得良好的音质。
附图说明
图1是表示本发明的一个实施方式的语音编码装置的结构的方框图。
图2是表示本发明的一个实施方式的语音解码装置的结构的方框图。
图3是表示本发明的一个实施方式的区间检索单元的检索算法的流程图。
图4是表示在本发明的一个实施方式的、区间检索单元中检索出的以脉冲表现的谱的例子的图。
图5是表示本发明的一个实施方式的全体检索单元的检索算法的流程图。
图6是表示本发明的一个实施方式的全体检索单元的检索算法的流程图。
图7是表示在本发明的一个实施方式的、区间检索单元和全体检索单元中检索出的以脉冲表现的谱的例子的图。
图8是表示本发明的一个实施方式的谱解码单元的解码算法的流程图。
具体实施方式
CELP方式等的语音信号的编码中,使用激励和合成滤波器表示语音信号的情况较多,如果通过作为时序矢量的激励信号的解码能够获得类似于语音信号的形状的矢量,则能够通过合成滤波器获得近似于输入语音的波形,获得听觉上也良好的音质。这是也与CELP中使用的代数码本的成功有关的定性性质。
另一方面,频谱(矢量)的编码中,合成滤波器的分量为谱增益,所以与该增益的失真相比,主要在于功率较大的分量的频率(位置)的失真。也就是说,与对具有类似于输入谱的形状的矢量进行解码相比,如果正确地检索较高能量存在的位置,并对该能量所存在的位置的脉冲进行解码,则能够获得听觉上良好的音质。
本发明的发明人鉴于上述事实完成了本发明。也就是说,本发明中,采用通过少数的脉冲对频谱进行编码的模式,通过正交变换将所编码的语音信号(时序矢量)变换为频域,将编码对象的频率区间分割为多个频带,对各个频带分别检索一个脉冲,进而在全体编码对象的频率区间检索数个脉冲。
另外,本发明中分为形状的量化和增益(大小)的量化,在形状的量化中,假设理想增益并以开环检索振幅为“1”且极性为(+-)的脉冲,特别是在编码对象的频率区间全体的检索中,不在相同的位置建立两个脉冲,从而能够对多个脉冲的位置的组合进行编码,作为脉冲位置的传输信息。
接下来,利用附图说明本发明的一个实施方式。
图1是表示本实施方式的语音编码装置的结构的方框图。图1所示的语音编码装置包括:LPC分析单元101、LPC量化单元102、逆滤波器103、正交变换单元104、谱编码单元105、以及复用单元106。谱编码单元105包括形状量化单元111和增益量化单元112。
LPC分析单元101对输入语音信号进行线性预测分析,并且将作为分析结果的谱包络参数输出到LPC量化单元102。LPC量化单元102进行从LPC分析单元101输出的谱包络参数(LPC:线性预测系数)的量化处理,将表示量化LPC的代码输出到复用单元106。另外,LPC量化单元102将对表示量化LPC的代码(code)进行解码所得的解码参数输出到逆滤波器103。另外,在参数的量化中,使用矢量量化(VQ)、预测量化、多阶VQ、分离VQ等形态。
逆滤波器103使用解码参数使输入语音通过逆滤波器,将所得的残差分量输出到正交变换单元104。
正交变换单元104对残差分量施加正弦窗等整合窗(overlap window),使用MDCT进行正交变换,将变换为频域的谱(以下,称为“输入谱”)输出到谱编码单元105。另外,作为正交变换还存在FFT、KLT、小波(wavelet)变换等,虽然它们的使用方法不同,但使用哪一种都能够变换为输入谱。
另外,也有颠倒逆滤波器103和正交变换单元104的处理顺序的情况。也就是说,只要使用逆滤波器的频谱对正交变换后的输入语音进行除法运算(对数轴上进行减法运算),就能够得到同样的输入谱。
谱编码单元105对输入谱分为谱的形状和增益来进行量化,将所得的量化编码输出到复用单元106。形状量化单元111以少数的脉冲的位置和极性对输入谱的形状进行量化,增益量化单元112对每个频带计算由形状量化单元111检索出的脉冲的增益,对其进行量化。另外,后面叙述形状量化单元111和增益量化单元112的细节。
复用单元106从LPC量化单元102输入了表示量化LPC的代码,从谱编码单元105输入了表示量化输入谱的代码,对这些信息进行复用并输出到传输路径作为编码信息。
图2是表示本实施方式的语音解码装置的结构的方框图。图2所示的语音解码装置包括:分离单元201、参数解码单元202、谱解码单元203、正交变换单元204、以及合成滤波器205。
图2中,分离单元201将编码信息分离为各个代码。表示量化LPC的代码输出到参数解码单元202,输入谱的代码输出到谱解码单元203。
参数解码单元202进行谱包络参数的解码,将解码所得的解码参数输出到合成滤波器205。
谱解码单元203使用与图1所示的谱编码单元105中的编码方法对应的方法对形状矢量和增益进行解码,通过将解码出的形状矢量与解码增益相乘获得解码谱,将解码谱输出到正交变换单元204。
正交变换单元204对从谱解码单元203输出的解码谱进行与图1所示的正交变换单元104的变换处理相反的处理,将变换所得的时序的解码残差信号输出到合成滤波器205。
合成滤波器205使用从参数解码单元202输出的解码参数,使从正交变换单元204输出的解码残差信号通过合成滤波器,获得输出语音。
另外,在颠倒图1的逆滤波器103和正交变换单元104的处理顺序的情况下,图2的语音解码装置中,进行正交变换之前使用解码参数的频谱进行乘法运算(对数轴上进行加法运算),对所得的谱进行正交变换。
接下来,说明形状量化单元111和增益量化单元112的细节。形状量化单元111包括:区间检索单元121,对将规定的检索区间分割为多个所得的每一个频带,检索脉冲;以及全体检索单元122,在全体该检索区间检索脉冲。
作为检索的基准的式子为下式(1)。另外,式(1)中,E表示编码失真,si表示输入谱,g表示最佳增益,δ表示Δ(delta)函数,p表示脉冲的位置。
E = Σ i { s i - gδ ( i - p ) } 2 . . . ( 1 )
根据上述式(1),使价值函数(cost function)最小的脉冲的位置为在各个频带中输入谱的绝对值|sp|为最大的位置,极性为该脉冲的位置的输入谱的值的极性。
以下,以输入谱的矢量长度为80样本,频带数为5,以各个频带1个的脉冲和全体3个的脉冲的共8个脉冲对谱进行编码的情况为例,进行说明。此时,各个频带的长度为16样本。另外,将检索的脉冲的振幅固定为“1”,极性为“+-”。
区间检索单元121对每个频带检索能量最大的位置和极性(+-),分别建立一个脉冲。在本例子中,频带数为5,对每个频带,为了表示脉冲的位置需要4比特(位置的项(entry):16),为了表示极性需要1比特(+-),所以合计为25比特的信息比特。
图3表示区间检索单元121的检索算法的流程。另外,图3的流程图中使用的标号的内容如下。
i:位置
b:频带的编号
max:最大值
c:计数
pos[b]:检索结果(位置)
pol[b]:检索结果(极性)
s[i]:输入谱
如图3所示,区间检索单元121对每个频带(0≤b≤4)计算各个样本(0≤c≤15)的输入谱s[i],求最大值max。
图4表示在区间检索单元121中检索出的以脉冲表现的谱的例子。如图4表示,频带宽度为16样本的5个频带中,分别建立1个振幅“1”、极性“+-”的脉冲。
全体检索单元122在全体检索区间检索用于建立3个脉冲的位置,对脉冲的位置和极性进行编码。全体检索单元122的检索中,根据以下四个条件进行检索以便以较少信息比特和较少运算量对正确的位置进行编码。(1)不在相同的位置建立两个以上的脉冲。本例子中,对于在区间检索单元121中对每个频带建立的脉冲的位置,也不在该位置上建立脉冲。通过上述办法,在振幅分量的表现上不使用信息比特,所以能够有效使用信息比特。(2)以开环依序检索每一个脉冲。在检索的中途,根据(1)的规则,将已经决定的脉冲的位置排除在检索的对象之外。(3)位置的检索中,对于不建立脉冲较好的情况,也作为一个位置进行编码。(4)考虑按每个频带对增益进行编码,对每个频带的基于理想增益的编码失真进行评价,并且检索脉冲。
全体检索单元122通过下述两个阶段的价值评价,在全体输入谱检索一个脉冲。首先,作为第一阶段,全体检索单元122对各个频带的价值进行评价,求价值函数最小的位置和极性。然后,作为第二阶段,全体检索单元122每当在一个频带内上述检索结束时对全体的价值进行评价,将该价值为最小的脉冲的位置和极性进行存储作为最终结果。在各个频带依序进行该检索。进行该检索以便符合上述条件(1)至(4)。然后,一个脉冲的检索结束之后,假设该脉冲处于检索位置,进行下一个脉冲的检索。重复进行上述处理,检索至检索出规定的个数(本例子中为3个)。
图5表示全体检索单元122的检索算法的流程。图5是预处理的流程图,图6是正式检索的流程图。另外,图6的流程图中表示与上述条件(1)、(2)、(4)的条件对应的部分。
图5的流程图中使用的标号的内容如下。
c:计数
pf[*]:脉冲有无标识
b:频带的编号
pos[*]:检索结果(位置)
n_s[*]:相关值
n_max[*]:相关值最大
n2_s[*]:相关值平方
n2_max[*]:相关值平方最大
d_s[*]:功率值
d_max[*]:功率值最大
s[*]:输入谱
图6的流程图中使用的标号的内容如下。
i:脉冲编号
i0:脉冲位置
cmax:价值函数的最大值
pf[*]:脉冲有无标识(0:无、1:有)
ii0:频带内的相对的脉冲位置
nom:谱振幅
nom2:分子项(谱功率)
den:分母项
n_s[*]:相关值
d_s[*]:功率值
s[*]:输入矢量
n2_s[*]:相关值平方
n_max[*]:相关值最大
n2_max[*]:相关值平方最大
idx_max[*]:各个脉冲的检索出的结果(位置)
(另外,idx_max[*]的0~4与图3的pos(b)相同。)
fd0、fd1、fd2:暂时存储用缓冲器(实数型)
id0、id1:暂时存储用缓冲器(整数型)
id0_s、id1_s:暂时存储用缓冲器(整数型)
>>:比特移位(向右移位)
&:作为比特序列的“和(and)”
另外,图5、图6的检索中,idx_max[*]一直是“-1”的情况是,上述条件(3)的不建立脉冲较好的情况。作为其具体事实,可以举出如下情况等,即,通过对每个频带检索出的脉冲和在全范围检索出的脉冲,能够充分近似于谱,如果再建立相同大小的脉冲,反而编码失真会变大。
检索出的脉冲的极性为输入谱的在该位置的极性,全体检索单元122以3(个)×1=3比特对该极性进行编码。此外,在位置为“-1”的情况下,即不建立脉冲的情况下,可以是任一极性。但是,有时将其用于比特差错的检测,一般被固定为一个极性。
另外,全体检索单元122基于脉冲的位置的组合数对脉冲的位置信息进行编码。本例子中,输入谱为80样本,对各个频带合计已建立5个脉冲,所以如果还考虑不建立脉冲的情况,则基于下式(2)的运算能够以17比特表示位置的变形(variation)。
75+1C3=(75+1)*(74+1)*(73+1)/3/2/1
      =70300
      <131072
      =2^17    …(2)
另外,通过不在相同的位置建立两个脉冲的规则,能够减少组合数,在全体进行检索的脉冲数越多,该规则的效果越大。
这里,详细地说明对全体检索单元122中检索出的脉冲的位置进行编码的方法。
(1)对三个脉冲的位置根据其大小进行分类,排列为从小数值到大数值的顺序。另外,对于“-1”一直不变。(2)向左移动与每个频带建立的脉冲相应的个数,使位置的数值变小。将由此求得的数值称为“位置数”。另外,对于“-1”原样不动。例如,假设脉冲的位置为66,在小于其的位置上,在0~15、16~31、32~47、48~64分别存在一个脉冲的情况下,位置数为“66-4=62”。(3)将“-1”设定为“该脉冲的最大值+1”的位置数。此时,进行调整以免与脉冲实际存在的位置数混淆,同时决定值的顺序。由此,脉冲#0的位置数被限定在从0到73的范围,脉冲#1的位置数被限定在从脉冲#0的位置数到74的范围,脉冲#2的位置数被限定在从脉冲#1的位置数到75的范围,低位的位置数不超过高位的位置数。(4)然后,通过下式(3)所示的求取组合的编码的累积处理,对位置数(i0,i1,i3)进行累积来获得编码(c)。该累积处理为,存在大小的顺序的情况下累积所有的组合的运算处理。
c=((76-0)*(77-0)*(153-2*0)/3+(74-0)*(75-0))/4
-((76-i0)*(77-i0)*(153-2*i0)/3+(74-i0)*(75-i0))/4;
c=c+(76-i0)*(77-i0)/2-(76-i1)*(77-i1)/2;
c=c+75-i2;    …(3)
(5)然后,合并该c的17比特与极性的3比特,获得20比特的编码。
另外,在上述位置数中,脉冲#0为“73”、脉冲#1为“74”、脉冲#2为“75”的情况为表示其脉冲不建立的情况的位置数。例如,在三个位置数为(73、-1、-1)的情况下,根据前一个位置数与“不建立脉冲的情况”的位置数之间的关系,将顺序改变为(-1、73、-1),使其成为(73、73、74)。
于是,在像本例子那样以8个脉冲序列(按频带有5个、全体有3个)表示输入谱的模式的情况下,能够用45比特的信息比特进行编码。
图7表示在区间检索单元121和全体检索单元122中检索出的以脉冲表现的谱的例子。另外,在图7中,用较粗线条表现的脉冲为在全体检索单元122中检索出的脉冲。
增益量化单元112对各个频带的增益进行量化。8个脉冲被配置在各个频带,所以增益量化单元112分析这些脉冲与输入谱之间的相关,求增益。
增益量化单元112在先求得理想增益之后再通过标量(scalar)量化和矢量量化进行编码的情况下,首先用下式(4)求取理想增益。另外,式(4)中,gn为频带n的理想增益,s(i+16n)为频带n的输入谱,vn(i)为对频带n的形状进行解码所得的矢量。
g n = Σ i s ( i + 16 n ) × v n ( i ) Σ i v n ( i ) × v n ( i ) . . . ( 4 )
然后,增益量化单元112对理想增益进行标量量化(SQ),或者汇总5个增益,通过矢量量化进行编码。在进行矢量量化的情况下,通过预测量化、多阶VQ、分离VQ等,能够高效率地进行编码。另外,由于增益在听觉上成对数地听见,所以如果对增益进行对数变换之后进行SQ、VQ,则能够获得听觉上良好的合成音。
另外,也有对编码失真进行直接评价而不求取理想增益的方法。例如,在对5个增益进行VQ的情况下,使下式(5)最小。另外,式(5)中,Ek为第k个增益矢量的失真,s(i+16n)为频带n的输入谱,gn (k)为第k增益矢量的第n元素,vn(i)为对频带n的形状进行解码所得的形状矢量。
E k = Σ n Σ i { s ( i + 16 n ) - g n ( k ) v n ( i ) } . . . ( 5 )
接下来,说明在谱解码单元203中的、对在全体检索出的3个脉冲的位置的解码方法。
在谱编码单元105的全体检索单元122中,使用上述式(3),将位置数(i0,i1,i2)累积为一个代码。谱解码单元203进行与其相反的处理。也就是说,谱解码单元203使各个位置数变动地依序计算累积式的值,在小于该值时固定该位置数,从低阶的位置数开始往高位逐个进行该处理,从而进行解码。图8是表示谱解码单元203的解码算法的流程图。
另外,图8中,在因比特差错作为输入的累积后的位置的编码k异常的情况下,进入到差错处理的步骤。因此,此时需要通过规定的差错处理来求位置。
另外,由于有环路(loop)处理,解码器的运算量比编码器增加。但是,各个环路为开环,所以从编解码处理的整体数量来看,解码器的运算量并不大。
如上所述,根据本实施方式,能够对能量存在的频率(位置)正确地进行编码,所以能够提高谱编码特有的定性性能,即使在低比特速率的情况下,也能够获得良好的音质。
另外,在本实施方式中,对在形状编码之后进行增益编码的情况进行了说明,但是,在本发明中,即使在增益编码之后进行形状编码,也能够获得同样的性能。另外,也可以采用对每个频带进行增益编码之后用解码增益对谱进行归一化,并进行本发明的形状编码的方法。
另外,在上述实施方式中,在谱的形状的量化时,以假设谱的长度为80,频带数为5,在各个频带检索的脉冲数为1个,在整个区间检索的脉冲数为3个的情况为例,但是本发明并不依赖于上述数值,即使在其他的情况下也能够获得同样的效果。
另外,本发明的频带宽度十分细窄而能够对较多的增益进行编码,在信息比特数十分多的情况下,仅通过每个频带的脉冲的检索,或者仅通过覆盖多个频带的较宽的区间的脉冲的检索,就能够获得性能。
另外,在上述实施方式中设定了不在相同的位置建立两个脉冲的条件,但是,本发明中,也可以部分性地缓和该条件。例如,如果允许在相同的位置建立对每个频带检索的脉冲和在覆盖多个频带的较宽的区间检索的脉冲,则能够消除对每个频带的脉冲,或建立振幅为两倍的脉冲。为缓和该条件,不对每个频带的脉冲存储脉冲有无标记pf[*]即可。也就是说,将图5的最下边的步骤中的pf[pos[b]]=1省略即可。另外,作为缓和该条件的其他的方法,在较宽的区间进行脉冲检索时不存储在脉冲有无标记(flag)中即可。也就是说,将图6的最下边的步骤中的最后的pf[idx_max[i+5]]=1省略即可。但是,此时位置的变形增加。不是像本实施方式所示那样的单纯的组合,所以需要进行情况分类,对每个情况将组合进行编码。
另外,本实施方式中对正交变换后的谱使用了基于脉冲的编码,但是本发明并不限于此,也可以适用于其他的矢量。例如,在FFT和复数DCT等中对复数矢量适用本发明即可,在小波变换等中对时序的矢量适用本发明即可。另外,本发明也可以适用于CELP的激励波形等时序的矢量。CELP的激励波形的情况存在合成滤波器,所以只是价值函数变为矩阵运算。但是,存在滤波器时,对于脉冲的检索,开环检索性能不充分,所以需要进行一定程度的闭环检索。在脉冲较多等的情况下,通过进行波束检索(beam search)等来将运算量抑制得较低也是有效的。
另外,本发明所检索的波形不限于脉冲(impulse),即使在其他的固定波形(对偶脉冲、三角波、脉冲响应的有限波、滤波器的系数、自适应地改变形状的固定波形等)的情况下也能通过完全相同的方法进行检索,并能够获得相同的效果。
另外,本实施方式中对用于CELP的情况进行了说明,但是本发明并不限于此,即使在其他的编解码的情况下也是有效的。
另外,本发明的信号除了语音信号之外,也可以是音频信号。另外,也可以采用如下结构,即,将本发明适用于LPC预测残差信号以代替输入信号。
另外,本发明的编码装置以及解码装置,可以搭载在移动通信系统的通信终端装置以及基站装置上,由此能够提供具有与上述同样的作用效果的通信终端装置、基站装置以及移动通信系统。
另外,虽然这里以用硬件构成本发明的情况为例进行了说明,但是本发明也可以用软件实现。例如,通过编程语言对本发明的算法进行记述,并在内存中保存该程序并通过信息处理装置来实行,从而能够实现与本发明的编码装置相同的功能。
另外,用于上述实施方式的说明中的各功能块,通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片,也可以包含一部分或全部地被集成为一个芯片。
另外,在此虽然称做LSI,但根据集成度的不同也可以称为IC(集成电路)、系统LSI、超LSI、极大LSI。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以利用LSI制造后能够编程的FPGA(Field ProgrammableGate Array,现场可编程门阵列),或可以重构LSI内部的电路块连接或设定的可重构处理器(Reconfigurable Processor)。
再有,如果随着半导体技术的进步或者其他技术的派生,出现了替换LSI的集成电路化的技术,当然也可以利用该技术来实现功能块的集成化。还存在着适用生物技术等的可能性。
2007年3月2日提交的日本专利申请第2007-053497号所包含的说明书、说明书附图以及说明书摘要的公开内容,全部引用于本申请。
工业利用性
本发明适合用于对语音信号和音频信号进行编码的编码装置,以及对编码后的信号进行解码的解码装置等。

Claims (6)

1、编码装置,包括:
形状量化单元,对频谱的形状进行编码;以及
增益量化单元,对所述频谱的增益进行编码,
所述形状量化单元包括:
区间检索单元,对将规定的检索区间分割为多个所得的每一个频带,检索第一固定波形;以及
全体检索单元,在全体所述规定的检索区间检索第二固定波形。
2、权利要求1所述的编码装置,所述全体检索单元对每个频带的基于理想增益的编码失真进行评价,并且检索第二固定波形。
3、权利要求1所述的编码装置,所述全体检索单元基于所述第二固定波形的位置的组合数对所述第二固定波形的位置信息进行编码。
4、权利要求1所述的编码装置,增益量化单元对每个频带计算所述第一固定波形和所述第二固定波形的增益,并进行编码。
5、编码装置,包括:
形状量化单元,对频谱的形状进行编码;以及
增益量化单元,对所述频谱的增益进行编码,
所述形状量化单元对将规定的检索区间分割为多个所得的每一个频带的、基于理想增益的编码失真进行评价,并且检索固定波形。
6、编码方法,包括:
形状量化步骤,对频谱的形状进行编码;以及
增益量化步骤,对所述频谱的增益进行编码,
所述形状量化步骤包括:
区间检索步骤,对将规定的检索区间分割为多个所得的每一个频带,检索第一固定波形;以及
全体检索步骤,在全体所述规定的检索区间检索第二固定波形。
CN2008800064186A 2007-03-02 2008-02-29 编码装置以及编码方法 Expired - Fee Related CN101622663B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007053497 2007-03-02
JP053497/2007 2007-03-02
PCT/JP2008/000397 WO2008108076A1 (ja) 2007-03-02 2008-02-29 符号化装置および符号化方法

Publications (2)

Publication Number Publication Date
CN101622663A true CN101622663A (zh) 2010-01-06
CN101622663B CN101622663B (zh) 2012-06-20

Family

ID=39737974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800064186A Expired - Fee Related CN101622663B (zh) 2007-03-02 2008-02-29 编码装置以及编码方法

Country Status (11)

Country Link
US (1) US8719011B2 (zh)
EP (1) EP2128858B1 (zh)
JP (1) JP5190445B2 (zh)
KR (1) KR101414359B1 (zh)
CN (1) CN101622663B (zh)
BR (1) BRPI0808198A8 (zh)
DK (1) DK2128858T3 (zh)
ES (1) ES2404408T3 (zh)
MX (1) MX2009009229A (zh)
RU (1) RU2463674C2 (zh)
WO (1) WO2008108076A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106664099A (zh) * 2014-08-15 2017-05-10 谷歌技术控股有限责任公司 使用统计特性编码脉冲矢量的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
EP2645367B1 (en) * 2009-02-16 2019-11-20 Electronics and Telecommunications Research Institute Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
EP2511904A4 (en) * 2009-12-10 2013-08-21 Lg Electronics Inc METHOD AND APPARATUS FOR ENCODING A SPEECH SIGNAL
EP3422346B1 (en) 2010-07-02 2020-04-22 Dolby International AB Audio encoding with decision about the application of postfiltering when decoding
US9135922B2 (en) * 2010-08-24 2015-09-15 Lg Electronics Inc. Method for processing audio signals, involves determining codebook index by searching for codebook corresponding to shape vector generated by using location information and spectral coefficients
JP6062861B2 (ja) * 2011-10-07 2017-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
JP7016660B2 (ja) * 2017-10-05 2022-02-07 キヤノン株式会社 符号化装置、その制御方法、および制御プログラム、並びに撮像装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
JP3264679B2 (ja) 1991-08-30 2002-03-11 沖電気工業株式会社 コード励振線形予測符号化装置及び復号化装置
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3186007B2 (ja) 1994-03-17 2001-07-11 日本電信電話株式会社 変換符号化方法、復号化方法
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
CN1252679C (zh) * 1997-03-12 2006-04-19 三菱电机株式会社 声音编码装置、声音编码译码装置、以及声音编码方法
JP3147807B2 (ja) 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
JP3063668B2 (ja) 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
CA2233896C (en) * 1997-04-09 2002-11-19 Kazunori Ozawa Signal coding system
JP3185748B2 (ja) * 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
JP3954716B2 (ja) 1998-02-19 2007-08-08 松下電器産業株式会社 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3199020B2 (ja) 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
EP1489599B1 (en) * 2002-04-26 2016-05-11 Panasonic Intellectual Property Corporation of America Coding device and decoding device
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20080275709A1 (en) * 2004-06-22 2008-11-06 Koninklijke Philips Electronics, N.V. Audio Encoding and Decoding
US20090055169A1 (en) 2005-01-26 2009-02-26 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method
JP4850827B2 (ja) 2005-04-28 2012-01-11 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4907522B2 (ja) * 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP5009910B2 (ja) * 2005-07-22 2012-08-29 フランス・テレコム レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
JP2007053497A (ja) 2005-08-16 2007-03-01 Canon Inc 映像表示装置及び映像表示方法
US8112286B2 (en) 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5113799B2 (ja) 2009-04-22 2013-01-09 株式会社ニフコ 回転ダンパー

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106664099A (zh) * 2014-08-15 2017-05-10 谷歌技术控股有限责任公司 使用统计特性编码脉冲矢量的方法

Also Published As

Publication number Publication date
EP2128858A4 (en) 2012-03-14
BRPI0808198A8 (pt) 2017-09-12
US8719011B2 (en) 2014-05-06
CN101622663B (zh) 2012-06-20
RU2463674C2 (ru) 2012-10-10
KR20090117877A (ko) 2009-11-13
JPWO2008108076A1 (ja) 2010-06-10
WO2008108076A1 (ja) 2008-09-12
EP2128858A1 (en) 2009-12-02
MX2009009229A (es) 2009-09-08
KR101414359B1 (ko) 2014-07-22
DK2128858T3 (da) 2013-07-01
BRPI0808198A2 (pt) 2014-07-08
US20100057446A1 (en) 2010-03-04
ES2404408T3 (es) 2013-05-27
EP2128858B1 (en) 2013-04-10
JP5190445B2 (ja) 2013-04-24
RU2009132936A (ru) 2011-03-10

Similar Documents

Publication Publication Date Title
CN101622663B (zh) 编码装置以及编码方法
CN102682778B (zh) 编码装置以及编码方法
CN101622664B (zh) 自适应激励矢量量化装置和自适应激励矢量量化方法
US9536533B2 (en) Linear prediction based audio coding using improved probability distribution estimation
CN102201239B (zh) 固定码本搜索装置以及固定码本搜索方法
CN102119414A (zh) 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法
JP3541680B2 (ja) 音声音楽信号の符号化装置および復号装置
EP2267699A1 (en) Encoding device and encoding method
US20050114123A1 (en) Speech processing system and method
JP3335841B2 (ja) 信号符号化装置
CN101350199A (zh) 音频编码器及音频编码方法
JP3147807B2 (ja) 信号符号化装置
CN103119650B (zh) 编码装置和编码方法
JP4293005B2 (ja) 音声音楽信号の符号化装置および復号装置
JP4438654B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140717

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170524

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

CF01 Termination of patent right due to non-payment of annual fee