CN102598123B - 编码装置、解码装置及其方法 - Google Patents

编码装置、解码装置及其方法 Download PDF

Info

Publication number
CN102598123B
CN102598123B CN201080046754.0A CN201080046754A CN102598123B CN 102598123 B CN102598123 B CN 102598123B CN 201080046754 A CN201080046754 A CN 201080046754A CN 102598123 B CN102598123 B CN 102598123B
Authority
CN
China
Prior art keywords
frequency
unit
band
spectrum
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080046754.0A
Other languages
English (en)
Other versions
CN102598123A (zh
Inventor
山梨智史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN102598123A publication Critical patent/CN102598123A/zh
Application granted granted Critical
Publication of CN102598123B publication Critical patent/CN102598123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

公开了对于宽频带信号或超宽频带信号等的信号,基于低频部的频谱数据而将高频部的频谱数据高效率地编码,改善解码信号的质量的编码装置。该编码装置使用低频侧的频谱进行频带扩展而生成高频侧的频谱,该编码装置包括:频带设定单元(301),输入频域的输入信号(输入频谱),基于输入信号的特性,生成用于将输入信号的频带分割而设定低频侧的第1频带部和高频侧的第2频带部的频带设定信息;低频编码单元(302),基于频带设定信息,对第1频带部的输入信号进行编码而生成低频部编码信息;以及高频编码单元(303),基于频带设定信息,对第2频带部的输入信号进行编码而生成高频部编码信息。

Description

编码装置、解码装置及其方法
技术领域
本发明涉及对信号进行编码并传输的通信系统所使用的编码装置、解码装置及其方法。
背景技术
通过以因特网通信为代表的分组通信系统、或移动通信系统等传输语音/音乐信号时,为了提高语音/音乐信号的传输效率,常使用压缩/编码技术。另外,近年来,单纯地以低比特率对语音/音乐信号进行编码,另一方面,对于将更宽频带的语音/音乐进行编码的技术的需求正在高涨。
对于这种需求,已经开发了在不大幅度地增加编码后的信息量而对宽频带的语音/音乐信号进行编码的各种技术。例如,在专利文献1中公开了下述技术,即,生成将一定时间的输入音响信号进行转换所得的频谱数据中的、频率的高频部的特征作为辅助信息,并将它与低频部的编码信息一起输出。
现有技术文献
专利文献
专利文献1:特开2003-255973号公报
专利文献2:国际公开第2007/052088号
发明内容
发明要解决的问题
然而,在上述专利文献1公开的频带扩展技术中,预先固定地决定输入信号的低频部以及使用辅助信息生成的高频部。因此,对于例如输入信号的高频部的频谱数据微小的情况、或者相反地高频部的频谱数据具有非常高的能量的情况、或者高频部的频谱数据为复杂的形状的情况等,都使用同一编码方法,从而存在编码效率不高的问题。特别是在以低比特率对辅助信息进行编码时,使用计算出的辅助信息生成的解码语音的质量不充分,根据情况也有可能产生异常噪声。
本发明的目的是提供对于宽频带信号(7kHz频带)或超宽频带信号(14kHz频带)等的信号,能够根据低频部的频谱数据而将高频部的频谱数据高效率地编码,改善解码信号质量的编码装置、解码装置及其方法。
解决问题的方案
本发明的编码装置的一种形态是,使用低频侧的频谱进行频带扩展而生成高频侧的频谱,所述编码装置采用的结构包括:频带设定单元,输入频域的输入信号及编码参数,基于所述编码参数,生成用于决定通过所述频带扩展所设定的高频侧的第1频带的频带设定信息,所述编码参数包括所述输入信号的编码比特率、采样频率或量化增益;以及高频编码单元,将基于所述频带设定信息决定的所述第1频带的所述输入信号进行编码而生成高频部编码信息。
本发明一实施例的编码装置,使用低频侧的频谱进行频带扩展而生成高频侧的频谱,所述编码装置包括:频带设定单元,基于输入的频域的输入信号的低频能量相对于高频能量的大小决定频带设定信息Band_Setting的值;以及高频编码单元,当所决定的所述频带设定信息Band_Setting的值为所述低频能量大于等于所述高频能量与预定常数之积时,决定将输入频谱X(k)中的、频带为预定的Max1以上的部分分割为P个子带,Max1≤k<Fmax,k为频谱的各样本的索引,Fmax为最大频带值、P=0,1…P-1,当所述频带设定信息Band_Setting的值为所述低频能量小于所述高频能量与所述常数之积时,将输入频谱X(k)中的、频带为预定的Max2以上的部分分割为P个子带,其中,Max2≤k<Fmax,Max1<Max2,对分割的P个子带部分的所述输入信号进行编码而生成高频部编码信息。
本发明的解码装置的一种形态是,接收在编码装置中生成的编码信息并进行解码,所述编码装置使用频域的输入信号的低频侧的频谱进行频带扩展而生成高频侧的频谱,所述解码装置采用的结构包括:接收单元,接收编码信息,所述编码信息包含对所述频域的高频侧即第1频带的输入信号进行编码而生成的高频部编码信息、对所述频域的低频侧的第2频带的所述输入信号进行编码而生成的低频部编码信息、以及基于所述编码信息所包含的编码参数而设定的所述第1频带的频带设定信息,所述编码参数包括所述输入信号的编码比特率、采样频率或量化增益;低频解码单元,使用所述低频部编码信息,生成所述第2频带的低频解码信号;以及高频解码单元,使用所述高频部编码信息和所述频带设定信息,生成所述第1频带的高频解码信号,并使用所述低频解码信号和所述高频解码信号而生成所述频域的解码信号。
本发明的编码方法的一种形态是,使用低频侧的频谱进行频带扩展而生成高频侧的频谱,所述编码方法包括:频带设定步骤,输入频域的输入信号及编码参数,基于所述编码参数,生成用于决定通过所述频带扩展设定的高频侧的第1频带的频带设定信息,所述编码参数包括所述输入信号的编码比特率、采样频率或量化增益;以及高频编码步骤,将基于所述频带设定信息决定的所述第1频带的所述输入信号进行编码而生成高频部编码信息。
本发明的解码方法的一种形态是,接收在编码装置中生成的编码信息并进行解码,所述编码装置使用频域的输入信号的低频侧的频谱进行频带扩展而生成高频侧的频谱,所述解码方法包括:接收步骤,接收编码信息,所述编码信息包含对所述频域的高频侧即第1频带的输入信号进行编码而生成的高频部编码信息、对所述频域的低频侧的第2频带的所述输入信号进行编码而生成的低频部编码信息、以及基于所述编码信息所包含的编码参数而设定的所述第1频带的频带设定信息,所述编码参数包括所述输入信号的编码比特率、采样频率或量化增益;低频解码步骤,使用所述低频部编码信息,生成所述第2频带的低频解码信号;以及高频解码步骤,使用所述高频部编码信息及所述频带设定信息,生成所述第1频带的高频解码信号,并使用所述低频解码信号和所述高频解码信号生成所述频域的解码信号。
发明的效果
根据本发明,能够将宽频带信号或超宽频带信号等的高频部的频谱数据高效率地编码,能够改善解码信号的质量。
附图说明
图1是表示本发明实施方式1的具有编码装置和解码装置的通信系统的结构的方框图。
图2是表示图1所示的编码装置的内部的主要结构的方框图。
图3是表示图2所示的编码单元的内部的主要结构的方框图。
图4是表示图3所示的低频编码单元的内部的主要结构的方框图。
图5是表示图3所示的高频编码单元的内部的主要结构的方框图。
图6是用于说明图5所示的滤波单元中的滤波处理的细节的图。
图7是表示在图5所示的搜索单元中对于子带SBp搜索最佳基音(pitch)系数Tp’的处理的步骤的流程图。
图8是表示图1所示的解码装置的内部的主要结构的方框图。
图9是表示图8所示的解码单元的内部的主要结构的方框图。
图10是表示图9所示的低频解码单元的内部的主要结构的方框图。
图11是表示图9所示的高频解码单元的内部的主要结构的方框图。
图12是表示本发明的实施方式2的编码装置的内部的主要结构的方框图。
图13是表示图12所示的第2层编码单元的内部的主要结构的方框图。
图14是表示图13所示的低频编码单元的内部的主要结构的方框图。
图15是表示图13所示的高频编码单元的内部的主要结构的方框图。
图16是表示本发明的实施方式2的解码装置的内部的主要结构的方框图。
图17是表示图16所示的第2层解码单元的内部的主要结构的方框图。
图18是表示图17所示的高频解码单元的内部的主要结构的方框图。
图19是表示本发明实施方式3的编码装置的内部的主要结构的方框图。
图20是表示图19所示的第2层编码单元的内部的主要结构的方框图。
图21是表示图20所示的高频编码单元的内部的主要结构的方框图。
图22是表示本发明实施方式3的解码装置的内部的主要结构的方框图。
图23是表示图22所示的第2层解码单元的内部的主要结构的方框图。
图24是表示本发明实施方式4的编码装置的内部的主要结构的方框图。
图25是表示图24所示的第2层编码单元的内部的主要结构的方框图。
图26是表示图25所示的频带扩展编码单元的内部的主要结构的方框图。
图27是表示图25所示的残差频谱编码单元的内部的主要结构的方框图。
图28的(a)~(c)是示意地表示各层中编码/解码的频谱的频带和信息量(编码比特率)之间的对应关系的图。
图29是表示本发明实施方式4的解码装置的内部的主要结构的方框图。
图30是表示图29所示的第2层解码单元的内部的主要结构的方框图。
图31是表示图30所示的残差频谱解码单元的内部的主要结构的方框图。
图32是表示图30所示的频带扩展解码单元的内部的主要结构的方框图。
图33的(a)~(c)是示意地表示各层中编码/解码的频谱的频带和信息量(编码比特率)之间的另外的对应关系的图。
标号说明
101、111、121、131 编码装置
102 传输路径
103、113、123、133 解码装置
201、802、1005、1404、1406、2405、2804、2806 正交变换处理单元
202 编码单元
301、1101、1801 频带设定单元
302、1102 低频编码单元
303、1103、1802 高频编码单元
902、1502 低频解码单元
903、1503、2002 高频解码单元
304、404、507、1104、1204、1307、1803、2503、2704 复用单元
401、2701 编码对象频谱计算单元
402、1202、2702 形状编码单元
403、506、1203、1306、2703 增益编码单元
501、1301、1311、2601 频带分割单元
502、922、1302、1602、3102 滤波状态设定单元
503、923、1303、1603、3103 滤波单元
505、1305 搜索单元
504、1304 基音系数设定单元
801 解码单元
901、911、921、1501、1601、2001、2901、3001、3101 分离单元
1504 频谱合成单元
912、3002 形状解码单元
913、924、1604、3003、3104 增益解码单元
925、1605、3105 频谱调整单元
1001、2401 下采样处理单元
1002、2402 第1层编码单元
1003、1402、2403、2802 第1层解码单元
1004、1403、2404、2803 上采样处理单元
1006、1701、2406 第2层编码单元
1007、2407 编码信息合并单元
201 差分频谱计算单元
1401、2801 编码信息分离单元
1405、1901、2805 第2层解码单元
2501 频带扩展编码单元
2502 残差频谱编码单元
2602、3106 相加频谱计算单元
2902 残差频谱解码单元
2903 频带扩展解码单元
具体实施方式
以下,参照附图详细地说明本发明的实施方式。并且,作为本发明的编码装置及解码装置,以语音编码装置及语音解码装置为例进行说明。
(实施方式1)
图1是表示本发明实施方式1的具有编码装置及解码装置的通信系统的结构的方框图。在图1中,通信系统具有编码装置101和解码装置103,分别处于可经由传输路径102进行通信的状态。并且,编码装置101及解码装置103通常都被安装在基站装置或通信终端装置等中来使用。
编码装置101以N样本为单位划分输入信号(N为自然数),将N样本作为1帧,对每帧进行编码。这里,将作为编码对象的输入信号表示为xn(n=0、…、N-1)。n表示以N样本为单位划分的输入信号中的第n+1的信号要素。编码装置101经由传输路径102向解码装置103发送编码后的输入信息(以下称为“编码信息”)。
解码装置103接收经由传输路径102从编码装置101发送的编码信息,对其进行解码,得到输出信号。
图2是表示图1所示的编码装置101的内部主要结构的方框图。编码装置101主要由正交变换处理单元201及编码单元202构成。
正交变换处理单元201的内部具有缓冲器buf1n(n=0、…、N-1),对输入信号xn进行改进离散余弦变换(MDCT:Modified Discrete CosineTransform)。
接下来,说明正交变换处理单元201中的正交变换处理的计算步骤和向内部缓冲器的数据输出。
首先,正交变换处理单元201通过下式(1)将缓冲器buf1n的初始值初始化为“0”。
buf1n=0(n=0,…,N-1)…(1)
接着,正交变换处理单元201根据下式(2),对输入信号xn进行改进离散余弦变换(MDCT),求输入信号的MDCT系数(以下,称为“输入频谱”)X(k)。
X ( k ) = 2 N &Sigma; n = 0 2 N - 1 x n &prime; cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] , ( k = 0 , . . . , N - 1 ) . . . ( 2 )
其中,k表示1帧中的各样本的索引。正交变换处理单元201根据下式(3)求将输入信号xn与缓存器buf1n结合所得的向量即xn’。
x n &prime; = buf 1 n ( n = 0 , . . . N - 1 ) x n - N ( n = N , . . . 2 N - 1 ) . . . ( 3 )
接着,正交变换处理单元201通过式(4)对缓冲器buf1n进行更新。
buf1n=xn(n=0,…N-1)…(4)
另外,正交变换处理单元201将输入频谱X(k)输出到编码单元202。
从正交变换处理单元201、输入频谱X(k)被输入到编码单元202。编码单元202将输入频谱X(k)进行编码,并生成编码信息。接着,编码单元202经由传输路径102将生成的编码信息发送到解码装置103。
图3是表示图2所示的编码单元202的内部的主要结构的方框图。使用图3,说明编码单元202中的处理的细节。编码单元202主要由频带设定单元301、低频编码单元302、高频编码单元(频带扩展单元)303以及复用单元304构成。各单元进行以下的动作。
输入频谱X(k)从正交变换处理单元201被输入到频带设定单元301。频带设定单元301对输入频谱X(k)的频谱特性进行分析,根据分析结果,设定在低频编码单元302及高频编码单元(频带扩展单元)303中分别作为编码对象的频带。接着,频带设定单元301将表示所设定的频带的频带设定信息输出到低频编码单元302、高频编码单元303以及复用单元304。
接着,说明频带设定单元301中的、频带设定信息的计算方法。
频带设定单元301首先对于输入频谱X(k),根据式(5-1)算出频带为THLow以下的局部能量(低频能量)ELow,根据式(5-2)算出频带为THHigh以上的局部能量(高频能量)EHigh。这里,假设THLow及THHigh是预先决定的阈值,存在THLow<THHigh的关系。另外,式(5-2)中,Fmax是最大频带值(最大的频率值)。
E Low = &Sigma; k = 0 TH Low X ( k ) 2 . . . ( 5 - 1 )
E High = &Sigma; k = TH High F max X ( k ) 2 . . . ( 5 - 2 )
接着,频带设定单元301将通过式(5-1)算出的低频能量ELow的大小和通过式(5-2)算出的高频能量EHigh的大小进行比较,根据下式(6),决定频带设定信息Band_Setting。也就是说,频带设定单元301基于输入频谱的能量特性,生成用于分割输入频谱的频带而设定低频侧的频带(低频部)及高频侧的频带(高频部)的频带设定信息。这里,式(6)中的为预先决定的常数。
Band _ Setting = 0 ( if E Low &GreaterEqual; &gamma; &CenterDot; E High ) 1 ( else ) . . . ( 6 )
也就是说,在低频能量ELow相对于高频能量EHigh大到某种程度的情况下,频带设定单元301将频带设定信息Band_Setting的值设为“0”,在不是这样的情况下,将频带设定信息Band_Setting的值设定为“1”。频带设定单元301将决定的频带设定信息Band_Setting输出到低频编码单元302、高频编码单元303以及复用单元304。
输入频谱X(k)从正交变换处理单元201被输入到低频编码单元302。另外,从频带设定单元301,频带设定信息Band_Setting被输入到低频编码单元302。低频编码单元302基于频带设定信息Band_Setting,将输入频谱X(k)进行编码,生成低频部编码信息。接着,低频编码单元302将低频部编码信息输出到复用单元304。在后面叙述低频编码单元302中的处理的细节。
输入频谱X(k)从正交变换处理单元201被输入到高频编码单元303。另外,频带设定信息Band_Setting从频带设定单元301被输入到高频编码单元303。高频编码单元303基于频带设定信息Band_Setting,将输入频谱X(k)进行编码,生成高频部编码信息(频带扩展信息)。接着,高频编码单元303将高频部编码信息输出到复用单元304。在后面叙述高频编码单元303中的处理的细节。
复用单元304将从频带设定单元301、低频编码单元302、以及高频编码单元303分别输入的频带设定信息、低频部编码信息、以及高频部编码信息进行复用,并作为编码信息输出到传输路径102。
图4是表示低频编码单元302的内部结构的方框图。低频编码单元302主要由编码对象频谱计算单元401、形状编码单元402、增益编码单元403、以及复用单元404构成。各单元进行以下的动作。
频带设定信息Band_Setting从频带设定单元301被输入到编码对象频谱计算单元401。另外,输入频谱X(k)从正交变换处理单元201被输入到编码对象频谱计算单元401。编码对象频谱计算单元401基于频带设定信息Band_Setting的值,决定作为编码对象的频带,仅将输入频谱X(k)中的、相应的频带的频谱输出到形状编码单元402。
具体而言,在频带设定信息Band_Setting的值为“0”的情况下,编码对象频谱计算单元401将输入频谱X(k)中的、频带为Max1以下(k≤Max1)的频谱输出到形状编码单元402作为编码对象频谱X’(k)。另外,在频带设定信息Band_Setting的值为“1”的情况下,编码对象频谱计算单元401将输入频谱X(k)中的、频带为Max2以下(k≤Max2)的频谱输出到形状编码单元402作为编码对象频谱X’(k)。
这里,假设Max1和Max2存在Max1<Max2的关系。也就是说,在频带设定信息Band_Setting的值为“0”的情况下,编码对象频谱计算单元401选择输入频谱X(k)的中更低频侧的频谱作为编码对象频谱X’(k)。另一方面,在频带设定信息Band_Setting的值为“1”的情况下,编码对象频谱计算单元401选择在输入频谱X(k)中,与频带设定信息Band_Setting的值为“0”时相比,带宽大的部分的频谱作为编码对象频谱X’(k)。
形状编码单元402对于从编码对象频谱计算单元401输入的编码对象频谱X’(k),每子带地进行形状量化。具体而言,首先,形状编码单元402は将编码对象频谱X’(k)分割为L个的子带。接着,形状编码单元402对于L个的各子带,搜索由SQ个的形状码向量构成的内置的的形状码本,求使下式(7)的评价尺度Shape_q(i)为最大的形状码向量的索引。
Shape _ q ( i ) = { &Sigma; k = 0 BW ( j ) ( X &prime; ( k + BS ( j ) ) &CenterDot; SC k i ) } 2 &Sigma; k = 0 BW ( j ) SC k i &CenterDot; SC k i ( j = 0 , . . . , L - 1 , i = 0 , . . . , SQ - 1 ) . . . ( 7 )
在该式中,SCi k表示构成形状码本的形状码向量,i表示形状码向量的索引,k表示形状码向量的元素的索引。另外,BW(j)表示频带索引为j的频带的带宽,BS(j)表示构成频带索引为j的频带的频谱的最小索引。
形状编码单元402将使上式(7)的评价尺度Shape_q(i)为最大的形状码向量的索引S_max输出到复用单元404作为形状编码信息。另外,形状编码单元402根据下式(8),计算理想增益Gain_i(j),并将其输出到增益量化单元403。
Gain _ i ( j ) = &Sigma; k = 0 BW ( j ) ( X &prime; ( k + BS ( j ) ) &CenterDot; SC k S _ max ) &Sigma; k = 0 BW ( j ) SC k S _ max &CenterDot; SC k S _ max , ( j = 0 , . . . , L - 1 ) . . . ( 8 )
增益编码单元403根据下式(9),对从形状编码单元402输入的理想增益Gain_i(j)进行直接量化。这里也是,增益编码单元403将理想增益处理为L维向量,搜索由GQ个的增益码向量构成的内置的增益码本,进行向量量化。
Gain _ q ( i ) = { &Sigma; j = 0 L - 1 { Gain _ i ( j ) - GC j i } } 2 , ( i = 0 , . . . , GQ - 1 ) . . . ( 9 )
增益编码单元403求使上式(9)的均方误差Gain_q(i)为最小的增益码向量的索引G_min。增益编码单元403将G_min输出到复用单元404作为增益编码信息。
复用单元404将从形状编码单元402输入的形状编码信息S_max、以及从增益编码单元403输入的增益编码信息G_min进行复用,并将其作为低频部编码信息输出到复用单元304。另外,也可以将形状编码信息和增益编码信息直接输入到复用单元304,通过复用单元304将其与高频部编码信息进行复用。
以上是低频编码单元302的结构的说明。
图5是表示高频编码单元303的内部结构的方框图。高频编码单元303包括:频带分割单元501、滤波状态设定单元502、滤波单元503、搜索单元505、基音系数设定单元504、增益编码单元506、以及复用单元507,各单元进行以下的动作。
输入频谱X(k)从正交变换处理单元201被输入到频带分割单元501。另外,频带设定信息Band_Setting从频带设定单元301被输入到频带分割单元501。频带分割单元501基于频带设定信息Band_Setting的值,将输入频谱X(k)的高频部分割为P个子带SBp(p=0,1,…,P-1)。然后,频带分割单元501将各个子带的带宽BWp(p=0,1,…,P-1)及开头索引BSp(p=0,1,…,P-1)输出到滤波单元503、搜索单元505以及复用单元507作为频带分割信息。
具体而言,在频带设定信息Band_Setting的值为“0”的情况下,频带分割单元501将输入频谱X(k)中的、频带为Max1以上(Max1≤k<Fmax)的部分分割为P个的子带SBp(p=0,1,…,P-1)。另外,在频带设定信息Band_Setting的值为“1”的情况下,频带分割单元501将输入频谱X(k)中的、频带为Max2以上(Max2≤k<Fmax)的部分分割为P个的子带SBp(p=0,1,…,P-1)。这里,Fmax取最大频带的值。另外,以下将输入频谱X(k)中的、子带SBp的部分记作子带频谱Xp(k)(BSp≤k<BSp+BWp)。
滤波状态设定单元502将从正交变换处理单元201输入的输入频谱X(k)设定为滤波单元503中使用的滤波状态。作为滤波单元503中全频带0≤k<Fmax的频谱S(k)的(0≤k<Max1)或(0≤k<Max2)的频带中的滤波的内部状态(滤波状态),存储输入频谱X(k)。滤波状态设定单元502将设定了的滤波状态输出到滤波单元503。
滤波单元503具有多抽头(抽头数大于1)的基音滤波(pitch filter)。滤波单元503基于滤波状态设定单元502设定的滤波状态和从基音系数设定单元504输入的基音系数T,对输入频谱X(k)进行滤波,计算输入频谱的估计值S’(k)(FL≤k<FH)(以下,称为“估计频谱”)。滤波单元503将估计频谱S'(k)输出到搜索单元505。另外,在后面叙述滤波单元503中的滤波处理的细节。
搜索单元505分别对于从正交变换处理单元201输入的输入频谱X(k)和从滤波单元503输入的估计频谱S’(k),计算由频带分割单元501分割的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax))的相似度。该相似度的计算例如是通过相关运算等来进行的。
另外,滤波单元503、搜索单元505以及基音系数设定单元504的处理构成闭环。在该闭环中,搜索单元505通过使从基音系数设定单元504输入到滤波单元503的基音系数T产生各种变化,从而计算与各个基音系数对应的相似度。另外,搜索单元505将计算出的相似度中的、相似度为最大的基音系数输出到复用单元507作为最佳基音系数T’。另外,搜索单元505将估计频谱S'(k)输出到增益编码单元506。
基音系数设定单元504在搜索单元505的控制下,使基音系数T在搜索范围(Tmin≤T<Tmax)内一点一点地变化,同时将变化后的基音系数T依次输出到滤波单元503。
增益编码单元506对于从正交变换处理单元201输入的输入频谱X(k),计算由频带分割单元501分割的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax))的增益信息。具体而言,增益编码单元506将高频部的频带((Max1≤k<Fmax)或(Max2≤k<Fmax))分割为J个子带,求输入频谱X(k)的每个子带的频谱功率。此时,第j子带的频谱功率B(j)通过下式(10)表示。
B ( j ) = &Sigma; k = BL j BH j X ( k ) 2 , ( j = 0 , . . . , J - 1 ) . . . ( 10 )
在式(10)中,BLj表示第j子带的最小频率,BHj表示第j子带的最大频率。另外,增益编码单元506同样根据下式(11)计算从搜索单元505输入的估计频谱S'(k)的每个子带的频率功率B'(j)。
B &prime; ( j ) = &Sigma; k = BL j BH j S &prime; ( k ) 2 , ( j = 0 , . . . , J - 1 ) . . . ( 11 )
接着,增益编码单元506根据下式(12)计算对输入频谱X(k)的估计频谱的每个子带的变动量V(j)。
V ( j ) = B ( j ) B &prime; ( j ) , ( j = 0 , . . . , J - 1 ) . . . ( 12 )
另外,增益编码单元506使用内置的增益编码用的码本,对变动量V(j)进行编码,并将与编码后的变动量Vq(j)对应的索引输出到复用单元507。
复用单元507将从搜索单元505输入的最佳基音系数T’和从增益编码单元506输入的变动量V(j)的索引进行复用而作为高频部编码信息,并将其输出到复用单元304。另外,也可以将最佳基音系数T’和变动量V(j)的索引直接输入到复用单元304,并在复用单元304中将其与低频部编码信息复用。
接着,使用图6说明在滤波单元503中的滤波处理的细节。
滤波单元503根据由频带分割单元501分割的频带,使用从基音系数设定单元504输入的基音系数T,生成(Max1≤k<Fmax)或(Max2≤k<Fmax)的频带的频谱S(k)。滤波单元503的传递函数通过下式(13)表示。
F ( z ) = 1 1 + &Sigma; i = - M M &beta; i z - T + i . . . ( 13 )
在式(13)中,T表示由基音系数设定单元504提供的基音系数,表示预先存储在内部的滤波系数。另外、在式(13)中,M是与抽头数有关的指标,例如,在抽头数为3的情况下,设为M=1。在抽头数为3的情况下,作为滤波系数的候补,举例 ( a ^ - 1 , a ^ 0 , a ^ 1 ) = ( 0.1,0.8,0.1 ) 作为一例。此外, ( a ^ - 1 , a ^ 0 , a ^ 1 ) = ( 0.2,0.6,0.2 ) , (0.3、0.4、0.3)等的值也适合。
首先,在滤波单元503中的全频带的频谱S(k)的(0≤k<Max1)或(0≤k<Max2)的频带中,存储输入频谱X(k)作为滤波的内部状态(滤波状态)。
进而,在频谱S(k)的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax))中,通过以下步骤的滤波处理,存储估计频谱S’(k)。另外,通常将比该k低T的频率的频谱S(k-T)代入估计频谱S’(k)。但是,为了增加频谱的平滑性,实际上是对于所有的i将对距频谱S(k-T)为i的附近的频谱S(k-T+i)乘以规定的滤波系数后所得的相加所得的频谱代入S’(k)该处理用下式(14)表示。
S &prime; ( k ) = &Sigma; i = - 1 1 &beta; i &CenterDot; S ( k - T + i ) 2 . . . ( 14 )
滤波单元503通过按照从频率低的k=Max1或k=Max2开始依序在频带Max1≤k<Fmax或频带Max2≤k<Fmax的范围内变更k而进行上述运算,从而计算高频部的频带((Max1≤k<Fmax)或(Max2≤k<Fmax))中的估计频谱S’(k)。
在每次由基音系数设定单元504提供基音系数T时,在高频部的频带((Max1≤k<Fmax)或(Max2≤k<Fmax))的范围内,每次将频谱S(k)清零后进行以上的滤波处理。也就是说,每次基音系数T发生变化时,都计算频谱S(k),并将其输出到搜索单元505。
图7是表示图5所示的搜索单元505中对于子带SBp搜索最佳基音系数Tp’的处理步骤的流程图。并且,搜索单元505通过重复图7所示的步骤,搜索与各个子带SBpp=0,1,…,P-1)对应的最佳基音系数Tp’(p=0,1,…,P-1)。
首先,搜索单元505将用于保存相似度最小值的变量即最小相似度Dmin初始化为“+∞”(ST2010)。接着,搜索单元505根据下式(15),计算某个基音系数的输入频谱X(k)的高频部(((Max1≤k<Fmax)或(Max2≤k<Fmax))与估计频谱S'(k)之间的相似度D(ST2020)。
D = &Sigma; k = 0 M &prime; X ( BS p + k ) &CenterDot; X ( BS p + k ) - ( &Sigma; k = 0 M &prime; X ( BS p + k ) &CenterDot; S &prime; ( BS p + k ) ) 2 &Sigma; k = 0 M &prime; S &prime; ( BS p + k ) &CenterDot; S &prime; ( BS p + k ) , ( 0 < M &prime; &le; BW p ) . . . ( 15 )
在式(15)中,M’表示计算相似度D时的样本数,可以是各个子带的带宽以下的任意值。
接着,搜索单元505判定计算出的相似度D是否小于最小相似度Dmin(ST2030)。当在ST2020中计算出的相似度D小于最小相似度Dmin时(ST2030:“是”),搜索单元505将相似度代入最小相似度Dmin(ST2040)。另一方面,在ST2020中计算出的相似度D为最小相似度Dmin以上时(ST2030:“否”),搜索单元505判定搜索范围是否已结束(ST2050)。也就是说,搜索单元505判定是否对于搜索范围内的所有基音系数,分别在ST2020中根据上式(15)计算了相似度D。在搜索范围未结束时(ST2050:“否”),搜索单元505将处理再次返回到ST2020。然后,搜索单元505对于与上次在ST2020的步骤中根据式(15)计算出相似度D时不同的基音系数,按照式(15)计算相似度D。另一方面,在搜索范围结束了时(ST2050:“是”),搜索单元505将与最小相似度Dmin对应的基音系数T作为最佳基音系数Tp’输出到复用单元507(ST2060)。
以上是高频编码单元303的处理的说明。
以上是编码装置101的结构的说明。
接着,说明图1所示的解码装置103。
图8是表示解码装置103的内部主要结构的方框图。解码装置103主要由解码单元801以及正交变换处理单元802构成。各单元进行以下的动作。
从编码装置101传输的编码信息经由传输路径102被输入到解码单元801。解码单元801将输入的编码信息解码,并将解码所得频谱数据(解码频谱)输出到正交变换处理单元802。在后面叙述解码单元801的处理的细节。
频谱数据(解码频谱)从解码单元801被输入到正交变换处理单元802。正交变换处理单元802对频谱数据(解码频谱)进行正交变换,而将其变换为时域信号。正交变换处理单元802输出所获得的信号作为输出信号。在后面叙述正交变换处理单元802的处理的细节。
图9是表示图8所示的解码单元801的内部结构的方框图。解码单元801主要由分离单元901、低频解码单元902以及高频解码单元(频带扩展单元)903构成。
从编码装置101传输的编码信息经由传输路径102被输入到分离单元901。分离单元901将编码信息分离为低频部编码信息、高频部编码信息以及频带设定信息。另外,分离单元901将低频部编码信息输出到低频解码单元902,将高频部编码信息(频带扩展信息)输出到高频解码单元903,并将频带设定信息输出到低频解码单元902以及高频解码单元903。
低频部编码信息和频带设定信息从分离单元901被输入到低频解码单元902。低频解码单元902根据输入的低频部编码信息以及频带设定信息生成低频部解码频谱,将将生成的低频部解码频谱输出到高频解码单元903。在后面叙述低频解码单元902的处理的细节。
高频部编码信息和频带设定信息从分离单元901被输入到高频解码单元903。另外,低频部解码频谱从低频解码单元902被输入到高频解码单元903。高频解码单元903根据输入的低频部解码频谱、高频部编码信息以频带设定信息,生成解码频谱,并将生成的解码频谱输出到正交变换处理单元802。在后面叙述高频解码单元903的处理的细节。
图10是表示低频解码单元902的内部结构的方框图。低频解码单元902主要由分离单元911、形状解码单元912以及增益解码单元913构成。各单元进行以下的动作。
分离单元911将从分离单元901输入的低频部编码信息分离为形状编码信息S_max以及增益编码信息G_min,将分离后的形状编码信息S_max输出到形状解码单元912,将增益编码信息G_min输出到增益解码单元913。另外,在分离单元901中,也可以直接从编码信息分离形状编码信息和增益编码信息。
形状解码单元912内置有与低频编码单元302的形状编码单元402具备的形状码本同样的形状码本,搜索以从分离单元911输入的形状编码信息S_max作为索引的形状码向量。形状解码单元912将搜索出的形状码向量输出到增益解码单元913作为从分离单元901输入的频带设定信息Band_Setting所表示的编码对象频谱的形状的值。这里,作为形状的值而搜索出的形状码向量记为Shape_q’(k)。
增益解码单元913内置有与低频编码单元302的增益编码单元403具备的增益码本同样的增益码本,使用该增益码本,按照下式(16),根据增益编码信息对增益的值进行反量化。这里,也是将增益值作为L维向量来处理,进行向量反量化。也就是说,将与增益编码信息G_min对应的增益码向量GCj G_min直接作为增益值Gain_q’(j)。
Gain _ q &prime; ( j ) = GC j G _ min , ( j = 0 , . . . , L - 1 ) . . . ( 16 )
接着,增益解码单元913使用通过反量化获得的增益值以及从形状解码单元912输入的形状的值,根据下式(17)计算低频部解码频谱S1(k),并将计算出的低频部解码频谱S1(k)输出到高频解码单元903。另外,在频谱(MDCT系数)的反量化中,k存在于B(j”)~B(j”+1)-1内的情况下,增益值Gain_q’(j)取Gain_q’(j”)的值。
S 1 ( k ) = Gain _ q &prime; ( j ) &CenterDot; Shape _ q &prime; ( k ) k = BL j , . . . , BH j j = 0 , . . . , L - 1 . . . ( 17 )
图11是表示高频解码单元903的内部结构的方框图。高频解码单元903主要由分离单元921、滤波状态设定单元922、滤波单元923、增益解码单元924以及频谱调整单元925构成,各单元进行以下的动作。
分离单元921将从分离单元901输入的高频部编码信息分离为与滤波有关的信息即最佳基音系数T’和与增益有关的信息即编码后的变动量Vq(j)的索引。接着,分离单元921将最佳基音系数T’输出到滤波单元923,将编码后的变动量Vq(j)的索引输出到增益解码单元924。另外,在分离单元901中最佳基音系数T'、编码后变动量Vq(j)的索引分离完毕的情况下,也可以不配置分离单元921。
滤波状态设定单元922基于从分离单元901输入的频带设定信息Band_Setting,将从低频解码单元902输入的低频部解码频谱S1(k)设定为滤波单元923中使用的滤波状态。这里,为了便利而将滤波单元923中的全频带0≤k<Fmax的频谱称为S(k)时,在频谱S(k)内的、频带设定信息Band_Setting所表示的低频部((0≤k<Max1)或(0≤k<Max2))的频带中存储低频部频谱S1(k)作为滤波的内部状态(滤波状态)。这里,滤波状态设定单元922的结构及动作与图5所示的滤波状态设定单元502相同,因此省略详细说明。
滤波单元923具有多抽头(抽头数大于1)的基音滤波。滤波单元923基于由滤波状态设定单元922设定的滤波状态、从分离单元921输入的基音系数T’、预先存储在内部的滤波系数、从分离单元901输入的频带设定信息Band_Setting,将低频部解码频谱S1(k)进行滤波。另外,如下式(18)所示,滤波单元923计算输入频谱S(k)的估计频谱S’(k)。
S &prime; ( k ) = &Sigma; i = - 1 1 &beta; i &CenterDot; S 1 ( k - T + i ) 2 . . . ( 18 )
滤波单元923也使用上式(13)所示的传递函数。滤波单元923将滤波所得的估计频谱S’(k)输出到频谱调整单元925。
增益解码单元924基于从分离单元901输入的频带设定信息Band_Setting,将从分离单元921输入的编码后的变动量Vq(j)的索引进行解码,求变动量V(j)的量化值即编码后的变动量Vq(j)。这里,对于增益解码单元924而言,用于编码后的变动量Vq(j)的索引的解码的增益码本是内置于增益解码单元924内的增益码本,并且是与图5所示的增益编码单元506使用的增益码本同样的码本。增益解码单元924将解码所得的编码后的变动量Vq(j)输出频谱调整单元925。
频谱调整单元925根据下式(19),对于从分离单元901输入的频带设定信息Band_Setting所指定的高频部,对从滤波单元923输入的估计频谱S’(k)乘以从增益解码单元924输入的每个样本的编码后的变动量Vq(j)。由此,频谱调整单元925对估计频谱S'(k)的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax))中的频谱形状进行调整,生成解码频谱S2(k),并将其输出到正交变换处理单元802。
S 2 ( k ) = S &prime; ( k ) &CenterDot; V q ( j ) Max 1 &le; k < F max orMax 2 &le; k < F max j = 0 , . . . , J - 1 . . . ( 19 )
另外,在式(19)中,j表示对增益进行编码时的子带索引,并且是根据频谱的索引k而设定的。也就是说,对于子带索引为j”的子带所包含的频谱索引k,对估计频谱S’(k)乘以Vq(j”)。
这里,解码频谱S2(k)的低频部((0≤k<Max1)或(0≤k<Max2))由第1层解码频谱S1(k)构成,解码频谱S2(k)的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax))由频谱形状调整后的估计频谱S’(k)构成。
以下,对正交变换处理单元802中的具体处理进行说明。
正交变换处理单元802在其内部具有缓存器buf2(k),如下式(20)所示,对缓存器buf2(k)进行初始化。
buf 2(k)=0(k=0,…,N-1)…(20)
另外,正交变换处理单元802使用从频谱调整单元925输入的解码频谱S2(k),根据下式(21),求解码信号yn,并将其输出。
y n = 2 N &Sigma; n = 0 2 N - 1 Z ( k ) cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] , ( n = 0 , . . . , N - 1 ) . . . ( 21 )
在式(21)中,如下式(22)所示,Z(k)是将解码频谱S2(k)与缓冲器buf2(k)结合所得的向量。
Z ( k ) = buf 2 ( k ) ( k = 0 , . . . N - 1 ) S 2 ( k = N , . . . 2 N - 1 ) . . . ( 22 )
接着,正交变换处理单元802根据下式(23)更新缓冲器buf2(k)。
buf 2(k)=S2(k)(k=0,…,N-1)…(23)
接着,正交变换处理单元802将解码信号yn作为输出信号输出。
以上,说明了解码装置103的内部结构。
这样,根据本实施方式,在使用低频部的频谱进行频带扩展而生成/估计高频部的频谱的编码/解码方式中,编码装置/解码装置根据输入信号的特性,自适应地决定频带的设定即低频部和高频部分别为哪个频带。由此,能够对宽频带信号或超宽频带信号等的高频部的频谱数据高效率地进行编码,从而能够改善解码信号的质量。
具体而言,频带设定单元301将输入信号的频谱数据的低频部的能量和高频部分的能量进行比较,在低频部的能量与高频部的能量相比非常大的情况下,将低频部设定得更窄,将高频部设定得更宽。由此,在输入信号为语音时,能够通过形状增益编码方式,对给解码信号的质量造成较大影响的低频部的频谱数据集中地进行编码,从而能够提高解码信号的质量。另一方面,在低频部的能量与高频部的能量相比不是那么大的情况下,频带设定单元301将低频部设定得更宽,将高频部设定得更窄。由此,直至更高频部分为止能够通过形状增益编码方式减小编码失真,从而能够提高在输入信号为音频的情况下对解码信号的质量造成较大影响的音域感。
另外,在本实施方式中说明了,在高频编码单元303内的频带分割单元501和增益编码单元506中,分割为相互不同的子带构成的结构,但本发明并不限于此,即使对于分割为相同子带构成的结构也同样能够适用。
另外,在本实施方式中说明了,在高频编码单元303内的频带分割单元501中,无论频带设定信息Band_Setting的值如何,都将高频部的频谱分割为P个的结构。但是,本发明并不限于此,对于根据频带设定信息Band_Setting的值而将子带分割为不同个数的结构,也同样能够适用。例如,频带设定信息Band_Setting为“0”的情况与频带设定信息Band_Setting为“1”的情况相比,高频部的频谱的带宽变宽,所以此时分割为比P个大的个数。由此,能够防止由子带宽过大造成的编码性能的劣化。
另外,在本实施方式中说明了下述结构,即,在高频编码单元303中将输入频谱的低频部设定为滤波状态,搜索与输入频谱的高频部分类似的频谱的位置。但是,本发明并不限于此,即使对于下述结构也能够同样适用,即,对于将从低频编码单元输出的低频部编码信息进行解码所得的低频部解码频谱,搜索与输入频谱的高频部分类似的频谱的位置。在采用上述结构的情况下,利用也能够在解码装置侧获得的低频部解码频谱,所以能够保证在解码装置侧的动作。
另外,在采用上述结构的情况下,在编码单元202内新具备低频部解码单元,并需要从低频解码单元将低频部解码频谱输出到高频编码单元303,该低频部解码单元进行用于计算低频部解码频谱的本地(local)解码。
(实施方式2)
本发明实施方式2说明下述结构,即,新具备用于对频谱数据的低频部进行编码的第1层编码单元,对于输入信号的频谱数据和第1层编码单元的编码结果之间的差分数据,适用在实施方式1的编码方法。另外,以下说明将适用实施方式1说明的编码方法的编码层单元作为第2层编码单元。
实施方式2的通信系统(未图示)与图1所示的通信系统基本上是同样的,仅在编码装置、解码装置的结构及动作的一部分与图1的通信系统的编码装置101、解码装置103不同。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“111”及“113”进行说明。
图12是表示本实施方式的编码装置111的内部的主要结构的方框图。另外,本实施方式的编码装置111主要包括:下采样处理单元1001、第1层编码单元1002、第1层解码单元1003、上采样处理单元1004、正交变换处理单元1005、第2层编码单元1006、以及编码信息合并单元1007。各单元进行以下的动作。
将输入信号xn的采样频率设为SRinput,下采样处理单元1001对输入信号的采样频率从SRinput至SRbase为止进行下采样(SRbase<SRinput),将下采样后的输入信号输出到第1层编码单元1002作为下采样后的输入信号。
第1层编码单元1002对于从下采样处理单元1001输入的下采样后输入信号,例如使用CELP(Code Excited Linear Prediction:码激励线性预测)方式的语音编码方法进行编码,生成第1层编码信息。然后,第1层编码单元1002将生成的第1层编码信息输出到第1层解码单元1003及编码信息合并单元1007。
第1层解码单元1003对于从第1层编码单元1002输入的第1层编码信息,例如使用CELP方式的语音解码方法进行解码,生成第1层解码信号。然后,第1层解码单元1003将生成的第1层解码信号输出到上采样处理单元1004。
上采样处理单元1004将从第1层解码单元1003输入的第1层解码信号的采样频率从SRbase至SRinput为止进行上采样。然后,上采样处理单元1004将上采样后的第1层解码信号输出到正交变换处理单元1005作为上采样后的第1层解码信号c1n
正交变换处理单元1005的内部具有缓冲器buf1n和buf2n(n=0、…、N-1)。正交变换处理单元1005对输入信号xn以及从上采样处理单元1004输入的上采样后的第1层解码信号c1n进行改进离散余弦变换(MDCT:ModifiedDiscrete Cosine Transform)。正交变换处理单元1005对输入信号xn以及上采样后第1层解码信号c1n进行正交变换处理,分别计算输入频谱X(k)以及第1层解码频谱C(k)。正交变换处理单元1005的处理与在实施方式1说明的处理是同样的,所以省略其说明。正交变换处理单元1005将所获得的输入频谱X(k)和第1层解码频谱C(k)输出到第2层编码单元1006。
第2层编码单元1006使用从正交变换处理单元1005输入的输入频谱X(k)和第1层解码频谱C(k)生成第2层编码信息,将生成的第2层编码信息输出到编码信息合并单元1007。另外,在后面叙述第2层编码单元1006的详细情况。
编码信息合并单元1007将从第1层编码单元1002输入的第1层编码信息和从第2层编码单元1006输入的第2层编码信息合并。接着,编码信息合并单元1007对合并后的信息源码,如果需要则在附加传输差错码等之后,将其输出到传输路径102作为编码信息。
接着,使用图13说明图12所示的第2层编码单元1006的内部主要结构。
第2层编码单元1006主要由频带设定单元1101、低频编码单元1102、高频编码单元(频带扩展单元)1103以及复用单元1104构成。各单元进行以下的动作。
输入频谱X(k)和第1层解码频谱C(k)从正交变换处理单元1005被输入到频带设定单元1101。频带设定单元1101对输入频谱X(k)和第1层解码频谱C(k)的频谱特性进行分析,根据分析结果,分别设定在低频编码单元1102和高频编码单元(频带扩展单元)1103中作为编码对象的频带。接着,在频带设定单元1101中,将其作为频带设定信息,输出到低频编码单元1102、高频编码单元1103以及复用单元1104。
接着,说明频带设定单元1101中的、频带设定信息的计算方法。
频带设定单元1101首先通过式(24),计算输入频谱X(k)和第1层解码频谱C(k)之间的差分频谱Csub(k)。另外,在式(24)中,Fmax是最大频带值(最大的频率值)。
Csub(k)=X(k)-S1(k)(k=0,…,Fmax)…(24)
接着,频带设定单元1101对差分频谱Csub(k),根据式(25-1)计算频带为THLow以下的部分的能量(低频能量)ELow,根据式(25-2)计算频带为THHigh以上的部分的能量(高频能量)EHigh。这里,假设THLow和THHigh是预先决定的阈值,并且存在THLow<THHigh的关系。
E Low = &Sigma; k = 0 TH Low C sub ( k ) 2 . . . ( 25 - 1 )
E High = &Sigma; k = TH High F max C sub ( k ) 2 . . . ( 25 - 2 )
接着,频带设定单元1101将根据式(25)计算出的低频能量ELow的值和高频能量EHigh的值进行比较,根据式(26),决定频带设定信息Band_Setting。这里、式(26)中的是预先决定的常数。
Band _ Setting = 0 ( if E Low &GreaterEqual; &gamma; &CenterDot; E High ) 1 ( else ) . . . ( 26 )
也就是说,在低频能量ELow大于高频能量EHigh某种程度的情况下,频带设定单元1101将频带设定信息Band_Setting的值设定为“0”,在不是这样的情况下,将频带设定信息Band_Setting的值设定为“1”。频带设定单元1101将决定了的频带设定信息Band_Setting输出到低频编码单元1102、高频编码单元1103以及复用单元1104。
输入频谱X(k)和第1层解码频谱C(k)从正交变换处理单元1005被输入到低频编码单元1102。另外,频带设定信息Band_Setting从频带设定单元1101被输入到低频编码单元1102。低频编码单元1102基于频带设定信息Band_Setting,将输入频谱X(k)和第1层解码频谱C(k)之间的差分频谱Csub(k)进行编码,生成低频部编码信息。接着,低频编码单元1102将低频部编码信息输出到复用单元1104。在后面叙述低频编码单元1102中的处理的细节。
输入频谱X(k)和第1层解码频谱C(k)从正交变换处理单元1005被输入到高频编码单元1103。另外,频带设定信息Band_Setting从频带设定单元1101被输入到高频编码单元1103。高频编码单元1103基于频带设定信息Band_Setting,对输入频谱X(k)进行编码,生成高频部编码信息(频带扩展信息)。接着,高频编码单元1103将高频部编码信息输出到复用单元1104。在后面叙述高频编码单元1103中的处理的细节。
复用单元1104将从频带设定单元1101、低频编码单元1102以及高频编码单元1103分别输入的频带设定信息Band_Setting、低频部编码信息以及高频部编码信息进行复用而生成第2层编码信息。接着,复用单元1104将所获得的第2层编码信息输出到编码信息合并单元1007。另外,也可以将频带设定信息、低频部编码信息以及高频部编码信息直接输入到编码信息合并单元1007,由编码信息合并单元1007进行复用。
图14是表示低频编码单元1102的内部结构的方框图。低频编码单元1102主要由差分频谱计算单元1201、形状编码单元1202、增益编码单元1203以及复用单元1204构成。各单元进行以下的动作。
差分频谱计算单元1201根据式(24),计算输入频谱X(k)和第1层解码频谱C(k)之间的差分频谱Csub(k),并将计算出的差分频谱Csub(k)输出到形状编码单元1202。
差分频谱Csub(k)从差分频谱计算单元1201被输入到形状编码单元1202。形状编码单元1202将差分频谱Csub(k)的形状信息进行编码,并将其输出到复用单元1204作为形状编码信息。另外,形状编码单元1202在形状信息的编码时计算理想增益,并将计算出的理想增益输出到增益编码单元1203。形状编码单元1202中的处理与图4所示的形状编码单元402是同样的,所以这里省略说明。
理想增益从形状编码单元1202被输入到增益编码单元1203。增益编码单元1203对理想增益进行编码,并将其输出到复用单元1204作为增益编码信息。增益编码单元1203中的处理与图4所示的增益编码单元403是同样的,所以这里省略说明。
图15是表示高频编码单元1103的内部结构的方框图。高频编码单元1103包括:频带分割单元1301、滤波状态设定单元1302、滤波单元1303、搜索单元1305、基音系数设定单元1304、增益编码单元1306以及复用单元1307,各单元进行以下的动作。另外,对于上述构成要素中,滤波状态设定单元1302以外的构成要素,由于与图5所示的相同名称的构成要素的处理是同样的,所以这里省略说明。
滤波状态设定单元1302将从正交变换处理单元1005输入的第1层解码频谱C(k)设定为滤波单元1303中使用的滤波状态。在滤波单元1303的全频带0≤k<Fmax的频谱S(k)的低频部((0≤k<Max1)或(0≤k<Max2))的频带中,存储第1层解码频谱C(k)作为滤波的内部状态(滤波状态)。
以上是高频编码单元1103的处理的说明。
以上是编码装置111的结构的说明。
接着,说明本实施方式中的解码装置113。
图16是表示解码装置113的内部主要结构的方框图。解码装置113主要由编码信息分离单元1401、第1层解码单元1402、上采样处理单元1403、正交变换处理单元1404、第2层解码单元1405以及正交变换处理单元1406构成。各单元进行以下的动作。
编码信息分离单元1401经由传输路径102,输入从编码装置111传输的编码信息。编码信息分离单元1401将输入的编码信息分离为第1层编码信息和第2层编码信息,将第1层编码信息输出到第1层解码单元1402,并将第2层编码信息输出到第2层解码单元1405。
第1层解码单元1402将从编码信息分离单元1401输入的第1层编码信息进行解码而生成第1层解码信号,并将生成的第1层解码信号输出到上采样处理单元1403。这里,第1层解码单元1402的动作与图12所示的第1层解码单元1003是同样的,因此省略详细说明。
上采样处理单元1403从SRbase到SRinput为止对从第1层解码单元1402输入的第1层解码信号的采样频率进行上采样,并将获得的上采样后第1层解码信号输出到正交变换处理单元1404。
正交变换处理单元1404对于从上采样处理单元1403输入的上采样单元后第1层解码信号进行正交变换处理(MDCT)。接着,正交变换处理单元1404将获得的上采样后第1层解码信号的MDCT系数(以下,称为“第1层解码频谱”)C(k)输出到第2层解码单元1405。这里,正交变换处理单元1404的动作与图12所示的正交变换处理单元1005的对上采样后第1层解码信号的处理是同样的,因此省略详细说明。
第2层解码单元1405利用从正交变换处理单元1404输入的第1层解码频谱C(k)、以及从编码信息分离单元1401输入的第2层编码信息,生成包含高频分量的第2层解码频谱S2(k)。接着,第2层解码单元1405将生成的第2层解码频谱S2(k)输出到正交变换处理单元1406。在后面叙述第2层解码单元1405中的处理的细节。
正交变换处理单元1406对于从第2层解码单元1405输入的第2层解码频谱S2(k)进行正交变换,将其变换为时域的信号。正交变换处理单元1406将所获得的信号作为输出信号输出。这里,正交变换处理单元1406的动作与图8所示的正交变换处理单元802的处理是同样的,因此,省略详细的说明。
图17是表示图16所示的第2层解码单元1405的内部结构的方框图。第2层解码单元1405主要由分离单元1501、低频解码单元1502、高频解码单元(频带扩展单元)1503以及频谱合成单元1504构成。
第2层编码信息从编码信息分离单元1401被输入到分离单元1501。分离单元1501将编码信息分离为低频部编码信息、高频部编码信息以及频带设定信息。分离单元1501将低频部编码信息输出到低频解码单元1502,将高频部编码信息(频带扩展信息)输出到高频解码单元1503,将频带设定信息输出到低频解码单元1502以及高频解码单元1503。
低频部编码信息和频带设定信息从分离单元1501被输入到低频解码单元1502。低频解码单元1502根据输入的低频部编码信息和频带设定信息,生成低频部解码频谱,并将生成的低频部解码频谱输出到频谱合成单元1504。低频解码单元1502中的处理与图10所示的低频解码单元902中的处理是同样的,所以省略说明。
高频部编码信息和频带设定信息从分离单元1501被输入到高频解码单元1503。另外,第1层解码频谱C(k)从正交变换处理单元1404被输入到高频解码单元1503。高频解码单元1503根据输入的第1层解码频谱C(k)、高频部编码信息以及频带设定信息,生成高频部解码频谱,并将生成的高频部解码频谱输出到频谱合成单元1504。
图18是表示高频解码单元1503的内部结构的方框图。高频解码单元1503主要由分离单元1601、滤波状态设定单元1602、滤波单元1603、增益解码单元1604以及频谱调整单元1605构成,各单元进行以下的动作。这里,对于上述构成要素中,滤波状态设定单元1602以外的构成要素,由于与图11所示的同一名称的构成要素的处理是同样的,因此这里省略说明。
滤波状态设定单元1602基于从分离单元1501输入的频带设定信息Band_Setting,将从基正交变换处理单元1404输入的第1层解码频谱C(k)设定为滤波单元1603中利用的滤波状态。这里、为了便利而将滤波单元1603中的全频带0≤k<Fmax的频谱称为S(k)。此时,频谱S(k)中,频带设定信息Band_Setting表示的低频部((0≤k<Max1)或(0≤k<Max2))的频带中,存储第1层解码频谱C(k)作为滤波的内部状态(滤波状态)。这里,滤波状态设定单元1602的结构及动作与图5所示的滤波状态设定单元502是同样的,因此省略详细说明。
以上是高频解码单元1503的处理的说明。
低频部解码频谱S1(k)从低频解码单元1502被输入到频谱合成单元1504。另外,高频部解码频谱S2(k)从高频解码单元1503被输入到频谱合成单元1504。频谱合成单元1504将输入的低频部解码频谱S1(k)和高频部解码频谱S2(k)通过式(27)在频率轴上进行相加,并计算相加频谱Sadd(k)。频谱合成单元1504将计算出的相加频谱Sadd(k)输出到正交变换处理单元1406。
Sadd(k)=S1(k)+S2(k)(k=0,…,Fmax)…(27)
以上是解码装置113的内部结构的说明。
这样,根据本实施方式,在编码装置/解码装置使用下述编码/解码方式,即,使用低频部的频谱进行频带扩展而生成/估计高频部的频谱,并且存在对低频进行编码的编码层(核心层)的结构中,根据输入信号的特性,自适应地决定频带的设定即低频部和高频部分别为哪个频带。由此,能够对宽频带信号或超宽频带信号等的高频部的频谱数据高效率地进行编码,从而能够改善解码信号的质量。
具体而言,频带设定单元1101将输入信号的频谱数据和通过核心层进行了编码的频谱数据之间的差分数据的低频部的能量与高频部的能量进行比较。接着,在低频部的能量与高频部的能量相比非常大的情况下,频带设定单元1101将低频部设定更窄,将高频部设定得更宽。由此,在输入信号是语音的情况下,能够通过形状增益编码方式,对给解码信号的质量造成较大影响的低频部的频谱数据集中地进行编码,从而能够提高解码信号的质量。另外,在低频部的能量与高频部的能量相比并不是那么大的情况下,将低频部设定得更宽,将高频部设定得更窄。由此,直至更高频部分为止能够通过形状增益编码方式减小编码失真,能够提高在输入信号为音频的情况下对解码信号的质量造成较大影响的音域感。
另外,在本实施方式中,频带设定单元1101基于输入频谱和第1层解码频谱之间的差分频谱的低频部与高频部的能量比,决定了频带设定信息Band_Setting。但是,本发明并不限于此,与实施方式1同样,也能够同样适用于下述结构,即,频带设定单元1101基于输入频谱的低频部与高频部之间的能量比,决定频带设定信息Band_Setting的结构。
另外,说明了在本实施方式的解码装置内的高频解码单元1503中,将第1层解码频谱设定为滤波状态的结构。但是,本发明并不限于此,其同样能够适用于下述结构,即,将第1层解码频谱和低频部解码频谱在频率轴上进行相加所得的频谱的低频部设定为滤波的状态的结构。由此,由于使频带扩展时所使用的低频部的频谱更近似于输入频谱,所以频带扩展时的低频部的精度提高,作为结果,能够进一步提高解码信号的质量。另外,在上述结构中,在高频解码单元1503中,需要将低频部解码频谱从低频解码单元1502输出到高频解码单元1503。
(实施方式3)
在本发明实施方式3中说明下述结构,即,编码装置与实施方式2同样地具备对频谱数据的低频部进行编码的第1层编码单元,对于输入信号的频谱数据和第1层编码单元的编码结果之间的差分数据,适用在实施方式1中说明了的编码方法的结构。另外,以下将适用在实施方式1中说明了的编码方法的编码层设为第2层编码单元。但是,在本实施方式中说明下述结构,即,在第2层编码单元中对于通过第1层编码单元进行编码的频带以外的频带进行编码的结构。也就是说,在实施方式2的第2层编码单元中,仅存在高频编码单元(频带扩展单元)的结构。
实施方式3的通信系统(未图示)与图1所示的通信系统基本上是同样的,仅在编码装置、解码装置的结构及动作的一部分与图1的通信系统的编码装置101、解码装置103不同。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“121”和“123”进行说明。
图19是表示本实施方式的编码装置121的内部的主要结构的方框图。另外,本实施方式的编码装置121主要包括:下采样处理单元1001、第1层编码单元1002、第1层解码单元1003、上采样处理单元1004、正交变换处理单元1005、第2层编码单元1701以及编码信息合并单元1007。这里,对于上述各构成要素中,第2层编码单元1701以外的构成要素,由于与实施方式2中说明了的编码装置111内的构成要素进行同一处理,所以附加同一标号,并省略说明。
第2层编码单元1701使用从正交变换处理单元1005输入的输入频谱X(k)及第1层解码频谱C(k)生成第2层编码信息,将生成的第2层编码信息输出到编码信息合并单元1007。
接着,使用图20说明图19所示的第2层编码单元1701的内部主要结构。
第2层编码单元1701主要包括:频带设定单元1801、高频编码单元(频带扩展单元)1802、以及复用单元1803。各单元进行以下的动作。
输入频谱X(k)和第1层解码频谱C(k)从正交变换处理单元1005被输入到频带设定单元1801。频带设定单元1801对输入频谱X(k)以及第1层解码频谱C(k)的频谱特性进行分析。频带设定单元1801根据分析结果,设定在高频编码单元(频带扩展单元)1802中作为编码对象的频带,并将其作为频带设定信息输出到高频编码单元1802和复用单元1803。
接着,说明频带设定单元1801中的、频带设定信息的计算方法。
频带设定单元1801首先通过式(28),计算输入频谱X(k)和第1层解码频谱C(k)之间的差分频谱Csub(k)。另外、在式(28)中Fmax是最大频带值(最大的频率值)。
Csub(k)=X(k)-C(k)(k=0,…,Fmax)…(28)
接着,频带设定单元1801对于差分频谱Csub(k),根据式(29-1)、(29-2)计算频带为TH1Low~TH1High的部分的能量(第1频带能量)E1和TH2Low~TH2High的部分的能量(第2频带能量)E2。这里,假设TH1Low、TH1High、TH2Low以及TH2High是预先决定的阈值,存在TH1Low<TH2Low且TH1High<TH2High的关系。也就是说、第1频带能量E1与第2频带能量E2相比,为更低频侧的能量。
E 1 = &Sigma; k = TH 1 Low TH 1 High C sub ( k ) 2 . . . ( 29 - 1 )
E 2 = &Sigma; k = TH 2 Low TH 2 High C sub ( k ) 2 . . . ( 29 - 2 )
接着,频带设定单元1801将通过式(29-1)计算出的第1频带能量E1的值和通过式(29-2)计算出的第2频带能量E2的值进行比较,并根据式(30),决定频带设定信息Band_Setting。这里,式(30)中的为预先决定的常数。
Band _ Setting = 0 ( if E 1 &GreaterEqual; &gamma; 2 &CenterDot; E 2 ) 1 ( else ) . . . ( 30 )
也就是说,在第1频带能量E1大于第2频带能量E2到某种程度的情况下,频带设定单元1801将频带设定信息Band_Setting的值设定为“0”,在不是这样的情况下,将频带设定信息Band_Setting的值设定为“1”。频带设定单元1801将所决定的频带设定信息Band_Setting输出到高频编码单元1802和复用单元1803。
输入频谱X(k)和第1层解码频谱C(k)从正交变换处理单元1005被输入到高频编码单元1802。另外,频带设定信息Band_Setting从频带设定单元1801被输入到高频编码单元1802。高频编码单元1802基于频带设定信息Band_Setting,对输入频谱X(k)进行编码,生成高频部编码信息(频带扩展信息)。接着,高频编码单元1802将高频部编码信息输出到复用单元1803。在后面叙述高频编码单元1802中的处理的细节。
复用单元1803将从频带设定单元1801和高频编码单元1802分别输入的频带设定信息和高频部编码信息进行复用,并将其作为第2层编码信息输出到编码信息合并单元1007。另外,也可以将频带设定信息和高频部编码信息直接输入到编码信息合并单元1007,由编码信息合并单元1007进行复用。
图21是表示高频编码单元1802的内部结构的方框图。高频编码单元1802包括:频带分割单元1311、滤波状态设定单元1302、滤波单元1303、搜索单元1305、基音系数设定单元1304、增益编码单元1306以及复用单元1307,各单元进行以下的动作。另外,对于频带分割单元1311以外的各构成要素,由于与图15所示的各构成要素进行同一处理,所以附加同一标号,省略说明。
输入频谱X(k)从正交变换处理单元1005被输入频带分割单元1311。另外,频带设定信息Band_Setting从频带设定单元1801被输入到频带分割单元1311。频带分割单元1311将根据频带设定信息Band_Setting的值求得的输入频谱X(k)的高频部分割为P个的子带SBp(p=0,1,…,P-1)。频带分割单元1311将各子带的带宽BWp(p=0,1,…,P-1)和开头索引BSp(p=0,1,…,P-1)作为频带分割信息输出到滤波单元1303、搜索单元1305以及复用单元1307。
具体而言,在频带设定信息Band_Setting的值为“0”的情况下,频带分割单元1311将输入频谱X(k)中的、频带为Max3以下(Flow≤k<Max3)的部分分割为P个子带SBp(p=0,1,…,P-1)。另外,频带设定信息Band_Setting的值为“1”的情况下,频带分割单元1311将输入频谱X(k)中的、频带为Max4以下(Flow≤k<Max4)的部分分割为P个子带SBp(p=0,1,…,P-1)。这里,假设Max3和Max4是预先决定的常数,并存在Max3<Max4的关系。另外,“Flow”为与下采样处理单元1001进行了下采样的信号的采样频率对应的最大频带值。也就是说,是第1层解码频谱的可采用的最大的频率索引。另外,以下将输入频谱X(k)中的、子带SBp的部分记作子带频谱Xp(k)(BSp≤k<BSp+BWp)。
说明上述的频带分割方法产生的效果。将频带为TH1Low~TH1High的部分的能量(第1频带能量)E1和TH2Low~TH2High的部分的能量(第2频带能量)E2进行比较而设定频带设定信息Band_Setting。意味着在该频带设定信息Band_Setting的值为“0”的情况下,与高频侧相比,低频侧的能量较大。此时,通过频带分割单元1311,将由高频编码单元1802进行编码的频带设定得窄(Flow≤k<Max3),对于能量大的偏向低频的频带重点进行编码,由此具有提高解码信号的质量的效果。另外意味着,在频带设定信息Band_Setting的值为“1”的情况下,与低频侧相比,高频侧的能量大。此时,通过频带分割单元1311,将由高频编码单元1802进行编码的频带设定得宽且设定得更偏向高频(Flow≤k<Max4),直至能量大的高频侧的频带为止进行编码,由此具有提高解码信号的质量的效果。
以上是高频编码单元1802的处理的说明。
以上是编码装置121的结构的说明。
接着,说明本实施方式中的解码装置123。
图22是表示解码装置123的内部主要结构的方框图。解码装置123主要包括:编码信息分离单元1401、第1层解码单元1402、上采样处理单元1403、正交变换处理单元1404、第2层解码单元1901以及正交变换处理单元1406。这里,上述的各构成要素中,第2层解码单元1901以外的构成要素与实施方式2的解码装置113内的构成要素进行同一处理,所以附加同一标号,省略说明。
第2层解码单元1901利用从正交变换处理单元1404输入的第1层解码频谱C(k)、以及从编码信息分离单元1401输入的第2层编码信息,生成包含高频分量的第2层解码频谱S2(k)。第2层解码单元1901将生成的第2层解码频谱S2(k)输出到正交变换处理单元1406。
图23是表示图22所示的第2层解码单元1901的内部结构的方框图。第2层解码单元1901主要包括:分离单元2001以及高频解码单元(频带扩展单元)2002。
第2层编码信息从编码信息分离单元1401被输入到分离单元2001。分离单元2001将编码信息分离为高频部编码信息和频带设定信息,并分别输出到高频解码单元2002。
高频部编码信息和频带设定信息从分离单元2001被输入到高频解码单元2002。高频解码单元2002根据输入的高频部编码信息和频带设定信息,生成解码频谱,并将生成的解码频谱输出到正交变换处理单元1406。
对于高频解码单元2002的处理而言,除了在图9所示的高频解码单元903中输入的信息不是低频部解码频谱而是第1层解码频谱这一点以外,与高频解码单元903进行同样的处理,所以这里省略说明。
以上是解码装置123的内部结构的说明。
这样,根据本实施方式,在编码装置/解码装置使用下述编码/解码方式,即,使用低频部的频谱进行频带扩展而生成/估计高频部的频谱,并且存在对低频进行编码的编码层(核心层)的结构中,也根据输入信号的特性,自适应地决定扩展的频带的设定即通过频带扩展生成直至哪个频带为止的频谱。由此,能够对宽频带信号或超宽频带信号等的高频部的频谱数据高效率地进行编码,从而能够改善解码信号的质量。
具体而言,频带设定单元1801将输入信号的频谱数据和由核心层编码出的频谱数据之间的差分数据的低频的部分的能量(第1频带能量)与高频的部分的能量(第2频带能量)进行比较。接着,在第1频带能量与第2频带能量相比非常大的情况下,频带设定单元1801将通过频带扩展生成的高频部设定得更窄。由此,能够对在输入信号为语音的情况下给解码信号的质量造成较大影响的中频部分的频谱数据集中进行编码,从而能够提高解码信号的质量。这里,所谓中频部是指在将频带划分为低频部和高频部时,高频部分中的低频侧的频带。另外,在第1频带能量与第2频带能量相比并不是那么大的情况下,将通过频带扩展生成的高频部设定得更宽。由此,直至更高频部分为止进行频带扩展,从而能够提高在输入信号是音频的情况下对解码信号的质量造成较大影响的音域感。
另外,在本实施方式中,举例说明了频带设定单元1801调整由高频编码单元1802生成的频谱的频带的上限的结构。但是,本发明并不限于此,对于频带设定单元1801调整由高频编码单元1802生成的频谱的频带的上限以外(例如,频带的下限等)的结构也同样能够适用。
如上所述,根据本发明,在编码装置基于低频部的频谱数据生成作为编码对象的信号的高频部的频谱数据时,根据输入信号的特性,自适应地决定频带的设定即低频部和高频部分别为哪个频带。由此,能够对宽频带信号或超宽频带信号等的高频部的频谱数据高效率地进行编码,从而能够在解码装置中改善解码信号的质量。
(实施方式4)
专利文献1和专利文献2中公开的频带扩展方式,不依赖于实施方式1、实施方式2以及实施方式3中说明了的输入信号的特性,频带设定是固定的。这里,输入信号的特性是指低频频谱和高频频谱之间的能量比或谐波(tonality)等。另外,同样地专利文献1和专利文献2中公开的频带扩展方式不依赖于编码时的状况,频带设定是固定的。
频带扩展技术原本是指利用对高频部的频谱数据进行解码所得的低频部的频谱数据,通过微少的信息量(比特)模拟地生成作为编码对象的信号的高频部的频谱数据的技术。因此,在编码比特率非常高的情况下,采用频带扩展方式以外的频谱编码方式时能够进一步提高解码信号的质量的情况较多。但是,专利文献1和专利文献2中公开的频带扩展方式不依赖于编码时的状况,使用始终固定了的频带设定进行频带扩展,所以存在编码效率不高的问题。
在本发明实施方式4中,说明根据编码时的状况,自适应地切换频带扩展方式中的频带设定的结构。另外,以下,作为编码时的状况的一例,举例利用编码比特率的情况进行说明。这里,在本实施方式中,举例编码装置采用BR1、BR2、BR3的3种比特率作为编码比特率的情况进行说明。另外,假设各编码比特率存在BR1<BR2<BR3的关系。
实施方式4的通信系统(未图示)与图1所示的通信系统基本上是同样的,仅在编码装置、解码装置的结构及动作的一部分与图1的通信系统的编码装置101、解码装置103不同。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“131”和“133”进行说明。
图24是表示本实施方式的编码装置131的内部的主要结构的方框图。另外,本实施方式的编码装置131主要包括:下采样处理单元2401、第1层编码单元2402、第1层解码单元2403、上采样处理单元2404、正交变换处理单元2405、第2层编码单元2406以及编码信息合并单元2407。各单元进行以下的动作。
将输入信号xn的采样频率设为SRinput,下采样处理单元2401对输入信号的采样频率从SRinput至SRbase为止进行下采样(SRbase<SRinput),将下采样后的输入信号输出到第1层编码单元2402作为下采样后输入信号。
第1层编码单元2402使用例如CELP(Code Excited Linear Prediction:码激励线性预测)方式的语音编码方法对从下采样处理单元2401输入的下采样后输入信号进行编码,生成第1层编码信息。然后,第1层编码单元2402将生成的第1层编码信息输出到第1层解码单元2403和编码信息合并单元2407。
第1层解码单元2403对于从第1层编码单元2402输入的第1层编码信息使用例如CELP方式的语音解码方法进行解码,生成第1层解码信号。然后,第1层解码单元2403将生成的第1层解码信号输出到上采样处理单元2404。
上采样处理单元2404对从第1层解码单元2403输入的第1层解码信号的采样频率从SRbase到SRinput为止进行上采样。接着,上采样处理单元2404将进行了上采样的第1层解码信号输出到正交变换处理单元2405作为上采样单元后第1层解码信号c1n
正交变换处理单元2405的内部具有缓冲器buf1n和buf2n(n=0、…、N-1)。正交变换处理单元2405对输入信号xn和从上采样处理单元2404输入的上采样后第1层解码信号c1n进行改进离散余弦变换(MDCT:ModifiedDiscrete Cosine Transform)。正交变换处理单元2405对输入信号xn和上采样后第1层解码信号c1n进行正交变换处理,分别计算输入频谱X(k)和第1层解码频谱C1(k)。正交变换处理单元2405的处理与实施方式1中说明的处理是同样的,所以这里省略说明。正交变换处理单元2405将所获得的输入频谱X(k)和第1层解码频谱C1(k)输出到第2层编码单元2406。
第2层编码单元2406基于从外部输入到编码装置131的编码比特率的信息(以下称为“比特率信息”),使用从正交变换处理单元2405输入的输入频谱X(k)和第1层解码频谱C1(k)生成第2层编码信息,将生成的第2层编码信息输出到编码信息合并单元2407。另外,在后面叙述第2层编码单元2406的细节。这里,在本实施方式中,举例编码装置131采用BR1、BR2、BR3的3种比特率作为编码比特率的情况进行说明。另外,假设各编码比特率存在BR1<BR2<BR3的关系。
编码信息合并单元2407将从第1层编码单元2402输入的第1层编码信息、从第2层编码单元2406输入的第2层编码信息以及比特率信息进行合并。接着,编码信息合并单元2407对于合并后的信息源码,如果需要则在附加传输差错码等之后,将其作为编码信息输出到传输路径102。
接着,使用图25说明图24所示的第2层编码单元2406的内部主要结构。
第2层编码单元2406主要包括:频带扩展编码单元2501、残差频谱编码单元2502以及复用单元2503。各单元进行以下的动作。
第1层解码频谱C1(k)和输入频谱X(k)从正交变换处理单元2405被输入到频带扩展编码单元2501。另外,比特率信息从外部被输入到频带扩展编码单元2501。另外,解码残差频谱D1(k)从残差频谱编码单元2502被输入到频带扩展编码单元2501。频带扩展编码单元2501根据输入的第1层解码频谱C1(k)、输入频谱X(k)、比特率信息以及解码残差频谱D1(k),计算频带扩展编码信息,并将其输出到复用单元2503。在后面叙述频带扩展编码单元2501的处理的细节。
第1层解码频谱C1(k)和输入频谱X(k)从正交变换处理单元2405被输入到残差频谱编码单元2502。另外,比特率信息从外部被输入到残差频谱编码单元2502。残差频谱编码单元2502根据输入的第1层解码频谱C1(k)、输入频谱X(k)以及比特率信息,计算残差频谱编码信息,并将其输出到复用单元2503。另外,残差频谱编码单元2502将对残差频谱编码信息进行解码所得的解码残差频谱D1(k)输出到频带扩展编码单元2501。在后面叙述残差频谱编码单元2502的处理和残差频谱编码信息的细节。
复用单元2503将从频带扩展编码单元2501、残差频谱编码单元2502分别输入的频带扩展编码信息、残差频谱编码信息进行复用,生成第2层编码信息。然后,复用单元2503将获得的第2层编码信息输出到编码信息合并单元2407。另外,也可以将频带扩展编码信息、残差频谱编码信息直接输入到编码信息合并单元2407,并由编码信息合并单元2407进行复用。
图26是表示频带扩展编码单元2501的内部结构的方框图。频带扩展编码单元2501包括:频带分割单元2601、相加频谱计算单元2602、滤波状态设定单元1302、滤波单元1303、搜索单元1305、基音系数设定单元1304、增益编码单元1306以及复用单元1307,各单元进行以下的动作。另外,对于上述构成要素中,频带分割单元2601和相加频谱计算单元2602以外的构成要素,由于与图15所示的相同名称的构成要素的处理是同样的,所以这里省略说明。但是,只有滤波状态设定单元1302的输入的频谱的名称和输入源的构成要素名称与图15的相同名称的构成要素的处理不同。
输入频谱X(k)从正交变换处理单元2405被输入到频带分割单元2601。另外,比特率信息从外部被输入到频带分割单元2601。频带分割单元2601根据比特率信息,将输入频谱X(k)的高频部分割为P个子带SBp(p=0,1,…,P-1)。
具体而言,在比特率信息表示编码比特率为BR1的情况下,频带分割单元2601将输入频谱X(k)中的、频带为Max1以上(Max1≤k<Fmax)的部分分割为P个的子带SBp(p=0,1,…,P-1)。另外,在比特率信息表示编码比特率为BR2的情况下,频带分割单元2601将输入频谱X(k)中的、频带为Max2以上(Max2≤k<Fmax)的部分分割为P个子带SBp(p=0,1,…,P-1)。另外,在比特率信息表示编码比特率为BR3的情况下,频带分割单元2601将输入频谱X(k)中的、频带为Max3以上(Max3≤k<Fmax)的部分分割为P个子带SBp(p=0,1,…,P-1)。
这里,Fmax为最大频带的值。另外,假设Max1、Max2以及Max3存在Max1<Max2<Max3的关系。
也就是说,在比特率信息表示编码比特率为BR1的情况下,将由频带扩展编码单元2501计算频带扩展编码信息的对象的输入频谱的高频部分设定得宽。另外,在比特率信息表示编码比特率为BR3的情况下,将由频带扩展编码单元2501计算频带扩展编码信息的对象的输入频谱的高频部分设定得窄。另外,在比特率信息表示编码比特率为BR2的情况下,将计算频带扩展编码信息的对象的输入频谱的高频部分设定为取上述两者的中间。
然后,频带分割单元2601将各个子带的带宽BWp(p=0,1,…,P-1)和开头索引BSp(p=0,1,…,P-1)作为频带分割信息输出到滤波单元1303、搜索单元1305以及复用单元1307。另外,以下将输入频谱X(k)中的、子带SBp的部分记作子带频谱Xp(k)(BSp≤k<BSp+BWp)。
第1层解码频谱C1(k)从正交变换处理单元2405被输入到相加频谱计算单元2602。另外,解码残差频谱D1(k)从残差频谱编码单元2502被输入到相加频谱计算单元2602。相加频谱计算单元2602将这两个频谱如式(31)所示在频率轴上相加,计算相加频谱A(k)。接着,相加频谱计算单元2602将相加频谱A(k)输出到滤波状态设定单元1302。
A(k)=C1(k)+D1(k)(k=0,…,Fmax)…(31)
以后,与实施方式2同样,通过滤波状态设定单元1302、滤波单元1303、搜索单元1305、基音系数设定单元1304、增益编码单元1306以及复用单元1307,生成频带扩展编码信息,并将频带扩展编码信息输出到复用单元2503。
另外,在实施方式2中,滤波状态设定单元1302将从正交变换处理单元1005输入的第1层解码频谱C(k)设定为在滤波单元1303中使用的滤波状态。与此相对,在本实施方式中,滤波状态设定单元1302将从相加频谱计算单元2602输入的相加频谱A(k)设定为在滤波单元1303中使用的滤波状态。另外,在滤波单元1303的全频带0≤k<Fmax的频谱S(k)的低频部((0≤k<Max1)或(0≤k<Max2))的频带,存储相加频谱A(k)作为滤波的内部状态(滤波状态)。
图27是表示残差频谱编码单元2502的内部结构的方框图。残差频谱编码单元2502主要包括:编码对象频谱计算单元2701、形状编码单元2702、增益编码单元2703以及复用单元2704。各单元进行以下的动作。
输入频谱X(k)和第1层解码频谱C1(k)从正交变换处理单元2405被输入到编码处理频谱计算单元2701。另外,比特率信息从外部被输入到编码对象频谱计算单元2701。编码对象频谱计算单元2701首先如式(32)所示,计算输入频谱X(k)和第1层解码频谱C1(k)之间的差分频谱B(k)。另外,以下将差分频谱B(k)中的、子带SBp的部分记作子带频谱Bp(k)(BSp≤k<BSp+BWp)。
B(k)=X(k)-C1(k)(k=0,…,Fmax)…(32)
接着,编码对象频谱计算单元2701根据比特率信息,将通过式(32)获得的差分频谱B(k)中的一部分的频带的频谱设定为编码对象频谱。
具体而言,在比特率信息表示编码比特率为BR1的情况下,编码对象频谱计算单元2701将差分频谱B(k)中的、频带为Max1以下(0≤k≤Max1)的部分设定为编码对象频谱D(k)。另外,在比特率信息表示编码比特率为BR2的情况下,频带分割单元2601将差分频谱B(k)中的、频带为Max2以下(0≤k≤Max2)的部分设定为编码对象频谱D(k)。另外,在比特率信息表示编码比特率为BR3的情况下,频带分割单元2601将差分频谱B(k)中的、频带为Max3以下(0≤k≤Max3)的部分设定为编码对象频谱D(k)。
另外,如上所述,Max1、Max2以及Max3存在Max1<Max2<Max3的关系。
也就是说,在比特率信息表示编码比特率为BR1的情况下,编码对象频谱计算单元2701将由残差频谱编码单元2502进行编码的对象的频谱(编码对象频谱)D(k)的带宽设定得窄。另外,在比特率信息表示编码比特率为BR3的情况下,编码对象频谱计算单元2701将编码对象频谱的带宽设定得宽。在比特率信息表示编码比特率为BR2的情况下,编码对象频谱计算单元2701将编码对象频谱的带宽设定为取上述两者的中间。
另外,编码对象频谱计算单元2701将设定的编码对象频谱D(k)输出到形状编码单元2702。
形状编码单元2702对于从编码对象频谱计算单元2701输入的编码对象频谱D(k),每子带地进行形状量化。具体而言,形状编码单元2702首先将编码对象频谱D(k)分割为L个子带。接着,形状编码单元2702对于L个的各子带,搜索由SQ个的形状码向量构成的内置形状码本,求使式(33)的评价尺度Shape_q(i)为最大的形状码向量的索引。
Shape _ q ( i ) = { &Sigma; k = 0 BW ( j ) ( D ( k + BS ( j ) ) &CenterDot; SC k i ) } 2 &Sigma; k = 0 BW ( j ) SC k i &CenterDot; SC k i , ( j = 0 , . . . , L - 1 , i = 0 , . . . , SQ - 1 ) . . . ( 33 )
在该式中,SCi k表示构成形状码本的形状码向量,i表示形状码向量的索引,k表示形状码向量的元素的索引。另外,BW(j)表示频带索引为j的频带的带宽,BS(j)表示构成频带索引为j的频带的频谱的最小索引。
形状编码单元2702将使上式(33)的评价尺度Shape_q(i)为最大的形状码向量的索引S_max作为形状编码信息输出到复用单元2704。而且,形状编码单元2702根据下式(34),计算理想增益Gain_i(j),并将其输出到增益量化单元2703。
Gain _ i ( j ) = &Sigma; k = 0 BW ( j ) ( D ( k + BS ( j ) ) &CenterDot; SC k S _ max ) &Sigma; k = 0 BW ( j ) SC k S _ max &CenterDot; SC k S _ max , ( j = 0 , . . . , L - 1 ) . . . ( 34 )
另外,形状编码单元2702将对形状编码信息进行反量化(本地解码)而获得的形状信息的解码值输出到增益编码单元2703。这里,形状信息的解码值表示为Shape_q’(k)。
增益编码单元2703根据式(9),对从形状编码单元2702输入的理想增益Gain_i(j)进行直接量化。这里,增益编码单元2703也将理想增益处理为L维向量,搜索由GQ个的增益码向量构成的内置增益码本,进行向量量化。
增益编码单元2703求使式(9)的均方误差Gain_q(i)为最小的增益码向量的索引G_min。增益编码单元2703将G_min作为增益编码信息输出到复用单元2704。
另外,增益编码单元2703对于从形状编码单元2702输入的形状信息的解码值,适用对增益编码信息进行反量化(本地解码)所得的增益信息的解码值,并如式(35)那样,计算残差频谱的解码值(以下,解码残差频谱D1(k))。这里,在式(35)中,Shape_q’(k)是进行了解码的形状值,Gain_q’(k)表示进行了解码的增益。
D 1 ( k ) = Gain _ q &prime; ( j ) &CenterDot; Shape _ q &prime; ( k ) k = B L j , . . . , BH j j = 0 , . . . , L - 1 . . . ( 35 )
接着,增益编码单元2703将解码残差频谱D1(k)输出到频带扩展编码单元2501。
复用单元2704将从形状编码单元2702和增益编码单元2703分别输入的形状编码信息和增益编码信息进行复用,并作为残差频谱编码信息输出到复用单元2503。
以上是对编码装置131的结构的说明。
另外,图28表示上述构成的编码处理以及在后面叙述的构成的解码处理的示意图。图28示意地表示各层的编码单元/解码单元中被编码/解码的频谱的频带和信息量(编码比特率)之间的对应关系。
在图28中,部分“A”表示由第1层编码单元2402和第1层解码单元2403编码/解码的频谱的频带。另外,部分“B”表示在由第2层编码单元2406和后面叙述的第2层解码单元2805编码/解码的频谱的频带中的、由残差频谱编码单元2502和在后面叙述的残差频谱解码单元2902编码/解码的频谱的频带。另外,部分“C”表示在由第2层编码单元2406和第2层解码单元2805编码/解码的频谱的频带中的、由频带扩展编码单元2501和在后面叙述的频带扩展解码单元2903编码/解码的频谱的频带。
在比特率信息表示编码比特率低的比特率(BR1)的情况下,频带扩展编码单元2501和频带扩展解码单元2903使对应的部分“C”变宽,残差频谱编码单元2502和残差频谱解码单元2902使对应的部分“B”变窄(参照图28的(a))。与此相对,在比特率信息表示编码比特率高的比特率(BR3)的情况下,频带扩展编码单元2501和频带扩展解码单元2903使对应的部分“C”变窄,残差频谱编码单元2502和残差频谱解码单元2902使对应的部分“B”变宽(参照图28的(c))。另外,在比特率信息表示编码比特率为BR2的情况下,频带扩展编码单元2501和频带扩展解码单元2903将对应的部分“C”设定为取编码比特率为BR1时和编码比特率为BR3时的大致中间(参照图28的(b))。
这样,在本实施方式中,根据比特率信息表示的编码比特率,自适应地设定在各个的编码单元/解码单元中进行编码/解码的频谱的频带。由此,即使在编码比特率变更了的情况下,也能够对输入信号高效率地进行编码/解码。
接着,说明本实施方式中的解码装置133。
图29是表示解码装置133的内部主要结构的方框图。解码装置133主要包括:编码信息分离单元2801、第1层解码单元2802、上采样处理单元2803、正交变换处理单元2804、第2层解码单元2805以及正交变换处理单元2806。各单元进行以下的动作。
编码信息分离单元2801经由传输路径102,输入从编码装置131传输的编码信息。编码信息分离单元2801将输入的编码信息分离为第1层编码信息、第2层编码信息以及比特率信息,并将第1层编码信息输出到第1层解码单元2802,将第2层编码信息和比特率信息输出到第2层解码单元2805。
第1层解码单元2802对从编码信息分离单元2801输入的第1层编码信息进行解码而生成第1层解码信号,并将生成的第1层解码信号输出到上采样处理单元2803。这里,第1层解码单元2802的动作与图24所示的第1层解码单元2403是同样的,因此省略详细说明。
上采样处理单元2803对从第1层解码单元2802输入的第1层解码信号的采样频率从SRbase到SRinput为止进行上采样,并将获得的上采样后第1层解码信号输出到正交变换处理单元2804。
正交变换处理单元2804对于从上采样处理单元2803输入的上采样单元后第1层解码信号进行正交变换处理(MDCT)。接着,正交变换处理单元2804将获得的上采样后第1层解码信号的MDCT系数(以下,称为“第1层解码频谱”)C1(k)输出到第2层解码单元2805。这里,正交变换处理单元2804的动作与图24所示的正交变换处理单元2405的对上采样后第1层解码信号的处理是同样的,因此省略详细说明。
第2层解码单元2805使用从正交变换处理单元2804输入的第1层解码频谱C1(k)及从编码信息分离单元2801输入的第2层编码信息和比特率信息,生成包含高频分量的输出频谱C2(k)。接着,第2层解码单元2805将生成的输出频谱C2(k)输出到正交变换处理单元2806。在后面叙述第2层解码单元2805中的处理的细节。
正交变换处理单元2806对于从第2层解码单元2805输入的输出频谱C2(k)进行正交变换,并将其变换为时域的信号。正交变换处理单元2806将所获得的信号作为输出信号输出。这里,正交变换处理单元2806的动作和图8所示的正交变换处理单元802的处理是同样的,因此,省略详细的说明。
图30是表示图29所示的第2层解码单元2805的内部结构的方框图。第2层解码单元2805主要包括:分离单元2901、残差频谱解码单元2902以及频带扩展解码单元2903。
从编码信息分离单元2801,第2层编码信息被输入到分离单元2901。分离单元2901将第2层编码信息分离为残差频谱编码信息和频带扩展编码信息分离。分离单元2901将残差频谱编码信息输出到残差频谱解码单元2902,并将频带扩展编码信息输出到频带扩展解码单元2903。另外,在编码信息分离单元2801中,残差频谱编码信息、频带扩展编码信息分离完毕的情况下,也可以不配置分离单元2901。
残差频谱解码单元2902对从分离单元2901输入的残差频谱编码信息进行解码,计算解码残差频谱D1(k)。接着,残差频谱解码单元2902将所获得的解码残差频谱D1(k)输出到频带扩展解码单元2903。在后面叙述残差频谱解码单元2902的处理的细节。
频带扩展编码信息从分离单元2901被输入到频带扩展解码单元2903。另外,第1层解码频谱C1(k)从正交变换处理单元2804被输入到频带扩展解码单元2903。另外,比特率信息从编码信息分离单元2801被输入到频带扩展解码单元2903。另外,解码残差频谱D1(k)从残差频谱解码单元2902被输入到频带扩展解码单元2903。频带扩展解码单元2903根据这些输入信息,计算输出频谱C2(k),并将其输出到正交变换处理单元2806。在后面叙述频带扩展解码单元2903的处理的细节。
图31是表示图30所示的残差频谱解码单元2902的内部结构的方框图。残差频谱解码单元2902主要包括:分离单元3001、形状解码单元3002以及增益解码单元3003。
残差频谱编码信息从分离单元2901被输入到分离单元3001。分离单元3001将残差频谱编码信息分离为形状编码信息和增益编码信息,并将形状编码信息输出到形状解码单元3002,将增益编码信息输出到增益解码单元3003。
形状编码信息从分离单元3001被输入到形状解码单元3002。另外,比特率信息从编码信息分离单元2801被输入到形状解码单元3002。形状解码单元3002内置有与形状编码单元2702所具有的形状码本同样的形状码本,并且搜索以从分离单元3001输入的形状编码信息S_max为索引的形状码向量。形状解码单元3002将搜索出的形状码向量作为与从编码信息分离单元2801输入的比特率信息对应的频带的频谱的形状的值输出到增益解码单元3003。这里,将作为形状的值搜索出的形状码向量记作Shape_q’(k)。
另外,这里,形状解码单元3002通过与在编码对象频谱计算单元2701中说明了的方法同样的方法,计算与比特率信息对应的频带。
增益解码单元3003内置有与增益编码单元2703具备的增益码本同样的增益码本,使用该增益码本,按照式(16),根据增益编码信息对增益的值进行反量化。这里,也是将增益值作为L维向量来处理,进行向量反量化。也就是说,将与增益编码信息G_min对应的增益码向量GCj G_min直接作为增益值Gain_q’(j)。
接着,增益解码单元3003使用通过反量化获得的增益值以及从形状解码单元3002输入的形状的值,根据式(35),计算与从编码信息分离单元2801输入的比特率信息对应的频带的解码残差频谱D1(k),并将计算出的解码残差频谱D1(k)输出到频带扩展解码单元2903。另外,在频谱(MDCT系数)的反量化中,k存在于B(j”)~B(j”+1)-1内的情况下,增益值Gain_q’(j)取Gain_q’(j”)的值。
另外,增益解码单元3003与形状解码单元3002同样,通过与在编码对象频谱计算单元2701中说明了的方法同样的方法,计算与比特率信息对应的频带。
图32是表示图30所示的频带扩展解码单元2903的内部结构的方框图。频带扩展解码单元2903主要包括:分离单元3101、滤波状态设定单元3102、滤波单元3103、增益解码单元3104、频谱调整单元3105以及相加频谱计算单元3106。
分离单元3101将从分离单元2901输入的频带扩展编码信息分离为与滤波有关的信息即最佳基音系数T’和与增益有关信息即编码后的变动量Vq(j)的索引。接着,分离单元3101将最佳基音系数T’输出到滤波单元3103,将编码后的变动量Vq(j)的索引输出到增益解码单元3104。另外,在编码信息分离单元2801或分离单元2901中,最佳基音系数T'、编码后的变动量Vq(j)的索引分离完毕的情况下,也可以不配置分离单元3101。
从正交变换处理单元2804,第1层解码频谱C1(k)被输入到相加频谱计算单元3106。另外,从残差频谱解码单元2902,解码残差频谱D1(k)被输入到相加频谱计算单元3106。相加频谱计算单元3106将这两个频谱,如式(31)所示那样在频率轴上进行相加,并计算相加频谱A(k)。接着,相加频谱计算单元3106将相加频谱A(k)输出到滤波状态设定单元3102。
滤波状态设定单元3102基于从编码信息分离单元2801输入的比特率信息,将从相加频谱计算单元3106输入的相加频谱A(k)设定为在滤波单元3103使用的滤波状态。这里,为了便利将滤波单元3103中的全频带0≤k<Fmax的频谱称为Z(k)时,在频谱Z(k)中的、与比特率信息对应的频带,存储相加频谱A(k)作为滤波的内部状态(滤波状态)。另外,滤波状态设定单元3102的结构和动作与图5所示的滤波状态设定单元502是同样的,因此,省略详细的说明。
滤波单元3103具有多抽头(抽头数大于1)的基音滤波。滤波单元3103基于滤波状态设定单元3102所设定的滤波状态、从分离单元3101输入的基音系数T’、预先存储在内部的滤波系数,对于与编码信息分离单元2801输入的比特率信息对应的频带,将相加频谱A(k)进行滤波。另外,如式(36)所示,滤波单元3103计算输入频谱X(k)的估计频谱X’(k)。
X &prime; ( k ) = &Sigma; i = - 1 1 &beta; i &CenterDot; Z ( k - T + i ) 2 . . . ( 36 )
另外,这里,滤波状态设定单元3102和滤波单元3103使用以与频带分割单元2601中说明了的方法同样的方法计算的频谱的高频部分作为与比特率信息对应的频带。
在滤波单元3103中,也使用式(13)所示的传递函数。滤波单元3103将进行滤波所得的估计频谱X’(k)输出到频谱调整单元3105。
增益解码单元3104对于与从编码信息分离单元2801输入的比特率信息对应的频带,将从分离单元3101输入的编码后的变动量Vq(j)的索引进行解码,求变动量V(j)的量化值即编码后的变动量Vq(j)。这里,编码后的变动量Vq(j)的索引的解码中使用的增益码本内置于增益解码单元3104,并且是与图5所示的增益编码单元506中使用的增益码本同样的码本。增益解码单元3104将解码所得的编码后的变动量Vq(j)输出到频谱调整单元3105。
这里,增益解码单元3104使用以与频带分割单元2601中说明了的方法同样的方法计算的频谱的高频部分作为与比特率信息对应的频带。
频谱调整单元3105根据式(37),对于从编码信息分离单元2801输入的比特率信息所指定的高频部,将从增益解码单元3104输入的每子带的编码后的变动量Vq(j)乘以从滤波单元3103输入的估计频谱X’(k)。
这里,频谱调整单元3105使用以与频带分割单元2601中说明了的方法同样的方法计算的频谱的高频部分作为与比特率信息对应的频带。由此,频谱调整单元3105对估计频谱的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax)或(Max3≤k<Fmax))中的频谱形状进行调整,生成输出频谱C2(k)并输出到正交变换处理单元2806。
C 2 ( k ) = X &prime; ( k ) &CenterDot; V q ( j ) Max 1 &le; k < F max or Max 2 &le; k < F max or Max 3 &le; F max j = 0 , . . . , J - 1 . . . ( 37 )
另外,在式(37)中,j表示增益编码時的子带索引,对应于频谱的索引k而设定。也就是说,对于子带索引为“j”的子带所包含的频谱索引k,将Vq(j”)乘以估计频谱X’(k)。
这里,输出频谱C2(k)的低频部((0≤k<Max1)或(0≤k<Max2)或(0≤k<Max3))由将第1层解码频谱C1(k)和解码残差频谱D1(k)相加所得的相加频谱A(k)构成。另外,输出频谱C2(k)的高频部((Max1≤k<Fmax)或(Max2≤k<Fmax)或(Max3≤k<Fmax))由频谱形状调整后的估计频谱X’(k)构成。
以上是解码装置113的内部结构的说明。
这样,根据本实施方式,编码装置/解码装置采用下述结构,即,根据编码时的状况(例如编码比特率),自适应地切换频带扩展方式中的频带设定的结构。由此,能够与编码时的状况匹配而提高编码效率。
具体而言,例如编码时的比特率是低比特率的情况下,频带分割单元2601将通过在低比特率更有效的频带扩展技术生成的频带设定得宽,并将通过频带扩展技术以外的频谱编码技术进行量化的频带设定得窄。另外,在编码时的比特率为高比特率的情况下,频带分割单元2601将通过频带扩展技术生成的频带设定得窄,并将通过高精度对频谱的波形实施编码的频谱编码技术(频带扩展技术以外的技术)进行量化的频带设定得宽。
另外,频带扩展编码/解码时,编码装置/解码装置通过利用在编码/解码时能够获得的高精度的频谱(第1层解码频谱和解码残差频谱的相加频谱)作为低频部分的解码频谱,从而能够进一步提高频带扩展编码的编码效率。这样,根据本实施方式所说明的方式,能够大幅度地提高解码信号的质量。
另外,在本实施方式中,说明了在比特率信息表示编码比特率为最高的比特率的情况(表示BR3的情况)下,将由频带扩展编码单元2501和频带扩展解码单元2903进行编码/解码的频谱的频带设定得窄的结构,但本发明并不限于此。例如,本发明也能够适用于下述结构,即,去除由频带扩展编码单元2501和频带扩展解码单元2903进行编码/解码的频谱的频带的结构。此时,在第2层编码单元2406和第2层解码单元2805中,分别不需要频带扩展编码单元2501和频带扩展解码单元2903,在残差频谱编码单元2502和残差频谱解码单元2902中,将全频带的频谱作为量化对象。另外,此时,将能够由第2层编码单元2406和第2层解码单元2805利用的信息量(比特)全都安排给残差频谱编码单元2502和残差频谱解码单元2902。通过实验确认了上述的去除通过频带扩展编码单元和频带扩展解码单元进行编码/解码的频带的结构,在编码比特率非常高的情况下特别有效。
另外,在本实施方式中,如图28所示,举例说明了作为频带扩展编码单元2501的编码对象的频带“C”与作为残差频谱编码单元2502的编码对象的频带“B”在频率轴上不重叠的情况。然而,本发明并不限于此,也能够同样适用于图28所示的结构以外的结构。例如,图33表示该其他结构的示意图。图33示意地表示各层的编码单元/解码单元中被编码/解码的频谱的频带和信息量(编码比特率)之间的另外的对应关系。
另外,在图33所示的结构的情况下,进行与本实施方式中所说明的编码处理在一部分不同的处理。具体而言,在本实施方式中,在第2层编码单元2406中,首先通过残差频谱编码单元2502进行编码后,利用解码残差频谱由频带扩展编码单元2501进行了编码。但是,在图33的所示的结构的情况下其结构为,首先通过频带扩展编码单元2501进行编码,在残差频谱编码单元2502中对所获得的高频频谱和输入频谱之间的残差频谱进行编码。
另外,在本实施方式中,举例说明了在第1层编码单元2402和第1层解码单元2403中,对低频分量进行编码/解码的结构,但本发明并不限于此,也能够同样适用于不存在第1层编码单元2402和第1层解码单元2403的结构。此时,其结构为,在残差频谱编码单元2502和残差频谱解码单元2902中,对于输入频谱本身,将基于比特率信息设定的频带进行编码/解码。
另外,在本实施方式中,并未特别明确公开,根据编码时的比特率信息,对于频带扩展编码单元2501和残差频谱编码单元2502进行怎样的比特分配。作为比特分配方法,例如可以举出使分配给频带扩展编码单元2501的比特始终固定,而使分配给残差频谱编码单元2502的比特可变的结构作为一例。但是,本发明并不限定于对频带扩展编码单元2501和残差频谱编码单元2502的比特分配方法,对于采用上述以外的比特分配方法的结构也同样能够适用。作为上述以外的例子有下述结构,即,对于频带扩展编码单元2501和残差频谱编码单元2502,随着比特率信息表示的编码比特率变高,增加分配给双方的比特。另外,还有其他以下结构,即,随着比特率信息表示的编码比特率变高,减少分配给频带扩展编码单元2501的比特数,增加分配给残差频谱编码单元2502的比特数。
另外,在以上的说明中,作为编码时的状况的一例,举出以利用编码比特率的情况为例,说明了根据编码比特率进行频带设定的情况,但也可以取代编码比特率而使用输入信号的采样频率或量化增益等的编码参数。根据输入信号的采样频率进行频带设定的情况可以举出下述结构作为一例,即,在采样频率为预先决定的阈值以上的情况下进行本实施方式中编码比特率为低比特率时的处理,在小于阈值的情况下进行本实施方式中编码比特率为高比特率時的处理。另外,对于量化增益等的编码参数,可以举出下述结构作为一例,即,例如在由第1层编码单元进行了量化的增益(自适应激励增益、固定激励增益等)为阈值以上的情况下,进行本实施方式中编码比特率为低比特率时的处理,在低于阈值的情况下,进行本实施方式中编码比特率为高比特率时的处理。
以上对本发明的各实施方式进行了说明。
另外,在上述各实施方式中,频带设定单元根据输入频谱或输入频谱与第1层解码频谱之间的差分频谱的低频部和高频部的能量比,决定频带设定信息。但是,本发明并不限于此,对于使用其他信息决定频带设定信息的结构也同样能够适用。例如,可以举出下述结构作为例子,即,对于输入频谱或输入频谱与第1层解码频谱之间的差分频谱,进行谐波(tonality)的分析,频带设定单元根据谐波的程度决定频带设定信息。此时,新需要用于计算谐波的结构要素。这里,专利文献2等中详细地公开了谐波的计算方法(检测方法)。
具体而言,在输入信号的谐波较低的情况下,即输入信号是语音的倾向较高的情况下,频带设定单元将低频部设定得更窄,而将高频部设定得更宽。这相当于本实施方式中的频带设定信息Band_Setting的值为“0”的情况。由此,能够通过形状增益编码方式,对在输入信号为语音时给解码信号的质量造成较大影响的低频部的频谱数据集中进行编码,从而能够提高解码信号的质量。
另外,在输入信号的谐波高的情况下,即输入信号是音频(音乐)的倾向高的情况下,频带设定单元将低频部设定得更宽,而将高频部设定得更窄。这相当于本实施方式中的频带设定信息Band_Setting的值为“1”的情况。由此,能够直至更高频部为止通过形状增益编码方式减小编码失真,从而能够提高在输入信号为音频的情况下对解码信号的质量造成较大影响的音域感。
另外,在将谐波用于频带设定信息的决定的情况下,谐波由频带设定单元以外的结构要素计算的情况下,通过采用将计算出的谐波输入到频带设定单元的结构,从而能够削减谐波的计算所需的运算量。此时,将谐波输入到频带设定单元即可,无需将输入频谱或差分频谱输入。
另外,在上述各实施方式中举例说明了,在频带设定单元中,频带设定信息的值为“0”或“1”两个值的情况,但本发明并不限于此,对于频带设定信息取两个值以上的值的结构也同样能够适用。频带设定信息所需的比特数(信息量)增加,但通过增加频带设定信息的能够取的值,并且增加频带的设定图案,从而能够进行更适合于输入信号的频带设定。例如,将频带设定信息的能取的值设为0、1、2、3的四值,根据低频部和高频部之间的能量比设定上述4种值中的任一值,由此能够根据输入信号,更细微地设定由各层的编码单元进行量化的频带。
另外,在上述各实施方式中,举例说明了频带设定单元每处理帧地对频带进行调整的结构。但是,本发明并不限于此,对于下述结构也同样能够适用,即,例如,频带设定单元每处理帧不调整频带,而每数个处理帧调整频带。根据这样的结构,能够削减频带设定单元中的处理运算量,而且能够降低每处理帧调整频带而可能引起的解码信号的不连续性。
另外,在上述各实施方式中,举例说明了频带设定单元每处理帧独立地调整频带的结构。但是,本发明并不限于此,对于下述结构也同样能够适用,即,频带设定单元基于先前的处理帧中的频带设定信息,调整(设定)当前帧的频带。例如,可以举出下述结构为例,即,利用先前的数帧的频带设定信息,将当前帧的频带设定时的参数(第1频带能量、第2频带能量等)在时间轴上平滑化,决定当前帧的频带设定信息。另外,也可以举出下述结构为例,即,将频带设定信息延迟数帧,以使频带设定信息本身在时间上不急剧变动,由此使频带设定信息平滑化。通过这样的结构,能够防止频带设定信息每处理帧急剧地变动,并能够降低每处理帧调整频带而可能引起的解码信号的不连续性。
另外,在从上述实施方式1至实施方式3的编码装置中,说明了根据输入信号特性,自适应地决定进行扩展的频带的设定,在上述实施方式4的编码装置中,根据表示编码时的状况的编码参数,自适应地决定进行扩展的频带的设定。但是,编码装置将能够输入信号和编码参数双方输入,基于输入信号特性和编码参数双方,决定进行扩展的频带的设定。例如,作为具体方法的一例能够采用下述方法,即,通过首先开始的编码参数(编码比特率等),某种程度地设定进行扩展的频带,然后,使用输入信号特性(低频和高频之间的能量比等),对扩展的频带设定进行微调整。由此,能够进行更适当的频带设定,所以能够进行更高效率的编码,而且能够改善解码装置中的解码信号的质量。或者,编码装置能够将输入信号和编码参数双方输入,判断使用输入信号特性和编码参数中的哪一方的参数适当并选择任一个,基于所选择的参数,决定进行扩展的频带的设定。
另外,本发明的编码装置、解码装置及其方法,并不限于上述各个实施方式,可以进行各种变更后实施。例如,可以适当组合各实施方式来实施。
另外,上述各实施方式中的解码装置使用从上述各实施方式中的编码装置传输的编码信息进行处理。但是,本发明不限于此,只要是包含必要的参数或数据的编码信息,即使不是来自上述各实施方式中的编码装置的编码信息,也能够进行处理。
另外,在将信号处理的程序记录、写入存储器、盘、带、CD、DVD等机械式可读取的记录介质进行动作的情况下,也可采用本发明,并且能够取得与本实施方式相同的作用和效果。
另外,在上述各实施方式中以通过硬件来构成本发明的情况为例进行了说明,但是本发明也可以通过软件来实现。
另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为一个芯片,也可以包含一部分或全部地被集成为一个芯片。虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以利用LSI制造后能够编程的FPGA(Field ProgrammableGate Array,现场可编程门阵列),或可以利用对LSI内部的电路块的连接或设定能进行重新构置的可重构置处理器(Reconfigurable Processor)。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
2009年10月23日提交的日本专利申请2009-244838号以及2009年11月30日提交的日本专利申请2009-272194号所包含的说明书、说明书附图以及说明书摘要的公开内容,全部引用于本申请。
工业实用性
本发明的编码装置、解码装置及其方法能够在使用低频部的频谱进行扩频来估计高频部的频谱时提高解码信号的质量,例如能够适用于分组通信系统、移动通信系统等中。

Claims (5)

1.编码装置,使用低频侧的频谱进行频带扩展而生成高频侧的频谱,所述编码装置包括:
频带设定单元,基于输入的频域的输入信号的低频能量相对于高频能量的大小,决定频带设定信息Band_Setting的值;以及
高频编码单元,当所决定的所述频带设定信息Band_Setting的值为所述低频能量大于等于所述高频能量与预定常数之积时,决定将输入频谱X(k)中的、频带为预定的Max1以上的部分分割为P个子带,Max1≤k<Fmax,k为频谱的各样本的索引,Fmax为最大频带值、P=0,1…P-1,当所述频带设定信息Band_Setting的值为所述低频能量小于所述高频能量与所述常数之积时,将输入频谱X(k)中的、频带为预定的Max2以上的部分分割为P个子带,其中,Max2≤k<Fmax,Max1<Max2,对分割的P个子带部分的所述输入信号进行编码而生成高频部编码信息。
2.如权利要求1所述的编码装置,还包括:
低频编码单元,当所述频带设定信息Band_Setting的值为所述低频能量大于等于所述高频能量与所述常数之积时,对输入频谱X(k)中的、频带为预定的Max1以下的部分,当所述频带设定信息Band_Setting的值为所述低频能量小于所述高频能量与所述常数之积时,对输入频谱X(k)中的、频带为预定的Max2以下的部分的所述输入信号进行编码而生成低频部编码信息。
3.如权利要求1所述的编码装置,还包括:
下采样处理单元,用规定的采样频率对所述输入信号进行下采样,将下采样的输入信号输出给固定频带编码单元;
固定频带编码单元,对所述下采样输入信号进行编码而生成固定频带编码信息。
4.如权利要求1所述的编码装置,
所述频带设定信息的生成进一步基于所述输入信号的频域中的、低于预定的阈值THLow的低频侧的频带的所述输入信号的能量和高于预定的阈值THhigh的高频侧的频带的所述输入信号的能量进行比较的结果来进行。
5.如权利要求4所述的编码装置,
所述频带设定单元在所述预定的阈值THLow的低频侧的频带的能量大于等于所述预定的阈值THhigh的高频侧的频带的能量与所述常数之积的情况下,分割所述Max1以上的部分为P个子带使低频域变窄,在THLow的低频侧的频带的能量小于所述预定的THhigh的高频侧的频带的能量与所述常数之积的情况下,分割Max2以上的部分为P个子带,使高频域变窄而使低频域变宽。
CN201080046754.0A 2009-10-23 2010-10-22 编码装置、解码装置及其方法 Expired - Fee Related CN102598123B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2009244838 2009-10-23
JP2009-244838 2009-10-23
JP2009272194 2009-11-30
JP2009-272194 2009-11-30
PCT/JP2010/006281 WO2011048820A1 (ja) 2009-10-23 2010-10-22 符号化装置、復号装置およびこれらの方法

Publications (2)

Publication Number Publication Date
CN102598123A CN102598123A (zh) 2012-07-18
CN102598123B true CN102598123B (zh) 2015-07-22

Family

ID=43900064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080046754.0A Expired - Fee Related CN102598123B (zh) 2009-10-23 2010-10-22 编码装置、解码装置及其方法

Country Status (4)

Country Link
US (1) US8898057B2 (zh)
JP (1) JP5565914B2 (zh)
CN (1) CN102598123B (zh)
WO (1) WO2011048820A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011161886A1 (ja) 2010-06-21 2011-12-29 パナソニック株式会社 復号装置、符号化装置およびこれらの方法
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
PT2951821T (pt) * 2013-01-29 2017-06-06 Fraunhofer Ges Forschung Conceito para codificar a compensação de comutação de modo
CN103971693B (zh) * 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
ES2836194T3 (es) * 2013-06-11 2021-06-24 Fraunhofer Ges Forschung Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas
US10952215B2 (en) * 2018-07-10 2021-03-16 Huawei Technologies Co., Ltd. Method and system for transmission over multiple carriers

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407743A (zh) * 2001-08-23 2003-04-02 松下电器产业株式会社 声音处理装置
CN101223570A (zh) * 2005-07-15 2008-07-16 微软公司 获得用于数字媒体的高效编码的频带的频率分段
CN101223582A (zh) * 2005-07-15 2008-07-16 微软公司 对用于数字媒体频谱数据的高效编码的词典中的码字的修改

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
JP3957589B2 (ja) 2001-08-23 2007-08-15 松下電器産業株式会社 音声処理装置
JP2003255973A (ja) 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
RU2381571C2 (ru) * 2004-03-12 2010-02-10 Нокиа Корпорейшн Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала
JP2006019949A (ja) * 2004-06-30 2006-01-19 Toshiba Corp 通信装置及び通信制御方法
JP4959935B2 (ja) * 2004-11-09 2012-06-27 株式会社東芝 復号装置
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
AU2005337961B2 (en) 2005-11-04 2011-04-21 Nokia Technologies Oy Audio compression
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
WO2008022184A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Constrained and controlled decoding after packet loss
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP2224432B1 (en) 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
JP2010085877A (ja) * 2008-10-02 2010-04-15 Clarion Co Ltd 音響補完装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407743A (zh) * 2001-08-23 2003-04-02 松下电器产业株式会社 声音处理装置
CN101223570A (zh) * 2005-07-15 2008-07-16 微软公司 获得用于数字媒体的高效编码的频带的频率分段
CN101223582A (zh) * 2005-07-15 2008-07-16 微软公司 对用于数字媒体频谱数据的高效编码的词典中的码字的修改

Also Published As

Publication number Publication date
CN102598123A (zh) 2012-07-18
US8898057B2 (en) 2014-11-25
WO2011048820A1 (ja) 2011-04-28
JPWO2011048820A1 (ja) 2013-03-07
JP5565914B2 (ja) 2014-08-06
US20120209597A1 (en) 2012-08-16

Similar Documents

Publication Publication Date Title
CN102598123B (zh) 编码装置、解码装置及其方法
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
CN101925953B (zh) 编码装置、解码装置以及其方法
CN101548316B (zh) 编码装置、解码装置以及其方法
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
CN101971253B (zh) 编码装置、解码装置以及其方法
RU2679973C1 (ru) Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи
CN102334159B (zh) 编码装置、解码装置及其方法
KR101576318B1 (ko) 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법
CN101276587A (zh) 声音编码装置及其方法和声音解码装置及其方法
CN102947881A (zh) 解码装置、编码装置和解码方法、编码方法
US20160180855A1 (en) Apparatus and method for encoding and decoding multi-channel audio signal
JPWO2008053970A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140731

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140731

Address after: California, USA

Applicant after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170601

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722