CN101971253A - 编码装置、解码装置以及其方法 - Google Patents

编码装置、解码装置以及其方法 Download PDF

Info

Publication number
CN101971253A
CN101971253A CN2009801084302A CN200980108430A CN101971253A CN 101971253 A CN101971253 A CN 101971253A CN 2009801084302 A CN2009801084302 A CN 2009801084302A CN 200980108430 A CN200980108430 A CN 200980108430A CN 101971253 A CN101971253 A CN 101971253A
Authority
CN
China
Prior art keywords
subband
unit
fundamental tone
search
coded message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801084302A
Other languages
English (en)
Other versions
CN101971253B (zh
Inventor
山梨智史
押切正浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101971253A publication Critical patent/CN101971253A/zh
Application granted granted Critical
Publication of CN101971253B publication Critical patent/CN101971253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Abstract

在从解码信号的低频估计高频的频带扩展中提高解码信号的质量。第1层编码单元(202)对输入信号的规定频率以下的低频部分进行编码而生成第1层编码信息,第1层解码单元(203)对第1层编码信息进行解码而生成第1层解码信号,第2层编码单元(206)将输入信号的比规定频率高的高频部分分割为多个子带,使用与低频侧相邻的子带的估计结果,从输入信号或者第1层解码信号估计多个子带的各个子带,并生成包含该多个子带的估计结果的第2编码信息。

Description

编码装置、解码装置以及其方法
技术领域
本发明涉及将信号编码传输的通信系统中使用的编码装置、解码装置以及其方法。
背景技术
在以因特网通信为代表的分组通信系统或移动通信系统等系统中,在传输语音/音乐信号时,为了提高语音/音乐信号的传输效率,通常使用压缩/编码技术。另外,近年来,除了对语音/音乐信号单纯地以低比特率进行编码之外,对于将更宽带的语音/音乐信号进行编码的技术的需求不断提高。
对于这种需求,开发了各种各样的技术,以对宽带的语音/音乐信号进行编码也不使编码后的信息量大幅度增加。例如,在专利文献1中,在变换一定时间的输入音响信号所得的频谱数据中,生成频率的高频部分的特征作为辅助信息,并将其与低频部分的编码信息一起输出。具体而言,将频率的高频部分的频谱数据分为多个组,并在各个组中,将确定与该组的频谱最近似的低频部分的频谱的信息作为辅助信息。另外,在专利文献2中,举出了如下的技术,即:将高频信号分割为多个子带,对每个所述子带,判定子带内的信号与低频信号的相似度,并根据该判定结果,变更辅助信息的结构(子带内的振幅参数、相似的低频信号的位置参数、高频/低频间的残差信号参数)。
专利文献1:特开2003-140692号公报
专利文献2:特开2004-4530号公报
发明内容
发明需要解决的问题
然而,在上述专利文献1和专利文献2中,为了生成高频信号(高频部分的频谱数据),对高频信号的每个子带(组),分别独立地进行与高频部分相似的低频信号的判定,不能说具有足够的编码效率。尤其是在以低比特率对辅助信息进行编码时,使用计算出的辅助信息生成的解码语音的质量不充分,根据情况也有可能产生异常噪声。
本发明的目的在于,提供能够基于宽带信号的低频部分的频谱数据,对高频部分的频谱数据高效率地进行编码,改善解码信号的质量的编码装置、解码装置以及其方法。
解决问题的方案
本发明的编码装置所采用的结构包括:第一编码单元,对输入信号的规定频率以下的低频部分进行编码而生成第一编码信息;解码单元,对所述第一编码信息进行解码而生成解码信号;以及第二编码单元,将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号或所述解码信号,通过使用相邻的子带的估计结果估计所述多个子带的各个子带而生成第二编码信息。
本发明的解码装置所采用的结构包括:接收单元,接收由编码装置生成的第一编码信息和第二编码信息,所述第一编码信息是对输入信号的规定频率以下的低频部分进行编码而获得的信息,所述第二编码信息是将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号、或者对所述第一编码信息进行解码而获得的第一解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带而获得的信息;第一解码单元,对所述第一编码信息进行解码而生成第二解码信号;以及第二解码单元,使用由采用所述第二编码信息获得的、相邻的子带的解码结果,从所述第二解码信号估计所述输入信号的高频部分,从而生成第三解码信号。
本发明的编码方法,包括以下步骤:对输入信号的规定频率以下的低频部分进行编码而生成第一编码信息;对所述第一编码信息进行解码而生成解码信号;以及将所述输入信号的比所述规定频率高的高频部分分割为多个子带,并从所述输入信号或者所述解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带,从而生成第二编码信息。
本发明的解码方法,包括以下步骤:接收由编码装置生成的第一编码信息和第二编码信息,所述第一编码信息是对输入信号的规定频率以下的低频部分进行编码而获得的信息,所述第二编码信息是将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号、或者对所述第一编码信息进行解码而获得的第一解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带而获得的信息;对所述第一编码信息进行解码而生成第二解码信号;以及使用由采用所述第二编码信息获得的、相邻的子带的解码结果,从所述第二解码信号估计所述输入信号的高频部分,从而生成第三解码信号。
发明的效果
根据本发明,在基于低频部分的频谱数据生成作为编码对象的信号的高频部分的频谱数据时,通过利用高频的子带间的相关,进行基于相邻的子带的编码结果的编码,能够对宽带信号的高频部分的频谱数据高效率地进行编码,能够改善解码信号的质量。
附图说明
图1是用于说明本发明的编码中包含的搜索处理的概要的图。
图2是表示具有本发明的实施方式1的编码装置和解码装置的通信系统的结构的方框图。
图3是表示图2所示的编码装置的内部的主要结构的方框图。
图4是表示图3所示的第2层编码单元的内部的主要结构的方框图。
图5是用于说明图4所示的滤波单元中的滤波处理的详情的图。
图6是表示在图4所示的搜索单元中对子带SBp搜索最佳基音系数Tp’的处理的步骤的流程图。
图7是表示图2所示的解码装置的内部的主要结构的方框图。
图8是表示图7所示的第2层解码单元的内部的主要结构的方框图。
图9是表示本发明的实施方式2的编码装置的内部的主要结构的方框图。
图10是表示本发明的实施方式2的解码装置的内部的主要结构的方框图。
图11是表示本发明的实施方式3的编码装置的内部的主要结构的方框图。
图12是表示图11所示的第2层编码单元的内部的主要结构的方框图。
图13是表示本发明的实施方式3的解码装置的内部的主要结构的方框图。
图14是表示图13所示的第2层解码单元的内部的主要结构的方框图。
图15是表示本发明的实施方式4的编码装置的内部的主要结构的方框图。
图16是表示图15所示的第1层编码单元的内部的主要结构的方框图。
图17是表示图15所示的第2层编码单元的内部的主要结构的方框图。
图18是表示本发明的实施方式4的解码装置的内部的主要结构的方框图。
图19是表示图18所示的第1层解码单元的内部的主要结构的方框图。
图20是表示图18所示的第2层解码单元的内部的主要结构的方框图。
图21是表示本发明的实施方式5的第2层编码单元的内部的主要结构的方框图。
图22是表示本发明的实施方式6的第2层编码单元的内部的主要结构的方框图。
图23是表示本发明的实施方式6的第2层解码单元的内部的主要结构的方框图。
具体实施方式
以下,参照附图详细地说明本发明的实施方式。另外,作为本发明的编码装置和解码装置,以语音编码装置和语音解码装置为例进行说明。
首先,使用图1说明本发明的编码中包含的搜索处理的概要。图1的(a)表示输入信号的频谱,图1的(b)表示对输入信号的低频部分的编码数据进行解码所得的频谱(第1层解码频谱)。另外,这里,举例说明将电话频带(0~3.4kHz)的信号频带扩展为宽带(0~7kHz)的信号的情况。也就是说,输入信号的采样频率为16kHz,并且从低频编码单元输出的解码信号的采样频率为8kHz。这里,在对输入信号的高频部分进行编码时,将输入信号的频谱的高频部分分割为多个子带(在图1中为从1st到5th为止的五个子带结构),对每个子带,搜索对于第1层解码频谱最近似高频部分的频谱的部分。
在图1中,第1搜索范围和第2搜索范围表示搜索分别与第1子带(1st)和第2子带(2nd)相似的解码低频频谱(后述的第1层解码频谱)的一部分(频带)的范围。这里,第1搜索范围例如取Tmin(0kHz)到Tmax为止的范围。频率A表示通过搜索发现的与第1子带相似的解码低频频谱的部分频带1st′的开始位置,频率B表示频带1st′的末端部分。接下来,在进行与第2子带(2nd)对应的搜索时,利用搜索已经结束的第1子带(1st)的搜索结果。具体而言,在与第1子带(1st)最近似的部分1st′的末端部分附近的范围、即第2搜索范围中,进行与第2子带(2nd)近似的解码低频频谱的部分频带的搜索。进行了与第2子带对应的搜索的结果,例如与第2子带相似的解码低频频谱的部分频带2nd′的开始位置为C,末端部分为D。与第3子带、第4子带、第5子带各自对应的搜索也同样地使用与相邻的前一个子带对应的搜索的结果进行。由此,能够进行利用了子带间的相关的高效率的近似部分搜索,能够提高高频部分的频谱的编码性能。另外,在图1中,举例说明了输入信号的采样频率为16kHz的情况,但本发明并不限于此,也同样地能够适用于输入信号的采样频率为8kHz、或者32kHz等的情况。也就是说,本发明不受到输入信号的采样频率的限制。
(实施方式1)
图2是表示具有本发明的实施方式1的编码装置和解码装置的通信系统的结构的方框图。在图2中,通信系统包括编码装置和解码装置,它们处于各自经由传输路径而可通信的状态。另外,编码装置和解码装置通常都被安装在基站装置或者通信终端装置等上使用。
编码装置101对输入信号进行每N样本划分(N为自然数),将N样本作为一帧,对每帧进行编码。这里,假设将作为编码的对象的输入信号表示为xn(n=0、...、N-1)。n表示在被每N样本划分了的输入信号中,第n+1信号要素。编码后的输入信息(编码信息)通过传输路径102,被发送到解码装置103。
解码装置103接收通过传输路径102从编码装置101发送的编码信息,将其解码,获得输出信号。
图3是表示图2所示的编码装置101的内部的主要结构的方框图。在将输入信号的采样频率设为SRinput时,下采样处理单元201将输入信号的采样频率从SRinput下采样到SRbase(SRbase<SRinput)为止,将进行了下采样的输入信号作为下采样后输入信号,输出到第1层编码单元202。
第1层编码单元202对从下采样处理单元201输入的下采样后输入信号,例如使用CELP(Code Excited Linear Prediction,码激励线性预测)方式的语音编码方法进行编码而生成第1层编码信息,并将生成的第1层编码信息输出到第1层解码单元203和编码信息合并单元207。
第1层解码单元203对从第1层编码单元202输入的第1层编码信息,例如使用CELP方式的语音解码方法进行解码而生成第1层解码信号,并将生成的第1层解码信号输出到上采样处理单元204。
上采样处理单元204将从第1层解码单元203输入的第1层解码信号的采样频率从SRbase上采样到SRinput为止,并将进行了上采样的第1层解码信号作为上采样后第1层解码信号,输出到正交变换处理单元205。
正交变换处理单元205在内部具有缓冲器buf1n和buf2n(n=0、...、N-1),对输入信号xn和从上采样处理单元204输入的上采样后第1层解码信号yn进行改进离散余弦变换(MDCT:Modified Discrete Cosine Transform)。
接下来,说明正交变换处理单元205的正交变换处理的计算步骤和向内部缓冲器的数据输出。
首先,正交变换处理单元205通过下式(1)和式(2),以“0”作为初始值分别将缓冲器buf1n和buf2n进行初始化。
buf1n=0(n=0,…,N-1)            …(1)
buf2n=0(n=0,…,N-1)            …(2)
接下来,正交变换处理单元205对输入信号xn和上采样后第1层解码信号yn,根据下式(3)和式(4)进行MDCT处理,求输入信号的MDCT系数(以下,称为“输入频谱”)S2(k)和上采样后第1层解码信号yn的MDCT系数(以下,称为“第1层解码频谱”)S1(k)。
S 2 ( k ) = 2 N Σ n = 0 2 N - 1 x n ′ cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) π 4 N ] ( k = 0 , . . . , N - 1 ) . . . ( 3 )
S 1 ( k ) = 2 N Σ n = 0 2 N - 1 y n ′ cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) π 4 N ] ( k = 0 , . . . , N - 1 ) . . . ( 4 )
这里,k表示一帧中各个样本的索引。正交变换处理单元205通过下式(5)求作为使输入信号xn与缓冲器buf1n结合的矢量的xn’。另外,正交变换处理单元205通过下式(6)求作为使上采样后第1层解码信号yn与缓冲器buf2n结合的矢量的yn’。
x n ′ = buf 1 n ( n = 0 , . . . N - 1 ) x n - N ( n = N , . . . 2 N - 1 ) . . . ( 5 )
y n ′ = buf 2 n ( n = 0 , . . . N - 1 ) y n - N ( n = N , . . . 2 N - 1 ) . . . ( 6 )
接下来,正交变换处理单元205通过式(7)和式(8)更新缓冲器buf1n和缓冲器buf2n
buf1n=xn(n=0,…N-1)        …(7)
buf2n=yn(n=0,…N-1)        …(8)
然后,正交变换处理单元205将输入频谱S2(k)和第1层解码频谱S1(k)输出到第2层编码单元206。
第2层编码单元206使用从正交变换处理单元205输入的输入频谱S2(k)和第1层解码频谱S1(k)生成第2层编码信息,并将生成的第2层编码信息输出到编码信息合并单元207。另外,在后面叙述第2层编码单元206的细节。
编码信息合并单元207合并从第1层编码单元202输入的第1层编码信息和从第2层编码单元206输入的第2层编码信息,对合并的信息源码,在根据需要附加了传输误码等之后,将其作为编码信息输出到传输路径102。
接下来,使用图4说明图3所示的第2层编码单元206的内部的主要结构。
第2层编码单元206包括:频带分割单元206、滤波器状态设定单元261、滤波单元262、搜索单元263、基音系数设定单元264、增益编码单元265、以及复用单元266,各个单元进行以下的动作。
频带分割单元260将从正交变换处理单元205输入的输入频谱S2(k)的高频部分(FL≤k<FH)分割为P个子带SBp(p=0,1,...,P-1)。然后,频带分割单元260将分割出的各个子带的带宽BWp(p=0,1,...,P-1)和开头索引BSp(p=0,1,...,P-1)(FL≤BSp<FH)作为频带分割信息,输出到滤波单元262、搜索单元263、以及复用单元266。以下,将在输入频谱S2(k)中的、与子带SBp对应的部分记载为子带频谱S2p(k)(BSp≤k<BSp+BWp)。
滤波器状态设定单元261将从正交变换处理单元205输入的第1层解码频谱S1(k)(0≤k<FL),设定为在滤波单元262中使用的滤波器状态。第1层解码频谱S1(k)作为滤波器的内部状态(滤波器状态)存储在滤波单元262的全频带0≤k<FH的频谱S(k)的0≤k<FL的频带中。
滤波单元262具有多抽头(multi tap)的基音滤波器,基于由滤波器状态设定单元261设定的滤波器状态、从基音系数设定单元264输入的基音系数、以及从频带分割单元260输入的频带分割信息,对第1层解码频谱进行滤波,计算各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)(以下,称为“子带SBp的估计频谱”)。滤波单元262将子带SBp的估计频谱S2p′(k)输出到搜索单元263。另外,在后面叙述滤波单元262中的滤波处理的详情。另外,假设多抽头的抽头数为可取1以上的任意的值(整数)的数。
搜索单元263基于从频带分割单元260输入的频带分割信息,计算从滤波单元262输入的子带SBp的估计频谱S2p′(k)和从正交变换处理单元205输入的输入频谱S2(k)的高频部分(FL≤k<FH)中的各个子带频谱S2p(k)的相似度。该相似度的计算例如通过相关运算等来进行。另外,滤波单元262、搜索单元263、以及基音系数设定单元264的处理,对每个子带构成闭环的搜索处理,在各个闭环中,搜索单元263通过使从基音系数设定单元264输入到滤波单元262的基音系数T发生各种变化,计算与各个基音系数对应的相似度。搜索单元263在每个子带的闭环中,例如求在与子带SBp对应的闭环中相似度最大的最佳基音系数Tp′(其中,是在Tmin~Tmax的范围中),并将P个最佳基音系数输出到复用单元266。搜索单元263使用各个最佳基音系数Tp′计算与各个子带SBp相似的、第1层解码频谱的部分频带。另外,搜索单元263将与各个最佳基音系数Tp′(p=0,1,...,P-1)对应的估计频谱S2p′(k)输出到增益编码单元265。另外,在后面叙述搜索单元263中的最佳基音系数Tp′(p=0,1,...,P-1)的搜索处理的详情。
基音系数设定单元264在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第1子带SB0对应的闭环的搜索处理时,使基音系数T在预先确定的搜索范围Tmin~Tmax中逐渐变化,同时将其依序输出到滤波单元262。另外,基音系数设定单元264在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第2子带之后的子带SBp(p=1,2,...,P-1)对应的闭环的搜索处理时,基于在与子带SBp-1对应的闭环的搜索处理中求得的最佳基音系数Tp-1′,使基音系数T逐渐变化,同时将其依序输出到滤波单元262。具体而言,基音系数设定单元264将下式(9)所示的基音系数T输出到滤波单元262。在式(9)中,SEARCH表示与子带SBp对应的基音系数T的搜索范围(搜索项(entry)数)。
Tp-1′+BWp-1-SEARCH/2≤T≤Tp-1′+BWp-1+SEARCH/2…(9)
如式(9)所示,与第2子带之后的子带SBp(p=1,2,...,P-1)对应的基音系数T的搜索范围是,从子带SBP-1的最佳基音系数Tp-1′至带宽相当于子带SBP-1的带宽BWP-1的高频侧存在的索引(Tp-1′+BWP-1)的周围(±SEARCH/2部分)。这是基于以下的理由,即:存在与和子带SBP-1相邻的子带SBP相似的部分,与和子带SBP-1相似的第1层解码频谱的部分频带相邻的倾向。通过使用存在于子带SBP-1与子带SBP之间的这种相关进行搜索,与对各个子带固定地以Tmin~Tmax的搜索范围进行搜索的方法等相比,能够提高搜索的效率。
另外,如上所述,将利用了相邻的子带间的相关的搜索方法称为自适应相似搜索方法(ASS:Adaptive Similarity Search Method)。该名称只是为了便于说明而赋予的,而不是使用该名称限定本发明的上述搜索方法。
另外,通常,存在频谱的谐波结构随着成为高频而逐渐变弱的倾向。也就是说,存在子带SBP的谐波结构比子带SBP-1弱的倾向。因此,对子带SBP,与进行与子带SBP-1相似的第1层解码频谱的部分的搜索相比,在谐波结构变弱的高频侧进行与子带SBP相似的部分的搜索,能够提高搜索的效率。从这个观点来看,也能够说明本方式的搜索的效率性。
另外,在根据式(9)设定的基音系数T的范围超过第1层解码频谱的频带的上限值时(符合式(10)所示的条件时),如下式(10)所示,修正基音系数T的范围。在式(10)中,SEARCH_MAX表示基音系数T的设定值的上限值。
SEARCH_MAX-SEARCH≤T≤SEARCH_MAX
                                       …(10)
(if(Tp-1′+BWp-1+SEARCH/2>SEARCH_MAX))
另外,在根据式(9)设定的基音系数T的范围超过第1层解码频谱的频带的下限值时(符合式(11)所示的条件时),如下式(11)所示,修正基音系数T的范围。在式(11)中,SEARCH_MIN表示基音系数T的设定值的下限值。
0≤T≤SEARCH
                                       …(11)
(if(Tp-1′+BWp-1-SEARCH/2<SEARCH_MIN))
通过进行如上式(10)和式(11)那样的处理,能够高效率地进行编码而不减少最佳基音系数的搜索中的搜索项数。
增益编码单元265计算与从正交变换处理单元205输入的输入频谱S2(k)的高频部分(FL≤k<FH)有关的增益信息。具体而言,增益编码单元265将频带FL≤k<FH分割为J个子带,求输入频谱S2(k)的每个子带的频谱功率。此时,第j+1子带的频谱功率Bj通过下式(12)表示。
B j = Σ k = BL j BH j S 2 ( k ) 2 ( j = 0 , . . . , J - 1 ) . . . ( 12 )
在式(12)中,BLj表示第j+1子带的最小频率,BHj表示第j+1子带的最大频率。另外,增益编码单元265使从搜索单元263输入的各个子带的估计频谱S2p′(k)(p=0,1,...,P-1)在频域连续而构成输入频谱的高频部分的估计频谱S2′(k)。然后,与对输入频谱S2(k)计算频谱功率的情况相同,增益编码单元265根据下式(13)计算估计频谱S2′(k)的每个子带的频率功率B′j。接下来,增益编码单元265根据下式(14)计算对输入频谱S2(k)的估计频谱S2′(k)的每个子带的频谱功率的变动量Vj
B j ′ = Σ l = BL j BH j S 2 ′ ( k ) 2 ( j = 0 , . . . , J - 1 ) . . . ( 13 )
V j = B j B j ′ ( j = 0 , . . . , J - 1 ) . . . ( 14 )
然后,增益编码单元265对变动量Vj进行编码,并将与编码后的变动量VQj对应的索引输出到复用单元266。
复用单元266将从频带分割单元260输入的频带分割信息、从搜索单元263输入的对各个子带SBp(p=0,1,...,P-1)的最佳基音系数Tp′、以及从增益编码单元265输入的变动量VQj的索引进行复用作为第2层编码信息,并将其输出到编码信息合并单元207。另外,也可以将Tp′和VQj的索引直接输入到编码信息合并单元207,由编码信息合并单元207将其与第1层编码信息进行复用。
接下来,使用图5说明图4所示的滤波单元262中的滤波处理的细节。
滤波单元262使用从滤波器状态设定单元261输入的滤波器状态、从基音系数设定单元264输入的基音系数T、以及从频带分割单元260输入的频带分割信息,对子带SBp(p=0,1,...,P-1)生成频带BSp≤k<BSp+BWp(p=0,1,...,P-1)中的估计频谱。在滤波单元262中使用的滤波器的传递函数F(z)通过下式(15)表示。
以下,以子带SBp为例,说明生成子带频谱S2p(k)的估计频谱S2p′(k)的处理。
F ( z ) = 1 1 - Σ i = - M M β i z - T + i . . . ( 15 )
在式(15)中,T表示从基音系数设定单元264提供的基音系数,βi表示预先存储在内部的滤波器系数。例如,在抽头(tap)数为3时,能够将滤波器系数的候补为(β-1、β0、β1)=(0.1、0.8、0.1)的情形举作例子。除此之外,(β-1、β0、β1)=(0.2、0.6、0.2)、(0.3、0.4、0.3)等值也是适当的。另外,也可以是(β-1、β0、β1)=(0.0、1.0、0.0)的值,该情况意味着对频带0≤k<FL的第1层解码频谱的部分频带,不使其形状发生变化地直接将其复制到BSp≤k<BSp+BWp的频带。另外,在式(15)中,设M=1。M是与抽头数有关的指标。
在滤波单元262的全频带的频谱S(k)的0≤k<FL的频带中,存储第1层解码频谱S1(k)作为滤波器的内部状态(滤波器状态)。
在S(k)的BSp≤k<BSp+BWp的频带中,通过以下的步骤的滤波处理,存储子带SBp的估计频谱S2p’(k)。也就是说,在S2p’(k)中,原则上,代入频率比该k低T的频谱S(k-T)。但是,为了增加频谱的平滑性,实际上,将频谱βi·S(k-T+i)与所有的i相加的频谱代入S2p’(k),上述频谱βi·S(k-T+i)是将规定的滤波器系数βi与频谱S(k-T)附近、即从频谱S(k-T)隔开i的频谱S(k-T+i)相乘所得的频谱。该处理通过下式(16)表示。
S 2 p ′ ( k ) = Σ i = - 1 1 β i · S 2 ( k - T + i ) 2 . . . ( 16 )
通过从频率低的k=BSp开始,依序使k在BSp≤k<BSp+BWp的范围中变化地进行上述运算,计算BSp≤k<BSp+BWp中的估计频谱S2p’(k)。
每当从基音系数设定单元264提供基音系数T时,在BSp≤k<BSp+BWp的范围内,都对S(k)进行清零后,进行以上的滤波处理。也就是说,每当基音系数T变化时,计算S(k),并将其输出到搜索单元263。
图6是表示在图4所示的搜索单元263中对子带SBp搜索最佳基音系数Tp’的处理的步骤的流程图。另外,搜索单元263通过重复图6所示的步骤,搜索与各个子带SBp(p=0,1,...,P-1)对应的最佳基音系数Tp′(p=0,1,...,P-1)。
首先,搜索单元263将作为用于保存相似度的最小值的变量的最小相似度Dmin初始化为“+∞”(ST2010)。接下来,搜索单元263根据下式(17),计算某个基音系数的输入频谱S2(k)的高频部分(FL≤k<FH)与估计频谱S2p’(k)的相似度D(ST2020)。
D = &Sigma; k = 0 M &prime; S 2 ( BS p + k ) &CenterDot; S 2 ( BS p + k ) - ( &Sigma; k = 0 M &prime; S 2 ( BS p + k ) &CenterDot; S 2 &prime; ( BS p + k ) ) 2 &Sigma; k = 0 M &prime; S 2 &prime; ( BS p + k ) &CenterDot; S 2 &prime; ( BS p + k ) ( 0 < M &prime; &le; BW p ) . . . ( 17 )
在式(17)中,M’表示计算相似度D时的样本数,其可以是各个子带的带宽以下的任意的值。另外,在式(17)中不存在S2p′(k),这是因为,使用BSp和S2′(k)表示S2p′(k)。
接下来,搜索单元263判定计算出的相似度D是否小于最小相似度Dmin(ST2030)。当在ST2020中计算出的相似度小于最小相似度Dmin时(ST2030:“是”),搜索单元263将相似度D代入最小相似度Dmin(ST2040)。另一方面,当在ST2020中计算出的相似度为最小相似度Dmin以上时(ST2030:“否”),搜索单元263判定整个搜索范围的处理是否已经结束。也就是说,搜索单元263判定是否在ST2020中根据上式(17)对搜索范围内的所有基音系数分别计算相似度(ST2050)。在整个搜索范围的处理尚未结束时(ST2050:“否”),搜索单元263将处理再次返回ST2020。然后,搜索单元263对与上次在ST2020的步骤中根据式(17)计算出相似度时不同的基音系数,根据式(17)计算相似度。另一方面,在整个搜索范围的处理结束了时(ST2050:“是”),搜索单元263将与最小相似度Dmin对应的基音系数T作为最佳基音系数Tp′输出到复用单元266(ST2060)。
接下来,说明图2所示的解码装置103。
图7是表示解码装置103的内部的主要结构的方框图。
在图7中,编码信息分离单元131从所输入的编码信息中将第1层编码信息与第2层编码信息分离,并将第1层编码信息输出到第1层解码单元132,将第2层编码信息输出到第2层解码单元135。
第1层解码单元132对从编码信息分离单元131输入的第1层编码信息进行解码,并将所生成的第1层解码信号输出到上采样处理单元133。这里,第1层解码单元132的动作与图3所示的第1层解码单元203相同,所以省略详细的说明。
上采样处理单元133对从第1层解码单元132输入的第1层解码信号进行将采样频率从SRbase上采样到SRinput为止的处理,并将获得的上采样后第1层解码信号输出到正交变换处理单元134。
正交变换处理单元134对从上采样处理单元133输入的上采样后第1层解码信号进行正交变换处理(MDCT),并将所获得的上采样后第1层解码信号的MDCT系数(以下,称为“第1层解码频谱”)S1(k)输出到第2层解码单元135。这里,正交变换处理单元134的动作与图3所示的正交变换处理单元205对上采样后第1层解码信号的处理相同,所以省略详细的说明。
第2层解码单元135利用从正交变换处理单元134输入的第1层解码频谱S1(k)、以及从编码信息分离单元131输入的第2层编码信息,生成包含高频分量的第2层解码信号,并将其作为输出信号输出。
图8是表示图7所示的第2层解码单元135的内部的主要结构的方框图。
分离单元351将从编码信息分离单元131输入的第2层编码信息,分离为包含各个子带的带宽BWp(p=0,1,...,P-1)、开头索引BSp(p=0,1,...,P-1)(FL≤BSp<FH)的频带分割信息、作为与滤波有关的信息的最佳基音系数Tp′(p=0,1,...,P-1)、以及作为与增益有关的信息的编码后变动量VQj(j=0,1,...,J-1)的索引。另外,分离单元351将频带分割信息和最佳基音系数Tp′(p=0,1,...,P-1)输出到滤波单元353,并将编码后变动量VQj(j=0,1,...,J-1)的索引输出到增益解码单元354。另外,在编码信息分离单元131中,在分离完毕了频带分割信息、Tp′(p=0,1,...,P-1)、以及VQj(j=0,1,...,J-1)的索引时,也可以不配置分离单元351。
滤波器状态设定单元352将从正交变换处理单元134输入的第1层解码频谱S1(k)(0≤k<FL),设定为在滤波单元353中使用的滤波器状态。这里,在为了方便而将滤波单元353中的全频带0≤k<FH的频谱称为S(k)时,第1层解码频谱S1(k)作为滤波器的内部状态(滤波器状态)存储在S(k)的0≤k<FL的频带中。这里,滤波器状态设定单元352的结构和动作与图4所示的滤波器状态设定单元261相同,所以省略详细的说明。
滤波单元353具有多抽头(抽头数多于1)的基音滤波器。滤波单元353基于从分离单元351输入的频带分割信息、由滤波器状态设定单元352设定了的滤波器状态、从分离单元351输入的基音系数Tp′(p=0,1,...,P-1)、以及预先存储在内部的滤波器系数,对第1层解码频谱S1(k)进行滤波,计算上式(16)所示的、各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)。在滤波单元353中,也使用上式(15)所示的滤波函数(filter function)。但是,此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp’。
这里,滤波单元353对第1子带直接使用基音系数T1′进行滤波处理。另外,滤波单元353对第2子带之后的子带SBp(p=1,2,...,P-1),考虑子带SBP-1的基音系数TP-1′而新设定子带SBP的基音系数Tp”,并使用该基音系数Tp”进行滤波。具体而言,在进行对第2子带之后的子带SBp(p=1,2,...,P-1)的滤波时,滤波单元353对从分离单元351获得的基音系数,使用子带SBP-1的基音系数TP-1′和子带宽BWP-1,根据下式(18),计算用于滤波的基音系数Tp”。此时的滤波处理,根据在式(16)中将T置换为Tp”的式进行。
Tp″=Tp-1′+BWp-1-SEARCH/2+Tp′…(18)
在式(18)中,对子带SBp(p=1,2,...,P-1),将TP′与索引相加作为基音系数Tp”,该索引是将子带SBP-1的带宽BWP-1与子带SBP-1的基音系数TP-1′相加,再减去搜索范围SEARCH的一半的值而得到的。
增益解码单元354对从分离单元351输入的、编码后变动量VQj的索引进行解码,求作为变动量Vj的量化值的变动量VQj
频谱调整单元355使从滤波单元353输入的各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)在频域连续而求输入频谱的估计频谱S2′(k)。另外,频谱调整单元355根据下式(19),将从增益解码单元354输入的每个子带的变动量VQj与估计频谱S2′(k)相乘。由此,频谱调整单元355对估计频谱S2′(k)的频带FL≤k<FH的频谱形状进行调整,生成解码频谱S3(k),并将其输出到正交变换处理单元356。
S3(k)=S2′(k)·VQj(BLj≤k≤BHj,for all j)…(19)
这里,解码频谱S3(k)的低频部分(0≤k<FL)由第1层解码频谱S1(k)构成,解码频谱S3(k)的高频部分(FL≤k<FH)由频谱形状调整后的估计频谱S2′(k)构成。
正交变换处理单元356将从频谱调整单元355输入的解码频谱S3(k)正交变换为时域的信号,并将所获得的第2层解码信号作为输出信号输出。这里,根据需要进行适当的加窗和叠加运算等处理,以避免在帧间产生不连续。
以下,说明在正交变换处理单元356中的具体的处理。
正交变换处理单元356在其内部具有缓冲器buf′(k),如下式(20)所示,对缓冲器buf′(k)进行初始化。
buf′(k)=0(k=0,…,N-1)             …(20)
另外,正交变换处理单元356使用从频谱调整单元355输入的第2层解码频谱S3(k),根据下式(21)求第2层解码信号yn”,并将其输出。
y n &prime; &prime; = 2 N &Sigma; n = 0 2 N - 1 Z 4 ( k ) cos [ ( 2 n + 1 + N ) ( 2 k + 1 ) &pi; 4 N ] ( n = 0 , . . . , N - 1 ) . . . ( 21 )
在式(21)中,如下式(22)所示,Z4(k)是将解码频谱S3(k)与缓冲器buf′(k)结合所得的矢量。
Z 4 ( k ) = buf &prime; ( k ) ( k = 0 , . . . N - 1 ) S 3 ( k ) ( k = N , . . . 2 N - 1 ) . . . ( 22 )
接下来,正交变换处理单元356根据下式(23)更新缓冲器buf′(k)。
buf′(k)=S3(k)(k=0,…N-1)           …(23)
接下来,正交变换处理单元356将解码信号yn”作为输出信号输出。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并利用相邻子带的编码结果进行每个子带的编码。也就是说,利用高频的子带间的相关进行高效率的搜索(自适应相似搜索方法(ASS:Adaptive Similarity SearchMethod)),所以能够对高频频谱更高效率地进行编码/解码,抑制解码信号中包含的不自然的异常噪声,能够提高解码信号的质量。另外,本发明通过进行上述高效率的高频频谱的搜索,与不利用子带间的相关而对高频频谱进行编码/解码的方法相比,能够削减为了达成相同程度的解码信号的质量所需要的相似部分搜索的运算量。
另外,在本实施方式中,举例说明了在增益编码单元265中对输入频谱S2(k)的高频部分进行分割而获得的子带数J、与在搜索单元263中对输入频谱S2(k)的高频部分进行分割而获得的子带数P不同的情况。但是,本发明并不限于此,也可以将在增益编码单元265中对输入频谱S2(k)的高频部分进行分割而获得的子带数设为P个。另外,此时,如专利文献2所明示那样,增益编码单元265也可以使用在搜索单元263中搜索到最佳基音系数Tp′(p=0,1,...,P-1)时的理想增益,代替式(14)所示的每个子带的频谱功率比的平方根。另外,在搜索到最佳基音系数Tp′(p=0,1,...,P-1)时的理想增益通过下式(24)求出。其中,式(24)中的M’使用与在式(17)中计算出最佳基音系数Tp′时的M’相同的值。
&beta; p = &Sigma; k = 0 M , S 2 ( BS p + k ) &CenterDot; S 2 &prime; ( BS p + k ) &Sigma; k = 0 M , S 2 &prime; ( BS p + k ) &CenterDot; S 2 &prime; ( BS p + k ) p = 0 , . . . , P - 1 0 < M &prime; &le; BW i . . . ( 24 )
另外,在本实施方式中,举例说明了在基音系数设定单元264中如式(9)所示那样地设定基音系数T的搜索范围的情况,但本发明并不限于此,也可以如下式(25)所示那样地设定基音系数T的搜索范围。
Tp-1′-SEARCH/2≤T≤Tp-1′+SEARCH/2          …(25)
在式(25)中,基音系数T被设定为与子带SBP-1对应的最佳基音系数TP -1′的附近的值。这是基于以下的理由,即:与子带SBP-1最相似的第1层解码频谱的部分频带也与子带SBP相似的可能性高。尤其是在子带SBP-1与子带SBP之间的相关非常高时,通过如上所述的基音系数的设定方法,能够更高效率地进行搜索。另外,在基音系数设定单元264中如式(25)所示那样地设定了基音系数T的搜索范围时,在滤波单元353中取代式(18)而如式(26)所示那样地计算用于滤波的基音系数Tp”。
Tp″=Tp-1′-SEARCH/2+Tp′              …(26)
另外,在上述各个实施方式中,举例说明了对第2子带之后的所有子带SBp(p=1,2,...,P-1),基于与相邻子带对应的搜索结果设定基音系数的搜索范围的情况。但是,本发明并不限于此,也可以对部分子带,与第1子带同样地将基音系数的搜索范围固定在Tmin~Tmax的范围。例如,在对连续的预定数以上的子带,基于与相邻的子带对应的搜索结果设定了基音系数的搜索范围时,对下一个子带,与第1子带同样地将基音系数的搜索范围固定在Tmin~Tmax的范围。由此,能够避免与第1子带SB0对应的搜索结果对从第2子带SB1到第P子带SBP-1为止的所有搜索造成影响。也就是说,能够避免对某个子带搜索相似部分的对象过于偏向高频。由此,能够抑制对原本相似部分存在于第1层解码频谱的低频部分的子带,由于相似部分的搜索被限定在第1层解码频谱的高频部分而可能产生的异常噪声、音质劣化。
(实施方式2)
在本发明的实施方式2中,说明对第1层编码单元不使用实施方式1所示的CELP方式的编码方法,而使用MDCT等变换编码的情况。
实施方式2的通信系统(未图示)与图2所示的通信系统基本相同,与图2的通信系统的编码装置101和解码装置103的不同之处仅在于编码装置和解码装置的结构和一部分的动作。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“111”和“113”进行说明。
图9是表示本实施方式的编码装置111的内部的主要结构的方框图。另外,本实施方式的编码装置111主要包括:下采样处理单元201、第1层编码单元212、正交变换处理单元215、第2层编码单元216、以及编码信息合并单元207。这里,下采样处理单元201和编码信息合并单元207进行与实施方式1的情况相同的处理,所以省略其说明。
第1层编码单元212对从下采样处理单元201输入的下采样后输入信号,进行变换编码方式的编码。具体而言,第1层编码单元212对所输入的下采样后输入信号,使用MDCT等方法,从时域的信号变换为频域的分量,并对获得的频率分量进行量化。第1层编码单元212将量化的频率分量直接输出到第2层编码单元216作为第1层解码频谱。第1层编码单元212的MDCT处理与实施方式1所示的MDCT处理相同,所以省略其详细的说明。
正交变换处理单元215对输入信号进行MDCT等正交变换,并将所获得的频率分量输出到第2层编码单元216作为高频频谱。正交变换处理单元215的MDCT处理与实施方式1所示的MDCT处理相同,所以省略详细的说明。
第2层编码单元216与图3所示的第2层编码单元206的不同之处仅在于,从第1层编码单元212输入第1层解码频谱,其他的处理与第2层编码单元206的处理相同,所以省略详细的说明。
图10是表示本实施方式的解码装置113的内部的主要结构的方框图。另外,本实施方式的解码装置113主要包括:编码信息分离单元131、第1层解码单元142、以及第2层解码单元145。另外,编码信息分离单元131进行与实施方式1的情况相同的处理,所以省略其详细的说明。
第1层解码单元142对从编码信息分离单元131输入的第1层编码信息进行解码,并将获得的第1层解码频谱输出到第2层解码单元145。作为第1层解码单元142的解码处理,采用与图9所示的第1层编码单元212的编码方法对应的普通的反量化方法,并省略其详细的说明。
第2层解码单元145与图7所示的第2层解码单元135的不同之处仅在于,从第1层解码单元142输入第1层解码频谱,其他的处理与第2层解码单元135的处理相同,所以省略其详细的说明。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并利用相邻子带的编码结果进行每个子带的编码。也就是说,利用高频的子带间的相关进行高效率的搜索,所以能够更高效率地对高频频谱进行编码/解码,能够抑制解码信号中包含的不自然的异常噪声,提高解码信号的质量。
另外,根据本实施方式,不仅能够将本发明适用于对第1层的编码采用了CELP方式的编码/解码方法的情况,也能够将本发明适用于对第1层的编码采用了例如变换编码/解码方法的情况。此时,不需要在第1层编码后,另外对第1层解码信号进行正交变换而计算第1层解码频谱,而能够抑制相应的运算量。
另外,在本实施方式中,举例说明了通过下采样处理单元201对输入信号进行下采样后将其输入到第1层编码单元212的情况,但本发明并不限于此,也可以省略下采样处理单元201,将作为正交变换处理单元215的输出的输入频谱,输入到第1层编码单元212。此时,能够在第1层编码单元212中省略正交变换处理,能够削减相应的运算量。
(实施方式3)
在本发明的实施方式3中,对以下的结构进行说明,即:对高频部分的子带间的相关程度进行分析,并基于分析结果,切换是否进行利用了相邻的子带的最佳基音周期的搜索。
本发明的实施方式3的通信系统(未图示)与图2所示的通信系统基本相同,与图2的通信系统的编码装置101和解码装置103的不同之处仅在于编码装置和解码装置的结构和一部分的动作。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“121”和“123”进行说明。
图11是表示本实施方式的编码装置121的内部的主要结构的方框图。本实施方式的编码装置121主要包括:下采样处理单元201、第1层编码单元202、第1层解码单元203、上采样处理单元204、正交变换处理单元205、相关判定单元221、第2层编码单元226、以及编码信息合并单元227。这里,除了相关判定单元221、第2层编码单元226、以及编码信息合并单元227之外的结构要素与实施方式1的情况相同,所以省略说明。
相关判定单元221基于从第2层编码单元226输入的频带分割信息,计算从正交变换处理单元205输入的输入频谱的高频部分(FL≤k<FH)的各个子带间的相关,并基于计算出的相关值,将判定信息的值设定为“0”或“1”中的任一个。具体而言,相关判定单元221分别对P个子带计算频谱平坦度测量值(SFM:Spectral Flatness Measure),并分别计算相邻子带的SFM值之差(SFMp-SFMp+1)(p=0,1,...,P-2)。相关判定单元221将(SFMp-SFMp+1)(p=0,1,...,P-2)的各个绝对值与预先规定的阈值THSFM进行比较,在绝对值比阈值THSFM低的(SFMp-SFMp+1)的数为规定数以上时,在输入频谱的整个高频部分,判定为相邻子带间的相关强,并将判定信息的值设定为“1”。在除此之外的情况下,相关判定单元221将判定信息的值设定为“0”。相关判定单元221将设定了的判定信息输出到第2层编码单元226和编码信息合并单元227。
第2层编码单元226使用从正交变换处理单元205输入的输入频谱S2(k)、第1层解码频谱S1(k)、以及从相关判定单元221输入的判定信息,生成第2层编码信息,并将生成的第2层编码信息输出到编码信息合并单元227。另外,第2层编码单元226将在内部计算出的频带分割信息输出到相关判定单元221。在后面叙述第2层编码单元226中的频带分割信息的细节。
图12是表示图11所示的第2层编码单元226的内部的主要结构的方框图。
在第2层编码单元226中,除了基音系数设定单元274和频带分割单元275之外的结构要素与实施方式1的情况相同,所以省略说明。
基音系数设定单元274在从相关判定单元221输入的判定信息为“0”时,在搜索单元263的控制下,使基音系数T在预先规定的搜索范围Tmin~Tmax中逐渐变化,同时将其依序输出到滤波单元262。也就是说,在从相关判定单元221输入的判定信息为“0”时,基音系数设定单元274设定基音系数T,而不考虑与相邻的子带对应的搜索结果。
另外,在从相关判定单元221输入的判定信息为“1”时,基音系数设定单元274进行与实施方式1的基音系数设定单元264相同的处理。也就是说,基音系数设定单元274在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第1子带SB0对应的闭环的搜索处理时,使基音系数T在预先规定的搜索范围Tmin~Tmax中逐渐变化,同时将其依序输出到滤波单元262。另一方面,基音系数设定单元274在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第2子带之后的子带SBp(p=1,2,...,P-1)对应的闭环的搜索处理时,利用在与子带SBp-1对应的闭环的搜索处理中求得的最佳基音系数Tp-1′,根据上式(9),使基音系数T逐渐变化,同时将其依序输出到滤波单元262。
总之,基音系数设定单元274根据所输入的判定信息的值,自适应地切换是否利用与相邻的子带对应的搜索结果设定基音系数。因此,仅在帧内的子带间的相关为规定级别以上时,能够利用与相邻的子带对应的搜索结果,而在子带间的相关比规定级别低时,能够抑制由利用相邻的子带的搜索结果造成的编码精度的降低。
频带分割单元275将从正交变换处理单元205输入的输入频谱S2(k)的高频部分(FL≤k<FH)分割为P个子带SBp(p=0,1,...,P-1)。然后,频带分割单元275将各个子带的带宽BWp(p=0,1,...,P-1)和开头索引BSp(p=0,1,...,P-1)(FL≤BSp<FH)作为频带分割信息,输出到滤波单元262、搜索单元263、复用单元266、以及相关判定单元221。
编码信息合并单元227合并从第1层编码单元202输入的第1层编码信息、从相关判定单元221输入的判定信息、以及从第2层编码单元226输入的第2层编码信息,并对合并了的信息源码,根据需要,在附加了传输误码等之后,将其作为编码信息输出到传输路径102。
图13是表示本实施方式的解码装置123的内部的主要结构的方框图。本实施方式的解码装置123主要包括:编码信息分离单元151、第1层解码单元132、上采样处理单元133、正交变换处理单元134、以及第2层解码单元155。这里,除了编码信息分离单元151和第2层解码单元155之外的结构要素与实施方式1的情况相同,所以省略说明。
在图13中,编码信息分离单元151从输入的编码信息中将第1层编码信息、第2层编码信息和判定信息分离,并将第1层编码信息输出到第1层解码单元132,将第2层编码信息和判定信息输出到第2层解码单元155。
第2层解码单元155利用从正交变换处理单元134输入的第1层解码频谱S1(k)、从编码信息分离单元131输入的第2层编码信息和判定信息,生成包含高频分量的第2层解码信号,并将其作为输出信号输出。
图14是表示图13所示的第2层解码单元155的内部的主要结构的方框图。
在图14中,滤波单元363以外的结构要素与实施方式1的情况相同,所以省略说明。
滤波单元363具有多抽头(抽头数多于1)的基音滤波器。滤波单元363根据从编码信息分离单元151输入的判定信息,基于从分离单元351输入的频带分割信息、由滤波器状态设定单元352设定的滤波器状态、从分离单元351输入的基音系数Tp′、以及预先存储在内部的滤波器系数,对第1层解码频谱S1(k)进行滤波,计算各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)。
这里,具体地说明根据判定信息的滤波单元363的处理。在输入的判定信息为“0”时,滤波单元363对从子带SB0到子带SBP-1为止的全部P个的各个子带,使用从分离单元351输入的基音系数Tp’进行滤波,而不考虑相邻的子带的基音系数。此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp’。
另外,在所输入的判定信息为“1”时,滤波单元363进行与图8所示的滤波单元353同样的处理。也就是说,滤波单元363对第1子带直接使用基音系数T1′进行滤波处理。另外,滤波单元363对第2子带之后的子带SBp(p=1,2,...,P-1),考虑子带SBP-1的基音系数TP-1′而新设定子带SBP的基音系数Tp”,并使用该基音系数Tp”进行滤波。具体而言,在进行对第2子带之后的子带SBp(p=1,2,...,P-1)的滤波时,滤波单元363对从分离单元351获得的基音系数,使用子带SBP-1的基音系数TP-1′和子带宽BWP-1,根据上式(18),计算用于滤波的基音系数Tp”。此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp”。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并基于对每个帧分析了子带间的相关的程度的结果,自适应地切换是否利用相邻子带的编码结果进行每个子带的编码。也就是说,仅在帧内的子带间的相关为规定级别以上时,利用子带间的相关进行高效率的搜索,能够更高效率地对高频频谱进行编码/解码,能够抑制解码信号中包含的不自然的异常噪声。另外,在帧内的子带间的相关比规定级别低时,不利用相邻的子带的搜索结果,能够抑制由利用相关低的相邻子带的搜索结果造成的编码精度的降低,能够提高解码信号的质量。
此外,在本实施方式中,举例说明了对每个子带分析SFM值,综合地考虑1帧中包含的所有子带的SFM值,对每个帧进行相关判定而设定判定信息的值的情况,但本发明并不限于此,也可以对每个子带个别地进行相关判定而设定判定信息的值。另外,也可以代替SFM值,计算各个子带的能量,根据子带间的能量之差或者之比等进行相关判定而设定判定信息的值。另外,也可以对各个子带间的频率分量(MDCT系数等)通过相关运算等计算相关,并通过将该相关值与预先规定的阈值进行比较,从而设定判定信息的值。
另外,在本实施方式中,举例说明了在判定信息的值为“1”时,基音系数设定单元274如上式(9)所示那样地设定基音系数T的搜索范围的情况,但本发明并不限于此,也可以如上式(25)所示那样地设定基音系数T的搜索范围。
(实施方式4)
在本发明的实施方式4中,说明输入信号的采样频率为32kHz,适用以ITU-T进行了标准化的G.729.1方式作为第1层编码单元的编码方式的情况的结构。
本发明的实施方式4的通信系统(未图示)与图2所示的通信系统基本相同,与图2的通信系统的编码装置101和解码装置103的不同之处仅在于编码装置和解码装置的结构和一部分的动作。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“161”和“163”进行说明。
图15是表示本实施方式的编码装置161的内部的主要结构的方框图。本实施方式的编码装置161主要包括:下采样处理单元201、第1层编码单元233、正交变换处理单元215、第2层编码单元236、以及编码信息合并单元207。这里,除了第1层编码单元233和第2层编码单元236以外的结构要素与实施方式1的情况相同,所以省略说明。
第1层编码单元233对从下采样处理单元201输入的下采样后输入信号,利用G.729.1方式的语音编码方法进行编码以生成第1层编码信息。然后,第1层编码单元233将生成的第1层编码信息输出到编码信息合并单元207。另外,第1层编码单元233将在生成第1层编码信息的过程中获得的信息作为第1层解码频谱输出到第2层编码单元236。另外,在后面叙述第1层编码单元233的细节。
第2层编码单元236使用从正交变换处理单元215输入的输入频谱和从第1层编码单元233输入的第1层解码频谱,生成第2层编码信息,并将所生成的第2层编码信息输出到编码信息合并单元207。另外,在后面叙述第2层编码单元236的细节。
图16是表示图15所示的第1层编码单元233的内部的主要结构的方框图。这里,举例说明在第1层编码单元233中适用G.729.1编码方式的情况。
图16所示的第1层编码单元233包括:频带分割处理单元281、高通滤波器282、CELP(Code Excited Linear Prediction,码激励线性预测)编码单元283、FEC(Forward Error Correction:前向纠错)编码单元284、加法单元285、低通滤波器286、TDAC(Time-Domain Aliasing Cancellation:时域混叠消除)编码单元287、TDBWE(Time-Domain BandWidth Extension:时域频带扩展)编码单元288、以及复用单元289,各个单元进行以下的动作。
频带分割处理单元281对从下采样处理单元201输入的、采样频率为16kHz的下采样后输入信号,进行基于QMF(Quadrature Mirror Filter:正交镜像滤波器)等的频带分割处理,生成0~4kHz频带的第1低频信号和4~8kHz频带的第2低频信号。频带分割处理单元281将所生成的第1低频信号输出到高通滤波器282,并将第2低频信号输出到低通滤波器286。
高通滤波器282对从频带分割处理单元281输入的第1低频信号抑制0.05kHz以下的频率分量,获得主要由高于0.05kHz的频率分量构成的信号,并将其输出到CELP编码单元283和加法单元285作为滤波后第1低频信号。
CELP编码单元283对从高通滤波器282输入的滤波后第1低频信号进行CELP方式的编码,并将获得的CELP参数输出到FEC编码单元284、TDAC编码单元287和复用单元289。这里,CELP编码单元283也可以将CELP参数的一部分、或者在生成CELP参数的过程中获得的信息输出到FEC编码单元284和TDAC编码单元287。另外,CELP编码单元283使用生成的CELP参数进行CELP方式的解码,并将获得的CELP解码信号输出到加法单元285。
FEC编码单元284使用从CELP编码单元283输入的CELP参数,计算在解码装置163的丢失帧补偿处理中所利用的FEC参数,并将计算出的FEC参数输出到复用单元289。
加法单元285将从由高通滤波器282输入的滤波器后第1低频信号减去从CELP编码单元283输入的CELP解码信号所得的差分信号输出到TDAC编码单元287。
低通滤波器286对从频带分割处理单元281输入的第2低频信号,抑制比7kHz大的频率分量,获得主要由7kHz以下的频率分量构成的信号,并将其输出到TDAC编码单元287和TDBWE编码单元288作为滤波器后第2低频信号。
TDAC编码单元287分别对从加法单元285输入的差分信号和从低通滤波器286输入的滤波后第2低频信号进行MDCT等的正交变换,并对所获得的频域信号(MDCT系数)进行量化。然后,TDAC编码单元287将量化后获得的TDAC参数输出到复用单元289。另外,TDAC编码单元287使用TDAC参数进行解码,将获得的解码频谱输出到第2层编码单元236(图15)作为第1层解码频谱。
TDBWE编码单元288对从低通滤波器286输入的滤波后第2低频信号进行时域上的频带扩展编码,并将获得的TDBWE参数输出到复用单元289。
复用单元289对FEC参数、CELP参数、TDAC参数和TDBWE参数进行复用,并将其输出到编码信息合并单元237(图15)作为第1层编码信息。另外,也可以在第1层编码单元233中不设置复用单元289,而由编码信息合并单元237对这些参数进行复用。
图16所示的、本实施方式的第1层编码单元233中的编码与G.729.1方式的编码的不同之处在于,在TDAC编码单元287中,将对TDAC参数进行解码后的解码频谱输出到第2层编码单元236作为第1层解码频谱。
图17是表示图15所示的第2层编码单元236的内部的主要结构的方框图。
在第2层编码单元236中,除了基音系数设定单元294之外的结构要素与实施方式1的情况相同,所以省略说明。
另外,在以下的说明中,举例说明在图17所示的频带分割单元260中,将输入频谱S2(k)的高频部分(FL≤k<FH)分割为五个子带SBp(p=0,1,...,4)的情况。也就是说,说明在实施方式1中,子带数P为P=5的情况。但是,本发明并不限定分割输入频谱S2的高频部分的子带数,也可以同样地适用于子带数P为P=5之外的情况。
基音系数设定单元294对多个子带中的、一部分子带预先设定基音系数的搜索范围,对除此之外的子带,基于与相邻的前一个子带对应的搜索结果设定基音系数的搜索范围。
例如,基音系数设定单元294在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第1子带SB0、第3子带SB2或者第5子带SB4(子带SBp(p=0,2,4))对应的闭环的搜索处理时,使基音系数T在预先规定的搜索范围中逐渐变化,同时将其依序输出到滤波单元262。具体而言,在进行与第1子带SB0对应的闭环的搜索处理时,基音系数设定单元294使基音系数T在对第1子带预先设定的搜索范围Tmin1~Tmax1中逐渐变化并进行设定。另外,在进行与第3子带SB2对应的闭环的搜索处理时,基音系数设定单元294使基音系数T在对第3子带预先设定的搜索范围Tmin3~Tmax3中逐渐变化并进行设定。同样地,在进行与第5子带SB4对应的闭环的搜索处理时,基音系数设定单元294使基音系数T在对第5子带预先设定的搜索范围Tmin5~Tmax5中逐渐变化并进行设定。
另一方面,基音系数设定单元294在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第2子带SB1或者第4子带SB3(子带SBp(p=1,3))对应的闭环的搜索处理时,基于在与相邻的前一个子带SBp-1对应的闭环的搜索处理中求得的最佳基音系数Tp-1′,使基音系数T逐渐变化,同时将其依序输出到滤波单元262。具体而言,在进行与第2子带SB1对应的闭环的搜索处理时,基音系数设定单元294基于相邻的前一个子带即第1子带SB0的最佳基音系数T0′,在根据式(9)计算的搜索范围中使基音系数T逐渐变化并进行设定。此时,在式(9)中,P=1。同样地,在进行与第4子带SB3对应的闭环的搜索处理时,基音系数设定单元294基于相邻的前一个子带即第3子带SB2的最佳基音系数T2′,使基音系数T在根据式(9)计算的搜索范围中逐渐变化并进行设定。此时,在式(9)中,P=3。
另外,在根据式(9)设定的基音系数T的范围超过了第1层解码频谱的频带的上限值时,与实施方式1相同,如式(10)所示,修正基音系数T的范围。同样地,在根据式(9)设定的基音系数T的范围低于第1层解码频谱的频带的下限值时,与实施方式1相同,如式(11)所示,修正基音系数T的范围。通过这样修正基音系数T的范围,能够高效率地进行编码而不减少最佳基音系数的搜索中的搜索项数。
如上所述,基音系数设定单元294对第1子带、第3子带、以及第5子带,使基音系数T在对各个子带预先设定的搜索范围中逐渐变化。这里,基音系数设定单元294也可以在多个子带中高频的子带越高,将第1解码频谱的越高的频带(高频部分)作为搜索范围来设定基音系数T。也就是说,基音系数设定单元294预先设定各个子带的搜索范围,以使高频的子带越高,搜索范围为第1解码频谱的越高的频带。例如,当存在高频越高,频谱的谐波结构越弱的倾向时,高频的子带越高,与子带相似的部分存在于第1解码频谱的高频部分的可能性越高。因此,基音系数设定单元294通过以高频的子带越高,使搜索范围越偏向高频的方式进行设定,搜索单元263能够对适合于各个子带的搜索范围进行搜索,能够期待提高编码效率。
另外,基音系数设定单元294也可以与上述的设定方法相反,在多个子带中高频的子带越高,将第1解码频谱的越低的频带(低频部分)作为搜索范围来设定基音系数T。也就是说,基音系数设定单元294预先设定各个子带的搜索范围,以使高频的子带越高,搜索范围为第1解码频谱的越低的频带。例如,在第1解码频谱中,将0~4kHz的频谱与4~7kHz的频谱进行比较,在0~4kHz的频谱的谐波结构较弱时,高频的子带越高,与子带相似的部分存在于第1解码频谱的低频部分的可能性越高。于是,通过基音系数设定单元294以高频的子带越高,使搜索范围越偏向低频的方式进行设定,搜索单元263能够对谐波结构比第1解码频谱的高频部分弱的低频部分,进行与高频的子带相似的部分的搜索,因此搜索的效率高。这里,在本实施方式中,将从第1层编码单元233内的TDAC编码单元287获得的解码频谱作为第1解码频谱的例子。此时,第1解码频谱的0~4kHz部分的频谱为从输入信号减去由CELP编码单元283计算的CELP解码信号的分量,谐波结构较弱。因此,以高频的子带越高,使搜索范围越偏向低频的方式进行设定的方法是有效的。
另外,基音系数设定单元294仅对第2子带和第4子带,基于在相邻的前一个子带(相邻的低频侧的子带)中搜索出的最佳基音系数Tp-1′,设定基音系数T。也就是说,基音系数设定单元294对隔开一个子带的子带,基于在相邻的前一个子带中搜索出的最佳基音系数Tp-1′,设定基音系数T。由此,能够降低低频的子带中的搜索结果对比该子带高频的所有子带中的搜索造成的影响,所以能够避免对高频的子带设定的基音系数T的值过大。也就是说,能够避免高频的子带越高,用于进行相似的部分的搜索的搜索范围越限定在高频。由此,避免在相似的可能性较低的频带进行最佳基音系数的搜索,能够避免编码效率降低,解码信号的质量劣化。
图18是表示本实施方式的解码装置163的内部的主要结构的方框图。本实施方式的解码装置163主要包括:编码信息分离单元171、第1层解码单元172、第2层解码单元173、正交变换处理单元174、以及加法单元175。
在图18中,编码信息分离单元171从所输入的编码信息中将第1层编码信息与第2层编码信息分离,并将第1层编码信息输出到第1层解码单元172,将第2层编码信息输出到第2层解码单元173。
第1层解码单元172对从编码信息分离单元171输入的第1层编码信息,使用G.729.1方式的语音编码方法进行解码,并将生成的第1层解码信号输出到加法单元175。另外,第1层解码单元172将在生成第1层解码信号的过程中获得的第1层解码频谱输出到第2层解码单元173。此外,在后面叙述第1层解码单元172的动作的详细的说明。
第2层解码单元173使用从第1层解码单元172输入的第1层解码频谱、以及从编码信息分离单元171输入的第2层编码信息,对高频部分的频谱进行解码,并将所生成的第2层解码信号频谱输出到正交变换处理单元174。除了所输入的信号和该信号的发送源不同之外,第2层解码单元173的处理与图7的第2层解码单元135相同,所以省略详细的说明。此外,在后面叙述第2层解码单元173的动作的详细的说明。
正交变换处理单元174对从第2层解码单元173输入的第2层解码频谱进行正交变换处理(IMDCT),并将获得的第2层解码信号输出到加法单元175。这里,除了输入的信号和该信号的发送源不同之外,正交变换处理单元174的动作与图8所示的正交变换处理单元356的处理相同,所以省略详细的说明。
加法单元175将从第1层解码单元172输入的第1层解码信号与从正交变换处理单元174输入的第2层解码信号相加,并将获得的信号作为输出信号输出。
图19是表示图18所示的第1层解码单元172的内部的主要结构的方框图。这里,对应于图15的第1层编码单元233,举例说明第1层解码单元172进行通过ITU-T进行了标准化的G.729.1方式的解码的结构。另外,图19所示的第1层解码单元172的结构是传输时未产生帧差错的情况的结构,用于帧差错补偿处理的结构要素未图示,并省略其说明。但是,本发明也能够适用于产生帧差错的情况。
第1层解码单元172包括:分离单元371、CELP解码单元372、TDBWE解码单元373、TDAC解码单元374、预/后回波削减单元375、加法单元376、自适应后处理单元377、低通滤波器378、预/后回波削减单元379、高通滤波器380、以及频带合成处理单元381,各个单元进行以下的动作。
分离单元371将从编码信息分离单元171(图18)输入的第1层编码信息分离为CELP参数、TDAC参数、TDBWE参数,并将CELP参数输出到CELP解码单元372,将TDAC参数输出到TDAC解码单元374,将TDBWE参数输出到TDBWE解码单元373。另外,也可以不设置分离单元371,而在编码信息分离单元171中汇总地分离这些参数。
CELP解码单元372使用从分离单元371输入的CELP参数进行CELP方式的解码,并将获得的解码信号输出到TDAC解码单元374、加法单元376、以及预/后回波削减单元375作为解码CELP信号。另外,除了解码CELP信号以外,CELP解码单元372也可以将在从CELP参数生成解码CELP信号的过程中获得的其他信息输出到TDAC解码单元374。
TDBWE解码单元373对从分离单元371输入的TDBWE参数进行解码,并将获得的解码信号输出到TDAC解码单元374和预/后回波削减单元379作为解码TDBWE信号。
TDAC解码单元374使用从分离单元371输入的TDAC参数、从CELP解码单元372输入的解码CELP信号、以及从TDBWE解码单元373输入的解码TDBWE信号,计算第1层解码频谱。然后,TDAC解码单元374将计算出的第1层解码频谱输出到第2层解码单元173(图18)。另外,这里获得的第1层解码频谱与由编码装置161内的第1层编码单元233(图15)计算的第1层解码频谱相同。另外,TDAC解码单元374对计算出的第1层解码频谱的0~4kHz频带和4~8kHz频带分别进行MDCT等的正交变换处理,计算解码第1TDAC信号(0~4kHz频带)和解码第2TDAC信号(4~8kHz频带)。TDAC解码单元374将计算出的解码第1TDAC信号输出到预/后回波削减单元375,并将解码第2TDAC信号输出到预/后回波削减单元379。
预/后回波削减单元375对从CELP解码单元372输入的解码CELP信号、以及从TDAC解码单元374输入的解码第1TDAC信号进行削减预/后回波的处理,并将回波削除后的信号输出到加法单元376。
加法单元376将从CELP解码单元372输入的解码CELP信号和从预/后回波削减单元375输入的回波削减后的信号相加,并将获得的相加信号输出到自适应后处理单元377。
自适应后处理单元377对从加法单元376输入的相加信号自适应地进行后处理,并将获得的解码第1低频信号(0~4kHz频带)输出到低通滤波器378。
低通滤波器378对从自适应后处理单元377输入的解码第1低频信号,抑制大于4kHz的频率分量,获得主要由4kHz以下的频率分量构成的信号,并将其输出到频带合成处理单元381作为滤波后解码第1低频信号。
预/后回波削减单元379对从TDAC解码单元374输入的解码第2TDAC信号、以及从TDBWE解码单元373输入的解码TDBWE信号进行削减预/后回波的处理,并将回波削减后的信号输出到高通滤波器380作为解码第2低频信号(4~8kHz频带)。
高通滤波器380对从预/后回波削减单元379输入的解码第2低频信号抑制4kHz以下的频率分量,获得主要由高于4kHz的频率分量构成的信号,并将其输出到频带合成处理单元381作为滤波后解码第2低频信号。
在频带合成处理单元381中,从低通滤波器378输入滤波后解码第1低频信号,并从高通滤波器380输入滤波后解码第2低频信号。频带合成处理单元381对采样频率都为8kHz的滤波后解码第1低频信号(0~4kHz频带)和滤波后解码第2低频信号(4~8kHz频带)进行频带合成处理,并生成采样频率为16kHz(0~8kHz频带)的第1层解码信号。然后,频带合成处理单元381将生成的第1层解码信号输出到加法单元175。
另外,也可以不设置频带合成处理单元381,而由加法单元175汇总地进行频带合成处理。
图19所示的本实施方式的第1层解码单元172中的解码与G.729.1方式的解码的不同之处仅在于,在TDAC解码单元374中,在基于TDAC参数计算出第1解码频谱时,将其输出到第2层解码单元173。
图20是表示图18所示的第2层解码单元173的内部的主要结构的方框图。图20所示的第2层解码单元173的内部的结构是在图8所示的第2层解码单元135中省略了正交变换处理单元356的结构。在第2层解码单元173中,由于滤波单元390和频谱调整单元391之外的结构要素与第2层解码单元135内的结构要素相同,所以省略说明。
滤波单元390具有多抽头(抽头数多于1)的基音滤波器。滤波单元390基于从分离单元351输入的频带分割信息、由滤波器状态设定单元352设定的滤波器状态、从分离单元351输入的基音系数Tp′(p=0,1,...,P-1)、以及预先存储在内部的滤波器系数,对第1层解码频谱S1(k)进行滤波,计算式(16)所示的、各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)。在滤波单元390中,也使用式(15)所示的滤波函数。但是,此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp’。
这里,滤波单元390对第1子带、第3子带、以及第5子带SBp(p=0,2,4)直接使用基音系数Tp′(p=0,2,4)进行滤波处理。另外,滤波单元390对第2子带和第4子带SBp(p=1,3),考虑子带SBP-1的基音系数TP-1′而新设定子带SBP的基音系数Tp”,并使用该基音系数Tp”进行滤波。具体而言,在进行对第2子带和第4子带SBp(p=1,3)的滤波时,滤波单元390对从分离单元351获得的基音系数,使用子带SBP-1(p=1,3)的基音系数TP-1′和子带宽BWP -1,根据式(18),计算用于滤波的基音系数Tp”。此时的滤波处理,根据在式(16)中将T置换为Tp”所得的式进行。
在式(18)中,对子带SBp(p=1,2,...,P-1),将TP′与索引相加,并设为基音系数Tp”,该索引是将子带SBp-1的带宽BWP-1与子带SBP-1的基音系数TP-1′相加,再减去搜索范围SEARCH的一半的值而得到的。
频谱调整单元391使从滤波单元390输入的各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)在频域上连续而求输入频谱的估计频谱S2′(k)。另外,频谱调整单元391根据式(19),将从增益解码单元354输入的每个子带的变动量VQj与估计频谱S2′(k)相乘。由此,频谱调整单元391调整估计频谱S2′(k)的频带FL≤k<FH中的频谱形状,并生成解码频谱S3(k)。接着,频谱调整单元391将解码频谱S3(k)的低频部分(0≤k<FL)的值设为0。然后,频谱调整单元391将使低频部分(0≤k<FL)的值为0的解码频谱输出到正交变换处理单元174。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并对一部分子带(在本实施方式中为第1子带、第3子带、以及第5子带)在对每个子带设定的搜索范围中进行搜索。另外,对除此之外的子带(在本实施方式中为第2子带和第4子带),利用相邻的前一个子带的编码结果进行搜索。由此,利用子带间的相关进行高效率的搜索,对高频频谱更高效率地进行编码/解码,同时能够抑制因搜索范围偏向高频而发生的异常噪声,所以作为结果能够提高解码信号的质量。
(实施方式5)
在本发明的实施方式5中,说明与实施方式4相同,输入信号的采样频率为32kHz,适用通过ITU-T进行了标准化的G.729.1方式作为第1层编码单元的编码方式的情况的结构。
本发明的实施方式5的通信系统(未图示)与图2所示的通信系统基本相同,与图2的通信系统的编码装置101和解码装置103的不同之处仅在于编码装置和解码装置的结构和一部分的动作。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“181”和“184”而进行说明。
本实施方式的编码装置181(未图示)与图15所示的编码装置161基本相同,主要包括:下采样处理单元201、第1层编码单元233、正交变换处理单元215、第2层编码单元246、以及编码信息合并单元207。这里,第2层编码单元246以外的结构要素与实施方式4的情况相同,所以省略说明。
第2层编码单元246使用从正交变换处理单元215输入的输入频谱和从第1层编码单元233输入的第1层解码频谱,生成第2层编码信息,并将所生成的第2层编码信息输出到编码信息合并单元207。另外,在后面叙述第2层编码单元246的细节。
图21是表示本实施方式的第2层编码单元246的内部的主要结构的方框图。
在第2层编码单元246中,除了基音系数设定单元404之外的结构要素与实施方式4的情况相同,所以省略说明。
另外,在以下的说明中,与实施方式4相同,举例说明在图21所示的频带分割单元260中,将输入频谱S2(k)的高频部分(FL≤k<FH)分割为5个子带SBp(p=0,1,...,4)的情况。也就是说,说明在实施方式1中,子带数P为P=5的情况。但是,本发明并不限定分割输入频谱S2的高频部分的子带数,也可以同样地适用于子带数P为P=5以外的情况。
基音系数设定单元404对多个子带中的、一部分子带预先设定基音系数的搜索范围,对除此之外的子带,基于与相邻的前一个子带对应的搜索结果设定基音系数的搜索范围。
例如,基音系数设定单元404在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第1子带SB0、第3子带SB2或者第5子带SB4(子带SBp(p=0,2,4))对应的闭环的搜索处理时,使基音系数T在预先规定的搜索范围中逐渐变化,同时将其依序输出到滤波单元262。具体而言,在进行与第1子带SB0对应的闭环的搜索处理时,基音系数设定单元404使基音系数T在对第1子带预先设定的搜索范围Tmin1~Tmax1中逐渐变化并进行设定。另外,在进行与第3子带SB2对应的闭环的搜索处理时,基音系数设定单元404使基音系数T在对第3子带预先设定的搜索范围Tmin3~Tmax3中逐渐变化并进行设定。同样地,在进行与第5子带SB4对应的闭环的搜索处理时,基音系数设定单元404使基音系数T在对第5子带预先设定的搜索范围Tmin5~Tmax5中逐渐变化并进行设定。
另一方面,基音系数设定单元404在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第2子带SB1或者第4子带SB3(子带SBp(p=1,3))对应的闭环的搜索处理时,基于在与相邻的前一个子带SBp-1对应的闭环的搜索处理中求得的最佳基音系数Tp-1′,使基音系数T逐渐变化,同时将其依序输出到滤波单元262。具体而言,基音系数设定单元404在进行与第2子带SB1对应的闭环的搜索处理时,在相邻的前一个子带即第1子带SB0的最佳基音系数T0′的值小于预先规定的阈值THp时(类型1),使基音系数T在根据式(27)计算出的搜索范围中逐渐变化并进行设定。另一方面,在第1子带SB0的最佳基音系数T0′的值为预先规定的阈值THp以上时(类型(pattern)2),使基音系数T在根据式(28)计算出的搜索范围中逐渐变化并进行设定。此时,在式(27)和式(28)中,P=1。这里,式(27)和式(28)中的SEARCH1、SEARCH2表示预先规定的搜索基音系数的设定范围。另外,以下说明SEARCH1>SEARCH2的情况。
Tp-1′+BWp-1-SEARCH1/2≤T≤Tp-1′+BWp-1+SEARCH1/2(if(T0′<TH))
                                                         …(27)
Tp-1′+BWp-1-SEARCH2/2≤T≤Tp-1′+BWp-1+SEARCH2/2(if(T0′≥TH))
                                                         …(28)
同样地,基音系数设定单元404在进行与第4子带SB3对应的闭环的搜索处理时,在第1子带SB0的最佳基音系数T0′的值小于预先规定的阈值THp时(类型1),基于相邻的前一个子带即第3子带SB2的最佳基音系数T2′,使基音系数T在根据式(29)计算出的搜索范围中逐渐变化并进行设定。另一方面,在第1子带SB0的最佳基音系数T0′的值为预先规定的阈值THp以上时(类型2),使基音系数T在根据式(30)计算出的搜索范围中逐渐变化并进行设定。此时,在式(29)和式(30)中,P=3。
Tp-1′+BWp-1-SEARCH2/2≤T≤Tp-1′+BWp-1+SEARCH1/2(if(T0′<TH))
                                                         …(29)
Tp-1′+BWp-1-SEARCH1/2≤T≤Tp-1′+BWp-1+SEARCH1/2(if(T0′<TH))
                                                         …(30)
另外,在根据式(27)~式(30)设定的基音系数T的范围超过了第1层解码频谱的频带的上限值时,与实施方式1相同,如式(31)和式(32)所示,修正基音系数T的范围。此时,式(31)与式(27)和式(30)对应,式(32)与式(28)和式(29)对应。同样地,在根据式(27)~式(30)设定的基音系数T的范围低于第1层解码频谱的频带的下限值时,与实施方式1相同,如式(33)和式(34)所示,修正基音系数T的范围。此时,式(33)与式(27)和式(30)对应,式(34)与式(28)和式(29)对应。通过这样修正基音系数T的范围,能够高效率地进行编码而不减少最佳基音系数的搜索中的搜索项数。
SEARCH_MAX-SEARCH1≤T≤SEARCH_MAX
                                          …(31)
(if(Tp-1′+BWp-1+SEARCH1/2>SEARCH_MAX))
SEARCH_MAX-SEARCH2≤T≤SEARCH_MAX
                                          …(32)
(if(Tp-1′+BWp-1+SEARCH2/2>SEARCH_MAX))
0≤T≤SEARCH1
                                          …(33)
(if(Tp-1′+BWp-1-SEARCH1/2<SEARCH_MIN))
0≤T≤SEARCH2
                                          …(34)
(if(Tp-1′+BWp-1-SEARCH2/2<SEARCH_MIN))
基音系数设定单元404使对第2子带和第4子带的最佳基音搜索时的搜索项数自适应地变化。也就是说,在第1子带的最佳基音系数T0′比预先设定的阈值小时,基音系数设定单元404增加对第2子带的最佳基音搜索时的搜索项数(类型1),而在第1子带的最佳基音系数T0′为阈值以上时,减少对第2子带的最佳基音搜索时的搜索项数(类型2)。另外,基音系数设定单元404根据第2子带的最佳基音搜索时的类型(类型1和类型2),增加和减少第4子带的最佳基音搜索时的搜索项数。具体而言,在为类型1时,基音系数设定单元404减少第4子带的最佳基音搜索时的搜索项数,而在为类型2时,增加第4子带的最佳基音搜索时的搜索项数。此时,对类型1和类型2,通过使第2子带的最佳基音搜索时的搜索项数与第4子带的最佳基音搜索时的搜索项数的合计相等,能够在将比特率保持为固定的状态下,进行更高效率的最佳基音系数的搜索。
对于第1层解码频谱,一般而言,在输入信号为语音信号等时,具有低频侧越低,周期性越强的特征。因此,搜索最佳基音系数的频带在低频侧越低,通过增加搜索时的搜索项数而获得的效果越大。于是,如上所述,在对第1子带搜索出的最佳基音系数的值较小时,通过增加对第2子带的最佳基音的搜索时的搜索项数,能够对第2子带进行更有效的最佳基音搜索。此时,减少对第4子带的最佳基音系数的搜索时的搜索项数。另一方面,在对第1子带搜索出的最佳基音系数的值较大时,即使增加对第2子带的最佳基音系数的搜索时的搜索项数,其效果也不大,因此,对第2子带减少最佳基音系数的搜索时的搜索项数,增加对第4子带的最佳基音系数的搜索时的搜索项数。这样,通过根据对第1子带搜索出的最佳基音系数的值而在第2子带和第4子带间调整最佳基音系数的搜索时的搜索项数(比特分配),能够更高效率地搜索最佳基音系数,能够生成质量优良的解码信号。
本实施方式的解码装置184(未图示)的内部的主要结构与图18所示的解码装置163基本相同,所以省略说明。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并对一部分子带(在本实施方式中为第1子带、第3子带、以及第5子带)在对每个子带设定的搜索范围中进行搜索。另外,对除此之外的子带(在本实施方式中为第2子带和第4子带),利用相邻的前一个子带的编码结果进行搜索。另外,这里,在对第2子带和第4子带的最佳基音的搜索时,基于对第1子带搜索出的最佳基音,自适应地切换搜索的搜索项数。由此,在利用子带间的相关的同时,能够对每个子带自适应地变更搜索项数,能够更高效率地对高频频谱进行编码/解码。其结果,能够进一步提高解码信号的质量。
此外,在本实施方式中,举例说明了对第2子带和第4子带的最佳基音系数的搜索时的搜索项数的合计相等的情况。但是,本发明并不限于此,也同样地能够适用于对第2子带和第4子带的最佳基音系数的搜索时的搜索项数的合计按每种类型(pattern)而不同的结构。
另外,在本实施方式中,举例说明了增加和减少对第2子带和第4子带的最佳基音系数的搜索时的搜索项数的情况,但本发明也同样地能够适用于通过增加搜索项数,使搜索范围达到低频的整个范围的情况。
另外,在本实施方式中,作为对第2子带和第4子带的最佳基音系数的搜索时的搜索项数增减的情况的例子,说明了在第1子带的最佳基音系数T0′的值小于预先规定的阈值THp时(类型1),增加对第2子带的最佳基音系数的搜索项数(扩大搜索范围),减少对第4子带的最佳基音系数的搜索项数(缩小搜索范围)的结构。另外,在第1子带的最佳基音系数T0′的值为预先规定的阈值THp以上时(类型2),上述结构采用与上述相反的搜索范围的设定方法。但是,本发明并不限于上述结构,也同样地能够适用于对第1子带的类型1、类型2分别采用相反的搜索范围设定方法的结构。也就是说,本发明也同样地能够适用于以下的结构,即:在第1子带的最佳基音系数T0′的值小于预先规定的阈值THp时(类型1),减少第2子带的最佳基音系数的搜索项数(缩小搜索范围),并增加第4子带的最佳基音系数的搜索项数(扩大搜索范围)。另外,在第1子带的最佳基音系数T0′的值为预先规定的阈值THp以上时(类型2),本结构采用与上述相反的搜索范围的设定方法。通过该结构,即使在低频部分中,对频谱特性在低频侧和高频侧存在较大差异的输入信号,也能够高效率地进行编码。具体而言,已经通过实验确认了以下的情形,即:对具有频谱由多个峰分量构成,进而存在峰分量的密度根据频带的不同而存在较大差异的特性的输入信号,能够高效率地进行量化。
(实施方式6)
在本发明的实施方式6中,说明与实施方式4相同,输入信号的采样频率为32kHz,适用通过ITU-T进行了标准化的G.729.1方式作为第1层编码单元的编码方式的情况的结构。
本发明的实施方式6的通信系统(未图示)与图2所示的通信系统基本相同,与图2的通信系统的编码装置101和解码装置103的不同之处仅在于编码装置和解码装置的结构和一部分的动作。以下,对本实施方式的通信系统的编码装置和解码装置分别附加标号“191”和“193”进行说明。
本实施方式的编码装置191(未图示)与图15所示的编码装置161基本相同,主要包括:下采样处理单元201、第1层编码单元233、正交变换处理单元215、第2层编码单元256、以及编码信息合并单元207。这里,第2层编码单元256以外的结构要素与实施方式4的情况相同,所以省略说明。
第2层编码单元256使用从正交变换处理单元215输入的输入频谱和从第1层编码单元233输入的第1层解码频谱,生成第2层编码信息,并将所生成的第2层编码信息输出到编码信息合并单元207。另外,在后面叙述第2层编码单元256的细节。
图22是表示本实施方式的第2层编码单元256的内部的主要结构的方框图。
在第2层编码单元256中,除了基音系数设定单元414之外的结构要素与实施方式4的情况相同,所以省略说明。
另外,在以下的说明中,与实施方式4相同,举例说明在图22所示的频带分割单元260中将输入频谱S2(k)的高频部分(FL≤k<FH)分割为五个子带SBp(p=0,1,...,4)的情况。也就是说,说明在实施方式1中,子带数P为P=5的情况。但是,本发明并不限定分割输入频谱S2的高频部分的子带数,也可以同样地适用于子带数P为P=5以外的情况。
基音系数设定单元414对多个子带中的、一部分子带预先设定基音系数的搜索范围,对除此之外的子带,基于与相邻的前一个子带对应的搜索结果设定基音系数的搜索范围。
例如,基音系数设定单元414在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第1子带SB0、第3子带SB2或者第5子带SB4(子带SBp(p=0,2,4))对应的闭环的搜索处理时,使基音系数T在预先规定的搜索范围中逐渐变化,同时将其依序输出到滤波单元262。具体而言,在进行与第1子带SB0对应的闭环的搜索处理时,基音系数设定单元414使基音系数T在对第1子带预先设定的搜索范围Tmin1~Tmax1中逐渐变化并进行设定。另外,在进行与第3子带SB2对应的闭环的搜索处理时,基音系数设定单元414使基音系数T在对第3子带预先设定的搜索范围Tmin3~Tmax3中逐渐变化并进行设定。同样地,在进行与第5子带SB4对应的闭环的搜索处理时,基音系数设定单元414使基音系数T在对第5子带预先设定的搜索范围Tmin5~Tmax5中逐渐变化并进行设定。
另一方面,基音系数设定单元414在搜索单元263的控制下,连同滤波单元262和搜索单元263一起,进行与第2子带SB1或者第4子带SB3(子带SBp(p=1,3))对应的闭环的搜索处理时,基于在与相邻的前一个子带SBp-1对应的闭环的搜索处理中求得的最佳基音系数Tp-1′,使基音系数T逐渐变化,同时将其依序输出到滤波单元262。具体而言,在进行与第2子带SB1对应的闭环的搜索处理时,在相邻的前一个子带即第1子带SB0的最佳基音系数T0′的值小于预先规定的阈值THp的情况下,基音系数设定单元414使基音系数T在根据式(9)计算出的搜索范围中逐渐变化并进行设定。这里,在式(9)中,P=1。另一方面,在第1子带SB0的最佳基音系数T0′的值为预先规定的阈值THp以上时,使基音系数T在预先设定的搜索范围Tmin2~Tmax2中逐渐变化并进行设定。
同样地,在进行与第4子带SB3对应的闭环的搜索处理时,基音系数设定单元414在第1子带SB0的最佳基音系数T0′的值小于预先规定的阈值THp时,基于相邻的前一个子带即第3子带SB2的最佳基音系数T2′,使基音系数T在根据式(9)计算出的搜索范围中逐渐变化并进行设定。这里,在式(9)中,P=3。另一方面,在第3子带SB2的最佳基音系数T2′的值为预先规定的阈值THp以上时,使基音系数T在预先设定的搜索范围Tmin4~Tmax4中逐渐变化并进行设定。
另外,在根据式(9)设定的基音系数T的范围超过了第1层解码频谱的频带的上限值时,与实施方式1相同,如式(10)所示,修正基音系数T的范围。同样地,在根据式(9)设定的基音系数T的范围低于第1层解码频谱的频带的下限值时,与实施方式1相同,如式(11)所示,修正基音系数T的范围。通过这样修正基音系数T的范围,能够高效率地进行编码而不减少最佳基音系数的搜索中的搜索项数。
基音系数设定单元414基于在与相邻的前一个子带SBP-1对应的闭环的搜索处理中求得的最佳基音系数TP-1′,自适应地变更对第2子带和第4子带的最佳基音搜索时的搜索范围的设定。也就是说,仅在对相邻的前一个子带SBP-1搜索出的最佳基音系数TP-1′小于阈值时,基音系数设定单元414对基于最佳基音系数TP-1′的范围进行最佳基音系数的搜索。另一方面,在对相邻的前一个子带SBP-1搜索出的最佳基音系数TP-1′为阈值以上时,基音系数设定单元414对预先设定的搜索范围进行最佳基音系数的搜索。通过这样的结构,能够抑制由于最佳基音的搜索范围偏向高频而发生的异常噪声,因此,作为结果,能够提高解码信号的质量。
本实施方式的解码装置193(未图示)与图18所示的解码装置163基本相同,主要包括:编码信息分离单元171、第1层解码单元172、第2层解码单元183、正交变换处理单元174、以及加法单元175。这里,第2层解码单元183以外的结构要素与实施方式4的情况相同,所以省略说明。
图23是表示本实施方式的第2层解码单元183的内部的主要结构的方框图。
在第2层解码单元183中,滤波单元490以外的结构要素与实施方式4的情况相同,所以省略说明。
滤波单元490具有多抽头(抽头数多于1)的基音滤波器。滤波单元490基于从分离单元351输入的频带分割信息、由滤波器状态设定单元352设定的滤波器状态、从分离单元351输入的基音系数Tp′(p=0,1,...,P-1)、以及预先存储在内部的滤波器系数,对第1层解码频谱S1(k)进行滤波,计算式(16)所示的、各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)。在滤波单元490中,也使用式(15)所示的滤波函数。但是,此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp’。
这里,滤波单元490对第1子带、第3子带、以及第5子带SBp(p=0,2,4)直接使用基音系数Tp′(p=0,2,4)进行滤波处理。另外,滤波单元490对第2子带和第4子带SBp(p=1,3),考虑子带SBP-1的基音系数TP-1′而新设定子带SBP的基音系数Tp”,并使用该基音系数Tp”进行滤波。具体而言,在进行对第2子带和第4子带SBp(p=1,3)的滤波时,滤波单元490对从分离单元351获得的基音系数的值小于预先规定的阈值THp的情况,使用子带SBP- 1(p=1,3)的基音系数TP-1′和子带宽BWP-1,根据式(18),计算用于滤波的基音系数Tp”。此时的滤波处理,根据在式(16)中将T置换为Tp”的式进行。另外,在进行对第2子带和第4子带SBp(p=1,3)的滤波时,滤波单元490对从分离单元351获得的基音系数的值为预先规定的阈值THp以上的情况,基于从分离单元351输入的基音系数TP′(p=0,1,...,P-1)、以及预先存储在内部的滤波器系数,对第1层解码频谱S1(k)进行滤波,计算式(16)所示的、各个子带SBp(p=0,1,...,P-1)的估计值S2p′(k)(BSp≤k<BSp+BWp)(p=0,1,...,P-1)。但是,此时的滤波处理和滤波函数为将式(15)和式(16)中的T置换为Tp’。
这样,根据本实施方式,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱的编码/解码中,将高频部分分割为多个子带,并对一部分子带(在本实施方式中为第1子带、第3子带、以及第5子带)在对每个子带设定的搜索范围中进行搜索。另外,对除此之外的子带(在本实施方式中为第2子带和第4子带),利用相邻的前一个子带的编码结果进行搜索。另外,这里,在对第2子带和第4子带的最佳基音的搜索时,基于对第1子带搜索出的最佳基音,自适应地切换搜索的搜索项数。由此,在利用子带间的相关的同时,能够对每个子带自适应地变更搜索项数,能够更高效率地对高频频谱进行编码/解码。其结果,能够进一步提高解码信号的质量。
另外,在上述实施方式4~6中,举例说明了第1层编码单元和第1层解码单元中使用G.729.1编码/解码方式的情况。但是,在本发明中,第1层编码单元和第1层解码单元中使用的编码方式/解码方式并不限于G.729.1编码/解码方式。例如,也能够将本发明同样地适用于采用G.718等其他编码/解码方式作为在第1层编码单元和第1层解码单元中使用的编码方式/解码方式的结构。
另外,在上述实施方式4~6中,说明了将在第1层编码单元的内部获得的信息(由TDAC编码单元287获得的TDAC参数的解码频谱)用作第1层解码频谱的情况。但是,本发明并不限于此,同样地能够适用于将在第1层编码单元的内部计算出的其他信息用作第1层解码频谱的情况。另外,本发明同样地能够适用于对将第1层编码信息解码而获得的第1层解码信号进行正交变换等处理,并将计算出的频谱用作第1层解码频谱的情况。也就是说,本发明并不受到第1层解码频谱的特性的限制,在将在第1层编码单元的内部计算出的参数、或者从对第1层编码信息进行解码而获得的解码信号计算出的所有频谱用作第1层解码频谱时,也能够获得同样的效果。
另外,在上述实施方式4~6中,举例说明了一部分子带(在本实施方式中为第1子带、第3子带、第5子带)中被预先设定的搜索范围,对各自的每个子带不同的情况。但是,本发明并不限于此,也可以对所有子带或者一部分子带群设定共用的搜索范围。
以上,说明了本发明的各个实施方式。
另外,在上述各个实施方式中,举例说明了通过第1层解码频谱搜索与各个子带SBp(p=0,1,...,P-1)最近似的部分后,由增益编码单元265对每个子带,将与输入频谱的频谱功率的变动量进行编码的情况。但是,本发明并不限于此,也可以在增益编码单元265中,对与由搜索单元263计算出的最佳基音系数Tp′对应的理想增益进行编码。此时,由增益编码单元265进行编码的增益的子带结构,优选与进行滤波时的子带结构相同。通过该结构,能够生成与输入频谱的高频部分更近似的估计频谱,并能够减少解码信号中可能包含的噪声感。
另外,在上述各个实施方式中,举例说明了在解码侧始终将第2层的解码信号作为输出信号的情况,但本发明并不限于此,也可以切换第1层的解码信号与第2层的解码信号作为输出信号。例如,在传输路径中一部分编码信息消失了,或者编码信息发生了传输差错时,有时仅能获得基于第1层的解码的解码信号。在这样的情况下,将第1层的解码信号作为输出信号输出。
另外,在上述各个实施方式中,作为编码装置/解码装置,以分别由两层构成的可扩展编码装置/解码装置为例进行了说明,但本发明并不限于此,编码装置/解码装置也可以是分别由三层以上构成的可扩展编码装置/解码装置。
另外,在上述各个实施方式中,说明了以下的情况,即:为了搜索与各个子带对应的最佳基音系数,而对各个子带利用称为SEARCH的共用的范围作为由基音系数设定单元264和274设定的基音系数的范围。但是,本发明并不限于此,也可以对每个子带,将搜索范围另行设为SEARCHp(p=0,1,...,P-1)。例如,通过对高频部分中接近低频的子带,将搜索范围设定得较宽,而对高频部分中较高频的子带,将搜索范围设定得较窄,能够实现与频带对应的灵活的比特分配。
另外,在上述各个实施方式中,说明了以下的结构,即:为了搜索与各个子带对应的最佳基音系数,由基音系数设定单元264、274、294、404和414设定的基音系数的范围是,对各个子带利用称为SEARCH的共用的范围,将前子带宽与前子带的最佳基音系数相加的位置的周围(±SEARCH的范围)。但是,本发明并不限于此,也可以同样地适用于以下的结构,即:将与对前子带宽和前子带的最佳基音系数进行相加的位置非对称的范围,作为最佳基音系数的搜索范围。例如,存在以下的方法,即:设定使低频侧从前子带宽与前子带的最佳基音系数相加的位置进一步扩大、高频侧窄的搜索范围。通过该结构,能够减轻最佳基音系数的搜索范围过于偏向高频侧的倾向,并能够提高解码信号的质量。
另外,在上述各个实施方式中,说明了对若干子带,基于对相邻的前子带的最佳基音系数,设定搜索最佳基音系数的范围的结构。上述方法是对最佳基音系数利用了频率轴上的相关的方法。但是,本发明并不限于此,本发明也同样地能够适用于对最佳基音系数利用了时间轴上的相关的情况。具体而言,在同一子带中,基于对在时间上在前面处理的帧(例如,先前3帧等)搜索出的最佳基音系数,将其周围设定为最佳基音系数的搜索范围。此时,对通过四阶的线性预测求得的位置的周围进行搜索。另外,也可以一并使用上述的时间轴上的相关和在上述各个实施方式中说明的频率轴上的相关。此时,对某个子带,基于通过先前的帧搜索出的最佳基音系数和对相邻的前子带搜索出的最佳基音系数,设定最佳基音系数的搜索范围。另外,在利用时间轴上的相关设定最佳基音系数的搜索范围时,存在传输差错进行传播的问题。对这个问题,能够通过设置以下的帧来应对,即:一定程度以上连续且基于时间轴上的相关设定最佳基音系数的搜索范围后,不基于时间轴上的相关而设定最佳基音系数的搜索范围(例如,每处理4帧,就设定不使用时间轴上的相关的帧等)。
另外,本发明的编码装置、解码装置以及其方法,并不限于上述各个实施方式,可以进行各种变更后实施。例如,也可以适当地组合各个实施方式而实施。
另外,虽然上述各个实施方式的解码装置使用从上述各个实施方式的编码装置传输的编码信息进行处理,但本发明并不限于此,只要是包含所需的参数和数据的编码信息,即便并非是来自上述各个实施方式的编码装置的编码信息也能够进行处理。
另外,本发明也能够适用于将信号处理程序记录、写入到存储器、盘片、磁带、CD、DVD等能由机器读取的存储介质中,进行动作的情况,能够获得与本实施方式同样的作用和效果。
另外,在上述各个实施方式中,举例说明了以硬件构成本发明的情况,但本发明也可通过软件来实现。
另外,上述各个实施方式的说明中使用的各功能块,典型地被作为集成电路的LSI来实现。这些功能块既可以被单独地集成为一个芯片,也可以将其一部分或全部集成为一个芯片。虽然此处称为LSI,但根据集成度的不同,也可以称为IC、系统LSI、超大LSI(Super LSI)或特大LSI(Ultra LSI)。
此外,在集成电路化的方法不局限于LSI,也可用专用电路或通用处理器实现。也可以使用可在LSI制造后编程的FPGA(Field Programmable GateArray,现场可编程门阵列),或者可重构LSI内部的电路单元的连接和设定的可重构处理器(Reconfigurable Processor)。
再者,随着半导体技术的进步或随之派生的其他技术的出现,如果出现能够替代LSI的集成电路化的技术,当然可利用该技术进行功能块的集成化。还存在着适用生物技术等的可能性。
在2008年3月14日提交的特愿第2008-66202号的日本专利申请、2008年5月30日提交的特愿第2008-143963号的日本专利申请、以及2008年11月21日提交的特愿第2008-298091号的日本专利申请中所包含的说明书、附图以及说明书摘要所公开的内容,都引用在本申请中。
工业实用性
本发明的编码装置、解码装置以及其方法,在使用低频部分的频谱进行频带扩展而估计高频部分的频谱时,能够提高解码信号的质量,例如,能够适用于分组通信系统、移动通信系统等。

Claims (22)

1.编码装置,包括:
第一编码单元,对输入信号的规定频率以下的低频部分进行编码而生成第一编码信息;
解码单元,对所述第一编码信息进行解码而生成解码信号;以及
第二编码单元,将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号或所述解码信号,通过使用相邻的子带的估计结果估计所述多个子带的各个子带而生成第二编码信息。
2.如权利要求1所述的编码装置,
所述第二编码单元包括:
分割单元,将所述输入信号的所述高频部分分割为N个子带,获得所述N个子带各自的开始位置和带宽作为频带分割信息,其中,N为大于1的整数;
滤波单元,对所述解码信号进行滤波,生成从第一估计信号到第N估计信号为止的N个第n估计信号,其中,n=1,2,...,N;
设定单元,使在所述滤波单元中使用的基音系数变化并进行设定;
搜索单元,从所述基音系数中,搜索使所述第n估计信号与第n子带的相似程度为最大的系数作为第n最佳基音系数;以及
复用单元,将从第一最佳基音系数到第N最佳基音系数为止的N个最佳基音系数与所述频带分割信息进行复用而获得所述第二编码信息,
所述设定单元使为了估计第一子带而在所述滤波单元中使用的基音系数,在规定的范围中变化并进行设定,使为了估计第二子带之后的第m子带而在所述滤波单元中使用的基音系数,在与第m-1最佳基音系数对应的范围、或者所述规定的范围中变化并进行设定,其中,m=2,3,...,N。
3.如权利要求2所述的编码装置,
所述设定单元将包含所述第m-1最佳基音系数的规定宽度的范围作为与所述第m-1最佳基音系数对应的范围设定所述基音系数。
4.如权利要求2所述的编码装置,
所述设定单元将包含所述第m-1子带的带宽和所述第m-1最佳基音系数相加所得的基音系数的规定宽度的范围作为与所述第m-1最佳基音系数对应的范围设定所述基音系数。
5.如权利要求2所述的编码装置,
所述设定单元使为了估计所述第二子带之后的所有的第m子带的各个子带而在所述滤波单元中使用的基音系数,在与所述第m-1最佳基音系数对应的范围中变化并进行设定。
6.如权利要求2所述的编码装置,
所述设定单元使为了估计所述第二子带之后的第m子带中每隔规定数的第m子带而在所述滤波单元中使用的基音系数,在所述规定的范围中变化并进行设定,使为了估计除此之外的第m子带而在所述滤波单元中使用的基音系数,在与所述第m-1最佳基音系数对应的范围中变化并进行设定。
7.如权利要求2所述的编码装置,
所述设定单元在所述多个子带中高频的子带越高,将所述解码信号的越低的频带作为所述规定的范围设定所述基音系数。
8.如权利要求2所述的编码装置,
所述设定单元在所述多个子带中高频的子带越高,将所述解码信号的越高的频带作为所述规定的范围设定所述基音系数。
9.如权利要求2所述的编码装置,还包括:
判定单元,计算所述第m子带与第m-1子带之间的相关作为第m相关,判定N-1个所述第m相关的各个相关是否为规定级别以上,
所述设定单元使为了估计在所述判定单元中所述第m相关被判定为规定级别以上的所述第m子带而在所述滤波单元中使用的所述基音系数,在与所述第m-1最佳基音系数对应的范围中变化并进行设定,
使为了估计在所述判定单元中所述第m相关被判定为比规定级别低的所述第m子带而在所述滤波单元中使用的所述基音系数,在所述规定的范围中变化并进行设定。
10.如权利要求2所述的编码装置,还包括:
判定单元,计算所述第m子带与所述第m-1子带之间的相关作为第m相关,判定N-1个所述第m相关中规定级别以上的所述第m相关的数是否为规定数以上,
所述设定单元在由所述判定单元判定出所述规定级别以上的所述第m相关的数为规定数以上时,使为了估计所述第二子带之后的所有的所述第m子带的各个子带而在所述滤波单元中使用的所述基音系数,在与所述第m-1最佳基音系数对应的范围中变化并进行设定,
在由所述判定单元判定出所述规定级别以上的所述第m相关的数比规定数小时,使为了估计所述第二子带之后的所有的所述第m子带的各个子带而在所述滤波单元中使用的所述基音系数,在所述规定的范围中变化并进行设定。
11.如权利要求9所述的编码装置,
所述判定单元计算所述N个子带各自的频谱平坦度测量,并计算所述第m子带与所述第m-1子带的频谱平坦度测量之差或者之比的绝对值的倒数作为所述第m相关。
12.如权利要求9所述的编码装置,
所述判定单元计算所述N个子带各自的能量,并计算所述第m子带与所述第m-1子带的所述能量之差或者之比的绝对值的倒数作为所述第m相关。
13.如权利要求2所述的编码装置,
所述设定单元将所述m-1最佳基音系数的值与预先设定的阈值比较,并根据比较结果,增加或者减少搜索为了估计所述第m子带而在所述滤波单元中使用的基音系数时的搜索项数。
14.如权利要求2所述的编码装置,
所述设定单元将所述第m-1最佳基音系数的值与预先设定的阈值比较,并根据比较结果,切换为了估计所述第m子带而在所述滤波单元中使用的基音系数的设定方法。
15.如权利要求14所述的编码装置,
所述设定单元切换使基音系数在所述规定的范围中变化并进行设定的方法和使基音系数在与所述第m-1最佳基音系数对应的范围中变化并进行设定的方法。
16.通信终端装置,具有权利要求1所述的编码装置。
17.基站装置,具有权利要求1所述的编码装置。
18.解码装置,包括:
接收单元,接收由编码装置生成的第一编码信息和第二编码信息,所述第一编码信息是对输入信号的规定频率以下的低频部分进行编码而获得的信息,所述第二编码信息是将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号、或者对所述第一编码信息进行解码而获得的第一解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带而获得的信息;
第一解码单元,对所述第一编码信息进行解码而生成第二解码信号;以及
第二解码单元,使用由采用所述第二编码信息获得的、相邻的子带的解码结果,从所述第二解码信号估计所述输入信号的高频部分,从而生成第三解码信号。
19.通信终端装置,具有权利要求18所述的解码装置。
20.基站装置,具有权利要求18所述的解码装置。
21.编码方法,包括以下步骤:
对输入信号的规定频率以下的低频部分进行编码而生成第一编码信息;
对所述第一编码信息进行解码而生成解码信号;以及
将所述输入信号的比所述规定频率高的高频部分分割为多个子带,并从所述输入信号或者所述解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带,从而生成第二编码信息。
22.解码方法,包括以下步骤:
接收由编码装置生成的第一编码信息和第二编码信息,所述第一编码信息是对输入信号的规定频率以下的低频部分进行编码而获得的信息,所述第二编码信息是将所述输入信号的比所述规定频率高的高频部分分割为多个子带,从所述输入信号、或者对所述第一编码信息进行解码而获得的第一解码信号,使用相邻的子带的估计结果估计所述多个子带的各个子带而获得的信息;
对所述第一编码信息进行解码而生成第二解码信号;以及
使用由采用所述第二编码信息获得的、相邻的子带的解码结果,从所述第二解码信号估计所述输入信号的高频部分,从而生成第三解码信号。
CN2009801084302A 2008-03-14 2009-03-13 编码装置、解码装置以及其方法 Active CN101971253B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2008066202 2008-03-14
JP066202/08 2008-03-14
JP143963/08 2008-05-30
JP2008143963 2008-05-30
JP2008298091 2008-11-21
JP298091/08 2008-11-21
PCT/JP2009/001129 WO2009113316A1 (ja) 2008-03-14 2009-03-13 符号化装置、復号装置およびこれらの方法

Publications (2)

Publication Number Publication Date
CN101971253A true CN101971253A (zh) 2011-02-09
CN101971253B CN101971253B (zh) 2012-07-18

Family

ID=41064989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801084302A Active CN101971253B (zh) 2008-03-14 2009-03-13 编码装置、解码装置以及其方法

Country Status (9)

Country Link
US (1) US8452588B2 (zh)
EP (2) EP3288034B1 (zh)
JP (1) JP5449133B2 (zh)
KR (1) KR101570550B1 (zh)
CN (1) CN101971253B (zh)
BR (1) BRPI0908929A2 (zh)
MX (1) MX2010009307A (zh)
RU (1) RU2483367C2 (zh)
WO (1) WO2009113316A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
JP5245014B2 (ja) * 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 領域に依存した算術符号化マッピングルールを使用した、オーディオ符号器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および、コンピュータプログラム
WO2011058752A1 (ja) 2009-11-12 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2524374B1 (en) 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
EP2559028B1 (en) * 2010-04-14 2015-09-16 VoiceAge Corporation Flexible and scalable combined innovation codebook for use in celp coder and decoder
JP5711733B2 (ja) * 2010-06-11 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置、符号化装置及びこれらの方法
CN102947881A (zh) * 2010-06-21 2013-02-27 松下电器产业株式会社 解码装置、编码装置和解码方法、编码方法
US9230551B2 (en) 2010-10-18 2016-01-05 Nokia Technologies Oy Audio encoder or decoder apparatus
ES2727748T3 (es) * 2010-11-22 2019-10-18 Ntt Docomo Inc Dispositivo y método de codificación de audio
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US8879858B1 (en) * 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
US9786291B2 (en) * 2014-06-18 2017-10-10 Google Technology Holdings LLC Communicating information between devices using ultra high frequency audio
US10306632B2 (en) * 2014-09-30 2019-05-28 Qualcomm Incorporated Techniques for transmitting channel usage beacon signals over an unlicensed radio frequency spectrum band
EP3182411A1 (en) * 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US20180336469A1 (en) * 2017-05-18 2018-11-22 Qualcomm Incorporated Sigma-delta position derivative networks

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992022891A1 (en) * 1991-06-11 1992-12-23 Qualcomm Incorporated Variable rate vocoder
SE501340C2 (sv) * 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
JP3923783B2 (ja) 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
WO2003038813A1 (en) 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
EP1470550B1 (en) 2002-01-30 2008-09-03 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
US7844451B2 (en) * 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
EP2221807B1 (en) 2003-10-23 2013-03-20 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
BRPI0510014B1 (pt) 2004-05-14 2019-03-26 Panasonic Intellectual Property Corporation Of America Dispositivo de codificação, dispositivo de decodificação e método do mesmo
US7848921B2 (en) 2004-08-31 2010-12-07 Panasonic Corporation Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
BRPI0517716B1 (pt) 2004-11-05 2019-03-12 Panasonic Intellectual Property Management Co., Ltd. Aparelho de codificação, aparelho de decodificação, método de codificação e método de decodificação.
CN101048649A (zh) * 2004-11-05 2007-10-03 松下电器产业株式会社 可扩展解码装置及可扩展编码装置
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20100161323A1 (en) * 2006-04-27 2010-06-24 Panasonic Corporation Audio encoding device, audio decoding device, and their method
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder

Also Published As

Publication number Publication date
CN101971253B (zh) 2012-07-18
RU2010137838A (ru) 2012-03-20
EP2251861A4 (en) 2014-01-15
US8452588B2 (en) 2013-05-28
WO2009113316A1 (ja) 2009-09-17
EP2251861B1 (en) 2017-11-22
KR101570550B1 (ko) 2015-11-19
BRPI0908929A2 (pt) 2016-09-13
EP3288034A1 (en) 2018-02-28
MX2010009307A (es) 2010-09-24
JPWO2009113316A1 (ja) 2011-07-21
RU2483367C2 (ru) 2013-05-27
EP3288034B1 (en) 2019-02-20
KR20100134580A (ko) 2010-12-23
US20100332221A1 (en) 2010-12-30
JP5449133B2 (ja) 2014-03-19
EP2251861A1 (en) 2010-11-17

Similar Documents

Publication Publication Date Title
CN101971253B (zh) 编码装置、解码装置以及其方法
CN101925953B (zh) 编码装置、解码装置以及其方法
CN101903945B (zh) 编码装置、解码装置以及编码方法
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
CN102334159B (zh) 编码装置、解码装置及其方法
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
CN101622662B (zh) 编码装置和编码方法
CN101548316B (zh) 编码装置、解码装置以及其方法
EP2012305B1 (en) Audio encoding device, audio decoding device, and their method
US10194151B2 (en) Signal encoding method and apparatus and signal decoding method and apparatus
KR101703810B1 (ko) 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
US20030135365A1 (en) Efficient excitation quantization in noise feedback coding with general noise shaping
US10827175B2 (en) Signal encoding method and apparatus and signal decoding method and apparatus
CN102947881A (zh) 解码装置、编码装置和解码方法、编码方法
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
CN102598123A (zh) 编码装置、解码装置及其方法
EP1326237A2 (en) Excitation quantisation in noise feedback coding
US7110942B2 (en) Efficient excitation quantization in a noise feedback coding system using correlation techniques
JPH07212239A (ja) ラインスペクトル周波数のベクトル量子化方法および装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140722

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140722

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.