CN101086845A - 声音编码装置及方法以及声音解码装置及方法 - Google Patents

声音编码装置及方法以及声音解码装置及方法 Download PDF

Info

Publication number
CN101086845A
CN101086845A CNA200610087481XA CN200610087481A CN101086845A CN 101086845 A CN101086845 A CN 101086845A CN A200610087481X A CNA200610087481X A CN A200610087481XA CN 200610087481 A CN200610087481 A CN 200610087481A CN 101086845 A CN101086845 A CN 101086845A
Authority
CN
China
Prior art keywords
signal
frequency spectrum
coded data
frequency
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610087481XA
Other languages
English (en)
Other versions
CN101086845B (zh
Inventor
徐光锁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd
Original Assignee
BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd filed Critical BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd
Priority to CN200610087481XA priority Critical patent/CN101086845B/zh
Publication of CN101086845A publication Critical patent/CN101086845A/zh
Application granted granted Critical
Publication of CN101086845B publication Critical patent/CN101086845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种声音编码装置,包括:时变预测分析模块,用于对数字声音信号进行时变预测分析,以获取时域激励信号;时频映射模块,用于将时域激励信号映射到变换域,以获取变换域上的激励信号;编码模块,用于对变换域上的激励信号进行编码,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;以及比特流复用模块,用于对低频波形编码数据、中频波形编码数据和高频参数编码数据进行复用,以输出声音编码码流。本发明还公开了一种声音编码方法、一种声音解码装置以及一种声音解码方法。本发明提供的声音编码装置及方法以及声音解码装置及方法,能够实现低码率下对语音和音乐的高质量编码。

Description

声音编码装置及方法以及声音解码装置及方法
技术领域
本发明涉及声音处理技术,更具体地,涉及适用于自适应多速率宽带语音和音频的声音编码装置及方法以及声音解码装置及方法。
背景技术
经过多年的技术发展,包括语音、音乐、自然声音和人工合成声音等人耳可感知的信号在内的数字声音的编码技术已经非常成熟。目前,很多声音编码技术已经成为工业标准被大量应用,融入人们的日常生活中。诸如杜比实验室的AC-3、数字影院系统公司的DTS、移动图象专家组(MPEG)组织的MP3和AAC、微软公司的WMA、索尼公司的ATRAC、国际电联(ITU)的G.723和G.729之类的技术,分别是数字声音编码技术在不同阶段发展的结果。
基于声音产生的复杂性,与传统的语音编码技术普遍采用“预测”加“激励”模型的参数编码方案不同,包括语音、音乐、自然声音和人工合成声音等人耳可感知的信号在内的广义声音,其编码通常无法采用简单有效的参数模型实现,典型的做法是以波形编码为基础的“波形-参数”编码方案。其中,最典型的例子是被三代伙伴项目(3GPP)采纳的EAAC+和AMR WB+编解码方案。在EAAC+方案中,在以波形编码技术为主的先进音频编码技术(MPEGAAC)技术基础上,增加了频谱复制编码(SBR)技术,EAAC+方案的编码器结构和EAAC+方案的解码器结构分别参见图1和图2;而在AMR WB+方案中,则在传统语音编码的“预测”加“激励”编码框架(ACELP),即代数码本激励预测编码中,增加了预测残差即语音编码中的激励信号的变换波形编码(TCX)和简单的高频扩展编码(BWE)技术,AMR WB+方案的编码器结构和AMRWB+方案的解码器结构分别参见图3和图4。由于波形和参数编码技术相结合可以有效的提高编码效率,因此,EAAC+和AMR WB+技术均适合于很低码率的声音编码应用。
由于在低码率下编码效率较高,EAAC+和AMR WB+是目前为止被证明最适合移动通信等低带宽应用的声音编码技术。但是,由于EAAC+和AMR WB+分别是在MPEG AAC和ACELP基础上的升级方案,限于对原有技术方案的完全兼容性要求,这两种低码率音频编码方案存在明显的缺陷。
EAAC+的技术方案是MPEG AAC和SBR技术的组合应用。其基础模型采用了效率较高的波形编码技术,较AMR WB+更适合音乐信号编码,但解码复杂度比AMR WB+高很多。同时,由于没有充分采用符合语音生成机理的有效参数模型,即“预测”加“激励”,低码率约束下语音编码质量比AMR WB+低。
AMR WB+的技术方案是ACELP、TCX和简化BWE的组合。由于采用了符合语音生成机理的有效的参数模型,即“预测”加“激励”,低码率约束下其语音编码质量较高,解码复杂度较低。但为了与ACELP标准兼容,以及追求较低的复杂度,AMR WB+采用了过于简单的波形+参数组合模式,导致音乐信号编码的质量不佳。同时,为保证一定的编码质量,需要采用闭环编码模式选择,编码复杂度很高。
可见,在既有语音又有音乐的应用领域,现有的EAAC+技术和AMR WB+技术在编码质量和复杂度方面,都存在一定的缺陷。目前,需要一种更合理的声音编解码技术,使得在较低的码率和较低的实现复杂度约束下,对语音和音乐均能高质量编码,来克服以上技术存在的问题。
发明内容
有鉴于此,本发明的目的在于提供一种声音编码装置,能够实现低码率下对语音和音乐的高质量编码。
本发明的目的还在于提供一种声音编码方法,能够实现低码率下对语音和音乐的高质量编码。
本发明的目的还在于提供一种声音解码装置,能够实现低码率下对语音和音乐的高质量解码。
本发明的目的还在于提供一种声音解码方法,能够实现低码率下对语音和音乐的高质量解码。
根据上述目的的一个方面,本发明提供了一种声音编码装置,包括:
时变预测分析模块,用于对数字声音信号进行时变预测分析,以获取时域激励信号;
时频映射模块,用于将时域激励信号映射到变换域,以获取变换域上的激励信号;
编码模块,用于对变换域上的激励信号进行编码,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;
比特流复用模块,用于对低频波形编码数据、中频波形编码数据和高频参数编码数据进行复用,以输出声音编码码流。
其中,该装置进一步包括重采样模块,该模块用于对数字声音信号进行采样率变换,并将经采样率变换的数字声音信号输入到时变预测分析模块。
其中,该装置进一步包括信号类型判断模块,该模块用于对数字声音信号进行信号类型判断,以获知数字声音信号是缓变信号还是快变信号,
所述时变预测分析模块进一步用于对被判断为快变信号的数字声音信号进行子帧划分处理。
其中,所述编码模块包括:
低频波形编码模块,用于对变换域上的激励信号中的低频谱进行量化编码以获取低频波形编码数据;
中频波形编码模块,用于对变换域上的激励信号中的中频谱进行量化编码以获取中频波形编码数据;
高频参数编码模块,用于根据变换域上的激励信号中的低频谱、中频谱和高频谱,计算用于从低频谱和中频谱中恢复高频谱的高频参数,并对高频参数进行量化编码以获取高频参数编码数据。
其中,所述低频波形编码模块进一步用于对所述低频谱进行冗余去除处理。
根据上述目的的另一个方面,本发明提供了一种声音编码方法,包括:
A、对数字声音信号进行时变预测分析,以获取时域激励信号;
B、将时域激励信号映射到变换域,以获取变换域上的激励信号;
C、对变换域上的激励信号进行编码,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;
D、对低频波形编码数据、中频波形编码数据和高频参数编码数据进行复用,以输出声音编码码流。
其中,该方法进一步包括步骤:对数字声音信号进行采样率变换,
步骤A中所述数字声音信号是经采样率变换的数字声音信号。
其中,该方法进一步包括步骤:对数字声音信号进行信号类型判断,以获知数字声音信号是缓变信号还是快变信号,并对被判断为快变信号的数字声音信号进行子帧划分处理,
步骤A中所述数字声音信号是经子帧划分处理的数字声音信号。
其中,所述步骤C包括:对变换域上的激励信号中的低频谱进行量化编码以获取低频波形编码数据;对变换域上的激励信号中的中频谱进行量化编码以获取中频波形编码教据;根据变换域上的激励信号的低频谱、中频谱和高频谱,计算用于从低频谱和中频谱中恢复高频谱的高频参数,并对高频参数进行量化编码以获取高频参数编码数据。
其中,该方法进一步包括步骤:在对所述低频谱进行量化编码之前,首先对所述低频谱进行冗余去除处理。
其中,所述高频参数包括增益参数和调性参数,其中调性参数包括调整类型和调整参数,
计算调性参数的方法包括:
C1、将低频谱和高频谱中的频段映射到高频谱中的频段,获取映射的高频谱,计算高频谱的调性Tref和映射的高频谱的调性Test
C2、比较Tref和Test,如果Tref大于Test,则执行步骤C3,如果Tref小于Test,则执行步骤C4;
C3、判断调整类型为加弦处理,并计算作为调整参数的加弦能量ΔET ΔE T = E est · ( T ref - T est ) 1 + T est , 其中Eest为映射的高频谱的能量;
C4、判断调整类型为加噪处理,并计算作为调整参数的加噪能量ΔEN ΔE N = E est · ( T est - T ref ) T ref · ( 1 + T est ) .
根据上述目的的再一个方面,本发明提供了一种声音解码装置,包括:
比特流解复用模块,用于对声音编码码流进行解复用,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;
解码模块,用于对低频波形编码数据、中频波形编码数据和高频参数编码数据进行解码,以获取变换域上的激励信号;
频时映射模块,用于将变换域上的激励信号映射到时域,以获取时域激励信号;
时变预测综合模块,用于对时域激励信号进行时变预测综合,以输出数字声音信号。
其中,该装置进一步包括重采样模块,该模块用于对从时变预测综合模块输出的数字声音信号进行采样率变换,以输出经采样率变换的数字声音信号。
其中,所述解码模块包括:
低频波形解码模块,用于对所述低频波形编码数据进行逆量化以获取变换域上的激励信号中的低频谱;
中频波形解码模块,用于对所述中频波形编码数据进行逆量化以获取变换域上的激励信号中的中频谱;
高频参数解码模块,用于对所述高频参数编码数据进行逆量化以获取高频参数,并根据高频参数从低频谱和中频谱中恢复出高频谱。
其中,所述低频波形解码模块进一步用于对所述低频谱进行冗余去除逆处理。
根据上述目的的再另一个方面,本发明提供了一种声音解码方法,包括:
A、对声音编码码流进行解复用,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;
B、对低频波形编码数据、中频波形编码数据和高频参数编码数据进行解码,以获取变换域上的激励信号;
C、将变换域上的激励信号映射到时域,以获取时域激励信号;
D、对时域激励信号进行时变预测综合,以输出数字声音信号。
其中,该方法进一步包括步骤:对所述输出的数字声音信号进行采样率变换,以输出经采样率变换的数字声音信号。
其中,所述步骤B包括:对所述低频波形编码数据进行逆量化以获取变换域上的激励信号中的低频谱;对所述中频波形编码数据进行逆量化以获取变换域上的激励信号中的中频谱;对所述高频参数编码数据进行逆量化以获取高频参数,并根据高频参数从低频谱和中频谱中恢复出高频谱。
其中,该方法进一步包括步骤:在对所述低频数据进行逆量化以获取变换域上的激励信号中的低频谱之后,对所述低频谱进行冗余去除逆处理。
在本发明提供的声音编码装置及方法中,采用了适合语音信号编码的预测分析,并对激励信号采用了高效率的波形编码和参数编码的组合方式,这样的技术方案非常适合在极低码率下的语音和音乐编码。
可见,本发明提供的声音编码装置及方法,对语音和音乐都能高效编码,其编码效率适合于在低码率下提供良好的声音质量。
同时,在上述的本发明提供的声音解码装置及方法中,采用了适合语音信号编码的预测综合,并对激励信号采用了高效率的波形解码和参数解码的组合方式,这样的技术方案非常适合在极低码率下的语音和音乐解码。
可见,本发明提供的声音解码装置及方法,对语音和音乐都能高效解码,其解码效率适合于在低码率下提供良好的声音质量。
此外,与EAAC+和AMR WB+技术不同,本发明提供的声音编解码装置及方法并不需要与已有的技术兼容,也不需要在时域将信号的高频和低频经滤波分解,再进行后续的编码和解码。因此,本发明提供的声音编解码装置及方法还可以达到以下效果:
(1)同时适合于语音和音乐信号的统一编码,使适合语音的“预测”加“激励”参数编码模型和音乐的波形模型更有效地结合;
(2)采用了简单有效的系统框架,可有效降低声音编码和解码的实现复杂度,降低了系统的开发和使用成本。
附图说明
图1为现有技术中EAAC+编码器的结构框图。
图2为现有技术中EAAC+解码器的结构框图。
图3为现有技术中AMR-WB+编码器的结构框图。
图4为现有技术中AMR-WB+解码器的结构框图。
图5为作为本发明优选实施例的声音编码装置的结构框图。
图6为作为本发明优选实施例的声音解码装置的结构框图。
图7为图5所示重采样模块的结构框图。
图8为图5所示时变预测分析模块的结构框图。
图9为时频映射后的时频平面图,其中图a)为缓变信号的时频平面图,图b)为快变信号的时频平面图。
图10为图5所示低频波形编码模块的结构框图。
图11为图5所示高频参数编码模块的结构框图。
图12为高频参数编码模块的频谱映射示意图,其中图a)为原始信号频谱图,图b)为映射后的信号频谱图。
图13为高频参数编码模块的增益计算示意图,其中图a)为快变点位置和模式示意图,图b)为区域划分和模式示意图。
图14为图6所示低频波形解码模块的结构框图。
图15为图6所示高频参数解码模块的结构框图。
图16为图6所示时变预测综合模块的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下举实施例,并参照附图,对本发明进一步详细说明。
图5为作为本发明优选实施例的声音编码装置的结构框图,本发明优选实施例的声音编码装置包括:重采样模块501、信号类型判断模块502、时变预测分析模块503、时频映射模块504、低频波形编码模块505、中频波形编码模块506、高频参数编码模块507,以及比特流复用模块508。本文中将低频波形编码模块505、中频波形编码模块506和高频参数编码模块507总称为编码模块。
首先,概括介绍图5中各个模块的连接关系和功能,其中:
重采样模块501用于将输入的数字声音信号从原始采样率变换到目标采样率,并将重采样后的信号以帧为单位输出到信号类型判断模块502和时变预测分析模块503,应注意,如果所输入的数字声音信号本身就具有目标采样率,则根据本发明原理的编码装置可以不包括该模块,可直接将数字声音信号输入到信号类型判断模块502和时变预测分析模块503;
信号类型判断模块502用于对重采样后的信号进行信号类型分析,判断该帧信号是快变信号还是缓变信号,若是缓变信号,则直接输出信号类型,例如,输出表示该帧信号是缓变信号的标识,若是快变信号,则需继续计算快变点发生的位置,并输出相应的信号类型和快变点发生的位置,信号类型分析的结果一方面输出到时变预测分析模块503中进行子帧划分控制,另一方面输出到时频映射模块504中进行时频映射的阶数控制,根据本发明原理的编码装置的时频映射可选择时频变换(Transform)或子带滤波(Filter Bank),信号类型分析的结果还可输出到比特流复用模块508,应注意,根据本发明原理的编码装置可以不包括该模块;
时变预测分析模块503用于从重采样模块501接收重采样后的时域信号,并根据从信号类型判断模块502接收的信号类型判断结果,判断是否对重采样后的时域信号进行分子帧处理,如果该帧信号类型为快变信号,则将该帧重采样后的时域信号根据快变点的位置分为不同的子帧,如果是缓变信号,则不做进一步分子帧处理,时变预测分析模块503还用于对重采样后的时域信号按帧或子帧进行线性预测滤波,得到激励信号,激励信号或称残差信号,以后若无特殊说明,两种说法等同,激励信号输出到时频映射模块504;
时频映射模块504用于从时变预测分析模块503接收激励信号,将激励信号映射到诸如频域或子带域之类的变换域,这里,当采用变换方式时为频域,采用滤波器组滤波方式时为子带域,获得激励信号的频域或子带域信号表示,并将变换域上的激励信号输出到低频波形编码模块505、中频波形编码模块506、高频参数编码模块507,本文中将低频波形编码模块505、中频波形编码模块506、高频参数编码模块507总称为编码模块,具体地,将变换域上的激励信号划分为低频谱、中频谱和高频谱,其中低频谱输出到所述的低频波形编码模块505,中频谱输出到所述的中频波形编码模块506,低频谱、中频谱和高频谱输出到所述的高频参数编码模块507;
低频波形编码模块505用于从时频映射模块504接收变换域的激励信号的低频部分,对其进行冗余消除处理,并将冗余处理后的低频谱进行量化编码得到低频编码数据,并输出到所述的比特流复用模块508,应注意,如果低频成分的时间冗余度满足编码要求,低频波形编码模块505也可以不进行冗余消除处理;
中频波形编码模块506用于从时频映射模块504接收变换域的激励信号的中频谱,对其进行量化编码,得到中频编码数据并输出到所述的比特流复用模块508;
高频参数编码模块507用于从时频映射模决504接收变换域的激励信号的低频谱、中频谱和高频谱,从中提取所需要的诸如增益参数、调性参数之类的高频参数,对高频参数进行量化编码并输出到比特流复用模块508;以及
比特流复用模块508用于将从信号类型判断模块502、时变预测分析模块503、低频波形编码模块505、中频波形编码模块506、和高频参数编码模块507接收到的数据进行复用,形成声音编码码流。
下面,对上述声音编码装置的各个组成模块进行具体详细地说明。
重采样模块501用于对输入声音信号进行重采样。图7为图5所示重采样模块的结构框图,该模块包含上采样器701、低通滤波器702和下采样器703。其中上采样器701用于对采样频率为Fs的信号x(n)进行L倍的上采样,得到采样频率为L*Fs的信号w(n),低通滤波器702对w(n)进行低通滤波生成滤波后的信号v(n)。低通滤波器702的作用是消除上采样器701产生的镜像和避免由下采样器703可能产生的混叠。下采样器703对信号v(n)进行M倍的下采样得到采样频率为(L/M)*Fs的信号y(n)。并将重采样后的信号以帧为单位输出到信号类型判断模块502和时变预测分析模块503。
信号类型判断模块502用于对经过重采样的信号进行信号类型分析,确定该帧信号的类型是缓变信号还是快变信号,若是缓变信号,则直接输出信号类型,例如,表示该帧信号的类型为缓变的标识;若是快变信号,则继续计算快变点发生的位置,并输出相应的信号类型和快变点发生的位置。信号类型分析的结果一方面输出到时变预测分析模块503中用于子帧划分控制,另一方面输出到时频映射模块504中用于对时频映射的阶数进行控制,同时,信号类型分析的结果做为边信息还输出到比特流复用模块508中。
时变预测分析模块503用于对重采样模块501输出的时域序列进行线性预测分析,该模块可以有效的减小声音信号特别是语音信号在时间上的冗余度,提高编码效率。图8为图5所示时变预测分析模块的结构框图,时变预测分析模块由线性预测分析器801、转换器802、矢量量化器803、线性预测滤波器804以及逆转换器805构成。具体地,根据信号类型分析的结果,首先由线性预测分析器801对输入的重采样后的时域信号y(n)以帧或子帧为单位进行线性预测分析,求出一组预测系数ai,然后由转换器802将该组ai转换成一组线谱频率LSF,再将该组LSF参数送入矢量量化器803中进行矢量量化并得到矢量量化的索引,并根据矢量量化的索引得到量化后的一组线谱频率
Figure A20061008748100151
,将得到的该组
Figure A20061008748100161
经过逆转换器805求出量化后的一组预测系数i,最后用量化后的该组预测系数i构成的线性预测滤波器804对帧或子帧信号进行滤波,得到时域的激励信号e(n)。其中矢量量化的索引做为边信息输出到比特流复用模块508中。
时频映射模块504用于将激励信号映射到频域或子带域,获得激励信号的频域或子带域信号表示。当采用变换方法是为频域信号表示,当采用滤波器组滤波时为子带域信号表示。具体的映射方法如离散傅立叶变换(DFT)、离散余弦变换(DCT)、修正离散余弦变换(MDCT)、余弦调制滤波器组(CMFB)、小波变换(DWT)等。并且,快变信号以子帧为单位做时频映射,选择较短长阶数的变换或滤波器组;缓变信号以帧为单位做时频映射,并选择较长阶数的变换或滤波器组。将时频映射得到的变换域系数划分为低频谱、中频谱和高频谱,将低频谱和中频谱分别输出到低频波形编码模块505和中频波形编码模块506,将低频谱、中频谱和高频谱、信号类型和快变点位置信息输出到高频参数编码模块507中。
图10为图5所示低频波形编码模块的结构框图,低频波形编码模块505包括低频冗余处理器1001和低频量化编码器1002。时频映射模块504输出的低频成分为信号的比较稳定的部分,其时间相关性(冗余度)较强。由于信号在作时频映射时需要满足一定的时间分辨率,因此,时频映射后的低频成分的时间冗余度仍较强,当信号类型判断模块判断该帧信号类型为快变信号时,采用较短的时频变换器长度,低频的编码效率往往会较低。因此,本发明的声音编码装置所包含的低频冗余处理器1001是可选择的,其可进一步消除时频映射获得的低频成分中的时间冗余。
低频冗余处理器1001可以采用较短的变换器或较低阶的预测器实现,如离散余弦变换(DCT)、傅立叶变换(DFT)、线性预测器(LPC)等。在本发明中,只对采用较短时频变换的快变信号帧,才选择低频冗余处理器1001。此时,冗余处理装置对低频谱按时间顺序进行冗余处理,分别用几种方法计算去冗余的效果,即实际编码增益,然后选择是否采用低频冗余处理和采用低频冗余处理的方法,最后将是否采用低频冗余处理器1001的标志以及采用哪种方法做为边信息输出到比特流复用模块508中。
低频量化编码器1002对低频数据进行量化编码并得到编码的低频数据。如可采用类似MPEGAAC中的标量加哈夫曼(Huffman)编码的量化方案,也可以采用矢量量化方案。在定码率编码中,矢量量化器是一个合理的选择方案。编码的低频数据以及低频冗余处理选择的边信息输出到比特流复用模块508中。
中频波形编码模块对中频谱进行量化编码并得到编码的中频数据。中频量化编码器也可采用类似MPEG AAC中的标量加哈夫曼编码的量化方案和矢量量化方案。在定码率编码中,矢量量化器是一个合理的选择方案。编码的中频数据输出到比特流复用模块508中。
高频参数编码模块507用于根据低频、中频和高频的频谱提取用来从低频谱和中频谱来恢复高频谱的高频参数,对高频参数进行量化编码并输出到比特流复用模块508。图11为图5所示高频参数编码模块的结构框图,高频参数编码模块包括频谱映射器1101、调性参数提取器1102和增益参数提取器1103。频谱映射器1101用于将低频谱和中频谱的特定频段映射到高频谱的特定频段,得到映射后的高频谱,并将映射后的高频谱输入到调性参数提取器和增益参数提取器。映射后的时频平面与原时频平面相同,如图11所示。调性参数提取器1102接收频谱映射器1101的输出和时频映射模块504输出的高频谱,将映射后的高频谱和原始高频谱划分为多个频带,分别计算原始高频频带的调性和映射后高频谱对应频带的调性,得到在解码装置端用来调整拷贝后高频谱调性的所需要的调性参数,这些调性参数包括调整类型和调整参数,并将这些参数经过量化编码后输出到比特流复用模块508中;增益参数提取器1103接收频谱映射器1101的输出和时频映射模块504输出的高频谱,根据信号类型和快变点发生的位置,将映射后的高频时频平面频谱和原始高频时频平面划分多个区域,计算原始时频平面中每个区域的能量和映射时频平面对应的区域能量的比值作为增益参数,该增益参数经过量化编码后输出到比特流复用模块508中。
比特流复用模块508接收上述模块输出的编码数据以及边信息进行复用,形成声音编码码流。
基于本发明编码装置的编码方法,包括以下步骤:
步骤11、对输入信号进行重采样处理;
步骤12、对重采样后的信号进行信号类型判断,如果是缓变类型信号,则直接输出信号类型,如果是快变类型信号,则继续计算快变点发生的位置,最后输出信号类型和快变点位置;
步骤13、根据信号类型分析结果,对重采样后的信号按帧或子帧进行时变预测分析,对预测器系数进行编码,并得到激励信号;
步骤14、根据信号类型分析结果,采用不同长度阶数的变换或滤波器组,对激励信号进行时频映射,得到变换域上的激励信号;
步骤15、对变换域上的激励信号的低频谱、中频谱和高频谱进行低频波形编码数据、中频波形编码数据和高频参数编码数据。
步骤16、将编码后的数据进行复用,得到声音编码码流。
其中,步骤11中的重采样处理具体包括:首先由输入信号的采样率Fs和重采样目标采样率Fmax,计算出重采样的采样率比Fmax/Fs=L/M。其中,重采样目标采样率Fmax为解码信号的最高分析频率,一般由编码比特率确定。然后对输入声音信号x(n)进行L倍的上采样,输出的信号为
Figure A20061008748100181
上采样后的信号通过低通滤波器得到 v ( n ) = Σ k = 0 N h ( k ) w ( n - k ) , 其中N为低通滤波器的长度(当N=∞时,该滤波器为IIR滤波器),低通滤波器的截止频率为Fmax;对v(n)进行M倍的下采样后的序列为y(n),则y(n)=v(Mn)。这样,重采样后的声音信号y(n)的采样率就是原始输入的声音信号x(n)的采样率的L/M倍。应注意,如果所输入的数字声音信号本身就具有目标采样率,则无需执行步骤11。
步骤12中的信号类型判断有许多种方法,例如,通过信号感知熵判断信号类型,通过计算信号子帧的能量判断信号类型等。优选地,采用通过计算信号子帧能量判断信号类型的方法,具体地,首先将一帧信号y(n)进行高通滤波,将低频部分,例如500Hz以下的频率,滤除掉;然后将高通滤波后的信号分成若干个子帧yi(n),为计算方便计,通常将一帧信号分成整数个子帧,如一帧为2048点时,可256点为一个子帧。然后分别计算每个子帧的能量Ei,其中i为子帧的序号;然后计算每个子帧的能量并求出当前子帧与前一子帧的能量比,当能量比大于某个阈值Te时,则判断该帧信号类型为快变信号,若所有子帧与前一帧的能量比均小于Te时,则判断该帧信号类型为缓变信号。对于快变信号,将能量最大的子帧判断为快变点发生的位置。在该方法中的阈值Te可采用一些信号处理中的熟知方法获得,如统计已编码信号能量的平均比值,并乘以某个常数得到Te。应注意,如果已知信号类型,则无需执行步骤12。
如果该帧信号类型为快变信号,则该帧重采样后的时域信号根据快变点的位置分成子帧,该子帧划分可与信号类型分析模块的子帧划分方法相同。否则,不做子帧划分处理。时变分析预测模块对重采样后的时域信号按帧或子帧进行线性预测滤波,得到时域的预测激励信号。
对于一帧/子帧N点的时域信号y(n)进行p阶线性预测分析处理包含以下步骤:
步骤21,计算当前帧或子帧时域信号y(n)的自相关系数, r ( k ) = Σ n = k N y ( n ) * y ( n - k ) , k ∈ [ 0 , p ] ;
步骤22,通过递推执行Levinson-Durbin算法获得一组预测系数ai,并由预测系数构成线性预测滤波器 A ( z ) = 1 - Σ i = 1 p a i z - i ,
步骤23,通过对两个多项式 f 1 ( z ) = A ( z ) + z - p A ( z - 1 ) f 2 ( z ) = A ( z ) - z - p A ( z - 1 ) 求根,将ai转换成一组线谱对LSPi,并由线谱对LSPi得到线谱频率LSFi
步骤24,对线谱频率进行矢量量化,得到量化后的线谱频率
Figure A20061008748100201
并转换为量化后的线谱对 ,矢量量化的索引做为边信息(Side Information,码率数据的一种,通常为控制信息或参数编码信息)输出到比特流复用模块中,用于在解码装置端生成合成滤波器。
步骤25,由量化后的线谱对,通过计算f1(z)和f2(z)求出量化后的滤波器系数i,并构成量化后的滤波器 A ^ ( z ) = 1 - Σ i = 1 p a ^ i z - i .
步骤26,将y(n)通过量化后的滤波器计算出预测后的激励信号 e ( n ) = y ( n ) - Σ i = 1 p a ^ i y ( n - i ) .
对时域信号进行时频映射的方法有很多,如离散傅立叶变换(DFT)、离散余弦变换(DCT)、修正离散余弦变换(MDCT)、余弦调制滤波器组(CMFB)、小波变换(DWT)等。优选地,以离散傅立叶变换(DFF)和修正离散余弦变换(MDCT)为例说明时频映射的过程。
对于采用离散傅立叶变换(DFT)进行时频变换的情况,首先从当前帧的起始位置选取M+N个样本的时域信号x(n),其中M为当前帧数据长度,N为下一帧重叠的长度,M和N的长度由当前帧的信号类型确定。当信号类型为缓变信号时,M和N选择较长的阶数,在本实施例中采用M=2048,N=256;当信号类型为快变信号时,M和N选择较短的阶数,在本实施例中采用M=256,N=32。再对M+N个样本的时域信号进行加窗操作,得到加窗后的信号xw(n)=w(n)x(n)。其中w(n)为窗函数,在实现中可以使用各种窗函数,例如可采用余弦窗
w ( n ) = cos ( n&pi; 2 N 0 ) , 0 &le; n < N 0 1 , N 0 &le; n &le; M cos ( ( n - M ) &pi; 2 N ) , M < n &le; M + N
其中N0为当前帧重叠的长度,由上一帧的信号类型确定。然后对经过加窗后的信号进行DFT变换,从而获得M+N个频域系数, X ( k ) = &Sigma; n = 0 M + N - 1 x w ( n ) e - j ( 2 &pi; / ( M + N ) ) kn , k∈[0,M+N-1]
对于采用修正离散余弦变换(MDCT)进行时频变换的情况,首先选取前一帧M个样本和当前帧M个样本的时域信号,再对这两帧共2M个样本的时域信号进行加窗操作,然后对经过加窗后的信号进行MDCT变换,从而获得M个频域系数。
MDCT分析滤波器的脉冲响应为:
h k ( n ) = w ( n ) 2 M cos [ ( 2 n + M + 1 ) ( 2 k + 1 ) &pi; 4 M ] ,
则MDCT变换为: X ( k ) = &Sigma; n = 0 2 M - 1 x ( n ) h k ( n ) 0≤k≤M-1,其中:w(n)为窗函数;x(n)为MDCT变换的输入时域信号;X(k)为MDCT变换的输出频域信号。
为满足信号完全重构的条件,MDCT变换的窗函数w(n)必须满足以下两个条件:
w(2M-1-n)=w(n)且w2(n)+w2(n+M)=1。
在实际中,可选用Sine窗作为窗函数。当然,也可以通过使用双正交变换,用特定的分析滤波器和综合滤波器修改上述对窗函数的限制。
这样,该帧数据根据信号类型就得到不同的时频平面图。例如,假设当前帧为缓变信号时的时频映射器阶数为2048,为快变信号类型时的时频映射器阶数为256,则时频平面图如图9所示,其中图9a为缓变信号的时频平面图;图9b为快变信号的时频平面图。
将时频映射获得的信号表示划分为三个频带,分别为低频谱、中频谱和高频谱。由于编码声音信号的采样率和编码比特率很多,频带的划分是可调的。典型的,低频谱和中频谱的分界点可在[1500Hz,2500Hz]之间,中频谱和高频谱的分界点可在编码带宽的[1/3,1/2]之间。其中,编码带宽不大于待编码信号的实际带宽,这里,按照奈奎斯特采样定理,信号的实际带宽为其采样频率的一半,例如,在16kbps码率下,编码32kHz单声道声音信号时,编码带宽的一个选择是13kHz。
低频波形编码包括低频冗余去除和低频量化编码两个步骤。低频冗余去除可以采用较短的变换器或较低阶的预测实现,如DCT、FFT、LPC等。
优选地,只对采用较短时频变换的快变信号帧进行冗余处理。此时,对低频谱按时间顺序进行冗余处理,即对时频平面上频率位置相同的8个谱系数采用8*8的DCT变换进行冗余消除,这里采用DCT II变换基函数。
对低频量化编码可采用类似MPEG AAC中的标量加哈夫曼编码的量化方案,也可以采用矢量量化方案。在定码率编码中,矢量量化器是一个合理的选择方案。在本发明的一个具体实施方法中,我们采用了8维矢量量化方案。矢量量化模块对低频谱或经冗余处理的低频谱进行8维矢量量化。矢量量化的结果输出到比特流复用模块。
矢量量化的方法具体包括以下步骤:首先将频域系数构成多个8维矢量信号;而后根据感知距离测度准则通过全搜索方法在码书中查找与待量化矢量距离最小的码字,获得其码字索引。其中感知距离可采用欧氏距离测度。
中频波形编码模块对中频谱进行量化编码。中频量化编码也可采用类似MPEG AAC中的标量加哈夫曼编码的量化方案和矢量量化方案。在本发明专利一个具体实施方法中,中频波形编码器采用与低频相同的8维矢量量化器。同样,矢量量化的结果输出到比特流复用模块。
高频参数编码是一种根据中低频和高频的频谱提取用来恢复高频频谱的参数的方法。本发明中对高频参数编码方法包含以下步骤:
步骤31、将中低频谱的特定频段映射到高频的特定频段,形成映射的高频谱;
步骤32、将映射的高频时频平面和原始高频时频平面根据信号类型和快变点发生的位置划分多个区域,然后分别计算原始高频每个区域的能量和映射后高频对应区域的能量并计算该区域的能量增益,然后将增益量化,最后将量化后的增益作为边信息输出到比特流复用模块;
步骤33、分别计算每个原始高频频带的调性和对应的映射的高频频带的调性,得到调整特定频带调性的边信息,包括调整类型和调整参数,并将边信息输出到比特流复用模块。
步骤31中的频谱映射目前有多种方法实现,例如折叠映射,线性映射,倍频映射等。下面以线性映射为例说明谱映射的方法。假设原始信号的中低频频谱的范围为[0,Fl],高频频谱的范围为[Fl,Fs],其中2×Fl<Fs<3×Fl,如图12中的a)所示。则通过线性映射得到的频谱如图12中的b)所示。
步骤32中的区域类似于MPEG AAC中的尺度因子带(Scale Factor Band),某个区域的能量是由计算该区域的谱线的能量之和得到。由于映射后的高频谱是由中低频映射得到的,所以其结构也和中低频一致,如图9所示。当中低频为缓变帧时,高频谱可以沿频率方向做区域划分;当中低频为快变帧时,为了抑制前回声(pre-echo)和后回声(post-echo)的影响,需要有较高的时间分辨率,这时沿时间方向可以根据快变点的位置做不同的区域划分。如果快变点发生位置如图13中a)所示,则对应的区域划分如图13中d)所示。例如,在编码中低频时,通过信号类型判断模块判断出快变点发生位置在第三个窗,则利用图11中c)需要选择模式3,然后按照图11中d)所示模式3对应的区域划分为(3,1,3,1)。为了减少传输边信息所用的比特数,在快变帧时可以将频率的分辨率降低。特别注意的是原始高频谱和映射的高频的区域划分应该一致。这样,某个区域的增益就是该区域计算出的原始高频谱的能量和映射的高频谱的能量之比。最后将所有区域的增益进行量化并输出到比特流复用模块。
步骤33中,调性的计算有多种,如在时域通过线性预测的方法、谱平坦度的方法和MPEG中心理声学模型2利用不可预测度得到调性的方法。下面以MPEG中心理声学模型2为例说明音调性的计算方法:模型2的音调性是根据信号频谱的幅值和相位,计算谱线的“不可预测测度”获得的;并且,将信号频谱分成频段,每个频段至少有一个谱线。
设当前帧信号的幅数谱为:
X[k]=r[k]ejφ[k],k=1,...,K
其中r[k]为幅值,φ[k]为相位。
计算每个频段的能量,
e [ b ] = &Sigma; k = k l k h r 2 [ k ]
其中kl和kh为每个k频段的上下边界。
每个谱线的不可预测测度为当前值和基于前两帧的预测值的相对距离(即不可预测测度)。设预测值的幅值和相位为:
rpred[k]=rt-1[k]+(rt-1[k]-rt-2[k])
φpred[k]=φt-1[k]+(φt-1[k]-φt-2[k])
则不可预测测度c[k]定义为:
c [ k ] = disk ( X [ k ] , X pred [ k ] ) r [ k ] + | r pred [ k ] | = | re j&phi; [ k ] - r pred e j &phi; pred [ k ] | r [ k ] + | r pred [ k ] |
则频段的不可预测度为该频段的谱线能量乘以不可预测测度的总和。即,
c [ b ] = &Sigma; k = k l k h c [ k ] r 2 [ k ]
定义归一化分区不可预测度为:
c s [ b ] = c [ b ] e [ b ]
由归一化不可预测度计算分区音调性有:
t[b]=-0.299-0.43loge(cs[b])
并且限制0≤t[b]≤1,当t[b]等于1时为纯弦,当t[b]等于0时为白噪。利用上述计算的方法可以得到原始高频谱的调性和映射的高频谱的调性。对映射的高频谱的调性调整的参数可以按照下面的方法计算:
设映射的高频谱的调性为Test,能量为Eest,原始高频的调性Tref。其中Test和Tref可以通过上述计算方法得到。对映射后的高频谱的调性调整可以分以下几种情况处理:
情况1,当映射后的高频的调性Test和原始高频的调性Tref大约相等时,调整类型为不调整,将调整类型编码并输出到比特流复用模块;
情况2,当映射频段的调性Test小于原始高频特定频段的调性Tref时,则调整类型为加弦处理。具体需要加弦的能量ΔET计算如下:
T ref = E est &CenterDot; T est 1 + T est + &Delta;E T E est &CenterDot; 1 1 + T est = E est &CenterDot; T est + &Delta;E T &CenterDot; ( 1 + T est ) E est
整理后得到: &Delta;E T = E est &CenterDot; ( T ref - T est ) 1 + T est . 作为调整参数进行量化编码,并同调整类型的编码一起输出到比特流复用模块;
情况3,当映射频段的调性Test大于原始高频特定频段的调性Tref时,则调整类型为加噪处理。具体需要加噪的能量ΔEN计算如下:
1 T ref = E est &CenterDot; 1 1 + T est + &Delta;E N E est &CenterDot; T est 1 + T est = E est + &Delta;E N &CenterDot; ( 1 + T est ) E est &CenterDot; T est
整理后得到: &Delta;E N = E est &CenterDot; ( T est - T ref ) T ref &CenterDot; ( 1 + T est ) .
Figure A20061008748100256
作为调整参数进行量化编码,并同调整类型编码一起输出到比特流复用模块508。
以下介绍本发明优选实施例的声音解码装置及方法,应注意,由于解码过程是编码过程的逆过程,所以仅简单介绍解码过程。图6为作为本发明优选实施例的声音解码装置的结构框图。本发明优选实施例的声音解码装置包括:比特流解复用模块601、低频波形解码模块602、中频波形解码模块603、高频参数解码模块604、频时映射模块605、时变预测综合模块606和重采样模块607。本文中将低频波形解码模块602、中频波形解码模块603和高频参数解码模块604总称为解码模块。
首先,概括介绍图6所示各个模块的连接关系和功能。
具体地,比特流解复用模块601用于对压缩的音频码流进行解复用,得到相应数据帧的编码数据和边信息,向低频波形解码模块602输出相应的编码数据和边信息,向中频波形解码模块603输出相应的编码数据,并向高频参数解码模块604、频时映射模块605和时变预测综合模块606输出相应的边信息;
低频波形解码模块602用于对该帧低频编码数据解码,并根据冗余处理边信息对解码数据进行冗余逆处理,获得低频谱;
中频波形解码模块603用于从该帧中频编码数据解码获得中频谱;
高频参数解码模块604用于从该帧低频谱和中频谱中拷贝部分谱数据到高频部分,并按照比特流解复用模块601输出的增益调整和音调性调整边信息调整其增益和音调性得到高频谱;
频时映射模块605用于将低频谱、中频谱和高频谱组合在一起进行频时映射,频时映射根据信号类型边信息采用不同长度阶数的变换或滤波器组,获得时域激励信号;
时变预测综合模块606用于根据比特流复用模块601输出的信号类型边信息,如果该帧信号为快变信号,则将该帧时域激励信号根据快变点的位置进行分子帧处理,并对每个子帧的时域激励信号进行综合预测滤波,最后将每个子帧的时域信号组合成为该帧时域信号,如果是缓变信号,对该帧的时域激励信号进行综合预测滤波,获得该帧的时域信号;
重采样模块607用于将时变预测综合模块606输出的该帧时域信号的采样频率变换到适合声音回放的采样频率,应注意,如果时变预测综合模块606输出的信号的采样频率适于声音回放,则本发明的声音解码装置中可以不包括该模块。
下面,对声音解码装置的各个组成模块进行具体详细地说明。
比特流解复用模块601用于对压缩音频码流进行解复用,得到相应的编码数据和边信息,对应输出到各模块中,以提供相应的数据和解码信息。其中输出到低频波形解码模块602的编码数据为低频编码数据,边信息包括是否进行低频冗余逆处理的标志;输出到中频波形解码模块603的编码数据为中频编码数据;输出到高频参数解码模块604的边信息包括调性调整类型、调性调整参数、增益调整参数和快变点发生的位置;输出到频时映射模块605的控制信号为信号类型参数;输出到时变预测综合模块606的控制信号包括信号类型参数和快变点发生的位置和线谱频率的矢量量化索引。
图14为图6所示低频波形解码模块的结构框图,低频波形解码模块602包括低频逆量化器1401和低频冗余逆处理器1402。首先低频逆量化器1401将从比特流解复用模块601得到的低频编码数据进行逆量化解码,得到逆量化后的低频谱,逆量化解码的方法是编码端低频波形编码模块505中采用量化编码的逆过程。然后低频冗余逆处理器1402首先根据是否进行低频冗余逆处理的标志边信息作判断,如果标志为不作逆处理,逆量化后的低频谱不变化;否则,对逆量化后的低频谱作低频冗余逆处理.
中频波形解码模块603将从比特流解复用模块601得到的中频编码数据进行逆量化解码,得到逆量化后的中频谱,逆量化解码的方法是编码端中频波形编码模块506中采用量化编码的逆过程。
图15为图6所示高频参数解码模块的结构框图,高频参数解码模块604用于根据逆量化后的中低频谱恢复高频频谱,其包括谱拷贝器1501、调性调整器1502和增益调整器1503。其中,谱拷贝器1501用于将逆量化的中低频谱的特定频段对应拷贝到高频谱的特定频段。谱拷贝的规则与编码端高频参数编码模块507中谱映射器1101的频谱映射规则一致。拷贝后时频平面如图11所示。调性调整器1502将拷贝后的高频谱划分为多个频带,划分方法与编码端高频参数编码器507中调性参数提取器1102划分方法相同,然后根据调性调整类型边信息作判断,如果调整类型为不调整,则拷贝后的频谱不作处理;如果调整类型为加噪,则解量化调整参数边信息,根据解量化的结果计算得出加噪的能量,并在拷贝后的频谱中对应频带加入相应能量的噪声;如果调整类型为加弦,则解量化调整参数边信息,根据解量化的结果计算得出加弦的能量,并在拷贝后频谱的本频带中的中央加入相应能量的弦。加弦时,前后帧加弦的相位要保持连续。最后增益调整器1503根据快变点位置边信息将时频平面划分多个区域,划分的方法与高频参数编码模块507中增益参数提取器1103的区域划分方法相同。然后由增益调整参数边信息得到每个区域增益调整的目标能量,最后将每个区域的能量进行调整使其与该区域目标能量相同。
频时映射模块605将低频波形解码器602、中频波形解码器603和高频参数解码器604输出的频域或子带域的谱组合在一起,得到整个频带或子带域的谱,对该谱进行频时映射,获得时域激励信号。频时映射的方法是编码端时频映射模块504中时频映射的逆过程。包括逆离散傅立叶变换(IDFT)、逆离散余弦变换(IDCT)、逆修正离散余弦变换(IMDCT)、逆余弦调制滤波器组、逆小波变换等。
图16为图6所示时变预测综合模块的结构框图,时变预测综合模块606执行的处理是编码器中时变分析预测模块503所执行处理的逆过程,其由解矢量量化器1601、转换器1602和线性预测综合器1603组成。首先解矢量量化器1601由线谱频率的矢量量化索引边信息解出量化后的线谱频率
Figure A20061008748100281
,然后通过转换器获得线性预测合成滤波器
Figure A20061008748100282
。最后将从频时变换模块605输出的时域激励信号通过线性预测综合滤波器1602得到恢复的时域信号。
重采样模块607所执行处理是编码端重采样模块501所执行处理的逆过程,用于将时变线性预测滤波器模块606输出的时域信号的采样率变换回原始信号的采样频率。
基于上述解码器的解码方法,包括以下步骤:
步骤41、将声音编码码流进行解复用,得到低频编码数据、中频编码数据、高频参数编码数据以及解码所用的所有边信息;
步骤42、根据低频编码数据以及边信息对低频编码数据进行逆量化和解码,然后进行低频冗余逆处理得到逆量化后的低频谱;
步骤43、根据中频编码数据以及边信息对中频编码数据进行逆量化和解码,得到逆量化后的中频谱;
步骤44、根据逆量化后的低频谱、中频谱以及边信息对高频进行参数解码,得到解码后的高频谱;
步骤45、对逆量化后的低频谱、中频谱和高频谱组合在一起进行频时映射,得到激励信号;
步骤46、解码预测器系数,对激励信号进行时变预测综合,得到合成的时域信号;
步骤47、对合成的时域信号进行重采样操作,将合成的时域信号的采样率变换到适合声音回放的采样频率。
低频信号解码包括低频逆量化和低频冗余逆处理两个步骤。首先对低频编码数据进行逆量化和解码,得到逆量化后的低频谱。然后根据边信息判断该帧数据在编码端是否进行了低频冗余处理,如果是则需要将逆量化后的低频谱进行低频冗余逆处理,否则逆量化后的低频谱不做变化。
低频逆量化和低频冗余逆处理方法分别对应于低频信号编码方法。如果在低频信号编码部分的具体实施方案是采用的矢量量化的方法,则对应的低频逆量化需要从码流中得到矢量码字索引,根据码字索引在固定码书中找到对应的矢量。将矢量按顺序组合成逆量化后的低频谱。根据边信息判断出编码端是否进行了低频冗余处理。如果是,则采用8*8的IDCT对低频进行冗余逆处理;如果否,则逆量化后的低频谱不做低频冗余逆处理。
中频信号解码可以得到逆量化后的中频谱。其中的中频信号解码所采用的方法对应于编码部分。这时,中频信号解码的逆量化方法和低频逆量化方法一样。
高频参数解码方法包含以下步骤:
步骤51、将逆量化后中低频谱的特定频带拷贝到高频的特定频带。
步骤52、求拷贝后的时频平面的各区域的能量,区域的划分同编码器一致。
步骤53、从比特流解复用模块得到调性调整类型,如果调整类型为不调整,则执行步骤55,否则进行步骤54。
步骤54、从比特流解复用模块得到调性调整参数并解量化,然后根据解量化后的调性调整参数对拷贝后的频谱进行调性调整。
步骤55、从比特流解复用模块得到的时频平面各区域量化后的增益,解量化后并对步骤54或步骤55输出的高频谱的各区域增益进行调整,使得调整后的各区域的能量与目标能量相同,形成信号的高频谱。
步骤51中的谱拷贝目前有多种方法实现,例如折叠拷贝,线性拷贝,倍频拷贝等。下面以线性拷贝为例说明谱拷贝的方法。假设原始信号的中低频谱的范围为[0,Fl],高频谱的范围为[Fl,Fs],其中2×Fl<Fs<3×Fl,如图12中a)所示。则通过线性拷贝得到的频谱如图12中b)所示。
步骤54在得到高频各区域的调整类型和解量化后的调整参数后,对步骤1拷贝的频谱的调性做调整。设拷贝频带的能量为Eest,解量化后的调整参数为
Figure A20061008748100301
,则调整可以分以下两种情况处理:
情况1、当调整类型为加弦处理时,加弦的位置为该频带的正中,加弦的能量为 &Delta;E T = E est &CenterDot; P ^ , 并使前后帧加弦的相位保持连续;
情况2,当调整类型为加噪处理时,加噪的能量 &Delta;E N = E est &CenterDot; P ^ , 噪声的相位为随机数。
频时映射与编码端的时频映射相对应。可以采用逆离散傅立叶变换(IDFT)、逆离散余弦变换(IDCT)、逆修正离散余弦变换(IMDCT)、逆余弦调制滤波器组、逆小波变换等。
对应于本发明专利中编码部分时频映射的具体实施方法,以逆离散傅立叶变换(IDFT)和逆修正离散余弦变换(IMDCT)为例说明频时映射的过程。
对于逆离散傅立叶变换(IDFT),频率-时间映射过程包括三个步骤:IDFT变换、时域加窗处理和时域叠加运算。
首先对解矢量量化后得到的DFT频谱进行IDFT变换,得到变换后的时域信号xi,n。IDFT变换的表达式为: x i , n = 1 N + M &Sigma; k = 0 N + M - 1 X ( k ) e j ( 2 &pi; / ( M + N ) ) kn , 其中,M表示当前帧样本数,N表示下一帧叠加样本数,M和N的长度由当前帧的信号类型确定,同编码器时频映射器中的取值保持一致;n表示样本序号,且0≤n<N+M,i表示帧序号;k表示谱序号。
其次,对IDFT变换后的时域信号进行加窗处理,加窗后的数据,后N点保留,为下一帧叠加数据。加窗函数与编码端相对应。例如余弦窗:
w ( n ) = cos ( n&pi; 2 N 0 ) , 0 &le; n < N 0 1 , N 0 &le; n &le; M cos ( ( n - M ) &pi; 2 N ) , M < n &le; M + N
其中,N0为当前帧叠加的长度。由上一帧的信号类型确定。最后对于上面加窗的时域信号的前M点进行叠加计算。计算方法为将前一帧保存最后N0点时域数据与当前帧前N0点的时域数据叠加,其余M-N0点数据不变,所得数据即为频时变换后当前帧的时域信号。
对于修正离散预先变换(MDCT),频率-时间映射过程包括三个步骤:IMDCT变换、时域加窗处理和时域叠加运算。
首先对预测前的谱或逆量化谱进行IMDCT变换,得到变换后的时域信号xi,n。IMDCT变换的表达式为: x i , n = 2 N &Sigma; k = 0 N 2 - 1 spec [ i ] [ k ] cos ( 2 &pi; N ( n + n 0 ) ( k + 1 2 ) ) , 其中,n表示样本序号,且0≤n<N,N表示时域样本数,取值为2048,n0=(N/2+1)/2;i表示帧序号;k表示谱序号。
其次,对IMDCT变换获得的时域信号在时域进行加窗处理。为满足完全重构条件,窗函数w(n)必须满足以下两个条件:w(2M-1-n)=w(n)且w2(n)+w2(n+M)=1
典型的窗函数有Sine窗、KBD窗等。另外可以利用双正交变换,采用特定的分析滤波器和合成滤波器修改上述对窗函数的限制。
最后,对上述加窗时域信号进行叠加处理,得到时域音频信号。具体是:将加窗操作后获得的信号的前N/2个样本和前一帧信号的后N/2个样本重叠相加,获得N/2个输出的时域音频样本,即timeSami,n=preSami,n+preSami-1,n+N/2,其中i表示帧序号,n表示样本序号,有 0 &le; n &le; N 2 .
时变预测综合是编码部分中时变预测分析的逆过程,其作用是将时域激励信号通过线性预测综合得到合成后的时域信号。
下面为本发明实现时变预测综合的一个具体实施例,包括以下步骤:
步骤61、由码流中读取出线谱频率的矢量量化索引,将矢量量化索引解码为量化后的线谱频率,并转换为线谱对;
步骤62、由量化后的线谱对通过计算f1(z)和f2(z)求出量化后的预测系数i,并构成量化后的线性预测综合滤波器 1 A ^ ( z ) = 1 1 - &Sigma; i = 1 p a ^ i z - i , 其中,p为预测阶数,同编码端相同;
步骤63、将时域残差序列e(n)通过线性预测合成滤波器得到合成的时域信号: s ( n ) = e ( n ) + &Sigma; i = 1 p a ^ i s ( n - i ) .
最后将线性预测综合的时域信号的采样率重采样为适合声音回放的采样频率。应注意,如果线性预测综合的时域信号的采样频率适于声音回放,则可以不包括重采样操作。
对应于本发明的编码装置部分的具体实施例,解码装置端重采样器的输入信号的采样率为Fmax,目标采样率为Fs,采样率比为Fs/Fmax=M/L。重采样的实施方法与编码装置端相同。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (19)

1、一种声音编码装置,包括:
时变预测分析模块,用于对数字声音信号进行时变预测分析,以获取时域激励信号;
时频映射模块,用于将时域激励信号映射到变换域,以获取变换域上的激励信号;
编码模块,用于对变换域上的激励信号进行编码,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;以及
比特流复用模块,用于对低频波形编码数据、中频波形编码数据和高频参数编码数据进行复用,以输出声音编码码流。
2、根据权利要求1所述的装置,其特征在于,该装置进一步包括重采样模块,该模块用于对数字声音信号进行采样率变换,并将经采样率变换的数字声音信号输入到时变预测分析模块。
3、根据权利要求1所述的装置,其特征在于,该装置进一步包括信号类型判断模块,该模块用于对数字声音信号进行信号类型判断,以获知数字声音信号是缓变信号还是快变信号,
所述时变预测分析模块进一步用于对被判断为快变信号的数字声音信号进行子帧划分处理。
4、根据权利要求1所述的装置,其特征在于,所述编码模块包括:
低频波形编码模块,用于对变换域上的激励信号中的低频谱进行量化编码以获取低频波形编码数据;
中频波形编码模块,用于对变换域上的激励信号中的中频谱进行量化编码以获取中频波形编码数据;
高频参数编码模块,用于根据变换域上的激励信号中的低频谱、中频谱和高频谱,计算用于从低频谱和中频谱中恢复高频谱的高频参数,并对高频参数进行量化编码以获取高频参数编码数据。
5、根据权利要求4所述的装置,其特征在于,所述低频波形编码模块进一步用于对所述低频谱进行冗余去除处理。
6、一种声音编码方法,包括:
A、对数字声音信号进行时变预测分析,以获取时域激励信号;
B、将时域激励信号映射到变换域,以获取变换域上的激励信号;
C、对变换域上的激励信号进行编码,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;以及
D、对低频波形编码数据、中频波形编码数据和高频参数编码数据进行复用,以输出声音编码码流。
7、根据权利要求6所述的方法,其特征在于,该方法进一步包括步骤:对数字声音信号进行采样率变换,
步骤A中所述数字声音信号是经采样率变换的数字声音信号。
8、根据权利要求6所述的方法,其特征在于,该方法进一步包括步骤:对数字声音信号进行信号类型判断,以获知数字声音信号是缓变信号还是快变信号,并对被判断为快变信号的数字声音信号进行子帧划分处理,
步骤A中所述数字声音信号是经子帧划分处理的数字声音信号。
9、根据权利要求6所述的方法,其特征在于,所述步骤C包括:对变换域上的激励信号中的低频谱进行量化编码以获取低频波形编码数据;对变换域上的激励信号中的中频谱进行量化编码以获取中频波形编码数据;根据变换域上的激励信号的低频谱、中频谱和高频谱,计算用于从低频谱和中频谱中恢复高频谱的高频参数,并对高频参数进行量化编码以获取高频参数编码数据。
10、根据权利要求9所述的方法,其特征在于,该方法进一步包括步骤:在对所述低频谱进行量化编码之前,首先对所述低频谱进行冗余去除处理。
11、根据权利要求9或10所述的方法,其特征在于,所述高频参数包括增益参数和调性参数,其中调性参数包括调整类型和调整参数,
计算调性参数的方法包括:
C1、将低频谱和高频谱中的频段映射到高频谱中的频段,获取映射的高频谱,计算高频谱的调性Tref和映射的高频谱的调性Test
C2、比较Tref和Test,如果Tref大于Test,则执行步骤C3,如果Tref小于Test,贝执行步骤C4;
C3、判断调整类型为加弦处理,并计算作为调整参数的加弦能量ΔET &Delta; E T = E est &CenterDot; ( T ref - T est ) 1 + T est , 其中Eest为映射的高频谱的能量;
C4、判断调整类型为加噪处理,并计算作为调整参数的加噪能量ΔEN &Delta;E N = E est &CenterDot; ( T est - T ref ) T ref &CenterDot; ( 1 + T est ) .
12、一种声音解码装置,包括:
比特流解复用模块,用于对声音编码码流进行解复用,以获取低频波形编码数据、中频波形编码数据和高频参教编码数据;
解码模块,用于对低频波形编码数据、中频波形编码数据和高频参数编码数据进行解码,以获取变换域上的激励信号;
频时映射模块,用于将变换域上的激励信号映射到时域,以获取时域激励信号;以及
时变预测综合模块,用于对时域激励信号进行时变预测综合,以输出数字声音信号。
13、根据权利要求12所述的装置,其特征在于,该装置进一步包括重采样模块,该模块用于对从时变预测综合模块输出的数字声音信号进行采样率变换,以输出经采样率变换的数字声音信号。
14、根据权利要求12所述的装置,其特征在于,所述解码模块包括:
低频波形解码模块,用于对所述低频波形编码数据进行逆量化以获取变换域上的激励信号中的低频谱;
中频波形解码模块,用于对所述中频波形编码数据进行逆量化以获取变换域上的激励信号中的中频谱;
高频参数解码模块,用于对所述高频参数编码数据进行逆量化以获取高频参数,并根据高频参数从低频谱和中频谱中恢复出高频谱。
15、根据权利要求14所述的装置,其特征在于,所述低频波形解码模块进一步用于对所述低频谱进行冗余去除逆处理。
16、一种声音解码方法,包括:
A、对声音编码码流进行解复用,以获取低频波形编码数据、中频波形编码数据和高频参数编码数据;
B、对低频波形编码数据、中频波形编码数据和高频参数编码数据进行解码,以获取变换域上的激励信号;
C、将变换域上的激励信号映射到时域,以获取时域激励信号;以及
D、对时域激励信号进行时变预测综合,以输出数字声音信号。
17、根据权利要求16所述的方法,其特征在于,该方法进一步包括步骤:对所述输出的数字声音信号进行采样率变换,以输出经采样率变换的数字声音信号。
18、根据权利要求16所述的方法,其特征在于,所述步骤B包括:对所述低频波形编码数据进行逆量化以获取变换域上的激励信号中的低频谱;对所述中频波形编码数据进行逆量化以获取变换域上的激励信号中的中频谱;对所述高频参数编码数据进行逆量化以获取高频参数,并根据高频参数从低频谱和中频谱中恢复出高频谱。
19、根据权利要求18所述的方法,其特征在于,该方法进一步包括步骤:在对所述低频数据进行逆量化以获取变换域上的激励信号中的低频谱之后,对所述低频谱进行冗余去除逆处理。
CN200610087481XA 2006-06-08 2006-06-08 声音编码装置及方法以及声音解码装置及方法 Active CN101086845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610087481XA CN101086845B (zh) 2006-06-08 2006-06-08 声音编码装置及方法以及声音解码装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610087481XA CN101086845B (zh) 2006-06-08 2006-06-08 声音编码装置及方法以及声音解码装置及方法

Publications (2)

Publication Number Publication Date
CN101086845A true CN101086845A (zh) 2007-12-12
CN101086845B CN101086845B (zh) 2011-06-01

Family

ID=38937763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610087481XA Active CN101086845B (zh) 2006-06-08 2006-06-08 声音编码装置及方法以及声音解码装置及方法

Country Status (1)

Country Link
CN (1) CN101086845B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101925953B (zh) * 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
CN102625547A (zh) * 2012-04-23 2012-08-01 英飞特电子(杭州)有限公司 调光信号接口电路
CN101965612B (zh) * 2008-03-03 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
CN102105930B (zh) * 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
CN102099856B (zh) * 2008-07-17 2012-11-07 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方法及设备
CN103650037A (zh) * 2011-07-01 2014-03-19 杜比实验室特许公司 采样率可分级的无损音频编码
CN104078048A (zh) * 2013-03-29 2014-10-01 北京天籁传音数字技术有限公司 一种声音解码装置及其方法
CN104103276A (zh) * 2013-04-12 2014-10-15 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN104509130A (zh) * 2012-05-29 2015-04-08 诺基亚公司 立体声音频信号编码器
CN105164749A (zh) * 2013-04-30 2015-12-16 杜比实验室特许公司 多声道音频的混合编码
CN105684078A (zh) * 2013-09-30 2016-06-15 奥兰治 对音频信号进行重采样以用于低延迟编码/解码
CN106663439A (zh) * 2014-07-01 2017-05-10 弗劳恩霍夫应用研究促进协会 用于解码音频信号的解码器及方法,用于编码音频信号的编码器及方法
CN106663449A (zh) * 2014-08-06 2017-05-10 索尼公司 编码装置和方法、解码装置和方法以及程序
CN106910509A (zh) * 2011-11-03 2017-06-30 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
CN108701467A (zh) * 2015-12-14 2018-10-23 弗劳恩霍夫应用研究促进协会 处理经编码音频信号的装置及方法
CN110223703A (zh) * 2013-04-05 2019-09-10 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
CN110797038A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN111164681A (zh) * 2017-10-05 2020-05-15 高通股份有限公司 音频信号的解码
CN111179954A (zh) * 2013-03-04 2020-05-19 沃伊斯亚吉公司 用于降低时域解码器中的量化噪声的装置和方法
CN113259016A (zh) * 2021-04-23 2021-08-13 西北工业大学 一种基于海豚哨声参数模型的水声隐蔽通信方法
CN115050377A (zh) * 2021-02-26 2022-09-13 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2094780A1 (en) * 1993-04-23 1994-10-24 Claude Laflamme Transform coded excitation for speech and audio coding
CA2121667A1 (en) * 1994-04-19 1995-10-20 Jean-Pierre Adoul Differential-transform-coded excitation for speech and audio coding
WO1995032499A1 (fr) * 1994-05-25 1995-11-30 Sony Corporation Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101925953B (zh) * 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
CN101965612B (zh) * 2008-03-03 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
CN102105930B (zh) * 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
CN102099856B (zh) * 2008-07-17 2012-11-07 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方法及设备
CN103650037A (zh) * 2011-07-01 2014-03-19 杜比实验室特许公司 采样率可分级的无损音频编码
CN103650037B (zh) * 2011-07-01 2015-12-09 杜比实验室特许公司 采样率可分级的无损音频编码
CN106910509A (zh) * 2011-11-03 2017-06-30 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
CN107068158B (zh) * 2011-11-03 2020-08-21 沃伊斯亚吉公司 用于改善低速率码激励线性预测解码器的非语音内容的方法及其设备
CN107068158A (zh) * 2011-11-03 2017-08-18 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
CN102625547A (zh) * 2012-04-23 2012-08-01 英飞特电子(杭州)有限公司 调光信号接口电路
CN102625547B (zh) * 2012-04-23 2014-12-10 英飞特电子(杭州)股份有限公司 调光信号接口电路
CN104509130A (zh) * 2012-05-29 2015-04-08 诺基亚公司 立体声音频信号编码器
CN104509130B (zh) * 2012-05-29 2017-03-29 诺基亚技术有限公司 立体声音频信号编码器
US9799339B2 (en) 2012-05-29 2017-10-24 Nokia Technologies Oy Stereo audio signal encoder
CN111179954B (zh) * 2013-03-04 2024-03-12 声代Evs有限公司 用于降低时域解码器中的量化噪声的装置和方法
CN111179954A (zh) * 2013-03-04 2020-05-19 沃伊斯亚吉公司 用于降低时域解码器中的量化噪声的装置和方法
CN104078048B (zh) * 2013-03-29 2017-05-03 北京天籁传音数字技术有限公司 一种声音解码装置及其方法
CN104078048A (zh) * 2013-03-29 2014-10-01 北京天籁传音数字技术有限公司 一种声音解码装置及其方法
CN110223703A (zh) * 2013-04-05 2019-09-10 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
CN110223703B (zh) * 2013-04-05 2023-06-02 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN104103276A (zh) * 2013-04-12 2014-10-15 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN105164749B (zh) * 2013-04-30 2019-02-12 杜比实验室特许公司 多声道音频的混合编码
CN105164749A (zh) * 2013-04-30 2015-12-16 杜比实验室特许公司 多声道音频的混合编码
CN105684078A (zh) * 2013-09-30 2016-06-15 奥兰治 对音频信号进行重采样以用于低延迟编码/解码
CN105684078B (zh) * 2013-09-30 2020-03-27 皇家飞利浦有限公司 音频信号重采样方法/装置以及音频信号编/解码器
US10930292B2 (en) 2014-07-01 2021-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio processor and method for processing an audio signal using horizontal phase correction
CN106663439A (zh) * 2014-07-01 2017-05-10 弗劳恩霍夫应用研究促进协会 用于解码音频信号的解码器及方法,用于编码音频信号的编码器及方法
CN106663449A (zh) * 2014-08-06 2017-05-10 索尼公司 编码装置和方法、解码装置和方法以及程序
US11862184B2 (en) 2015-12-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal by upsampling a core audio signal to upsampled spectra with higher frequencies and spectral width
CN108701467A (zh) * 2015-12-14 2018-10-23 弗劳恩霍夫应用研究促进协会 处理经编码音频信号的装置及方法
CN108701467B (zh) * 2015-12-14 2023-12-08 弗劳恩霍夫应用研究促进协会 处理经编码音频信号的装置及方法
CN111164681A (zh) * 2017-10-05 2020-05-15 高通股份有限公司 音频信号的解码
CN111164681B (zh) * 2017-10-05 2024-04-09 高通股份有限公司 音频信号的解码
CN110797038A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
US11869524B2 (en) 2019-10-30 2024-01-09 Tencent Technology (Shenzhen) Company Limited Audio processing method and apparatus, computer device, and storage medium
CN115050377A (zh) * 2021-02-26 2022-09-13 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质
CN113259016A (zh) * 2021-04-23 2021-08-13 西北工业大学 一种基于海豚哨声参数模型的水声隐蔽通信方法

Also Published As

Publication number Publication date
CN101086845B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
CN101086845B (zh) 声音编码装置及方法以及声音解码装置及方法
CN101067931B (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与系统
KR100958144B1 (ko) 오디오 압축
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
CN107077858B (zh) 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器
CN106796800B (zh) 音频编码器、音频解码器、音频编码方法和音频解码方法
KR101425155B1 (ko) 복소 예측을 이용한 다중 채널 오디오 신호를 처리하기 위한 오디오 인코더, 오디오 디코더, 및 관련 방법
JP5627843B2 (ja) スペクトル領域において適応切り替え式時間分解を使用して音声信号を符号化及び復号化する方法及び装置
KR101589942B1 (ko) 외적 향상 고조파 전치
JP5551692B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US20070225971A1 (en) Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US20110173009A1 (en) Apparatus and Method for Encoding/Decoding an Audio Signal Using an Aliasing Switch Scheme
CN103366749B (zh) 一种声音编解码装置及其方法
CN110310659A (zh) 用重构频带能量信息值解码或编码音频信号的设备及方法
TW200532646A (en) Classification of audio signals
CN103366750B (zh) 一种声音编解码装置及其方法
CN102436819A (zh) 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN104103276A (zh) 一种声音编解码装置及其方法
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
JP5730860B2 (ja) 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
CN103366751B (zh) 一种声音编解码装置及其方法
KR20140082676A (ko) 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
US9373337B2 (en) Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant