CN104751850B - 一种用于音频信号的矢量量化编解码方法及装置 - Google Patents
一种用于音频信号的矢量量化编解码方法及装置 Download PDFInfo
- Publication number
- CN104751850B CN104751850B CN201310728959.2A CN201310728959A CN104751850B CN 104751850 B CN104751850 B CN 104751850B CN 201310728959 A CN201310728959 A CN 201310728959A CN 104751850 B CN104751850 B CN 104751850B
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- quantized
- vectors
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 254
- 238000013139 quantization Methods 0.000 title claims abstract description 143
- 230000005236 sound signal Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims abstract description 121
- 230000008520 organization Effects 0.000 claims abstract description 39
- 230000008447 perception Effects 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 27
- 238000000638 solvent extraction Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000005070 sampling Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000005192 partition Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 238000012952 Resampling Methods 0.000 description 8
- 230000001131 transforming effect Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于音频信号的矢量量化编解码方法及装置,所述编码方法包括:对音频信号的变换域谱进行音频感知分析,根据分析结果对音频信号的变换域谱进行幅度调整,得到待量化的加权谱;对所述待量化的加权谱进行组织,得到多个待量化的矢量;以及对所述多个待量化的矢量进行量化编码,得到矢量量化编码数据。本发明提出了一种用于音频信号的矢量量化编解码方案,该方案参考音频感知特性对变换域信号进行幅度调整,可消除感知冗余,提高编码效率;通过信号特性分析,对音频的时频平面进行合理的划分,并将其组织成待量化矢量;可选择使得编码增益最大的时频平面划分和矢量组织方式,有利于对信号进行高效的量化编码。
Description
技术领域
本发明涉及一种用于音频信号的矢量量化编解码方法及装置。
背景技术
在目前通用的各音频编码标准中,对变换域的音频信号多采用标量量化的方案进行量化编码,比如在MPEG-1Layer3(MP3)、MPEG2/4AAC、AVS等标准中,对MDCT数据采用标量量化的方式进行量化,然后采用Huffman编码来进行熵编码;而在AC-3编码方案中,则将MDCT数据分解为指数和尾数,对尾数部分按照比特分配模型进行比特数可变的量化编码。由于标量量化方案无法有效地利用变换域信号相邻数据间存在的冗余,因此很难获得理想的编码效果。矢量量化是解决此问题的一个合理的方式,变换域加权交叉矢量量化(TWINVQ)方案是一种应用了矢量量化技术的音频编码方法,该方法在对信号进行MDCT变换后,通过交叉选择信号谱参数构造待量化的矢量,然后采用高效率的矢量量化获得了较优的音频编码质量,但TWINVQ中没有有效利用音频感知特性来控制量化噪声,而且TWINVQ中没有充分利用信号特性来指导矢量的组织,因此需要进一步改进。
发明内容
本发明的目的是提供一种能够克服上述缺陷的用于音频信号的矢量量化编解码方法及装置。
在第一方面,本发明提供了一种用于音频信号的矢量量化编码方法,包括:对音频信号的变换域谱进行音频感知分析,根据分析结果对音频信号的变换域谱进行幅度调整(幅度调整后的变换域谱称作加权谱),得到待量化的加权谱;对所述待量化的加权谱进行组织,得到多个待量化的矢量;以及对所述多个待量化的矢量进行量化编码,得到矢量量化编码数据。
优选地,所述对所述待量化的加权谱进行组织的步骤包括:构造所述待量化的加权谱的时频平面;根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量。
优选地,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤包括:基于频率抽取进行划分和组织,其具体为根据所述类型及音调性判断出所述音频信号是具有谐波结构的平稳信号,然后按照时间方向对所述时频平面进行划分,以谐波为单位对所述加权谱进行频率抽取,将所述加权谱组织成多个待量化的矢量;或者按时间方向进行划分和组织,其具体为根据所述类型和音调性判断出所述音频信号是平稳信号,然后按照时间方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者按频率方向进行划分和组织,其具体为根据所述类型和音调性判断出所述音频信号在时域具有快变特性,然后按照频率方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者按时频区域进行划分和组织,其具体为根据所述音调性和类型判断出所述音频信号为复杂信号,然后将所述时频平面划分为多个时频区域,根据划分结果将所述加权谱组织成多个待量化的矢量。
优选地,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤还包括:按照使得编码增益最大的规则从所述基于频率抽取进行划分和组织、所述按时间方向进行划分和组织、所述按频率方向进行划分和组织、所述按时频区域进行划分和组织中选择编码增益最大的一种或几种方式的组合进行所述划分和组织。
优选地,所述对所述多个待量化的矢量进行量化编码的步骤包括:对所述多个待量化的矢量进行矢量量化编码;或者对所述多个待量化的矢量进行标量量化再进行熵编码。
在第二方面,本发明提供了一种用于音频信号的矢量量化解码方法,包括:对矢量量化编码数据进行解码,得到反量化的矢量;根据矢量划分信息对所述反量化的矢量进行矢量重构,得到反量化的加权谱;对所述反量化的加权谱进行幅度调整,得到解码数据。
在第三方面,本发明提供了一种用于音频的矢量量化编码装置,包括:幅度调整模块,用于对音频信号的变换域谱进行音频感知分析,根据分析结果对音频信号的变换域谱进行幅度调整,得到待量化的加权谱;矢量组织模块,用于对所述待量化的加权谱进行组织,得到多个待量化的矢量;以及量化编码模块,用于对所述多个待量化的矢量进行量化编码,得到矢量量化编码数据。
优选地,所述矢量组织模块被配置用于:构造所述待量化的加权谱的时频平面;根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量。
优选地,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤包括:基于频率抽取进行划分和组织,其具体为根据所述类型及音调性判断出所述音频信号是具有谐波结构的平稳信号,然后按照时间方向对所述时频平面进行划分,以谐波为单位对所述加权谱进行频率抽取,将所述加权谱组织成多个待量化的矢量;或者按时间方向进行划分和组织,其具体为根据所述类型和音调性判断出所述音频信号是平稳信号,然后按照时间方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者按频率方向进行划分和组织,其具体为根据所述类型和音调性判断出所述音频信号在时域具有快变特性,然后按照频率方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者按时频区域进行划分和组织,其具体为根据所述音调性和类型判断出所述音频信号为复杂信号,然后将所述时频平面划分为多个时频区域,根据划分结果将所述加权谱组织成多个待量化的矢量。
优选地,优选地,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤还包括:按照使得编码增益最大的规则从所述基于频率抽取进行划分和组织、所述按时间方向进行划分和组织、所述按频率方向进行划分和组织、所述按时频区域进行划分和组织中选择编码增益最大的一种或几种方式的组合进行所述划分和组织。
优选地,所述量化编码模块被配置用于:对所述多个待量化的矢量进行矢量量化编码;或者对所述多个待量化的矢量进行标量量化再进行熵编码。
在第四方面,本发明提供了一种用于音频信号的矢量量化解码装置,包括:量化解码模块,用于对矢量量化编码数据进行解码,得到反量化的矢量;矢量重构模块,用于根据矢量划分信息对所述反量化的矢量进行矢量重构,得到反量化的加权谱;频谱重构模块,对所述反量化的加权谱进行幅度调整,得到解码数据。
本发明提出了一种用于音频信号的矢量量化编解码方案,该方案参考音频感知特性对变换域信号进行幅度调整,可消除感知冗余,提高编码效率;通过信号特性分析,对音频的时频平面进行合理的划分,并将其组织成待量化矢量;可选择使得编码增益最大的时频平面划分和矢量组织方式,有利于对信号进行高效的量化编码。
附图说明
图1为根据本发明实施例的矢量量化编码装置的框图。
图2为根据本发明实施例的4种矢量划分的示意图。
图3为根据本发明实施例的矢量量化解码装置的框图。
图4为根据本发明实施例的单声道音频矢量量化编码装置的结构框图。
图5为根据本发明实施例的单声道音频矢量量化解码装置的结构框图。
图6为根据本发明实施例的单声道频带扩展音频矢量量化编码装置的结构框图。
图7为根据本发明实施例的单声道频带扩展音频矢量量化解码装置的结构框图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图4为根据本发明实施例的单声道音频矢量量化编码装置的结构框图。
如图4所示,根据本发明实施例的单声道音频矢量量化编码装置包括:重采样模块401,信号类型判断模块402、MDCT变换模块403、矢量量化编码模块404以及比特流复用模块405。应当指出,虽然本实施例以MDCT为例进行说明,但该装置和方法也适用于其他类型数据的编码,比如MDFT域、FFT域、QMF域等。
重采样模块401用于将输入的数字声音信号从原始采样率变换到目标采样率,并将重采样后的信号以帧为单位输出到信号类型判断模块、MDCT变换模块。应注意,如果所输入的数字声音信号本身就具有目标采样率,则根据本发明原理的编码装置可以不包括该模块。
信号类型判断模块402用于对重采样后的声音信号逐帧进行信号类型分析,并输出信号类型分析的结果。由于信号本身的复杂性,信号类型可以采用多种表示形式。例如,若该帧信号是缓变信号,则直接输出表示该帧信号是缓变信号的标识;若是快变信号,则需继续计算快变点发生的位置,并输出表示该帧信号是快变信号的标识和快变点发生的位置。
MDCT变换模块403用于根据从信号类型判断模块402输出的信号类型分析结果,采用不同长度阶数的MDCT变换,将重采样后的声音信号映射到MDCT变换域,并将声音信号的MDCT域系数输出到矢量量化编码模块404。具体地,若该帧信号是缓变信号,则以帧为单位做MDCT变换,选择较长阶数的MDCT变换;若是快变信号,则将该帧信号划分为子帧,以子帧为单位做MDCT变换,选择较短阶数的MDCT变换。
矢量量化编码模块404用于从MDCT变换模块403接收声音信号的MDCT谱系数,对其进行冗余消除处理,并将冗余处理后的频谱进行矢量量化编码得到MDCT谱编码数据,输出到比特流复用模块。
下面转到图1。
图1为根据本发明实施例的矢量量化编码装置框图。
根据本发明实施例的矢量量化编码装置包括幅度调整模块101、矢量组织模块102和量化编码模块103。
幅度调整模块101根据心理声学模型对信号进行音频感知分析,并据此对MDCT谱进行幅度调整,得到幅度调整后的待量化的加权谱。利用心理声学模型对MDCT谱进行调整,可以有效控制量化误差的分布,提升重建音频的感知质量。
例如,幅度调整模块101可以根据频谱包络曲线对MDCT谱进行幅度调整,幅度调整模块101可以用多种方法得到包络曲线,比如以线谱对LSP参数表示的频谱包络曲线,用分段直线表示的频谱包络曲线,用样条曲线拟合的频谱包络曲线,用泰勒展式表示的频谱包络曲线。
下面以分段直线表示频谱包络曲线为例进行说明。比如以MDCT谱长度为512的块进行描述,将频率轴划分为数组{0,7,16,23,33,39,46,55,65,79,93,110,130,156,186,232,278,360,512},首先计算两端0和512点幅值来表示整个频谱的情况,从46点将此线段分割为两个线段,分别计算3个点的幅值,并以两个线段近似表示频谱包络;以此类推,分别以下列顺序分割线段46,186,16,33,65,93,130,278,7,23,39,55,79,110,156,232,360,最后得到18段折线表示整个频谱包络。为进一步压缩这些表示数据,可仅把两端的值以绝对值表示,中间值通过预测以差分方式表示。通过对这18段折线进行线性内插得到整个频谱的包络曲线,用于MDCT谱的幅度调整。
矢量组织模块102对经过幅度调整后的待量化的加权谱进行排列和划分,将其组织为若干个待量化矢量。
首先构造MDCT谱的时频平面,可以是帧内各块的MDCT谱或者是帧间的MDCT谱。根据信号类型判断的结果以及信号的音调性等信息对时频平面进行划分,并根据此划分将MDCT谱组织成多个待量化矢量。时频平面划分和待量化矢量组织可以分为下面几种方式:按时间方向的方式进行划分和组织,具体为对音调性较强的平稳信号可按时间方向进行划分和组织矢量;按频率方向的方式进行划分和组织,具体为对时域具有快变特性的信号可按频率方向进行划分和组织矢量;基于频率抽取的方式进行划分和组织,具体为对于具有谐波结构的平稳信号,则可通过频率抽取的方式进行矢量组织;按时频区域的方式进行划分和组织,具体为对比较复杂的音频信号,则可按时频区域组织矢量。优选地,可以按照使得编码增益最大的原则来从上述几种划分和矢量组织方法中选择一种或几种方式的组合来进行划分和矢量组织。
假设信号的频率系数长度为N,在时频平面上时间方向的分辨率为L,频率方向的分辨率为K,且K*L=N。当按照时间方向进行矢量划分时,保持频率方向的分辨率K不变,对时间进行划分;当按照频率方向进行矢量划分时,保持时间方向的分辨率L不变,对频率进行划分;当按照时频区域进行矢量划分时,其时间和频率方向划分的个数可任意,划分出的各个时频区域的大小和形状可以是相同的、规则的,也可以是不同的、不规则的;当按照频率抽取方式进行矢量划分时,以谐波为单位对MDCT谱进行抽取。
下面转到图2。
图2为根据本发明实施例的4种矢量划分的示意图。
图2图示了按照时间、频率、时频区域和频率抽取方式划分矢量的实施例。假设时频平面被划分为K*L=64*16形式,K=64,为频率方向的分辨率,L=16为时间方向的分辨率。假设矢量的维数为D=8,可以对该时频平面按照不同的方式组合和提取矢量,如图2-a、图2-b、图2-c和图2-d所示。
在图2-a中,矢量按照频率方向被划分为8*16个8维矢量。在图2-b中,矢量按照时间方向划分的结果,共有为64*2个8维矢量。在图2-c中,矢量按照时频区域组织矢量的结果,共有16*8个8维矢量。在图2-d中,假设一次谐波频率为8,对频率方向按照8为间隔进行频率抽取,得到8*16组数据,每组8条谱线,每组作为一个矢量,共有8*16个8维矢量;假设一次谐波频率为4,对频率方向按照4为间隔进行频率抽取,得到4*16组数据,每组16条谱线,每组再分为2个8维矢量,共有8*16个8维矢量;也可以按照二次谐波或N次谐波为间隔进行频率抽取,比如一次谐波频率为4时,对频率方向按照4*2为间隔进行频率抽取,得到8*16组数据,每组8条谱线,每组作为一个矢量,共有8*16个8维矢量。需要指出的是,按照上述方法或上述几种方法的组合进行划分和矢量组织时,矢量的维度是可以灵活变化的,对时频平面的不同区域可以组织成不同纬度的矢量,以提高编码效率。
为了提高编码效率,可以按照使得编码增益最大的原则来从上述几种划分和矢量组织方法中选择一种或几种方式的组合来进行划分和矢量组织。例如,当信号具有谐波结构时,假设一次谐波频率为8,可选择按频率方向划分、频率抽取两种方式的组合来进行矢量组织,将每个谐波位置的数据抽取出来,得到1*16组数据,每组8条谱线,每组分为2个4维矢量,共2*16个4维矢量;对其余位置的数据按照频率方向进行划分和组织,得到7*16组数据,每组8条谱线,每组作为1个8维矢量,共7*16个8维矢量。
下面回到图1。
量化编码模块103对得到的每一个待量化矢量进行量化编码,得到矢量量化编码数据,并输出到比特流复用模块。可以采样矢量量化方式对待量化矢量进行编码,也可以采用标量量化加熵编码的方式对对待量化矢量进行编码。比如,采用矢量量化方法,量化所用码书可以通过传统的LBG算法等来获得(Linde Y,Buzo A,and Gray R M."An algorithmfor vector quantizerdesign"[J].IEEE Trans.on Communication,1980,28(1):84-95.);也可以是构造出的某种结构化码书,比如格型矢量量化(latticevectorquantization)技术(F.Chen,Z.Gao,and J.Villasenor,"Latticevectorquantization of generalized Gaussian sources",IEEE Trans.Inform.Theory,vol.43,no.1,pp.92-1031997.A.D.Subramaniam and B.D.Rao,"PDF optimizedparametric vector quantization of speech linespectral frequencies",IEEETrans.Speech Audio Process.,vol.11,no.2,pp.130-1422003)。首先将全部待量化矢量划分为不同的分区,每个分区都有一个分类号,用来指明使用哪个矢量量化码书来进行量化,然后使用该量化码书对分区中的每一个矢量进行矢量量化,得到该矢量的码字序号,并对序号进行编码。分类号也需要进行量化编码,可以采用标量量化或矢量量化。频谱矢量量化编码数据包含码字序号、分类号的编码数据。采用标量量化加熵编码的方法时,可先对待量化数据进行标量量化,然后采用霍夫曼编码进行熵编码(ISO/IEC14496-3(Audio),Advanced Audio Coding(AAC))。
下面回到图4。
在进行矢量量化编码后,得到MDCT谱编码数据被输出到比特流复用模块405。
比特流复用模块405用于将从信号类型判断模块、矢量量化编码模块输出的编码数据以及边信息进行复用,形成声音编码码流。
图5为根据本发明实施例的单声道音频矢量量化解码装置的结构框图。
如图5所示,根据本发明的优选实施例的单声道声音解码装置包括:比特流解复用模块501、矢量量化解码模块502、IMDCT变换模块503和重采样模块504。
下面,概括介绍图5所示各模块之间的连接关系和及其各自的功能。
比特流解复用模块501,用于对接收的声音编码码流进行解复用,得到相应数据帧的编码数据和边信息,向矢量量化解码模块502输出相应的编码数据和边信息,向IMDCT变换模块503输出相应的边信息。
矢量量化解码模块502用于对该帧矢量量化编码数据解码,并根据冗余处理边信息对解码数据进行冗余逆处理,获取MDCT域的频谱解码数据并输出到IMDCT变换模块。
下面转到图3,图3为根据本发明实施例的矢量量化解码装置的框图。
如图3所示,矢量量化解码模块包括量化解码模块301、矢量重构模块302、频谱重构模块303。
量化解码模块301从比特流解复用模块接收信号类型分析信息、频谱矢量量化编码数据。根据解码得分类号确定解码所用的矢量量化码书,根据该码书和解码得到的码字序号得到反量化的矢量。矢量重构模块302依据解码的矢量划分信息,对反量化的矢量进行矢量重构得到反量化的加权谱。频谱重构模块303依据解码后的包络曲线对反量化的加权谱进行幅度调整,得到重构的频谱。
下面回到图5。
IMDCT变换模块503用于将MDCT域的频谱进行IMDCT变换。IMDCT变换根据信号类型边信息采用不同长度阶数的IMDCT变换,并进行时域混叠消除处理,获取该帧的重建时域信号。
重采样模块504用于将IMDCT模块503输出的该帧时域信号的采样频率变换到适合声音回放的采样频率,应注意,如果IMDCT模块503输出的信号的采样频率适于声音回放,则本发明的声音解码装置中可以不包括该模块。
图6为根据本发明实施例的单声道频带扩展音频矢量量化编码装置的结构框图。
如图6所示,本发明优选实施例的单声道频带扩展音频矢量量化编码装置包括:重采样模块601,信号类型判断模块602、MDCT变换模块603、低频矢量量化编码模块604、MDCT至MDFT转换模块605、高频参数编码模块606,以及比特流复用模块607。应当指出,虽然本实施例以MDCT为例进行说明,但该装置和方法也适用于其他类型数据的编码,比如MDFT域、FFT域、QMF域等。
重采样模块601用于将输入的数字声音信号从原始采样率变换到目标采样率,并将重采样后的信号以帧为单位输出到信号类型判断模块、MDCT变换模块。应注意,如果所输入的数字声音信号本身就具有目标采样率,则根据本发明原理的编码装置可以不包括该模块。
信号类型判断模块602用于对重采样后的声音信号逐帧进行信号类型分析,并输出信号类型分析的结果。由于信号本身的复杂性,信号类型可以采用多种表示形式。例如,若该帧信号是缓变信号,则直接输出表示该帧信号是缓变信号的标识;若是快变信号,则需继续计算快变点发生的位置,并输出表示该帧信号是快变信号的标识和快变点发生的位置。
MDCT变换模块603用于根据从信号类型判断模块602输出的信号类型分析结果,采用不同长度阶数的MDCT变换,将重采样后的声音信号映射到MDCT变换域,并将声音信号的MDCT域系数输出到低频矢量量化编码模块604,MDCT至MDFT转换模块605。具体地,若该帧信号是缓变信号,则以帧为单位做MDCT变换,选择较长阶数的MDCT变换;若是快变信号,则将该帧信号划分为子帧,以子帧为单位做MDCT变换,选择较短阶数的MDCT变换。
低频矢量量化编码模块604用于从MDCT变换模块603接收声音信号的MDCT谱系数的低频部分,对其进行冗余消除处理,并将冗余处理后的低频谱进行矢量量化编码得到低频编码数据,输出到比特流复用模块。
MDCT至MDFT转换模块605用于从MDCT变换模块603接收声音信号的MDCT域系数,将MDCT域系数转换为包含有相位信息的MDFT域系数,并将该MDFT域系数输出到高频参数编码模块606。
高频参数编码模块606用于从MDCT至MDFT转换模块605接收MDFT域系数,从中提取所需要的诸如增益参数、调性参数之类的高频参数,并对高频参数进行量化编码并输出到比特流复用模块607。
比特流复用模块607用于将从信号类型判断模块、低频矢量量化编码模块和高频参数编码模块输出的编码数据以及边信息进行复用,形成声音编码码流。
低频矢量量化编码模块604包括幅度调整模块、矢量组织模块和量化编码模块,如图1所示。
幅度调整模块根据心理声学模型对信号进行音频感知分析,并据此对MDCT低频谱进行幅度调整,得到幅度调整后的待量化的低频加权谱。利用心理声学模型对低频谱进行调整,可以有效控制量化误差的分布,提升重建音频的感知质量。
幅度调整模块根据频谱包络曲线对MDCT谱进行幅度调整,包络曲线可以用多种方法得到,比如以线谱对LSP参数表示的频谱包络曲线,用分段直线表示的频谱包络曲线,用样条曲线拟合的频谱包络曲线,用泰勒展式表示的频谱包络曲线。
下面以分段直线表示频谱包络曲线为例进行说明。比如以MDCT谱长度为512的块进行描述,将频率轴划分为数组{0,7,16,23,33,39,46,55,65,79,93,110,130,156,186,232,278,360,512},首先计算两端0和512点幅值来表示整个频谱的情况,从46点将此线段分割为两个线段,分别计算3个点的幅值,并以两个线段近似表示频谱包络;以此类推,分别以下列顺序分割线段46,186,16,33,65,93,130,278,7,23,39,55,79,110,156,232,360,最后得到18段折线表示整个频谱包络。为进一步压缩这些表示数据,可仅把两端的值以绝对值表示,中间值通过预测以差分方式表示。通过对这18段折线进行线性内插得到整个频谱的包络曲线,用于MDCT谱的幅度调整。
矢量组织模块对经过幅度调整后的待量化的低频加权谱进行排列和划分,将其组织为若干个待量化矢量。
首先构造MDCT谱的时频平面,可以是帧内各块的MDCT谱或者是帧间的MDCT谱。根据信号类型判断的结果以及信号的音调性等信息对时频平面进行划分,并根据此划分将MDCT谱组织成多个待量化矢量。时频平面划分和待量化矢量组织可以分为下面几种方式:按时间方向的方式进行划分和组织,具体为对音调性较强的平稳信号可按时间方向进行均匀划分和组织矢量;按频率方向的方式进行划分和组织,具体为对时域具有快变特性的信号可按频率方向进行划分和组织矢量;基于频率抽取的方式进行划分和组织,具体为对于具有谐波结构的平稳信号,则可通过频率抽取的方式进行矢量组织;按时频区域的方式进行划分和组织,具体为对比较复杂的音频信号,则可按时频区域组织矢量。优选地,可以按照使得编码增益最大的原则来从上述几种划分和矢量组织方法中选择一种或几种方式的组合来进行划分和矢量组织。
假设信号的频率系数长度为N,在时频平面上时间方向的分辨率为L,频率方向的分辨率为K,且K*L=N。当按照时间方向进行矢量划分时,保持频率方向的分辨率K不变,对时间进行划分;当按照频率方向进行矢量划分时,保持时间方向的分辨率L不变,对频率进行划分;当按照频率抽取方式进行矢量划分时,以谐波为单位对MDCT谱进行抽取;当按照时频区域进行矢量划分时,其时间和频率方向划分的个数可任意,划分出的各个时频区域的大小和形状可以是相同的、规则的,也可以是不同的、不规则的。图2图示了按照时间、频率、时频区域和频率抽取方式划分矢量的实施例。假设时频平面被划分为K*L=64*16形式,K=64,为频率方向的分辨率,L=16为时间方向的分辨率。假设矢量的维数为D=8,可以对该时频平面按照不同的方式组合和提取矢量,如图2-a、图2-b、图2-c和图2-d所示。在图2-a中,矢量按照频率方向被划分为8*16个8维矢量。在图2-b中,矢量按照时间方向划分的结果,共有为64*2个8维矢量。在图2-c中,矢量按照时频区域组织矢量的结果,共有16*8个8维矢量。在图2-d中,假设一次谐波频率为8,对频率方向按照8为间隔进行频率抽取,得到8*16组数据,每组8条谱线,每组作为一个矢量,共有8*16个8维矢量;假设一次谐波频率为4,对频率方向按照4为间隔进行频率抽取,得到4*16组数据,每组16条谱线,每组再分为2个8维矢量,共有8*16个8维矢量;也可以按照二次谐波或N次谐波为间隔进行频率抽取,比如一次谐波频率为4时,对频率方向按照4*2为间隔进行频率抽取,得到8*16组数据,每组8条谱线,每组作为一个矢量,共有8*16个8维矢量。需要指出的是,按照上述方法或上述几种方法的组合进行划分和矢量组织时,矢量的维度是可以灵活变化的,对时频平面的不同区域可以组织成不同纬度的矢量,以提高编码效率。
为了提高编码效率,可以按照使得编码增益最大的原则来从上述几种划分和矢量组织方法中选择一种或几种方式的组合来进行划分和矢量组织。例如,当信号具有谐波结构时,假设一次谐波频率为8,可选择按频率方向划分、频率抽取两种方式的组合来进行矢量组织,将每个谐波位置的数据抽取出来,得到1*16组数据,每组8条谱线,每组分为2个4维矢量,共2*16个4维矢量;对其余位置的数据按照频率方向进行划分和组织,得到7*16组数据,每组8条谱线,每组作为1个8维矢量,共7*16个8维矢量。
量化编码模块103对得到的每一个待量化矢量进行量化编码,得到矢量量化编码数据,并输出到比特流复用模块。可以采样矢量量化方式对待量化矢量进行编码,也可以采用标量量化加熵编码的方式对对待量化矢量进行编码。比如,采用矢量量化方法,量化所用码书可以通过传统的LBG算法等来获得;也可以是构造出的某种结构化码书,比如格型矢量量化(lattice vectorquantization)技术。首先将全部待量化矢量划分为不同的分区,每个分区都有一个分类号,用来指明使用哪个矢量量化码书来进行量化,然后使用该量化码书对分区中的每一个矢量进行矢量量化,得到该矢量的码字序号,并对序号进行编码。分类号也需要进行量化编码,可以采用标量量化或矢量量化。频谱矢量量化编码数据包含码字序号、分类号的编码数据。采用标量量化加熵编码的方法时,可先对待量化数据进行标量量化,然后采用霍夫曼编码进行熵编码。
图7为根据本发明实施例的单声道频带扩展音频矢量量化解码装置的结构框图。
如图7所示,根据本发明的优选实施例的单声道频带扩展声音解码装置包括:比特流解复用模块701、低频矢量量化解码模块702、MDCT至MDFT转换模块703、高频参数解码模块704、IMDFT变换模块705和重采样模块706。
下面,概括介绍图7所示各模块之间的连接关系和及其各自的功能。
比特流解复用模块701,用于对接收的声音编码码流进行解复用,得到相应数据帧的编码数据和边信息,向低频矢量量化解码模块702输出相应的编码数据和边信息,向高频参数解码模块704和IMDFT变换模块705输出相应的边信息。
低频矢量量化解码模块702用于对该帧低频矢量量化编码数据解码,并根据冗余处理边信息对解码数据进行冗余逆处理,获取MDCT域的低频谱解码数据并输出到MDCT至MDFT转换模块。
MDCT至MDFT转换模块703用于接收低频矢量量化解码模块702的输出,将低频谱解码系数从MDCT域转换至MDFT域,并将MDFT域的低频谱数据输出到高频参数解码模块704。
高频参数解码模块704用于从该帧MDFT域的低频谱中映射部分谱数据到高频部分,再按照比特流解复用模块701输出的高频参数编码数据(包括增益调整和音调性调整边信息)调整其增益和音调性得到高频谱解码数据。
IMDFT变换模块705用于将低频谱和高频谱组合在一起进行IMDFT变换。IMDFT变换根据信号类型边信息采用不同长度阶数的IMDFT变换,获取该帧的时域信号。
重采样模块706用于将IMDFT模块705输出的该帧时域信号的采样频率变换到适合声音回放的采样频率,应注意,如果IMDFT模块705输出的信号的采样频率适于声音回放,则本发明的声音解码装置中可以不包括该模块。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用于音频信号的矢量量化编码方法,包括:
对音频信号的变换域谱进行音频感知分析,根据分析结果对音频信号的变换域谱进行幅度调整,得到待量化的加权谱;
构造所述待量化的加权谱的时频平面;基于频率抽取进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号是具有谐波结构的平稳信号,然后按照时间方向对所述时频平面进行划分,以谐波为单位对所述加权谱进行频率抽取,将所述加权谱组织成多个待量化的矢量;或者
按时间方向进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号是平稳信号,然后按照时间方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者
按频率方向进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号在时域具有快变特性,然后按照频率方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者
按时频区域进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号为复杂信号,然后将所述时频平面划分为多个时频区域,根据划分结果将所述加权谱组织成多个待量化的矢量;以及
对所述多个待量化的矢量进行量化编码,得到矢量量化编码数据。
2.根据权利要求1的方法,其中,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤还包括:
按照使得编码增益最大的规则从所述基于频率抽取进行划分和组织、所述按时间方向进行划分和组织、所述按频率方向进行划分和组织、所述按时频区域进行划分和组织中选择一种或几种方式的组合进行所述划分和组织。
3.根据权利要求1所述的方法,其中,所述对所述多个待量化的矢量进行量化编码的步骤包括:
对所述多个待量化的矢量进行矢量量化编码;或者
对所述多个待量化的矢量进行标量量化再进行熵编码。
4.一种用于音频的矢量量化编码装置,包括:
幅度调整模块,用于对音频信号的变换域谱进行音频感知分析,根据分析结果对音频信号的变换域谱进行幅度调整,得到待量化的加权谱;
矢量组织模块,用于构造所述待量化的加权谱的时频平面;基于频率抽取进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号是具有谐波结构的平稳信号,然后按照时间方向对所述时频平面进行划分,以谐波为单位对所述加权谱进行频率抽取,将所述加权谱组织成多个待量化的矢量;或者
按时间方向进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号是平稳信号,然后按照时间方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者
按频率方向进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号在时域具有快变特性,然后按照频率方向对所述时频平面进行划分,根据划分结果将所述加权谱组织成多个待量化的矢量;或者
按时频区域进行划分和组织,其具体为根据所述音频信号的类型及其音调性判断出所述音频信号为复杂信号,然后将所述时频平面划分为多个时频区域,根据划分结果将所述加权谱组织成多个待量化的矢量;以及
量化编码模块,用于对所述多个待量化的矢量进行量化编码,得到矢量量化编码数据。
5.根据权利要求4所述的装置,其中,所述根据所述音频信号的类型及其音调性对所述时频平面进行划分,并且根据划分结果将所述加权谱组织成多个待量化的矢量的步骤还包括:
按照使得编码增益最大的规则从所述基于频率抽取进行划分和组织、所述按时间方向进行划分和组织、所述按频率方向进行划分和组织、所述按时频区域进行划分和组织中选择一种或几种方式的组合进行所述划分和组织。
6.根据权利要求4所述的装置,其中,所述量化编码模块被配置用于:
对所述多个待量化的矢量进行矢量量化编码;或者
对所述多个待量化的矢量进行标量量化再进行熵编码。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310728959.2A CN104751850B (zh) | 2013-12-25 | 2013-12-25 | 一种用于音频信号的矢量量化编解码方法及装置 |
PCT/CN2014/095012 WO2015096789A1 (zh) | 2013-12-25 | 2014-12-25 | 一种用于音频信号的矢量量化编解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310728959.2A CN104751850B (zh) | 2013-12-25 | 2013-12-25 | 一种用于音频信号的矢量量化编解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104751850A CN104751850A (zh) | 2015-07-01 |
CN104751850B true CN104751850B (zh) | 2021-04-02 |
Family
ID=53477579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310728959.2A Active CN104751850B (zh) | 2013-12-25 | 2013-12-25 | 一种用于音频信号的矢量量化编解码方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104751850B (zh) |
WO (1) | WO2015096789A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070293B (zh) * | 2015-08-31 | 2018-08-21 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
CN113766239B (zh) * | 2020-06-05 | 2024-07-02 | 于江鸿 | 数据处理的方法和系统 |
CN113518227B (zh) | 2020-04-09 | 2023-02-10 | 于江鸿 | 数据处理的方法和系统 |
US11528488B2 (en) | 2020-04-09 | 2022-12-13 | Jianghong Yu | Image and video data processing method and system |
US11503306B2 (en) | 2020-04-09 | 2022-11-15 | Jianghong Yu | Image and video data processing method and system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0577488A1 (en) * | 1992-06-29 | 1994-01-05 | Nippon Telegraph And Telephone Corporation | Speech coding method and apparatus for the same |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101110214A (zh) * | 2007-08-10 | 2008-01-23 | 北京理工大学 | 一种基于多描述格型矢量量化技术的语音编码方法 |
EP2301157A1 (en) * | 2008-06-30 | 2011-03-30 | Nokia Corp. | Entropy-coded lattice vector quantization |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
-
2013
- 2013-12-25 CN CN201310728959.2A patent/CN104751850B/zh active Active
-
2014
- 2014-12-25 WO PCT/CN2014/095012 patent/WO2015096789A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0577488A1 (en) * | 1992-06-29 | 1994-01-05 | Nippon Telegraph And Telephone Corporation | Speech coding method and apparatus for the same |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN101110214A (zh) * | 2007-08-10 | 2008-01-23 | 北京理工大学 | 一种基于多描述格型矢量量化技术的语音编码方法 |
EP2301157A1 (en) * | 2008-06-30 | 2011-03-30 | Nokia Corp. | Entropy-coded lattice vector quantization |
Also Published As
Publication number | Publication date |
---|---|
WO2015096789A1 (zh) | 2015-07-02 |
CN104751850A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2005337961B2 (en) | Audio compression | |
EP1852851A1 (en) | An enhanced audio encoding/decoding device and method | |
KR101425155B1 (ko) | 복소 예측을 이용한 다중 채널 오디오 신호를 처리하기 위한 오디오 인코더, 오디오 디코더, 및 관련 방법 | |
CN104751850B (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
EP3165005B1 (en) | Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation | |
US20090018824A1 (en) | Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method | |
EP1873753A1 (en) | Enhanced audio encoding/decoding device and method | |
WO2011044700A1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
US10403292B2 (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation | |
US8719011B2 (en) | Encoding device and encoding method | |
US10194257B2 (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation | |
CN111210832B (zh) | 基于频谱包络模板的带宽扩展音频编解码方法及装置 | |
JP2004004530A (ja) | 符号化装置、復号化装置およびその方法 | |
US8825494B2 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
WO2009125588A1 (ja) | 符号化装置および符号化方法 | |
US9794714B2 (en) | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation | |
US20110135007A1 (en) | Entropy-Coded Lattice Vector Quantization | |
JP5799824B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
US9800986B2 (en) | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation | |
US8924202B2 (en) | Audio signal coding system and method using speech signal rotation prior to lattice vector quantization | |
CN104078048B (zh) | 一种声音解码装置及其方法 | |
CN103733256A (zh) | 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端 | |
Ozaydin | Residual Lsf Vector Quantization Using Arma Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |