CN101192410A - 一种在编解码中调整量化质量的方法和装置 - Google Patents

一种在编解码中调整量化质量的方法和装置 Download PDF

Info

Publication number
CN101192410A
CN101192410A CN 200610164330 CN200610164330A CN101192410A CN 101192410 A CN101192410 A CN 101192410A CN 200610164330 CN200610164330 CN 200610164330 CN 200610164330 A CN200610164330 A CN 200610164330A CN 101192410 A CN101192410 A CN 101192410A
Authority
CN
China
Prior art keywords
value
zoom factor
sampled value
unit
shaping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610164330
Other languages
English (en)
Other versions
CN101192410B (zh
Inventor
邹耀
刘佩林
李伟
许丽净
张清
许剑峰
桑盛虎
杜正中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200610164330 priority Critical patent/CN101192410B/zh
Priority to PCT/CN2007/003799 priority patent/WO2008064577A1/zh
Priority to EP07855801A priority patent/EP2104095A4/en
Publication of CN101192410A publication Critical patent/CN101192410A/zh
Application granted granted Critical
Publication of CN101192410B publication Critical patent/CN101192410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

本发明公开了一种在编码中调整量化质量的方法,该方法包括:利用两个或两个以上缩放因子,对用于编码的第一采样值进行调整后,对调整后的第一采样值进行量化得到量化采样值;从所得到的量化采样值中去除缩放因子的影响得到第二采样值,并利用第一采样值和第二采样值得到全局增益;将所得到的量化采样值、所述两个或两个以上的缩放因子的信息以及所得到的全局增益作为编码流输出。本发明还公开了一种在解码中调整量化质量的方法,在编码、解码中调整量化质量的装置。根据本发明公开的方法和装置,能够大大降低实现复杂度,能够更好地调整重要部分的量化质量,能够获得更好的编码效果。

Description

一种在编解码中调整量化质量的方法和装置
技术领域
本发明涉及编码技术,特别是指一种在编解码中调整量化质量的方法和装置。
背景技术
随着通信技术的发展以及多媒体业务的扩展,对于数字音频、视频等编码,不但需要更高的编码效率和实时性,编码带宽也需要进一步扩展。针对数字音频编码来说,目前,能够满足低码率、高质量音频编码的技术主要包括:AAC+,EAAC+和AMR-WB+。其中AAC+和EAAC+是从高码率的音频编码器扩展而来,而AMR-WB+是通过对低码率的语音编码扩展而形成的一种混合编码方式。
在通常的音频编码中,为了更好的结合人类听觉系统的一些特性,一般先对采样值作时频变换,然后根据听觉特性对频谱系数进行取舍加权并量化,量化后的频谱系数再通过熵值编码传输。编码中的主要失真产生于对各种参数的量化。因此,为了适应不同的需求,编码器需根据指定码率的大小对量化的质量进行调整:在如大于24kbps的高码率编码方案中,好的编码器均会达到透明音质,即人耳无法察觉到编码量化过程中引入的噪声;而低码率编码方案中,由于比特数的不足,不可能完全达到音质透明的效果,从而只能追求尽量小的主观失真。
一种常用的调整量化质量的技术是采用缩放因子或增益,编码的系数先除以缩放因子或乘以增益,然后再对缩放后的系数进行量化,最合适的缩放因子既能满足码率的要求又能使量化误差尽量小。因此,当码率比较高的时候,选择较小的缩放因子,这样量化系数的动态范围相对较大,量化相对精细;而码率比较小的时候,选择较大的缩放因子,这样量化系数的动态范围相对较小,量化相对粗糙。
图  1所示为MPEG1-LAYER3音频编码算法的示意框图。在MPEG1-LAYER3音频编码算法中,在作时频变换之前,将整个编码频段等分为32个子带,对每个子带分配一个缩放因子,对整个频带分配一个全局缩放因子;在量化之前,通过闭环搜索算法调整全局缩放因子,使得量化比特数在当前比特率允许范围内,同时调整子带内的缩放因子,尽可能使量化噪声在人耳的掩蔽域以下,即人耳感觉不到量化噪声的存在;最后,量化后的系数流通过霍夫曼编码传输。
MPEG1-LAYER3编码算法中的子带多缩放因子编码方法存在下列缺陷:
(1)子带划分需要32子带分析滤波器组,计算复杂度很高;
(2)每个子带的缩放因子均需要量化编码传输,占用的比特数过多,不适合低码率的编码需要。
图2所示为在AMR-WB+音频编码算法的变换激励编码(TCX)部分流程图。在AMR-WB+音频编码中,采用一个全局缩放因子。考虑到采用一个缩放因子的局限性,无法针对某一特定的频率段进行微调,而且,考虑到根据低码率的编码要求,频谱中能量较小的频域样值在矢量量化时会丢失,而由于人类听觉系统对不同频段的敏感程度有差异,编码时希望重要频段处的较小频域样值依然能够被量化,所以,在AMR-WB+音频编码中,采用频谱预整形和频谱逆整形技术。在AMR-WB+音频编码算法的TCX部分中,首先对整个频谱中比较重要的频段进行频谱预整形,提升这些特定频段的能量,然后再对全频段采用同一个全局缩放因子。
由于人类听觉系统在低频处有很高的频率分辨率,通常所说的重要频段是指低频段。在AMR-WB+音频编码中的频谱预整形中,首先对前四分之一频谱,以每8点频域样值作为一块,计算每个分块的能量Em,其中m为分块索引号,然后找出其中最大的分块能量Emax,并对每个分块计算出Rm=(Emax/Em)1/4,再根据Rm得出每个分块的放大因子Gm,使每个分块中放大因子Gm具有单调递减性,最后对每个分块的频域样值乘以相应块的放大因子。在AMR-WB+音频编码中,频谱预整形中计算出的放大因子不在编码码流中传输,而是在频谱逆整形中,按照频谱预整形中的方法,根据频域样值计算出每个分块的放大因子Gm后,通过对每个分块的频域样值除以相应块的放大因子得到恢复的频域样值。
AMR-WB+音频编码算法TCX部分的全局缩放因子算法存在以下缺陷:
(1)由于对于全频带只使用一个缩放因子,量化质量只能在整个频带上调节,无法强调某些比较重要的频率段;
(2)尽管采用频谱预整形和频谱逆整形技术增强了低频处的量化质量,但牺牲了其余频带处的量化质量;
(3)频谱预整形和逆整形技术只能应用到带宽较小的频段上,否则将导致全局缩放因子的明显提升,整体量化效果反而降低;
(4)由于在编码阶段预整形的放大因子并未记录到编码流中,量化后产生的误差将在逆整形的缩小因子中产生误差累积效应。
发明内容
本发明实施例提供一种在编码中调整量化质量的方法,降低实现复杂度。
本发明实施例提供一种在解码中调整量化质量的方法,能够保证量化质量。
本发明实施例提供一种在编码中调整量化质量的装置,降低实现复杂度。
本发明实施例提供一种在解码中调整量化质量的装置,能够保证量化质量。
本发明实施例提供一种在编码中调整量化质量的方法,该方法包括:利用两个或两个以上缩放因子,对用于编码的第一采样值进行调整后,对调整后的第一采样值进行量化得到量化采样值;从所得到的量化采样值中去除缩放因子的影响得到第二采样值,并利用第一采样值和第二采样值得到全局增益;将所得到的量化采样值、所述两个或两个以上的缩放因子的信息以及所得到的全局增益作为编码流输出。
本发明实施例提供一种在解码中调整量化质量的方法,对编码端输出的编码流进行解码得到解码流,该方法包括:从解码流中获取量化采样值、两个或两个以上缩放因子的信息以及全局增益;利用两个或两个以上缩放因子的信息,从所述量化采样值中去除缩放因子的影响得到采样值后,乘以全局增益。
本发明实施例提供一种在编码中调整量化质量的装置,该装置包括:多缩放因子控制单元,量化单元,增益平衡单元,全局增益计算单元;其中,所述多缩放因子控制单元用于接收第一采样值,对第一采样值设置两个或两个以上缩放因子,利用缩放因子对第一采样值进行调整,将调整后的第一采样值输出给所述量化单元;所述量化单元用于对所接收的第一采样值进行量化得到量化采样值并输出给所述增益平衡单元;所述增益平衡单元用于接收量化采样值,从量化采样值中去除缩放因子的影响得到第二采样值,并输出给所述全局增益计算单元;全局增益计算单元用于接收第一采样值和第二采样值,并利用第一采样值和第二采样值得到全局增益。
本发明实施例提供一种在解码中调整量化质量的装置,该装置包括:增益平衡单元和全局增益平衡单元;其中,所述增益平衡单元用于接收量化采样值和缩放因子,并利用所接收的缩放因子,从量化采样值中去除缩放因子的影响得到采样值,并输出给所述全局增益平衡单元;所述全局增益平衡单元用于接收全局增益和采样值,并对采样值乘以全局增益后输出。
根据本发明实施例提供的调整量化质量的方法和装置,与现有技术中所述的使用滤波器的方案不同,直接对采样值划分为多个部分并对各部分分别设置缩放因子,因此,能够大大降低实现复杂度;而且,还与现有技术中使用一个全局缩放因子的方案不同,由于采用多个缩放因子,因此,能够更好地调整重要部分的量化质量,能够获得更好的编码效果。
附图说明
图1所示为现有技术中MPEG1-LAYER3音频编码算法的示意框图;
图2所示为现有技术中在AMR-WB+音频编码算法的TCX部分流程图;
图3所示为本发明实施例1中调整量化质量的编码器示意框图;
图4所示为本发明实施例1中调整量化质量的解码器示意框图;
图5所示为本发明实施例1中在编码端通过多缩放因子调整量化质量的流程图;
图6所示为本发明实施例1中选择多个缩放因子并对整个频段的频域样值进行微调的流程图;
图7所示为本发明实施例1中在解码端通过多缩放因子调整量化质量的流程图;
图8所示为本发明实施例2中调整量化质量的编码器示意框图;
图9所示为本发明实施例2中调整量化质量的解码器示意框图;
图10所示为本发明实施例2中实现峰值预整形的示意图;
图11所示为本发明实施例2中实现峰值逆整形的示意图;
图12所示为本发明实施例3中调整量化质量的编码器示意框图;
图13所示为本发明实施例3中调整量化质量的解码器示意框图;
图14所示为本发明实施例4中在编码端调整量化质量的装置结构图;
图15所示为本发明实施例4中在解码端调整量化质量的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面举具体实施例,对本发明作进一步详细的说明。
本发明实施例提供的调整量化质量的主要思想是:利用多缩放因子或者进一步利用频谱整形技术,调整编码过程中的量化质量。下面,主要以对采样值进行时频变换的编码过程进行说明。当然,对于在编码过程中没有对采样值进行时频变换的情况,仍可以采用本发明实施例。
实施例1
实施例1提供一种通过多缩放因子调整量化质量的方法。
图3所示为实施例1中调整量化质量的编码器示意框图,在编码过程中,时域采样值首先通过时频变换转换到频域,然后通过多缩放因子控制后,进行量化并输出量化的采样值,输出的量化采样值通过增益平衡、逆时频变换后计算最佳全局增益。编码码流需要传输缩放因子、频域采样值的量化值以及全局增益三个部分。
图4所示为实施例1中调整量化质量的解码器示意框图,在解码过程中,量化频域采样值通过增益平衡和逆时频变换后,得到时域采样值,最后乘以全局增益即可还原时域采样值。
下面给出在实施例1中,在编码端通过多缩放因子调整量化质量的具体步骤,如图5所示,包括以下步骤:
步骤501:通过时频变换,将时域采样值x(n)转换到频域采样值X(k)。
在此,可以采用离散傅立叶变换(DFT)、离散余弦变换(DCT,MDCT,IDCT)、小波变换(DWT)等时频变换。在时频变换过程中,还可以采用快速傅立叶变换(FFT),降低计算复杂度。
步骤502:对频域采样值X(k)进行多缩放因子控制,具体为,选择合适的多个缩放因子,对整个频段的频域采样值进行微调。
本实施例中,假设对整个频段的频域采样值X(k),k=0,1,…,N采用m个缩放因子,并设在编码过程中,允许的比特数的最大值为bmax。下面,结合图6所示的流程图,详细介绍选择合适的多缩放因子并对频域采样值进行微调的步骤。
步骤601:将整个频段划分为m个部分[0,n1],[n1+1,n2],…,[nm-1+1,N],得到m个部分的频域采样值X(0,1,…,n1),X(nm-1+1,nm-1+2,…,N),…,X(n1+1,n1+2,…,n2),并将每一部分的缩放因子用g1,g2,…,gm表示。
本发明实施例中,多个缩放因子是对时频变换后的整个频带上直接划分,并不需要先通过滤波器组将频段划分为若干段,再在每段内设置一个缩放因子,从而与现有技术相比,能够大大降低实现复杂度。
步骤602:选择用于估计m个缩放因子的基准值g0,该缩放因子的基准值g0的选择,使得消耗比特数b0的估计值小于最大允许比特数bmax
本实施例中,消耗比特数b的估计值是与频域采样值X、频域采样值的个数N以及缩放因子g相关的值,可以用b=cons(X,N,g)的函数表示。因此,在本步骤602中,选择缩放因子的基准值为g0时,消耗比特数的估计值为b0=cons(X,N,g0),且满足b0<bmax
步骤603:在g0的附近调整m个缩放因子g1,g2,…,gm
本步骤603中,可以通过降低较重要频段的缩放因子,提升不重要频段的缩放因子的方式,调整m个缩放因子。在此,较重要频段是指低频段,不重要频段是指高频段。由于g1~gm分别对应从低到高的频段,所以,调整后的m个缩放因子g′1,g′2,…,g′m是逐渐递增的关系。通过这种调整,可以使较重要频段的量化质量相对较高,不重要频段的量化质量相对较低,从而使整个频段内的量化质量达到最优。
步骤604:判断在调整后的m个缩放因子下,消耗比特数的估计值不超过总比特数,如果不满足,则返回步骤603,再次调整缩放因子,如果满足,则将满足消耗比特数的m个缩放因子表示为g′1,g′2,…,g′m
步骤605:根据调整后的m个缩放因子g′1,g′2,…,g′m。计算量化感知失真。
本实施例中,量化感知失真c是与频域采样值X和m个缩放因子g1,g2,…,gm相关的值,可以用c=f(X,g1,g2,…,gm)的函数表示,量化感知失真c的值表示:原始的频域采样值X和通过m个缩放因子g1,g2,…,gm对该频域采样值X进行调整后得到的采样值之间的差异所带来的失真的值。本步骤605中,根据调整后的m个缩放因子g′1,g′2,…,g′m计算得到的量化感知失真为c=f(X,g′1,g′2,…,g′m)。
步骤606:判断量化感知失真是否在无法感知的范围内,如果是,则将本次调整后得到的m个缩放因子作为最佳缩放因子,用g1opt,g2opt,…,gmopt表示,然后执行步骤607;否则,返回步骤603。
其中,如果感知失真在无法感知的范围内,则人无法感知到由编码器引入的量化噪声。例如针对音频编码,人耳无法感知到由编码器引入的量化噪声,再如针对视频编码,人眼无法感知到由编码器引入的量化噪声。在此,具体的无法感知的范围是一个具体的允许失真的数值范围。判断量化感知失真是否在无法感知的范围内的具体方法是:判断步骤605中计算出来的量化感知失真的值是否在所述的允许失真的数值范围,如果是,则认为量化感知失真无法感知,否则,认为量化感知能够被感知。
本实施例中,根据步骤606的判断,当量化感知失真能够被感知到时,如果重复上述的调整步骤M次后,量化感知失真仍能够被感知到,则结束闭环选择,并从上述重复过程中调整得到的缩放因子中,选择使得感知失真最小的一组缩放因子作为最佳缩放因子,然后执行步骤607。在实际应用中,闭环选择的次数M可以根据实际情况确定。
步骤607:用所得到的m个最佳缩放因子g1opt,g2opt,…,gmopt,对频域采样值X进行微调,即每一块的频域采样值分别除以对应块的最佳缩放因子,得到微调后的频谱X′,具体表达式如下所示。
X ′ = [ X ( 0,1 , · · · , n 1 ) g 1 opt , X ( n 1 + 1 , n 1 + 2 , · · · , n 2 ) g 2 opt , · · · , X ( n m - 1 + 1 , n m - 1 + 2 , · · · , N ) g mopt ]
通过以上步骤601~607得到的微调后的频域采样值X′送入编码器。
考虑到解码时需要利用缩放因子恢复数据,因此,编码码流中需要传输缩放因子。传输缩放因子的方式可以采用多种方式,下面分别介绍。
传输缩放因子的方式一:将用于微调频率采样值时的m个缩放因子g1opt,g2opt,…,gmopt全部编码,这样,解码时能够较准确地恢复数据。
传输缩放因子的方式二:在用于微调频率采样值时的m个缩放因子g1opt,g2opt,…,gmopt中,选择一个缩放因子作为基准缩放因子,然后计算其余m-1个缩放因子与该基准缩放因子的比值,并编码这m-1个比值。例如,将g1opt作为基准缩放因子,则只需要编码
Figure A20061016433000211
即可。这样,可以减少消耗的比特数。
传输缩放因子的方式三:在用于微调频率采样值时的m个缩放因子g1opt,g2opt,…,gmopt中,选择一个缩放因子作为基准缩放因子,然后计算其余m-1个缩放因子与该基准缩放因子的比值,并编码该基准缩放因子和m-1个比值。例如,将g1opt作为基准缩放因子,则需要编码g1opt以及
Figure A20061016433000212
即可。这样,不仅可以减少消耗的比特数,而且由于解码端可以根据g1opt以及
Figure A20061016433000213
计算得到g1opt,g2opt,…,gmopt,从而还能够较准确地恢复数据。
为了在采用多个缩放因子时,不占用较多的比特数,可以根据编码码率的要求以及量化质量的要求,选择较佳的缩放因子的个数。例如,在低码率编码中,可以选择2~3个缩放因子。
步骤503:对通过多缩放因子控制得到的频域采样值X′进行量化,输出量化频域采样值Xq
本步骤503中,根据编码需求,可以采用不同的量化方式,例如,多级矢量量化、分裂矢量量化、树形量化、格形矢量量化等。
步骤504:对步骤503中得到的量化频率采样值Xq,去除缩放因子的影响,恢复原始的频域采样值Xbalance,即对量化频率采样值Xa进行增益平衡后得到Xbalance
根据步骤502中传输缩放因子的方式不同,增益平衡的方法也要采用不同方式。
若传输缩放因子的方式为上述方式一或方式三,则可利用步骤502中选择得到的多个缩放因子g1opt,g2opt,…,gmopt进行增益平衡,具体为:将量化频率采样值Xq也按照步骤601中的频段划分方式分为m个部分,得到Xq(0,1,…,n1),Xq(nm-1+1,nm-1+2,…,N),…,Xq(n1+1,n1+2,…,n2),并对每一部分的量化频率采样值乘以相应部分的缩放因子,其具体表达式如下:
X balance = [ g 1 opt · X q ( 0,1 , · · · , n 1 ) , · g 2 opt X q ( n 1 + 1 , n 1 + 2 , · · · , n 2 ) , · · · , g mopt · X q ( n m - 1 + 1 , N ) ]
若传输缩放因子的方式为上述方式三,则可以利用多个缩放因子的比例值进行增益平衡,具体为:将量化频率采样值Xq也按照步骤601中的频段划分方式分为m个部分,得到Xq(0,1,…,n1),Xq(nm-1+1,nm-1+2,…,N),Xq(n1+1,n1+2,…,n2),对基准缩放因子的相应部分的频率采样值乘以1,其余部分的量化频率采样值均乘以相应部分的缩放因子与基准缩放因子的比例值,假设将第一部分相应的缩放因子g1opt作为基准缩放因子,则增益平衡的具体表达式如下:
X balance = [ X q ( 0,1 , · · · , n 1 ) , g 2 opt g 1 opt · X q ( n 1 + 1 , n 1 + 2 , · · · , n 2 ) , · · · , g mopt g 1 opt · X q ( n m - 1 + 1 , N ) ]
步骤505:对增益平衡后得到的Xbalance进行逆时频变换,将还原的频域采样值Xbalance转换为还原的时域采样值xq(n)。
步骤506:利用原始的时域采样值x(n)和还原的时域采样值xq(n),计算最佳全局增益ggopt
在此,可以将原始的时域采样值与还原的时域采样值之间的均方误差最小的全局增益gg作为最佳全局增益ggopt,即最佳全局增益ggopt使
Figure A20061016433000223
最小。由此可以得出最佳全局增益为: g gopt = Σx ( n ) · x q ( n ) Σ x q ( n ) · x q ( n ) .
最佳全局增益ggopt也需要编码传输,用于解码端的数据恢复。
以上所述为在编码端通过多缩放因子调整量化质量的流程。与编码过程中进行的量化质量调整相应的,需要在解码端通过如图7所示的流程,根据解码后得到的量化频率采样值恢复时域采样值,其具体流程包括以下步骤:
步骤701:利用从编码流中得到的缩放因子,对量化频率采样值进行增益平衡。其具体实现同步骤504中所述的方法,在此,省略其描述。需要注意的是,根据传输缩放因子的方式不同,增益平衡的方法也要采用不同方式,而且,编码端中的增益平衡方式和解码端中的增益平衡方式也要一致。
步骤702:对增益平衡后得到的频域采样值进行逆时频变换,得到时域采样值。
步骤703:时域采样值乘以从编码流中得到的全局增益,得到恢复的时域采样值。
本实施例1所采用的多缩放因子控制的技术可以直接对时域的采样值进行,即可以适用于没有时频变换的情况,相应的,在计算全局增益时,没有逆时频变换过程。针对这种情况,在设置多缩放因子时,可以以时间段划分时域采样值,在调整多缩放因子时,可以将较重要时间段的缩放因子降低,将不重要时间段的缩放因子提升。
实施例2
实施例2提供一种通过多缩放因子和频谱整形调整量化质量的方法。
图8所示为实施例2中调整量化质量的编码器示意框图,在编码过程中,时域采样值首先通过时频变换转换到频域,然后通过频谱预整形和多缩放因子控制后,进行量化并输出量化的采样值,输出的量化采样值通过增益平衡、频谱逆整形和逆时频变换后计算最佳全局增益。编码码流需要传输缩放因子、频域采样值的量化值以及全局增益三个部分。
图9所示为实施例2中调整量化质量的解码器示意框图,在解码过程中,量化频域采样值通过增益平衡、频谱逆整形和逆时频变换后,得到时域采样值,最后乘以全局增益即可还原时域采样值。
在实施例2中,通过多缩放因子和峰值整形调整量化质量的具体步骤为,在实施例1中的图5所示的流程的基础上,在步骤501所述的时频变换和步骤502所述的多缩放因子控制之间,进一步包括频谱预整形的步骤,在步骤504所述的增益平衡和步骤505所述的逆时频变换之间,进一步包括频谱逆整形的步骤。下面,详细介绍频谱预整形和频谱逆整形的具体实现方法。
图10所示为实现频谱预整形的示意图,可以通过以下步骤实现。
步骤1001:确定频谱整形区域,并在该频谱整形区域内的步骤501中得到的频域采样值中,标记频域采样值的峰值集合{pm,m=1,…,M}。
在此,频谱整形区域是指较重要频段的频谱区域。例如,在音频数据中,由于人类听觉系统在低频处具有较高的频率分辨率,因此,低频部分认为是较重要频段;再如,在视频、图像等数据中,数据信息大部分都集中在低频处,因此,低频部分认为是较重要频段。因此,频谱整形区域可以采用全频段的前面部分,例如,可采用前四分之一等。
在此,所述的峰值pk可以定义为整形频谱段幅值中的局部最大值,若X(i)>X(j), ∀ j ∈ [ i - Δ , i + Δ ] , i≠j,则X(i)为[i-Δ,i+Δ]的2Δ+1点局部的最大值,其中,局部区域可任意选择。
步骤1002:计算用于频谱预整形的参考值pref
在此,选择参考值的原则是要保证参考值大小在频谱整形前后保持不变。本步骤1002中,可以将峰值集合{pm,m=1,…,M}中的最大峰值作为参考值pref,或者将最大局部能量作为参考值pref。考虑到量化误差的影响,还可以将一块数据的特征参数作为参考值pref,以避免量化误差对参考值产生较大的影响。较佳的,参考值pref可以选择为:峰值集合{pm,m=1,…,M}中的最大峰值临近数据点的能量,或者平均能量等。
步骤1003:计算对峰值集合{pm,m=1,…,M}中每个峰值pm的放大因子Rm R m = C m ( p ref p m ) k , k∈(0,1),其中,Cm和k可根据实际情况选择适当的参数。
步骤1004:利用所计算出的峰值放大因子,对峰值进行放大。
为了保证参考值pref的不变性,对除了用于计算参考值pref相关的峰值点之外,对剩余的其它峰值点pm乘以相应的放大因子Rm,放大后得到的峰值点为p′m=pm·Rm
考虑到人类听觉系统在低频处有很高的频率分辨率,将低频部分的峰值能量放大即可使得峰值能够被量化器捕捉,因此,在本实施例2中只对少量的频谱点即峰值进行放大。本实施例中,将这种频谱预整形技术也可以称为峰值预整形。采用这种峰值预整形技术,对全局增益的增加影响较小,由全局增益增加引起的量化误差增加可以忽略不计。当然,若考虑到使频谱整形的效果更好,还可以对峰值周围的频谱点进行放大,例如,对2Δ+1点局部的峰值进行放大的同时,还可以对该峰值周围的2Δ或少于2Δ的点,利用相应的放大因子进行放大。
通过以上频谱预整形过程,提升较重要频段处的频域采样值的峰值,从而能够降低较重要频段的频域采样值较小峰值处的量化误差,降低了较重要频段的频谱峰值在量化中丢失的概率。
在编码器中,为了计算最佳全局增益,还需要从量化频率采样值恢复得到时域采样值。若采用频谱预整形,则在通过步骤504所述的增益平衡得到Xbalance后,需要对Xbalance进行频谱逆整形,其具体实现过程如图11所示,包括以下步骤:
步骤1101:在步骤504中得到的Xbalance中,标记频谱整形区域中频域采样值的峰值集合{qm,m=1,…,M}。其中,频谱逆整形过程中的频谱整形区域和峰值标记准则应与频谱预整形过程中的相同。
步骤1102:计算用于频谱逆整形的参考值qref。其中,频谱逆整形过程中的参考值计算准则也应与频谱预整形过程中的相同。例如,若在频谱预整形过程中,采用峰值集合{pm,m=1,…,M}中的最大峰值临近数据点的能量作为参考值,则在频谱逆整形过程中,也应采用峰值集合{qm,m=1,…,M}中的最大峰值临近数据点的能量作为参考值。
步骤1103:计算对峰值集合{qm,m=1,…,M}中每个峰值qm的缩小因子rm r m = C m ( q ref q m ) k / ( 1 - k ) , k∈(0,1),其中,Cm和k应与频谱预整形过程中的参数一致。
其中,在频谱逆整形过程中的缩小因子rm的计算原理如下:在频谱预整形过程中,放大因子为 R = C ( p ref p ) k , k∈(0,1),如果某峰值点大小为p,则放大后的峰值为 p ′ = p · R = p · C ( p ref p ) k = C · p ( 1 - k ) · p ref k , 根据该式,求出p的表达式为:
p = ( p ′ ) 1 / ( 1 - k ) C · p ref k / ( 1 - k ) = p ′ · ( p ′ ) k / ( 1 - k ) C · p ref k / ( 1 - k ) = p ′ / C ( p ref p ′ ) k / ( 1 - k ) .
由上述在频谱逆整形过程中计算缩小因子的原理可以得到,在编码流中无需传输用于频谱逆整形的参考值,在解码端也可以按照上述原理,可以利用解码端的采样值本身的特性,计算得到用于频谱逆整形的参考值,进一步可以计算出相应峰值的缩小因子,从而不占用额外的比特数。
步骤1104:利用所计算出的峰值缩小因子,对峰值进行缩小。在频谱逆整形过程中,应对在频谱预整形过程中放大的峰值进行缩小。如果在频谱预整形过程中,对除了用于计算参考值之外的其它峰值点进行了放大,则在频谱逆整形过程中,也需要对用于计算参考值之外的其它峰值点进行缩小,即对除了用于计算参考值qref相关的峰值点之外,对剩余的其它峰值点qm除以相应的缩小因子rm,缩小后得到的峰值点为q′m=qm/rm
通过以上步骤进行频谱逆整形后,在步骤505中对频谱逆整形后得到的频域采样值进行逆时频变换。
本实施例2中,由于在编码过程中在时频变换和多缩放因子控制之间进行了频谱预整形,相应的,在解码端也需要在增益平衡和逆时频变换之间进行频谱逆整形,具体的实现方法如同在上述编码过程中进行的频谱逆整形方法,在此省略其描述。
上面所述的本实施例2中,先进行频谱预整形,然后再进行多缩放因子的控制。同样的,在编码过程中,还可以先进行多缩放因子的控制,然后再进行频谱预整形,相应的,在编码过程中的恢复原始采样值的过程中和在解码过程中,可以先进行频谱逆整形,然后再进行增益平衡。针对这种情况,不予详细的介绍。
实施例3
实施例3提供一种通过频谱整形调整量化质量的方法。
图1 2所示为实施例3中调整量化质量的编码器示意框图,在编码过程中,时域采样值首先通过时频变换转换到频域,然后通过频谱预整形后,进行量化并输出量化的采样值,输出的量化采样值通过频谱逆整形和逆时频变换后计算最佳全局增益。编码码流需要传输频域采样值的量化值以及全局增益三个部分。
图13所示为实施例3中调整量化质量的解码器示意框图,在解码过程中,量化频域采样值通过频谱逆整形和逆时频变换后,得到时域采样值,最后乘以全局增益即可还原时域采样值。
在本实施例3中,频谱预整形以及频谱逆整形的方法与实施例2中的实现方法和所得到的技术效果一致,在此不再详细阐述。
实施例4
实施例4给出调整量化质量的实现装置。
与实施例2所述的方法相对应,图14所示为实施例4中在编码端调整量化质量的装置结构图。如图14所示,在编码端调整量化质量的装置包括:时频变换单元,频谱预整形单元,多缩放因子控制单元,量化单元,增益平衡单元,频谱逆整形单元,逆时频变换单元,全局增益计算单元。其中,所述时频变换单元接收第一采样值,并对第一采样值进行时频变换后,输出给所述频谱预整形单元;所述频谱预整形单元接收所述时频变换单元输出的第一采样值,对该第一采样值进行频谱预整形后输出给所述多缩放因子控制单元;所述多缩放因子控制单元接收第一采样值,对第一采样值设置两个或两个以上缩放因子,利用缩放因子对第一采样值进行调整,将调整后的第一采样值输出给所述量化单元;所述量化单元对所接收的第一采样值进行量化得到量化采样值并输出给所述增益平衡单元;所述增益平衡单元接收量化采样值,从量化采样值中去除缩放因子的影响得到第二采样值,并输出给所述频谱逆整形单元;所述频谱逆整形单元接收所述增益平衡单元输出的第二采样值,对该第二采样值进行频谱逆整形后输出给所述逆时频变换单元;所述逆时频变换单元从所述峰值逆整形单元中接收第二采样值,并对第二采样值进行逆时频变换后,输出给所述全局增益计算单元;全局增益计算单元接收第一采样值和第二采样值,并利用第一采样值和第二采样值得到全局增益。
所述多缩放因子控制单元包括:缩放因子设置单元和采样值调整单元;所述缩放因子设置单元用于对第一采样值设置两个或两个以上缩放因子,并将所设置的缩放因子输出给所述采样值调整单元;所述采样值调整单元用于接收缩放因子,并利用缩放因子对第一采样值进行调整。
所述缩放因子设置单元包括:基准值设置单元、缩放因子调整单元、消耗比特数估计单元、感知失真计算单元;所述基准值设置单元用于设置缩放因子的基准值,并输出给所述缩放因子调整单元;所述缩放因子调整单元用于根据基准值调整缩放因子,并输出给所述消耗比特数估计单元和感知失真计算单元;所述消耗比特数估计单元用于根据缩放因子,估计消耗比特数,并判断消耗比特数是否小于编码所允许的总比特数,将判断结果发送给所述缩放因子调整单元;所述感知失真计算单元用于根据缩放因子,计算感知失真,并判断感知失真是否在无法感知的范围内,将判断结果发送给所述缩放因子调整单元。
所述频谱预整形单元包括:峰值标记单元、参考值计算单元、放大因子计算单元、预整形单元;其中,所述峰值标记单元用于接收第一采样值,并在频谱整形区域内的第一采样值中,标记峰值,输出给所述参考值计算单元;所述参考值计算单元用于利用峰值计算用于频谱预整形的参考值,输出给所述放大因子计算单元;所述放大因子计算单元用于利用参考值,计算各标记峰值的放大因子,输出给所述预整形单元;所述预整形单元用于利用所述放大因子,对频谱进行预整形。
所述频谱逆整形单元包括:峰值标记单元、参考值计算单元、缩小因子计算单元、逆整形单元;其中,所述峰值标记单元用于接收采样值,并在频谱整形区域内的采样值中,标记峰值,输出给所述参考值计算单元;所述参考值计算单元用于利用峰值计算用于频谱逆整形的参考值,输出给所述缩小因子计算单元;所述缩小因子计算单元用于利用参考值,计算各标记峰值的缩小因子,输出给所述逆整形单元;所述逆整形单元用于利用所述缩小因子,对频谱进行逆整形。
与实施例2所述的方法相对应,图15所示为本实施例4中在解码端调整量化质量的装置结构图。如图15所示,在解码端调整量化质量的装置包括:增益平衡单元、频谱逆整形单元、逆时频变换单元以及全局增益平衡单元。其中,所述增益平衡单元用于接收量化采样值和缩放因子,并利用所接收的缩放因子,从量化采样值中去除缩放因子的影响得到采样值,并输出给所述频谱逆整形单元;所述频谱逆整形单元接收所述增益平衡单元输出的采样值,对该采样值进行频谱逆整形后输出给所述逆时频变换单元;所述逆时频变换单元从所述频谱逆整形单元中接收采样值,并对采样值进行逆时频变换后,输出给所述全局增益平衡单元;所述全局增益平衡单元接收全局增益和采样值,并对采样值乘以全局增益后输出。全局增益平衡单元可以是乘法器。与编码端相同的,所述解码端的频谱逆整形单元包括:峰值标记单元、参考值计算单元、缩小因子计算单元、逆整形单元;其中,所述峰值标记单元接收采样值,并在频谱整形区域内的采样值中,标记峰值,输出给所述参考值计算单元;所述参考值计算单元用于利用峰值计算用于频谱逆整形的参考值,输出给所述缩小因子计算单元;所述缩小因子计算单元用于利用参考值,计算各标记峰值的缩小因子,输出给所述逆整形单元;所述逆整形单元用于利用所述缩小因子,对频谱进行逆整形。
当然,与上述的实施例1、3所述的方法相对应,以及具体实现方法相对应,可以采用不同结构的调整量化质量的装置,装置中的各单元的功能已在上面详细介绍,在此,不再详细阐述。
以上所述的实施例可以应用于音频编码、视频编码、图像编码等各种编码领域中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (49)

1.一种在编码中调整量化质量的方法,其特征在于,该方法包括:
利用两个或两个以上缩放因子,对用于编码的第一采样值进行调整后,对调整后的第一采样值进行量化得到量化采样值;
从所得到的量化采样值中去除缩放因子的影响得到第二采样值,利用第一采样值和第二采样值得到全局增益;
将所得到的量化采样值、所述两个或两个以上的缩放因子的信息以及所得到的全局增益作为编码流输出。
2.根据权利要求1所述的方法,其特征在于,
所述第一采样值和第二采样值为时域的采样值;
在对第一采样值进行调整之前,进一步包括:将时域的第一采样值转换为频域的第一采样值;
所述利用缩放因子对第一采样值进行调整为:利用缩放因子,对频域的第一采样值进行调整;
所述对调整后的第一采样值进行量化得到量化采样值为:对调整后的频域的第一采样值进行量化得到量化采样值;
所述从量化采样值中得到第二采样值为:从量化采样值中去除缩放因子的影响得到频域的第二采样值;
在得到第二采样值之后,得到全局增益之前,进一步包括:将频域的第二采样值转换为时域的第二采样值;
所述利用第一采样值和第二采样值得到全局增益为:利用时域的第一采样值和时域的第二采样值得到全局增益。
3.根据权利要求2所述的方法,其特征在于,
所述将时域的第一采样值转换为频域的第一采样值为:通过离散傅立叶变换,或快速傅立叶变换,或离散余弦变换,或小波变换,将时域的第一采样值转换为频域的第一采样值。
4.根据权利要求2所述的方法,其特征在于,
所述两个或两个以上缩放因子为:对频域的第一采样值设置的两个或两个以上缩放因子。
5.根据权利要求4所述的方法,其特征在于,
所述对频域的第一采样值设置两个或两个以上缩放因子为:将频域的第一采样值划分为两个或两个以上部分,并对各部分分别设置一个缩放因子。
6.根据权利要求5所述的方法,其特征在于,
所述利用缩放因子对频域的第一采样值进行调整为:对各部分的频域的第一采样值,分别利用对应部分的缩放因子进行调整。
7.根据权利要求6所述的方法,其特征在于,
所述从所得到的量化采样值中去除缩放因子的影响为:按照划分所述频域的第一采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用各部分的缩放因子,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
8.根据权利要求7所述的方法,其特征在于,
所述两个或两个以上的缩放因子的信息作为编码流输出为:将所述两个或两个以上的缩放因子作为编码流输出。
9.根据权利要求6所述的方法,其特征在于,
对各部分分别设置缩放因子后,进一步包括:选择其中一个部分的缩放因子作为基准缩放因子,计算其余部分的缩放因子与该基准缩放因子的比值;
所述从所得到的量化采样值中去除缩放因子的影响为:按照划分所述频域的第一采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用所得到的比值,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
10.根据权利要求9所述的方法,其特征在于,所述两个或两个以上的缩放因子的信息作为编码流输出为:将所述其余部分的缩放因子与该基准缩放因子的比值作为编码流输出。
11.根据权利要求9所述的方法,其特征在于,
所述从所得到的量化采样值中去除缩放因子的影响为:按照划分所述频域的第一采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用基准缩放因子和所得到的比值计算得到各部分的缩放因子,利用各部分的缩放因子,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
12.根据权利要求11所述的方法,其特征在于,所述两个或两个以上的缩放因子的信息作为编码流输出为:将所述基准缩放因子以及所述其余部分的缩放因子与该基准缩放因子的比值作为编码流输出。
13.根据权利要求6所述的方法,其特征在于,
所述对各部分分别设置一个缩放因子为:根据消耗比特数和感知失真,调整各部分的缩放因子得到各部分的最佳缩放因子。
14.根据权利要求13所述的方法,其特征在于,
所述调整各部分的缩放因子得到最佳缩放因子为:
设置缩放因子的基准值,该基准值使消耗比特数小于编码所允许的总比特数;
将各部分的缩放因子在该基准值的基础上进行调整;
判断调整的缩放因子是否使消耗比特数小于编码所允许的总比特数,如果不满足该条件,则直到满足该条件为止继续执行调整缩放因子的步骤,如果满足该条件,则计算感知失真;
判断感知失真是否在无法感知的范围内,如果是,则将本次调整得到的缩放因子作为最佳缩放因子,否则,返回调整缩放因子的步骤,重复调整缩放因子的步骤以及后续步骤。
15.根据权利要求14所述的方法,其特征在于,所述消耗比特数根据频域的第一采样值、频域的第一采样值的个数以及缩放因子估计得到。
16.根据权利要求14所述的方法,其特征在于,所述感知失真根据频域的第一采样值和各部分的缩放因子得到。
17.根据权利要求14所述的方法,其特征在于,
当感知失真在感知的范围内时,重复调整缩放因子的步骤以及后续步骤规定数次;
如果重复规定数次后,感知失真仍在感知的范围内,则从上述重复过程中调整的缩放因子中,选择使感知失真最小的缩放因子作为最佳缩放因子。
18.根据权利要求14所述的方法,其特征在于,
所述将各部分的缩放因子在该基准值的基础上进行调整为:将重要频段部分的缩放因子在基准值的基础上降低,将不重要频段部分的缩放因子在基准值的基础上提升。
19.根据权利要求18所述的方法,其特征在于,
所述重要频段为低频段,所述不重要频段为高频段。
20.根据权利要求2所述的方法,其特征在于,
在对频域的第一采样值利用缩放因子进行调整之前,进一步包括:对频域的第一采样值进行频谱预整形;
从量化采样值中去除缩放因子的影响得到频域的第二采样值之后,转换为时域的第二采样值之前,进一步包括:对频域的第二采样值进行频谱逆整形。
21.根据权利要求2所述的方法,其特征在于,
在对频域的第一采样值利用缩放因子进行调整之后,进行量化之前,进一步包括:对调整后的频域的第一采样值进行频谱预整形;
在量化后,从量化采样值中去除缩放因子的影响之前,进一步包括:对量化采样值进行频谱逆整形。
22.根据权利要求20或21所述的方法,其特征在于,
确定频谱整形区域;
所述对采样值进行频谱预整形为:对所确定的频谱整形区域内的采样值进行频谱预整形;
所述对采样值进行频谱逆整形为:对所确定的频谱整形区域内的采样值进行频谱逆整形。
23.根据权利要求22所述的方法,其特征在于,所述频谱预整形的步骤包括:
在所确定的频谱整形区域内的采样值中,标记采样值的峰值;
利用标记的峰值中的一个峰值,计算用于频谱预整形的参考值;
利用参考值,计算各标记峰值的放大因子;
利用所计算出的放大因子,对频谱进行预整形。
24.根据权利要求23所述的方法,其特征在于,
所述标记采样值的峰值为:在频谱整形区域中,选择一个或一个以上局部区域,并在各局部区域中,选择幅值最大的采样值作为对应局部区域的峰值。
25.根据权利要求24所述的方法,其特征在于,
所述对频谱进行预整形为:除了用于计算参考值的峰值之外,对剩余的峰值所在的局部区域,利用相应峰值的放大因子进行预整形。
26.根据权利要求25所述的方法,其特征在于,
所述预整形为:利用放大因子对峰值进行放大,或者,利用放大因子对峰值及其该峰值所在的局部区域内的采样值进行放大。
27.根据权利要求23所述的方法,其特征在于,
所述计算参考值为:在所标记的峰值中,选择最大峰值,并利用该最大峰值得到参考值。
28.根据权利要求27所述的方法,其特征在于,所述参考值为:最大峰值的幅值,或最大峰值的临近采样点的能量,或最大峰值临近采样点的平均能量。
29.根据权利要求23所述的方法,其特征在于,
所述峰值的放大因子为:参考值与该峰值的比值的第一参数幂的第二参数倍,其中,该第一参数为大于零且小于1的数,该第二参数为任意数。
30.根据权利要求22所述的方法,其特征在于,所述频谱逆整形的步骤包括:
在所确定的频谱整形区域内的采样值中,标记采样值的峰值;
利用标记的峰值中的一个峰值,计算用于频谱逆整形的参考值;
利用参考值,计算各标记峰值的缩小因子;
利用所计算出的缩小因子,对频谱进行逆整形。
31.根据权利要求2所述的方法,其特征在于,
所述利用时域的第一采样值和时域的第二采样值得到全局增益为:所述全局增益使得所述时域的第一采样值和所述时域的第二采样值乘以所述全局增益之间的均方误差最小。
32.一种在解码中调整量化质量的方法,对编码端输出的编码流进行解码得到解码流,其特征在于,该方法包括:
从解码流中获取量化采样值、两个或两个以上缩放因子的信息以及全局增益;
利用所述两个或两个以上缩放因子的信息,从所述量化采样值中去除缩放因子的影响得到采样值后,乘以全局增益。
33.根据权利要求32所述的方法,其特征在于,
所述量化采样值为频域的量化采样值;
所述从所述量化采样值中去除缩放因子的影响得到采样值为:从所述量化采样值中去除缩放因子的影响得到频域的采样值;
从所述量化采样值中去除缩放因子的影响得到采样值后,在乘以全局增益之前进一步包括:将频域的采样值转换为时域的采样值。
34.根据权利要求33所述的方法,其特征在于,
从所述频域的量化采样值中去除缩放因子的影响得到频域的采样值后,将频域的采样值转换为时域的采样值之前,进一步包括:对频域的采样值进行频域逆整形,
或者,从所述频域的量化采样值中去除缩放因子的影响得到频域的采样值之前,进一步包括:对所述频域的量化采样值进行频谱逆整形。
35.根据权利要求32至34中任一项所述的方法,其特征在于,
所述从解码流中获取的缩放因子的信息为:所有缩放因子;
所述从所得到的量化采样值中去除缩放因子的影响为:按照在编码时划分频域的采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用各部分的缩放因子,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
36.根据权利要求32至34中任一项所述的方法,其特征在于,
所述从解码流中获取的缩放因子的信息为:将一个缩放因子作为基准缩放因子,其余缩放因子与该基准缩放因子的比值;
所述从所得到的量化采样值中去除缩放因子的影响为:按照在编码时划分频域的采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用所得到的比值,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
37.根据权利要求32至34中任一项所述的方法,其特征在于,
所述从解码流中获取的缩放因子的信息为:将一个缩放因子作为基准缩放因子,其余缩放因子与该基准缩放因子的比值以及该基准缩放因子;
所述从所得到的量化采样值中去除缩放因子的影响为:按照在编码时划分频域的采样值的方式,将量化采样值划分为相应的两个或两个以上部分,并利用基准缩放因子和比值计算得到各部分的缩放因子,利用各部分的缩放因子,从相应部分的量化采样值中去除对应部分的缩放因子的影响。
38.根据权利要求34所述的方法,其特征在于,所述频谱逆整形的步骤包括:
在编码时所确定的频谱整形区域内的采样值中,标记采样值的峰值;
利用标记的峰值中的一个峰值,计算用于频谱逆整形的参考值;
利用参考值,计算各标记峰值的缩小因子;
利用所计算出的缩小因子,对频谱进行逆整形。
39.一种在编码中调整量化质量的装置,其特征在于,该装置包括:多缩放因子控制单元,量化单元,增益平衡单元,全局增益计算单元;
其中,所述多缩放因子控制单元用于接收第一采样值,对第一采样值设置两个或两个以上缩放因子,利用缩放因子对第一采样值进行调整,将调整后的第一采样值输出给所述量化单元;
所述量化单元用于对所接收的第一采样值进行量化得到量化采样值并输出给所述增益平衡单元;
所述增益平衡单元用于接收量化采样值,从量化采样值中去除缩放因子的影响得到第二采样值,并输出给所述全局增益计算单元;
全局增益计算单元用于接收第一采样值和第二采样值,并利用第一采样值和第二采样值得到全局增益。
40.根据权利要求39所述的装置,其特征在于,该装置进一步包括:时频变换单元和逆时频变换单元;
所述时频变换单元用于接收第一采样值,并对第一采样值进行时频变换后,输出给所述多缩放因子控制单元;
所述逆时频变换单元用于从所述增益平衡单元中接收第二采样值,并对第二采样值进行逆时频变换后,输出给所述全局增益计算单元。
41.根据权利要求40所述的装置,其特征在于,该装置进一步包括:频谱预整形单元和频谱逆整形单元;
所述频谱预整形单元用于接收所述时频变换单元输出的第一采样值,对该第一采样值进行频谱预整形后输出给所述多缩放因子控制单元;所述频谱逆整形单元用于接收所述增益平衡单元输出的第二采样值,对该第二采样值进行频谱逆整形后输出给所述逆时频变换单元;
或者,
所述频谱预整形单元用于接收所述多缩放因子控制单元输出的第一采样值,对该第一采样值进行频谱预整形后输出给所述量化单元;所述频谱逆整形单元用于接收所述量化单元输出的量化采样值,对该量化采样值进行频谱逆整形后输出给所述增益平衡单元。
42.根据权利要求39至41中任一项所述的装置,其特征在于,所述多缩放因子控制单元包括:缩放因子设置单元和采样值调整单元;
所述缩放因子设置单元用于对第一采样值设置两个或两个以上缩放因子,并将所设置的缩放因子输出给所述采样值调整单元;
所述采样值调整单元用于接收缩放因子,并利用缩放因子对第一采样值进行调整。
43.根据权利要求42所述的装置,其特征在于,所述缩放因子设置单元包括:基准值设置单元、缩放因子调整单元、消耗比特数估计单元、感知失真计算单元;
所述基准值设置单元用于设置缩放因子的基准值,并输出给所述缩放因子调整单元;
所述缩放因子调整单元用于根据基准值调整缩放因子,并输出给所述消耗比特数估计单元和感知失真计算单元;
所述消耗比特数估计单元用于根据缩放因子,估计消耗比特数,并判断消耗比特数是否小于编码所允许的总比特数,将判断结果发送给所述缩放因子调整单元;
所述感知失真计算单元用于根据缩放因子,计算感知失真,并判断感知失真是否在无法感知的范围内,将判断结果发送给所述缩放因子调整单元。
44.根据权利要求41所述的装置,其特征在于,所述频谱预整形单元包括:峰值标记单元、参考值计算单元、放大因子计算单元、预整形单元;
其中,所述峰值标记单元用于接收第一采样值,并在频谱整形区域内的第一采样值中,标记峰值,输出给所述参考值计算单元;
所述参考值计算单元用于利用峰值计算用于频谱预整形的参考值,输出给所述放大因子计算单元;
所述放大因子计算单元用于利用参考值,计算各标记峰值的放大因子,输出给所述预整形单元;
所述预整形单元用于利用所述放大因子,对频谱进行预整形。
45.根据权利要求41所述的装置,其特征在于,所述频谱逆整形单元包括:峰值标记单元、参考值计算单元、缩小因子计算单元、逆整形单元;
其中,所述峰值标记单元用于接收采样值,并在频谱整形区域内的采样值中,标记峰值,输出给所述参考值计算单元;
所述参考值计算单元用于利用峰值计算用于频谱逆整形的参考值,输出给所述缩小因子计算单元;
所述缩小因子计算单元用于利用参考值,计算各标记峰值的缩小因子,输出给所述逆整形单元;
所述逆整形单元用于利用所述缩小因子,对频谱进行逆整形。
46.一种在解码中调整量化质量的装置,其特征在于,该装置包括:增益平衡单元和全局增益平衡单元;
其中,所述增益平衡单元用于接收量化采样值和缩放因子,并利用所接收的缩放因子,从量化采样值中去除缩放因子的影响得到采样值,并输出给所述全局增益平衡单元;
所述全局增益平衡单元用于接收全局增益和采样值,并对采样值乘以全局增益后输出。
47.根据权利要求46所述的装置,其特征在于,该装置进一步包括:逆时频变换单元;
所述逆时频变换单元用于从所述增益平衡单元中接收采样值,并对采样值进行逆时频变换后,输出给所述全局增益平衡单元。
48.根据权利要求47所述的装置,其特征在于,该装置进一步包括:频谱逆整形单元;
所述频谱逆整形单元用于接收所述增益平衡单元输出的采样值,对该采样值进行频谱逆整形后输出给所述逆时频变换单元;
或者,
所述频谱逆整形单元用于接收量化采样值,对该量化采样值进行频谱逆整形后输出给所述增益平衡单元。
49.根据权利要求48所述的装置,其特征在于,所述频谱逆整形单元包括:峰值标记单元、参考值计算单元、缩小因子计算单元、逆整形单元;
其中,所述峰值标记单元用于接收采样值,并在频谱整形区域内的采样值中,标记峰值,输出给所述参考值计算单元;
所述参考值计算单元用于利用峰值计算用于频谱逆整形的参考值,输出给所述缩小因子计算单元;
所述缩小因子计算单元用于利用参考值,计算各标记峰值的缩小因子,输出给所述逆整形单元;
所述逆整形单元用于利用所述缩小因子,对频谱进行逆整形。
CN 200610164330 2006-12-01 2006-12-01 一种在编解码中调整量化质量的方法和装置 Active CN101192410B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN 200610164330 CN101192410B (zh) 2006-12-01 2006-12-01 一种在编解码中调整量化质量的方法和装置
PCT/CN2007/003799 WO2008064577A1 (fr) 2006-12-01 2007-12-26 Procédé et appareil permettant d'ajuster la qualité de la quantification dans un codeur et décodeur
EP07855801A EP2104095A4 (en) 2006-12-01 2007-12-26 METHOD AND APPARATUS FOR ADJUSTING THE QUALITY OF QUANTIFICATION IN AN ENCODER AND DECODER

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610164330 CN101192410B (zh) 2006-12-01 2006-12-01 一种在编解码中调整量化质量的方法和装置

Publications (2)

Publication Number Publication Date
CN101192410A true CN101192410A (zh) 2008-06-04
CN101192410B CN101192410B (zh) 2010-05-19

Family

ID=39467436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610164330 Active CN101192410B (zh) 2006-12-01 2006-12-01 一种在编解码中调整量化质量的方法和装置

Country Status (3)

Country Link
EP (1) EP2104095A4 (zh)
CN (1) CN101192410B (zh)
WO (1) WO2008064577A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和系统
CN101964690B (zh) * 2009-07-22 2012-07-04 联芯科技有限公司 一种harq合并译码方法、装置及系统
CN102792371A (zh) * 2010-03-17 2012-11-21 索尼公司 编码设备和编码方法、解码设备和解码方法及程序
CN102821069A (zh) * 2011-06-07 2012-12-12 中兴通讯股份有限公司 基站及基站侧上行数据压缩方法
CN105721879A (zh) * 2016-01-26 2016-06-29 北京空间飞行器总体设计部 一种深空探测图像分段保护下的感兴趣区域传输方法
CN111429944A (zh) * 2020-04-17 2020-07-17 北京百瑞互联技术有限公司 一种编解码器开发测试优化方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103354091B (zh) * 2013-06-19 2015-09-30 北京百度网讯科技有限公司 基于频域变换的音频特征提取方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
CN1095253C (zh) * 1994-11-04 2002-11-27 皇家菲利浦电子有限公司 宽带数字信息信号的编码和解码设备和方法
US5864802A (en) * 1995-09-22 1999-01-26 Samsung Electronics Co., Ltd. Digital audio encoding method utilizing look-up table and device thereof
WO1999007158A2 (en) * 1997-07-29 1999-02-11 Koninklijke Philips Electronics N.V. Variable bitrate video coding method and corresponding video coder
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP3594829B2 (ja) * 1999-02-24 2004-12-02 アルパイン株式会社 Mpegオーディオの復号化方法
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
CN1318904A (zh) * 2001-03-13 2001-10-24 北京阜国数字技术有限公司 一种实用的基于小波变换的声音编解码器
TWI220753B (en) * 2003-01-20 2004-09-01 Mediatek Inc Method for determining quantization parameters
JP4212591B2 (ja) 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置
KR100668299B1 (ko) * 2004-05-12 2007-01-12 삼성전자주식회사 구간별 선형양자화를 이용한 디지털 신호 부호화/복호화방법 및 장치

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和系统
CN101964690B (zh) * 2009-07-22 2012-07-04 联芯科技有限公司 一种harq合并译码方法、装置及系统
CN102792371A (zh) * 2010-03-17 2012-11-21 索尼公司 编码设备和编码方法、解码设备和解码方法及程序
CN102792371B (zh) * 2010-03-17 2014-10-29 索尼公司 编码设备和编码方法、以及解码设备和解码方法
CN102821069A (zh) * 2011-06-07 2012-12-12 中兴通讯股份有限公司 基站及基站侧上行数据压缩方法
CN105721879A (zh) * 2016-01-26 2016-06-29 北京空间飞行器总体设计部 一种深空探测图像分段保护下的感兴趣区域传输方法
CN105721879B (zh) * 2016-01-26 2018-08-31 北京空间飞行器总体设计部 一种深空探测图像分段保护下的感兴趣区域传输方法
CN111429944A (zh) * 2020-04-17 2020-07-17 北京百瑞互联技术有限公司 一种编解码器开发测试优化方法及系统
CN111429944B (zh) * 2020-04-17 2023-06-02 北京百瑞互联技术有限公司 一种编解码器开发测试优化方法及系统

Also Published As

Publication number Publication date
WO2008064577A1 (fr) 2008-06-05
CN101192410B (zh) 2010-05-19
EP2104095A4 (en) 2012-07-18
WO2008064577A8 (fr) 2009-05-07
EP2104095A1 (en) 2009-09-23

Similar Documents

Publication Publication Date Title
JP6518361B2 (ja) オーディオ/音声符号化方法およびオーディオ/音声符号化装置
CN101192410B (zh) 一种在编解码中调整量化质量的方法和装置
KR101428608B1 (ko) 대역폭 확장을 위한 스펙트럼 평탄도 제어
US9111532B2 (en) Methods and systems for perceptual spectral decoding
CN101521014B (zh) 音频带宽扩展编解码装置
CN102194457B (zh) 音频编解码方法、系统及噪声水平估计方法
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
CN1702974B (zh) 用于对数字信号编码/解码的方法和设备
EP0910067A1 (en) Audio signal coding and decoding methods and audio signal coder and decoder
CN100459436C (zh) 一种音频编码中比特分配的方法
KR20080049085A (ko) 음성 부호화 장치 및 음성 부호화 방법
WO2005096274A1 (fr) Dispositif et procede de codage/decodage audio ameliores
CN103069484A (zh) 时/频二维后处理
CN101297356A (zh) 音频压缩
CN101662288A (zh) 音频编码、解码方法及装置、系统
CN102194458B (zh) 频带复制方法、装置及音频解码方法、系统
CN101281748B (zh) 用编码索引实现的空缺子带填充方法及编码索引生成方法
CN101620854A (zh) 频带扩展的方法、系统和设备
CN101197576A (zh) 一种音频信号编码、解码方法
Singh et al. Audio watermarking based on quantization index modulation using combined perceptual masking
CN101751928B (zh) 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
CN1388517A (zh) 一种基于伪小波滤波的音频编/解码技术
CN105261373B (zh) 用于带宽扩展编码的自适应栅格构造方法和装置
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
CN101071570A (zh) 耦合声道的编、解码处理方法、音频编码装置及解码装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant