CN101061534A - 音频信号编码装置及方法 - Google Patents

音频信号编码装置及方法 Download PDF

Info

Publication number
CN101061534A
CN101061534A CNA2005800395626A CN200580039562A CN101061534A CN 101061534 A CN101061534 A CN 101061534A CN A2005800395626 A CNA2005800395626 A CN A2005800395626A CN 200580039562 A CN200580039562 A CN 200580039562A CN 101061534 A CN101061534 A CN 101061534A
Authority
CN
China
Prior art keywords
spectrum
mentioned
frame
quantized
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800395626A
Other languages
English (en)
Other versions
CN101061534B (zh
Inventor
船越正伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2005328945A external-priority patent/JP4822816B2/ja
Application filed by Canon Inc filed Critical Canon Inc
Priority claimed from PCT/JP2005/021014 external-priority patent/WO2006054583A1/ja
Publication of CN101061534A publication Critical patent/CN101061534A/zh
Application granted granted Critical
Publication of CN101061534B publication Critical patent/CN101061534B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种音频信号编码装置,具备:帧分割部(1);听觉心理运算部(2);滤波器组部(3);比例因子计算部(4),其使用听觉心理运算部(2)的运算结果对各频带的谱进行加权;量化阶确定部(7),其通过从由加权了的量化前的全部谱的听觉信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;谱量化部(8);以及位整形部(9),其形成并输出对量化谱进行了整形而得到的位流。量化阶确定部包括量化谱信息量预测部基于分配给要被编码的帧的位量来预测全部量化谱的信息量。

Description

音频信号编码装置及方法
技术领域
本发明涉及一种音频信号的编码装置及方法。
背景技术
近年来,高音质且高效的音频信号编码技术被广泛利用于DVD-Video的音轨、便携式音频播放器、音乐发布、在家庭LAN的家庭服务器中存储乐曲等而被广泛普及,并且其重要性也在增加。
这种音频信号编码技术大多利用变换编码技术来进行时间-频率变换。例如,MPEG-2AAC、Dolby Digital(AC-3)等仅使用MDCT(Modified Discrete Cosine Transform:改良离散余弦变换)等正交变换来形成滤波器组。另外,MPEG-1 Audio Layer III(MP3)和ATRAC(在MD(迷你盘)中使用的编码方式)通过将多级QMF(Quadrature Mirror Filter:正交镜像滤波器)等子带分割滤波器与正交变换连接来形成滤波器组。
这些变换编码技术利用人的感知特性进行掩蔽分析。通过去除判断为要被掩蔽的谱分量、或者允许掩蔽量化误差,减少了用于谱表现的信息量,从而提高了压缩效率。
这些变换编码技术通过对谱分量进行非线性量化来压缩谱的信息量。例如,MP3和AAC通过取各谱分量的0.75次幂来压缩信息量。
这些变换编码技术合成滤波器组针对基于人的听觉灵敏度的频率分辨率而设定的各分割频带变换成频率分量的输入信号。然后,通过在量化时根据听觉分析结果确定各分割频带的标准化系数、利用标准化系数和量化谱的组合来表现频率分量,来减少信息量。该标准化系数实际上是用来调整每个分割频带的量化粗细度(coarseness)的变量。当标准化系数变化1时,量化粗细度变化1个阶。MPEG-2AAC将该分割频带称为比例因子频带(SFB,scalefactor band),将标准化系数称为比例因子。
这些变换编码方式通过控制作为编码单位的整个1帧的量化粗细度来控制代码量。在很多变换编码方式中。使用取给定基数的整数次幂的幅度(width)来逐步地控制量化粗细度,将该整数称为量化阶(quantization step)。在MPEG音频标准中,将该设定整个帧的量化粗细度的量化阶称为“全局增益”或者“共用比例因子”。另外,通过用量化阶的相对值来表现上述比例因子来减少这些变量的代码所需的信息量。
例如,在MP3和AAC中,当这些变量变化1时,实际量化粗细度变化2的3/16次幂。
在变换编码方式的量化处理中,控制比例因子来控制量化失真,从而通过反映听觉运算的结果来掩蔽量化误差。同时,必须通过控制量化阶按照需要来调整整个帧的量化粗细度,从而进行整个帧的代码量控制。由于确定量化粗细度的这两种不同类型的数值对编码质量有重大影响,因此需要慎重且准确地、同时高效地进行这两种不同的控制处理。
MPEG-1 Audio Layer III(MP3)的既有标准(ISO/IEC 11172-3)和MPEG-2AAC的既有标准(ISO/IEC 13818-7)作为按照需要在量化时控制比例因子和全局增益的方法发表了通过包括失真控制循环(外循环)和代码量控制循环(内循环)的双循环来进行重复处理的方法。下面,参考附图说明该方法。应当指出,为方便起见以MPEG-2AAC的情况为例给出以下说明。
图19是在ISO/IEC既有标准中记载的量化处理的简单流程图。
在步骤S501中,所有的SFB的比例因子和全局增益被初始化为0,该处理进入失真控制循环(外循环)。
在失真控制循环中,首先执行代码量控制循环(内循环)。
在代码量控制循环中,在步骤S502中,按照下述量化式对1帧即1024个谱分量进行量化。
X q = Int [ [ | x i | · 2 - 1 / 4 · ( global _ gain - scalefac ) ] 3 / 4 + 0.4054 ] . . . ( 1 )
其中,Xq是量化谱,xi是量化前的谱(MDCT系数),global_gain是全局增益,scalefac是包含该谱分量的SFB的比例因子。
接着,在步骤S503中,计算在对这些量化谱进行霍夫曼编码时的1帧的使用位数,在步骤S504中将该使用位数与分配给帧的位数进行比较。在使用位数大于所分配的位数的情况下,在步骤S505中将全局增益增加1,使量化粗细度变粗,该处理返回步骤S502中的谱量化。进行该重复直到在量化后所需的位数小于所分配的位数为止,确定该时刻的全局增益,从而结束代码量控制循环。
在步骤S506中,对利用代码量控制循环进行了量化的谱进行逆量化,计算逆量化了的谱与量化前的谱之间的差来得到量化误差。对每个SFB合成量化误差。
在步骤S507中,检查在全部SFB中比例因子是否大于0、或者量化误差是否在允许的误差范围内。在发现了不满足这些条件的SFB的情况下,该处理进入步骤S508,将量化误差不在允许的误差范围内的SFB的比例因子增加1,再次重复失真控制循环处理。应当指出,每个SFB的允许误差是在量化处理前通过听觉运算来计算的。
如上所述,在ISO既有标准中记载的量化处理方法由双循环构成,全局增益和比例因子只经过一个步长的控制。因此,不断重复谱量化和位计算,直到该处理收敛为止。
在例如MPEG-2AAC的情况下,每处理1次,谱量化进行1024次式(1)的计算。由于在位计算时要搜索11个不同霍夫曼代码表,因此如果对霍夫曼代码表全部进行搜索,则位计算的计算量必然变大。
并且,在失真控制循环中在逆量化后计算量化误差,该处理也需要高的计算复杂度。因此,需要庞大的处理复杂度直到该双循环收敛为止。
为了解决该问题,进行了各种尝试以通过减少双循环的重复次数来减小计算复杂度。
例如,日本特开2003-271199号公报公开了如下技术:根据霍夫曼代码表的特性不是使用1个步长而是使用利用阶数确定的2个或者更多个步长来控制共用比例因子和比例因子。由此,减少双循环的循环次数,从而减小计算复杂度。
日本特开2001-184091号公报公开了如下方法:在首先算出量化阶的估计值、然后根据MNR算出比例因子之后,执行普通的内循环。
另外,A.D.Duenes、R.Perez、B.Rivas等,“A robust and efficientimplementation of MPEG-2/4AAC Natural Audio Coders”,AES112th Convention Paper(2002)公开了如下技术:通过使用将式(1)进行变形所得到的式和利用听觉分析得到的每个SFB的允许误差能量,在进行谱量化前按照需要计算比例因子。由此,去除双循环外层的失真控制循循环以减少计算负荷。
使用这些现有技术,可以加快量化处理的双循环的收敛,从而一定程度地减少量化处理的计算复杂度。
发明内容
发明要解决的问题
然而,现有技术无法完全避免在ISO既有标准中记载的双循环的重复。因此,如果不数次到数十次地重复进行谱量化就不能完成量化处理,量化处理在整个编码处理中所占的计算复杂度依然大。
特别是,能够通过在双循环中利用听觉运算结果事先计算比例因子来去掉外层的失真控制循环,然而,现有技术不可能在量化前计算量化阶。
因此,现有技术重复进行谱量化和位计算,从而浪费了计算资源。
需要高计算复杂度和量化处理的处理,已知听觉心理分析。因此,当减少计算复杂度优先于编码效率时,具体地说当例如在相对廉价的便携视频摄影设备等中降低功耗优先于音质时,进行编码而不进行听觉心理分析。此时,在量化处理中,在全部分割频带中将比例因子一律设定为同一值,从而去除了外层的失真控制循环,减小了计算复杂度。
在这种不进行听觉心理分析的结构中类似地产生上述问题。即使当在全部分割频带中将比例因子一律设为同一值时,也只能省略外层的失真控制循环,现有技术不可能在量化前计算量化阶。因此,在现有技术中在代码量控制循环中重复进行谱量化和位计算,从而浪费了计算资源。
并且,由于不进行听觉心理分析的结构不计算作为代码量控制的基础的PE(感知熵,perceptual entropy),因此无法将在位贮存器中保留的保留位分配给帧,进而导致音质劣化。
因此,本发明的目的在于减少音频信号编码中的量化处理所需的计算复杂度。
本发明的其他目的在于,在不进行听觉心理分析的音频信号编码中,将由于不进行听觉心理分析而导致的音质劣化减小到最小、且减少量化所需的计算复杂度。
解决问题的方案
根据本发明一个方面的音频信号编码装置,具备:帧分割部,其针对各信道将音频输入信号分割成处理单位帧;听觉心理运算部,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;滤波器组部,其按照由上述听觉心理运算部确定的上述变换块长度将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;比例因子计算部,其将从上述滤波器组部输出的上述频谱分割成多个频带,使用上述听觉心理运算部的运算结果对各频带的谱进行加权;量化阶确定部,其通过从由上述比例因子计算部加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;谱量化部,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及位整形部,其形成并输出按照规定格式对从上述谱量化部输出的量化谱进行了整形而得到的位流,其中,上述量化阶确定部包括量化谱信息量预测部,该量化谱信息量预测部基于分配给要被编码的帧的位量来预测上述全部量化谱的信息量。
根据本发明其他方面的音频信号编码装置,具备:帧分割部,其针对各信道将音频输入信号分割成处理单位帧;滤波器组部,其逐帧错开地进行将从上述帧分割部得到的两个连续帧的时域信号变换为频谱的处理;谱信息量计算部,其计算从上述滤波器组部输出的上述频谱的信息量作为量化前的谱信息量;量化谱信息量预测部,其基于从比特率和采样率算出的帧平均位量来预测量化谱信息量;量化阶确定部,其通过从由上述谱信息量计算部算出的上述量化前的谱信息量中减去由上述量化谱信息量预测部预测的上述量化谱信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;谱量化部,其利用由上述量化阶确定部确定的上述量化阶,对上述频谱进行量化;位贮存器,其对遵循编码标准的保留位量进行管理以符合上述标准;位整形部,其通过按照规定格式对由上述谱量化部量化了的频谱进行整形来生成位流;以及谱分配位计算部,其通过在上述帧平均位量上加上存储在上述位贮存器中的保留位量的一部分来计算谱分配位量,其中,上述谱量化部基于由上述谱分配位计算部算出的上述谱分配位量来进行代码量控制。
从以下参考附图对示例性实施例的说明,本发明的其他特征以及优点变得明显。
附图说明
图1是表示根据本发明第1实施方式的音频信号编码装置的配置例子的框图;
图2是根据本发明第2实施方式的音频信号编码处理的流程图;
图3是根据本发明第2实施方式的量化阶预测处理的流程图;
图4是根据本发明第2实施方式的谱量化处理的流程图;
图5是表示根据本发明第2实施方式的音频信号编码装置的配置例子的框图;
图6表示保存了根据本发明第2实施方式的音频信号编码处理程序的存储介质的内容结构的例子;
图7是表示向PC中安装根据本发明第2实施方式的音频信号编码处理程序的图;
图8表示根据本发明第2实施方式的内存映射(memory map)的例子;
图9表示根据本发明第2实施方式的输入信号缓冲器的结构的例子;
图10是表示根据本发明第3实施方式的音频信号编码装置的配置例子的框图;
图11是根据本发明第4实施方式的量化阶预测处理的流程图;
图12是根据本发明第4实施方式的谱分配位算出处理的流程图;
图13是表示根据本发明第5实施方式的音频信号编码装置的配置例子的框图;
图14是根据本发明第6实施方式的音频信号编码处理的流程图;
图15是根据本发明第6实施方式的量化阶预测处理的流程图;
图16是根据本发明第6实施方式的谱量化处理的流程图;
图17表示根据本发明第6实施方式的内存映射的例子;
图18表示根据本发明第6实施方式的输入信号缓冲器的结构的例子;以及
图19是根据现有ISO既有标准的量化处理的流程图。
具体实施方式
本发明的主要目的在于基于如下想法在实际量化前求出量化阶,所述想法是通过将量化前的信息量除以量化后的信息量从而能够求出整体量化粗细度。应当指出,通常由基数的量化阶次幂来给出量化粗细度。因此,通过采用将该基数作为底的对数以求出量化阶,信息量的除法变化为计算信息量之间的差。当将该差乘以由量化的步长确定的系数时,能够求出准确的量化阶。并且,实际量化后的信息量在量化后才能求出。然而,由于能够从分配给帧的代码量预测实际量化后的信息量,因此本发明利用该预测在量化前求出准确的量化阶。
另外,本发明在量化前的预测时使用帧平均代码量。在实际的量化时,本发明在帧平均代码量上加上在位贮存器中保留的保留位的一部分,以和为基准控制代码量。由此,即使当量化阶的预测值中产生了少许误差时,也通过一次谱量化来完成量化处理。并且,对信息量大的帧自动分配保留位的一部分,而不进行听觉分析。
根据本发明,由于在首先计算并确定比例因子、然后能够通过使用该值的计算来基本准确地计算量化阶,因此可以通过大约一次谱量化和位计算来完成量化。
参照附图详细说明本发明的优选实施方式。本发明不限于公开的实施方式,而只是表示有利于实施本发明的具体例子。在实施方式中说明的全部特征的组合不一定是作为本发明的解决方案而必须的。
第1实施方式
图1是表示根据本实施方式的音频信号编码装置的配置例子的框图。在图1中,粗线表示数据信号,细线表示控制信号。
在图1所示的配置中,附图标记1表示将音频输入信号分割成作为处理单位的帧的帧分割器。将分割成帧的音频输入信号发送到听觉心理运算器2和滤波器组3(下面说明)。
附图标记2表示听觉心理运算器,其针对各帧对音频输入信号进行分析,在比SFB更精细的分割频带中进行掩蔽计算。作为运算的结果,将块类型输出到滤波器组3,将每个SFB的信号对掩蔽比(SMR,signal to mask ratio)输出到比例因子计算器4。
附图标记3表示滤波器组,其对从帧分割器1输入的时间信号施加由听觉心理运算器2指定的块类型的窗,然后以所指定的块长度进行时间-频率变换,从而将该时间信号变换成频谱。
附图标记4表示比例因子计算器,其基于各SFB的SMR(信号对掩蔽比)和频谱计算各SFB的允许误差能量,基于该允许误差能量确定全部SFB的比例因子。
附图标记5表示谱分配位计算器,其计算要分配给量化谱代码的位数。
附图标记6表示量化谱总量预测器,其基于谱分配位数来预测量化后的谱总量。
附图标记7表示量化阶计算器,其通过计算量化前的谱的感知信息量、从量化后的谱总量中减去求出的量化信息量来计算量化阶。
附图标记8表示谱量化器,其对各频谱进行量化。
附图标记9表示位整形器,其将比例因子和量化谱按照需要整形为规定的格式,生成并输出位流。
下面说明具有上述配置的音频信号编码装置中的音频信号处理操作。
应当指出,为了便于说明,本实施方式以MPEG-2AAC作为编码方式的例子给出以下说明。然而,使用可应用类似量化方法的其他编码方式,能够以相同的方法实现本发明。
在处理之前对各部进行初始化。通过该初始化,将量化阶和全部比例因子的值设置为0。
帧分割器1将音频PCM信号等音频输入信号分割成帧单位,将其发送到听觉心理运算器2和滤波器组3。在MPEG-2AACLC(Low-Complexity:低复杂度)框架(profile)的情况下,1帧由1024个采样PCM信号构成,输出该PCM信号。
听觉心理运算器2按照需要分析从帧分割器1输出的输入信号以进行听觉掩蔽分析,将块类型输出到滤波器组3,将每个SFB的信号对掩蔽比(SMR)输出到比例因子计算器4。应当指出,对本领域技术人员在听觉心理运算器2中进行的分析、掩蔽计算是已知的,因此不对其进行详细说明。
滤波器组3按照从听觉心理运算器2输出的块类型,将来自帧分割器1的2048个采样的时域信号即包括当前帧的输入信号和先前帧的输入信号的2个帧变换成频域信号。在本实施方式中,将先前帧的输入信号保持在滤波器组3内的缓冲器中。当块类型使用长的块长度时,滤波器组3对包含输入信号的2048个采样的一个块施加形状与块类型相应的窗,执行MDCT,输出1024个频谱。当块类型使用短的块长度时,滤波器组3对将输入信号的2048个采样中的第448个采样作为开头的包含256个采样的一个块施加窗。之后,滤波器组3进行执行MDCT以将输入信号每次错开128个采样地将128个频率分量输出8次的变换。由此,得到8组频谱。
比例因子计算器4根据从滤波器组3输出的谱分量和从听觉心理运算器2输出的各SFB的SMR值计算各SFB的允许误差能量,基于算出的允许误差能量来计算各SFB的比例因子。基于允许误差能量来计算比例因子的方法对本领域技术人员是已知的,因此对其不进行详细说明。例如,当使用上述非专利文献1中记载的方法时,在MPEG-2AAC中能够通过下式求出SFB b中的比例因子scalefac[b]:
scalefac [ b ] = Int [ - 16 3 · [ 1 2 · log 2 x min [ b ] + log 2 ( 3 4 ) - 1 4 · log 2 x avg ] ] . . . ( 2 )
其中,xavg是包含在SFB b中的谱分量的平均水平。另外,xmin[b]是SFB b的允许误差能量。假设SFB b的谱能量为energy[b]、信号对掩蔽比为SMR[b]、包含在SFB b中的谱数量为sfb_width[b]。则该xmin[b]通过下式求出:
x min [ b ] = energy [ b ] SMR [ b ] / sfb _ width [ b ] . . . ( 3 )
谱分配位计算器5计算在对从比例因子计算器4输出的比例因子进行霍夫曼编码后的位数,将其从所指定的帧位数中减去。由此,计算器5计算要分配给量化谱的位数,将其输出到量化谱总量预测器6。
量化谱总量预测器6基于从谱分配位计算器5输出的位数进行量化谱总量的预测计算。在本实施方式中,使用基于在由现有的量化器进行量化时谱分配位数和量化谱总量之间的关系的实际测量结果建立的近似式进行该计算。例如,设该近似式为F(x),谱分配位数为spectrum_bits。则能够通过下式求出预测的量化谱总量:
Σ i X q ≈ F ( spectrum _ bits ) . . . ( 4 )
量化阶计算器7计算通过将从滤波器组3输出的频谱乘以作为感知权重的比例因子而得到的值的总和,基于该总和计算量化前的频谱的感知信息量。接着,计算器7基于从量化谱总量预测器6输出的量化谱总量计算量化谱的信息量。
最后,计算器7通过从量化前谱的感知信息量中减去量化谱信息量并将差乘以从量化粗细度的步长得到的系数,来计算作为整个帧的量化粗细度的量化阶。
具体地说,在MPEG-2AAC的情况下,通过如下计算得到量化阶的预测值:
global _ gain = Int [ 16 3 · [ log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] - log 2 Σ i X q ] ] . . . ( 5 )
其中,Xq是量化谱,xi是量化前的谱,global_gain是全局增益(量化阶),scalefac是包括该谱分量的SFB的比例因子。计算总和的i的范围是1帧、即0≤i≤1023。
在式(5)中,下面所示的右边第1项
log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ]
是量化前的整个谱的感知信息量,即通过将各谱乘以作为感知权重的比例因子而得到的值的总和。另一方面,作为右边第2项的
log 2 Σ i X q
是谱的信息量,该项中的
Σ i X q
是量化谱的总和,即由量化谱总量预测器6预测的值。如前所述,例如通过近似式(4)的计算来得到该值。
应当指出,能够通过对谱量化式(1)适当进行变形而得到式(5)。
谱量化器8按照从比例因子计算器4输出的比例因子和从量化阶计算器7输出的量化阶对1024个频谱进行量化。具体地说,例如在MPEG-2AAC的情况下,量化器8使用式(1)计算量化谱,对整个帧所消耗的位数进行计数。
在使用位数超过了谱分配位数的情况下,通过增加量化阶来重复谱量化,使得使用位数等于或者小于谱分配位数。然而,由于量化阶计算器7的计算是准确的,因此大多情况下只进行1次量化谱计算和位计算。
位整形器8根据规定格式将各SFB的比例因子和量化谱整形为位流,输出该位流。
如以上所说明,根据本实施方式的音频信号编码装置基于分配给每个帧的位数预测量化后的谱总量,在量化前后计算全部谱的信息量之间的差。由此,在谱量化前可大致准确地预测量化阶。因此,减少了调整量化阶的重复次数,能够快速地完成量化处理。
第2实施方式
还能够作为在个人计算机(PC)等通用计算机上运行的软件程序来实施本发明。
图5是表示根据本实施方式的音频信号编码装置的配置例子的框图。
在图5所示的配置中,附图标记100表示CPU,其进行用于音频信号编码处理的运算、逻辑判断等,CPU 100经总线102控制各结构要素。
附图标记101表示存储器,其保存本实施方式的配置例子中的基本I/O程序、正在执行的程序代码、程序处理时所需的数据等。
附图标记102表示总线,其传送指定要由CPU 100控制的结构要素的地址信号,传送指定要由CPU 100控制的每个结构要素的控制信号,在各结构设备间的进行数据转送。
附图标记103表示终端,其启动装置、设定各种条件和输入信号、发出编码开始指令。
附图标记104表示提供用于存储数据、程序等的外部存储区的外部存储装置,通过例如硬盘驱动等来实现。外部存储装置104除了存储OS之外还存储程序、数据等,在需要时CPU 100调用存储的数据、程序。如后所述,音频信号编码处理程序也安装在该外部存储装置104中。
附图标记105表示介质驱动。当由该介质驱动105读取记录在记录介质(例如,CD-ROM)上的程序、数据、数字音频信号等时,将其加载到本音频信号编码装置。另外,介质驱动105可以将存储在外部存储部104中的各种数据和执行程序写入记录介质上。
附图标记106表示麦克风,其收集实际的声音并将其变换成音频信号。附图标记107表示扬声器,其能够将任意的音频信号数据作为实际声音输出。
附图标记108表示通信网,其包括LAN、公众线路、无线线路、广播电波等。附图标记109表示通信接口,其连接到通信网108。本实施方式的音频信号编码装置可通过该通信接口109经由通信网108与外部设备进行通信,可以交换数据和程序。
具备上述配置的音频信号编码装置根据来自终端103的各种输入工作。在接收到来自终端103的输入时,将中断信号供给CPU100,CPU 100读出存储在存储器101内的各种控制信号,按照这些控制信号进行各种控制。
当CPU 100执行保存在存储器101中的基本I/O程序时,本实施方式的音频信号编码装置工作,由此将存储在外部存储装置104中的OS载入存储器101并执行该OS。具体地说,当本装置的电源被接通时,基本I/O程序中的IPL(初始程序加载,initial programloading)函数从外部存储部104将OS读入到存储器101中,从而开始OS的操作。
基于图2所示的音频信号编码处理序列的流程图将音频信号编码处理程序转换为程序代码。
图6表示记录音频信号编码处理程序以及关联数据的记录介质的内容的结构例子。在本实施方式中,将音频信号编码处理程序及关联数据记录在记录介质中。如图6所示,在记录介质的开头区域中记录记录介质的目录信息,在随后的区域中作为文件记录音频信号编码处理程序和音频信号编码处理关联数据。
图7是向音频信号编码装置(PC)中安装音频信号编码程序的图。如图7所示,记录在记录介质中的音频信号编码处理程序及关联数据可通过介质驱动105载入本实施方式的装置中。当将记录介质110放置介质驱动105中时,在OS以及基本I/O程序的控制下从记录介质110读出音频信号编码处理程序及关联数据,将其保存到外部存储部104中。之后,在重启动时,将这些信息载入存储器101中,准备运行。
图8表示当将本实施方式的音频信号编码处理程序载入存储器101并准备运行时的内存映射。如图8所示,存储器101的工作区例如保存有基准比特率、基准采样率、比特率和采样率。该工作区还保存有分配位上限值、平均分配位数、PE位数、使用位数、比例因子位数、谱分配位数、量化前感知谱信息量、量化后谱预测信息量。而且,该工作区还保存有允许误差能量、谱缓冲器、量化谱、输入信号缓冲器、比例因子、量化阶、块类型、SMR、PE和保留位量。
图9表示本实施方式的音频信号编码装置中的输入信号缓冲器的结构例子。在图9所示的结构中,缓冲器大小是1024×3个采样,为了便于说明每隔1024个采样用竖线进行划分。输入1帧即1024个采样的输入信号,从左边开始进行批量处理。应当指出,图9所示的结构表示1个信道的输入信号缓冲器,在本实施方式中,准备与输入信号的信道数目相当的类似的缓冲器。
下面参考流程图说明在本实施方式中由CPU 100执行的音频信号编码处理。
图2是本实施方式中的音频信号编码处理的流程图。与该流程图对应的程序包含在音频信号编码处理程序中,如上所述载入存储器101中,由CPU 100执行。
步骤S1是CPU 100允许用户使用终端103来指定要被编码的输入音频信号的处理。在本实施方式中,要被编码的音频信号既可以是保存在外部存储104中的音频PCM文件,也可以是通过对由麦克风106捕获的实时音频信号进行模拟/数字转换而得到的信号。在完成该处理时,处理进入步骤S2。
步骤S2是CPU 100判断要被编码的输入音频信号是否结束的处理。在输入信号结束的情况下,该处理进入步骤S11。在未结束的情况下,处理进入步骤S3。
步骤S3是如下的输入信号移位处理:在图9所示的输入信号缓冲器中,CPU 100将2帧即2048个采样的时间信号从右向左移动1帧,并且在右侧新加载1帧即1024个采样的信号。对输入信号中包含的全部信道进行该处理。当完成该处理时,处理进入步骤S4。
步骤S4是如下处理:CPU 100分析保存在输入信号缓冲器中的时间信号,对当前帧进行听觉心理运算。作为该运算的结果,CPU100算出当前帧的块类型、感知熵(PE)以及各SFB的SMR值,将其保存到存储器101上的工作区中。应当指出,在当前帧的块长度短的情况下,CPU 100针对短块计算8组SMR值,或者在块类型是短块以外的情况下CPU 100针对长块计算1组SMR值。这种听觉运算对本领域技术人员是公知的,因此不进行详细说明。当完成该处理时,处理进入步骤S5。
在步骤S5中,CPU 100按照在步骤S4中得到的块类型从对当前帧的时间信号即从图10所示的当前帧开始指针开始的2048个采样(2帧)的信号加窗,然后进行时间-频率变换。其结果是,在MPEG-2AAC的情况下,当变换块长度短时,CPU 100得到8组分割为128个频率分量的谱。否则,在块类型是长的块长度的情况下,CPU 100得到1组分为1024个频率分量的谱。在每一种情况下,CPU 100将算出的总共1024个谱保存在存储器101上的工作区中保证的谱缓冲器中。在完成该处理时,处理进入步骤S6。
步骤S6是如下处理:CPU 100根据在步骤S5中得到的频谱和在步骤S4中得到的各SFB的SMR计算允许误差能量,使用该允许误差能量来计算各SFB的比例因子。例如,在MPEG-2AAC的情况下,CPU 100使用上述的实施方式1的式(2)计算比例因子。CPU 100将该处理算出的各SFB的允许误差能量和比例因子保存在存储器100上的工作区上。当完成该处理时,进入步骤S7。
步骤S7是如下处理:CPU 100根据量化前的谱的感知信息量和量化后的谱的感知信息量之间的差来计算量化阶。稍后参考图3详细说明该处理。在完成该处理时,处理进入步骤S8。
在步骤S8中,CPU 100按照在步骤S6中求出的比例因子和在步骤S7中求出的量化阶通过对1024个频谱进行量化来计算使用位数。当使用位数超过了保存在存储器101上的工作区中的分配位数时,CPU 100增加量化阶并进行再量化。稍后参考图4详细说明该处理。在完成该处理时,处理进入步骤S9。
处理S9是如下处理:CPU 100按照由编码方式指定的格式对在步骤S8中算出的量化谱和比例因子进行整形,将其作为位流输出。在本实施方式中,CPU 100可以将通过该处理输出的位流保存在外部存储装置104中,或者可以将该位流输出到通过通信接口109连接到通信网108的外部设备。在完成该处理时,处理进入步骤S10。
步骤S10是如下处理:CPU 100根据在步骤S9中输出的位流中使用的位量和编码比特率对保存在存储器101上的保留位数进行校正。在完成该处理时,处理返回步骤S2。
步骤S11是如下处理:当由于听觉心理运算、正交变换等产生的延迟要输出的量化谱仍停留在存储器上时,CPU 100将其整形为位流,输出该位流。在完成该处理时,音频信号编码处理结束。
图3是表示上述步骤S7中的量化阶预测处理的详细内容的流程图。
步骤S101是如下处理:CPU 100算出在按照由编码形式指定的格式对保存在存储器101上的工作区中的比例因子进行编码时所使用的位数。CPU 100将算出的位数保存在存储器101上的工作区中。在完成该处理时,进入步骤S102。
步骤S102是如下处理:CPU 100通过从分配给帧的位数中减去保存在存储器101上的比例因子位数来计算分配给谱代码的位数。CPU 100将算出的谱分配位数保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S103。
步骤S103是如下处理:CPU 100使用存储器101上的谱分配位数来进行量化谱总量的预测计算。CPU 100使用通过事先进行实验而得到的近似式来进行该预测计算。例如,设该近似式为F(x)、谱分配位数为spectrum_bits。则可通过下式求出量化后谱预测总大小:
Σ i X q ≈ F ( spectrum _ bits ) . . . ( 4 )
CPU 100将算出的量化谱预测总大小保存在存储器100上的工作区中。在完成该处理时,处理进入步骤S104。
步骤S104是CPU 100计算量化前的谱的感知信息量的处理。CPU 100通过将每个谱分量与由包含感兴趣的谱分量的SFB的比例因子引起的量化粗细度的减少量相乘计算1帧的总大小、然后计算其对数,来计算量化前的谱的感知信息量。例如,在MPEG-2AAC的情况下,量化前的谱的感知信息量能够通过下式来计算:
log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] . . . ( 6 )
CPU 100将算出的量化前的谱的感知信息量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S105。
步骤S105是如下处理:CPU 100通过计算在步骤S103中求出的量化谱的预测总大小的对数来计算量化谱的预测信息量。例如,在MPEG-2AAC的情况下,CPU 100能够通过下式的计算来计算量化谱的预测信息量:
log 2 Σ i X q . . . ( 7 )
即,CPU 100可以通过计算在步骤S103中得到的量化谱总量的对数来得到量化谱预测信息量。CPU 100将通过该处理算出的量化后的谱信息量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S106。
在步骤S106中,CPU 100从在步骤S104中求出的量化前谱的感知信息量中减去在步骤S105中求出的量化谱预测信息量。在步骤S107中,CPU 100通过将差乘以由量化粗细度的步长确定的系数来计算全局增益即量化阶的预测值。在MEPG-2AAC的情况下,通过与实施方式1相同的式(5)的计算来计算该预测值量。
global _ gain = Int [ 16 3 · [ log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] - log 2 Σ i X q ] ] . . . ( 5 )
CPU 100将算出的量化阶预测值作为量化阶保存在存储器101上的工作区中。在完成该处理时,控制结束量化阶预测处理,返回前一例程。
图4是表示上述步骤S8中的谱量化处理的详细内容的流程图。
步骤S201是如下处理:CPU 100按照保存在存储器101上的量化阶和比例因子将保存在谱缓冲器中的1024个谱分量进行量化。在MPEG-2AAC的情况下,CPU 100按照前面的式(1)计算量化谱。在完成该处理时,处理进入步骤S 202。
步骤S202是如下处理:CPU 100计算在对在步骤S201中计算的全部量化谱进行编码时所使用的位数。例如,在MPEG-2AAC的情况下,由于合成了多个量化谱,然后对其进行霍夫曼编码,因此在该处理中进行霍夫曼代码表的搜索,计算编码位的总数。CPU100将算出的使用位数保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S203。
步骤S203是CPU 100将存储器101上的谱分配位数和使用位数进行比较的处理。作为比较的结果,在使用位数大于分配位数的情况下,处理进入步骤S204,增加保存在存储器101中的量化阶以减少代码量。之后,处理返回步骤S201再次进行谱的量化。然而,由于上述量化阶预测处理大致准确地预测了量化阶,因此实际上很少执行步骤S204。
作为步骤S203中的比较的结果,在使用位数小于分配位数的情况下,控制结束该谱量化处理,返回前一例程。
如上所述,在本实施方式的音频信号编码处理中,根据分配给谱代码的位数预测量化后的谱的信息量,还计算与量化前的感知信息量的差。由此,由于在进行实际量化之前大致准确地预测量化阶,因此能够尽量避免量化阶的调整,能够大幅度减少量化处理所需要的计算复杂度。
第3实施方式
当以固定比特率进行编码时,在根据输入信号的特性按照需要将存储在位贮存器中的保留位分配给各帧的情况下,也能够应用本发明的技术。本实施方式参考附图说明该情况。
图10是表示根据本实施方式的音频信号编码装置的配置例子的框图。与根据第1实施方式的图1同样,在图10中,粗线表示数据信号,细线表示控制信号。另外在图10中,相同的附图标记表示具有与图1相同功能的相同结构元素。
在图10所示的配置中,附图标记1表示帧分割器;2是听觉心理运算器;3是滤波器组;4是比例因子计算器;7是量化阶计算器;8是谱量化器;以及9是位整形器。
附图标记11表示PE计算器,其基于帧的感知熵(PE)来计算作为帧的预测生成代码量的PE位数。
附图标记12表示谱分配位计算器,其基于比特率、PE位数、保留位量、比例因子等计算要分配给谱代码的位数。
附图标记13表示位贮存器,其连续地对按照编码方式指定的保留位量进行管理。
附图标记14表示量化谱总量预测器,其根据条件基于帧分配位数或者PE位数来预测量化谱总量。
下面说明具有上述配置的音频信号编码装置中的处理操作。应当指出,为了便于说明,本实施方式以MPEG-2AAC作为编码方式的例子给出以下说明。然而,在进行非线性量化的其他编码方式中能够以相同的方法来实现本发明。
在处理前对各部进行初始化。通过该初始化,将量化阶和全部比例因子值设为0。
帧分割器1将音频输入信号分割成帧,将其输出到听觉心理运算器2和滤波器组3。
听觉心理运算器2按照需要对从帧分割器1输出的输入信号进行听觉掩蔽分析,输出块类型和各SFB的SMR、PE值。
滤波器组3按照从听觉心理分析器2输出的块类型,对2个帧即从帧分割器1输出的1个帧和保持在滤波器组3中的先前1个帧的输入信号进行时间-频率变换,从而将其变换成频谱。
比例因子计算器4基于从滤波器组3输出的频谱和从听觉心理运算器2输出的各SFB的SMR值,按照需要与实施方式1相同地算出比例因子。
PE位计算器11根据从听觉心理运算器3输出的PE计算PE位数。即,计算器11将正在处理的帧的输入信号的感知信息量变换成在听觉上进行编码时对其进行了完全编码的预测代码量。在MPEG-2AAC的情况下,在ISO既有标准中记载的PE位数的计算式如下:
当块长度长时:
pe _ bits = 0.3 · PE + 6.0 · PE . . . ( 8 )
当块长度短时:
pe _ bits = 0.6 · PE + 24.0 · PE . . . ( 9 )
本实施方式完整地使用该计算式,以根据块类型的块长度来算出PE位数。
谱分配位计算器12首先计算对从比例因子计算器4输出的比例因子进行编码所需的位数。接着,计算器12通过求出与基于比特率的每1帧信道的平均位量的差来计算平均谱分配位数。
接着,将该值和从PE位计算器11输出的PE位数进行比较。在PE位数大的情况下,分配PE位直到由存储在位贮存器13中的保留位量确定的最大值为止。在PE位数小的情况下,按原样分配平均谱分配位。
即,在本实施方式中,具体按以下序列计算谱分配位数。
1.从保留位量计算保留位可使用量。
将保留位可使用量确定为:
块长度长时,保留位量的10%,
块长度短时,保留位量的25%。
将usable_bits设为该大小。
2.设平均谱分配位量为average_bits。则谱分配位量spectrum_bits是按以下方式确定的。
当Pe_bits>(average_bits+usable_bits)时,
spectrum_bits=average_bits+usable_bits;
当pe_bits<average_bits时,
spectrum_bits=average_bits;或者
除此之外,即当
average_bits≤pe_bits≤(average_bits+usable_bits)时,
spectrum_bits=pe_bit。
接着,当PE位数少于平均谱分配位量时,谱分配位计算器12将PE位数输出到量化谱总量预测器14。另一方面,在PE位数等于或者大于平均谱分配位数的情况下,计算器12将在上述序列中计算的谱分配位数输出到量化谱总量预测器14。此时,计算器12同时输出位选择信息(以下简称为“选择信息”),作为表示将哪个位数输出到量化谱总量预测器14的标志。
量化谱总量预测器14基于所输入的选择信息和位数来预测量化谱总量。使用与由第1实施方式所述的方法相同的由实验得到的近似式来进行该预测计算。量化谱总量预测器14通过根据选择信息切换该近似式来进行该预测计算。例如,设基于谱分配位数的量化谱总量的近似式为F(x)、基于PE位数的量化谱总量的近似式为G(x)。则通过下式计算谱预测总量。
当选择信息表示谱分配位的选择时:
Σ i X q ≈ F ( spectrum _ bits ) . . . ( 4 )
当选择信息表示PE位的选择时:
Σ i X q ≈ bit _ rate base _ bit _ rate · base _ sampling _ rate sampling _ rate · G ( pe _ bits ) . . . ( 10 )
其中,bit_rate是正在处理的输入信号的比特率,sampling_rate是正在处理的输入信号的采样率。另外,base_bit_rate是基准比特率,base_sampling_rate是基准采样率。基准比特率和基准采样率是通过实验得到量化谱总量预测式G(x)时的输入信号的比特率和采样率。这些值是本实施方式的音频信号编码装置中的规定值。
下面说明本实施方式采用上述量化谱的预测方法的理由。
在本实施方式中,谱分配位计算器12以PE位为基准进行位分配。因而,在谱分配位数中反映了PE位大小即正在处理的帧中的输入信号在听觉上产生的代码量。但是,在固定比特率控制中,当PE位大小小于平均谱分配位大小时,对谱分配位中按原样分配平均谱分配位。因而,在这种情况下,由于在谱分配位数中没有反映输入信号在听觉上产生的代码量,因此如果使用谱分配位数来预测量化谱总量,则预测误差变大。于是,在这种情况下,由于使用PE位数来预测量化谱总量,因此能够更准确地预测量化谱总量。
由于考虑比特率和采样率的限制来计算谱分配位数,因此谱分配位数具有跟随比特率和采样率的变化的特性。另一方面,关于PE位数,虽然原始PE值自身根据采样率的变化而变化,但即使当比特率和采样率变化时,式(8)、(9)本身也保持不变。因此,在基于PE位数的进行预测时,如式(10)所示,考虑来自基准比特率、采样率的变化率来进行预测。
由此,能够将一个近似式G(x)应用于每一个比特率和采样率。
返回图10的说明。与第1实施方式同样地,量化阶计算器7计算通过利用从比例因子计算器4输出的比例因子对从滤波器组3输出的频谱进行加权而得到的值的总大小。量化阶计算器7通过进一步计算该总大小的对数来计算量化前的谱的感知信息量。接着,计算器7通过计算由量化谱总量预测器14预测的量化谱总量的对数来计算量化谱总量。进而计算器7通过计算该大小之间的差并将其乘以由量化粗细度的步长确定的系数,来计算量化阶。具体地说,计算器4进行上述式(5)的计算。
与第1实施方式相同,谱量化器8使用从比例因子计算器4输出的比例因子和从量化阶计算器7输出的量化阶,将从滤波器组3输出的频谱进行量化,对所需的位数进行计数。将该所需的位数与从谱分配位计算器12输出的谱分配位数进行比较。当所需的位数超过了谱分配位数时,适当增加量化阶以再次进行量化。但是,如前所述,由于量化阶计算器7的量化阶的预测值大致准确,因此很少进行该再量化。
位整形器9对从谱量化器8最终输出的量化谱、比例因子和量化阶进行熵编码,然后将其整形为由编码方式所指定的位流格式,输出该位流。
此时,向位贮存器13通知实际代码中使用的位数,位贮存器13计算与帧位数的差,将增加量加到保留位量或者从保留位量中减去减少量,从而适当调整保留位量。
如上所述,与本实施方式类似,即使当以固定比特率根据输入信号将存储在位贮存器中的保留位按照需要分配给帧时,在量化前也能准确地预测量化谱总量。由此,能够在量化前准确地确定量化阶,能够有效地进行量化,同时避免重复谱量化和位计算。
第4实施方式
第3实施方式中说明的音频信号编码装置还可作为在P C等通用计算机上运行的软件程序来实施。下面参考附图说明该情况。
本实施方式中的音频信号编码装置的配置、音频信号编码处理程序的处理内容等基本与第2实施方式相同。因而,本实施方式引用在第2实施方式中说明的图5、图2、图6~9,不重复详细说明。与第2实施方式不同点在于步骤S7中的量化阶预测处理的内容。因此,下面仅说明步骤S7中的量化阶预测处理。
图11是表示本实施方式中的步骤S7中的量化阶预测处理的详细内容的流程图。
步骤S301是如下处理:CPU 100根据通过步骤S4中的听觉心理算术处理得到的存储器101上的PE值和块类型来计算PE位数。具体地说,与第3实施方式相同,CPU 100根据块类型选择上述式(9)或者式(10),计算PE位数。CPU 100将算出的PE位数保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S302。
步骤S302是CPU 100算出当将保存在存储器101上的工作区中的比例因子编码为编码方式指定的格式时所使用的位数的处理。CPU 100将通过该处理算出的比例因子位数保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S303。
步骤S303是如下处理:CPU 100通过从要分配给帧的平均位数中减去保存在存储器101上的比例因子位数,来算出要分配给谱代码的位数即平均谱分配位(平均分配位)数。CPU 100将平均分配位数保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S304。
步骤S304是CPU 100将存储器101上的平均分配位数和PE位数进行比较的处理。作为该比较的结果,在PE位数较大的情况下,处理进入步骤S305;否则,处理进入步骤S307。
步骤S305是如下处理:CPU 100根据存储器101上的PE位数、平均分配位数和保留位量来计算谱分配位数。稍后参考图12说明该处理的详细内容。在完成该处理时,处理进入步骤S306。
步骤S306是如下处理:CPU 100使用存储器101上的谱分配位数来进行量化谱总量的预测计算。CPU 100利用预先通过进行实验而得到的近似式来进行该预测计算。例如,设该近似式为F(x)、谱分配位数为spectrum bits。则能够由下式计算预测的量化谱总量:
Σ i X q ≈ F ( spectrum _ bits ) . . . ( 4 )
CPU 100将算出的量化谱总量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S309。
另一方面,步骤S307是如下处理:CPU 100将平均分配位数保存在存储器101上作为谱分配位数。即,CPU 100将平均分配位数的值复制位谱分配位数。在完成该处理时,处理进入步骤S308。
步骤S308是CPU 100使用存储器101上的PE位数来进行量化谱总量的预测计算的处理。CPU 100还利用预先通过进行实验而得到的近似式来进行该预测计算。设该近似式为G(x),PE位数为pe_bits。则能够与第3实施方式相同地由式(10)求出量化谱预测总量。
Σ i X q ≈ bit _ rate base _ bit _ rate · base _ sampling _ rate sampling _ rate · G ( pe _ bits ) . . . ( 10 )
CPU 100将算出的谱预测总量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S309。
步骤S309是CPU 100计算量化前的谱的感知信息量的处理。CPU 100通过将每个谱分量与由包含感兴趣的谱分量的SFB的比例因子产生的量化粗细度的减少量相乘计算1帧的总量、然后计算其对数,来计算量化前的谱的感知信息量。例如,在MPEG-2AAC的情况下,能够通过下式来计算量化前的谱的感知信息量:
log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] . . . ( 6 )
CPU 100将算出的量化前的谱的感知信息量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S310。
步骤S310是如下处理:CPU 100通过计算在步骤S306或者S308中求出的量化谱预测总量的对数来算出量化谱的预测信息量。例如,在MPEG-2AAC的情况下,CPU 100能够通过计算下式来算出量化谱的预测信息量:
log 2 Σ i X q . . . ( 7 )
CPU 100将通过该处理算出的量化谱预测信息量保存在存储器101上的工作区中。在完成该处理时,处理进入步骤S311。
在步骤S311中,CPU 100从在步骤S309中求出的量化前谱的感知信息量中减去在步骤S310中求出的量化谱预测信息量。CPU 100通过将差乘以由量化粗细度的步长确定的系数来算出全局增益即量化阶的预测值。在MPEG-2AAC的情况下,与第1实施方式相同,最终通过式(5)的计算得到该预测值:
global _ gain = Int [ 16 3 · [ log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] - log 2 Σ i X q ] ] . . . ( 5 )
CPU 100将算出的量化阶预测值作为量化阶保存在存储器101上的工作区中。在完成该处理时,控制结束该量化阶预测处理,返回前一例程。
图12是表示本实施方式中的步骤S305中的谱分配位计算处理的详细内容的流程图。
步骤S401是如下处理:CPU 100通过按照存储器101上的保留位量和块类型计算能够分配给该帧的保留位数、在平均分配位数上加上该值,来计算谱分配位数的上限值。在本实施方式中,与第3实施方式相同地按以下方式来确定保留位数:
当块长度长时,保留位量的10%,
当块长度短时,保留位量的25%。
CPU 100将在上述序列中得到的值与存储器101上的平均分配位数相加,以得到谱分配位上限值。
CPU 100将通过该计算得到的谱分配位上限值保存在存储器101中。在完成该处理时,处理进入步骤S402。
步骤S402是CPU 100将存储器101上的PE位数和谱分配位上限值进行比较的处理。作为该比较的结果,在PE位数少于谱分配位上限值的情况下,处理进入步骤S403;否则,处理进入步骤S 404。
步骤S403是CPU 100将PE位数保存在存储器101上作为谱分配位数的处理。即,CPU 100将PE位数的值复制为谱分配位数。在完成该处理时,控制结束谱分配位计算处理,返回前一例程。
步骤S404是CPU 100将谱分配位上限值保存在存储器101上作为谱分配位数的处理。即,CPU 100将谱分配位上限值复制为谱分配位数。在完成该处理时,控制结束谱分配位计算处理,返回前一例程。
通过该处理,如上所述,由于对由PE位分配的位数设定上限值,因此可以防止由于保留位用尽而使位贮存器出错。
如上所述,根据本实施方式,在固定比特率中,即使当以固定比特率根据输入信号的特性按照需要将存储在位贮存器中的保留位分配给帧时,也可以在量化前准确地预测量化谱总量。由此,能够在量化前准确地确定量化阶,能够有效地进行量化,同时避免谱量化和位计算的重复。
如上所述,本音频信号编码处理基于分配给帧的位量预测量化后的谱总量。由此,可以计算量化前后的全部谱的信息量之间的差,可以在谱量化之前大致准确地预测全部谱的量化阶。因而,大致进行一次谱量化处理即可完成量化处理。由此,与现有技术相比能够大大减少量化处理所需的计算复杂度,同时保持与现有技术相同的编码质量。
第5实施方式
以下说明具有去除了听觉心理运算器2的配置的音频信号编码装置的实施方式。图13是表示本实施方式的音频信号编码装置的配置的框图。应当指出,相同的附图标记表示与上述实施方式中的结构要素相同的结构要素。
在图13所示的配置中,帧分割器1将音频输入信号分割成作为处理单位的帧。将分割成帧的输入信号输出到滤波器组3。滤波器组3对从帧分割器1输入的时间信号进行加窗,以规定块长度进行时间-频率变换,从而将该时间信号变换成频谱。
量化谱信息量计算器15计算从滤波器组3输出的频谱的总和,根据该总和计算量化前的频谱的信息量。量化阶计算器7通过从由量化谱信息量计算器15求出的量化前的谱的信息量中减去由量化谱信息量预测器16(稍后说明)预测的量化谱信息量来计算量化阶。谱量化器8对各频谱进行量化。位整形器9通过按照需要将比例因子和量化谱整形为规定格式来生成位流,输出生成的位流。位贮存器13对由每个编码标准指定的保留位数进行管理。
谱分配位计算器12根据从位贮存器13通知的保留位量和帧平均位量计算要分配给量化谱代码的位数。量化谱信息量预测器16基于分配给每个帧的平均位数进行量化谱信息量的预测计算。
接着,说明利用上述配置的音频信号编码装置中的音频信号编码操作。应当指出,为了便于说明,本实施方式以MPEG-2AAC作为编码方式的例子给出以下说明。然而,可以使用能够应用类似量化方式的其他编码方式通过相同的方法实现本发明。
在处理之前对各部进行初始化。通过初始化,将量化阶和全部比例因子的值设为0。
帧分割器1将音频PCM信号等音频输入信号分割成帧,将其发送到滤波器组2。在MPEG-2AAC LC(Low-Complexity:低复杂度)框架的情况下,1个帧由PCM信号的1024个采样构成,将其输出。
滤波器组3对包含从帧分割器1输出的1个帧的当前输入信号和在上次变换时接收到的先前帧的输入信号的2个帧的时间信号即2048个采样的时间信号变换为1024个采样的频率分量。在本实施方式中,将先前帧的输入信号保持在滤波器组3内的缓冲器中。滤波器组3将对一个块的输入信号的2048个采样执行加窗,然后进行MDCT,从而输出1024个频谱。
谱信息量计算器15计算从滤波器组3输出的频谱的总和,基于该总和计算量化前的频谱的信息量。在MPEG-2AAC的情况下,能够由下式计算量化前的全部谱的信息量:
log 2 Σ i | x i | 3 4 . . . ( 11 )
其中,xi是量化前的谱,要计算总和的i的范围是1帧,即0≤i≤1023。对谱的总和计算底数为2的对数。
量化谱信息量预测器15基于要分配给每个帧的平均位数预测量化谱信息量。在该预测中,预测器16首先基于帧平均位计算量化谱总量。在本实施方式中,使用基于通过实际测量在由现有量化器进行量化时的帧位大小和量化谱总量之间的关系而得到测量结果所准备的近似式来进行该计算。例如,设该近似式为F(x),帧平均位大小为average_bits。则预测的量化谱总量通过下式计算:
Σ i X q ≈ F ( average _ bits ) . . . ( 12 )
其中,Xq是量化谱,计算总和的i范围是1帧,即0≤i≤1023。在本实施方式中,基于系统初始化时的比特率、采样率以及输入信道数预先计算帧平均位量。由于该计算对本领域技术人员是公知的,因此在此不进行详细说明。作为在系统上保持的帧平均位量,使用在初始化时计算的值,而在编码处理期间发生变化。
然后,将量化谱总量变换为量化谱信息量。在本实施方式中,通过对使用式(12)求出的量化谱总量取底数为2的对数来进行该计算。即,如下表示量化谱信息量:
log 2 Σ i X q . . . ( 13 )
量化阶计算器7从由谱信息量计算器15输出的量化前谱的信息量中减去从量化谱信息量预测器16输出的量化谱信息量。之后,计算器7通过将该差乘以从量化粗细度的步长得到的系数来计算作为整个帧的量化粗细度的量化阶。
具体地说,在MPEG-2AAC的情况下,使用下式得到量化阶的预测值:
global _ gain = Int [ 16 3 · [ log 2 Σ i | x i | 3 4 - log 2 Σ i X q ] ] . . . ( 14 )
其中,Xq是量化谱,xi是量化前的谱,global_gain是全局增益(量化阶)。另外,要计算总和的i的范围是1帧,即0≤i≤1023。
应当指出,式(14)中的右边的第1项如下:
log 2 Σ i | x i | 3 4 . . . ( 15 )
这是量化前的全部谱的信息量,是由谱信息量计算器15利用式(11)计算的值。另外,右边的第2项如下:
log 2 Σ i X q . . . ( 16 )
这是量化谱信息量,是由量化谱信息量预测器16利用式(13)预测的值。
应当指出,能够通过将谱量化式(1)适当变形、并一律将0代入比例因子scalefac中而得到式(14)。
位贮存器13向谱分配位计算器12通知由位贮存器13本身管理的当前保留位量。谱分配位计算器12例如将所通知的保留位量的20%与帧平均位量相加作为分配位数,将该分配位数通知给谱量化器8。
谱量化器8按照从量化阶计算器7输出的量化阶将1024个频谱量化。例如,在MPEG-2AAC的情况下,量化器8使用式(1)计算量化谱,对由整个帧消耗的位数进行计数。
当使用位数超过了从谱分配位计算器12通知的分配位数时,增加量化阶直到使用位数等于或者小于谱分配位数为止,再次进行谱量化。然而,量化阶计算器7的计算是准确的,保留位量的一部分位除了加到在进行量化阶的预测计算时的位量上之外,也被加到分配位。因此,在大多情况下,只进行1次量化谱计算和位计算即可完成量化。
使用由量化阶计算器7计算的量化阶来进行谱量化时使用位量变短的帧是信息量从开始必然比平均帧大的帧。因此,将保留位的一部分加到分配位,以该值为基准进行谱量化处理,从而自动将更多的位分配给这样的帧。
位整形器9按照规定格式将各SFB的比例因子和量化谱整形为位流,输出该位流。
最后,位整形器9将实际使用的位量通知给位贮存器13。位贮存器13根据从位整形器9通知的使用位量和帧平均位量计算实际使用的保留位量,并适当加减保留位。
以上说明的本实施方式的音频信号编码装置不进行任何处理负荷重的听觉心理分析。而且,该装置根据分配给每个帧的位量预测量化后的谱信息量,计算量化前后的全部谱的信息量之间的差,从而在谱量化前大致准确地预测量化阶。因此,由于减少了用于量化阶调整的重复次数,能够快速地完成量化处理,能够大大减少编码处理所需的计算复杂度。
本实施方式的音频信号编码装置在基于帧平均位量预测量化阶、一律加上保留位量的一部分位之后,进行实际的谱量化。由此,即使当产生少许预测误差时,也可以通过一次处理来完成量化处理。此外,由于将保留位自动分配给原本信息量大的帧,因此能够将由于不进行听觉心理分析而造成的音质劣化减到最小。
第6实施方式
应当指出,与第2实施方式相同,还能够通过在个人计算机(PC)等通用计算机上运行的软件程序来实现上述第5实施方式。
由于本实施方式的音频信号编码装置的配置与第2实施方式相同,因此引用图5和6。
图17表示当将本实施方式的音频信号编码处理程序载入存储器101中、准备运行时的内存映射。如图17所示,存储器101的工作区保存有例如量化前的感知谱信息量、量化后的谱预测信息量、谱分配位数、谱缓冲器、量化谱和输入信号缓冲器。除此之外,该工作区还保存有使用位数、量化阶、比特率、采样率、平均分配位数和保留位量。
图18表示本实施方式的音频信号编码装置中的输入信号缓冲器的结构例子。在图18所示结构中,缓冲器大小是1024×2采样,为了便于说明,对每1024个采样用竖线划分。输入1个帧即1024个采样的输入信号,从左开始进行批量处理。粗线箭头表示输入信号流。应当指出,图示18所示的结构示出了1个信道的输入信号缓冲器,在本实施方式中,准备与输入信号的信道数目相同的类似的缓冲器。
下面参考流程图说明在本实施方式中由CPU 100执行的音频信号编码处理。
图14是本实施方式中的音频信号编码处理的流程图。与该流程图对应的程序包含在音频信号编码处理程序中,如上所述,将其载入存储器101,由CPU 100执行。
步骤S1是CPU 100允许用户使用终端103来指定要被编码的输入音频信号的处理。在本实施方式中,要被编码的音频信号既可以是保存在外部存储104中的音频PCM文件,也可以是对由麦克风106捕获的实时音频信号进行模拟/数字转换后得到的信号。在完成该处理时,处理进入步骤S2。
步骤S 2是CPU 100判断要被编码的输入音频信号是否结束的处理。在输入信号结束的情况下,处理进入步骤S11。在输入信号未结束的情况下,处理进入步骤S3。
步骤S3是如下的输入信号移位处理:在图18所示的输入信号缓冲器中,CPU 100将2帧即2048个采样的时间信号从右向左移动1帧,并且在右侧加载新的1帧即1024个采样的信号。对输入信号中包含的全部信道进行该处理。在完成该处理时,处理进入步骤S5。
在步骤S5中,CPU 100对当前帧的时间信号即保存在图18中的输入信号缓冲器中的2048个采样(2帧)的信号进行加窗,然后进行时间-频率变换。其结果是,在MPEG-2AAC的情况下,CPU 100得到1组分割成1024个频率分量的谱。应当指出,在本实施方式中,将全部块的块类型设定为具有长的块长度。CPU 100将算出的共计1024个谱保存到在存储器101上的工作区中保证的谱缓冲器中。在完成步骤S5时,处理进入步骤S7。
步骤S7是如下处理:CPU 100根据量化前的谱的信息量和量化后的谱的信息量之间的差计算量化阶。稍后参考图15详细说明该处理。在完成步骤S7时,处理进入步骤S8。
在步骤S8中,CPU通过按照在步骤S7中求出的量化阶对1024个频谱进行量化来计算使用位数。仅当该使用位数超过了保存在存储器101上的工作区中的分配位数时,CPU 100增加量化阶并执行再量化。稍后参考图16详细说明该处理。在完成步骤S8时,处理进入步骤S9。
步骤S9是如下处理:CPU 100按照由编码方式指定的格式对在步骤S8中算出的量化谱和比例因子进行整形,将其作为位流输出。在本实施方式中,CPU 100可以将通过该处理输出的位流保存在外部存储装置104中、或者可以将该位流输出到通过通信接口109连接到通信网108的外部设备。在完成步骤S9时,处理进入步骤S10。
步骤S10是如下处理:CPU 100根据在步骤S9中输出的位流中使用的位量和帧平均位量,对保存在存储器101上的保留位数进行校正。在完成步骤S10时,处理返回步骤S2。
步骤S11是如下处理:当要输出的量化谱由于正交变换等产生的延迟仍停留在存储器上时,CPU 100将其整形为位流,输出该位流。在完成步骤S11时,音频信号编码处理结束。
图15是表示上述步骤S7中的量化阶预测处理的详细内容的流程图。
步骤S100是CPU 100计算量化前的谱的信息量的处理。CPU100通过求出各谱分量的总量、然后算出该总量的对数来计算量化前的谱信息量。例如,在MPEG-2AAC的情况下,能够通过下式求出量化前的谱信息量:
log 2 Σ i | x i | 3 4 . . . ( 17 )
CPU 100将算出的量化前的谱信息量保存在存储器101上的工作区中。在完成步骤S100时,处理进入步骤S103。
步骤S103是CPU 100使用存储器101上的帧平均位数来进行量化谱总量的预测计算的处理。CPU 100利用通过预先进行实验而得到的近似式来进行该预测计算。例如,设该近似式为F(x),帧平均位数为average_bits。则能够通过下式求出量化后的谱预测总量。
Σ i X q ≈ F ( average _ bits ) . . . ( 18 )
CPU 100将算出的量化谱预测总量保存在存储器101上的工作区中。在完成步骤S103时,处理进入步骤S105。
步骤S105是如下处理:CPU 100通过计算在步骤S103中求出的量化谱预测总量的对数来计算量化谱预测信息量。例如,在MPEG-2AAC的情况下,CPU 100能够通过下式的计算来算出量化谱预测信息量:
log 2 Σ i X q . . . ( 19 )
CPU 100将通过该处理算出的量化后的谱信息量保存在存储器101上的工作区中。在完成步骤S105时,处理进入步骤S108。
在步骤S108中,CPU 100从在步骤S100中求出的量化前的谱信息量减去在步骤S105中求出的量化谱预测信息量。在步骤S109中,CPU 100通过将步骤S108中的差乘以由量化粗细度的步长确定的系数来计算全局增益即量化阶的预测值。在MPEG-2AAC的情况下,与第1实施方式相同,最终通过式(5)的计算来得到该预测值。
global _ gain = Int [ 16 3 · [ log 2 Σ i [ | x i | 3 4 · 2 3 16 · scalefac ] - log 2 Σ i X q ] ] . . . ( 5 )
CPU 100将算出的量化阶预测值作为量化阶保存在存储器101上的工作区中。因此,控制结束该量化阶预测处理,返回前一例程。
图4是表示上述步骤S8中的谱量化处理的详细内容的流程图。
步骤S200是如下处理:CPU 100通过在保存在存储器101上的帧平均位量上加上保留位量的一部分位来计算谱分配位数。例如,在本实施方式中,CPU 100在帧平均位量上一律加上保留位量的20%以得到谱分配位数。CPU 100将算出的谱分配位数保存在存储器101上的工作区中。在完成步骤S200时,处理进入步骤S201。
步骤S201是如下处理:CPU 100按照保存在存储器101上的量化阶对保存在谱缓冲器中的1024个谱分量进行量化。在MPEG-2AAC的情况下,CPU 100按照上述式(1)计算量化谱。在完成步骤S201时,处理进入步骤S202。
步骤S202是CPU 100计算在对在步骤S202中算出的全部量化谱进行编码时使用的位数的处理。例如,在MPEG-2AAC的情况下,由于合成了多个量化谱,然后进行霍夫曼编码,因此CPU 100在该处理中搜索霍夫曼代码表,计算编码位数的总计。CPU 100将算出的使用位数保存在存储器101上的工作区中。在完成步骤S202时,处理进入步骤S203。
步骤S203是CPU 100将存储器101上的谱分配位数和使用位数进行比较的处理。作为比较的结果,使用位数大于分配位数的情况下,处理进入步骤S204,增加保存在存储器101中的量化阶以减少代码量。之后,处理返回步骤S201,再次进行谱的量化。但是,图15所示的上述量化阶预测处理(步骤S7)大致准确地预测了量化阶,根据帧平均位量预测量化阶。此外,由于在步骤S203中通过以将帧平均位与保留位的一部分相加得到的谱分配位为基准进行代码量控制,因此实际上很少执行步骤S204。
作为使用预测的量化阶进行量化的结果,即使当使用位数超过了帧平均位数时,如果使用位数不超过增加的保留位量,则通过1次谱量化来完成量化。并且,这种帧是原本信息量大的帧,结果自动将更多的位分配给信息量大的帧。
作为步骤S203的比较的结果,如果使用位数小于分配位数,则控制结束该谱量化处理,返回前一例程。
以上说明的本实施方式的音频信号编码处理省略了听觉心理分析。然后,根据帧平均位量预测量化后的谱的信息量,计算与量化前的谱信息量的差,从而在进行实际量化前大致准确地预测量化阶。由此,由于能够尽量避免量化阶的调整且不进行听觉心理运算,因此能够大大减少整个编码处理所需的计算复杂度。
本实施方式的音频信号编码装置在基于帧平均位量预测量化阶、一律加上保留位量的一部分位之后,进行实际的谱量化。由此,即使当产生少许预测误差时,也可以通过一次处理来完成量化处理。并且,由于将保留位自动分配给原本信息量大的帧,因此能够将由于不进行听觉心理分析而造成的音质劣化减到最小。
其他实施方式
本发明可以进行各种变形,而不脱离其范围。
例如,在上述实施方式中,没有进行块切换。本发明可以类似地应用于不进行听觉分析且比较容易检测输入信号的过渡状态以进行块切换的装置。
本发明可以应用于由多个设备构成的系统,或者可以应用于由一个设备构成的装置。
应当指出,可以如下实现本发明:直接或者远程地向系统或者装置提供实现上述实施方式的功能的程序,该系统或者装置的计算机读出所提供的程序代码并执行该程序代码。
因而,安装在该计算机中、使用该计算机实现本发明的功能处理和功能的程序代码本身实现本发明。也就是说,用于实现上述功能处理和功能的计算机程序本身也是本发明之一。
在这种情况下,不具体限制程序的形式,可以使用目标代码、由解释器执行的程序、提供给OS的脚本数据等。只要其具有程序的功能即可。
用于提供程序的记录介质包括例如软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW等。另外,记录介质还包括磁带、非易失性存储卡、ROM、DVD(DVD-ROM,DVD-R)等。
还可以使用客户计算机的浏览器从因特网上的主页下载程序。即,可以从主页将本发明的计算机程序本身或者包含自动安装功能的压缩文件下载到硬盘等记录介质中。另外,可以将构成本发明的程序的程序代码分割成多个文件,从不同的主页下载各个文件。也就是说,使多个用户下载在计算机上实现本发明的功能和处理的程序文件的WWW服务器通常也是本发明的构成要件。
另外,可以将存储有加密的本发明的程序的CD-ROM等存储介质分发给用户。在这种情况下,可以使满足规定条件的用户通过因特网从主页下载用来解密加密的程序的密钥信息。然后,利用该密钥信息对加密的程序进行进行解密,执行解密了的程序,将程序安装在计算机上。
可以通过计算机执行读出的程序来实现上述实施方式的功能。应当指出,在计算机上运行的OS等可以基于该程序的指令执行部分或者全部实际处理操作。在这种情况下,也能够实现上述实施方式的功能。
并且,可以将从记录介质读出的程序写入安装在插入或者连接到计算机的功能扩展板或者功能扩展单元上的存储器中。安装在该功能扩展板或者功能扩展单元上的CPU等基于该程序的指令执行部分或者全部实际处理操作。以这种方式可以实现上述实施方式的功能。
主张优先权
本申请以2004年11月18提交的日本专利申请特愿2004-335005以及2005年11月14提交的日本专利申请特愿2005-328945为基础主张优先权,其全部内容通过引用,包含于此。

Claims (16)

1.一种音频信号编码装置,其特征在于,具备:
帧分割部,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算部,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组部,其按照由上述听觉心理运算部确定的上述变换块长度将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算部,其将从上述滤波器组部输出的上述频谱分割成多个频带,使用上述听觉心理运算部的运算结果对各频带的谱进行加权;
量化阶确定部,其通过从由上述比例因子计算部加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化部,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形部,其形成并输出按照规定格式对从上述谱量化部输出的量化谱进行了整形而得到的位流,
其中,上述量化阶确定部包括量化谱信息量预测部,该量化谱信息量预测部基于分配给要被编码的帧的位量来预测上述全部量化谱的信息量。
2.一种音频信号编码装置,其特征在于,具备:
帧分割部,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算部,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组部,其按照由上述听觉心理运算部确定的上述变换块长度将要处理的帧分成块,将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算部,其将从上述滤波器组部输出的上述频谱分割成多个频带,使用上述听觉心理运算部的运算结果对各频带的谱进行加权;
量化谱信息量预测部,其基于分配给要被编码的帧的位量来预测全部量化谱的信息量;
量化阶确定部,其通过从由上述比例因子计算部加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化部,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形部,其形成并输出按照规定格式对从上述谱量化部输出的量化谱进行了整形而得到的位流,
其中,当在进行固定比特率编码时输入信号的预测代码量小于平均帧分配位的数量时,上述量化谱信息量预测部基于感知熵来预测量化谱信息量。
3.一种音频信号编码装置,其特征在于,具备:
帧分割部,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算部,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组部,其按照由上述听觉心理运算部确定的上述变换块长度将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算部,其将从上述滤波器组部输出的上述频谱分割成多个频带,使用上述听觉心理运算部的运算结果对各频带的谱进行加权;
量化谱信息量预测部,其基于分配给要被编码的帧的位量来预测全部量化谱的信息量;
量化阶确定部,其通过从由上述比例因子计算部加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化部,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形部,其形成并输出按照规定格式对从上述谱量化部输出的量化谱进行了整形而得到的位流,
其中,当用于量化谱的代码量超过了所分配的代码量时,上述谱量化部调整上述量化阶,对谱进行再量化。
4.根据权利要求1~3中任意一项所述的音频信号编码装置,其特征在于,编码形式是MPEG-1 Audio Layer III。
5.根据权利要求1~3中任意一项所述的音频信号编码装置,其特征在于,编码形式是MPEG-2/4AAC。
6.一种音频信号编码方法,其特征在于,具有:
帧分割步骤,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算步骤,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组处理步骤,其按照由上述听觉心理运算步骤确定的上述变换块长度,将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算步骤,其将在上述滤波器组处理步骤中得到的上述频谱分割成多个频带,使用上述听觉心理运算步骤的运算结果,对各频带的谱进行加权;
量化阶确定步骤,其通过从在上述比例因子计算步骤中加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化步骤,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形步骤,其形成并输出按照规定格式对在上述谱量化步骤中得到的量化谱进行了整形而得到的位流,
其中,上述量化阶确定步骤包括量化谱信息量预测步骤,该量化谱信息量预测步骤基于分配给要被编码的帧的位量来预测上述全部量化谱的信息量。
7.一种音频信号编码方法,其特征在于,具有:
帧分割步骤,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算步骤,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组处理步骤,其按照在上述听觉心理运算步骤中确定的上述变换块长度将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算步骤,其将在上述滤波器组处理步骤中得到的上述频谱分割成多个频带,使用上述听觉心理运算步骤的运算结果对各频带的谱进行加权;
量化谱信息量预测步骤,其基于分配给要被编码的帧的位量来预测全部量化谱的信息量;
量化阶确定步骤,其通过从在上述比例因子计算步骤中加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化步骤,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形步骤,其形成并输出按照规定格式对在上述谱量化步骤中得到的量化谱进行了整形而得到的位流,
其中,当在进行固定比特率编码时输入信号的预测代码量小于平均帧分配位的数量时,在上述量化谱信息量预测步骤中基于感知熵来预测量化谱信息量。
8.一种音频信号编码方法,其特征在于,具有:
帧分割步骤,其针对各信道将音频输入信号分割成处理单位帧;
听觉心理运算步骤,其分析上述音频输入信号以确定变换块长度并进行听觉掩蔽计算;
滤波器组处理步骤,其按照在上述听觉心理运算步骤中确定的上述变换块长度,将要处理的帧分成块,以将帧中的时域信号变换为一组或者更多组频谱;
比例因子计算步骤,其将在上述滤波器组处理步骤中得到的上述频谱分割成多个频带,使用上述听觉心理运算步骤的运算结果对各频带的谱进行加权;
量化谱信息量预测步骤,其基于分配给要被编码的帧的位量来预测全部量化谱的信息量;
量化阶确定步骤,其通过从在上述比例因子计算步骤中加权了的量化前的全部谱的感知信息量中减去全部量化谱的信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化步骤,其利用上述比例因子和上述量化阶,对上述频谱列进行量化;以及
位整形步骤,其形成并输出按照规定格式对在上述谱量化步骤中得到的量化谱进行了整形而得到的位流,
其中,当用于量化谱的代码量超过了所分配的代码量时,在上述谱量化步骤中调整上述量化阶,对谱进行再量化。
9.一种程序,用于使计算机执行根据权利要求6~8中任意一项所述的音频信号编码方法。
10.一种计算机可读存储介质,其保存有根据权利要求9所述的程序。
11.一种音频信号编码装置,其特征在于,具备:
帧分割部,其针对各信道将音频输入信号分割成处理单位帧;
滤波器组部,其逐帧错开地进行将从上述帧分割部得到的两个连续帧的时域信号变换为频谱的处理;
谱信息量计算部,其计算从上述滤波器组部输出的上述频谱的信息量作为量化前的谱信息量;
量化谱信息量预测部,其基于从比特率和采样率算出的帧平均位量来预测量化谱信息量;
量化阶确定部,其通过从由上述谱信息量计算部算出的上述量化前的谱信息量中减去由上述量化谱信息量预测部预测的上述量化谱信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化部,其利用由上述量化阶确定部确定的上述量化阶,对上述频谱进行量化;
位贮存器,其对遵循编码标准的保留位量进行管理以符合上述标准;
位整形部,其通过按照规定格式对由上述谱量化部量化了的频谱进行整形来生成位流;以及
谱分配位计算部,其通过在上述帧平均位量上加上存储在上述位贮存器中的保留位量的一部分来计算谱分配位量,
其中,上述谱量化部基于由上述谱分配位计算部算出的上述谱分配位量来进行代码量控制。
12.根据权利要求11所述的音频信号编码装置,其特征在于,
编码形式是MPEG-1 Audio Layer III。
13.根据权利要求11所述的音频信号编码装置,其特征在于,
编码形式是MPEG-2/4AAC。
14.一种音频信号编码方法,其特征在于,包括:
帧分割步骤,其针对各信道将音频输入信号分割成处理单位帧;
时间-频率变换步骤,其逐帧错开地进行将在上述帧分割步骤中得到的两个连续帧的时域信号变换为频谱的处理;
谱信息量计算步骤,其计算在上述时间-频率变换步骤中得到的频谱的信息量作为量化前的谱信息量;
量化谱信息量预测步骤,其基于从比特率和采样率算出的帧平均位量来预测量化谱信息量;
量化阶确定步骤,其通过从在上述谱信息量计算步骤中算出的上述量化前的谱信息量中减去在上述量化谱信息量预测步骤中预测的上述量化谱信息量,将差乘以从量化粗细度的步长得到的系数,来在进行谱量化前确定整个帧的量化阶;
谱量化步骤,其利用在上述量化阶确定步骤中确定的上述量化阶,对上述频谱进行量化;
位整形步骤,其通过按照规定格式对在上述谱量化步骤中量化了的频谱进行整形来生成位流;以及
谱分配位计算步骤,其通过在上述帧平均位量上加上存储在位贮存器中的保留位量的一部分来计算谱分配位量,上述位贮存器对遵循编码标准的保留位量进行管理以符合上述标准,
其中,在上述谱量化步骤中基于在上述谱分配位计算步骤中算出的上述谱分配位量来进行代码量控制。
15.一种程序,用于使计算机执行根据权利要求14所述的音频信号编码方法。
16.一种计算机可读存储介质,其保存有根据权利要求15所述的程序。
CN2005800395626A 2004-11-18 2005-11-16 音频信号编码装置及方法 Expired - Fee Related CN101061534B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2004335005A JP4639073B2 (ja) 2004-11-18 2004-11-18 オーディオ信号符号化装置および方法
JP335005/2004 2004-11-18
JP2005328945A JP4822816B2 (ja) 2005-11-14 2005-11-14 オーディオ信号符号化装置および方法
JP328945/2005 2005-11-14
PCT/JP2005/021014 WO2006054583A1 (ja) 2004-11-18 2005-11-16 オーディオ信号符号化装置および方法

Publications (2)

Publication Number Publication Date
CN101061534A true CN101061534A (zh) 2007-10-24
CN101061534B CN101061534B (zh) 2011-04-06

Family

ID=36625575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800395626A Expired - Fee Related CN101061534B (zh) 2004-11-18 2005-11-16 音频信号编码装置及方法

Country Status (2)

Country Link
JP (1) JP4639073B2 (zh)
CN (1) CN101061534B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504835B (zh) * 2009-03-09 2011-11-16 武汉大学 声场中空间感知信息量的度量方法及应用
CN102341846A (zh) * 2009-03-04 2012-02-01 韩国科亚电子股份有限公司 用于音频编码的量化
CN111416324A (zh) * 2019-01-07 2020-07-14 Ls产电株式会社 能够输出漏电流的类型的漏电断路器及其控制方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5224666B2 (ja) * 2006-09-08 2013-07-03 株式会社東芝 オーディオ符号化装置
US7953595B2 (en) 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
JP5019437B2 (ja) * 2007-02-22 2012-09-05 Kddi株式会社 オーディオビットレート変換方法および装置
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP5782921B2 (ja) * 2011-08-26 2015-09-24 富士通株式会社 符号化装置、符号化方法および符号化プログラム
WO2013146895A1 (ja) * 2012-03-28 2013-10-03 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
CN104321813B (zh) * 2012-05-30 2016-12-14 日本电信电话株式会社 编码方法、编码装置
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
KR960012475B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
CN1108023C (zh) * 1995-01-27 2003-05-07 大宇电子株式会社 自适应数字音频编码装置及其一种位分配方法
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
WO2000018129A1 (en) * 1998-09-22 2000-03-30 Matsushita Electric Industrial Co., Ltd. Video signal encoding method, video signal encoder, and program recorded medium
JP4409733B2 (ja) * 1999-09-07 2010-02-03 パナソニック株式会社 符号化装置、符号化方法、及びその記録媒体
JP2001242895A (ja) * 2000-02-28 2001-09-07 Toshiba Corp オーディオ符号化装置およびオーディオ符号化方法
JP2001249699A (ja) * 2000-03-07 2001-09-14 Hitachi Ltd 音声圧縮装置
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2002182695A (ja) * 2000-12-14 2002-06-26 Matsushita Electric Ind Co Ltd 高能率符号化方法及び装置
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102341846A (zh) * 2009-03-04 2012-02-01 韩国科亚电子股份有限公司 用于音频编码的量化
CN102341846B (zh) * 2009-03-04 2013-09-25 韩国科亚电子股份有限公司 用于音频编码器的量化方法和装置
CN101504835B (zh) * 2009-03-09 2011-11-16 武汉大学 声场中空间感知信息量的度量方法及应用
CN111416324A (zh) * 2019-01-07 2020-07-14 Ls产电株式会社 能够输出漏电流的类型的漏电断路器及其控制方法
CN111416324B (zh) * 2019-01-07 2023-07-25 Ls产电株式会社 能够输出漏电流的类型的漏电断路器及其控制方法

Also Published As

Publication number Publication date
JP2006145782A (ja) 2006-06-08
JP4639073B2 (ja) 2011-02-23
CN101061534B (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
CN101061534A (zh) 音频信号编码装置及方法
CN1145142C (zh) 矢量量化方法和语音编码方法及其装置
CN1131507C (zh) 音频信号编码装置、解码装置及音频信号编码·解码装置
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1160703C (zh) 语音编码方法和装置以及声音信号编码方法和装置
CN1196271C (zh) 可变速率声码器
CN1296888C (zh) 音频编码装置以及音频编码方法
CN1288622C (zh) 编码设备和解码设备
CN100346392C (zh) 编码设备、解码设备、编码方法和解码方法
CN1926607A (zh) 多信道音频编码
CN1265355C (zh) 音源矢量生成装置及语音编码/解码装置
CN1331825A (zh) 周期性语音编码法
CN1331826A (zh) 可变速率语音编码
CN101048649A (zh) 可扩展解码装置及可扩展编码装置
CN1632864A (zh) 扩散矢量生成方法及扩散矢量生成装置
CN1957398A (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
CN1156303A (zh) 语音编码方法和装置以及语音解码方法和装置
CN101067931A (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN1156872A (zh) 语音编码的方法和装置
CN101076853A (zh) 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN101059957A (zh) 一种语音编码选择性加密方法
CN1122256C (zh) 用前向和反向线性预测编码分析编码音频信号的方法和装置
CN1950686A (zh) 编码装置、解码装置以及编码/解码方法
CN1898724A (zh) 语音/乐音编码设备及语音/乐音编码方法
CN1679084A (zh) 发送设备和发送方法、接收设备和接收方法、收发器设备、通信设备和方法、记录媒体、和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110406

Termination date: 20171116

CF01 Termination of patent right due to non-payment of annual fee