CN104040623B - 用于利用自适应低频补偿编码音频数据的方法和系统 - Google Patents
用于利用自适应低频补偿编码音频数据的方法和系统 Download PDFInfo
- Publication number
- CN104040623B CN104040623B CN201280066477.9A CN201280066477A CN104040623B CN 104040623 B CN104040623 B CN 104040623B CN 201280066477 A CN201280066477 A CN 201280066477A CN 104040623 B CN104040623 B CN 104040623B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- low
- frequency
- voice data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004301 light adaptation Effects 0.000 title claims abstract description 23
- 230000000873 masking Effects 0.000 claims abstract description 130
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 48
- 230000001276 controlling effect Effects 0.000 claims description 17
- 230000000875 corresponding Effects 0.000 claims description 13
- 102100000497 WDHD1 Human genes 0.000 claims 4
- 101700081112 WDHD1 Proteins 0.000 claims 4
- 230000004044 response Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 25
- 230000005284 excitation Effects 0.000 description 24
- 230000003044 adaptive Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000001808 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing Effects 0.000 description 3
- 230000001965 increased Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006011 modification reaction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003595 spectral Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001699 lower leg Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Abstract
一种用于确定要被编码的频域音频数据的音频数据值的尾数比特分配的方法。该分配方法包括确定用于音频数据值的掩蔽值的步骤,包括通过对音频数据的低频频带的集合的每个频带的音频数据执行自适应低频补偿。自适应低频补偿包括步骤:对音频数据执行音调检测以生成指示低频频带集合中的每个频带是否具有显著音调内容的补偿控制数据;以及对由补偿控制数据指示的具有显著音调内容的低频频带集合中的每个频带中的音频数据执行低频补偿,而不对在低频频带集合中的任何其它频带中的音频数据执行低频补偿。
Description
对相关申请的交叉引用
本申请要求2012年1月9日提交的、题为“Method and System for EncodingAudio Data with Adaptive Low Frequency Compensation”的美国临时申请No.61/584,478和2012年8月17日提交的、题为“Method and System for Encoding Audio Data withAdaptive Low Frequency Compensation”的美国申请No.13/588,890的优先权,其每个都通过引用合并于此。
技术领域
本发明涉及音频信号处理,并且更具体地,涉及利用自适应低频补偿对音频数据的编码。本发明的一些实施例对根据称为杜比数字(AC-3)和杜比数字加(E-AC-3)的格式中的一个、或根据另一个编码格式编码音频数据有用。杜比、杜比数字、和杜比数字加是杜比实验室许可公司的商标。
背景技术
尽管本发明不局限于使用在根据AC-3(杜比数字)格式(或杜比数字加格式)编码音频数据,但是为了方便起见,将在它根据AC-3格式编码音频比特流的实施例中描述。AC-3编码的比特流包括一个到六个信道的音频内容、和指示音频内容的至少一个特性的元数据。音频内容是已利用感知音频编码压缩的音频数据。
AC-3(也称为杜比数字)编码的细节是公知的并且在许多公布的参考文献中阐述,包括以下:
ATSC Standard A52/A:Digital Audio Compression Standard(AC-3),RevisionA,Advanced Television Systems Committee,20Aug.2001;
Flexible Perceptual Coding for Audio Transmission and Storage,CraigC.Todd等,96th Convention of the Audio Engineering Society,February26,1994,Preprint3796;
“Design and Implementation of AC-3Coders,”Steve Vernon,IEEETrans.Consumer Electronics,Vol.41,No.3,August1995;
Robert L.Andersen和Grant A.Davidson的The Digital Signal ProcessingHandbook,Second Edition,Vijay K.Madisetti,Editor-in-Chief,CRC Press,2009一书中的“Dolby Digital Audio Coding Standards”一章;
“High Quality,Low-Rate Audio Transform Coding for Transmission andMultimedia Applications,”Bosi et al,Audio Engineering Society Preprint3365,93rd AES Convention,October,1992;and
美国专利5,583,962;5,632,005;5,633,981;5,727,119;和6,021,386。
杜比数字(AC-3和杜比数字加(有时被称为增强的AC-3或“E-AC-3”)编码的细节在“Introduction to Dolby Digital Plus,an Enhancement to the Dolby DigitalCoding System”,AES Convention Paper6196,117th AES Convention,October28,2004、和在http://www.atsc.org/cms/index.php/standards/published-standards处可获得的Dolby Digital/Dolby Digital Plus Specification(ATSC A/52:2010)中阐述。
在音频比特流的AC-3编码中,要被编码的输入音频样本块经历时域到频域变换,产生频域数据块,通常被称为变换系数、频率系数、或频率分量,位于均匀间隔的频率仓中。每个仓中的频率系数然后被转换(例如,在图1系统的BFPE级7)为包括指数和尾数的浮点格式。
AC-3(和杜比数字加)编码器(和其它音频数据编码器)的典型实施例实施心理声学模型以基于频带分析频域数据(即,通常接近被称为Bark标度的公知心理声学标度的频带的50个不均匀频带)以确定比特到每个尾数的最佳分配。尾数数据然后被量化(例如,在图1系统的量化器6中)到对应于确定的比特分配的多个比特。量化的尾数数据然后被格式化(例如,在图1系统的格式化器8中)到编码的输出比特流中。
通常,尾数比特分配基于细粒信号频谱(由用于每个频率仓的功率谱密度(“PSD”)值表示)与粗粒掩蔽曲线(由用于每个频带的掩蔽值表示)之间的差。通常同样,心理声学模型实施低频补偿(有时被称为“lowcomp”补偿或“lowcomp”)以确定用于校正用于低频频带的掩蔽曲线值的校正值(这里有时称为“lowcomp”参数值)。每个lowcomp参数值可以被从用于低频频带中不同的一个的初步掩蔽曲线值中减去(或否则施加于其),以便生成用于频带的最终掩蔽曲线值。
注意,音频编码中的尾数比特分配可以基于信号频谱与掩蔽曲线之间的差异。用于实施此类比特分配的简单算法可以假定在一个特定频带中的量化噪声独立于在相邻频带中的比特分配。但是,这通常不是合理的假设,尤其在低频区,由于有限的频率选择性和解码器滤波器组中的频带之间的高度重叠、并且由于在低频区从一个频带到相邻频带中的损耗,其中掩蔽曲线的斜率可以等于或大于滤波器组转变边缘的斜率。
因此,音频编码中的尾数比特分配处理通常包括确定校正的掩蔽曲线的低频补偿处理。校正的掩蔽曲线然后用于确定用于音频数据的每个频率分量的信号与掩蔽的比率值。低频补偿是解码器选择性补偿过程,用于在低频处对于具有显著的低频音调分量的信号改善编码性能。通常,低频补偿是滤波器组响应校正,为了方便起见,其可以并入到用于确定信号到掩蔽值的激励函数的计算。如以下将更详细解释的,低频补偿的典型的实施方式通过寻找具有比用于下一个(较高频率)频带的PSD值小12-dB的PSD值的频带,来搜索显著的低频信号分量。当得到此类PSD值时,用于频带的激励函数值立即减去小18dB(或高达18dB的量)。此减去小然后被慢慢地每后续频带退出3dB。
图1是被配置为对时域输入音频数据1执行AC-3(或增强的AC-3)编码的编码器。分析滤波器组2将时域输入音频数据1变换到频域音频数据3,并且块浮点编码(BFPE)级7生成数据3的每个频率分量的浮点表示,包括用于每个频率仓的指数和尾数。从级7中输出的频率域数据这里有时也被称为频域音频数据3。从级7中输出的频域音频数据然后被编码,包括通过在量化器6中量化它的尾数和遮盖(tenting)它的指数(在遮盖级10)以及编码在级10生成的遮盖的指数(在指数编码级11)。格式化器8响应于从量化器6中输出的量化的数据和从级11中输出的编码的差分指数数据生成AC-3(或增强的AC-3)编码的比特流9。
量化器6基于由控制器4生成的控制数据(包括掩蔽数据)执行比特分配和量化。基于人听力和听觉的心理声学模型(由控制器4实施)从频域数据3生成掩蔽数据(确定掩蔽曲线)。心理声学模型考虑了人听力的频率相关阈值,和被称为掩蔽的心理声学现象,由此接近于一个或多个较弱频率分量的强频率分量倾向于掩蔽较弱分量,使得它们对人类听众听不见。这可以在编码音频数据时省略较弱的频率分量,并且从而在不会不利影响编码音频数据(比特流9)的感知质量的情况下实现较高程度的压缩。掩蔽数据包括用于频域音频数据3的每个频带的掩蔽曲线值。这些掩蔽曲线值表示由人类耳朵在每个频带中的掩蔽的信号的级别。量化器6使用此信息决定如何最好使用可用数目的数据比特以表示输入音频信号的每个频带的频域数据。
控制器4可以实施传统的低频补偿处理(这里有时称为“lowcomp”补偿)以生成用于校正低频频带的掩蔽曲线值的lowcomp参数值。校正的掩蔽曲线值用于生成频率域音频数据3的每个频率分量的信号与掩蔽的比率值。低频补偿是通常在音频数据的AC-3(和杜比数字加)编码期间实施的心理声学模型的特征。通过优先地减去小相关频率范围中的掩蔽、并且结果将更多比特分配到用于编码此类分量的编码字,Lowcomp补偿改善(要被编码的输入音频数据的)高音调的低频分量的编码。
Lowcomp补偿确定用于每个低频频带的lowcomp参数。用于每个频带的lowcomp参数有效地从用于频带的“激励”值(其以公知的方式确定)中减去,并且结果差异值用于确定校正的掩蔽曲线值。减去小用于频带的激励值(例如,通过从其中减去lowcomp参数,或增加从其中减去的lowcomp参数的值)导致增加分配给频带中音频的编码版本的比特的数目,出于以下原因。虽然用于频带的激励值不必然等于最终(校正的)掩蔽值(其有效地从用于频带的音频数据值中减去),但是它用于最终掩蔽值的计算(最终的掩蔽值考虑了绝对听力阈值并且可能其它宽带和/或频带调整)。因为如果用于频带的“信号与掩蔽”比率较大则分配给频带中的音频的编码比特的数目较大,因此减去小用于频带的掩蔽值将增加分配给在那个频带中的音频的编码版本的比特数目。因此,减去小用于频带的激励值一般导致频带的减去小的掩蔽值,并且因此,增加用于那个频带的分配的比特数目。
我们接下来更详细地描述其中传统的lowcomp补偿将通常由心理声学模型(例如,由图1的控制器4实施的模型)执行的方式。控制器4将扫描低频频带(在从0Hz到2.05kHz的范围,以48kHz采样频率)以寻找当前频率频带与下一(较高频率)频带之间的功率谱密度(PSD)的急剧(12dB)增加,其是强音调分量的一个特性。响应于在低频频带中识别PSD为指示强音调分量,应用lowcomp补偿以使得更多比特被分配给用于编码识别的强低频音调分量的数据。
应当理解,在AC-3和杜比数字加编码中,频域音频数据3(即,每个变换仓的内容)的每个分量具有包括尾数和指数的浮点表示。为了简化掩蔽曲线的计算,编码器的杜比数字族仅仅使用指数得出掩蔽曲线。或者,可替换说明,掩蔽曲线取决于变换系数指数值但是独立于变换系数尾数值。因为指数的范围相当有限(一般,0-24的整数值),所以指数值被映射到具有较大范围(一般地,0-3072的整数值)的PSD标度以用于计算掩蔽曲线的目的。因此,最大声的频率分量(即,那些具有指数0的)被映射到PSD值3072,而最温和的频域数据分量(即,那些具有指数24的)被映射到PSD值0。
众所周知,在传统的杜比数字(或者杜比数字加)编码中,差分指数(即,连续指数之间的差)代替绝对指数被编码。差分指数可以至采用五个值中的一个:2、1、0、-1、和-2。如果得到此范围外面的差分指数,则被减去的指数中的一个被修改以使得差分指数(在修改之后)在标记的范围之内(此传统方法被称为“指数遮盖”或者“遮盖”)。图1所述的编码器的遮盖级10通过执行此类遮盖操作,响应于对其有效的原始指数生成遮盖的指数。
考虑lowcomp补偿的典型实施方式的示例,其中心理声学模型(例如,由图1的控制器4实施的模型)扫描低频频带,频带“N+1”是下一个频带、和当前频带“N”具有比下一个频带低的频率。扫描可以是从最低频带直到频带序号22,并且通常不包括LFE(低频影响)信道的最后一个频带。如果确定频带N+1的PSD值减去频带N的PSD值等于256(其指示从当前频带N到下一个(较高频率)频带N+1在PSD中的急剧增加(12dB)),则通过立即将用于当前频带的激励函数计算减去小18dB(即,减去小用于频带的激励值)来执行lowcomp补偿。通过从激励值(否则将被确定用于该频带)减去等于384的lowcomp参数来减去小用于频带的激励值。此激励值减去小被慢慢地退出(例如,通过每个后续频带后退高达3dB)。
对于后续的频带,即比最初对其使能lowcomp的频带更高频率的频带,如果确定一个频带与下一个频带之间的PSD的差小于256,则lowcomp参数(即从频带激励值中减去的)或者保持与先前频带相同的值或者减去小到更低的值。直到第一次确定(在扫描所有低频频带期间)两个相邻的频带之间的PSD的差等于256,才执行lowcomp补偿(即具有零值的lowcomp参数被从频带的激励值中减去)。
虽然传统的Lowcomp处理对具有显著的低频分量的音调信号有好处,但是障碍是触发掩蔽减去小的12dB的PSD差标准频繁地遇到具有低频内容的大量非音调信号。指示人群掌声的音频数据是此类非音调信号的公知实例,并且这里将称为非音调信号类型(其不同于本发明的典型实施例的音调信号)的典型代表。发明人已经认识到,从低到中/高频重新分配编码比特(相对于将在具有传统lowcomp补偿的传统的AC-3或者E-AC-3编码中采用的编码比特分布)改善掌声的感知质量和在信号的AC-3(或者E-AC-3)编码版本的解码之后再现的其它非音调信号,并且因此将期望在此类非音调信号的AC-3或者E-AC-3编码期间禁止它们的lowcomp补偿(即,将期望在此类信号的编码期间将lowcomp切换为OFF)。发明人也已经认识到,在具有低频内容的音调信号(例如,由调音管发生的信号)的AC-3(或者E-AC-3)编码期间,当它们在它的AC-3(或者E-AC-3)编码版本的解码之后被再生时,在此类编码期间禁止lowcomp补偿降低了音调信号的感知质量。
因此,发明人已经认识到,将期望实施可以在具有显著的低频音调分量的音频信号的编码期间自适应地应用低频补偿,但在不具有显著的低频音调分量的音频信号(例如,掌声信号、或者具有低频非音调内容而不是显著的音调低频分量的其它音频信号)的编码期间不应用的编码器,并且以不需要解码器改变的方式完成(即,以允许传统的解码器解码已经由发明的编码器生成的编码的音频的方式)。
一些传统的音频编码方法,其中在尾数比特分配基于信号频谱与掩蔽曲线之间的差,除了低频补偿之外,在用于频带、要被编码的频域音频数据的掩蔽值的生成期间执行至少一个掩蔽值校正处理。
例如,一些传统的音频编码器(例如,AC-3和E-AC-3编码器)实施δ比特分配,其根据附加改善的心理声学分析,提供参数调整用于要被编码的每个音频频道的掩蔽曲线。编码器发送指定为δ的附加比特流代码,其传送采用的掩蔽曲线与默认掩蔽曲线之间的差(即,由在每个频率处的默认掩蔽模型确定的掩蔽值与由在相同的频率处实际采用的改善的掩蔽模型确定的掩蔽值之间的差)。
δ比特分配函数通常被限制为阶梯函数(例如,+6dB阶梯上升到+18dB)。阶梯的每个梯板对应于用于邻接整数数目的一半Bark频带的掩蔽级别调整。阶梯包括许多不相重叠的可变长度片段。片段是为了传输效率编码的延伸长度。
δ比特分配的传统应用是用于掩蔽级别校正的传统的BABNDNORM处理。在BABNDNORM处理中(掩蔽值校正处理的示例),对于(AC-3和增强的AC-3编码中采用的Bark频带的)感知的频带号29和以上,在用于得出激励函数的每个感知的频带中的信号能量被缩放与感知的带宽的逆成比例的值。因为频带29以下的所有感知频带具有单位带宽(即,仅仅包括单个频率仓),所以不必缩放用于29以下的频带的信号能量。在逐渐较高的频率处,激励函数和因此掩蔽阈值估计被降低。这在较高频率处增加比特分配,特别是在耦合信道中。实施AC-3(或者E-AC-3)编码的一些音频编码器被配置为实施BABNDNORM处理作为编码的步骤。
图5是频带的频域音频数据的频带PSD(感知能量)值的图(最上曲线),通过对音频数据应用传统的BABNDNORM处理生成的缩放的频带PSD值的图(上数第二曲线),用于掩蔽音频数据生成(例如,由传统的AC-3或者E-AC-3编码器)的激励函数的图(上数第三曲线),以及通过对激励函数应用传统的BABNDNORM处理生成(例如,由传统的AC-3或者E-AC-3编码器)的激励函数的缩放版本的图(下方曲线)。四个曲线的每一个在感知的频带(Bark频率)标度上表示。显然是顶部两个曲线在频带29处开始偏离彼此,并且底部两个曲线也在频带29处开始偏离彼此。
图6是音频信号的频谱的图(图6的具有最宽动态范围的曲线),用于掩蔽音频信号的默认掩蔽曲线的图(从底部数第二曲线),以及通过应用传统的BABNDNORM处理到掩蔽曲线生成的(例如,由传统的AC-3或者E-AC-3编码器)掩蔽曲线的缩放版本的图(底部曲线)。显而易见从图6中,在逐渐较高的频率处,BABNDNORM处理将掩蔽曲线降低较大的量。
发明内容
在第一类实施例中,本发明是用于确定要被编码(包括通过经历量化)的频域音频数据的音频数据值的尾数比特分配的尾数比特分配方法。该分配方法包括确定用于音频数据值的掩蔽值的步骤,包括通过对音频数据的低频频带集合的每个频带的音频数据执行自适应低频补偿,以使得掩蔽值对确定信号到掩蔽值有用,所述信号到掩蔽值确定用于所述音频数据的尾数比特分配。自适应低频补偿包括步骤:
(a)对频域音频数据执行音调检测以生成指示低频频带集合中的每个频带是否具有显著音调内容的补偿控制数据;和
(b)对由补偿控制数据指示的具有显著音调内容的低频频带集合中的每个频带中的音频数据执行低频补偿,包括通过校正用于具有显著音调内容的所述每个频带的初步掩蔽值,而不对低频频带集合中的任何其它频带中的音频数据执行低频补偿,以使得用于每个所述其它频带的掩蔽值是未校正的初步掩蔽值。
在第一类中的一些实施例中,步骤(a)包括对音频数据执行音调检测以生成指示音频数据的频带的至少一个子集(不一定低频频带)中的每个频带是否具有显著音调内容的补偿控制数据的步骤,并且确定用于音频数据值的掩蔽值的步骤还包括步骤:
(c)以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理,包括通过校正用于具有显著音调内容的所述每个频带的初步掩蔽值,以及以第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
例如,掩蔽值校正处理可以是BABNDNORM处理,所述每个频带可以是感知的频带,并且步骤(c)可以包括利用用于具有显著音调内容的所述每个频带的第一缩放常数执行BABNDNORM处理、和利用用于缺乏显著音调内容的所述每个频带的第二缩放常数执行BABNDNORM处理的步骤。
本发明的另一个实施例是包括此类尾数分配方法的任何实施例的编码方法。
在第二类实施例中,本发明是克服将低频补偿应用到所有输入音频信号(包括具有音调和非音调的低频内容的信号)或者不将低频补偿应用到任何输入音频信号的传统编码方法的局限性的音频编码方法。这些实施例在具有显著的低频音调分量的音频信号的编码期间选择性地(自适应地)应用低频补偿,但是在不具有显著的低频音调分量(例如,掌声或者具有低频非音调内容但是不是显著的音调低频分量的其它音频信号)的音频信号的编码期间不应用。以允许解码器在不确定(或者被通知关于)低频补偿在编码期间是否被应用的情况下执行编码的音频的解码的方式执行自适应低频补偿。
第二类中的典型的实施例是包括以下步骤的音频编码方法:
(a)对频域音频数据执行音调检测以生成指示音频数据的至少一些低频频带集合的每个低频频带是否具有显著音调内容的补偿控制数据;并且
(b)执行低频补偿以生成用于在由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的校正的掩蔽值,并且在不执行低频补偿的情况下生成用于集合中的每个其他低频频带中的音频数据的掩蔽值。
在一些实施例中,音频编码方法是AC-3或者增强的AC-3编码方法。在这些实施例中,低频补偿被优选地对于输入音频数据的最初为其设计lowcomp的频带(即,指示显著的、长期稳定的(“音调”)低频内容)执行(即,开启或者使能),并且对于其他不执行(即,关闭或者有效地禁止)。在这些实施例中,响应于指示低频补偿将不会对音频数据的频带执行的补偿控制数据,(例如,补偿控制数据指示频带包括非音调音频内容而不是显著音调内容),步骤(b)优选地包括步骤:在所述频带中“重新遮盖”音频数据以生成用于频带的修改的音频数据,所述用于频带的修改的音频数据包括修改的指数。重新遮盖生成用于频带的修改的音频数据以使得用于频带的差分指数不等于2(例如,以使得下一个较高频率频带中的音频数据的指数减去用于该频带的修改的音频数据的指数一定等于2、1、0、或者-1)。因此,lowcomp补偿不会应用于频带,因为用于将lowcomp补偿应用到频带的标准(相对于用于下一个较低频频带的PSD,用于该频带的PSD增加12dB,)不会满足(如果使用于该频带的修改的(“重新遮盖的”)音频数据的指数减去用于下一个较低频频带的指数不等于-2,则此标准不能满足)。
更具体地,在一些此类实施例中,对于重新遮盖阻止差分指数等于-2的每个频带(“第N”频带),在下面的意义上lowcomp补偿“不被应用”(或者关断或者有效地禁止)。用于该频带的修改的差分指数(由重新遮盖产生)是-1、0、1、或2。因此,如果用于先前的(较低频)频带(第“(N-1)”个频带)的差分指数是-2(如果音调检测步骤指示用于第“(N-1)”个频带的强音调内容以阻止重新遮盖第“(N-1)”个频带”,并且缺少用于第“N”个频带的音调内容触发重新遮盖第“N”个频带,则其可以出现),并且lowcomp已经将完整掩蔽调整应用到(以传统的方式)第“(N-1)”个频带(即,本发明的音调检测没有阻止lowcomp这样做),则传统的lowcomp(没有重新遮盖)将应用逐渐小的掩蔽调整的序列(对于第“(N-1)”个频带之后的少量频带,包括第N个频带)直到它到达做出零调整的频带(假定用于这些频带的差分指数都不等于-2)。在本段描述的实施例中,当重新遮盖(根据本发明)阻止用于频带(第N个频带)的差分指数等于-2时(即,因为笨发明的音调检测步骤指示用于频带的非音调内容),如果lowcomp已经应用掩蔽调整到先前的频带(第(N-1)个频带),则允许lowcomp继续它的逐渐小的掩蔽调整的序列用于第N个频带(并且也可能地用于少量后续的频带)直到它达到做出零调整的第一个频带。在这一点上,阻止lowcomp做出更进一步的掩蔽调整直到本发明的音调检测指示音调信号。
在其它实施例中,当本发明的音调检测步骤指示用于传统上应用lowcomp的集合中的任何低频频带的非音调内容时(或用于所有低频频带,一起考虑),在下面的意义上lowcomp补偿“不被应用”(或关断或有效地禁止)。响应于本发明的音调检测步骤指示用于集合中至少一个低频频带的非音调内容,从用于集合中所有频带的激励函数中减去非零lowcomp参数终止(例如,立即)。在这一点上,lowcomp被阻止做出任何掩蔽调整(直到新的扫描开始通过频域音频数据的下一集合的频带)。
在一些实施例中,补偿控制数据指示集合中的每个单独的低频频带是否具有显著音调内容,并且选择性地对集合中的每个单独的低频频带应用(或不应用)低频补偿。在其它实施例中,补偿控制数据指示集合中的低频频带(考虑彼此)是否具有显著音调内容,并且低频补偿或者被应用于集合中的所有低频频带或者不应用于集合中的低频频带中的任何一个(取决于补偿控制数据内容)。
在第二类中的一些实施例中,步骤(a)包括对音频数据执行音调检测以生成指示音频数据的频带(不一定低频频带)的至少一个子集中的每个频带是否具有显著音调内容的补偿控制数据的步骤,并且其中确定用于音频数据值的掩蔽值的步骤还包括步骤:
(c)以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理,并且以第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
例如,掩蔽值校正处理可以是BABNDNORM处理,所述每个频带可以是感知的频带,并且步骤(c)可以包括利用第一缩放常数对于具有显著音调内容的所述每个频带执行BABNDNORM处理,以及利用第二缩放常数对于缺乏显著音调内容的所述每个频带执行BABNDNORM处理的步骤。
在另一类实施例中,本发明是被配置为响应于频域音频数据生成编码的音频数据的音频编码器,包括通过对音频数据执行自适应低频补偿,所述编码器包括:
音调检测器(例如,图2的元件15),被配置为对音频数据执行音调检测以生成指示音频数据的至少一些低频频带的集合中的每个低频频带是否具有显著音调内容的补偿控制数据;和
低频补偿控制级(例如,由图2的元件4实施),被耦接并且被配置为响应于补偿控制数据自适应地实现(选择性地实现或有效地禁止)低频补偿应用到音频数据的低频频带的集合的每个低频频带。
音调检测器被配置为确定低频补偿是否应当应用于低频频带集合的每个频带的音频数据(即,在低频频带集合的音频数据的编码期间,通过生成指示低频频带集合的每个频带的低频补偿是否应当因为频带具有显著音调内容而接通、或因为频带缺乏显著音调内容而关断的补偿控制数据)。低频补偿控制级被配置为响应于补偿控制数据自适应地实现低频补偿应用到低频频带集合的每个频带的音频数据,以不需要解码器改变的方式(即以允许解码器执行编码的音频数据的解码而不必确定(或被通知关于)在编码期间低频补偿是否应用于任何低频频带的方式)。
响应于指示要被编码的音频数据的频带指示非音调信号(对于其,低频补偿应当禁止)的补偿控制数据,低频补偿控制级的优选实施例通过人为地修改它的指数来“重新遮盖”频带的音频数据。重新遮盖生成用于该频带的修改的音频数据以使得用于该频带的差分指数不等于-2(例如,以使得用于频带的修改的音频数据的修改的指数减去在下一个较低频频带中的音频数据的指数一定等于2、1、0、或者-1)。在编码器的典型实施例中,lowcomp补偿将不会应用于频带,因为用于将lowcomp补偿应用到频带的标准(相对于用于下一个较低频频带的PSD,用于该频带的PSD增加12dB,)不会满足(如果用于该频带的修改的音频数据的指数减去用于下一个较低频频带的指数不等于-2,则此标准不能满足)。
本发明的另一个方面是用于解码编码的音频数据的方法,包括接收指示编码的音频数据的信号,以及解码编码的音频数据以生成指示音频数据的信号的步骤,其中编码的音频数据已被通过根据本发明的编码方法的任何实施例编码音频数据而生成。本发明的另一方面是包括编码器的系统,编码器被配置(例如,编程)为响应于音频数据执行本发明的编码方法的任何实施例以生成编码的音频数据,和解码器,被配置为解码编码的音频数据以恢复音频数据。
本发明的其它方面包括系统或设备(例如,编码器或处理器),被配置(例如编程)为执行本发明的方法的任何实施例,和计算机可读媒介(例如,盘),其存储用于实施发明的方法或它的步骤的任何实施例的代码。例如,本发明的系统可以是或包括可编程的通用处理器、数字信号处理器、或微处理器,被编程有软件或固件和/或否则被配置为对数据执行各种操作中的任何一个,包括本发明的方法或它的步骤的实施例。此类通用处理器可以是或包括计算机系统,包括输入设备、存储器、和处理电路,被编程(和/或否则配置)为响应于对其有效的数据执行本发明的方法(或它的步骤)的实施例。
附图说明
图1是传统的编码系统的方框图。
图2是被配置为执行本发明的方法的实施例的编码系统的方框图。
图3是指示调音管(音调)信号的频域音频数据的指数和遮盖的指数作为频率仓的函数的图。
图4是指示掌声(非音调)信号的频域音频数据的指数和遮盖的指数作为频率仓的函数的图。
图5是频带、频域音频数据的频带PSD(感知能量)值的图(上曲线)、通过对音频数据应用传统的BABNDNORM处理生成的缩放的频带PSD值的图(从上数第二曲线)、用于掩蔽音频数据生成的激励函数的图(从上数第三曲线)、通过对激励函数应用传统的BABNDNORM处理生成的激励函数的缩放版本的图(底部曲线)。四个曲线的每一个在感知频带(Bark频率)刻度上表示。
图6是音频信号的频谱的图、用于掩蔽音频信号的默认掩蔽曲线的图(从底部数第二曲线)、以及通过对掩蔽曲线应用传统的BABNDNORM处理生成的掩蔽曲线的缩放版本的图(底部曲线)。
图7是系统的方框图,该系统包括编码器,被配置为执行本发明的编码方法的任何实施例以响应于音频数据生成编码的音频数据,和解码器,被配置为解码编码的音频数据以恢复音频数据。
具体实施方式
参考图2描述被配置为实施本发明的方法的系统的实施例。图2的系统是AC-3(或增强的AC-3)编码器,其被配置为响应于时域输入音频数据1生成AC-3(或增强的AC-3)编码的音频比特流9。图2系统的元件2、4、6、7、8、10、和11等于以上图1系统描述的相等号码的元件。
分析滤波器组2将时域输入音频数据1转换成频域音频数据3,并且BFPE级7生成数据3的每个频率分量的浮点表示,包括用于每个频率仓的指数和尾数。从级7输出的频域音频数据(这里有时也称为频域音频数据3)然后被编码,包括通过在量化器6中量化它的尾数。格式化器8被配置为响应于从量化器6中输出量化的尾数数据和从级11中输出编码的差分指数数据生成AC-3(或增强的AC-3)编码比特流9。量化器6基于由控制器4生成的控制数据(包括掩蔽数据)执行比特分配和量化。
控制器4被配置为通过校正用于音频数据3的低频频带集合的每个低频频带的初步掩蔽值(激励值),对所述频带执行低频补偿。用于该频带的由控制器4断言到量化器6的校正的掩蔽数据由用于所述频带的校正的掩蔽值确定。
因为图2的系统是AC-3(或增强的AC3)编码器,所以控制器4实施心理声学模型以基于50个不均匀的感知频带分析频域数据,其接近公知的Bark标度的频带。本发明的其它实施例采用心理声学模型以基于另一个频带(即,基于均匀的或不均匀的频带的任何集合)分析频域数据(和/或实施低频补偿和可选地还有另一个掩蔽值校正处理)。
图2的编码器包括本发明的重新遮盖级18和音调检测器15。图2的遮盖级10被耦接并且被配置为向音调检测器15和重新遮盖级18断言它生成的遮盖的指数。重新遮盖级18被配置为仅仅响应于指示应当对频带执行低频补偿的补偿控制数据(由检测器15生成并且断言到级18)生成重新遮盖的指数,其使得控制器4(响应于重新遮盖的指数操作)对频带执行低频补偿。响应于指示将不会对音频数据3的频带执行低频补偿的补偿控制数据(由检测器15生成并且断言到级18),控制器4不对频带执行低频补偿,并且反而对于该频带由控制器4断言到量化器6的掩蔽数据由用于所述频带的未校正的初步掩蔽值(激励值)确定。
用于频域数据3的每个频带的由控制器4断言到量化器6的掩蔽数据包括用于频带的掩蔽曲线值。这些掩蔽曲线值表示由人类耳朵在每个频带中掩蔽的信号量。如在图1系统中,图2的量化器6使用此信息以决定如何最佳地使用可用数目的数据比特以表示输入音频信号的每个频带的分量。
更具体地,控制器4被配置为响应于从级18对其断言的重新遮盖的指数计算PSD值,响应于PSD值计算频带PSD值,响应于频带PSD值计算掩蔽曲线,并且响应于掩蔽曲线确定尾数比特分配数据(在图2中指示的“掩蔽数据”)。
图2的音频编码器被配置为包括通过对音频数据3执行自适应低频补偿生成编码的音频数据9。为了实施此类自适应低频补偿,图2系统包括音调检测级(音调检测器)15和自适应重新遮盖级18,如图所示耦接,并且控制器4响应于由级18生成的重新遮盖的指数执行低频补偿。遮盖级10被耦接以接收频域音频数据3的原始指数,并且被配置为以下面更详细描述的方式,确定用于音频数据3的上述低频频带集合的每个低频频带的遮盖的指数。
音调检测器15被耦接以接收音频数据3的原始(原始)指数,和在扫描(从低频到高频)音频数据3的低频频带集合期间响应于这些原始指数遮盖由级10生成的指数。
级10被配置为确定数据3的连续频带的频域音频数据3的指数之间的差,并且生成每个此类指数的遮盖版本(遮盖的指数)。在扫描(从低频到高频)频域数据3(包括将要对其执行自适应低频补偿的低频频带集合的频带)期间,以上述传统的方式执行遮盖,以使得在扫描期间生成用于每个频率仓的遮盖的指数。级10确定用于每个频带的差分指数(每个“下一个”仓“N+1”的指数减去当前(较低频)仓“N”的指数)。如果用于仓“N”的差分指数大于2(即,exp(N+1)-exp(N)>2),然后级10确定用于仓“N+1”的遮盖的指数是满足tentexp(N+1)-exp(N)=2的最小指数(tentexp(N+1))。在这种情况下,用于仓N的遮盖的指数(tentexp(N))等于用于仓N的原始指数(tentexp(N)=exp(N)),并且级10向级18断言用于仓N的差分遮盖的指数值2。如果用于仓“N”的差分指数小于2(即,exp(N+1)-exp(N)<-2),则级10确定用于仓“N”的遮盖的指数是满足exp(N+1)-tentexp(N)=-2的最大指数(tentexp(N))。在这种情况下,用于仓N+1的遮盖的指数(tentexp(N+1))等于用于仓N+1的原始指数(tentexp(N+1)=exp(N+1)),并且级10向级18断言用于仓N的差分遮盖的指数值-2。
音调检测器15被配置为对包括音频数据3的原始指数、和在扫描(从低频到高频)音频数据3的低频频带集合期间由级10响应于这些原始指数生成的遮盖的指数执行音调检测。音调信号的PSD值(作为频率的函数)的急剧上升和下降特性意味着此类信号通常比非音调信号(例如,指示掌声的非音调信号)被遮盖。
例如,图3是指示音调信号(调音管信号)的频域音频数据的指数和遮盖的指数作为频率仓的函数的图。图4是指示非音调(掌声)信号的频域音频数据的指数和遮盖的指数也作为频率仓的函数的图。在通常执行低频补偿的低频处,(图3和4的)每个仓对应于单个频带。如从对图3的检查中可见,存在低频范围中的许多频带(例如,仓7、11、14、15、20、和23),其中在音调信号的指数与对应遮盖的指数(从指数中生成的,例如,通过级10)存在非零差。如从对图4的检查中可见,在低频范围中存在较少频带(仅仅仓34),其中在非音调信号的指数与对应遮盖的指数之间存在非零差。
因此,音调检测器15的典型实施例确定频域音频数据集合的指数与对应遮盖的指数之间的均方差度量(或指示此类数据的指数与对应遮盖的指数之间的另一个度量)。例如,在从第一(最低)频带至频带N+1扫描(数据3的标记的低频频带集合的)低频频带(从低频到高频)期间,检测器15的实施方式生成用于频带N+1的音调度量,其是对于在从第一频带到频带N+1范围中的每个频带的原始指数与遮盖的指数之间的差的平方的平均值。
此类均方差度量被采用以确定补偿控制数据,指示从最低频频带至当前频率频带(频带N+1)的频率范围中的音频信号的音调(存在或缺少显著音调内容)。对于每个频率范围(从最低频频带至当前频率频带),如果均方差度量(用于频率范围)具有小于特定预定阈值(例如,用实验方法确定的阈值)的值,则检测器15断言(向级18)具有第一值(例如,二进制位等于零)的补偿控制数据,以指示非音调的音频信号。这触发由级18对由级10对当前频带断言的差分指数值的重新遮盖,从而触发由控制器4的解码器兼容的lowcomp切断(即,阻止控制器4对当前频带应用传统的低频补偿)。在下面描述的示例中,取阈值为0.05。
对于每个频率范围(从最低频频带至当前频率频带),如果均方差度量(用于频率范围)具有大于或等于阈值的值,则检测器15断言(向级18)具有第二值(例如,二进制位等于一)的补偿控制数据,以指示音调的音频信号。这禁止由级18对由级10对当前频带断言的差分指数值的重新遮盖,从而允许此值(在级10的输出处断言的)未改变地通过级18到控制器4,并且因此触发由控制器4的解码器兼容的lowcomp接通(即,允许控制器4对当前频带应用传统的低频补偿)。
在可替换实施例中,检测器15以另一种方式生成补偿控制数据,但是以使得补偿控制数据指示由数据3在数据3的每个频带中、或在数据3的每个低频频带中、或在包括对其执行自适应低频补偿的数据3的低频频带的集合(或子集)的频率范围中确定的音频信号的音调(或非音调)。例如,在一些实施例中,检测器15被实施为专用的音调检测器,其对BFPE级7的输出操作(不具体地对BFPE级7的输出的指数和从级10中输出的遮盖的指数)。
例如另一个示例,在一些实施例中,检测器15(或在实施例的任何一个中采用的另一种音调检测器)是掌声检测器,被配置为生成指示音频数据的低频频带集合是否(例如,集合的每个低频频带是否)表示掌声的补偿控制数据。在此上下文中,“掌声”被广义地使用,其可以表示或者仅仅掌声,或者掌声和/或人群欢呼。将对指示掌声的集合中的每个频带禁止(关断)低频补偿,或如果如补偿控制数据指示,集合中的至少一个频带指示掌声则对集合中的所有频带禁止低频补偿。将对如补偿控制数据指示的不指示掌声的集合中的每个低频频带中的音频数据执行低频补偿。
响应于来自于检测器15的指示非音调音频信号(例如,指示由数据3确定的音频信号是从数据3的最低频频带至当前频带(频带N)的低频范围中的非音调信号)的补偿控制数据,级18对当前频带的遮盖的指数执行重新遮盖。具体地,如果用于当前频带的差分遮盖的指数(频带N+1的遮盖的指数)减去频带N的遮盖的指数等于-2(其指示从先前频带N到当前(较高频率)频带N+1的PSD的急剧增加(12dB),则级18确定用于频带“N+1”的差分重新遮盖的指数等于-1。因此,响应于来自于检测器15的指示非音调音频信号(例如,指示由数据3确定的音频信号在从数据3的最低频频带至数据3的当前频带(频带N)的低频范围中是非音调信号)的补偿控制数据,控制器4不对音频数据3的当前频率频带(N)执行低频补偿。
响应于来自于检测器15的指示音调音频信号(例如,指示由数据3确定的音频信号在从数据3的最低频频带至数据3的当前频带(频带N)的低频范围中是音调信号)的补偿控制数据,级18向控制器4传递用于当前频带的遮盖的指数差(没有改变遮盖的指数差),并且控制器4被允许对音频数据3的当前频率频带(N)执行低频补偿。具体地,如果从级10输出(并且经由级18传递到控制器4)的用于频带的遮盖的指数差值等于-2,则控制器4对音频数据3的当前频率频带(N)执行低频补偿。
一般地说,本发明的典型实施例的音调检测器被配置为确定低频补偿是否应当应用于低频频带的集合的每个频带的音频数据(即,在低频频带的集合的音频数据的编码期间,通过生成指示低频频带的集合的每个频带的低频补偿是否应当因为频带具有显著音调内容而接通、或因为频带缺乏显著音调内容而关断的补偿控制数据)。本发明的典型实施例的低频补偿控制级被配置为响应于补偿控制数据自适应地实现低频补偿应用到低频频带集合的每个频带的音频数据,以不须解码器改变的方式(即以允许解码器执行编码的音频数据的解码而不必确定(或被通知关于)低频补偿在编码期间是否应用于任何低频频带的方式)。
在典型的实施例中,响应于指示要被编码的音频数据的频带指示非音调信号(对其应当禁止低频补偿)的补偿控制数据,低频补偿控制级的优选实施例通过人为地修改由遮盖的数据确定的相关差分指数来“重新遮盖”频带的遮盖的音频数据(例如,差分遮盖的指数)。重新遮盖生成用于频带的修改的音频数据以使得用于频带的修改(重新遮盖)的差分指数不等于-2(例如,以使得用于频带的修改的音频数据的修改的指数减去在下一个较低频频带中的音频数据的指数一定等于2、1、0、或者-1)。在本发明的编码器的典型实施例中,lowcomp补偿将不会应用于该频带,因为用于将lowcomp补偿应用到频带的标准(相对于用于下一个较低频频带的PSD,用于该频带的PSD增加12dB)不会被满足(因为用于该频带的修改的音频数据的指数减去用于下一个较低频频带的指数不等于-2,所以此标准不能满足)。
通过人为地修改(“重新遮盖”)用于低频频带的指数以使得(用于相邻的低频频带的)差分指数绝不等于-2(即,以避免在从低到高频频带扫描期间PSD增加12dB),并且因此避免应用lowcomp补偿,可以在解码器没有改变的情况下,关断低频补偿(根据本发明的典型实施例)。当本发明的音调检测器指示非音调信号时,用于低频频带的遮盖的指数被重新遮盖到此类效果。这不需要改变为了生成用于量化尾数值的掩蔽数据(信号与掩蔽比率)采用的心理声学模型,因此生成可以由传统解码器解码的编码数据。更具体地,在扫描低频频带期间,其中频带“N+1”是下一个频带,并且当前频带(“N”)比下一个频带具有更低的频率,如果预先确定差分指数(用于频带N+1的指数减去用于频带N的指数)等于-2,则一个频带的指数被改变(“重新遮盖”)以使得修改的指数值的差分指数等于-1(即,用于频带N+1的修改的指数减去用于频带N的指数等于-1,或用于频带N+1的指数减去用于频带N的修改的指数等于-1)。优选地,如果用于频带N+1的指数减去用于频带N的指数等于-2,则通过减小(“重新遮盖”)用于频带N(当前频带)的指数,此差分被增加到-1,以使得用于频带N+1的指数减去用于频带N的修改的指数等于-1。重新遮盖的后一种实施方式通常是优选的,一般地不期望增大指数值,因为存在对应的尾数可以被充分归一化的假设。增加对应于充分归一化的尾数的指数值将导致过归一化,或切断的尾数,这是不希望的。因此,如果用于频带N+1的指数减去用于频带N的指数等于-2,为了将此差增加到-1,通常优选地将用于频带N的指数减小一(而不是将用于频带N+1的指数增大一)。
当本发明的音调检测器指示音调信号时,输入音频分量的指数不被重新遮盖,并且低频补偿被以传统的方式应用到音调信号(即,指示音调信号的传统遮盖的值)。
发明人已经执行了听音试验,其将传统的E-AC-3编码器的性能与E-AC-3编码器的修改版本(实施参考图2描述的类型的自适应lowcomp补偿)进行比较。该测试显示了后一种(修改的)编码器不仅对于测试的掌声信号的益处,而且对于一些非掌声信号的益处。更具体地,在192kb/s处,音调检测器阈值等于0.05(即,音调检测器被配置为生成指示当频域音频的指数与遮盖的指数之间的均方差度量具有小于0.05阈值的值时应当对其关断lowcomp补偿(通过重新遮盖要被编码的频域音频数据的指数)的非音调信号的控制数据),分别对于调音管(长期、高音调、低频)输入音频和掌声(高度非音调、低频)输入音频,对其关断lowcomp补偿的块的平均百分比是0.5%和80%。
注意,音调信号的PSD的急剧上升和下降特性意味着通常此类信号比非音调信号被遮盖更多,并且因此指数与遮盖的指数之间的均方差可以充当音调指示符。音调指示符值小于特定的阈值(用实验方法确定的)意味着对其应当关断lowcomp的非音调信号;反之亦然。在典型的实施方式中,在扫描要被编码的音频数据(例如,图2的数据3)的频带期间计算(例如,通过图2的检测器15)音调指示符值,直到当前频率频带的频率达到耦合开始频率(当耦合在使用中时)。如果自适应混合变换(AHT)在使用中,则本发明的自适应lowcomp处理的操作可以被禁止,并且传统的(非自适应的)lowcomp处理反而可以被执行。AHT在上述参考的杜比数字/杜比数字加规范和在上述参考的Robert L.Andersen和GrantA.Davidson在2009年第二版Vijay K.Madisetti,Editor-in-Chief,CRC Press的TheDigital Signal Processing Handbook中的“Dolby Digital Audio Coding Standards”章节中描述。
在第一类实施例中,本发明是用于确定要被编码的频域音频数据的音频数据值的尾数比特分配(包括通过经历量化)的尾数比特分配方法。分配方法包括步骤:确定用于音频数据值的掩蔽值(例如,在图2的控制器4中),包括通过对音频数据的低频频带集合的每个频带的音频数据执行自适应低频补偿,以使得掩蔽值对确定信号与掩蔽值有用,所述信号与掩蔽值确定用于所述音频数据的尾数比特分配。自适应低频补偿包括步骤:
(a)对音频数据执行音调检测(例如,在图2的音调检测器15中)以生成指示低频频带集合中的每个频带是否具有显著音调内容的补偿控制数据;和
(b)对由补偿控制数据指示的具有显著音调内容的低频频带集合中的每个频带中的音频数据执行低频补偿,包括通过校正用于具有显著音调内容的所述每个频带的初步掩蔽值,而不对低频频带集合中的任何其它频带中的音频数据执行低频补偿,以使得用于每个所述其它频带的掩蔽值是未校正的初步掩蔽值。
在第一类中的一些实施例中,步骤(a)包括对音频数据执行音调检测(例如,在图2的音调检测器15中)以生成指示音频数据的频带的至少一个子集中的每个频带是否具有显著音调内容的补偿控制数据的步骤,并且其中确定用于音频数据值的掩蔽值的步骤还包括步骤:
(c)以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理,包括通过校正用于具有显著音调内容的所述每个频带的初步掩蔽值,以及以第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
例如,掩蔽值校正处理可以是BABNDNORM处理,所述每个频带可以是感知频带,并且步骤(c)可以包括利用第一缩放常数对于具有显著音调内容的所述每个频带执行BABNDNORM处理,以及利用第二缩放常数对于缺乏显著音调内容的所述每个频带执行BABNDNORM处理的步骤。
本发明的另一个实施例是包括此类尾数分配方法的任何实施例的编码方法。
在第二类实施例中,本发明是克服将低频补偿应用到所有输入音频信号(包括具有音调和非音调的低频内容的信号二者),或者不将低频补偿应用到任何输入音频信号的传统编码方法的局限性的音频编码方法。这些实施例选择性地(自适应地)在具有显著的低频音调分量的音频信号的编码期间应用低频补偿,而在不具有显著的低频音调分量的音频信号(例如,掌声或者具有低频非音调内容而不是显著的音调低频分量的其它音频信号)的编码期间不应用。以允许解码器在不用确定(或者被通知关于)在编码期间低频补偿是否应用的情况下执行编码音频的解码的方式执行自适应低频补偿。
第二类中的典型的实施例是包括以下步骤的音频编码方法:
(a)对频域音频数据执行音调检测(例如,在图2的音调检测器15中)以生成指示音频数据的至少一些低频频带集合中的每个低频频带是否具有显著音调内容的补偿控制数据;以及
(b)执行低频补偿(例如,在图2的控制器4中)以生成用于由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的校正的掩蔽值,并且在不执行低频补偿(例如,在图2的控制器4中的)的情况下生成用于集合中的每个其它低频频带中的音频数据的掩蔽值。
在第二类中的一些实施例中,音频编码方法是AC-3或者增强的AC-3编码方法。在这些实施例中,对于最初设计lowcomp的输入音频数据的频带(即,指示显著的、长期稳定的(“音调”)、低频内容的频带),低频补偿被优选地执行(即,ON或者启动),否则不执行(即,OFF或者有效地禁止)。在这些实施例中,响应于指示低频补偿将不应该对音频数据的频带执行的补偿控制数据(例如,补偿控制数据指示频带包括非音调音频内容而不是显著音调内容),步骤(b)优选地包括步骤:“重新遮盖”所述频带中的音频数据以生成用于频带的修改的音频数据,所述用于频带的修改的音频数据包括修改的指数。重新遮盖生成用于频带的修改的音频数据以使得用于频带的差分指数不等于-2(例如,以使得用于频带的修改的音频数据的修改的指数减去下一个较低频频带中的音频数据的指数一定等于2、1、0、或者-1)。因此,lowcomp补偿将不会应用于频带,因为用于将lowcomp补偿应用到频带的标准(相对于用于下一个较低频频带的PSD,用于该频带的PSD增加12dB)不会满足(如果使用于频带的修改的(“重新遮盖的”)音频数据的指数减去用于下一个较低频频带的指数不等于-2,则此标准不能满足)。
在第二类中的一些实施例中,步骤(a)包括对音频数据执行音调检测(例如,在图2的音调检测器15中)以生成指示音频数据的频带的至少一个子集中的每个频带是否具有显著音调内容的补偿控制数据的步骤,并且其中确定用于音频数据值的掩蔽值的步骤还包括步骤:
(c)以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理(例如,在图2的控制器4中),并且以第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
例如,掩蔽值校正处理可以是BABNDNORM处理,所述每个频带可以是感知频带,并且步骤(c)可以包括利用第一缩放常数对于具有显著音调内容的所述每个频带执行BABNDNORM处理、和利用第二缩放常数对于缺乏显著音调内容的所述每个频带执行BABNDNORM处理的步骤。
注意,本发明的编码方法(和尾数比特分配方法)的一些实施例使用本发明的补偿控制数据以修改编码/解码的BABNDNORM方面。
在第一类实施例中,本发明的编码方法使用本发明的补偿控制数据修改编码/解码的BABNDNORM方面。传统BABNDNORM和本发明的自适应低频补偿方法都具有类似的目的,即以低频代价向较高频率重新分配编码比特。但是,传统的BABNDNORM存在向解码器发送δ的附加成本。
对于BABNDNORM和本发明的自适应低频补偿两者的最优使用,编码器被配置为基于对频带的自适应lowcomp决定调整用于感知频带的BABNDNORM缩放常数。例如,在图2系统所述的实施方式中,如果由音调检测器15生成的用于频带的补偿控制数据指示低频补偿应当被禁止(OFF),则控制器4的掩蔽数据生成级选择BABNDNORM的缩放常数(响应于补偿控制数据)以使得掩蔽阈值下降较小的量。如果由音调检测器15生成的用于频带的补偿控制数据指示低频补偿应当被启动(ON),则掩蔽数据生成级选择BABNDNORM的缩放常数(响应于补偿控制数据)以使得掩蔽阈值下降较大的量。
在本发明的方法的一些实施例中,当本发明的音调检测步骤指示用于传统上应用lowcomp的集合中的任何低频频带(或用于所有低频频带,一起考虑)的非音调内容时,在下面的意义上lowcomp补偿“不被应用”(或关断或有效地禁止)。响应于指示用于集合中至少一个低频频带的非音调内容的本发明的音调检测步骤,从用于集合中所有频带的激励值中减去非零lowcomp参数终止(例如,立即)。在这一点上,lowcomp被阻止做出任何掩蔽调整(直到开始新的扫描频域音频数据的下一集合的频带)。
如上所述,在本发明的方法的一些实施例中,补偿控制数据指示集合中的每个单独的低频频带是否具有显著音调内容,并且选择性地对集合中的每个单独的低频频带应用(或不应用)低频补偿。在本发明的方法的其它实施例中,补偿控制数据指示集合中的低频频带(一起考虑)是否具有显著音调内容,并且低频补偿或者被应用于集合中的所有低频频带或者不被应用于集合中的任何一个低频频带(取决于补偿控制数据的内容)。一类实施例实施关于是否启动或禁止用于整个低频范围的lowcomp的二元(宽带)决定。在此类一些实施例中,如果音调检测指示lowcomp应当被禁止,则重新遮盖将从低频lowcomp范围中删除值-2的所有差分指数,以使得lowcomp参数总是为0。但是,本发明的方法的其它实施例实施更细粒的音调决定,以使得允许lowcomp仍然对整个低频范围的一些频率范围有效,但是在其它中被禁止。
本发明的另一方面是系统,包括编码器,被配置为执行本发明的编码方法的任何实施例以响应于音频数据生成编码的音频数据,和解码器,被配置为解码编码的音频数据以恢复音频数据。图7所述系统是此类系统的示例。图7的系统包括编码器90,其被配置(例如,编程)为执行本发明的编码方法的任何实施例以响应于音频数据生成编码的音频数据,传送子系统91、和解码器92。传送子系统91被配置为存储由编码器90生成的编码的音频数据和/或发送指示编码的音频数据的信号。解码器92被耦接并配置(例如,编程)为从子系统91接收编码的音频数据(例如,通过从子系统91中的存储器中读或检索编码的音频数据、或接收指示已被子系统91发送的编码的音频数据的信号),并且解码编码的音频数据以恢复音频数据(并且通常也生成并输出指示音频数据的信号)。
本发明的另一个方面是用于解码编码的音频数据的方法(例如,由图7的解码器92执行的方法),包括接收指示编码的音频数据的信号和解码编码的音频数据以生成指示音频数据的信号的步骤,其中编码音频数据已被通过根据本发明的编码方法的任何实施例编码音频数据而生成。
可以在硬件、固件、或软件、或两者组合(例如,作为可编程逻辑阵列)中实施本发明。除非另作说明,包括为本发明的一部分的算法或处理不固有地与任何特定计算机或其它装置相关。具体地,可以利用根据这里的教导编写的程序使用各种通用机器,或可以更方便地建设更专门的装置(例如,集成电路)以执行需要的方法步骤。因此,可以在一个或多个可编程计算机系统(例如,实施图2的编码器的计算机系统)上运行的一个或多个计算机程序中实施本发明,每个计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口、和至少一个输出设备或端口。程序代码应用于输入数据以执行这里描述的功能并且生成输出信息。输出信息被以公知的方式应用于一个或多个输出设备。
可以以任何期望的计算机语言(包括机器、装配、或高级程序、逻辑、或面向对象的编程语言)实施每个此类程序以与计算机系统通信。在任何情况下,语言可以是编译或解释的语言。
例如,当由计算机软件指令序列实施时,本发明的实施例的各种功能和步骤可以由运行在适当的数字信号处理硬件中的多线程软件指令序列实施,在这种情况下实施例的各种设备、步骤、和功能可以对应于软件指令的部分。
每个这样的计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如,固态存储器或介质、或磁或光学介质)上,用于在存储介质或设备由计算机系统读取时配置和操作该计算机以执行这里描述的过程。本发明系统也可以被实施为配置有(即存储)计算机程序的计算机可读存储介质,其中这样配置的存储介质使得计算机系统以特定和预定义的方式工作以执行这里描述的功能。
已经描述了本发明的大量实施例。然而,应当理解,在不脱离本发明的精神和范围的情况下可以做出各种修改。根据以上教导本发明的许多修改和变化是可能的。因此要理解,在附加权利要求书的范围内,本发明除这里具体地描述的之外可以被实践。
Claims (26)
1.一种音频编码方法,包括步骤:
(a)对频域音频数据执行音调检测以生成指示音频数据的至少一些低频频带的集合的每个低频频带是否具有显著音调内容的补偿控制数据;
(b)对于所述每个低频频带,生成用于该频带中的音频数据的初步掩蔽值;以及
(c)对于所述每个低频频带,确定用于该频带中的音频数据的初步掩蔽值,其中用于由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的掩蔽值是通过执行低频补偿以校正用于该频带中的音频数据的初步掩蔽值来获得的,并且用于该集合中的每个其它低频频带中的音频数据的掩蔽值是用于该频带中的音频数据的初步掩蔽值,
其中频域音频数据包括用于该集合的所述每个低频频带的指数值,并且步骤(a)包括如下步骤:对于该集合的所述每个低频频带,确定音频数据的指数与对应遮盖的指数之间的差的度量。
2.如权利要求1所述的方法,其中补偿控制数据指示该集合的至少一个频带是否表示人群噪声或掌声,并且步骤(c)包括以下步骤:
在不执行低频补偿的情况下,生成用于由补偿控制数据指示的、表示掌声或人群噪声的该集合的每个低频频带中的音频数据的掩蔽值。
3.如权利要求1所述的方法,其中步骤(c)包括如下步骤:重新遮盖由补偿控制数据指示的缺乏显著音调内容的该集合的每个低频频带中的音频数据,以生成包括用于缺乏显著音调内容的至少一个所述低频频带的修改的指数的修改的音频数据。
4.如权利要求3所述的方法,其中重新遮盖的步骤生成用于缺乏显著音调内容的至少一个所述低频频带的修改的指数,以使得下一个较高频率频带中的音频数据的指数减去所述修改的指数一定有值2、1、0、和-1中的一个。
5.如权利要求1所述的方法,其中步骤(a)包括如下步骤:对音频数据执行音调检测以生成指示音频数据的频带的至少一个子集中的每个频带是否具有显著音调内容的补偿控制数据,所述方法还包括步骤:
(d)以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理,并且以与第一方式不同的第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
6.如权利要求1所述的方法,其中所述差的度量是音频数据的指数与对应遮盖的指数之间的均方差的度量。
7.如权利要求1所述的方法,其中补偿控制数据指示该集合中的每个单独的低频频带是否具有显著音调内容,并且在步骤(c)中,选择性地对集合中的每个单独的低频频带执行或不执行低频补偿。
8.如权利要求1所述的方法,其中补偿控制数据指示该集合中的一起考虑的低频频带是否具有显著音调内容,并且当补偿控制数据指示集合中的一起考虑的低频频带具有显著音调内容时,在步骤(c)中对集合中的所有低频频带执行低频补偿。
9.一种音频编码器,被配置为响应于频域音频数据生成编码的音频数据,包括通过对音频数据执行自适应低频补偿,所述编码器包括:
音调检测器,被配置为对频域音频数据执行音调检测以生成指示音频数据的至少一些低频频带的集合的每个低频频带是否具有显著音调内容的补偿控制数据;和
低频补偿控制级,被耦接并且被配置为响应于补偿控制数据对音频数据的低频频带的集合的每个低频频带自适应地执行低频补偿,包括对于所述每个低频频带,生成用于该频带中的音频数据的初步掩蔽值,以及对于所述每个低频频带,确定用于该频带中的音频数据的掩蔽值,其中用于由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的掩蔽值是通过执行低频补偿以校正用于该频带中的音频数据的初步掩蔽值来获得的,并且用于该集合中的每个其它低频频带中的音频数据的掩蔽值是用于该频带中的音频数据的初步掩蔽值,其中频域音频数据包括用于该集合的所述每个低频频带的指数值,并且音调检测器被配置为对于该集合的所述每个低频频带,确定音频数据的指数与对应遮盖的指数之间的差的度量。
10.如权利要求9所述的编码器,其中补偿控制数据指示该集合的至少一个频带是否表示人群噪声或掌声。
11.如权利要求9所述的编码器,其中低频补偿控制级被配置为响应于补偿控制数据,以允许解码器执行对编码的音频数据的解码而不用确定或被通知关于在编码期间低频补偿是否被应用于任何低频频带的方式,自适应地实现低频补偿到低频频带集合的每个频带的音频数据的应用。
12.如权利要求9所述的编码器,其中低频补偿控制级被配置为重新遮盖由补偿控制数据指示的缺乏显著音调内容的每个所述低频频带中的音频数据,以生成包括至少一个修改的指数的修改的音频数据。
13.如权利要求12所述的编码器,其中低频补偿控制级被配置为重新遮盖由补偿控制数据指示的缺乏显著音调内容的每个所述低频频带中的音频数据,包括通过生成用于缺乏显著音调内容的至少一个所述低频频带的修改的指数以使得在下一个较高频率频带中的音频数据的指数减去所述修改的指数一定具有值2、1、0、和-1中的一个。
14.如权利要求9所述的编码器,其中所述差的度量是音频数据的指数与对应遮盖的指数之间的均方差的度量。
15.如权利要求9所述的编码器,其中所述编码器是利用实施音调检测器和低频补偿控制级的软件编程的处理器。
16.如权利要求9所述的编码器,其中所述编码器是数字信号处理器。
17.如权利要求9所述的编码器,其中音调检测器被配置为对音频数据执行音调检测以生成指示音频数据的频带的至少一个子集的每个频带是否具有显著音调内容的补偿控制数据,并且其中编码器包括掩蔽值校正级,该掩蔽值校正级被配置为以第一方式对于由补偿控制数据指示的具有显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理,并且以与第一方式不同的第二方式对于由补偿控制数据指示的缺乏显著音调内容的音频数据的所述每个频带执行掩蔽值校正处理。
18.一种用于处理音频数据的系统,包括:
编码器,被配置为响应于频域音频数据生成编码的音频数据,包括通过对音频数据执行自适应低频补偿;和
解码器,被配置为对编码的音频数据进行解码以恢复音频数据,其中编码器包括:
音调检测器,被配置为对频域音频数据执行音调检测以生成指示音频数据的至少一些低频频带的集合中的每个低频频带是否具有显著音调内容的补偿控制数据;和
低频补偿控制级,被耦接并且被配置为响应于补偿控制数据对音频数据的低频频带的集合的每个低频频带自适应地执行低频补偿,包括对于所述每个低频频带,生成用于该频带中的音频数据的初步掩蔽值,以及对于所述每个低频频带,确定用于该频带中的音频数据的掩蔽值,其中用于由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的掩蔽值是通过执行低频补偿以校正用于该频带中的音频数据的初步掩蔽值来获得的,并且用于该集合中的每个其它低频频带中的音频数据的掩蔽值是用于该频带中的音频数据的初步掩蔽值,其中频域音频数据包括用于该集合的所述每个低频频带的指数值,并且音调检测器被配置为对于该集合的所述每个低频频带,确定音频数据的指数与对应遮盖的指数之间的差的度量。
19.如权利要求18所述的系统,其中补偿控制数据指示该集合的至少一个频带是否表示人群噪声或掌声。
20.如权利要求18所述的系统,其中解码器被配置为对编码的音频数据进行解码,而不用确定或被通知关于在编码期间低频补偿是否应用于任何低频频带。
21.如权利要求18所述的系统,其中低频补偿控制级被配置为重新遮盖由补偿控制数据指示的缺乏显著音调内容的每个所述低频频带中的音频数据,以生成包括至少一个修改的指数的修改的音频数据。
22.如权利要求21所述的系统,其中低频补偿控制级被配置为重新遮盖由补偿控制数据指示的缺乏显著音调内容的每个所述低频频带中的音频数据,包括通过生成用于缺乏显著音调内容的至少一个所述低频频带的修改的指数,以使得在下一个较高频率频带中的音频数据的指数减去所述修改的指数一定具有值2、1、0、和-1中的一个。
23.一种用于对编码的音频数据进行解码的方法,包括如下步骤:
接收指示编码的音频数据的信号;以及
对编码的音频数据进行解码以生成指示音频数据的信号,
其中编码的音频数据已被通过以下步骤生成:
(a)对频域音频数据执行音调检测以生成指示音频数据的至少一些低频频带的集合的每个低频频带是否具有显著音调内容的补偿控制数据;
(b)对于所述每个低频频带,生成用于该频带中的音频数据的初步掩蔽值;以及
(c)对于所述每个低频频带,确定用于该频带中的音频数据的初步掩蔽值,其中用于由补偿控制数据指示的具有显著音调内容的每个所述低频频带中的音频数据的掩蔽值是通过执行低频补偿以校正用于该频带中的音频数据的初步掩蔽值来获得的,并且用于该集合中的每个其它低频频带中的音频数据的掩蔽值是用于该频带中的音频数据的初步掩蔽值,其中频域音频数据包括用于该集合的所述每个低频频带的指数值,并且步骤(a)包括如下步骤:对于该集合的所述每个低频频带,确定音频数据的指数与对应遮盖的指数之间的差的度量。
24.如权利要求23所述的方法,其中补偿控制数据指示该集合的至少一个频带是否表示人群噪声或掌声,并且步骤(c)包括以下步骤:
在不执行低频补偿的情况下,生成用于由补偿控制数据指示的表示掌声或人群噪声的该集合的每个低频频带中的音频数据的掩蔽值。
25.如权利要求23所述的方法,其中步骤(c)包括以下步骤:重新遮盖由补偿控制数据指示的缺乏显著音调内容的该集合的每个低频频带中的音频数据,以生成包括用于缺乏显著音调内容的至少一个所述低频频带的修改的指数的修改的音频数据。
26.如权利要求25所述的方法,其中重新遮盖的步骤生成用于缺乏显著音调内容的至少一个所述低频频带的修改的指数,以使得下一个较高频率频带中的音频数据的指数减去所述修改的指数一定具有值2、1、0、和-1中的一个。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261584478P | 2012-01-09 | 2012-01-09 | |
US61/584,478 | 2012-01-09 | ||
US13/588,890 | 2012-08-17 | ||
US13/588,890 US8527264B2 (en) | 2012-01-09 | 2012-08-17 | Method and system for encoding audio data with adaptive low frequency compensation |
PCT/US2012/057132 WO2013106098A1 (en) | 2012-01-09 | 2012-09-25 | Method and system for encoding audio data with adaptive low frequency compensation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104040623A CN104040623A (zh) | 2014-09-10 |
CN104040623B true CN104040623B (zh) | 2016-11-30 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1672418A (zh) * | 2000-08-16 | 2005-09-21 | 多尔拜实验特许公司 | 响应补克信息修改音频或视频感知编码系统的一个或多个参数 |
WO2009142466A2 (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자(주) | 오디오 신호 처리 방법 및 장치 |
CN101826071A (zh) * | 2004-02-19 | 2010-09-08 | 杜比实验室特许公司 | 用于信号分析和合成的自适应混合变换 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1672418A (zh) * | 2000-08-16 | 2005-09-21 | 多尔拜实验特许公司 | 响应补克信息修改音频或视频感知编码系统的一个或多个参数 |
CN101826071A (zh) * | 2004-02-19 | 2010-09-08 | 杜比实验室特许公司 | 用于信号分析和合成的自适应混合变换 |
WO2009142466A2 (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자(주) | 오디오 신호 처리 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9275649B2 (en) | Method and system for encoding audio data with adaptive low frequency compensation | |
CN103534752B (zh) | 用于产生滤波器系数并配置滤波器的方法和系统 | |
CA2612537C (en) | Selectively using multiple entropy models in adaptive coding and decoding | |
CN110189760B (zh) | 对音频信号的频谱执行噪声填充的装置 | |
CN111179953B (zh) | 编码音频的编码器、音频发送系统和确定校正值的方法 | |
JP6734394B2 (ja) | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム | |
EP3217398B1 (en) | Advanced quantizer | |
TWI536369B (zh) | 用以基於線性預測編碼之於頻域中編碼的低頻率增強技術 | |
CN107077855A (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
CN115867966A (zh) | 用于确定生成神经网络的参数的方法和装置 | |
RU2633097C2 (ru) | Способы и устройства кодирования и декодирования сигнала | |
CN101562015A (zh) | 音频处理方法及装置 | |
CN104040623B (zh) | 用于利用自适应低频补偿编码音频数据的方法和系统 | |
CN111344784B (zh) | 控制编码器和/或解码器中的带宽 | |
RU2670377C2 (ru) | Квантование аудиопараметров | |
CN105122358B (zh) | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20140910 Assignee: Qingdao Haier Electric Appliance Co., Ltd. Assignor: Dolby Laboratories Licensing Corp,|Dolby International AB Contract record no.: 2017990000387 Denomination of invention: METHOD AND SYSTEM FOR ENCODING AUDIO DATA WITH ADAPTIVE LOW FREQUENCY COMPENSATION Granted publication date: 20161130 License type: Common License Record date: 20170926 |