CN103582913A

CN103582913A - 有效内容分类及响度估计

Info

Publication number: CN103582913A
Application number: CN201280020099.0A
Authority: CN
Inventors: 哈拉尔德·蒙特; 阿里希特·比斯瓦斯; 罗尔夫·迈斯纳
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2011-04-28
Filing date: 2012-04-27
Publication date: 2014-02-12
Anticipated expiration: 2032-04-27
Also published as: WO2012146757A1; EP2702589B1; JP6185457B2; US9135929B2; EP2702589A1; US20140039890A1; JP2014515124A; CN103582913B

Abstract

有效内容分类及响度估计。本文献涉及用于对音频信号进行编码的方法及系统。该方法包括确定音频信号的频谱表示。确定频谱表示步骤可以包括确定音频信号的改进型离散余弦变换（MDCT）系数或正交镜像滤波器（QMF）滤波器组表示。所述方法还包括：使用所确定频谱表示来对音频信号进行编码；基于所确定频谱表示将音频信号的部分分类成话音或非话音。最终，基于所述话音部分来确定音频信号的响度度量。

Description

有效内容分类及响度估计

技术领域

本文涉及用于音频信号的有效内容分类以及响度估计的方法及系统。具体地，涉及音频编码器内的有效内容分类和栅控响度估计。

背景技术

例如PDA、智能手机、移动电话和便携式媒体播放器等便携式手持设备通常包括音频和/或视频渲染能力并且已经变为重要的娱乐平台。无线或有线传输能力不断渗透至这样的设备向前推动了其发展。由于如高效高级音频编码（HE-AAC）格式等媒体传输和/或存储协议的支持，媒体内容可以持续地被下载并且被存储至便携式手持设备，从而提供实际上数量几乎不受限制的媒体内容。

HE-AAC是定义作为ISO/IEC14496-3中的MPEG-4音频框架的用于数字音频的有损数据压缩方案。它是针对如流音频等低比特率应用而优化了的低复杂度AAC（AAC LC）的扩展。HE-AAC版本1轮廓（HE-AACv1）使用频带复制（SBR）来增强频域的压缩效率。HE-AAC版本2框架（HE-AAC v2）将SBR与参数立体声（PS）耦合来增强立体声信号的压缩效率。它是AAC+编解码器的标准化和提升版本。

随着数字广播的引入，建立了时变元数据的概念，时变元数据使得能够控制接收端处的增益值以针对具体的收听环境来裁剪内容。一个示例是在Dolby Digital中包括的元数据，该元数据包括关于对白的一般响度归一信息（“对白归一”）。应当注意，贯穿本说明书及权利要求，对DolbyDigital的引用应当理解为包含Dolby Digital编码系统和Dolby DigitalPlus编码系统两者。

确保跨越不同内容类型和媒介格式的响度水平的一致性的一种可能是响度归一化。响度归一化的先决条件是信号响度的估计。在ITU-RBS.1770-1推荐标准中提出了一种响度估计方法。

ITU-R BS.1770-1推荐标准是一种在将人类听力的心理声学模型考虑在内的同时测量数字音频文件的响度的方法。其提出了使用用于对收听效果（head effect）进行建模的滤波器和高通滤波器来预处理每个声道的音频信号。然后，在测量间隔上估计经滤波后的信号的功率。对于多声道音频信号，响度被计算为所有声道的估计功率值的加权和的对数。

ITU-R BS.1770-1推荐标准的一个缺点是所有信号类型被平等处理。长时间的静默会降低响度结果，但是该静默不会影响主观的响度印象。这样的停顿的示例可以是两首歌曲之间的静默。

圆满解决该问题的简单而有效的方法是仅将主观上明显的信号部分考虑在内。该方法称为栅控。信号部分的明显性可以基于最小能量、响度水平阈值或其他准则来确定。不同栅控方法的示例是静默栅控、自适应阈值栅控和话音栅控。

对于栅控，通常对音频信号执行离散傅里叶变换（DFT）和其他操作。但是，这引起不期望的附加处理工作。此外，为了对响度计算进行栅控而将音频信号分成不同类的分类方法通常不完美，因此导致了影响响度计算的误分类。

因此，需要改善了的音频分类以增强栅控和响度计算。此外，期望减小栅控中的计算工作。

发明内容

本申请涉及对数字音频信号中的话音/非话音段（segment）的检测。该检测结果可以用于计算数字音频信号的响度水平。通常，话音/非话音段检测依赖于从数字音频信号中提取的多个特征的聚集。换言之，许多准则被使用以决定数字音频信号段是话音还是非话音段。

通常，这些特征中的至少一些基于计算段的频谱。对于计算频谱，可以使用给编码系统施加高的计算负担的DFT。但是，近来的研究显示例如可以通过替代地使用改进型离散余弦变换（MDCT）数据来避免使用DFT的显式的频谱计算。即，可以使用MDCT系数来确定基于对数字音频信号段的频谱的计算的特征。这在产生MDCT数据的同时对数字音频信号进行编码的数字音频信号编码器的情况下尤其有利。在该情况下，来自编码方案的MDCT数据可以用于话音/非话音检测，从而避免数字音频信号段的DFT。以此，由于已经可用的MDCT数据被重复使用（这使得对数字音频信号段的DFT多余），所以总体计算复杂度被减小。应当注意，尽管在上述示例中MDCT数据可以有利地用于避免对数字音频信号段的DFT，但是编码器中的任意变换表示可以被用作频谱表示。从而，该变换表示可以例如是MDST（改进的离散正弦变换）或MLT（改进的重叠变换）的实部或虚部。此外，频谱表示可以包括音频信号的正交镜像滤波器QMF滤波器组表示。

在编码方案产生比例因子带能量的情况下，比例因子带能量可以被用于基于频谱倾斜对特征进行确定。此外，如果编码方案针对数字音频信号段（例如，针对一个或多个块）产生能量值，则替代显式计算该能量本身，基于时域中上述段的能量的能量特征可以使用该信息。

此外，如果频带复制（SBR）数据可获得，则SBR有效负载量可以被有利地用作信号开始的指示，并且话音/非话音的信号分类可以基于提供节奏信息的、SBR有效负载量的经处理版本。因此，已经可用的SRB数据可以进一步用于对基于节奏的特征进行确定以对数字音频信号中的话音/非话音段进行检测。

一般来讲，如在下面进一步详细描述的所提出的信息的重复使用减小了系统的总体计算复杂度，从而提供了协同效应。

根据一个方面，描述了一种用于对音频信号进行编码的方法。该方法包括确定了音频信号的频谱表示。确定频谱表示可以包括确定MDCT（改进型离散余弦变换）系数。一般地，编码器中的任意变换表示可以用作频谱表示。该变换表示可以例如是MDST（改进的离散正弦变换）或MLT（改进的重叠变换）的实部或虚部。此外，频谱表示可以包括音频信号的正交镜像滤波器QMF滤波器组表示。

该方法还包括使用所确定的频谱表示来对音频信号进行编码。音频信号的部分可以基于所确定的频谱表示被分类为话音或非话音，并且音频信号的响度度量可以基于所分类的话音部分来确定，而忽略所标识的非话音部分。因此，关注于音频信号的栅控度量是根据还用于编码音频信号的频谱表示来确定。没有针对响度估计而计算单独的音频信号的频谱表示，因此编码器中用于计算栅控响度度量的工作减小。

该方法还包括根据MDCT系数来确定伪频谱。话音/非话音部分的分类可以至少部分地基于所确定的伪频谱的值。从MDCT系数推导的伪频谱可以用作对DFT频谱的近似，DFT频谱一般在响度估计中用于话音部分的分类。可替代地，MDCT系数可以直接用作话音/非话音分类的特征。

该方法还可以包括确定频谱通量方差。因为已经显示出了频谱通量方差是话音/非话音分类的良好特征，所以话音/非话音部分的分类可以至少部分地基于所确定的频谱通量方差。频谱通量方差可以根据伪频谱来确定。此外，频谱通量方差可以根据MDCT系数来确定并且被证明是有用的分类特征。

该方法还包括根据MDCT系数来确定比例因子带能量。话音/非话音部分的分类可以至少部分地基于所确定的比例因子带能量。比例因子带能量通常用在对音频信号进行编码的编码器中。此处，比例因子带能量被推荐标准作为音频信号的话音/非话音部分的分类的特征。

该方法还包括根据比例因子带能量来确定平均频谱倾斜。话音/非话音部分的分类可以至少部分地基于平均频谱倾斜。因此，提出基于比例因子带能量来计算用于话音分类的平均频谱倾斜特征，其是一种非常有效的计算方法并且不需要附加频谱信号表示的计算。

该方法还可以包括确定音频信号的块的能量值。该方法可以通过基于块能量确定音频信号的瞬态来继续并且响应地确定音频信号的编码块长度。此外，基于能量的特征基于块能量来确定。话音/非话音部分的分类可以至少部分地基于基于能量的特征。因此，出于决定用于编码音频信号（块切换）的适当块大小的目的而在编码器中计算的能量值被直接用于计算基于能量的分类特征如停顿计数度量、短节奏和长节奏度量等。

话音/非话音部分的分类可以基于机器学习算法，尤其是AdaBoost算法。当然，也可以使用其他机器学习算法如神经网络。

该方法还可以包括基于话音数据和非话音数据的机器学习算法的训练，从而调节机器学习算法的参数以最小化误差函数。在训练期间，机器学习算法学习各个特征的重要度，例如频谱通量或平均频谱倾斜，并且修改其用于评估分类期间的特征的内部权重。

该频谱表示可以针对短块和/或长块来确定。如AAC编码器等许多编码器针对编码音频信号使用不同的块长度，并且具有基于输入信号在不同的块长度之间切换的能力以相对于输入信号的属性来调节块长度。该方法还包括将短块表示与用于与预定数量个短块对应的长块表示的帧进行校准，从而将所述预定数量个短块的MDCT系数重新排序成长块的帧。换言之，短块被转换成长块。因为用于分类和响度计算的后续模块仅需要处理一种块类型，所以这可以是有益的。此外，其允许在分类和响度的计算中基于长块的固定时间结构。

在频谱表示包括音频信号的正交镜像滤波器组表示的情况下，该方法可以包括使用所确定的频谱表示来对音频信号的频带复制参数进行编码，并且基于所确定频谱表示来将音频信号的部分分类为话音或非话音。然后，基于话音部分的音频信号的栅控度量可以被确定。类似于上述情况，这允许基于还用于编码音频信号的频谱表示的栅控响度计算，这里是针对基于高频重构或频带复制技术对信号的高频部分进行编码。

该方法还可以包括使用所确定的频谱表示将音频信号编码到比特流中并且将所确定的响度度量编码到该比特流中。因此，描述了一种编码器，其有效地计算如对白归一或程序参考水平等响度度量并且将其与音频信号编码在一起。

音频信号可以是多声道信号，并且该方法还可以包括下混合多声道音频信号并且对经下混合的信号执行分类步骤。这使得能够基于单声道信号计进行信号分类和/或响度测量的计算。

该方法还可以包括下采样音频信号并且对经下采样的信号执行分类步骤。因此，基于经下采样的信号进行信号分类和/或响度测量的计算进一步减少了所需的计算工作。

根据另一个方面，公开了一种执行上述方法的系统，具体地为用于将音频信号编码到比特流中的音频编码器。音频信号可以根据HE-AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus之一来编码，或根据基于AAC的任何其他编解码器来编码，或者根据基于上述变换的任何其他编解码器来编码。

该系统可以包括：MDCT计算单元，其基于改进型离散余弦变换MDCT系数来确定音频信号的频谱表示；和或包括正交镜像滤波器QMF滤波器组的SBR计算单元，其确定频带复制或高频重构的频谱表示。

根据一个方面，描述了一种用于对音频信号的话音部分进行分类的方法。音频信号可以包括话音信号和/或其他非话音信号。该分类用于确定音频信号是否为话音和/或音频信号的哪些部分为话音信号。该分类可以有益地用于音频信号的栅控响度度量的计算中。由于频带复制（SBR）有效负载是信号开始的良好指示，所以信号分类可以基于提供了节奏信息的SBR有效负载的经处理版本。

该方法可以包括确定与音频信号的时间间隔的频带复制数据量相关联的有效负载量的步骤。频带复制有效负载量可以用作音频信号频谱变化的指示，从而提供节奏信息。有效负载量可以包括SBR包络数据、时间/频率（T/F）网格数据、音调分量数据和噪声本底数据或其任意组合。具体地，这些分量连同SBR包络数据的任意组合也是可能的。

通常，有效负载量确定步骤是当确定音频信号的频带复制数据时在对音频信号进行编码期间进行。在该情况下，与频带复制数据量相关联的有效负载量可以直接从编码器的频带复制组件中接收。频带复制有效负载量可以指示由频带复制组件在音频信号的时间间隔上生成的频带复制数据量。换言之，有效负载量表示该时间间隔的要被包括在编码比特流中的频带复制数据量。

包括所生成的频带复制数据的音频信号优选地被编码在比特流中以便存储或传输。该编码比特流例如可以是HE-AAC比特流或mp3PRO比特流。其他比特流也可以并且位于本领域技术人员可以获得的范围内。

该方法可以包括针对音频信号的连续时间间隔重复上面的确定步骤的另外步骤，从而确定有效负载量序列。

在另外的步骤中，该方法可以在有效负载量序列中标识周期。这可以通过在有效负载量序列中标识尖峰或重现图形来完成。周期的标识可以通过对有效负载量序列进行频谱分析来完成，其可以生成一组功率值和相应的频率。可以通过确定该组功率值中的有关的最大值以及通过将周期选择为相应的频率来在有效负载量序列中确定该周期。在一种实施方式中，绝对最大值被确定。

通常沿着有效负载量序列的时间轴来进行频谱分析。此外，通常是对有效负载量序列的多个子序列执行频谱分析，从而生成多个功率值集合。例如，子序列可以覆盖特定长度（例如2秒）音频信号。此外，子序列可以例如以50%彼此交叠。同样地，可以获得多个功率值集合，其中每个功率值集合对应于音频信号的某一摘录（excerpt）。通过对上述多个功率值集合进行平均可以获得对于完整音频信号的总体功率值集合。应当理解，词语“平均”涵盖了如计算平均值或确定中值等各种类型的数学运算。即，可以通过计算多个功率值集合的平均功率值集合或中间功率值集合来获得总体的功率值集合。在一种实施方式中，进行频谱分析包括进行频率变换，如傅里叶变换（FT）或快速傅里叶变换（FFT）。

功率值集合可以提交至进一步的处理。在一种实施方式中，将功率值乘以与它们的对应频率的人类感知偏好相关联的权重。例如，这样的感知权重可以对与人类所更频繁地检测到的节拍对应的频率进行强调，而对与人类不太频繁地检测到的节拍对应的频率进行削弱。

接着，该方法可以包括对音频信号的包括话音信号或非话音信号的至少一部分进行分类的步骤。该分类优选地基于所提取的节奏信息。所提取的节奏信息在任何种类的分类器中可能与其他特征一起用作针对音频信号的部分作出话音/非话音判定的特征。

话音/非话音分类则可以用于音频信号的栅控响度的计算，响度的计算限于音频信号的话音部分。因此，提供了在感知上更加准确的响度，其仅考虑音频信号的感知相关话音部分而忽略非话音部分。响度数据可以被包括到编码比特流中。

该方法可以包括提供音频信号的响度值的步骤。响度相关值还可以称为调整信息。用于确定响度值的步骤或算法可以是一组音频信号操作以确定表示音频信号的感知响度（即，感知能量）的响度相关值。这样的步骤或算法可以是测量音频节目响度的ITU-R BS.1770-1算法和/或重播增益响度计算方案。在一种实施方式中，响度是根据忽略音频信号的静默和/或非话音时间段的ITU-R BS.1770-1算法来确定。

该分类可以使用从SBR有效负载中提取的节奏信息作为在将话音信号与非话音信号区分开的机器学习算法如AdaBoost算法中的特征。当然，也可以使用其他机器学习算法如神经网络。为了最大限度地使用节奏信息，分类器针对训练数据进行训练以将话音信号与非话音信号区分开。该分类器可以使用所提取的节奏信息作为分类的输入信号并且调节其内部参数（例如，权重）以减小对训练数据的误差度量。所提出的节奏信息可以与如在HE-AAC编码器中使用的“经典”特征等其他特征一起由分类器使用。机器学习算法可以确定对为分类提供的特征进行组合的权重。

在一种实施方式中，音频信号由沿着时间轴的连续子带系数块序列来表示。这样的子带系数例如可以是如在MP3、AAC、HE-AAC、DolbyDigital和Dolby Digital Plus编解码器的情况下的MDCT系数。

在一种实施方式中，音频信号由包括频带复制数据和沿着时间轴的多个连续帧的编码比特流来表示。例如，编码比特流可以是HE-AAC或mp3PRO比特流。

该方法可以包括将响度相关值存储在与音频信号相关联的元数据中。该元数据可以具有预定语法或格式。在一种实施方式中，预定格式使用重播增益语法。可替代地或另外地，预定格式可以与iTunes风格的元数据或ID3v2标签兼容。在另一种实施方式中，根据MPEG标准ISO14496-3，响度相关值可以作为填充元素例如“节目参考水平”参数在Dolby Pluse或HE-AAC比特流中传输。

该方法可以包括将元数据提供给媒体播放器的步骤。元数据可以随着音频信号一起被提供。在一种实施方式中，音频信号和元数据可以存储在一个或更多个文件中。上述文件可以存储在例如随机存取存储器（RAM）或光盘等存储介质中。在一种实施方式中，音频信号和元数据例如可以位于如HE-AAC等媒体比特流内而被传输至媒体播放器中。

根据另外的方面，描述了一种软件程序，其适于在处理器上执行并且当在计算设备上执行时适于执行在本文献中概括的方法步骤。

根据另一个方面，描述了一种存储介质，其包括适于在处理器上执行并且当在计算设备上执行时适于执行在本文献中概括的方法步骤的软件程序。

根据另一个方面，描述了一种计算机程序，其包括当在计算机上被执行时执行用于执行在本文献中概括的方法步骤的可执行指令。

根据另一个方面，描述了一种配置成对音频信号的话音部分进行分类的系统。该系统包括：用于对与音频信号的时间间隔上的频带复制数据量相关联的有效负载量进行确定的装置；用于针对音频信号的连续时间间隔重复上述确定步骤从而确定有效负载量序列的装置；用于标识有效负载量序列中的周期的装置；和/或用于从所标识的周期中提取音频信号的节奏信息的装置。该系统还可以包括用于基于所提取的节奏信息对包括话音或非话音的音频信号的至少一部分进行分类的装置。此外，提供了用于基于对音频信号的话音和非话音部分的分类来确定音频信号的响度数据的装置。具体地，响度数据的确定可以限于音频信号的如由分类装置标识的话音部分。

根据另一个方面，描述了一种用于生成包括音频信号的元数据的编码比特流的方法。该方法可以包括将音频信号编码为有效负载数据序列从而生成编码比特流的步骤。例如，音频信号可以被编码为AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。该方法可以包括确定与音频信号的响度相关联的元数据并且将该元数据插入编码比特流中的步骤。优选地，响度数据仅针对音频信号的如由分类器基于音频信号的节奏信息确定的话音部分来确定。应当注意，音频信号的节奏信息可以根据本文献中概括的任何方法来确定。

根据另外的方面，描述了音频信号的包括元数据的编码比特流。编码比特流可以是AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。该元数据可以包括表示音频信号的栅控响度度量的数据，栅控响度度量是由在本文献中概括的任何分类器从音频信号的话音部分推导的。

根据一个方面，描述了一种被配置为生成包括音频信号的元数据的编码比特流的音频编码器。该编码器可以包括：用于将音频信号编码为有效负载数据序列从而产生编码比特流的装置；用于确定音频信号的响度元数据的装置；以及用于将该元数据插入到编码比特流中的装置。以与上面概括的方法类似的方法，编码器可以依赖于针对音频信号计算的频带复制数据（具体地为插入到比特流中的频带复制数据的有效负载量），其作为确定音频信号的节奏信息的基础。节奏信息然可以用于将音频信号分类成话音部分和非话音部分以栅控响度估计。

应当注意，根据另外的方面，描述了用于对音频信号的编码比特流进行解码的相应方法以及被配置成对音频信号的编码比特流进行解码的解码器。该方法和解码器被配置成从编码比特流中提取相应的元数据，尤其是与节奏信息相关联的元数据。

初步的复杂度分析显示：所提出的话音/非话音分类方法相比较现有技术而言潜在的复杂度降低是明显的。根据假设所提出的实施不需要重取样器并且不使用单独的频谱分析的理论方法，该节省高至98%。

应当注意，在本文献中描述的实施方式和方面可以按照许多不同的方式来组合。具体地，应当注意，在系统环境下概括的方面和特征还适应于相应的方法环境，同样在方法环境下概括的方面和特征也适应于相应的系统环境。此外，应当注意，本文献的公开内容还涵盖除了由从属权利要求中的回引显式地给出的权利要求组合以外的其他权利要求组合，即，权利要求及其技术特征可以按照任何次序和任何格式来组合。

附图说明

将参考附图通过不限制本发明的范围和精神的示意性示例来描述本发明，其中：

图1示意性地示出了使用来自输入音频信号的响度水平信息来产生经编码的输出音频信号的系统；

图2示意性地示出了根据输入音频信号来对响度水平信息进行估计的系统；

图3示意性地示出了使用来自音频编码器的信息来对来自输入音频信号的响度水平信息进行估计的系统；

图4示出了对短块的MDCT系数进行交错的示例；

图5a示出了通过不同的频谱变换生成的示例音频信号的频谱表示；

图5b示出了通过不同的频谱变换计算的示例音频信号的频谱通量；

图6示出了加权函数的示例；以及

图7示出了示例SBR有效负载数据序列和结果的调制频谱。

具体实施方式

下述实施方式对于节奏特征提取、话音分类和响度估计的方法与系统的原理仅仅为示意性的。应当理解，本文所描述的布置和细节的修改和变型对于本领域其他技术人员是显而易见的。因此，意欲仅由后附专利权利要求的范围进行限制，而不由本文的实施方式的描述和说明所呈现的具体细节进行限制。

一种以恒定感知水平提供音频输出的方法将要限定目标输出水平（要以该目标输出水平渲染音频内容）。这样的目标输出水平例如可以是-11dBFS（相对于全刻度（Full Scale）的分贝）。具体地，目标输出水平可以取决于当前的收听环境。此外，可以确定音频内容的实际响度水平，也称作参考水平。优选地随着媒体内容一起来提供响度水平，例如，作为结合媒体内容提供的元数据。为了对处于目标输出水平的音频内容进行渲染，可以在回放期间应用匹配增益值。匹配增益值可以被确定为目标输出水平与实际的响度水平之间的差。

如在上面已经指示出的，用于流处理和广播的系统（如Dolby Digital）通常依赖将包括“对白归一”值的元数据传输到解码设备，“对白归一”值指示当前节目的响度水平。“对白归一”值对于不同的节目通常是不同的。鉴于“对白归一”值是在编码器处确定的事实，因此使得内容拥有者能够控制长至解码器的完整信号链。此外，由于不需要在解码器处确定当前节目的响度值，所以解码设备上的计算复杂度可以减小。替代地，响度值被提供在与当前节目相关联的元数据中。

将元数据与音频信号包括在一起使得在用户收听体验上有明显的提升。对于愉快的用户体验，一般期望不同节目的总体声音水平或响度一致。但是不同节目的、一般源自不同的源的音频信号由不同的生产商者掌控并且可以包括范围从话音对白到音乐再到具有低频效果的电影配乐的多样内容。声音水平变化的该可能性使得在回放期间跨越各种节目维持相同的总体声音水平成为挑战。具体来讲，不期望收听者从一个节目切换至另一个节目时由于不同节目的感知声音水平的差异而感觉需要调节回放音量以将一个节目相对于另一个节目调得较响亮或较安静。改变音频信号以在节目之间维持一致声音水平的技术一般已知为信号调整。在对白音频轨道的环境下，与感知声音水平相关的度量（measure）已知为对白水平，其基于音频信号的平均加权水平。经常使用“对白归一”参数来指定对白水平，该参数表示关于数字全刻度的分贝（dB）水平。

在音频编码中，在像AC-3或HE-AAC等编解码器中发展的大量元数据类型包括动态范围压缩和响度描述。例如，AC-3使用被称作“对白归一”的值来提供编码音频信号的响度信息。在HE-AAC中，等同的值被称为“节目参考水平”，其包括在数据流元素中。回放设备读取响度值并且相应地通过增益因子来调节输出信号。该方式不改变原始的音频信号。元数据模型因此被称为非破坏性模型。

下面，描述用于将音频信号分类成话音和非话音部分的方法。该分类然后可以用于如根据ITU-R推荐标准BS.1770-1（该文献通过引用合并于此）来对响度估计的计算进行栅控。响度计算则可以关注于包含话音内容的音频部分，例如以确定插入到编码比特流中的“对白归一”值（例如根据HE-AAC格式）。另一方面，音频的分类应该尽可能地正确以实现良好的响度估计。另一方面，响度计算以及尤其是话音/非话音分类应该是有效的并且尽可能对编码器施加很小的计算负担。因此，根据本文的一个方面，提出替代重新计算用于响度估计的类似值，而将响度计算以及尤其是话音/非话音分类结合到编码器运算中并且使用现有的计算和已经产生的数据。

如已经提到的，将响度估计的计算限于音频信号的话音部分是有益的。话音的以下特征中的一些对于将话音与其他类型区分开至关重要。话音是语音和非语音部分（也已知为摩擦噪声和元音）的组合。摩擦噪声可以分成两个子类。像“k”和“t”等声音非常短暂而像“s”和“f”等声音具有像频谱的噪声。话音的语音和非语音部分与单词以及句子之间的短中断导致了音频信号的持续变换的频谱。音乐另一方面在频谱中具有慢得多并且相当小的波动。观察信号的频谱幅度，还可以观察到具有很小能量的非常短的部分。这些短的中断是话音内容的指示。

由于信号中的话音内容在感知上的相关性，提出识别话音部分并且仅根据信号的这些部分计算响度。该话音响度值可以用于所描述的元数据类型中的任意一种。

根据实施方式，用于计算栅控音量度量的系统具有4个组件。第一个组件与信号预处理相关并且包括重采样器和混合器。在对来自输入信号的单声道信号进行下混合之后，以16kHz对该信号进行重采样。第二个组件计算涵盖信号的不同标准的7个特征，其对于标识话音是很有用的。这7个特征可以分类为两组：如频谱通量等频谱特征和如停顿计数和过零率等时域特征。第三个组件是被称作AdaBoost的机器学习算法，其基于这7个特征的特征向量来作出二元判定。通过16kHz的采样频率基于单声道信号来计算每个特征。时间分辨率可以针对每个特征来单独设置以实现最佳的可能结果。因此，每个特征可以具有其自己的块长度。在该情况下，块是通过该特征处理的特定量的时间样本。最后一个组件计算涉及初始采样速率的响度测量结果，其遵循ITU-R推荐标准。使用来自分类器的当前信号状态（话音/其他）每0.5秒更新响度测量结果。从而，可以计算话音和总体响度。

上述响度测量结果可以应用在例如HE-AAC编码方案中，其包括包含有MDCT滤波器组的AAC核心编码器。SBR编码器用于低比特率并且包含QMF滤波器组。根据一种实施方式，由MDCT滤波器组和/或QMF滤波器组提供的频谱表示用于信号分类。话音/其他分类可以置于AAC核心中（紧在MDCT滤波器组之后）。时间信号和MDCT系数可以在此处提取。这也是窗切换的地方，其计算由128个样本构成的块中的信号能量。包括具体频带的能量的比例因子带可以用于估计所需的信号量化的准确度。

图1示意性地示出了使用来自所输入的音频信号的响度水平信息来产生编码输出音频信号的系统100；该系统包括编码器101和响度估计模块102。此外，该系统包括栅控模块103。

编码器101从信号源接收音频信号。例如，信号源可以是电子设备，其将音频数据存储在电子设备的存储器中。音频信号可以包括一个或更多个声道。例如，音频信号可以是单声道音频信号、立体声音频信号或5(.1)声道音频信号。音频信号可以包括话音、音乐或任何类型的音频信号内容。

此外，音频信号可以以任何适合的格式存储在电子设备的存储器中。例如，音频信号可以存储在WAV、AIFF、AU或原始的缺少题头的PCM文件中。可替代地，音频信号可以存储在FLAC、Monkey's Audio（文件名扩展APE）、WavPack（文件名扩展WV）、Shorten、TTA、ATRAC、Advanced Lossless、Apple Lossless（文件名扩展m4a）、MPEG-4SLS、MPEG-4ALS、MPEG-4DST、Windows Media Audio Lossless（WMALossless）和SHN文件中。此外，音频信号可以存储在MP3、Vorbis、Musepack、AAC、ATRAC和Windows Media Audio Lossy（WMA lossy）文件中。

音频信号可以通过有线或无线连接从信号源传输至系统100。可替代地，信号源可以是该系统的一部分，即，系统100可以寄宿在还存储了音频文件的计算机上。寄宿系统100的计算机可以是通过例如互联网或接入网等有线或无线网络连接至其他计算机的台式计算机或服务器。

编码器101可以根据具体的编码技术来对音频信号进行编码。具体的编码技术可以是DD+。可替代地，具体的编码技术可以是先进音频编码（ACC）。再此外，具体的编码技术可以是高效ACC（HE-AAC）。HE-AAC编码技术可以基于AAC编码技术和SBR编码技术。AAC编码技术可以至少部分地基于MDCT滤波器组。SBR编码技术可以至少部分地基于正交镜像滤波器（QMF）滤波器组。

响度估计模块102根据具体的响度估计技术来对音频信号的响度进行估计。具体的响度估计技术可以遵循ITU-R BS.1770-1推荐标准。可替代地，具体的响度估计技术可以遵循由David Robinson给出的回放增益建议（Replay Gain proposal）（参见http://www.replaygain.org/）。当具体的响度估计遵循ITU-R BS.1770-1推荐标准时，可以对输入音频信号的包括非静默的内容的段估计响度。例如，可以对包括话音的输入音频信号的段估计响度。在此，响度估计模块可以从栅控模块103接收栅控信号，该信号指示响度估计模块是否应该基于当前音频输入样本来估计响度。例如，栅控模块103可以将信号提供（例如，发送）给响度估计模块102，该信号指示音频信号的当前样本或部分包括话音。该信号可以是包括单个比特的数字信号。例如，如果比特为高，则信号可以指示当前音频样本包括话音并且要由用于估计输入音频信号的响度的响度估计模块102进行处理。如果比特为低，则信号可以指示当前音频信号不包括话音并且不会由用于估计输入音频信号的响度的响度估计模块102进行处理。

栅控模块103按照不同的内容种类对输入音频信号进行分类。例如，栅控模块103可以按照非静默和静默，或者话音和非话音部分来对输入音频信号进行分类。对于将输入音频信号分类成话音和非话音段，栅控模块103可以采用如图2所示的各种技术，图2示意性示出了用于根据输入音频信号估计响度水平信息的系统200。例如，栅控模块103可以包括用于特征计算的以下子模块中的一个或更多个。

便于以下讨论，简单地对词语“特征”、“块”和“帧”进行说明。特征是从信号提取某些特性的度量，其能够指示具体类在信号中的存在，例如，信号中的话音部分。每个特征可以以两个处理水平来操作。短信号摘录是以块为单位来处理的。特征的长期估计是以长度为2秒的帧来作出的。块是用于计算每个特征的低水平信息的数据量。其保存信号的时间样本或频谱数据。在以下等式中M被定义为块大小。帧是基于特定量的块的长期度量。更新率通常为0.5秒，时间窗为2秒。在以下等式中N被定义为帧大小。

栅控模块103可以包括频谱通量方差（SFV）子模块203。SFV子模块203工作在变换域并且适于将话音信号的频谱快速变化考虑在内。作为频谱中的通量的度量，F₁(t)被计算为帧t的频谱通量的均方l₂范数（其中M是帧中的块的数量）：

F_{1} (t) = Σ_{m = 0}^{M - 1} {(| | l_{m} | |)}^{2}

SFV子模块203可以计算两个块m和m-1之间的加权欧几里得距离||l_m||。

| | l_{m} | | = \sqrt{Σ_{k = 0}^{\frac{N}{2} - 1} \frac{{| (X_{m - 1} [k] - X_{m} [k]) |}^{2}}{W_{m}}}

W_m是块m的权重。

W_{m} = Σ_{k = 0}^{\frac{N}{2} - 1} \frac{({| X_{m - 1} [k] |}^{2} + {| X_{m} [k] |}^{2})}{N}

其中X[k]表示频率2πk/N处的复合频谱的幅度和相位。

因此，为了对频谱通量进行加权，当前频谱能量和先前频谱能量被计算。根据两个频谱幅度的差来计算l₂范数（也称作欧几里得距离）。加权对于去除对两个块X_m和X_m-1的总能量的依赖性是必需的。传递至boosting算法的结果可以根据总计128个l₂范数值来计算。

栅控模块103可以包括平均频谱倾斜（AST）子模块204。平均频谱倾斜基于如上所述的类似原理来工作，但是不将频谱的倾斜考虑在内。音乐通常包括主要音调部分，这导致频谱的负倾斜。话音也包括音调部分，但是这些部分被摩擦噪声规则地间断。由于较低频谱中的低能量水平，这类噪声信号导致正倾斜。对于包括话音的信号部分，可以观测到快速变化的倾斜。对于其他信号类型，倾斜通常保持在相同的范围内。作为频谱中的AST的度量F2(t)，AST子模块204可以计算：

F_{2} (t) = \log (| Σ_{m = 0}^{M - 1} {(G_{m} - Σ_{n = 0}^{M - 1} \frac{G_{n}}{M})}^{3} |)

其中

G_{m} = \frac{\frac{N}{2} Σ_{k = 0}^{\frac{N}{2} - 1} {kX}_{m}^{dB} [k] - Σ_{k = 0}^{\frac{N}{2} - 1} k \cdot Σ_{k = 0}^{\frac{N}{2} - 1} X_{m}^{dB} [k]}{\frac{N}{2} Σ_{k = 0}^{\frac{N}{2} - 1} k^{2} - {(Σ_{k = 0}^{\frac{N}{2} - 1} k)}^{2}}

其中Gm是块m的回归系数。

对数域中的谱功率密度的和被积累并且与加权的谱功率密度相比较。根据下式转换到对数域：

X_{m}^{dB} = 10 \cdot \log_{10} ({| X_{m} [k] |}^{2}) for 0 \leq k < \frac{N}{2}

栅控模块103可以包括停顿计数度量（PCM）子模块205。PCM识别对于话音非常有特性的小中断。特征的低水平部分针对N=128样本/块来计算能量。PCM的值F3(t)可以通过计算当前帧的平均能量并且将帧中每个块的平均能量

P [m] = Σ_{n = 0}^{N - 1} \frac{x {[n]}^{2}}{N}

与当前帧的平均能量进行比较来确定。如果块能量低于当前帧的平均能量的25%，则可以计数为停顿从而可以增加F3(t)的数值。在该准则下符合的多个连续块仅被计数作为一个停顿。

栅控模块103可以包括过零偏斜（ZCS）子模块206。过零偏斜涉及过零率，即次数，其中时间信号跨过零线。还可以通过在给定时间帧中信号每隔多久改变一次符号来对其描述。ZCS是对于出现高频与仅仅很少的低频组合的良好指示。给定帧的偏斜是信号值快速变化的指示，其使得将语音话音和非语音话音进行分类成为可能。ZCS的值F4(t)可以通过计算以下来确定：

F_{4} (t) = \frac{Σ_{m = 0}^{M - 1} {(Z_{m} - Σ_{n = 0}^{M - 1} \frac{Z_{n}}{M})}^{3}}{{(Σ_{m = 0}^{M - 1} {(Z_{m} - Σ_{M - 1}^{n = 0} \frac{Z_{n}}{M})}^{2})}^{\frac{3}{2}}}

其中Zm是块m中的过零计数。

栅控模块103可以包括过零中值与平均比率（ZCM）子模块207。该特征取了大量的128个过零值并且计算中值与平均值比率。通过对当前帧的所有过零计数块进行排序来计算中值。之后，其采用排序后的阵列的中点。具有高的过零率的块影响平均值，但不影响中值。ZCS的值F₅(t)可以通过计算以下来确定：

F_{5} (t) = \frac{Z_{median}}{Σ_{m = 0}^{M - 1} \frac{Z_{m}}{M}}

其中Z_median是帧t中所有块的块过零率的中值。

栅控模块103可以包括短节奏度量（SRM）子模块208。先前提到的特征在高节奏性音乐的情况下具有困难。例如，HipHop和Techno音乐可以导致错误的分类。这两个流派具有高节奏部分，其可以容易地用SRM和LRM特征而被检测到。SRM的值F₆(t)可以通过计算以下来确定

F_{6} (t) = \frac{\max_{L \leq n < M} (A_{t} [n])}{A_{t} [0]}

其中

A_{t} [l] = \frac{1}{M} \underset{m = 0}{Σ} M - 1 - lδ [m] \cdot δ [m + l] for 0 \leq l < M

δ [m] = σ_{x}^{2} [m] - {\overset{&OverBar;}{σ}}_{x}^{2} for 0 \leq m < M

及

σ_{x}^{2} [m] = Σ_{n = 0}^{N - 1} \frac{{(x [n] - {\overset{&OverBar;}{x}}_{m})}^{2}}{N}

其中d[m]是块m的零均值序列中的元素，At[l]是具有块标签为1的帧t的自相关值。SRM计算方差块的当前帧的自相关。然后，AT的搜索范围中的最高索引被搜索。

栅控模块103可以包括长节奏度量（LRM）子模块209。LRM的值F₇(t)可以通过计算能量包络的自相关来确定：

F_{7} (t) = \frac{\max_{LL \leq 1 M} ({AL}_{t} [n]}{{AL}_{t} [0]}

其中

{AL}_{t} [l] = \frac{1}{2 M} Σ_{m = - M + 1}^{M - 1 - l} W [m] \cdot W [m + l] for 0 \leq l < 2 M

AL_t[l]是帧t的自相关得分。

特征F₁(t)至F₇(t)中的至少一个可以用于将输入音频信号分类成话音和非话音段。如果F₁(t)至F₇(t)中不只一个被使用，则这些值可以由机器学习算法来处理，机器学习算法可以从所使用的特征导出二元判定。机器学习算法可以是栅控模块103中的另外的子模块。例如，机器学习算法可以是AdaBoost。AdaBoost算法在以下文献中被描述：Yoav Freund andRobert E.Schapire,A short introduction to boosting,Journal of JapaneseSociety for Artificial Intelligence,14(5),第771页至第780页,1999，通过引用将该文献合并于此。

AdaBoost可以用于将所谓的弱学习算法提升为强学习算法。被应用于上述系统时，AdaBoost可以用于从7个值F₁(t)至F₇(t)推导二元判定。

AdaBoost对示例的数据库进行训练。可以通过将特征的正确标记的输出向量设置为输入来对它进行训练。它然后可以提供提升（boosting）向量以便在AdaBoost作为分类器的实际应用期间使用。boosting向量可以是针对每个特征的阈值和权重的集合。它可以提供信息，其特征赞成话音或非话音判定，并且通过在训练期间建立的值来对其进行加权。

从音频信号提取的特征表示“弱”学习算法。这些“弱”学习算法中的每一个是简单的分类器，然后将其与阈值进行比较并且使用给定的权重来将其分解为因子。该输出是二元分类，从而判定输入音频是否为话音。

例如，输出向量可以针对话音或非话音假设Y=-1,+1。AdaBoost将在所谓的boosting循环中多次调用弱学习者。其维持权重的分布D_t，每当弱假设被错误地分类时，D_t就会被较高地排序。如此，该假设必须聚焦于训练集合的难的示例。弱假设的质量可以根据分布D_t来计算。

Boosting训练给出：

(x₁，y₁)，...，(x_m,y_m)，其中x_i∈X，y_i∈Y＝-1，+1

初始化

D_{1} (i) = \frac{1}{m}

对于t＝1，..，T：

使用分布D_t训练弱学习者。

取得弱假设h_t：X→-1，+1，误差为：

e_{t} = \Pr_{i} D_{t} [h_{t} (x_{i}) &NotEqual; y_{i}]

选择

α_{t} = \frac{1}{2} \ln (\frac{1 - e_{t}}{e_{t}})

更新：

\begin{matrix} D_{t + 1} (i) = \frac{D_{t} (i)}{Z_{t}} \times \{\begin{matrix} e^{- α_{t}} & if & h_{t} (x_{i}) = y_{i} \\ e^{α_{t}} & if & h_{t} (x_{i}) &NotEqual; y_{i} \end{matrix} \\ = \frac{D_{t} (i) \exp (- α_{t} y_{i} h_{t} (x_{i}))}{Z_{t}} \end{matrix}

其中Z₁是归一化因子（选择以使得D_t+1为分布）

输出最终假设：

H (x) = sign (Σ_{t = 1}^{T} α_{t} h_{t} (x))

在执行例如20个boosting循环后，训练算法会返回boosting向量。boosting循环的数量不固定而是可以根据经验选择，例如20。对其进行应用所耗费的努力与对具有先前所述的训练的向量的采用所耗费的努力相比，前者更小。该算法接收具有7个值的向量，一个对应于每一F_i(t)。对于每个循环，算法贯穿向量进行迭代并且取一个特征结果，将其与阈值进行比较并且导出其符号形式的含义。

以下是用于二元话音/其他分类的示例代码：

为了训练编码器，具有话音摘录的和非话音摘录的训练数据库被编码。每个摘录必须被标记以告知训练算法什么是正确的判定。然后使用作为输入的训练文件调用编码器。在编码处理期间，每个特征结果都被记录。训练算法然后被应用于输入向量。为了测试结果，使用具有不同音频数据的测试数据库。如果特征适用，则可以看见在每个boosting循环之后，训练和测试误差变小。该误差是根据不正确分类的输入向量而计算出来的。

该算法针对每个特征选择阈值，该阈值导致最小的可能误差。在此之后，可以将每个错误分类的残余部分（stump）加权到较高。在下一个boosting循环中，该算法可以选择另一个特征和具有最小的可能误差的阈值。在一段时间之后，不同的残余部分（示例/向量）再也不会平等地被加权。这意味着至此，所有错误地分类的示例可以从算法获取更多的注意。在由于不同地加权的分布而考虑新阈值的情况下，这使得可以在随后的boosting循环中再次调用特征。

图3示意性地示出了使用来自音频编码器的信息来对来自输入音频信号的响度水平信息进行估计的系统300；

系统300包括以下子模块：编码器101、响度估计模块102和栅控模块103。例如，系统300包括关于图2描述的子模块203至209中的至少一个子模块。此外，系统301包括块切换子模块311、MDCT变换子模块312、比例因子带能量子模块313以及其它子模块中的至少一个。此外，系统301可以包括若干下混合子模块321至223（如果音频输入信号是多声道信号）和用于短块处理及伪频谱生成的子模块330。如果音频输入信号是多声道信号，则子模块330还可以包括下混合器。

子模块203至209将它们的值F₁(t)至F₇(t)传输给执行如上所述的响度估计的响度估计模块102。响度估计模块102的响度信息（例如响度度量）可以被编码到携带编码音频信号的比特流中。响度度量例如可以是Dolby Digital对白归一值。

可替代地，响度度量可以被存储为回放增益值。回放增益值可以存储在iTunes风格的元数据中或ID3v2标签中。在另外的替代方案中，响度度量可以被用于重写MPEG“节目参考水平”。MPEG“节目参考水平”可以位于作为动态范围压缩（DRC）信息结构（ISO/IEC14496-3子部分4）的一部分的MPEG4AAC比特流中的的填充元素（Fill Element）中。

下面描述与MDCT变换子模块312结合的块切换子模块311的操作。

根据HE-AAC，包括多个MDCT（改进型离散余弦变换）系数的帧在编码器期间被生成。通常，可以区分长块和短块两种类型的块。在一种实施方式中，长块等于帧的大小（即，对应于具体时间分辨率的1024个频谱系数）。短块包括128个频谱值来实现比时间分辨率（1024/128）高8倍以便及时地对音频信号特性进行适当表示并且避免预回声假象。从而，以频率分辨率减小相同因子8为代价由8个短块形成帧。该方案通常称为“AAC块切换方案”，其可以在块切换子模块311中执行。即，块切换模块311确定是生成长块还是生成短块。虽然短块具有低的频率分辨率，但是短块提供了用于确定音频信号的开始从而确定节奏信息的有价值信息。为了高质量表示，这对于包括大量尖锐开始并且因此包括大量短块的音频和话音信号尤其意义重大。

对于包括短块的帧，提出了MDCT系数与长块的交错，所述交错由子模块330来执行。该交错在图4中被示出，其中8个短块401至408的MDCT系数被交错以使得8个短块的各个系数被重组，即，使得8个短块401至408的第一MDCT系数被重组，接着是8个短块401至408的第二MDCT系数被重组，以此类推。通过这样做，相应的MDCT系数（即与相同的频率对应的MDCT系数）被分组在一起。帧内的短块的交错可以理解为“人工地”增加帧内的频率分辨率的操作。应当注意，可以考虑增加频率分辨率的其他装置。

在所示出的示例中，针对8个短块的序列，获得包括1024个MDCT系数的块410。由于长块还包括1024个MDCT系数的事实，所以针对音频信号获得包括1024个MDCT系数的块的完整序列。即，通过根据8个连续的短块401至408形成长块410，获得了长块序列。

编码器可以使用两个不同窗口来处理不同类型的音频信号。窗口描述了多少数据样本被用于MDCT分析。一个编码方式是使用具有1024个样的块大小的长块。在短暂数据的情况下，该编码器可以组装8个短块集合。每个短块可以具有128个样本，从而MDCT长度为2*128个样本。短块用于避免被称作预回声的现象。由于这些可能预期有大量的1024个MDCT样本，所以这导致频谱特征的计算中的问题。由于短块的组的出现率很小，所以一些种类的工作循环可以用于该问题。每个8短块集合可以被重装为一个长块。该长块的开始的8个索引来自图4所示的8个短块中的每一个的索引数1。接着的8个索引来自这8个短块中的每一个的第二索引，以此类推。

负责检测音频信号瞬变的块切换子模块311可以用于计算由128个时间样本构成的块的能量。

对信号的能量起作用的两个特征是：PCM和LRM。此外，SRM特征对信号的方差其作用。信号的方差和能量的差是根据偏移自由时间信号计算的方差。因为编码器在将偏移交给滤波器组之前已经将其移除，所以在编码器中对方差和能量计算的差几乎没有。根据一种实施方式，可以使用块能量估值来计算LRM、PCM和RPM。

AdaBoost算法可能需要对于每个采样速率的具体向量并且可以相应地被启动。该实施的准确度因此可以取决于所使用的样本速率。

所计算的能量可以从块切换模块311经过可选的下混合模块322馈送至SRM子模块208、LRM子模块209和PCM子模块205。

如上面所讨论的，虽然LRM子模块209和PCM子模块205作用于信号能量，但是SRM子模块208对信号的方差起作用。如上所述，信号偏移被移除以使得方差与能量之间的差可以被忽略。

回到图3，子模块330的操作在下面被进一步描述。子模块330从MDCT变换子模块312接收MDCT系数并且可以处理如在先前段落中描述的短块。MDCT系数可以用于计算伪频谱。可以根据MDCT系数X_m来计算伪频谱Y_m作为：

Y_{m} = {(X_{m}^{2} + {(X_{m - 1} - X_{m + 1})}^{2})}^{\frac{1}{2}}

上面的等式描述了一种通过将实际频率格（bin）与相邻频率格相平均来根据MDCT系数计算伪频谱以接近使用DFT的频谱分析的方法。在图5a中示出了通过DFT、MDCT系数和伪频谱生成的频谱的示例。

伪频谱可以馈送至SFV子模块203，其基于由子模块330提供的伪频谱来计算频谱通量方差。可替代地，MDCT可以如图5b所示被使用，其中Fi(t)是根据DFT数据、MDCT数据和伪频谱数据而计算出的。在另一种替代方案中，例如当使用HE-AAC来对输入音频信号进行编码时，可以使用QMF数据。在该情况下，SFV子模块203可以从SBR子模块接收QMF数据。

应当注意，尽管在图3中结合编码器描述了话音/非话音分类，但是很明显的是，话音/非话音分类还可以在其它情况下实施，只要来自子模块的相关信息被提供即可。

在一种实施方式中，一些额外处理被执行以使用MDCT表示和SFV和AST特征的计算来替代DFT频谱表示。例如，滤波器组数据可以以右声道和左声道传递给对白归一计算模块。两个声道的简单下混合可以通过添加左声道和右声道来完成：K_k单声道=X_k左+X_k右。

在下混合之后，存在若干可能来将数据馈送至频谱通量计算。一种方法是通过计算MDCT系数的幅度将MDCT系数用于SFV中的频谱分析。另一种方法是根据MDCT系数导出伪频谱。

此外，根据MDCT系数计算的伪频谱可以用于计算平均频谱倾斜。在该情况下，伪频谱可以从子模块330被馈送至AST子模块204。此外，MDCT系数可以用于计算平均频谱倾斜。在该情况下，MDCT系数可以从子模块312被馈送至AST子模块204。在另外的替代方案中，比例因子带能量可以用于计算平均频谱倾斜。在该情况下，比例因子带能量子模块313可以将比例因子带能量馈送至AST子模块204，AST子模块204根据比例因子带能量来计算平均频谱倾斜的度量。至此，应当注意比例因子带能量是根据MDCT频谱导出的、频带的能量估值。

根据一种实施方式，比例因子带能量用于替换用来计算上面所描述的平均频谱倾斜的谱功率密度。对于48kHz的采样速率的MDCT索引0集合（Nm）的示例表在下表中示出。比例因子带能量的计算如下：

Z_{m} = Σ_{n = N_{m}}^{N_{m + 1} - 1} | x_{n}^{2} | for 0 < m \leq 46

Z_m＝索引m的比例因子带（sfb）能量

x_n＝索引n的MDCT系数，0＜n≤1023

N_m＝具有索引m的sfb的MDCT索引偏移

除了使用仅46个sfb能量替代1024个频率格的差别，到对数域的转换等同于上述转换。

Z_{m}^{dB} = 10 \cdot \log_{10} (Z_{m}) for 0 < m \leq 46

换言之，可以按照下列方式通过对上面给出的基于DFT的公式进行修改来推导AST：

-用比例因子带水平Z[k]替代DFT水平X[k]（将m设置给k）

-k现从1到46（所使用的比例因子带的数量）

-m是时间块索引（块大小是1024个样本）

-因子N/2须由所使用的比例因子带的的数量（46）来取代

-M对应于2秒时间窗中的块（大小为1024个样本）的数量

-t对应于当前估计时间（覆盖过去的2秒）

-如果每0.5秒计算AST，则对于t的采样间隔为0.5秒。

转换不同信号设定的比例因子带能量的其他示例对于本领域技术人员是很明显的并且在本文的范围内。

对于22.05和24kHz处的长窗口、长开始窗口、长停止窗口的2048和1920（方括号中为对于1920的值）的窗口长度的比例因子带

由于特征的复杂度减小，所以缩放因子带（SFB）可以有利地被使用。与1024频率格构成的全MDCT频谱相比，将46个比例因子带考虑在内不太复杂。比例因子带能量是根据MDCT频谱导出的、不同频带的能量估值。这些估值被用在针对编码器的心理声学模型编码器中以推导每个频率因子带中的容忍量化误差。

根据本文的另一个方面，提出了音频内容的话音/非话音部分的分类的新特征。因为音频信号的该属性携带对于话音或非话音的分类的有用信息，所以所提出的特征与音频信号的节奏信息的估计有关。除了分类器（如AdaBoost分类器）中的其他特征外还可以使用所提出的节奏特征以对音频的部分或段做出判定。

出于效率的目的，可能期望直接根据音频信号或根据由编码器计算以插入到比特流中的数据来提取节奏信息。下面，描述一种关于如何确定音频信号的节奏信息的方法。具体关注HE-AAC编码器。

HE-AAC编码利用高频重构（HFR）或频带复制（SBR）技术。SBR编码处理包括瞬变检测阶段、用于适当表示的自适应T/F（时间/频率）网格选择、包络估计阶段以及对信号的低频部分与高频部分之间的信号的特性的错配进行校正的额外方法。

已经观察到，由SBR编码器产生的大多数有效负载源自包络的参数化表示。依赖于信号特性，编码器确定适合于音频段的恰当表示以及适于避免预回声假象的时间-频率分辨率。通常，针对准稳定段及时选择较高频率分辨率，而对于动态段，选择较高时间分辨率。

从而，由于与较短时间段相比较长时间段可以更加有效地被编码，所以时间-频率分辨率的选择对SBR比特率具有明显的影响。同时，与缓慢变化的内容相比，对于快速变化的内容，即，通常对于具有较高节奏的音频内容，为了恰当表示而要传输的包络的数量以及作为结果的包络系数的数量较高。除了所选择的时间分辨率的影响，该效果进一步影响SBR数据的大小。事实上，已经观察到，SBR数据速率对基础的音频信号的音调或节奏变化的敏感度高于在MP3编解码器中使用的霍夫曼代码长度的大小的敏感度。因此，SBR数据的比特率的变化已经被识别为有价值的信息，该信息可以用于直接根据编码比特流来确定节奏成分。因此，SBR负载是对音频信号的开始进行估计的良好代理。SBR导出的节奏信息然后可以用作话音/非话音分类的特征，例如，以对响度的计算进行栅控。

SBR有效负载的大小可以用于节奏信息。SBR有效负载的量可以直接从编码器的SBR组件接收。

一套SBR有效负载数据的示例在图7a中被给出。x轴示出了帧数量，而y轴表示相应帧的SBR有效负载数据的大小。可以看出SBR有效负载数据的大小因帧而变换。以下，其仅被称为SBR有效负载数据大小。可以通过识别SBR有效负载数据大小的周期来从SBR有效负载数据大小的序列701提取节奏信息。具体地，SBR有效负载数据大小中的尖峰或重复图形的周期可以被标识。例如，这可以通过对SBR有效负载数据大小的子序列进行交叠时应用FFT来完成。子序列可以对应于特定的信号长度，例如6秒。连续子序列的交叠可以是50%的交叠。接着，可以贯穿完整音频轨道的长度来平均子序列的FFT系数。这产生了完整音频轨道的平均FFT系数，其可以被表示为图7b所示的调制频谱711。应当注意，可以考虑用于标识SBR有效负载数据大小中的周期的其他方法。

调制频谱711中的尖峰712、713、714表示重复的，即具有特定出现频率的节奏图形。出现频率也可以被称为调制频率。应当注意，最大可能调制频率受基础核心音频编解码器的时间分辨率的限制。因为HE-AAC被限定为具有工作于半采样频率的AAC核编解码器的双速率系统，所以针对6秒长度（128帧）的序列和F_s=44100Hz的采样频率获得大约21.74Hz/2～11Hz的最大可能调制频率。该最大可能调制频率与大约660BPM一致，其覆盖话音的音调/节奏以及几乎每个音乐片段。为了方便同时确保正确的处理，最大可能调制频率可以被限制在10Hz，其对应于600BPM。

图7b的调制频谱可以被进一步增强。例如，使用图6所示的加权曲线600的感知加权可以应用于SBR有效负载数据调制频谱711以对人类节拍/节奏偏好进行建模。所得到的感知加权的SBR有效负载数据调制频谱721在图7c中被示出。可以看出非常低和非常高的节拍被抑制。具体地，可以看出低频尖峰722和高频尖峰724相比初始尖峰712和714，已经分别被减小。另一方面，中间频率尖峰723被维持。

应当注意，所提出的基于SBR有效负载数据的节奏估计方法独立于输入信号的比特率。当改变HE-AAC编码比特流的比特率时，编码器根据可在该具体比特率（即SBR跨接频率变化）处实现的最高输出质量来自动地设置SBR开始和停止频率。然而，SBR有效负载仍然可以包括关于音频轨道中重复的瞬变成分的信息。这可以参见图7d，其中针对不同的比特率（16比特/秒直至64k比特/秒）示出SBR有效负载调制频谱。可以看出，音频信号的重复部分（即，在调制频谱中的尖峰（如尖峰733））贯穿所有的比特率保持主导地位。还可以观察到，因为当降低比特率时编码器尝试节省SBR部分中的比特，因此在不同的调制频谱中出现波动。

所得到的节奏特征是用于话音/非话音分类的良好特征。不同类型的分类可以用于判定音频信号是话音信号或与其他信号类型相关。例如，AdaBoost分类器可以用于对节奏特征和其他特征进行加权以便于分类。替代与节奏相关的类似特征，应用节奏特征，或除了与节奏相关的类似特征之外还应用节奏特征，与节奏相关的类似特征例如是用在HE-AAC编码器的对白归一计算中的短节奏度量（SRM）和/或长节奏度量（LRM）等

应当注意，本文中针对节奏特征估计和话音分类概括的方法可以用于对响度值的计算（如HE-AAC中的对白归一）进行栅控。所提出的方法利用编码器的SBR组件中的计算并且不增加过多的计算负担。

作为另外的方面，应当注意，音频信号的话音/非话音分类和/或响度水平信息可以按照元数据格式被写入编码比特流中。这样的元数据可以被媒体播放器提取和使用。

在本文中，描述了话音/非话音分类器和栅控响度估计方法及系统。该估计是基于如由编码器确定的HE-AAC SBR有效负载来执行的。这使得能够以非常低的复杂度来确定节奏特征。可以使用SBR有效负载数据来提取节奏特征。所提出的方法相对于比特速率和SBR跨接频率变化是鲁棒的，并且该方法可以应用于单声道和多声道编码音频信号。其还可以应用于其他SBR增强型音频编码器（如mp3PRO），并且可以被认为是不明确的核心编解码器。

本文献所描述的方法及系统可以实施为软件、固件和/或硬件。某些组件例如可以实施为运行在数字信号处理器或微处理器上的软件。其他组件例如可以实施为硬件或实施为专用集成电路。在所描述的方法及系统中所遇到的信号可以存储在如随机存取存储器或光存储介质等介质上。它们可以通过如无线电网络、卫星网络、无线网络或有线网络等网络（例如，互联网）来传递。使用本文中所描述的方法及系统的典型设备是用于存储和/或渲染音频信号的便携式电子设备或其他消费装备。上述方法及系统还可以用在例如互联网网络服务器等存储并且提供音频信号（例如，音乐信号）以便下载的计算机系统上。

Claims

1.一种用于对音频信号进行编码的方法，所述方法包括：

确定所述音频信号的频谱表示，确定频谱表示包括确定改进型离散余弦变换MDCT系数；

使用所确定的频谱表示对所述音频信号进行编码；

基于所确定的频谱表示，将所述音频信号的部分分类成话音或非话音；以及

基于所述话音部分，确定用于所述音频信号的响度度量。

2.根据权利要求1所述的方法，其中所述确定频谱表示包括确定改进型离散余弦变换MDCT系数。

3.根据权利要求1或2所述的方法，其中所述确定频谱表示包括确定正交镜像滤波器QMF滤波器组表示。

4.根据权利要求2所述的方法，还包括：

根据所述MDCT系数确定伪频谱；

其中话音/非话音部分的分类至少部分地基于所确定的伪频谱的值。

5.根据任一前述权利要求所述的方法，还包括：

确定频谱通量方差；

其中话音/非话音部分的分类至少部分地基于所确定的频谱通量方差。

6.根据任一前述权利要求所述的方法，还包括：

根据所述MDCT系数确定比例因子带能量；

其中话音/非话音部分的分类至少部分地基于所确定的比例因子带能量。

7.根据权利要求6所述的方法，还包括：

根据所述比例因子带能量确定平均频谱倾斜；

其中话音/非话音部分的分类至少部分地基于所述平均频谱倾斜。

8.根据任一前述权利要求所述的方法，还包括：

确定用于由所述音频信号构成的块的能量值；

基于块能量确定基于能量的特征；

其中话音/非话音部分的分类至少部分地基于所述基于能量的特征。

9.根据任一前述权利要求所述的方法，其中话音/非话音部分的分类基于机器学习算法，具体是AdaBoost算法。

10.根据权利要求9所述的方法，还包括：

基于话音数据和非话音数据对所述机器学习算法进行训练，从而调节所述机器学习算法的参数以使误差函数最小化。

11.根据任一前述权利要求所述的方法，其中所述频谱表示是针对短块和/或长块而确定的，所述方法还包括：

将短块表示和用于与预定数量个短块相对应的长块表示的帧进行校准，从而将所述预定数量个短块的MDCT系数重排为用于长块的帧。

12.根据任一前述权利要求所述的方法，还包括：

使用所确定的频谱表示将所述音频信号编码到比特流中；以及

将所确定的响度度量编码到所述比特流中。

13.根据任一前述权利要求所述的方法，其中所述音频信号是多声道信号，所述方法还包括：

对所述多声道音频信号进行下混合，并且对下混合后的信号执行所述分类步骤。

14.根据任一前述权利要求所述的方法，还包括：

对所述音频信号进行下采样，并且对下采样的信号执行所述分类步骤。

15.根据任一前述权利要求所述的方法，其中所述音频信号根据HE-AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus之一来编码。

16.一种基于节奏信息来对音频信号的话音部分进行分类的方法，所述方法包括：

确定与频带复制数据量相关联的有效负载量，所述频带复制数据量和所述音频信号的时间间隔相关联；

针对所述音频信号的连续时间间隔重复所述确定步骤，从而确定有效负载量序列；

标识所述有效负载量序列中的周期；

根据所标识的周期，提取所述音频信号的节奏信息；以及

基于所提取的节奏信息，对所述音频信号的、包括话音或非话音的至少一部分进行分类。

17.根据权利要求16所述的方法，还包括：

确定所述音频信号的频带复制数据；

将包括所述频带复制数据的所述音频信号编码在比特流中。

18.根据权利要求17所述的方法，还包括：

确定所述音频信号的响度数据，所述确定限于所述音频信号的、由所述分类步骤确定的话音部分；

将所述响度数据包括在编码后的比特流中。

19.根据权利要求16至18中任一项所述的方法，其中标识周期包括：

标识所述有效负载量序列中的尖峰的周期。

20.根据权利要求16至19中任一项所述的方法，其中标识周期包括：

对所述有效负载量序列进行频谱分析，从而生成功率值集合和相应的频率；以及

通过确定所述功率值集合中的相对最大值并且通过选择所述有效负载量序列中的周期作为所述相应的频率，对所述周期进行标识。

21.根据权利要求20所述的方法，其中执行频谱分析包括：

对所述有效负载量序列的多个子序列执行频谱分析，从而产生多个功率值集合；以及

对所述多个功率值集合进行平均。

22.根据权利要求20至21中任一项所述的方法，其中执行频谱分析包括执行傅里叶变换。

23.根据权利要求16至22中任一项所述的方法，其中对所述音频信号的、包括话音或非话音的至少一部分进行分类包括：

使用所提取的节奏信息作为机器学习算法中的特征，以将话音信号与非话音信号进行区分。

24.根据权利要求16至23中任一项所述的方法，其中对所述音频信号的、包括话音或非话音的至少一部分进行分类包括：

基于训练数据对分类器进行训练以将话音信号与非话音信号进行区分，所述分类器使用所提取的节奏信息作为用于分类的输入特征。

25.根据权利要求17至24中任一项所述的方法，其中对所述音频信号进行编码包括：使用HE-AAC、MP3PRO或例如USAC（MPEG-D统一话音与音频编码器）的任意其他基于频带复制（SBR）的编码器之一来生成所述编码比特流的有效负载数据序列。

26.一种软件程序，所述软件程序适于在处理器上执行，并且当在计算设备上执行所述软件程序时所述软件程序适于执行根据权利要求1至25中任一项所述的方法步骤。

27.一种存储介质，所述存储介质包括软件程序，所述软件程序适于在处理器上执行，并且当在计算设备上执行所述软件程序时所述软件程序适于执行根据权利要求1至25中任一项所述的方法步骤。

28.一种计算机程序产品，所述计算机程序产品包括可执行指令，当在计算机上执行所述可执行指令时，所述可执行指令用于执行根据权利要求1至25中任一项所述的方法。

29.一种用于对音频信号进行编码的系统，所述系统包括：

用于确定所述音频信号的频谱表示的装置；

用于使用所确定的频谱表示来对所述音频信号进行编码的装置；

用于基于所确定的频谱表示将所述音频信号的部分分类成话音或非话音的装置；以及

用于基于所述话音部分确定所述音频信号的响度度量的装置。

30.一种被配置成对音频信号的话音部分进行分类的系统，所述系统包括：

用于对和频带复制数据量相关联的有效负载量进行确定的装置，所述频带复制数据量与所述音频信号的时间间隔相关联；

用于针对所述音频信号的连续时间间隔重复所述确定步骤从而确定有效负载量序列的装置；

用于对所述有效负载量序列中的周期进行标识的装置；

用于根据所标识的周期提取所述音频信号的节奏信息的装置；以及

用于基于所述提取的节奏信息，对所述音频信号的、包括话音或非话音的至少一部分进行分类的装置。

31.一种被配置为生成编码比特流的音频编码器，所述编码比特流包括音频信号的元数据，所述编码器包括：

用于将所述音频信号编码到所述比特流中的装置；

被配置成执行根据权利要求16至25中任一项所述的方法的、对音频信号的话音部分进行分类的装置；

用于确定所述音频信号的响度数据的装置；

用于确定与所述音频信号的响度数据相关联的元数据的装置；以及

用于将所述元数据插入到所述编码比特流的装置。