CN102113050B

CN102113050B - 音频信号的瞬态检测方法及设备

Info

Publication number: CN102113050B
Application number: CN2009801200286A
Authority: CN
Inventors: 游余立
Original assignee: GUANGSHENG DIGITAL TECHNOLOGY Co Ltd GUANGZHOU
Current assignee: GUANGSHENG DIGITAL TECHNOLOGY Co Ltd GUANGZHOU
Priority date: 2008-05-30
Filing date: 2009-05-27
Publication date: 2013-04-17
Anticipated expiration: 2029-05-27
Also published as: US8805679B2; WO2009144564A3; US20120059659A1; US20170084279A1; US8255208B2; WO2009144564A2; US20090299753A1; US20140324440A1; US20140100855A1; US9536532B2; US8214207B2; US8630848B2; US20180108360A1; US9361893B2; US20110307261A1; US20160267915A1; CN102113050A; US9881620B2

Abstract

提供了用于检测音频信号之内是否存在瞬态的系统、方法和技术等。根据一个代表性实施例，将一段数字音频信号分成若干块，并且针对多个这样块中的每个块计算范数值，获得针对这样块的一组范数值，每个这样的范数值表示对应块之内信号强度的度量。然后在这样的块中标识出最大范数值，向范数值应用测试标准。如果不满足测试标准，输出指示该段不包括任何瞬态的第一信号，如果满足测试标准，输出指示该段包括瞬态的第二信号。根据本实施例，所述测试标准涉及在所述段之内将最大范数值与不同的第二大范数值加以比较，这种比较受到指定约束。

Description

音频信号的瞬态检测方法及设备

技术领域

本发明涉及用于处理音频信号的系统、方法和技术，尤其涉及瞬态的检测，例如，使得可以在这样检测的瞬态附近执行适当的编码处理和/或其他信号处理。

背景技术

一般而言，在发生音频信号处理的时间框架之内，大部分典型的音频信号本质上是准稳态的，这表示其统计特性(例如在频域中)变化较慢。不过，这种准稳态部分被瞬态打断和/或分开也是相当常见的。可以通过多种不同方式定义瞬态，但通常它是持续时间非常短的信号的一部分，在该持续时间中，统计特性显著不同于其紧前方信号部分及其紧后方的信号部分(常常是信号能量的突变)。要指出的是，根据瞬态是发生于本来准稳态段期间还是其标志着从一个准稳态部分到另一个准稳态部分的变化，这种前方和后方部分也可以彼此不同。

为了既高效又准确地对给定音频信号编码，所有或几乎所有的常规音频信号处理技术都将数据编码成帧(例如，每个帧由1024个新样本以及前一帧的一些重叠一起构成)。对于信号的准稳态部分，通常在整个帧上提供频率变换，由此提供良好的频率分辨率。

然而，如所周知，良好的频率分辨率的代价是时间分辨率差。尽管这种结果对于信号的准稳态部分而言是可以接受的，但向音频信号中包括瞬态的部分应用长变换必然会在整个变换时段上扩散瞬态的能量，由此导致显著的可听到的失真。

于是，大多数常规音频信号处理技术试图识别出瞬态发生在哪里，然后在瞬态的紧邻区域之内执行与针对信号的准稳态部分所执行的处理不同的处理。例如，利用短得多的变换间隔时段，常常能够将瞬态的效应大致限制到实际发生瞬态的时间间隔中。当然，这样增大的时间分辨率的代价是频率分辨率成比例地变差。然而，在再现瞬态时良好的频率分辨率通常没有那么重要，因为人的音频感知在这样短的时间内没有那么灵敏。

为了进行以上(准稳态部分和瞬态部分之间的)差异化处理，首先必须要准确地标识在哪里发生瞬态。为了检测音频信号之内的瞬态已经采用过几种不同的常规方法。范例包括：将瞬态简单地定义为无论何时发生足够大的幅度变化，或将音频信号变换到频域中，然后将瞬态定义成无论何时发生足够大的频率变化。不过，这些方法中的每种都有其自身的局限。

发明内容

本发明例如通过以下方式解决这个问题：将最大块范数值与期望段之内的第二大块范数值进行比较，利用多阶段技术和/或利用基于信号块的范数值的多种不同标准。

于是，例如，本发明的一个实施例涉及检测音频信号之内是否存在瞬态，其中，将一段数字音频信号分成若干块，针对多个这样块中的每个块计算范数值，获得一组针对这样块的范数值，每个这种范数值表示对应块之内信号强度的度量。然后在这样的块中标识出最大范数值，向范数值应用测试标准。如果不满足测试标准，输出表示该段不包括任何瞬态的第一信号，如果满足测试标准，输出表示该段包括瞬态的第二信号。根据本实施例，测试标准涉及在该段之内将最大范数值与不同的第二大范数值加以比较，这种比较受到指定约束。

另一实施例涉及检测音频信号之内是否存在瞬态，其中将一段数字音频信号分成块。针对若干块中的每个计算范数值，获得针对这样块的一组范数值，每个这样的范数值表示对应块之内信号强度的度量。在这样的块中标识出最大范数值，向范数值应用初始标准。如果不满足初始标准，输出表示该段不包括任何瞬态的信号，如果满足初始标准，向范数值应用测试标准。如果应用测试标准但不满足，输出表示该段不包括任何瞬态的第一信号，如果应用且满足测试标准，输出表示该段包括瞬态的第二信号。根据本实施例，初始标准和测试标准中的至少一个基于最大范数值。

以上概要仅仅是为了提供本发明特定方面的简述。结合附图，参考权利要求和优选实施例的以下详细描述，可以获得对本发明的更完整理解。

附图说明

在以下公开中，参考附图描述本发明。然而，应当理解附图仅仅绘示了本发明的代表性和/或示范性实施例和特征，并非意在以任何方式限制本发明的范围。以下是对每幅附图的简述。

图1是示范性系统的方框图，在该系统之内可以操作根据本发明的瞬态检测系统或技术。

图2示出了根据本发明的优选实施例用于判断一段(例如一帧)输入音频信号之内是否存在瞬态的过程的流程图。

图3示出了将音频帧分成若干块。

图4示出了针对单个帧之内的各个块的范数值以及与根据本发明的代表性方法判断帧之内是否存在瞬态相关的特定信息。

图5示出了量化指数段和对应的指数。

图6是示出了用于合并码书的过程的流程图。

图7是示出了用于向属于各个编码信道的量化单元分配比特的过程的流程图。

图8是示出了用于在处理各个编码信道时减小量化比特大小(quantization bit size)的过程的流程图。

图9是示出了用于向属于联合编码信道的量化单元分配比特的过程的流程图。

图10是示出了用于在处理联合编码信道时减小量化比特大小的过程的流程图。

具体实施方式

本公开被分成若干节。第一节描述音频信号的瞬态检测。第二节描述码书合并。第三节描述联合信道编码。

音频信号的瞬态检测

图1示出了示范性系统5，可以在其中操作根据本发明代表性实施例的瞬态检测系统或技术10(这里称为瞬态检测器10)。如图1所示，优选向系统5的两个部件提供输入音频信号12：瞬态检测器10和处理开关15。在本发明的优选实施例中，瞬态检测器10包括第一处理级20和第二处理级25，一开始向第一级20提供输入音频信号12。不过，应当指出，瞬态检测器10也可以包括单个处理级，该处理级包括下文结合级20和25论述的任何或所有处理，例如，在已经执行所有评估处理之后，仅有单个关于瞬态存在的最终判断。

优选地，输入音频信号12是已经被分成帧(或其他种类的段)的数字音频信号，瞬态检测器10逐帧(或更一般地，逐段地)判断是否存在瞬态。就此而言，尽管以下论述有时指代帧中的处理，但这种指代仅仅是为了论述容易，除非明确而特定地做出相反表述，可以用对任何其他种类段的更一般指代来替换每个这种指代。

瞬态检测器10的第一级20优选对当前帧中瞬态的存在做出初步判断：(1)排除瞬态的可能性，在这种情况下，向处理开关15提供信号21，指示其利用用于处理准稳态帧的技术30处理当前帧；或(2)判定当前帧中可能含有瞬态，在这种情况下，向第二处理级25提供信号22(例如，原始信号12或其修改版本，优选与第一级20中确定的任何附加信息一起)。

在第二级25之内，对当前帧中是否存在瞬态做出最终判断。如果在级25中检测到瞬态，那么输出控制信号27指示处理开关15利用用于处理瞬态帧的技术32来处理当前帧，输出信号28优选指出帧之内发生瞬态的位置(尽管在备选实施例中，例如，统一处理瞬态帧而不考虑瞬态精确发生在帧中哪里，省略了输出信号28)。否则(即，如果第二级25判定当前帧之内没有瞬态)，输出控制信号27指示处理开关15利用用于处理准稳态帧的技术处理当前帧。然后在模块35中组合模块30和32处理的各个帧，并发送、存储或输出到下一处理单元。

优选地，用于处理准稳态帧的技术30和用于处理瞬态帧的技术32都是利用可变块尺寸MDCT(改进的离散余弦变换)的整个信号编码过程的部分。更优选地，这样的技术采用任何或所有以下共同转让的美国专利申请中描述的一些或全部处理过程：2005年1月4日提交的No.11/029722、2006年11月12日提交的No.11/558917、2007年1月31日提交的No.11/669346以及2007年3月21日提交的No.11/689371，在此通过引用将每个申请并入本文，如同在此完整阐述一样。

如那些申请中所述，处理准稳态帧和处理瞬态帧之间的一个重要区别是用于帧的变换块尺寸。优选地，在处理每个帧时，在整个帧上使用统一的变换块尺寸。更优选地，将长变换块(例如，覆盖2048个样本的整个帧的长度，其包括1024个新样本)用于准稳态帧，将多个短变换块(例如，八个短变换块，每个覆盖256个样本，其包括128个新样本)用于包含瞬态的帧。

此外，在上述共同转让的专利申请中所述的实施例中，使用瞬态在帧之内的具体位置控制应用于瞬态帧之内每个块的窗口函数。结果，在本发明的优选实施例中，准确地检测瞬态的位置对于处理音频信号具有重要意义。

图2示出了示范性过程70的流程图，过程70用于判断输入音频信号的单个帧(或其他段)之内是否存在瞬态，如果有的话，在哪里。例如，可以由瞬态检测器10(图1所示)实施过程70。在优选实施例中，过程70的步骤得到完全自动化，从而可以由从计算机可读介质读取和执行计算机可执行过程步骤的处理器实施，或以这里所述的任何其他方式实施。

一开始，在步骤71中，对输入的数字音频信号(例如图1所示的信号12)进行高通滤波。这里，输入信号优选在时间采样域中，因此滤波操作的一般形式优选为：

其中x(n)是输入信号的第n个样本值，h(k)是高通滤波器的脉冲响应。一种这样的滤波器是拉普拉斯算符，其脉冲响应函数可以由h(n)＝[1，-2，1]给出。

其次，在步骤72中，正被评估的数字音频信号的段(例如，单个音频帧)分成若干块。在优选实施例中，块尺寸是统一的，块尺寸的整数倍等于短变换块尺寸。在长变换块由2048个样本(1024个新样本)构成且帧中八个短变换块的每个都由256个样本(128个新样本)构成的实施例中，块尺寸优选由64个样本构成。从本步骤72获得的块优选不交迭，连续的且一起覆盖整个帧中的所有新样本(即，在当前范例中，均具有64个样本的16个块，以便覆盖全部1024个新样本)。于是，参考图3，将帧边界112界定的单个帧110分成16个连续的不交迭块(例如，分别由块边界117-118和118-119界定的块114和115)。

在步骤74中，为各个块计算范数值。优选地，分别为步骤72中识别的每个块计算范数值。更优选地，每个这样的范数值都是其对应的块的信号强度的度量(例如，能量)，并被计算为块内所有样本值的函数组合。要计算的最直接范数是L2范数，其实质上是总的块能量，优选如下定义：

E (k) = Σ_{i = 0}^{L - 1} y (kL + i) y (kL + i),

k＝0，1，...，K-1，

其中k为块序号，K为帧中的总块数，L是每个块中的样本数量。当然，可以通过简单地向以上总和施加因子1/L将总的块能量表达为平均值。

为了减少计算负荷，一种备选实施例使用以下L1范数，其实质上是块之内的组合绝对信号值的度量：

E (k) = Σ_{i = 0}^{L - 1} | y (kL + i) |,

k＝0，1，...，K-1。

当然，可以通过简单地向以上总和施加因子1/L将总值或组合值表达为平均值。再者，在备选实施例中，在该步骤74中也可以(或替代地)计算其他的，例如更精细的范数，例如感知熵，然后在过程70的整个剩余部分中使用。

在步骤75中，基于在步骤74中计算的范数值标识一个或多个度量。在优选实施例中，这样的度量包括最大范数值，(如上所述)其优选等价于标识所有块间的最大信号强度(然而是定义的)，同时还有出现这种最大值的块标识。优选将最大范数值简单地定义为：

E_{\max} = \max_{k = 0,1, . . ., K - 1} E (k) .

这样的度量优选还包括最小范数值以及出现这样最小值的块的标识。优选将最小范数值简单地定义为：

E_{\max} = \min_{k = 0,1, . . ., K - 1} E (k) .

标识的度量优选还包括相邻范数值之间绝对差异的最大值，即：

D_{\max} = \max_{k = 0,1, . . . K - 1} | E (k) - E (k - 1) | .

不过，在该步骤75中标识的实际度量优选取决于要在过程70的步骤77和80(下文所述)中应用的标准。因此，可以在该步骤75中标识上述度量的一些子集和/或任何额外的或替换度量作为替换(或补充)。

在步骤77中，判断是否满足属于可能存在瞬态的指定初始标准。在优选实施例中，如果发现任何以下条件是真的，则不满足该初始标准：

·E_max＜k₁E_min，其中k₁为可调参数

·k₂D_max＜E_max-E_min，其中k₂为可调参数

·E_max＜T₁，其中T₁为可调阈值

·E_max＞T₂，其中T₂为可调阈值

如果用每个样本24比特表示音频信号，即，提供[-2²³，2²³]整数值范围，并使用L1范数，优选k₁＝4，k₂＝3，T₁＝600000，T₂＝3000000，或约等于上述值的其他值。

换句话说，优选仅在满足所有以下条件时，才满足初始标准：

·E_max≥k₁E_min

·k₂D_max≥E_max-E_min

·E_max≥T₁

·E_max≤T₂

一般而言，第一个条件是最大范数值至少比最小范数值大指定程度的要求范例。在上述具体实施例中，最大范数值至少比最小范数值大k₁倍(因为k₁优选大于一)。然而，在备选实施例中，作为替代，可以指定关于最大范数值必须比最小范数值大多少的任何其他要求。

上文给出的第二个条件是最大绝对差异至少是最大范数值和最小范数值之间差异的指定比例分数(fraction)的要求范例(因为k₂优选大于一)。然而，在这点上，同样可以指定任何其他要求作为替代。

如上所述，初始标准可以有多个需要以任意组合满足的条件和/或测试(例如，基于选言、联合和/或记分，其中多个不同测试的累积分数必须满足指定阈值，以满足特定条件)，以便满足整个初始标准。尽管上述条件是优选的，但也可以使用这种条件和/或任何额外或替换条件的任意子组合。对于处理效率而言，特定条件可能是合乎需要的，例如，为了消除如下情况：非常不可能满足测试标准(如下所述)，而省去这样的条件将不会严重影响最终的判断。另一方面，其他条件会评估属于可能存在瞬态的实质不同特性。

在任何情况下，如果不满足初始标准，那么处理进行到步骤78，其中，做出最终结论，即当前段不包括瞬态。优选地，这个结论的结果是(由步骤78)提供控制信号21(图1中所示)，指示将当前段(例如音频帧)作为准稳态段(或帧)加以处理。另一方面，如果满足初始条件，那么处理进行到步骤80。

要指出的是，可以在瞬态检测器10的第一级20中执行步骤77(图1中示出了两者)。类似地，可以由第一级20执行初始步骤71、72和74，或可以在瞬态检测器10的独立预处理模块(未示出)中执行任何或所有这样的初始步骤。可以在瞬态检测器10的第二级25中执行步骤80(图1中示出了两者)，从第一级20向第二级25提供的信号22可以包括在第一级20和/或在任何预处理模块中计算的任何度量。

在步骤80中，判断是否满足指定的测试标准。优选地，该测试标准涉及将最大范数值与段内的一个或多个不同的其他最大范数值进行比较。更优选地，每个这样的其他最大范数值是该段之内受到指定约束的最大值。在优选实施例中，测试标准要求最大范数值至少比(1)包括最大范数值的尖峰之前的最大范数值和(2)最大范数值之后的指定子段之内的最大范数值都大指定程度。更具体而言，通过以下序列执行该步骤80的优选实施例。

一开始，在出现最大范数值的块k_max之前的块间(across the blocks)如下执行搜索，从而定位出范数值在哪里开始增大(即，“冲击”的开始位置)：

for(k＝k_max-1；k＞0；k--){

if(E[k-1]＞E[k]){

break；

}

PreK＝k-1

下一步，优选如下标识“冲击前峰值”：

Pre E_{\max} = \max_{k = 0,1, . . ., PreK} E (k) .

一般而言，在这一实施例中，PreE_max是包括E_max的尖峰之前的最大范数值。

在图4所示的范例中，在每个范数值所属的块的中心处绘示范数值。从最大范数值130(E_max，出现在k_max＝6)向回移动，判定PreK＝1。从本位置132并包括本位置开始向回搜索，判定同一位置132(k＝1)也对应于该范例中的PreE_max。

在优选实施例中，还在出现最大范数值的块k_max之后的所有块中如下进行搜索，以便找到范数值开始增大的位置(即，“下降”结束的位置)，但其还大于E_max的一半：

K＝kmax；

do {

k++；

for(；k＜K-1；k++){

if(E[k+1]＞E[k])

break；

}

if(k+1＞＝K)

break；

}while(2*E[k]＞E_max)；

PostK＝k+1；

下一步，优选如下标识“冲击后峰值”：

{PostE}_{\max} = \max_{k = PostK, . . ., K - 1} E (k)

一般而言，在这一实施例中，PostE_max是从E_max之后出现的、范数值小于E_max/2的第一次增加(由范数值从前面块开始增加表示)开始的段中的最大范数值。

在图4所示的范例中，从最大范数值130向前移动，范数值降到小于 E_max/2的点135出现在与k_max之后的第一次增加相同的位置。因此，针对PostE_max的前向搜索开始于位置137，在本范例中即PostK＝8，在位置140(或k＝14)找到了PostE_max。

最后，在当前段(例如音频帧)中判断是否满足测试标准。在优选实施例中，如果：

E_max＞k₃max(PreE_max，PostE_max)，

则满足测试标准，其中k₃是可调参数。如果用每个样本24比特表示音频信号，并使用L1范数，优选k₃＝2。

要指出的是，上述检测标准的改变也是可行的。例如，可以将指定Emax的一半作为开始正向搜索PostE_max的可能点(PostK)修改为E_max的任何其他期望比例分数。类似地，可以完全消除这样的条件，PostK唯一地由范数值在E_max之后开始增大的点(如果有的话)确定(方式类似于确定PreK的方式)。

如上述初始标准那样，测试标准可以具有需要以任何组合来满足的多个条件和/或测试，以便满足整个测试标准。而且，如上所述，在备选实施例中，将所有要求的测试和条件并入测试标准中(完全省略初始标准)，从而在评估测试标准之后提供单一的判断输出。

在任何情况下，如果满足测试标准，处理则前进到步骤82。否则，处理前进到(上述)步骤78。

在步骤82中，做出最终结论，即当前段包括瞬态。优选地，这个结论的结果是提供控制信号27(图1中所示)，指示将当前段(例如音频帧)作为瞬态段(或帧)加以处理。而且，在优选实施例中，在信号28中向瞬态帧处理模块32提供瞬态的位置，例如，从而可以基于瞬态在帧之内的位置指定窗口函数。优选地，瞬态的位置基于出现最大范数值的位置k_max。例如，可以由k_max单独指定瞬态位置。或者，例如，除了k_max之外，信号28还可以包括PreK和/或PostK。

码书段合并

在美国专利申请No.11/029722中提供了熵码书分配的统计方法。这样的方法之一将量化指数分段成统计学上相干的段，使得在每个段之内，量化指数共享类似的统计特性。然后为段分配具有匹配统计特性的熵码书，以便实现熵码书的统计特性和其所应用的量化指数统计特性之间的最佳匹配。

然而，这种方法通常需要向解码器传送除通常码书指数之外这种段的宽度信息作为辅助信息。结果，这种段的数量越大，通常需要向解码器传送更多比特的这种额外辅助信息。在一些情况下，段的数目可以如此之大，乃至由于码书和量化指数之间统计量的更好匹配，额外的开销可能远远抵消了比特的节省。因此，对于成功控制这种开销而言，是希望将量化指数划分成更大段或将小段合并成更大段的(在任一种情况下，都获得更小总数的段)。

在美国专利申请No.11/029722中提供的一种段合并方法，通过将该码书指数提升到其紧邻者的最小码书指数实现，将其码书指数小于其紧邻者的隔离的窄段合并到其相邻者之一。因为增大的码书指数优选对应于放大的码书，通常需要更多比特来对段中的量化指数编码，所以在与针对给定段的码书指数越来越大相关联的比特数量增大方面有代价。

美国专利申请No.11/029722中提到的段合并方法尝试通过仅合并隔离的窄段来使这种代价最小化，因为它们包含更小数量的量化指数。然而，这种方法并非总是实现最小的代价，因为窄段的码书指数增加很大仍然可能导致比特总数增加。本发明方法例如通过反复合并当前导致最小比特代价的段来解决该问题。

假设应用码书分割程序(例如，美国专利申请No.11/029722中所述的程序，任何段合并除外)获得N个码书段。在图5中示出了一个范例。可以由一对(I[n]，W[n])描述这种段中的每个，其中I[n]是码书指数，W[n]是量化指数的数量(即段宽度)。码书段n，0≤n＜n，可能会通过将其与其紧邻左邻(导致为段n使用码书I[n-1])或其紧邻右邻(导致为段n使用码书I[n+1])合并而被消除，例如，只要合并段的码书更大，使得其能够容纳段n中所有量化指数即可。

因为始终可以布置码书库使得更大的码书指数对应于更大码书，这需要将I[n]设置成其紧邻相邻者中比I[n]大的一个的码书指数。为此，有三种情况，略述如下：1.如果I[n]小于其两个相邻者的码书指数，例如图5中段181的码书，优选使用其相邻者中的较小码书(例如，图5中段191的码书)，因为更大的码书通常导致为同一组量化指数编码用更多比特。

2.如果I[n]位于其相邻者码书指数之间，例如图5中段182的码书，优选将I[n]设置成两个相邻者中的较大码书，即，比I[n]大的指数(例如，图5中段192的码书)。

3.在极端的情况下，I[n]比其两个相邻者都大，例如图5中段183 的码书，优选不将该段与其左邻或右邻合并，而是从段合并操作中排除出来。可以使用如下所述的Imax(例如图5中的码书193)，即码书库中的最大码书指数来实现这一点。

基于以上考虑，例如，可以如下为每个段分配一个目标码书指数：

将可能会把每个段与之合并的相邻者称为其目标相邻者，例如：

如果我们实际针对给定段n设置I[n]＝T[n]，那么可以考虑实际将段n合并到其对应的相邻者G[n]中。不过，在与这种合并相关联的比特增加方面是有代价(penalty)的，因为然后将把更大的码书用于段n中所有的量化指数。可以简单地将合并的这种比特代价估计为

C[n]＝W[n](H[T[n]]-H[I[n]])，

其中H[x]是与码书x关联的熵。这里也可以(或替代)使用用于针对每个潜在合并操作的比特代价的其他度量，例如分别使用码书T[n]和I[n]为该段中所有量化指数编码的实际比特数量之间的差异。注意，通过设置T[n]＝Imax，实际向合并段n分配了最大比特代价。

由于这种比特代价，一种段合并方法是找到合并比特代价最小的段，并将其与其标识的相邻者G[n]合并。现在参考图6描述这种过程200的一个范例。在优选实施例中，过程200是完全自动化的，从而可以通过读取和执行计算机可执行过程步骤的计算机处理器或以任何这里所述的其他方式执行该过程。

一开始，例如，如上所述，在步骤201中，针对每个段n，0≤n＜N，确定目标码书指数T[n]和对应的目标相邻者G[n]。

在步骤202中，例如，利用上述任何代价函数，为每个段n，0≤n＜N，计算将段n合并到目标相邻者G[n]的比特代价C[n]。

在步骤203中，标识合并比特代价最小的段m，例如：

C[m]＝MIN C[n]

0＜n＜N-1

在步骤204中，将段m与其目标相邻者G[m]合并。

在步骤205中，确定T[m’]、G[m’]和C[m’]，其中m’是新合并的段(即，合并m和G[m]得到的段)，并对T[n’]、G[n’]和C[n’]进行任何适当调节，其中n’是与m相邻的另一段。后面这种调节可能是必要的，例如，如果段m的码书指数增大导致n’的最佳可能合并操作变化。

在步骤206中，将段的数目减一，例如：N＝N-1。

在步骤207中，判断是否N＜N₀，其中N₀表示允许的最大段数。如果是这样的话，处理完成，因为已经到达了段的目标数量N₀。否则，处理返回到步骤203，以便标识要合并的下一个段。

在一个代表性实施例中，预先固定N₀的值并将上述过程200仅执行一次。在备选实施例中，对N₀的多个不同值重复以上过程200，选择获得最大比特效率(实际的或估计的)的值用于对当前数据编码。

要指出的是，上述过程200实质上对每次合并操作进行等同评价。然而，单次合并操作有时能够将段数减少两个。例如，参考图5，段185的两个相邻者(即段197和198)使用同一码书，因此改变段185的码书以有效地匹配它们实际会将所有三个段组合成一个。因此，在某些实施例中，做出调节以考虑额外段的这种消除。例如，这种“双合并”段的代价C[n]可能简单地比其本来应该是的值减半。或者，该过程可以试探性地选择在当前和下一次迭代中具有最低代价的合并操作，组合与以那种方式消除两个段相关联的代价，然后，如果这样组合的代价超过与合并单一“双合并”段相关联的代价，备份并改为合并单一“双合并”段。

即使在两个相邻段未使用完全相同码书的情况下也可以应用类似的考虑。就此而言，要指出的是，以上过程200每次仅评估单一的潜在合并操作。不过，与每次合并操作之前或之后的操作隔离地评估每次合并操作可能不会总是获得最佳解。因此，备选实施例使用评估一系列合并操作然后才决定合并哪些的技术(例如，全面的搜索或线性规划技术)。

而且，重复以上过程200，直到保留指定数量N₀个段。在备选实施例中，基于比特节省标准重复该过程(或者，例如在评估一系列合并操作情况下，继续该过程)，例如，只要由消除段而得到的实际或估计净比特节省保持为正值就重复该过程。

联合信道编码

可以用x[c][n]表示具有C个信道的音频信号的脉冲编码调制(PCM)样本，其中c＝0，1，...，C-1，是信道索引，n是表示采样实例的整数。在对多信道音频信号编码时，通常首先利用多种变换或子带滤波器组的任一种将每个信道的PCM样本变换成频率系数或子带样本，滤波器组例如是离散余弦变换(DCT)、改进的离散余弦变换(MDCT)或余弦调制的滤波器组。因为可以将频率系数视为特定的子带样本，以下论述将它们作为子带样本。典型地，以块滑动和交迭方式将变换或滤波器组应用于PCM样本，使得每次应用产生M个子带样本的“变换块”。可以将所得的信号表示为：X[c][b][m]，其中b是表示块索引的整数，m＝0，1，...，M-1，是子带样本的索引。

可以独立地对子带样本的单个变换块编码，或者，可以将多个变换块组成“宏块”并一起编码。在后一种情况下，通常对来自不同变换块的子带样本重新排序，使得对应于相同频率的子带样本彼此相邻。仍然可以用命名法X[b][c][m]表示这种宏块，只是样本数量现在是每个个体变换块中样本数量的倍数。因此，除非在相关的地方，否则以下论述不会在变换块和宏块之间做出区分(而是一般地指称包括M个子带样本的“块”)。

因为每个块中的子带样本是独立于其他块中的子带样本编码的，为简单起见，在以下论述中通常省略块索引b，从而将块b中的子带样本表示为X[c][m]。要指出的是，可以将一个或多个变换块或宏块组装成帧，但这样做一般不会影响本编码技术的本质。

典型地，基于人知觉模型的临界频带，将块中的子带样本分割成量化单元，然后利用单一的量化步长对每个量化单元中的所有子带样本进行量化。优选地，量化单元的边界至少松散地在频率中对应于临界频带的边界。

界定量化单元的一种方案是使用阵列，例如{q₀，q₁，...，q_Q-1}，

其中q是第i个量化单元，Q是量化单元的总数。对于给定的临界频带布置，这个阵列通常由块尺寸M和采样频率决定。对于M＝128和48kHz的采样率，例如，以下为有效的量化阵列：{4，4，4，4，4，4，5，6，7，9， 14，27，36}，其中每个数字表示量化单元中的子带样本数量。

令Δ[c][q]表示信道c的量化单元q的量化步长。那么，通常对子带样本X[c][m]进行量化，以便根据以下公式产生量化指数I[c][m]：

I[c][m]＝f(X[c][m]，Δ[c][q])，m∈q，

其中函数f(.)表示使用的量化方案。然后可以通过下式由量化指数重构子带样本

\hat{X} [c] [m] = f^{- 1} (I [c] [m], Δ [c] [q]), m &Element; q,

其中反函数f^-1(.)表示对应于量化方案f(.)的去量化方案。在这种情况下，可以如下计算均方量化误差(或量化噪声的功率)：

σ^{2} [c] [q] = \underset{m &Element; q}{Σ} {(X [c] [m] - \hat{X} [c] [m])}^{2} .

给定量化方案f(.)，量化噪声的功率σ2[c][q]大致与量化步长Δ[c][q]成正比。因此，就量化噪声而言，小的步长是可取的。然而，小步长导致对量化指数编码需要更多比特。这会迅速用完对整个帧中的子带样本编码可用的比特资源。因此，需要向各种量化单元最佳分配可用比特资源，使得总的量化噪声听不见或至少最小限度被听到。

可听度的度量可以基于根据知觉模型计算的掩蔽阈值。根据音质理论的学说，对于每个临界频带都有掩蔽阈值，低于该阈值，噪声或其他信号是听不到的。令σ² _m[c][q]表示信道c的量化单元q的掩蔽阈值功率。那么，被定义为

的噪声掩蔽比(NMR)提供了量化噪声可听度的相当好度量。在NMR[c][q]＜1时，量化噪声低于掩蔽阈值，因此，是听不到的。

一种被称为水填算法的直接了当的比特分配策略是反复向当前判定其量化噪声最可能听到的量化单元分配比特，直到用完比特资源或直到所有量化单元中的量化噪声低于可听阈值。图7中示出了这种过程250的一个范例。典型地，过程250的步骤完全自动化，从而可以由从计算机可读介质读取和执行计算机可执行过程步骤的处理器实施，或以这里所述的任何其他方式实施。

一开始，在过程250的步骤251中，将所有量化步长初始化为大值，例如：

Δ[c][q]＝大值，0≤c＜C，0≤q＜Q。

在步骤252中，例如，按如下标识量化噪声最可能听到的量化单元[c_m][q_m]：

NMR [c_{m}] [q_{m}] = \underset{0 \leq c < C, 0 \leq q < Q}{MAX} NMR [c] [q] .

在步骤253中，减小量化步长Δ[c_m][q_m]，直到NMR减小。图8所示用于执行该步骤253的代表性过程如下：

a)在步骤261中，减小Δ[c_m][q_m]；b)在步骤262中，对量化单元[c_m][q_m]中的所有子带样本进行量化；

c)在步骤263中，计算新的NMR[cm][qm]；以及

d)在步骤264中，如果新的NMR[c_m][q_m]不小于上一次，返回步骤261。

返回图7，在步骤255中，确定迄今消耗的比特总数，B。

在步骤256中，判断是否B＜B₀，其中B₀为分配给当前块的比特数目。如果不是这样，处理前进到步骤257，其中，退回步骤253的上次迭代，使得B＜B₀。如果是这样的话，有一个或多个额外比特可供分配，因此处理前进到步骤258。

在步骤258中，例如，按如下判断所有量化单元中量化噪声是否不可听到：

NMR[c][q]＜1，0≤c＜C，0≤q＜Q。

如果是这样的话，完成处理(即，不需要分配可用比特了)。否则，处理返回到步骤252，继续分配可用比特。

以上流程假设每个各自信道是与其他信道分离地被编码的，以便调节(对应于单一信道的)量化单元中的量化步长不会影响任何其他信道中的量化噪声功率。不过，在采用联合信道编码时，不能做这种假设；在那种情况下，调节联合编码信道的一个量化单元中的量化步长可能会影响到联合在一起的所有信道中的量化噪声。优选如下解决这个问题。

联合强度编码是使用最广泛的联合信道编码技术之一。它利用了人耳的知觉属性，立体映像的感知很大程度上取决于中高频处左右信道之间的相对强度。结果，通常可以由联合强度编码显著改善编码效率，其典型地包括以下流程：

1.联合(增加)对应于中高频的量化单元中的子带样本以形成该频率范围的一组联合量化单元；

2.仅在该组联合量化单元中对子带样本编码，由此有效地将要在该联合频率范围中编码的子带样本数目减少一半；

3.编码导引矢量，其描述联合频率范围中每个量化单元的左右信道的相对强度；以及

4.对左右信道的中低频中的剩余(未联合)量化单元独立进行编码。

可以将联合量化单元与左或右信道中的未联合单元对准，从而在量化单元数量方面导致左右信道之间显著不平衡。除了这个考虑之外，仍然可以将左右信道视为对于比特分配的目的而言是独立的。结果，以下方法的优选实施例特别指出，信道间的量化单元数量可能彼此显著不同，优选在实施本发明的具体技术时考虑这种差异。

和/差编码在这方面是不同的。令l和r分别为左右信道的信道索引，令s和d分别为和与差信道的信道索引。在这种情况下，优选按如下联合左右信道的量化单元q中的子带样本以形成和与差信道：

X[s][m]＝0.5(X[l][m]+X[r][m])，m∈q；并且

X[d][m]＝0.5(X[l][m]-X[r][m])，m∈q。

之后，对和/差编码的子带样本进行编码，如同它们是正常信道那样。在解码器一侧，可以如下从和/差信道重构左右信道：

X[l][m]＝X[s][m]+X[d][m]，m∈q；并且

X[r][m]＝X[s][m]-X[d][m]，m∈q。

注意，在多信道音频编码的语境中，左右信道不限于通常的立体声信道。相反，任何左右信道对都可以进行和/差编码，包括前左右信道、环绕左右信道等。

要指出的是，和/差编码并非始终会实现比特节省，因此优选对是否采用和/差编码做出决策。本发明的优选实施例提出一种简单方法，其中，对采用和不采用和/差编码的大致的熵进行比较。在一个特定实施例中，对于量化单元q，为左右信道计算总的大致熵，例如：

H_{LR} = \underset{m &Element; q}{Σ} \log (1 + | X [l] [m] |) + \underset{m &Element; q}{Σ} \log (1 + | X [r] [m] |)

对于和/差信道，例如：

H_{SD} = \underset{m &Element; q}{Σ} \log (1 + | X [s] [m] |) + \underset{m &Element; q}{Σ} \log (1 + | X [d] [m] |) .

然后，如果H_LR＞H_SD则为量化单元q采用和/差编码，否则不采用。

在和与差子带样本被量化并随后编码的情况下，将量化步长分配给和与差量化单元；对于对应的左右量化单元而言没有独立的量化步长。这为比特分配流程提出了一个问题，因为量化步长通常是控制NMR的关键，但在和/差量化单元的量化步长和左或右量化单元的NMR之间没有一一对应关系。

对和或差量化单元的量化步长进行修改改变了对应的左右量化单元的量化噪声功率。另一方面，对于被发现拥有最大NMR的左或右信道中的特定量化单元，减小和或差量化单元中的量化步长可以减小该NMR。因此，优选对选择哪个量化单元，和或差量化单元做出决策，以减小量化步长，从而减小NMR。如果没做出正确的决策，可能会浪费比特资源。

在优选实施例中，本发明通过如下方式解决该问题：基于和与差量化单元之间的相对均方量化误差选择和或差量化单元。在一个特定实施例中，如果σ²[s][q]＞σ²[d][g]，选择和量化单元作为目标信道，用于减小步长；否则，选择差量化单元。

图9示出了用于向联合信道的量化单元分配比特的过程280。优选地，过程280的步骤得到完全自动化，从而可以由从计算机可读介质读取和执行计算机可执行过程步骤的处理器实施，或以这里所述的任何其他方式实施。

一开始，在步骤281中，将所有量化步长初始化为大值(优选恒定值)，例如：

Δ[c][q]＝大值，0≤c＜C，0≤q＜Q。

在步骤282中，例如，如下标识量化噪声最可能听到的量化单元[c_m][q_m]：

NMR [c_{m}] [q_{m}] = \underset{0 \leq c < C, 0 \leq q < Q}{MAX} NMR [c] [q] .

在步骤283中，判断是否对量化单元[c_m][q_m]进行和/差编码。否则，处理前进到步骤253(如上所述)，其中减小量化步长Δ[c_m][q_m]，直到NMR减小。另一方面，如果对[c_m][q_m]进行和/差编码，处理前进到步骤284。

在步骤284中，在对应的和或差信道中减小量化步长，直到NMR减小。图10所示用于执行该步骤284的代表性过程如下：

a)在步骤291中，例如，如下选择目标信道t_m：

b)在步骤292，将Δ[t_m][q_m]减小到例如下一可用值；

c)在步骤293中，对量化单元[t_m][q_m]中的和或差子带样本进行量化；

d)在步骤294中，计算新的NMR[c_m][q_m]；

e)在步骤295中，判断新的NMR[c_m][q_m]是否小于上次；如果是这样的话，前进到步骤296；否则，返回步骤292，以便进一步减小Δ[t_m][q_m]；

f)在步骤296中，如下选择交叉信道x_m：

以及

g)在步骤297中，更新NMR[x_m][q_m]。

返回到图9，在完成步骤253或284时，如果适用的话，执行步骤286，其中计算迄今为止消耗的比特总数，B。

在步骤287中，判断是否B＜B₀，其中B₀为分配给当前块的比特数目。如果不是这样，过程前进到步骤288，其中，退回(如果适用的话，步骤253或284的)上次迭代，使得B＜B₀。如果是这样的话，有一个或多个额外比特可供分配，因此处理前进到步骤289。

在步骤289中，例如，如下判断所有量化单元中量化噪声是否不可听到：

NMR[c][q]＜1，0≤c＜C，0≤q＜Q。

如果是这样的话，完成处理(即，不需要分配可用比特了)。否则，处理返回到步骤282，继续分配可用比特。

要指出的是，在上文中过程280是在一个块的语境中给出的，但可以容易地将其扩展到包括多个块的帧，例如，简单地扩展步骤281、282、286和289，从而考虑帧中的所有块。这样的扩展一般不需要改变步骤283、253和284，因为它们工作于具有最大NMR的量化单元上，或者不需要改变步骤287和288，因为这样的步骤是看不到块的。

系统环境

一般而言，除非明确做出其他指示，可以利用一个或多个可编程通用计算装置来实践这里描述的所有系统、方法和技术。这样的装置例如将包括例如经由公共总线彼此互连的至少一些下述部件：一个或多个中央处理器(CPU)；只读存储器(ROM)；随机存取存储器(RAM)；用于(例如，利用硬连线连接，如串行端口、并行端口、USB连接或防火线连接，或利用无线协议，例如Bluetooth或802.11协议)与其他装置接口连接的输入/输出软件和电路；用于例如利用诸如以太网卡的硬连线连接或诸如码分多址(CDMA)、全球移动通信系统(GSM)、Bluetooth、802.11协议的无线协议，或任何其他基于蜂窝或非基于蜂窝的系统连接到一个或多个网络的软件和电路(在本发明的很多实施例中，该网络又连接到因特网或任何其他网络)；显示器(例如阴极射线管显示器、液晶显示器、有机发光显示器、聚合物发光显示器或任何其他薄膜显示器)；其他输出装置(例如一个或多个扬声器、耳机和打印机)；一个或多个输入装置(例如鼠标、触摸板、图形输入板、触敏显示器或其他指示器、键盘、小键盘、微音器和扫描仪)；海量存储器单元(例如硬盘)；实时时钟；移动存储读/写装置(例如用于对RAM、磁盘、磁带、光磁盘、光盘等进行读出和写入)；以及调制调解器(例如、用于经由拨号连接发送传真或连接到因特网或任何其他计算机网络)。在运行时，在由通用计算机执行时实施以上方法和功能的过程步骤一开始通常存储于海量存储器(例如，硬盘)中，它们被下载到RAM中，然后由CPU从RAM中执行。然而，在一些情况下，过程步骤一开始是存储在RAM或ROM中的。

可以从很多供应商获得用于实施本发明的适当的通用可编程装置。在各实施例中，根据任务的大小和复杂性使用不同类型的装置。这样的装置可以包括，例如主计算机、多处理器计算机、工作站、个人计算机和/或甚至更小的计算机，例如PDA、无线电话或任何其他可编程设备或装置，无论是独立的、硬连线到网络中的或是无线连接到网络的。

此外，尽管上文已经描述了通用可编程装置，但在备选实施例中，作为替代(或补充)，可以使用一个或多个专用处理器或计算机。通常，应当指出，除非明确做出不同表述，可以在软件、硬件、固件或其任意组合中实施上述任何功能，基于已知的工程学折衷考虑选择特定实施方式。更具体而言，当以固定的、预定的和/或逻辑方式实施上述任何过程和/或功能时，如本领域的技术人员容易理解的，可以通过编程(例如，软件或固件)、逻辑元件(硬件)的适当布置或两者的任何组合来完成。换言之，很好理解如何将逻辑和/或算术运算转换成指令，用于在用于执行这种操作的处理器之内和/或向逻辑门配置中执行这样的操作；实际上，编译器对于两种转换而言通常都是可用的。

应当理解，本发明还涉及其上存储了用于执行本发明的方法和功能的软件或固件程序指令(例如，计算机可执行过程指令)的机器可读介质。例如，这样的介质包括磁盘、磁带、光学可读介质，例如CD ROM和DVD ROM，或诸如PCMCIA卡的半导体存储器、各种存储卡、USB存储器件等。在每种情况下，介质可以采取便携式物体的形式，例如微型磁盘驱动器或小盘、软盘、磁带、盒式磁带、卡、棒等，或者它可以采取较大或固定物体的形式，例如提供于计算机或其他装置中的硬盘驱动器、ROM或RAM。如这里使用的，除非明确做出不同表述，提到存储于计算机可读或机器可读介质上的计算机可执行过程步骤意在涵盖这种过程步骤存储于单一介质上的情况以及这样的过程步骤存储于多个介质间的情况。

以上描述主要强调了电子计算机和装置。不过，显然，作为替代，可以使用任何其他计算或其他类型的装置，例如利用能够执行基本逻辑和/或算术运算的电子、光、生物和化学处理的任意组合的装置。

额外的考虑事项

上文描述了本发明的若干不同实施例，每个这样的实施例被描述为包括某些特征。然而，如本领域的技术人员将理解的，结合任何单一实施例的论述描述的特征并非意在限于该实施例，而是也可以包括于和/或布置于任何其他实施例的各种组合中。

类似地，在以上论述中，有时将功能性归因于特定的模块或部件。然而，一般可以按照需要将功能性分布在任何不同模块或部件之间，在一些情况下，完全避免了对特定部件或模块和/或需要增加新部件或模块的需要。如本领域的技术人员将理解的，优选根据已知的工程学折衷考虑，参考本发明的特定实施例，做出功能性的精确分布。

于是，尽管已经参考其示范性实施例和附图详细描述了本发明，但对于本领域技术人员而言显而易见的是，可以对本发明做出各种调整和修改而不脱离本发明的精神和范围。因此，本发明不限于附图所示和上文所述的精确实施例。相反，意在将未脱离本发明精神的所有这种变化视为处于仅由所附权利要求限制的其范围之内。

Claims

1.一种检测音频信号之内是否存在瞬态的方法，包括：

将一段数字音频信号分成若干块；

针对多个这样块中的每个块计算范数值，获得针对所述多个这样块的一组范数值，每个范数值表示对应块之内信号强度的度量；

在所述多个这样块之间标识最大范数值；

向所述范数值应用测试标准；

如果不满足所述测试标准，输出指示所述段不包括任何瞬态的第一信号；以及

如果满足所述测试标准，输出指示所述段包括瞬态的第二信号，

其中所述测试标准包括所述最大范数值至少比(1)在包括所述最大范数值的尖峰之前的最大范数值和(2)所述最大范数值之后的子段之内的最大范数值都大指定程度的条件。

2.根据权利要求1所述的方法，还包括对输入音频信号进行高通滤波以提供所述数字音频信号的步骤。

3.根据权利要求1所述的方法，其中，每个所述范数值基于所述对应块之内多个样本的值的组合。

4.根据权利要求1所述的方法，其中，每个所述范数值是如下至少一个：(1)所述对应块之内总信号能量的度量，以及(2)所述对应块之内组合的绝对信号值的度量。

5.根据权利要求1所述的方法，其中，每个所述范数值是所述对应块之内总感知熵的度量。

6.根据权利要求1所述的方法，还包括向所述范数值应用初始标准的步骤，且其中响应于判定已满足所述初始标准而应用所述测试标准。

7.根据权利要求6所述的方法，还包括在所述多个这样块中标识最小范数值的步骤，且其中所述初始标准包括将所述最大范数值与所述最小范数值进行比较。

8.根据权利要求7所述的方法，其中，所述初始标准包括所述最大范数值至少比所述最小范数值大指定程度的条件。

9.根据权利要求6所述的方法，还包括在所述多个这样块中标识最小范数值的步骤，且其中所述初始标准包括将所述最小范数值与指定阈值进行比较。

10.根据权利要求6所述的方法，还包括在所述多个这样块中标识最小范数值的步骤以及标识相邻块的范数值间最大绝对差异的步骤，且其中所述初始标准包括所述最大绝对差异至少是所述最大范数值和所述最小范数值之间差异的指定比例分数的条件。

11.根据权利要求6所述的方法，其中，所述初始标准包括所述最大范数值至少与指定阈值一样大的条件。

12.根据权利要求1所述的方法，其中，所述块是连续的、不交迭的、尺寸统一的且完全覆盖所述段。

13.根据权利要求1所述的方法，还包括对所述数字音频信号进行额外处理的步骤，所述额外处理包括根据是否在所述段之内检测到瞬态在第一处理技术和第二处理技术之间进行选择。

14.根据权利要求1所述的方法，还包括如果满足所述测试标准就执行的如下步骤：基于所述段之内出现所述最大范数值的位置进一步输出标识所述瞬态位置的第三信号。

15.一种检测音频信号之内是否存在瞬态的方法，包括：

将一段数字音频信号分成若干块；

针对多个这样块中的每个块计算范数值，获得针对所述多个这样块的一组范数值，每个所述范数值表示对应块之内信号强度的度量；

在所述多个这样块之间标识最大范数值；

向所述范数值应用初始标准；

如果不满足所述初始标准，输出指示所述段不包括任何瞬态的信号；

如果满足所述初始标准，向所述范数值应用测试标准；

如果所述测试标准被应用但不满足，输出指示所述段不包括任何瞬态的第一信号；以及

如果所述测试标准被应用且满足，输出指示所述段包括瞬态的第二信号，

其中所述初始标准和所述测试标准中的至少一个基于所述最大范数值，以及

16.根据权利要求15所述的方法，还包括在所述多个这样块中标识最小范数值的步骤，且其中所述初始标准包括将所述最大范数值与所述最小范数值进行比较。

17.根据权利要求15所述的方法，其中，所述初始标准包括所述最大范数值至少与指定阈值一样大的条件。

18.一种用于检测音频信号之内是否存在瞬态的设备，包括：

用于将一段数字音频信号分成若干块的装置；

用于针对多个这样块中的每个块计算范数值，获得针对所述多个这样块的一组范数值的装置，每个范数值表示对应块之内信号强度的度量；

用于在所述多个这样块之间标识最大范数值的装置；

用于向所述范数值应用测试标准的装置；

用于如果不满足所述测试标准，输出指示所述段不包括任何瞬态的第一信号的装置；以及

用于如果满足所述测试标准，输出指示所述段包括瞬态的第二信号的装置，以及

19.一种用于检测音频信号之内是否存在瞬态的设备，包括：

用于将一段数字音频信号分成若干块的装置；

用于针对多个这样块中的每个块计算范数值，获得针对所述多个这样块的一组范数值的装置，每个所述范数值表示对应块之内信号强度的度量；

用于在所述多个这样块之间标识最大范数值的装置；

用于向所述范数值应用初始标准的装置；

用于如果不满足所述初始标准，输出指示所述段不包括任何瞬态的信号的装置；

用于如果满足所述初始标准，向所述范数值应用测试标准的装置；

用于如果所述测试标准被应用但不满足，输出指示所述段不包括任何瞬态的第一信号的装置；以及

用于如果所述测试标准被应用且满足，输出指示所述段包括瞬态的第二信号的装置，