CN102414742B

CN102414742B - 低复杂度听觉事件边界检测

Info

Publication number: CN102414742B
Application number: CN201080018685.2A
Authority: CN
Inventors: G·N·迪金斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2009-04-30
Filing date: 2010-04-12
Publication date: 2013-12-25
Anticipated expiration: 2030-04-12
Also published as: EP2425426A1; WO2010126709A1; JP5439586B2; TW201106338A; US8938313B2; CN102414742A; TWI518676B; EP2425426B1; JP2012525605A; US20120046772A1; HK1168188A1

Abstract

一种听觉事件边界检测器在没有抗混叠滤波器的情况下使用输入数字音频信号的下采样，产生了具有混叠的较窄带宽中间信号。指示事件边界的此中间信号的频谱改变可通过使用自适应滤波器来追踪该中间信号的采样的线性预测模型而被检测到。滤波器误差的幅度或功率的改变对应于输入音频信号的频谱的改变。该自适应滤波器以与听觉事件的持续时间一致的速率收敛，因而滤波器误差幅度或功率的改变指示事件边界。与对于音频信号的全带宽使用时间至频率变换的方法相比，该检测器的复杂度小得多。

Description

低复杂度听觉事件边界检测

相关申请的交叉引用

本申请主张于2009年4月30日提交的美国临时专利申请第61/174,467号的优先权，其整体通过引用而并入此。

背景技术

依据本发明的各方面，听觉事件边界检测器处理数字音频采样流以指示存在听觉事件边界的时间。令人感兴趣的听觉事件边界可包括水平的突然增加(例如声音或乐器的开始)以及谱平衡的改变(例如音高(pitch)的改变和音色(timbre)的改变)。检测这样的事件边界提供了听觉事件边界流，每一个听觉事件边界具有关于从中导出该听觉事件边界的音频信号的发生时间。此听觉事件边界流可对于许多目的而言是有用的，这些目的包括控制具有最小可听到的伪像的音频信号的处理。例如，音频信号的处理中的某些改变可只在听觉事件边界处或附近被允许。可受益于将处理限于听觉事件边界处或附近的时间点的例子可包括动态范围控制、响度控制、动态均衡以及主动矩阵化(activematrixing)(例如用于上混或下混音频通道的主动矩阵化)。一或多个以下的申请和专利与这样的示例有关，且每一个的整体通过引用被并入此：

美国专利7,508,947，2009年3月24日，“Method for CombiningSignals Using Auditory Scene Analysis”，Michael John Smithers，其也于2006年2月23日作为WO 2006/019719A1公开。代理人档案编号为DOL147。

美国专利申请第11/999,159号，2007年12月3日，“ChannelReconfiguration with Side Information”，Seefeldt等人。其也于2006年12月14日作为WO 2006/132857公开。代理人档案编号为DOL16101。

美国专利申请第11/989,974号，2008年2月1日，“ControllingSpacial Audio Coding Parameters as a Function of Auditory Events”，Seefeldt等人。其也于2007年2月8日作为WO 2007/016107公开。代理人档案编号为DOL16301。

美国专利申请第12/226,698号，2008年10月24日，“Audio GainControl Using Specific-Loudness-Based Auditory Event Detection”，Crockett等人。其也于2007年11月8日作为WO 2007/127023公开。代理人档案编号为DOL186US。

专利合作条约序号第PCT/US2008/008592号，2008年7月11日“Audio Processing Using Auditory Scene Analysis and SpectralSkewness”Smithers等人。其于2009年1月1日作为WO 2009/011827公开。代理人档案编号为DOL220。

可替换地，音频信号的处理中的某些改变可仅在听觉事件边界之间被允许。可受益于将处理限于相邻听觉事件边界之间的时间的处理的例子可包括时间缩放和音高偏移(pitch shifting)。以下申请与这样的示例有关，且其整体通过引用被并入此：

美国专利申请第10/474,387号，2003年10月7日，“High QualityTime Scaling and Pitch-Scaling of Audio Signals”，Brett GrahamCrockett。其也于2002年10月24日作为WO 2002/084645公开。代理人档案编号为DOL07503。

听觉事件边界对于时间对准或识别多个音频通道也可是有用的。以下申请与这样的示例有关，且其等完整内容合并于本文中以供参考：

美国专利7,283,954，2007年10月16日，“Comparing Audio UsingCharacterizations Based on Auditory Events”，Crockett等人。其也于2002年12月5日作为WO 2002/097790公开。代理人档案编号为DOL092。

美国专利7,461,002，2008年12月2日，“Method for Time AligningAudio Signals Using Characterizations Based on Auditory Events”，Crockett等人。其也于2002年12月5日作为WO 2002/097791公开。代理人档案编号为DOL09201。

本发明针对将数字音频信号变换成相关的听觉事件边界流。这样的与音频信号相关的听觉事件边界流对于以上所述的目的中的任一个或其它目的而言可是有用的。

发明内容

本发明的一个方面是如下实现，即通过对数字音频信号进行子采样以造成混叠且然后对该经子采样的信号进行操作，可以较低的复杂度(例如：低的存储器需求和低的处理负担，且后者常常由“MIPS”、每秒百万条指令表征)完成数字音频信号的谱中的改变的检测。在子采样后，该数字音频信号的所有频谱成分被保留在减小的带宽中(它们被“折叠”至基带内)，但是是以无序方式。通过检测由子采样产生的非混叠的信号成分和有混叠的信号成分的频率内容的改变，可随时间检测到数字音频信号的谱的改变。

术语“抽选(decimation)”常常在音频领域中被用于表示在数字音频信号的低通抗混叠后的数字音频信号的子采样或“下采样”。抗混叠滤波器通常被使用以最小化混叠信号成分从高于经子采样的奈奎斯特频率到在经子采样的奈奎斯特频率以下的非混叠(基带)信号成分的“折叠”。例如参见：

<http://en.wikipedia.org/wiki/Decimation_(signal_processing)>。

与通常的实践相反，根据本发明的一些方面的混叠不需要与抗混叠滤波器相关联，实际上，希望混叠信号成分没有被抑制而是与低于经子采样的奈奎斯特频率的非混叠(基带)信号成分一起出现，这在大部分音频处理中是不希望的结果。混叠和非混叠(基带)信号成分的混合已被发现适用于检测在数字音频信号中的听觉事件边界，允许边界检测对于与没有混叠时相比数量减少的信号采样在减小的带宽上进行操作。

已经发现，产生1.5kHz的奈奎斯特频率的具有48kHz的采样率的数字音频信号的更进一步的子采样(例如，忽略每16个采样中的15个采样，从而以3kHz输送采样并且得到1/256的运算复杂度的降低)在只需要约50字的存储器且少于0.5MIPS的同时产生有用的结果。这些刚提及的示例值不是关键的。本发明不限于这些示例值。其它子采样率可有用。尽管使用了混叠且可导致的降低的复杂度，当采用混叠时，在实际的实施例可获得增加的对于数字音频信号的改变的灵敏性。此意想不到的结果是本发明的一个方面。

虽然上述的示例假定了具有48kHz的采样率(常用专业音频采样率)的数字输入信号，但该采样率仅仅是示例且不是关键的。其它数字输入信号可被使用，例如44.1kHz(标准的光盘采样率)。本发明的针对48kHz输入采样率设计的实际实施例例如也可在44.1kHz令人满意地操作，反的亦然。对于比本发明的装置或过程针对其设计的输入信号采样率高或低约10％的那些采样率，在该装置或过程中的参数可能需要调整以实现令人满意的操作。

在本发明的优选实施例中，可在没有明确地计算经子采样的数字音频信号的频谱的情况下检测经子采样的数字音频信号中的频率内容的改变。通过采用此检测方法，可使存储器和处理复杂度的降低最大化。如以下所进一步解释的，这可通过将谱选择滤波器(例如线性预测滤波器)应用于经子采样的数字音频信号来实现。此方法的特征可在于在时域中发生。

可替换地，可通过明确地计算经子采样的数字音频信号的频谱(例如通过使用时间至频率的变换)，检测经子采样的数字音频信号的频率内容的改变。下面的申请与这样的示例有关且其整体通过引用被并入此：

美国专利申请第10/478,538号，2003年11月20日，“SegmentingAudio Signals into Auditory Events”，Brett Graham Crockett，其也于2002年12月5日作为WO 2002/097792被公开。代理人档案编号为DOL098。

虽然此频域方法因为使用时间至频率变换而较时域方法需要较多的存储器和处理，但是其确实对具有数量减少的采样的上述的经子采样的数字音频信号进行操作，从而提供了与数字音频信号未被下采样的情况相比较低的复杂度(较小的变换)。因此，本发明的各方面包括明确地计算经子采样的数字音频信号的频谱以及不执行此操作两者。

依据本发明的各方面检测听觉事件边界可以是标度不变的，使得音频信号的绝对水平基本不影响事件检测或事件检测的灵敏度。

依据本发明的各方面检测听觉事件边界可最小化对于诸如嘘声、爆裂声和背景噪声的“猝发性(bursty)”或类似噪声信号状况的假事件边界的错误检测。

如上所述，令人感兴趣的听觉事件边界包括数字音频采样所代表的声音或乐器的开始(水平的突然增加)和音高或音色的改变(谱平衡的改变)。

通常可通过寻找瞬时信号水平(例如幅度或能量)的突然增加来检测到开始。然而，如果乐器将在没有任何中断的情况下改变音高(例如连奏发音)，信号水平改变的侦测不足以检测到事件边界。只检测水平的突然增加将不能检测到声源的突然结束(其也可被视为是听觉事件边界)。

依据本发明的一个方面，可通过使用自适应性滤波器以追踪每一连续音频采样的线性预测模型(LPC)来检测音高的改变。该具有可变系数的滤波器预测未来的采样将是什么，比较经滤波的结果与实际信号，且修改该滤波器以最小化误差。当经子采样的数字音频信号的频谱是静态的时，该滤波器将收敛且该误差信号的水平将减少。当频谱改变时，该滤波器将自适应，并且在该自适应期间该误差的水平将大得多。因而，可通过误差的水平或滤波器系数必须改变的程度来检测改变何时发生。如果频谱的改变较自适应性滤波器可自适应的还快，这表现为预测滤波器的误差水平的增加。该自适应预测滤波器需要足够长以实现希望的频率选择性，且被调谐以具有适当的收敛速率以区分时间上的连续事件。诸如规格化最小均方的算法或其它适合的自适应算法被用来更新滤波器系数，以尝试预测下一采样。虽然这不是关键的且其它的自适应速率也可被使用，但被设为以20至50ms收敛的滤波器自适应速率已被发现是有用的。允许该滤波器以50ms收敛的自适应速率允许事件以大约20Hz的速率被检测到。这是可论证的人类的事件感知的最大速率。

可替换地，由于谱的改变造成滤波器系数的改变，因此可以检测那些系数的改变而不是检测在误差信号中的改变。然而，随着移动系数朝向收敛移动系数更缓慢地改变，因而检测系数的改变增加了当检测误差信号的改变时所不存在的延迟。虽然检测滤波器系数的改变可能不需要任何规格化(而当检测误差信号的改变时可能需要)，但是通常来说，检测误差信号的改变比检测滤波器系数的改变简单，需要较少的存储器和处理能力。

事件边界与预测器误差信号的水平的增加相关联。短期误差水平通过利用时间平滑滤波器对误差的幅度或功率进行滤波而获得。然后，该信号具有在每一事件边界显示出急剧增加的特性。该信号的进一步缩放及/或处理可被应用，以产生指示事件边界的定时的信号。经由使用适当的阈值和限值，该事件信号可被提供作为二进制的“是或否”或一范围上的值。确切的处理和由预测器误差信号导出的输出将依赖于事件边界检测器的应用和希望的灵敏度。

本发明的一个方面是不是通过绝对谱平衡、而是通过谱平衡的相对改变来检测听觉事件边界。因此，可应用上述混叠技术，其中原始数字音频信号谱被分为较小的片段且被相互折叠，以产生用于分析的较小带宽。从而，只有原始音频采样的一部分需要被处理。此方法具有减少有效带宽、从而减少所需的滤波器长度的优点。因为只有原始采样的一部分需要被处理，因此减少了计算复杂度。在上述实际实施例中，1/16的子采样被使用，产生了1/256的运算降低。通过将48kHz的信号向下子采样至3000Hz，例如可通过20阶的预测滤波器实现有用的谱选择性。在没有此子采样下，将需要具有320阶量级的预测滤波器。从而，可实现存储器和处理负担的大量降低。

本发明的一个方面是如下的认知：导致混叠的子采样没有不利地影响预测器收敛和听觉事件边界的检测。这可能是因为大部分的听觉事件是谐波的的且在许多周期上延伸，以及因为许多令人感兴趣的听觉事件边界与谱的基带、非混叠部分的改变相关联。

附图说明

图1是示出依据本发明的各方面的听觉事件边界检测器的一示例的示意功能框图。

图2是示出依据本发明的各方面的听觉事件边界检测器的另一示例的示意功能框图。图2的示例与图1的示例的不同之处在于其示出将第三输入加到该分析16’以得到经子采样的数字音频信号中的音调或相关程度的度量。

图3是示出依据本发明的各方面的听觉事件边界检测器的又一示例的示意功能框图。图3的示例与图2的示例的不同之处在于其具有附加的子采样器或子采样功能。

图4是示出图3的示例的更详细版本的示意功能框图。

图5A-F、6A-F以及7A-F是对于理解依据图4的示例的听觉事件边界检测装置或方法的操作是有用的示例性波形集合。波形集合中的每一个沿着共用时间刻度(水平轴)时间对准。如图所示，各波形具有其自己的水平刻度(垂直轴)。

在图5A-F中，图5A中的数字输入信号代表三个猝发音，其中从一猝发音至另一猝发音在振幅上具有级进式增加，且其中在每一猝发音间中途音高被改变。

图6A-F的示例性波形集合与图5A-F中的那些的不同之处在于该数字音频信号代表两个钢琴音符序列。

图7A-F的示例性波形集合与图5A-F和图6A-F中的那些的不同之处在于该数字音频信号代表在存在背景噪声的情况下的语音。

具体实施方式

现在将参考各个图，图1-4是示出依据本发明的各方面的听觉事件边界检测器或检测过程的示例的示意性功能框图。在那些图中，相同的附图标记的使用表示该装置或功能可与具有相同附图标记的另一装置或功能或其它装置或功能基本相同。具有引号的附图标记(例如：“10’”)表示该装置或功能在结构或功能上是相似的，但是可能是具有相同基础附图标记或其引号版本的另一装置或功能或其它装置或功能的变型。在图1-4的示例中，经子采样的数字音频信号的频率内容的改变是在没有明确地计算该经子采样的数字音频信号的频谱的情况下被检测到的。

图1是示出依据本发明的各方面的听觉事件边界检测器的示例的示意功能框图。包含特定采样率的采样的流的数字音频信号被施加到混叠产生子采样器或子采样功能(“子采样”)2。数字音频输入信号可由离散时间序列x[n]表示，该离散时间序列可已被从音频源以某一采样频率fs采样出。对于典型的48kHz或44.1kHz的采样率，子采样2可通过每16个音频采样中丢弃15个来以1/16的因子降低采样率。该子采样2的输出经由延迟器或延迟功能(“延迟”)6被施加到用作谱选择滤波器的自适应预测滤波器或滤波器功能(“预测器”)4。预测器4可是例如FIR滤波器或滤波功能。延迟6可具有单位延迟(以该子采样率的)以便确保预测器4没有使用当前的采样。LPC预测滤波器的一些常见表示包括该滤波器本身内的延迟。可参考例如：

<http://en.wikipedia.org/wiki/Linear_prediction>。

仍参考图1，通过在减法器或减法功能8(以符号显示)中从输入信号中减去该预测器4的输出而得出误差信号。预测器4响应于开始事件和谱改变事件两者。尽管其它值也将可接受，但是对于以1/16被子采样以产生3kHz的采样的48kHz的原始音频，20阶的滤波器长度已被发现是有用的。可利用规格化的最小均方或另一相似的自适应方案来实施自适应更新，以实现例如20至50ms的希望的收敛时间。来自预测器4的误差信号然后在“幅度或功率”装置或功能10中被求平方(以提供误差信号的能量)或取绝对值(以提供误差信号的幅度)(绝对值更适于固定点实现)，然后在第一时间平滑滤波器或滤波功能(“短期滤波器”)12和第二时间平滑滤波器或滤波功能(“较长期滤波器”)14中被滤波，以分别产生第一信号和第二信号。第一信号是该预测器误差的短期度量，而第二信号是该滤波器误差的较长期平均。虽然其不是关键的并且也可使用其它值或其它类型的滤波器，然而已发现具有在10至20ms范围内的时间常数的低通滤波器可用于第一时间平滑滤波器12，且具有在50至100ms范围内的时间常数的低通滤波器可用于第二时间平滑滤波器14。

第一和第二经平滑化的信号在分析器或分析功能(“分析”)16中被比较和分析，以产生由相对于第二信号的第一信号中的急剧增加指示的听觉事件边界流。产生该事件边界信号的一种方法是考虑该第一信号与该第二信号的比率。其具有以下优点：产生基本不受输入信号的绝对标度的变化影响的信号。在获得此比率(除法运算)后，此值可与阈值或值的范围相比较，以产生指示事件边界的存在的二进制的或连续值的输出。尽管这些值不是关键的且将取决于应用需要，经短期滤波的信号与经长期滤波的信号的比率大于1.2可暗示可能的事件边界，而大于2.0的比率可被明确地视为是事件边界。可使用用于二进制事件输出的单个阈值，或可替换地，可将值映射到具有例如0至1的范围的事件边界度量。

很明显的，可使用其它滤波器和/或处理布置来从误差信号的水平识别出表示事件边界的特征。此外，事件边界输出的范围和灵敏度可适应被施加该边界输出的装置或处理。例如，这可通过改变听觉事件边界检测器中的滤波和/或处理参数而实现。

因为第二时间平滑滤波器(“较长期滤波器”)14具有较长的时间常数，因此其可使用第一时间平滑滤波器(“短期滤波器”)12的输出作为其输入。这可允许以较低的采样率实施第二滤波和分析。

如果第二平滑滤波器对于水平增加具有较长时间常数且对于水平减小具有与平滑滤波器12相同的时间常数，则可获得改进的事件边界的检测。这通过促使该第一滤波器输出等于或大于该第二滤波器输出来减少检测事件边界时的延迟。

为了实现基本标度不变的输出，分析16中的除法或规格化只需要是近似的。为了避免除法步骤，通过比较和水平位移可实现粗略的规格化。可替换地，规格化可在预测器4之前执行，允许预测滤波器对较小的字操作。

要实现对具有类似噪声性质的事件的灵敏度的希望的降低，可使用预测器的状态以提供音频信号的音调(tonality)或可预测性的度量。此度量可被从预测器系数导出，以强调在信号是更音调或更加可预测时发生的事件，并且不强调在类似噪声条件下发生的事件。

自适应滤波器4可被设计有泄漏项(leakage term)，该泄漏项使得在没有收敛以匹配音调输入时滤波器系数随时间衰减。给定类似噪声信号时，滤波器系数朝零衰减。从而，滤波器能量或绝对滤波器值的总和的度量可提供频谱偏斜的合理度量。只使用滤波器系数的子集、尤其通过忽略最先的一些滤波器系数，可以获得偏斜的更好度量。为0.2或更小的总和可被视为代表低的频谱偏斜，并且从而可被映射到值0，而当为1.0或更大的总和可被视为代表严重的频谱偏斜且从而可映射到值1。频谱偏斜的度量可被使用来修改用于产生事件边界输出信号的信号或阈值，使得对于类似噪声信号的总体灵敏度降低。

图2是示出依据本发明的各方面的听觉事件边界检测器的另一示例的示意功能框图。图2的示例与图1的示例的不同之处至少在于其示出了将第三输入加到分析16’(用引号表示以指示与图1的分析16的不同)。可称为“偏斜”输入的此第三输入可被从分析器或分析功能(“分析相关”)18中的预测器系数的分析获得，以得到如以上两个段落中的描述的该经子采样的数字音频信号中的音调或相关程度的度量。

要自该三个输入产生事件边界信号，分析16’的处理可如下所述操作。首先，其取得平滑滤波器12的输出与平滑滤波器14的输出的比率，减去1并且强制该信号大于或等于0。然后该信号乘以“偏斜”输入，该“偏斜”输入的范围是自0(对于类似噪声信号而言)到1(对于音调信号而言)。此结果是事件边界的存在的指示，大于0.2的值暗示可能的事件边界，而大于1.0的值指示明确的事件边界。如上述图1的示例中那样，此输出可利用在此范围中的单个阈值被转换成二进制信号或被转换成可信范围。很明显的，导出最终事件边界信号的可替换方法以及宽范围的值对于一些使用来说也是适合的。

图3是示出依据本发明的各方面的听觉事件边界检测器的又一示例的示意功能框图。图3的示例与图2的示例的不同之处至少在于其具有附加的子采样器或子采样功能。如果与事件边界检测相关的处理与子采样2所提供的子采样操作相比较不频繁地需要事件边界输出，则附加的子采样器或子采样功能(“子采样”)20可被设置在短期滤波器12之后。例如，在子采样2的采样率的1/16的缩减可进一步以1/16缩减，以每256个采样在事件边界输出流中提供潜在的事件边界。第二平滑滤波器、即较长期滤波器14’接收子采样20的输出以提供分析16”的第二滤波输入。因为平滑滤波器14’的输入现在已经被平滑滤波器12低通滤波，并且被20子采样过，因而14’的滤波器特性应被相应地修改。一种适当的配置是对于输入的增加为50到100ms的时间常数，而对于输入的减少则为立即响应。要匹配分析16”的其它输入的降低的采样率，该预测器的系数也应在另一子采样器或子采样功能(“子采样”)22中被用相同的子采样率(在此示例中是1/16)进行子采样，以产生分析16”(用双引号表示以指示与图1的分析16和图2的分析16’的不同)的偏斜输入。分析16”基本与图2的分析16’相似，但具有微小的改变以针对较低采样率进行调整。此附加的抽取级20大大地减少了计算。在子采样20的输出处，这些信号代表了缓慢时变包络信号，所以混叠不是令人在意的问题。

图4是依据本发明的各方面的事件边界检测器的具体示例。此特定实现被设计为处理音频采样值在-1.0至+1.0的范围内的48kHz的输入音频。在本实现中所包含的各种值和常数并不是关键的，而是建议了有用的操作点。此图和下面的方程式详细解释了被用于通过示例信号产生后续图的处理和本发明的具体变量。通过子采样功能(“子采样”)2’通过选取每第16个采样而对输入音频进行子采样：

x′[n]＝x[16n]

延迟功能(“延迟”)6和预测器功能(“FIR预测器”)4’通过先前采样使用20阶FIR滤波器产生当前采样的估计：

y [n] = Σ_{i = 1}^{20} w_{i} [n] x^{'} [n - i]

其中w_i[n]代表在子采样时间n的第i个滤波器系数。减法功能8产生预测误差信号：

e[n]＝x′[n]-y[n]

其被用于依据规格化最小均方自适应过程通过加入泄漏项以稳定滤波器来更新预测器4’的系数：

w_{i} [n + 1] = 0.999 w_{i} [n] + \frac{0.05 e [n] x^{'} [n - i]}{Σ_{j = 1}^{20} x^{'} {[n - j]}^{2} + . 000001}

其中分母是包含先前20个输入采样的平方和的规格化项，且加入小的偏移量以避免除以0。变量j用于索引先前20个采样，x′[n-j]，j＝1到20。误差信号然后通过幅度功能(“幅度”)10’和第一时间滤波器(“短期滤波器”)12’以产生第一滤波后信号，该第一时间滤波器是简单的一阶低通滤波器：

f[n]＝0.99f[n-1]+0.01|e[n]|

该信号然后通过第二时间滤波器(“较长期滤波器”)14’以产生第二滤波后信号，该第二时间滤波器具有用于增加输入的一阶低通以及用于减少输入的立即响应：

g [n] = \{\begin{matrix} 0.99 g [n - 1] + 0.01 f [n] & f [n] > g [n - 1] \\ f [n] & f [n] \leq g [n - 1] \end{matrix}

预测器4’的系数被用于产生作为第3至最后的滤波器系数的幅度的和音调的初始度量(“分析相关”)18’：

s [n] = Σ_{i = 3}^{20} | w_{i} [n] |

此信号通过偏移35、缩放36以及限制器(“限制器”)37以产生偏斜的度量：

s^{'} [n] = \{\begin{matrix} 0 & s [n] < 0.2 \\ 1.25 (s [n] - 0.2) & 0.2 \leq s [n] \leq 1 \\ 1 & s [n] < 1 \end{matrix}

该第一和第二滤波后信号和偏斜的度量通过加法31、除法32、减法33和缩放34被组合以产生初始事件边界指示信号：

v = (\frac{f [n]}{g [n] + . 0002} - 1.0) s^{'} [n]

最后，该信号通过偏移38、缩放39和限制器(“限制器”)40以产生于范围为0至1的事件边界信号：

v^{'} [n] = \{\begin{matrix} 0 & v [n] < 0.2 \\ 1.25 (v [n] - 0.2) & 0.2 \leq v [n] \leq 1 \\ 1 & v [n] < 1 \end{matrix}

在两个信号变换35、36、37和38、39、40以及两个时间滤波器12’和14”中的值的相似性不代表系统的固定设计或限制。

图5A-F、6A-F以及7A-F是对于理解依据图4的示例的听觉事件边界检测装置或方法的操作有用的示例性波形集合。波形集合中的每一个沿着共用的时间刻度(水平轴)在时间上是对齐的。如图所示，每一波形具有其自己的水平刻度(垂直轴)。

首先参考在图5A-F中的示例性的波形集合，图5A中的数字输入信号代表三个猝发音，其中从一猝发音至另一猝发音在振幅上有级进式增加并且其中在各猝发音中途音高被改变。可发现，如图5B所示的简单的幅度度量没有检测到音高的改变。来自预测滤波器的误差检测到猝发音的开始、音高改变和结束，然而这些特征不是清楚的且依赖于输入信号水平(图5C)。通过如上所述的缩放，获得标示事件边界且仍然与信号水平无关的脉冲集合(图5D)。然而，对于最后的类似噪声的输入此信号可产生不需要的事件信号。由除了前两个滤波器阶之外的所有滤波器阶的绝对值总和获得的偏斜度量(图5E)然后被用于降低在没有强的谱成分的情况下发生的灵敏性事件。最后，通过分析获得被缩放且被截断的事件边界的流(图5F)。

图6A-F的示例性波形集合与图5A-F的波形集合的不同在于数字音频信号代表两个钢琴音符序列。如同图5A-F的示例性波形那样，其表明了预测误差如何即使在幅度包络(图6B)中不明显的情况下仍能够识别出事件边界。在此示例集合中，结尾音符逐渐减弱，所以在进展的末端没有用信号表明事件。

图7A-F的示例性波形集合与图5A-F和图6A-F的波形集合不同之处在于数字音频信号代表在存在背景噪声的情况下的语音。偏斜因子允许背景噪声中的事件被抑制，因为该事件本质是宽带的，而有声片段通过事件边界被详细说明。

这些示例显示了任何音调声音的突然结束被检测到。声音的平缓衰减不指示事件边界，这是因为不存在明确的边界(只有减弱)。虽然类似噪声的声音的突然结束可能不指示事件，但具有突然结束的大部分的语音或音乐事件将具有将被检测到的在该结束时的一些谱改变或夹止事件。

实现

本发明可被实现在硬件或软件或两者结合(例如可编程逻辑阵列)中。除非有特别指出，否则被包含以作为本发明的一部分的算法没有固有地与任何特定计算机或其它设备有关。尤其，各种通用机器可与依据这里的教导而编写的程序一起使用，或更方便的是，建造更多专用设备(例如集成电路)来执行所需的方法步骤。从而，本发明可在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实现，且每一计算机系统包含至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器及/或存储组件)、至少一个输入装置或端口，以及至少一个输出装置或端口。程序代码被应用于输入数据以执行这里所描述的功能且产生输出信息。该输出信息以已知的方式被施加到一个或多个输出装置。

每一这样的程序可以任何希望的计算机语言(包括机器、汇编或高层级过程、逻辑或面向对象编程语言)实现以与计算机系统通信。在任何情况中，该语言可是编译过的或解译过的语言。

每一这样的计算机程序优选地被存储在或下载到可由通用或专用可编程计算机读取的存储介质或装置(例如固态存储器或介质，或磁性介质或光学介质)，以用于当该存储介质或装置被该计算机系统读取时配置并操作该计算机，以执行这里所述的过程。本发明的系统也可被视为以配有计算机程序的计算机可读存储介质实现，其中这样的配置的存储介质使得计算机系统以特定和预定方式操作以执行这里所述的功能。

本发明的一些实施例已经被描述。然而，应理解，可在没有脱离本发明的精神和范围的情况下作出各种修改。例如，这里所描述的一些步骤可以是顺序无关的，从而可被以不同于所描述的顺序的顺序执行。

Claims

1.一种用于处理数字音频信号以从中导出听觉事件边界流的方法，该方法包含:

通过子采样所述数字音频信号导出经子采样的数字音频信号，使得其的经子采样的奈奎斯特频率在所述数字音频信号的带宽内，导致所述数字音频信号中在所述经子采样的奈奎斯特频率以上的信号成分在所述经子采样的数字音频信号中在所述经子采样的奈奎斯特频率以下出现，以及

检测所述经子采样的数字音频信号的频率内容的随时间的改变，以导出所述听觉事件边界流。

2.如权利要求1所述的方法，其中，当所述经子采样的数字音频信号的频率内容的随时间的改变超过阈值时，检测到听觉事件边界。

3.如权利要求1所述的方法，其中，对于代表类似噪声的信号的数字音频信号，针对所述经子采样的数字音频信号的频率内容的随时间的改变的灵敏度被降低。

4.如权利要求1-3中任一项所述的方法，其中，所述经子采样的数字音频信号的频率内容的随时间的改变在没有明确地计算所述经子采样的数字音频信号的频谱的情况下被检测出。

5.如权利要求1-3中任一项所述的方法，其中，所述经子采样的数字音频信号的频率内容的随时间的改变是通过对所述经子采样的数字音频信号应用谱选择滤波器而被导出的。

6.如权利要求1-3中任一项所述的方法，其中，检测所述经子采样的数字音频信号的频率内容的随时间的改变包括从先前采样的集合预测当前采样，产生预测误差信号，并且检测所述误差信号的水平的随着时间的改变何时超过阈值。

7.如权利要求1-3中任一项所述的方法，其中，所述经子采样的数字音频信号的频率内容的随时间的改变是通过包括明确计算所述经子采样的数字音频信号的频谱的过程而被检测出的。

8.如权利要求7所述的方法，其中，明确地计算所述经子采样的数字音频信号的频率内容包括对所述经子采样的数字音频信号应用时间至频率变换，且该过程进一步包括检测所述经子采样的数字音频信号的频域表示的随时间的改变。

9.如权利要求1-3中任一项所述的方法，其中，检测到的听觉事件边界具有指示所述边界存在或不存在的二进制值。

10.如权利要求1-3中任一项所述的方法，其中，检测到的听觉事件边界具有指示边界不存在或边界的存在及强度的值的范围。

11.一种用于处理数字音频信号以从中导出听觉事件边界流的设备，包含适用于执行如权利要求1-10中任一项所述的方法的装置。