CN104217729A

CN104217729A - 音频处理方法和音频处理装置以及训练方法

Info

Publication number: CN104217729A
Application number: CN201310214901.6A
Authority: CN
Inventors: 王珺; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2014-12-17
Also published as: US9830896B2; US20140358265A1

Abstract

本申请描述了音频处理方法和音频处理装置以及训练方法。根据本申请的实施方式，重音识别器用于从多个音频帧中识别重音帧，产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。然后速度估计器用于基于重音序列来估计多个音频帧的速度序列。所述实施方式可以很好地适应于速度的变化，并且可以进一步用于正确地跟踪拍子。

Description

音频处理方法和音频处理装置以及训练方法

技术领域

本发明总体上涉及音频信号处理。更具体地，本发明的实施方式涉及用于估计音频片段的速度值的音频处理方法和音频处理装置以及用于训练音频分类器的训练方法。

背景技术

虽然一些现有的速度估计方法非常成功，但是这些方法仍然存在一定的局限性和问题。例如，这些方法主要适用于范围有限的流派和乐器，比如具有固定速度的鼓点或具有“强拍”的流行舞蹈音乐。然而，具有挑战性的是当面对多种多样的音乐比如具有弱音符的音乐、拍子速度随时间变化的音乐或具有非常嘈杂和复杂的音乐音符特征的音乐时保持性能/准确度。

发明内容

根据本申请的一种实施方式，提供了一种音频处理装置，包括：重音识别器，用于从多个音频帧中识别重音帧，产生重音序列，该重音序列包括针对多个音频帧的重音和/或非重音判定的概率得分；以及速度估计器，用于基于该重音序列来估计多个音频帧的速度序列。

根据另一种实施方式，提供了一种音频处理方法，包括：从多个音频帧中识别重音帧，产生重音序列，该重音序列包括针对多个音频帧的重音和/或非重音判定的概率得分；以及基于该重音序列估计多个音频帧的速度序列。

根据又一种实施方式，提供了一种用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法，包括：将训练音频片段变换成多个帧；对多个帧中的重音帧进行标记；从两个相邻重音帧之间随机地选择至少一个帧，并且将该帧标记为非重音帧；以及使用重音帧连同非重音帧一起作为训练数据集来训练音频分类器。

另一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质，当计算机程序指令由处理器执行时，指令使得处理器能够执行如上所述的音频处理方法。

又一种实施方式涉及一种其上记录有计算机程序指令的计算机可读介质，当计算机程序指令由处理器执行时，指令使得处理器能够执行如上所述的用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法。

根据本申请的各实施方式，音频处理装置和方法至少可以很好地适应于速度的变化，并且还可以用于正确地跟踪拍子。

附图说明

在附图中以示例而非限制的方式来说明本发明，其中相似的附图标记指代相似的元件，在附图中：

图1是示出了根据本发明的实施方式的示例音频处理装置100的框图；

图2是示出了音频处理装置100中包括的重音识别器200的框图；

图3是示出了由不同的音频分类器针对一段舞蹈音乐的输出的曲线图；

图4是示出了由不同的音频分类器针对其中第一段为包含有节奏拍子的音乐片段以及后面的一段为没有拍子的无节奏音频的拼接信号的输出的曲线图；

图5是示出了用于对在音频处理装置的实施方式中使用的音频分类器进行训练的方法的流程图；

图6示出了基本冲击声音分量的示例集，其中x轴表示频点（frequency bins）并且y轴表示分量索引；

图7示出了与音频处理装置的实施方式中的第一特征提取器有关的变型；

图8示出了与音频处理装置的实施方式中的第二特征提取器有关的实施方式和变型；

图9示出了与音频处理装置的实施方式中的速度估计器有关的实施方式和变型；

图10示出了与音频处理装置的实施方式中的路径度量单元有关的变型；

图11示出了与音频处理装置的实施方式中的拍子跟踪单元有关的实施方式；

图12是示出了音频处理装置的实施方式中的前趋（predecessor）跟踪单元的操作的示意图；

图13是示出了用于实现本申请的各个方面的示例性系统的框图；

图14是示出了根据本申请的音频处理方法的实施方式的流程图；

图15是示出了根据本申请的音频处理方法中的识别重音帧的操作的实现的流程图；

图16是示出了基于重音序列估计速度序列的操作的实现的流程图；

图17是示出了动态规划算法中使用的路径度量的计算的流程图；

图18和图19是示出了跟踪拍子序列的操作的实现的流程图；以及

图20是示出了在跟踪拍子序列的操作中的跟踪在前的候选拍子位置的操作的流程图。

具体实施方式

下面参照附图描述本发明的实施方式。应当指出，为了简洁，在附图和描述中省略了与本领域的技术人员公知的但是对于理解本申请而言并非必需的部件和处理有关的表示和描述。

本领域的技术人员应当理解，本发明的各个方面可以实施为系统、设备（例如移动电话、便携式媒体播放器、个人计算机、服务器、电视机机顶盒或数字录像机或者任意其他媒体播放器）、方法或者计算机程序产品。因此，本发明的各个方面可以采用硬件的实施方式的形式、软件的实施方式（包括固件、驻留软件、微代码等）的形式或者软件方面与硬件方面相结合的实施方式的形式，在本文中其可以总体上被称为“电路”、“模块”或“系统”。此外，本发明的各个方面可以采用包括在一个或更多个计算机可读介质中的计算机程序产品的形式，其中，计算机可读介质上包括有计算机可读程序代码。

可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置或设备、或者以上的任意适当的组合。计算机可读存储介质的更具体的示例（非穷举性的列举）可以包括：具有一条或更多条导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、便携式光盘只读存储器（CD-ROM）、光学存储设备、磁性存储设备或者以上的任意适当组合。在本文献的上下文中，计算机可读存储介质可以是能够包含或者存储用于由指令执行系统、装置或设备来使用或者与其结合使用的程序的任意有形的介质。

计算机可读信号介质可以包括其中包括有计算机可读程序代码的传播的数据信号，该数据信号为基带信号或者作为载波的一部分。这样的传播的信号可以采用各种形式，包括但不限于电磁信号或光学信号或者其任意适当的组合。

计算机可读信号介质可以为不是计算机可读存储介质并且可以传递、传播或传输用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任意计算机可读介质。

包括在计算机可读介质上的程序代码可以使用任意适当的介质发送，介质包括但不限于无线、有线线路、光纤光缆、射频（RF）等或者以上的任意适当的组合。

用于执行本发明的各个方面的操作的计算机程序代码可以用一种或更多种编程语言的任意组合来编写，编程语言包括面向对象的编程语言比如Java、Smalltalk、C++等以及传统的过程编程语言比如“C”编程语言或类似的编程语言。程序代码可以在用户的计算机上作为单独软件包整体执行，或者部分在用户的计算机上执行且部分在远程计算机上执行，或者整体在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过包括局域网（LAN）或广域网（WAN）的任意类型的网络连接至用户的计算机，或者可以连接到外部计算机（例如通过使用因特网服务提供商的因特网）。

下面参照根据本发明的实施方式的方法、装置（系统）和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个块以及流程图和/或框图中的块的组合可以用计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以形成机器，使得通过计算机或其他可编程数据处理装置的处理器来执行的指令形成用于实现流程图和/或框图的块或多个块中所指定的功能/行为的装置。

这些计算机程序指令还可以存储在如下计算机可读介质中：该计算机可读介质可以引导计算机、其他可编程数据处理装置或其他设备以特定的方式工作，以使得存储在计算机可读介质中的指令产生制品，该制品包括实现流程图和/或框图的块或多个块中所指定的功能/行为的指令。

计算机程序指令还可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列运算步骤，从而产生计算机实现的处理，以使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的块或多个块中所指定的功能/行为的处理。

整体解决方案

图1是示出了根据本发明的实施方式的示例音频处理装置100的框图。

如图1所示，在第一实施方式中，音频处理装置100可以包括重音识别器200和速度估计器300。在第二实施方式中，音频处理装置100还可以包括将在下文中描述的拍子跟踪单元400。

下面将对第一实施方式进行描述。

在重音识别器200中，从多个音频帧中识别出重音帧，产生包括针对多个音频帧的重音和/或非重音判定的概率得分的重音序列。在速度估计器300中，基于由重音识别器200获得的重音序列来估计多个音频帧的速度序列。

可以通过任何现有技术来准备多个音频帧。输入音频信号可以以预定采样速率被重采样为单声道信号，然后被划分为帧。但本申请并不限于此，也可以使用本申请的解决方案对多个通道上的音频帧进行处理。

为了本申请的目的，音频帧可以是彼此相继的，但也可以在一定程度上互相重叠。作为示例性实施，音频信号可以被重采样为44.1kHz并且被划分成具有512个样本的步长的2048个样本（0.0464秒）的帧。即，重叠部分占帧的75%。当然，重采样频率、帧中的样本数量和步长大小（从而重叠比例）可以是其他值。

重音识别器200可以工作在时域或频域中。换言之，多个音频帧中的每一个可以是时变信号的形式，或者可以变换成各种谱，比如频谱或能量谱。例如，每个音频帧可以转换到FFT（快速傅里叶变换）频域。短时傅里叶变换（STFT）可以用于获得每个音频帧的谱：

X(t,k),k=1,2,…,K. （1）

其中，K是音频帧的傅里叶系数的数量，t是音频帧的时间序列号（索引）。

也可以使用其他类型的谱，比如时间校正（time-corrected）瞬时频谱（TCIF）或复数正交镜像滤波器（CQMF）变换谱，并且这些谱也可以使用X(t,k)表示。

这里使用的术语“重音”表示在音乐中对特定音符的强调（emphasis）。重音有助于乐句的演奏的发音和韵律。与周围的音符相比：1）动力重音或加重重音是使用较响的声音来加以强调，通常在声音的冲击上最突出；2）声调重音是利用音调较高而非音量较高来强调音符；以及3）缓急重音是利用持续时间较长来加以强调。另外，在有节奏的背景下，重音具有一些感知属性，例如，通常，打击声音、低音等可以被视为重音。

本申请不限于音乐中的重音。在一些申请中，“重音”可以表示给予字中的特定音节或短语内的特定字的语音突出性。当该突出性通过较大的动力产生时，通常由幅值（音量）、音节或元音长度、元音的完全发音和音调的无区别性变化的组合表示，该结果称为加重重音、动力重音或简称为重读；当该突出性仅通过音调产生时，被称为音调重音；以及当该突出性仅通过长度产生时，被称为音长重音。

在除了音乐或语音之外的其他音频信号中，例如，在心律或鼓掌中，也可以存在重音，并且可以使用与上面类似的属性对其进行描述。

上述“重音”的定义表示音频信号或音频帧中的重音的固有属性。基于这些固有属性，在重音识别器200中可以提取特征并且可以基于特征对音频帧进行分类。换言之，重音识别器200可以包括基于机器学习的分类器210（图2）。

特征可以包括，例如，结合谱幅值和相位信息的复数域特征，或反映音乐节奏属性的一个或更多个方面的任何其他特征。更多的特征可以包括由梅尔频率倒谱系数（MFCC）、谱重心、谱滚降中的至少一个构成的音色相关的特征、由谱波动（谱通量）、梅尔能量分布中的至少一个构成的能量相关的特征以及由低音调色度和音调色度构成的旋律相关的特征。例如，音调色度的变化的位置通常表示和弦变化，针对某些音乐风格和弦变化基本上是强拍点。

可以使用现有技术提取这些特征。在图2中使用“特征提取器组”206表示相应的硬件部件或软件模块。

作为对该实施方式的改进，重音识别器200可以在特征提取器组206中包括尽可能多的特征提取器并且获得包括尽可能多的特征的特征集。然后子集选择器208（图2）可以用于选择所提取的特征的适当子集以由分类器210用于对当前音频信号或音频帧进行分类。这可以使用现有的自适应分类技术完成，通过现有的自适应分类技术可以基于待分类的对象的内容来选择适当的特征。

分类器210可以是本领域中任何类型的分类器。在一种实施方式中，可以采用双向长短时存储器（Bidirectional Long Short Term Memory，BLSTM）作为分类器210。双向长短时存储器是神经网络学习模型，其中“双向”表示输入被前向和后向提供给两个单独的回归网络，这两个回归网络均连接至相同的输出层，并且“长短时存储器”表示能够学习长期依赖性的替选的神经架构，在我们的实验中证明“长短时存储器”很好地适合于诸如重音/非重音分类的任务。也可以采用AdaBoost作为用于重音/非重音分类的替选的算法。在概念上，AdaBoost通过根据各个弱分类器的差错率使用针对各个弱分类器的自适应权重来组合一系列弱分类器，从而建立强分类器。还有大量分类器也可以用于该任务，比如支持向量机（SVM）、隐马尔可夫模型（HMM）、高斯混合模型（GMM）和决策树（DT）。

在各种分类器中，BLSTM优选地用于估计重音的后验概率。其他分类方法比如AdaBoost和SVM将正类与负类之间的差异最大化，但在它们之间产生较大的不平衡，尤其是对于稀少的正样本（例如，重音样本）更是如此，而BLSTM没有这样的问题。此外，对于诸如AdaBoost和SVM这样的分类方法，由于特征比如谱通量和MFCC的一阶和二阶差分仅带有短期序列信息而没有长期信息，因此长期信息丢失。相反，BLSTM的双向结构可以在两个方向上对长期信息进行编码，因此更适合重音跟踪任务。我们的评估显示，与传统的分类器相比，对于中信分类BLSTM总能得到改进的性能。图3示出了由不同的算法针对一段有节奏的音乐片段的估计输出：实线表示BLSTM的激活输出，短划线表示AdaBoost的概率输出，点虚线表示真实拍子位置。图3（横轴表示帧索引号）显示，与AdaBoost输出相比，BLSTM输出明显噪声较小并且与真实重音位置更对准。图4（横轴表示帧索引号）示出了针对拼接信号的估计输出，在该拼接信号中第一段为包含有节奏拍子的音乐片段并且后面的一段为没有拍子的无节奏音频。图4示出了BLSTM（实线）的激活输出在后面的音频片段中要显著低于在前面的音乐片段中，并且与AdaBoost（短划线）的输出相比，在后面的片段中包含少得多的噪声峰。与图3类似，点虚线表示真实拍子位置。

可以使用任何传统方法预先训练分类器210。即，在要训练重音/非重音分类器的数据集中，将该数据集中的每个帧标记为重音类或非重音类。然而，由于非重音帧远多于重音帧，因此这两个类非常不平衡。为了缓解不平衡问题，在本申请中提出了通过在每对重音帧之间随机地选择至少一个帧来生成非重音帧。

因此，如图5所示，在本申请中还提供了一种用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法。即，首先将训练音频片段变换成多个帧（步骤502），多个帧可以彼此重叠或不重叠。在多个帧中，标记重音帧（步骤504）。虽然重音帧之间的那些帧自然是非重音帧，但并不是将所有的非重音帧都加入到训练数据集中。而是仅标记部分非重音帧并加入到数据集中。例如，可以从两个相邻重音帧之间随机地选择至少一个帧，并且将其标记为非重音帧（步骤506）。然后，可以使用标记的重音帧和标记的非重音帧作为训练数据集来训练音频分类器（步骤508）。

然后，返回图1，在重音识别器200的处理之后，速度估计器300用于基于由重音识别器200获得的重音序列来估计速度序列。

在音乐术语中，速度是给定片段的速率或步调。通常以每分钟拍子数（BPM）表示速度。这表示将特定的音符值（例如四分音符）指定为拍子，并且每分钟必须演奏一定数量的这种拍子。速度越大，每分钟内必须演奏的拍子的数量越大，从而必须越快地演奏音乐片段。拍子是时间的基本单位，是具有量音式（mensural level）的脉冲。拍子与音乐的节奏元素有关。音乐中的节奏以加重的拍子和未加重的拍子（通常称为“强拍”和“弱拍”）的重复序列为特征。

本申请不限于音乐。对于音乐之外的其他音频信号，速度和拍子可以具有类似的含义以及相应的类似的物理属性。

基本上，所有拍子都是重音，但并不是所有重音都是拍子，虽然也存在一些其中一些拍子不是重音的例外情况。考虑到重音多于拍子，基于重音估计速度将比基于拍子估计速度更准确。因此，在本申请中，提出了通过检测重音来估计速度值。具体地，速度估计器300基于由重音识别器200获得的重音序列来估计速度序列。此外，速度估计器300并非估计单个恒定速度值，而是获得速度序列，该速度序列可以由随着帧、也就是随着时间变化的速度值的序列构成。换言之，每个帧（或每几个帧）具有其自己的速度值。

可以使用任何周期性估计技术来实现速度估计器300。如果在音频片段（重音序列的形式）中发现周期性，则周期τ与速度值相对应。

可能的周期性估计技术可以包括：自相关函数（ACF），其中特定的间隔处的自相关值反映该间隔（对应于周期τ并且进一步对应于速度值）的概率得分；梳状滤波，其中特定的周期/间隔τ处的互相关值反映该周期/间隔的概率得分；直方图技术，其中在每两个检测到的重音之间周期/间隔τ的发生概率/计数可以反映该周期/间隔的概率得分；周期性变换比如快速傅立叶变换FFT（这里，经受傅立叶变换的是重音序列，而不是原始音频信号/帧），其中某一周期/间隔τ处的FFT值可以反映该周期/间隔的概率得分；以及基于多代理的推理方法，其中，通过在速度跟踪/估计中使用特定的周期/间隔τ（对应于“代理”）而实现的良好度/匹配度可以反映该周期/间隔的概率得分。在每种可能的技术中，对于具体的帧或具体的音频片段，应当选择具有最高概率分数的周期/间隔。

在第二实施方式中，音频处理装置100还包括用于基于速度序列来估计重音序列的一段中的拍子位置的序列的拍子跟踪单元400。同样，由于估计的速度序列可以很好地反映速度的变化，因此估计的拍子位置将不会具有恒定的周期性，而是可以很好地匹配变化的速度值。与直接估计拍子位置（然后基于拍子位置估计速度值）的常规技术相比较，首先基于重音估计来估计速度值，然后基于速度值估计拍子位置的本实施方式可以获得更准确的结果。

特定的速度值与特定的周期或拍子间持续时间（间隔）相对应。因此，如果获得了一个真实拍子位置，则可以根据速度序列获得所有其他的拍子位置。该一个真实拍子位置可以被称为拍子位置的“种子”。

在本申请中，可以使用任何技术估计拍子位置种子。例如，可以将重音序列中具有最高概率分数的重音当作拍子位置种子。或者可以使用用于拍子估计的任何其他现有技术，但是仅为了获得种子，而不是所有拍子位置，这是因为将基于速度序列来确定其他拍子位置。这些现有技术可以包括但不限于峰值获得方法、基于机器学习的拍子分类器或基于模式识别的拍子识别器。

冲击显著性特征

在第三实施方式中，提出了新的特征以丰富分类器210（和/或子集选择器208）使用的特征空间，并且显著地改进分类器210的性能以及从而改进重音识别器200的性能。新特征可以称为“冲击显著性特征”，但应当注意，特征的命名不是要在任何意义上限制该特征和本申请。

因此，将第一特征提取器202（图2和图7）添加至特征提取器组206以用于从每个音频帧中提取至少一个冲击显著性特征。并且分类器210可以被配置成至少基于至少一个冲击显著性特征来对多个音频帧进行分类，和/或子集选择器208可以被配置成从至少包括至少一个冲击显著性特征的特征集中选择适当的特征。

简言之，冲击显著性特征表示基本冲击声音分量在音频帧中占的比例。术语“冲击”表示可感知的声音脉冲或听觉声音事件的可感知的起始或音符。“冲击”声音的示例可以包括打击乐器比如镲（hat）、钹或包括小军鼓、底鼓、筒鼓、低音鼓等的鼓的声音，鼓掌或跺脚的声音等。冲击声音具有其自己的物理属性并且可以被分解为一系列基本冲击声音分量，这些基本冲击声音分量可以被视为冲击声音的表征。因此，基本冲击声音分量在音频帧中的比例可以用作冲击显著性特征，表示音频帧在多大程度上听起来像冲击声，从而可能是重音。

基本冲击声音分量可以是事先已知的。一方面，基本冲击声音分量可以从类似前面的段落中列出的各种冲击声源的集合中学习。为此，可以采用任何分解算法或源分离方法，比如非负矩阵分解（NMF）算法、主成分分析（PCA）和独立成分分析（ICA）。即，可以视为将基于各种冲击声源的集合而归纳得到的综合冲击声源被分解成多个基本冲击声音分量（仍采用STFT谱作为示例，但其他谱也是可行的）：

X_s(t,k)=A(t,n)*D(n,k)

=[A_att(t,1),A_att(t,2),…,A_att(t,N)]*[D_att(1,k),D_att(2,k),…,D_att(N,k)]'

（2）

其中，X_s(t,k)为冲击声源，k=1,2,…,K，K为音频帧的傅里叶系数的数量，t是音频帧的时间序列号（索引），D(n,k)=[D_att(1,k),D_att(2,k),…,D_att(N,k)]'为基本冲击声音分量，n=1,2,…,N，N是基本冲击声音分量的数量，A(t,n)=[A_att(t,1),A_att(t,2),…,A_att(t,N)]为相应的基本冲击声音分量的混合因数的矩阵。

在学习阶段，通过上述分解算法和源分离方法，但并不限于此，可以获得混合因数A(t,n)的矩阵和基本冲击声音分量D(n,k)的集合，但我们仅需要D(n,k)，从而可以丢弃A(t,n)。

图6给出了基本冲击声音分量的集合的示例，其中x轴表示频点，y轴表示分量索引。具有灰度级的条带表示相应的频点的强度。灰度条越暗，强度越高。

然后，在重音识别器200中，第一特征提取器202使用相同或类似的分解算法或源分离方法来分解音频帧，音频帧要被处理成在学习阶段获得的基本冲击声音分量D(n,k)中的至少一个，得到混合因数矩阵，所述混合因数整体地或单独地作为至少一个冲击显著性特征。即，

X(t,k)=F(t,n)*D(n,k)=

[F_att(t,1),F_att(t,2),…,F_att(t,N)]*[D_att(1,k),D_att(2,k),…,D_att(N,k)]'

（3）

其中，X(t,k)为在等式（1）中获得的音频帧，k=1,2,…,K，K为音频帧的傅里叶系数的数量，t为音频帧的时间序列号（索引），D(n,k)为在等式（2）中获得的基本冲击声音分量，n=1,2,…,N，N为基本冲击声音分量的数量，F(t,n)=[F_att(t,1),F_att(t,2),…,F_att(t,N)]为相应的基本冲击声音分量的混合因数的矩阵。矩阵F(t,n)整体或矩阵中的任何元素可以用作至少一个冲击显著性特征。混合因数的矩阵还可以被处理以得到冲击显著性特征，比如混合因数的一些统计特性、一些或所有混合因数的线性/非线性组合等。

在实施方式的一种变型中，至少一个基本冲击声音分量还可以根据音乐学知识通过手动构造事先得到。这是因为冲击声源具有其固有的物理属性并具有其自己的特定谱。那么，基于关于冲击声源的谱属性的知识，可以手动构造基本冲击声音分量。

在实施方式的另一种变型中，由于即使冲击声源比如打击乐器也可以包括一些非冲击声音分量，该非冲击声音分量也是冲击声源比如打击乐器的特性，因此还可以考虑非冲击声音分量。并且在真实的音乐片段中，是打击乐器比如鼓的全部声音而不仅是鼓的一些分量表示音乐中的重音或拍子。从另一观点来看，即使非冲击声音分量的混合因数最终没有被考虑到冲击显著性特征中，如果分解算法将包括非冲击声音分量的所有可能的分量考虑在内，则也可以获得更准确的结果；换言之，在将非冲击分量考虑在内的情况下，可以正确地分解所有类型的音频信号，即使这些音频信号包含或多或少的非冲击声音分量或者大部分或完全包括非冲击声音分量。

因此，在学习阶段中，声源可以被如下分解：

X_s(t,k)=A(t,n)*D(n,k)

=[A_att(t,1),A_att(t,2),…,A_att(t,N₁),A_non(t,N₁+1),A_non(t,N₁

+2),…,A_non(t,N₁+N₂)]*

[D_att{1,k),D_att(2,k),…,D_att(N1,k)，

D_non(N₁+1,k),D_non(N₁+2,k),…,D_non(N₁+N₂,k)]' (4）

其中，X_s(t,k)为冲击声源，k=1,2,…,K，K为音频帧的傅里叶系数的数量，t为音频帧的时间序列号（索引），D(n,k)=[D_att(1,l),D_att(2,k),…,D_att(N₁,k),D_non(N₁+1,k),D_non(N₁+2,k),…,D_non(N₁+N₂,k)]'为基本声音分量，n=1,2,…,N₁+N₂，其中N₁为基本冲击声音分量的数量并且N₂为基本非冲击声音分量的数量，A(t,n)=[A_att(t,1),A_att(t,2),…,A_att(t,N₁),A_non(t,N₁+1),A_non(t,N₁+2),…,A_non(t,N₁+N₂)]为相应的基本声音分量的混合因数的矩阵。

在另一种变型中，在学习阶段，除了冲击声源以外，还可以将一些非冲击声源添加到声源的集合中。这样的非冲击声源可以包括，例如，非打击乐器、歌声等。在这种情况下，在等式（4）中，X_s(t,k)将包括冲击声源和非冲击声源两者。

然后，在重音识别器200中，第一特征提取器202使用类似的或相同的分解算法或源分离方法来分解音频帧，音频帧要被处理成在学习阶段中获得的基本声音分量D(n,k)中的至少一个，得到混合因数的矩阵，所述混合因数整体地或单独地作为至少一个冲击显著性特征。即，

X(t,k)=F(t,n)*D(n,k)=[F_att(t,1),F_att(t,2),…,F_att(t,N₁),F_non(t,N₁+

1),F_non(t,N₁+2),…,F_non(t,N₁+N₂)]*

[D_att(1,k),D_att(2,k),…,D_att(N₁,k),D_non(N₁+1,k),D_non(N₁+

2,k),…,D_non(N₁+N₂,k)]' （5）

其中，X(t,k)为等式（1）中获得的音频帧，k=1,2,…,K，K为音频帧的傅里叶系数的数量，t为音频帧的时间序列号（索引），D(n,k)为等式（2）中获得的基本声音分量，n=1,2,…,N₁+N₂，其中N₁为基本冲击声音分量的数量并且N₂为基本非冲击声音分量的数量，F(t,n)为相应的基本声音分量的混合因数的矩阵。矩阵F(t,n)整体或矩阵中的任何元素可以用作至少一个冲击显著性特征。混合因数的矩阵还可以被处理以得到冲击显著性特征，比如混合因数的一些统计特性、一些或所有混合因数的线性/非线性组合等。作为另一种变型，虽然也获得了基本非冲击声音分量的混合因数，F_non(t,N₁+1),F_non(t,N₁+2),…,F_non(t,N₁+N2)，但是当得到冲击显著性特征时仅考虑基本冲击声音分量的混合因数F_att(t,1),F_att(t,2),…,F_att(t,N₁)。

在图7中所示的与第一特征提取器202有关的另一种变型中，第一特征提取器202可以包括归一化单元2022，用于使用音频帧的能量将每个音频帧的至少一个冲击显著性特征归一化。为了避免突然的波动，归一化单元2022可以被配置成使用音频帧的被在时间上平滑的能量将每个音频帧的至少一个冲击显著性特征归一化。“音频帧的被在时间上平滑的能量”表示音频帧的能量在帧索引的维度上被平滑。存在各种用于进行时间平滑的方法。一种是使用移动窗口计算能量的移动平均，即，关于当前帧（帧可以在窗口的开始、中间或末端处）确定窗口的预定大小，窗口中的这些帧的能量的平均可以被计算，作为当前帧的平滑后的能量。在其变型中，可以计算移动窗口内的加权平均，以例如对当前帧给予更多强调等。另一种方法是计算历史平均。即，当前帧的平滑后的能量值是当前帧的未经平滑的能量与至少一个较早的（通常是前一个）帧的至少一个平滑后的能量值的加权和。可以根据当前帧和较早的帧的重要性调整权重。

相对强度特征

在第四实施方式中，提出了另一种新的特征以丰富由分类器210（和/或子集选择器208）使用的特征空间，并且显著地改进分类器210的性能，从而改进重音识别器200的性能。该新特征可以称为“相对强度特征”，但是应当指出，特征的命名不不是要在任何意义上限制该特征和本申请。

因此，将第二特征提取器202（图2和图8）添加至特征提取器组206以用于从每个音频帧中提取至少一个相对强度特征。并且分类器210可以被配置成至少基于至少一个相对强度特征来对多个音频帧进行分类，和/或子集选择器208可以被配置成从至少包括至少一个相对强度特征的特征集中选择适当的特征。

简言之，音频帧的相对强度特征表示音频帧相对于至少一个相邻音频帧的强度变化。根据重音的定义，知道重音通常比相邻的（在前的或在后的）帧具有较大的强度，因此可以使用强度的变化作为用于识别重音帧的特征。如果考虑到实时处理，通常在前的帧可以用于计算该变化（在本申请中，采用在前的帧作为示例）。然而，如果处理不必须是实时的，则也可以使用在后的帧。或者可以使用两者。

可以基于信号能量或谱比如能量谱或STFT谱的变化计算强度变化。为了更准确地跟踪信号分量的瞬时频率，可以利用FFT谱的改良版来得到相对强度特征。该改良的谱被称为时间校正瞬时频谱（TCIF）。下面给出使用该TCIF谱来提取相对强度特征的处理作为示例，但本申请并不限于此并且下面的处理可以等同地应用于包括能量谱的其他谱。

在一种变型中，可以计算两个所考虑的音频帧的谱之间的差作为相对强度特征：

ΔX(t,k)=X(t,k)-X(t-1,k) （6）

其中t-1表示在前的帧。

在上面的变型的替选中，可以使用有关的帧的谱之间的比率替代差。

在另一种替选中，可以将谱转换到对数尺度并且可以计算有关的帧之间的对数差作为所述差：

X_log(t,k)=log(X(t,k)) （7）

ΔX_log(t,k)=X_log(t,k)-X_log(t-1,k) （8）

则对于每个帧，得到K个差（或比率），分别对应于频点。K个差（或比率）中的至少一个可以用作至少一个相对强度特征。差（或比率）可以被进一步处理以得到相对强度特征，比如差（或比率）的一些统计特性、一些或所有差（或比率）的线性/非线性组合等。例如，如图8所示，可以在第二特征提取器204中包括相加单元2044，用于在一些或所有K个频点上对有关的音频帧之间的差求和。该和可以单独用作相对强度特征，或可以与K个频点上的差一起形成K+1维向量作为相对强度特征。

在一种变型中，上述差（包括对数差和比率）和/或和可以进行半波整流以将差和/或和的平均值大约偏移到零，并且忽略低于平均值的那些值。因此，可以在第二特征提取器204中设置第一半波整流器2042（图8）。具体地，平均值可以是如本公开的前一部分“冲击显著性特征”的结尾处所讨论的移动平均值或历史平均值。可以使用下面的等式或其任何数学变换来表达半波整流（采用对数差作为示例）：

其中ΔX_rect(t,k)为半波整流后的调整差，为ΔXlog(t,k)的移动平均值或历史平均值。

在另一种变型中，如图8中所示，可以在第二特征提取器中设置低通滤波器2046，用于在时间维度（即帧维度）上滤除差（比率）和/或和中的多余的高频分量。低通滤波器的示例是高斯平滑滤波器，但并不限于此。

请注意，第一半波整流器2042、相加单元2044和低通滤波器2046的操作可以单独执行或以任何组合以及以任何顺序执行。因此，第二特征提取器204可以仅包括它们中的一个或包括它们的任意组合。

在上面的描述中，以TCIF谱作为示例，并且如前所述，包括能量谱的任何谱可以类似地处理。在另一种变型中，任何谱可以被转换到梅尔带以形成梅尔谱，然后可以对梅尔谱进行上面的操作。该转换可以表达为：

X(t,k)→X_mel(t,k') （10）

即，K个频点上的原始谱X(t,k)转换成K’个梅尔带上的梅尔谱X_mel(t,k')，其中，k=1,2,…,K并且k'=1,2,…,K'。

那么，包括第一半波整流器2042、相加单元2044和低通滤波器2046中的任意一个的第二特征提取器204的所有操作（例如，等式（6）至等式（9））可以在每个音频帧的梅尔谱上执行。则可以获得分别在K'个梅尔带上的K'个差（比率、对数差），它们中的至少一个可以用作至少一个相对强度特征。如果包括相加单元，则和可以单独用作相对强度特征，或者可以与K'个梅尔带上的差一起形成K'+1维向量作为相对强度特征。通常K'=40。由于梅尔带可以更准确地表示人类听觉感知，因此在梅尔带上工作的重音识别器200可以确保识别的重音更好地符合人类听觉感知。

速度估计

在本公开的“整体解决方案”部分中，介绍了一些周期性估计技术，并且可以将它们应用到由重音识别器200获得的重音序列上以获得可变的速度序列。

在本部分中，作为音频处理装置的第四实施方式，如图9所示，提出了一种要用于音频处理装置中的新颖的速度估计器，包括动态规划单元310，该动态规划单元310采用重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。

动态规划单元310的已知的示例是维特比（Viterbi）解码器，但本申请并不限于此，而是可以采用任何其他动态规划技术。简言之，使用动态规划技术通过整体地考虑序列相对于当前时间点的预定长度的历史和/或未来以预测值的序列（通常为值的时间序列），历史或未来的长度或历史加上未来的长度可以被称为“路径深度”。对于路径深度内的所有时间点，每个时间点的各种候选值构成不同的“路径”，对于每条可能的路径，可以计算路径度量并且可以选择具有最佳路径度量的路径，从而确定路径深度内的时间点的所有值。

动态规划单元310的输入可以是由重音识别器200获得的重音序列，设为Y(t)，其中，t为每个音频帧（现在重音概率得分对应于音频帧）的时间序列号（索引）。在一种变型中，可以对Y(t)执行半波整流并且所得到的半波整流的重音序列可以是动态规划单元310的输入：

其中，y(t)为半波整流的重音序列，为Y(t)的移动平均值或历史平均值。因此，可以在速度估计器300中在动态规划单元310之前设置第二半波整流器304。对于半波整流、移动平均和历史平均的具体含义，可以参照等式（9）和相关的描述。

在另一种变型中，速度估计器300可以包括用于在动态规划单元310的处理或第二半波整流器304的处理之前消除重音序列Y(t)中的噪声峰的平滑单元302。可替代地，平滑单元302可以对第二半波整流器304的输出y(t)操作并且向动态规划单元310输出平滑后的序列。

在又一种变型中，还可以执行周期性估计并且动态规划单元对周期性估计所得到的序列操作。为了估计周期性，可以将原始重音序列Y(t)或半波整流的重音序列y(t)（两者都可能经过了平滑单元302的平滑操作）分成具有长度L的窗口。窗口越长，速度估计的分辨率越精细，但是可获得的速度变化跟踪能力越差。同时，重叠越大，对速度变化的跟踪越好。在一种实施方式中，可以设置窗口长度L等于6秒并且重叠等于4.5秒。窗口的非重叠部分对应于窗口之间的步长大小。而且步长大小可以从1帧（对应于一个重音概率得分Y(t)或其导出值y(t)等）变化至窗口长度L（在不重叠的情况下）。这样，可以获得窗口序列y(m)，其中m为窗口的序列号。那么，可以对每个窗口执行任何周期性估计算法，比如在本公开的“整体解决方案”部分中所描述的那些，并且针对每个窗口获得周期性函数γ(l,m)，该函数表示与特定的周期（间隔）l相对应的周期性的得分。那么，对于不同的l值以及对于路径深度内的所有窗口，可以至少基于周期性值选择最佳路径度量，从而确定周期性值的路径。每个窗口中的周期l就是与特定的速度值相对应的间隔：

s (m) (BPM) = \frac{1}{l (\min)} - - - (12)

其中s(m)为窗口m处的速度值。

因此，速度估计器300可以包括周期性估计器306，用于估计移动窗口内的重音序列的针对不同的候选速度值（间隔或周期）的周期性值，并且动态规划单元310可以包括用于基于针对不同的候选速度值的周期性值来计算路径度量的路径度量单元312，其中对于移动窗口的每一步计算速度值，移动窗口的大小取决于于估计速度值的期望精度，并且移动窗口的步长大小取决于期望的对速度变化的灵敏度。

在一种变型中，速度估计器300还可以在周期性估计器306之后以及在动态规划单元310之前包括第三半波整流器308，用于在动态规划处理之前相对于其移动平均值或历史平均值对周期性值进行整流。第三半波整流器308与第一半波整流器和第二半波整流器类似，从而省略其详细描述。

路径度量单元312可以通过任何现有技术计算路径度量。在本申请中，提出了另一种实施以从每个候选速度序列（即，候选路径）中的每个候选速度值的下列概率中的至少一个得出路径度量：周期性值在给定特定候选速度值的条件下的条件概率p_emi(γ(l,m)|s(m))、特定速度值的先验概率p_prior(s(m))以及在速度序列中从一个特定速度值到另一个特定速度值的转移概率p_t(s(m+1)|s(m))。在使用所有三个概率的一种具体实施方式中，路径度量可以计算为，例如：

p(S,γ)=p_prior(s(0))·p_emi(γ(l,m)|s(M))·

Π_0,M-1(p_t(s(m+1)|s(m))·p_emi(γ(l,m)|s(m)))

（13）

其中p(S,γ)为候选路径S针对周期性值序列γ(l,m)的路径度量函数，路径深度为M,即S=s(m)=(s(0),s(1),…s(M)),m=0,1,2…M，p_prior(s(0))为第一个移动窗口的候选速度值的先验概率，p_emi(γ(l,M)|s(M))为在窗口m=M处于速度状态s(M)的条件下，窗口m=M的特定周期性值γ(l,m)的条件概率。

对于路径中的每个移动窗口m=s(m)的不同值（它们对应于不同的周期/间隔值l），存在不同的路径度量p(S,γ)。最终的速度序列为使得路径度量p(S,γ)最佳的路径：

\hat{S} = \arg \max_{s} (p (S, γ)) - - - (14)

然后，获得速度路径或速度序列速度路径或速度序列可以转换为速度序列s(t)。如果移动窗口的步长大小为1帧，则s(m)直接为s(t)，即m=t。如果移动窗口的步长大小大于1帧，比如w帧，则在s(t)中，每w帧具有相同的速度值。

因此，路径度量单元312可以包括第一概率计算器2042、第二概率计算器2044和第三概率计算器2046中的一个，分别用于计算三个概率p_emi(γ(l,m)|s(m))、p_prior(s(m))和p_t(s(m+1)|s(m))。

条件概率p_emi(γ(l,m)|s(m))为窗口处于速度状态s(m)（即速度值，对应于特定间隔或者说拍子间时长l）的条件下，窗口m的针对特定间隔l的特定周期性值γ(l,m)的概率。l与s(m)相关联，可以从等式（12）获得。换句话说，条件概率p_emi(γ(l,m)|s(m))等效于对于移动窗口m，在特定间隔或者说拍子间时长l的条件下特定周期性值γ(l,m)的条件概率p_emi(γ(l,m)|l)。可以基于针对移动窗口m中特定候选速度值l的周期性值和移动窗口m内的所有可能的候选速度值的周期性值来估计该概率，例如，

p_emi(γ(l,m)|s(m))=p_emi(γ(l,m)|l)=γ(l,m)/∑_lγ(l,m) （15）

例如，对于特定间隔l=L₀，也就是特定速度值s(m)=T₀=1/L₀，有：

p_emi(γ(l,m)|s(m))=p_emi(γ(L₀,m)|T₀)=p_emi(γ(L₀,m)|L₀)=γ(L₀,m)/

∑_lγ(l,m) （15-1）但是，对于等式（13）中的路径度量p(S,γ)，应当尝试每一个移动窗口m的每一个可能的l值，以找到最佳路径。也就是说，在等式（15-1）中，对于每一个移动窗口m,该特定间隔L₀应当在可能的l范围内变化。也就是说，对于等式（13）的目的，应当使用等式（15）。

先验概率p_prior(s(m))为特定速度状态s(m)本身的概率。在音乐中，不同的速度值可能具有一个总体分布。例如，通常速度值可以从30bpm（每分钟拍子数）变化到500bpm，则小于30bpm和大于500bpm的速度值可以具有概率0。对于其他速度值，每一个可以具有与该总体分布相对应的概率值。可以通过统计事先获得这样的概率值或可以使用分布模型比如高斯模型来计算这样的概率值。

已知存在不同的音乐流派、风格或与音频类型有关的其他元数据。对于不同类型的音频信号，速度值可以具有不同的分布。因此，在一种变型中，第二概率计算器2044可以被配置成：基于与特定移动窗口相对应的可能的元数据值的概率和在给定特定移动窗口的每个可能的元数据值的条件下特定速度值的条件概率，来计算特定移动窗口中的特定速度值的概率，例如，

p_prior(s(m))=∑_gp_prior(s(m)|g)·p(g) （16）

其中，p_prior(s(m))为在给定元数据值g的条件下s(m)的条件概率，p(g)为元数据值g的概率。

即，如果移动窗口中的音频信号具有一定的元数据值，则移动窗口中的每个候选速度值有其与元数据值相应的概率。当移动窗口对应于多个可能的元数据值时，移动窗口中的每个候选速度值的概率应当是所有可能的元数据值的概率的加权和。权重可以是例如相应的元数据值的概率。

假设每个元数据值g的速度范围被建模为高斯函数N(μ_g,σ_g)，其中μ_g为均值并且σ_g为方差，则特定速度的先验概率可以如下预测：

p_prior(s(m))=∑_gN(μ_g,σ_g)·p(g) （17）

元数据信息（元数据值及其概率）可以已经编码在音频信号中并且可以使用现有技术提取，或可以使用元数据提取器2048（图10）从与有关的移动窗口相对应的音频片段中提取。例如，元数据提取器2048可以是用于将音频片段分类成具有相应的概率估计p(g)的不同音频类型g的音频类型分类器。

概率p_t(s(m+1)|s(m))为在前的移动窗口的速度状态为s(m)的条件下速度状态s(m+1)的条件概率，或者说从移动窗口的特定速度值到下一个移动窗口的特定速度值的转移概率。

与概率p_prior(s(m))类似，在音乐中，不同速度值转移对可以具有一个总体分布，并且每对可以具有与该总体分布相对应的概率值。可以通过统计事先获得这样的概率值或可以使用分布模型比如高斯模型计算这样的概率值。而且类似地，对于音频信号的不同的元数据值（比如音频类型），速度值转移对可以具有不同的分布。因此，在一种变型中，第三概率计算器2046可以被配置成：基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率和针对可能的元数据值中的每一个该移动窗口的特定速度值转移到下一个移动窗口的特定速度值的概率，来计算从移动窗口的特定速度值到下一个移动窗口的特定速度值的转移概率，例如，

p_t(s(m+1)|s(m))=∑_gp_t(s(m+1),s(m)|g)·p(g) （18）

其中，p_t(s(m+1),s(m)|g)为在给定元数据值g的条件下连续的速度值对s(m+1)和s(m)的条件概率，并且p(g)为元数据值g的概率。与第二概率计算器2044类似，g和p(g)可以已经编码在音频信号中并且可以简单地检索，或可以由元数据提取器2048比如音频分类器提取。

在一种变型中，速度转移概率p_t(s(m+1),s(m)|g)可以被建模为针对每个元数据值g的高斯函数N(0,σ_g')，其中σ_g'为方差，其中由于希望速度随时间具有连续性，因此均值等于0。则转移概率可以如下预测：

p_t(s(m+1)|s(m))=∑_gN(0,σ_g')·p(g) （19）

如前所述，可以使用自相关函数（ACF）实现周期性估计算法。因此，作为示例，周期性估计器306可以包括自相关函数（ACF）计算器，用于计算移动窗口内的重音概率得分的自相关值作为周期性值。还可以使用移动窗口L的大小和候选速度值（对应于间隔l）对自相关值进行归一化，例如：

γ (l, m) = \frac{1}{L - l} Σ_{n = 0}^{L - l - 1} y (n + m) y (n + l + m) - - - (20)

在一种变型中，速度估计器300还可以包括增强器314（图9），用于使用间隔是对应于特定候选速度值的间隔l的整数倍的情况下的自相关值，来增强该特定候选速度值的自相关值。例如，间隔l可以用其两倍、三倍和四倍的间隔来增强，如下面的等式中所给出的：

R (l, m) = Σ_{a = 1}^{4} Σ_{b = 1 - a}^{a - 1} γ (a \cdot l + b, m) \cdot \frac{1}{2 \cdot a - 1} - - - (21)

其中，如果间隔l要仅用其两倍和三倍间隔来增强，则a可以从1变化到3；以此类推。

使用增强的自相关值序列R(l,m)，等式（13）、（14）和（15）可以被重写为：

p(S,R)=p_prior(s(0))·p_emi(R(l,m)|s(M))·

Π_0,M-1(p_t(s(m+1)|s(M))·p_emi(R(l,m)|s(m)))

（13’）

\hat{S} = {\arg \max}_{s} (p (S, R)) - - - (14')

p_emi(R(l,m)|s(m))=R)l,m)/∑_lR(l,m) （15’）

拍子跟踪

在本公开的“整体解决方案”部分中，介绍了一些拍子跟踪技术，并且它们可以被应用于由速度估计器300获得的速度序列以获得拍子序列。

在该部分中，作为音频处理装置的第五实施方式，提出了一种要用于音频处理装置中的新颖的拍子跟踪单元400，如图11所示，包括前趋跟踪单元402，用于：针对重音序列的一段的第一方向上的每个锚点位置，在第二方向上跟踪重音序列的所述段中的在前的候选拍子位置，以基于在前的候选拍子位置的得分来更新锚点位置的得分，以及选择单元404，用于：选择具有最高得分的位置作为用作种子的拍子位置，基于该种子，基于该段的速度序列在前向方向和后向方向上迭代地跟踪该段中的其他拍子位置。这里，第一方向可以是前向方向或后向方向；相应地，第二方向可以是后向方向或前向方向。

具体地，如图12中所示（横轴为帧索引编号，纵轴为重音序列中的概率分值），实线波形表示重音序列y(t)（如前所述，也可以使用Y(t)），虚线波形表示要识别的真实拍子位置。前趋跟踪单元402可以被配置成从图12中的左侧到右侧操作（前向扫描），或从右侧到左侧操作（后向扫描），或如下所述在两个方向上操作。以从左侧到右侧的方向作为示例，前趋跟踪单元402将顺序地把重音序列y(t)中的每个位置作为锚点位置（图12中的前向锚点位置），并且跟踪紧邻锚点位置（由曲线实线箭头表示）在前的候选拍子位置，并且相应地更新锚点位置的得分。例如，如图12所示，当将位置t=t₁作为锚点位置时，其得分将被更新为score(t₁)；当将帧t=t₂作为锚点位置时，其得分将被更新为score(t₂)。此外，当将帧t=t₂作为锚点位置时，将搜索包括帧t=t₁的在前的帧以获得在前的候选拍子位置。在搜索期间，score(t₁)（以及其他在前的帧的得分）将被再次更新。在此，“更新”表示要更新的旧的得分将改变为基于旧的得分等确定的新的得分，并且某位置的初始得分可以基于该位置在重音序列中的重音概率得分确定，例如，初始得分可以正好是重音概率得分：

score_ini(t)=y(t) （22）

而且对于锚点位置，例如，其更新的得分可以是其旧的得分和在前的候选拍子位置的得分的和：

score_upd(t)=score(t-P)+score_old(t) （23）

其中假定在前的候选拍子位置比锚点位置t早P个帧，以及score_old(t)为锚点位置的旧的得分，即其更新之前的得分，则score_upd(t)为锚点位置t的更新的得分，score(t-P)为根据锚点位置t搜索出的在前的候选拍子位置的得分。如果是第一次更新锚点位置，则

score_old(t)=score_ini(t) （24）

选择单元404使用最终更新的得分。

在上述实施方式中，从图12中的左侧到右侧来扫描重音序列（前向扫描）。在变型中，可以从图12中的右侧到左侧来扫描重音序列（后向扫描）。类似地，前趋跟踪单元402将顺序地将重音序列y(t)中的每个位置作为锚点位置（如图12中所示的后向锚点位置），但是扫描是以从右侧到左侧的方向，然后跟踪紧邻锚点位置在前的（相对于从右侧到左侧的方向）候选拍子位置（由图12中的曲线虚线箭头表示），并且相应地更新锚点位置的得分。例如，如图12所示，当将位置t=t₂作为锚点位置时，其得分将更新为score(t₂)；之后，将帧t=t₁作为锚点位置，其得分将更新为score(t₁)。此外，当将帧t=t₁作为锚点位置时，将搜索包括帧t=t₂在内的在前的帧以得到在前的拍子位置。在搜索期间，score(t₂)（以及其他在前的帧的得分）将被再次更新。注意，在两个扫描方向上，初始得分都可以是重音概率得分。如果对在相反方向上的得分附加撇号，则等式（23）至（24）可以被重写为：

score'_upd(t)=score'(t+P')+score'_old(t) （23’）

如果是第一次更新锚点位置，则

score'_old(t)=score_ini(t) （24’）

其中score'(t+P')为根据锚点位置t搜索出的在前的（相对于从右侧到左侧的方向）候选拍子位置的得分。在从右侧到左侧的扫描方向上，是在前的候选拍子位置被搜索；但是如果仍然在音频信号的自然方向上观看，即在从左侧到右侧的方向上，则要搜索的是随后的候选拍子位置。即，假定差为P'帧，搜索的候选拍子位置的帧索引大于锚点帧索引t。即，在图12中，在从左侧到右侧扫描的实施方式中，当将位置t₂作为锚点位置时，可以搜索候选拍子位置t₁，t₁=t₂-P；那么在从右侧到左侧扫描的变型中，当将位置t₁作为锚点位置时，可以搜索候选拍子位置t₂，t₂=t₁+P'。当然，对于相同的t₁和t₂，P=P'。选择单元404使用最终更新的得分。

在两个方向上都执行扫描的另一变型中，对于每个位置，可以基于在两个方向上的最终更新的得分获得组合得分。组合可以是任何方式，比如相加或相乘。例如：

score_com(t)=score_upd(t)*score'_upd(t) （25）

选择单元404使用组合得分。

在已经由选择单元404确定拍子位置种子之后，可以使用如本公开中的“整体解决方案”部分中所提到的任何现有技术根据速度序列从拍子位置种子推导出其他拍子位置。作为变型，可以使用前趋跟踪单元402在前向方向和/或后向方向上迭代地跟踪其他拍子位置。在另一变型中，在选择拍子位置种子之前，对于每个锚点位置，在前的候选拍子位置已经找到，可以将其存储下来，则在已经选择了拍子位置种子之后，可以使用存储的信息跟踪其他拍子位置。也就是说，存储了“锚点位置”和相应的“在前候选拍子位置”的对。以仅在前向方向进行扫描，也就是说仅获得了score_upd(t)的情况为例。在后向方向，可以这样跟踪前一拍子位置：将所述拍子位置种子作为锚点位置，寻找相应的“在前候选拍子位置”作为所述前一拍子位置，然后将跟踪到的该前一拍子位置作为新的锚点位置继续跟踪更在前的拍子位置，以此类推直到重音序列的开头。而在前向方向，可以这样跟踪后一拍子位置：将所述拍子位置种子作为“在前候选拍子位置”，寻找与其相应的“锚点位置”作为所述后一拍子位置，然后将跟踪到的后一拍子位置作为新的“在前候选拍子位置”，继续跟踪更靠后的拍子位置，以此类推直到重音序列的结束。

当基于锚点位置搜索在前的候选拍子位置时，前趋跟踪单元402可以被配置成通过对基于速度序列中的相应位置处的速度值所确定的搜索范围进行搜索来对在前的候选拍子位置进行跟踪。

如图12中所示，当从左侧到右侧（前向扫描）来扫描重音序列时，前趋跟踪单元402将对位于锚点位置之前大约T左右的范围进行搜索，其中T为根据与锚点位置相对应的估计速度确定的周期值，并且在图12中示出的示例中，T=t₂-t₁。例如，搜索范围p（为P的值范围）可以如下设置：

p=(R(0.75T),R(0.75T)+1,…,R(1.5T)) （26）

其中，R(·)代表取整函数。

如前所述，前趋跟踪单元402可以采用任何现有技术。在本申请中，提出了一种采用代价函数突出从相应的速度值推导的初步估计的拍子周期的新的解决方案。例如，可以对搜索范围p应用对数时间高斯函数（但不限于此）。在图12示出的示例中，对于锚点位置t₂，搜索范围在t的维度上等于[t₂-R(1.5T),t₂-R(0.75T)]。

在一种实现中，对数时间高斯函数用于在搜索范围p上作为加权窗口以模拟从锚点位置到前一拍子的转移概率txcost（注意，对数时间高斯窗口的最大值位于距离锚点位置T处）：

tx \cos t (t - p) = - {(\log (\frac{p}{T}))}^{2} - - - (27)

搜索p中的所有可能的在前的候选拍子位置（前趋）t-p，并且使用转移概率更新它们的得分：

score_upd(t-p)=α·txcost(t-p)+score_old(t-p) （28）

其中，α为应用于转移代价的权重，可以是0到1，典型的值可以是0.7。在此，当位置t-p如前所述用作锚点位置时，score_old(t-p)可能已经被更新一次，然后在等式（28）中其被再次更新。选择单元404使用每个位置的最终更新的得分。

基于score_upd(t-p)，找到具有最高得分的最佳的在前候选拍子位置t-P：

t-P=t-argmax_p(score_upd(t-p)) （29）

而且参见等式（23），可以基于位置t-P的更新的得分，即score(t-P)，来更新当前锚点位置的得分。可选地，位置t-P可以被存储为相对于锚点位置t的在前的候选拍子位置，并且可以用于随后的步骤中。

简言之，前驱跟踪单元402可以被配置成基于根据位置和相应的速度值计算的转移代价来对搜索范围中的每个位置的得分进行更新，以选择搜索范围中具有最高得分的位置作为在前的候选拍子位置，以及基于搜索范围中的最高得分来更新锚点位置的得分。

仍如图12中所示，当从右侧到左侧（后向方向）扫描重音序列时，前驱跟踪单元402将在从右侧到左侧的方向上搜索在锚点位置之前的或在从左侧到右侧的方向上在锚点位置之后的位于T左右的范围内进行搜索，其中，T是根据与锚点位置相对应的估计的速度确定的周期值，并且在图12所示的示例中，T=t₂-t₁。例如，搜索范围p'（为P'的值范围）可以如下设置：

p'=(R(0.75T),R(0.75T)+1,…,R(1.5T)) （26’）

其中R(·)表示取整函数。

作为示例，对于锚点位置t₁，搜索范围在t的维度上等于[t₁+R(0.75T),t₁+R(1.5T)]。与等式（23’）至（24’）类似，当从右侧到左侧扫描锚点位置时，对于前驱跟踪单元的处理，等式（27）至（29）可以在添加撇号的情况下被重写如下：

{tx \cos t}^{'} (t + p^{'}) = - {(\log (\frac{p^{'}}{T}))}^{2} - - - (27')

score'_upd(t+p')=α·txcost'(t+p')+score'_old(t+p') （28’）

t+P'=t-argmax_p'(scpre'_upd(t+p')) （29’）

而且参见等式（23’），可以基于位置t+P'的更新的得分，即score'(t+P')，来更新当前锚点位置的得分。可选地，位置t+P'可以被存储为相对于锚点位置t的在前的候选拍子位置，并且可以用于随后的步骤中。

如前所述，选择单元404从重音序列中的所有位置的最终更新的得分中选择最高的得分，相应的位置被用作拍子位置的种子。可以通过前驱跟踪单元在前向方向或后向方向上扫描重音序列来获得最终更新的得分。选择单元还可以从根据在前向方向和后向方向两者上获得的最终更新的得分所获得的组合得分中选择最高得分。

之后，在不需要更新得分的情况下，可以使用上面所讨论的类似的技术，使用前驱跟踪单元402在前向方向和/或后向方向上迭代地跟踪其他拍子位置。在另一变型中，当根据每个锚点位置搜索在前的候选拍子位置（前驱）时，在前的候选拍子位置已经被找到并且可以被存储，则在已经选择拍子位置种子之后，可以使用存储的信息跟踪其它拍子位置。例如，根据拍子位置种子P₀，可以将其作为锚点位置，并且可以在前向方向和后向方向两个方向上使用存储的在前候选拍子位置P₁和P'₁来获得两个相邻的拍子位置。然后，分别使用P₁和P'₁作为锚点位置，可以进一步基于存储的在前的候选拍子位置来获得两个相邻的拍子位置P₂和P'₂，并且如此进行直到重音序列的两端为止。这样就获得了拍子位置的序列：

P_x,P_x-1,…P₂,P₁,P₀,P'₁,P'₂,…P'_y-1,P'_y （30）

其中x和y都是整数。

实施方式的组合和应用场景

以上讨论的所有实施方式及其变型可以用其任意组合来实现，并且，在不同的部分/实施方式中提及的但是具有相同或者相似功能的任意部件都可以实现为相同的或者单独的部件。

例如，图1、图2以及图7至图11中所示的实施方式及其变型可以用其任意组合来实施。具体地，重音识别器的每种不同的实施可以与速度估计器300的每种不同的实施组合。并且所获得的组合还可以与拍子跟踪单元400的每种不同的实施组合。在重音识别器200中，第一特征提取器202、第二特征提取器204和其它另外的特征提取器可以以任何可能的组合彼此组合，并且在任何情况下子集选择器208都是可选的。此外，在第一特征提取器202和第二特征提取器204中，归一化单元2022、第一半波整流器2042、相加单元2044和低通滤波器2046都是可选的，并且可以以任何可能的组合（包括不同的次序）彼此组合。相同的规则可应用于速度估计器300和路径度量单元312的具体的部件。另外，第一半波整流器、第二半波整流器和第三半波整流器可以被实现为不同的部件或同一部件。

如本申请的具体实施方式的开头所讨论的，本申请的实施方式可以用硬件或软件或用两者实现。图13是示出了用于实现本申请的各个方面的示例性系统的框图。

在图13中，中央处理单元（CPU）1301根据存储在只读存储器（ROM）1302中的程序或从存储部分1308加载到随机存取存储器（RAM）1303的程序来执行各种处理。在RAM1303中，也根据需要存储当CPU1301执行各种处理等时所需要的数据。

CPU1301、ROM1302和RAM1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下列部件连接到输入/输出接口1305：包括键盘、鼠标等的输入部分1306；包括显示器比如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1307；包括硬盘等等的存储部分1308；以及包括网络接口卡比如LAN卡、调制解调器等的通信部分1309。通信部分1309经由网络比如互联网执行通信处理。

根据需要，驱动器1310也连接到输入/输出接口1305。可移除介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要安装在驱动器1310上，以使得从中读取的计算机程序根据需要安装到存储部分1308中。

在通过软件实施上述部件的情况下，从网络比如互联网或存储介质比如可移除介质1311安装构成软件的程序。

除了通用计算装置之外，本申请的实施方式还可以被实施为专用计算装置，专用计算装置可以是任何类型的音频处理装置或任何类型的语音通信终端的一部分。

本申请可以应用于很多领域。多个层次的有节奏的信息不仅是音乐理解和音乐信息检索（MIR）应用的计算建模必不可少的，而且对于音频处理应用也是有用的。例如，一旦估计到音乐的拍子，则可以使用这些拍子作为用于高层次基于拍子的计算的时间单元，代替不能太多反映音乐的低层次基于帧的计算。拍子和小节检测可以用于调整其他低层次特征以表示感知上突出的信息，以使得低层次特征由音乐上有意义的内容来分组。最近这已经被证明对于中等特异性MIR任务比如翻唱歌曲识别非常有用。

在音频信号后处理领域中，一种示例性应用是使用速度估计来优化音频信号的压缩控制的释放时间。对于具有慢速度的音乐，音频压缩处理适合应用长的释放时间，以保证声音完整性和丰富性，而对于具有快的速度和突出的节奏拍子的音乐，音频压缩处理适合应用短的释放时间，以确保声音听起来不模糊。

节奏是音频信号的最根本、最关键的特性之一。音乐节奏的自动估计可以潜在地用作广泛范围的应用比如音频结构分割、基于内容的查询和检索、自动分类、音乐结构分析、音乐推荐、播放列表生成、音频到视频（或图像）同步等中的基本模块。相关的应用已经在针对录音制作人、音乐家和移动应用程序开发人员的软件和网络服务中，以及在广泛分发的为DJ（电台音乐主持人）准备的商用硬件混频器中谋得一席之地。

音频处理方法

在上文的实施方式中描述音频处理装置的过程中，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些方法的概要，但是应当注意，虽然这些方法在描述音频处理装置的过程中公开，但是这些方法不一定采用所描述的那些部件或不一定由那些部件执行。例如，音频处理装置的实施方式可以部分地或完全地使用硬件和/或固件来实现，而下面讨论的音频处理方法可以完全由计算机可执行的程序来实现是有可能的，尽管这些方法也可以采用音频处理装置的硬件和/或固件。

下面参照图14至图20描述这些方法。

如图14中所示，音频处理方法的实施方式包括：从多个音频帧10中识别重音帧（操作S20），产生重音序列20，该重音序列20包括针对多个音频帧的重音和/或非重音判定的概率得分；以及基于重音序列20估计多个音频帧的速度序列30（操作S30）。多个音频帧10可以彼此部分地重叠，或可以在不重叠的情况下彼此相邻。

此外，可以基于速度序列30估计重音序列的一段中的拍子位置40的序列（操作S40）。

可以使用前面所讨论的各种分类算法，尤其使用双向长短时存储器（BLSTM）实现识别重音帧的操作，双向长短时存储器（BLSTM）的优点前面已经讨论过了。

可以提取各种特征用于分类重音帧。在本申请中，提出了一些新的特征，包括冲击显著性特征和相对强度特征。这些特征可以与其它特征一起由任何分类器用以对音频帧10进行分类（操作S29）。在图15所示的不同的实施方式中，识别重音帧的操作可以包括下列操作中的任何一个或任何组合：从每个音频帧中提取至少一个冲击显著性特征（操作S22），该至少一个冲击显著性特征表示至少一个基本冲击声音分量在音频帧中占的比例；从每个音频帧中提取至少一个相对强度特征（操作S24），该至少一个相对强度特征表示音频帧相对于至少一个相邻音频帧的强度变化；以及从每个音频帧中提取其它特征（操作S26）。相应地，多个音频帧的分类操作（操作S29）可以基于至少一个冲击显著性特征和/或至少一个相对强度特征和/或至少一个附加特征中的至少一个。至少一个附加特征可以包括音质相关的特征、能量相关的特征和旋律相关的特征中的至少一个。具体地，至少一个附加特征可以包括梅尔频率倒谱系数（MFCC）、谱重心、谱滚降、谱波动、梅尔能量分布、音调色度和低音调色度中的至少一个。

在一种变型中，识别操作S20还可以包括从至少一个附加特征、至少一个冲击显著性特征和和/或至少一个相对强度特征中选择特征子集（S28），并且分类操作S29可以基于特征子集15执行。

为了提取至少一个冲击显著性特征，可以使用分解算法，包括非负矩阵分解（NMF）算法、主成分分析（PCA）或独立成分分析（ICA）。具体地，音频帧可以被分解成至少一个基本冲击声音分量，至少一个基本冲击声音分量的混合因数可以整体地或单独地用作至少一个冲击显著性特征的基础。

通常，音频信号可以不仅包括基本冲击声音分量，而且包括基本非冲击声音分量。为了更精确地分解音频信号以及为了将分解算法适用于任何音频信号，在本申请中，音频帧可以被分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量两者，以产生至少一个基本冲击声音分量和至少一个基本非冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为至少一个冲击显著性特征的基础。在一种变型中，尽管获得了基本冲击声音分量和基本非冲击声音分量两者的混合因数，但是仅基本冲击声音分量的混合因数用作至少一个冲击显著性特征的基础。

单独的混合因数或其矩阵整体可以用作至少一个冲击显著性特征。可替代地，一些或所有混合因数的任何线性或非线性的组合（例如，和或加权和）是可以想到的。用于基于混合因数获得冲击显著性特征的更复杂的方法也是可以想到的。

在获得每个音频帧的至少一个冲击显著性特征之后，可以使用音频帧的能量对该特征进行归一化（操作S23，图15）。此外，可以使用音频帧的在时间上被平滑的能量比如移动平均能量或当前音频帧的能量与音频帧序列的历史能量的加权和，对该特征进行归一化。

为了分解音频帧，必须事先知道至少一个冲击声音分量和/或至少一个非冲击声音分量。它们可以使用分解算法从至少一个冲击声源和/或非冲击声源中事先获得，或可以根据音乐学知识通过手动构造来事先得到。

顺便提及，待分解的音频帧可以是任何类型的谱（基本冲击/非冲击声音分量可以是同样类型的谱），包括短时傅里叶变换（STFT）谱、时间校正瞬时频谱（TCIF）或复数正交镜像滤波器（CQMF）变换谱。

表示音频帧相对于至少一个相邻音频帧的强度变化的相对强度特征可以是音频帧的谱与至少一个相邻音频帧的谱之间的差或比率。作为变型，可以对音频帧的谱执行不同的变换。例如，谱（比如STFT谱、TCIF谱或CQMF谱）可以被转换成对数谱、梅尔带谱或对数梅尔带谱。对于每个帧，差/比率可以是包括不同的频点或梅尔带中的差/比率的向量的形式。这些差/比率中的至少一个或差/比率的一些或全部的任何线性/非线性组合可以被作为至少一个相对强度特征。例如，对于每个音频帧，可以在至少一个梅尔带/频点上对差求和或加权求和，其中，和作为至少一个相对强度特征的一部分。

在一种变型中，对于每个梅尔带或每个频点，还可以在时间（帧）维度上对差进行半波整流。在半波整流中，基准可以是（沿着时间线的）多个音频帧的差的移动平均值或历史平均值。在不同频点/梅尔带上的差的和/加权和可以进行类似的处理。附加地/可替代地，可以比如通过低通滤波器在时间维度上滤除差和/或和（加权和）中的多余高频分量。

在获得重音序列20之后，如图16中所示，可以输入到动态规划算法以用于输出最佳估计速度序列30（操作S36）。在动态规划算法中，可以通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来估计最佳速度序列30。

在动态规划处理之前，可以执行一些预处理。例如，重音序列20可以被平滑（操作S31）以消除重音序列中的噪声峰，和/或相对于重音序列的移动平均值或历史平均值进行半波整流（操作S31）。

在一种实施方式中，重音序列20可以被划分成重叠的片段（移动窗口），并且可以首先估计每个移动窗口内的针对不同的候选速度值的周期性值（操作S33）。然后，可以基于针对不同的候选速度值的周期性值来计算路径度量（见下面的图17和相关的描述）。在此，针对移动窗口的每一步估计速度值，移动窗口的大小取决于所估计的速度值的期望精度，并且移动窗口的步长取决于期望的对速度变化的灵敏度。

作为实施方式的另外的变型，对周期性值还可以进行半波整流（操作S34）和/或增强处理（操作S35）。半波整流可以以与前面所讨论的其他半波整流相同的方式执行并且可以使用类似或相同的模块实现。增强处理的目的是当相应的候选速度值趋于正确时增强移动窗口中的重音序列的相对较高的周期性值。

如前面所讨论的，存在不同类型的周期性值和相应的估计算法。一个示例是移动窗口内的重音概率得分的自相关值。在这样的情况下，还可以使用移动窗口的大小和候选速度值对自相关值进行归一化。并且增强操作S35可以包括：使用在间隔为对应于特定候选速度值的间隔的整数倍的情况下的自相关值，来增强该特定候选速度值的自相关值。

现在回到路径度量，可以基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算路径度量（操作S368）。可以基于特定移动窗口的与特定候选速度值有关的周期性值和所有可能的候选速度值的周期性值，来估计该特定移动窗口的周期性值的针对特定候选速度值的条件概率（操作S362）。针对特定移动窗口，可以基于与该特定移动窗口相对应的可能的元数据值的概率和在该特定移动窗口的每个可能的元数据值的条件下特定速度值的条件概率，来估计特定候选速度值的先验概率（操作S364）。以及可以基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率和载可能的元数据值中的每一个的条件下从移动窗口的特定速度值到下一个移动窗口的特定速度值的转移概率，来估计从移动窗口的特定速度值到下一个移动窗口的特定速度值的转移概率（操作S366）。

元数据可以表示基于任何标准分类的音频类型。元数据可以指示音乐流派、风格等。元数据可以已经被编码在音频片段中并且可以根据编码在音频流中的信息被简单地检索/提取（操作S363）。可替选地，可以从与移动窗口对应的音频片段的音频内容中实时提取元数据。例如，可以使用任何类型的分类器将音频片段分类成音频类型。

现进入拍子跟踪。如图18所示，对重音序列的一段中的所有位置进行扫描并且每个位置被顺序地用作锚点位置（图18中的第一个循环）。对于每个锚点位置，基于速度序列对重音序列中的在前的候选拍子位置进行搜索（操作S42），并且其得分可以用于更新锚点位置的得分（操作S44）。当所有的位置被扫描并且更新了其得分时，可以选择具有最高得分的位置作为拍子位置种子（操作S46），基于该种子，根据该段的速度序列在前向方向和后向方向上迭代地跟踪该段中的其他拍子位置（操作S48）。重音序列中任何更新之前的位置的旧的得分的初始值可以基于相应的帧的重音判定的概率得分来确定。作为示例，可以直接使用概率得分。

在已经找到拍子位置种子之后，可以使用与上面所讨论的跟踪操作相同的算法对其他拍子位置进行跟踪。然而，考虑到已经对每个位置进行了跟踪操作，因此可能不必要重复该操作。因此，在图18中使用虚线所示的变型中，在对重音序列中的所有锚点位置进行扫描的阶段中，可以与锚点位置相关联地存储针对每个锚点位置的在前的候选拍子位置（操作S43）。然后，在基于拍子位置种子对其他拍子位置进行跟踪的阶段中，可以直接使用存储的信息35。

参照图18所描述的处理可以对于重音序列的一段仅执行一次，但如图19中的右循环所示，也可以对于重音序列的同一段在不同的方向即前向方向和后向方向上执行两次。当然，首先使用哪个方向并不重要。对于这两个循环，得分的更新是相互独立的。即，每个循环以重音序列的该段中的所有位置的初始得分值开始。然后，获得针对每个位置的两个最终更新的得分，并且它们可以以任何方式例如相加或相乘组合在一起以获得组合得分。可以基于组合得分来选择拍子位置种子。在图19中，图18中示出的操作S43也是可应用的。

可以使用任何技术通过搜索基于速度序列中的相应的位置处的速度值所确定的搜索范围来实现跟踪在前的候选拍子位置的操作S42（图20中的内循环以及图20中的操作S426）。在一种实施方式中，由于重音序列中的特定的位置40P将首先被用作锚点位置，然后会被与接下来的锚点位置相对应的搜索范围覆盖，因此搜索范围中的每个位置的当该位置用作锚点位置时已经更新的得分（图20中的操作S44与40P之间的箭头）可以被再次更新（操作S424与40P之间的箭头）。注意，除了当位置用作锚点位置时的更新以及当位置由接下来的锚点位置的搜索范围首次覆盖时的更新之外，相同的位置可以进行更多次的更新，这是因为该位置可以被与多于一个的随后的锚点位置相对应的多于一个的搜索范围覆盖。在与锚点位置相对应的每个搜索范围中，具有最高的更新得分的位置可以被选择，作为在前的候选拍子位置（操作S426），并且最高的更新得分可以如前所述用于更新锚点位置的得分（操作S44）。

可以基于与锚点位置相对应的速度值来确定搜索范围。例如，可以基于速度值估计锚点位置与在前的候选拍子位置之间的周期，并且搜索范围可以设置为围绕在前的候选拍子位置。因此，在搜索范围中，靠近所估计的在前候选拍子位置的位置将具有较高的权重。可以基于这样的规则计算转移代价（操作S422）并且可以使用转移代价对搜索范围中的每个位置的得分进行更新（操作S424）。再次注意，在一个方向上的扫描（前向扫描或后向扫描）中，无论是作为锚点位置时还是由任何后面的锚点位置的任何搜索范围覆盖时，每个位置的得分将反复地更新（从而累积）。但是在不同方向上的两个扫描之间，得分是独立的，即不同方向的扫描中的得分将从头更新，即从基于相应的音频帧的重音判定的概率得分所确定的它们的初始得分开始更新。

本文中所使用的术语仅用于描述具体的实施方式的目的，而非意在限制本申请。本文中所使用的单数形式的“一个”和“该（the）”意在还包括复数形式，除非上下文清楚地指出不同含义。还应当理解，术语“包括”在本说明书中使用时指所说明的特征、整体、步骤、操作、元件和/或部件的存在，但是不排除一个或更多个其他特征、整体、操作、步骤、操作、元件、部件和/或其组合的存在或添加。

权利要求中的相应结构、材料、动作和所有装置或步骤的等同物加功能元件意在包括用于结合其他具体要求保护的要素来执行功能的任意结构、材料或动作。对本申请的描述是用于说明和描述的目的，而非意在以所公开的形式来穷举或限制本申请。本领域技术人员可以在不偏离本申请的范围和精神的情况下想到对本申请的很多修改和变化。所选择和描述的实施方式是为了最佳地解释本申请的原理和实际应用，并使得本领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来理解本申请。

根据上文，可以看出描述了下面的示例性实施方式（均用“EE”表示）。

EE1.一种音频处理装置，包括：

重音识别器，用于从多个音频帧中识别重音帧，产生重音序列，所述重音序列包括针对所述多个音频帧的重音和/或非重音判定的概率得分；以及

速度估计器，用于基于所述重音序列来估计所述多个音频帧的速度序列。

EE2.根据EE1所述的音频处理装置，其中，所述多个音频帧彼此部分地重叠。

EE3.根据EE1所述的音频处理装置，其中，所述重音识别器包括：

第一特征提取器，用于从每个音频帧中提取至少一个冲击显著性特征，所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例；以及

分类器，用于至少基于所述至少一个冲击显著性特征来对所述多个音频帧进行分类。

EE4.根据EE3所述的音频处理装置，其中，所述第一特征提取器被配置成使用分解算法来估计每个音频帧的所述至少一个冲击显著性特征：将所述音频帧分解成至少一个基本冲击声音分量，产生所述至少一个基本冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

EE5.根据EE4所述的音频处理装置，其中，所述第一特征提取器被配置成使用非负矩阵分解NMF算法、主成分分析PCA或独立成分分析ICA对所述音频帧进行分解。

EE6.根据EE3所述的音频处理装置，其中，所述第一特征提取器被配置成使用分解算法来估计所述至少一个冲击显著性特征：将每个音频帧分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量，产生所述至少一个基本冲击声音分量和所述至少一个基本非冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

EE7.根据EE4所述的音频处理装置，其中，所述至少一个冲击声音分量使用所述分解算法从至少一个冲击声源事先获得。

EE8.根据EE6所述的音频处理装置，其中，所述至少一个冲击声音分量和所述至少一个非冲击声音分量使用所述分解算法从至少一个冲击声源和至少一个非冲击声源事先获得。

EE9.根据EE4所述的音频处理装置，其中，所述至少一个基本冲击声音分量根据音乐学知识通过手动构造事先得到。

EE10.根据EE3所述的音频处理装置，其中，所述第一特征提取器还包括归一化单元，用于使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。

EE11.根据EE10所述的音频处理装置，其中，所述归一化单元被配置成使用所述音频帧的被在时间上平滑的能量来对每个音频帧的所述至少一个冲击显著性特征进行归一化。

EE12.根据EE3所述的音频处理装置，其中，所述第一特征提取器被配置成从所述音频帧的短时傅里叶变换STFT谱中提取每个音频帧的所述至少一个冲击显著性特征。

EE13.根据EE1所述的音频处理装置，其中，所述重音识别器包括：

第二特征提取器，用于从每个音频帧中提取至少一个相对强度特征，所述至少一个相对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化；以及

分类器，用于至少基于所述至少一个相对强度特征来对所述多个音频帧进行分类。

EE14.根据EE13所述的音频处理装置，其中，所述第二特征提取器被配置成计算每个音频帧的谱与至少一个相邻音频帧的谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE15.根据EE14所述的音频处理装置，其中，所述第二特征提取器被配置成计算每个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE16.根据EE14所述的音频处理装置，其中，所述第二特征提取器被配置成基于时间校正瞬时频谱TCIF来提取所述至少一个相对强度特征。

EE17.根据EE14所述的音频处理装置，其中，所述第二特征提取器被配置成计算所述音频帧的对数梅尔带谱与至少一个相邻音频帧的对数梅尔带谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE18.根据EE17所述的音频处理装置，其中，所述第二特征提取器被配置成将针对至少一个梅尔带的所述差作为所述至少一个相对强度特征。

EE19.根据EE18所述的音频处理装置，其中，所述第二特征提取器还包括半波整流器，用于针对每个梅尔带，相对于针对所述多个音频帧的差的移动平均值或历史平均值来对所述差进行整流。

EE20.根据EE18所述的音频处理装置，其中，所述第二特征提取器还包括相加单元，用于：针对每个音频帧，对至少一个梅尔带上的所述差求和，其中，所述和作为所述至少一个相对强度特征的一部分。

EE21.根据EE20所述的音频处理装置，其中，所述第二特征提取器还包括低通滤波器，用于在时间维度上滤除所述差和/或所述和中的多余的高频分量。

EE22.根据EE13所述的音频处理装置，其中，所述重音识别器包括：

第一特征提取器，用于从每个音频帧中提取至少一个冲击显著性特征，所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例；

分类器，用于至少基于所述至少一个冲击显著性特征和所述至少一个相对强度特征中的一个来对所述多个音频帧进行分类。

EE23.根据EE22所述的音频处理装置，其中，所述重音识别器还包括：至少一个附加特征提取器，用于提取至少一个附加特征；以及子集选择器，用于从所述至少一个附加特征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集，并且所述分类器被配置成通过使用所述特征子集来识别重音帧。

EE24.根据EE22所述的音频处理装置，其中，所述至少一个附加特征包括音质相关的特征、能量相关的特征和旋律相关的特征中的至少一个。

EE25.根据EE22所述的音频处理装置，其中，所述至少一个附加特征包括梅尔频率倒谱系数MFCC、谱重心、谱滚降、谱波动、梅尔能量分布、音调色度和低音调色度中的至少一个。

EE26.根据EE3至25中的一项所述的音频处理装置，其中，所述分类器包括双向长短时存储器BLSTM。

EE27.根据EE1至25中的一项所述的音频处理装置，其中，所述速度估计器包括动态规划单元，所述动态规划单元将所述重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。

EE28.根据EE27所述的音频处理装置，其中，所述速度估计器还包括第二半波整流器，用于在所述动态规划单元的处理之前相对于所述重音序列的移动平均值或历史平均值对所述重音序列进行整流。

EE29.根据EE27所述的音频处理装置，其中，所述速度估计器还包括平滑单元，用于在所述动态规划单元的处理之前消除所述重音序列中的噪声峰。

EE30.根据EE27所述的音频处理装置，其中，所述速度估计器还包括周期性估计器，用于估计所述重音序列在移动窗口内的针对不同的候选速度值的周期性值，并且所述动态规划单元包括路径度量单元，用于基于针对不同的候选速度值的所述周期性值来计算所述路径度量，其中，针对所述移动窗口的每一步估计速度值，所述移动窗口的大小取决于所估计的速度值的期望精度，并且所述移动窗口的步长取决于期望的对速度变化的灵敏度。

EE31.根据EE30所述的音频处理装置，其中，所述周期性估计器包括自相关函数ACF计算器，用于计算移动窗口内的所述重音概率得分的自相关值，作为所述周期性值。

EE32.根据EE31所述的音频处理装置，其中，所述自相关函数计算器被配置成使用所述移动窗口的大小和所述候选速度值对所述自相关值进行归一化。

EE33.根据EE31所述的音频处理装置，其中，所述速度估计器还包括增强器，用于使用间隔为与特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特定候选速度值的所述自相关值。

EE34.根据EE30所述的音频处理装置，其中，所述速度估计器还包括第三半波整流器，用于在所述动态规划单元的处理之前相对于所述周期性值的移动平均值或历史平均值对所述周期性值进行整流。

EE35.根据EE30所述的音频处理装置，其中，所述路径度量单元被配置成基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所述路径度量。

EE36.根据EE35所述的音频处理装置，其中，所述路径度量单元包括第一概率计算器，用于基于与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速度值的周期性值，来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概率。

EE37.根据EE35所述的音频处理装置，其中，所述路径度量单元还包括第二概率计算器，用于：针对特定移动窗口，基于与所述特定移动窗口相对应的可能的元数据值的概率和特定速度值在给定所述特定移动窗口的每个可能元数据值的条件下的条件概率，来计算特定候选速度值的先验概率。

EE38.根据EE37所述的音频处理装置，其中，所述元数据表示音频类型。

EE39.根据EE35所述的音频处理装置，其中，所述路径度量单元还包括第三概率计算器，用于：基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率，和针对所述可能的元数据值中的每一个从所述移动窗口的特定速度值转移到所述下一个移动窗口的特定速度值的概率，来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特定速度值的转移概率。

EE40.根据EE39所述的音频处理装置，其中，所述元数据表示音频类型。

EE41.根据EE37至40中的一项所述的音频处理装置，其中，所述路径度量单元还包括元数据提取器，用于从与所述移动窗口相对应的音频片段中提取所述元数据。

EE42.根据EE41所述的音频处理装置，其中，所述元数据提取器包括音频类型分类器。

EE43.根据EE37至40中的一项所述的音频处理装置，其中，所述元数据已经被编码在所述音频片段中。

EE44.根据EE27所述的音频处理装置，还包括：

拍子跟踪单元，用于基于所述速度序列来估计所述重音序列的一段中的拍子位置的序列。

EE45.根据EE44所述的音频处理装置，其中，所述拍子跟踪单元包括：

前趋跟踪单元，用于在所述重音序列的所述段的第一方向上针对每个锚点位置，在所述重音序列的所述段的第二方向上跟踪在前的候选拍子位置，以基于所述在前的候选拍子位置的得分来更新所述锚点位置的得分；以及

选择单元，用于选择具有最高得分的位置作为用作种子的拍子位置，基于所述种子，基于所述速度序列在所述段的前向方向和后向方向迭代地跟踪所述段中的其他拍子位置；

其中，所述第一方向是所述前向方向或所述后向方向；相应地，所述第二方向是所述后向方向或所述前向方向。

EE46.根据EE45所述的音频处理装置，其中，所述选择单元被配置成使用所述前趋跟踪单元来跟踪所述其他拍子位置。

EE47.根据EE45所述的音频处理装置，其中，所述重音序列的所述段中的位置的初始得分基于所述帧的重音判定的概率得分来确定。

EE48.根据EE45所述的音频处理装置，其中，所述前趋跟踪单元被配置成在所述第一方向和所述第二方向两个方向上扫描所有锚点位置，获取每个位置分别在所述第一方向和所述第二方向上的两个得分，并且所述选择单元被配置成基于根据所述两个得分所获得的组合得分来选择所述种子。

EE49.根据EE45所述的音频处理装置，其中，所述前趋跟踪单元被配置成通过搜索基于所述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前的候选拍子位置。

EE50.根据EE49所述的音频处理装置，其中，所述前趋跟踪单元被配置成基于根据所述位置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分，以选择所述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置，并且基于所述搜索范围中的最高得分来更新所述锚点位置的得分。

EE51.一种音频处理方法，包括：

从多个音频帧中识别重音帧，产生重音序列，所述重音序列包括针对所述多个音频帧的重音和/或非重音判定的概率得分；以及

基于所述重音序列估计所述多个音频帧的速度序列。

EE52.根据EE51所述的音频处理方法，其中，所述多个音频帧彼此部分地重叠。

EE53.根据EE51所述的音频处理方法，其中，所述识别操作包括：

从每个音频帧中提取至少一个冲击显著性特征，所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例；以及

至少基于所述至少一个冲击显著性特征对所述多个音频帧进行分类。

EE54.根据EE53所述的音频处理方法，其中，所述提取操作包括使用分解算法来估计每个音频帧的所述至少一个冲击显著性特征：将所述音频帧分解成至少一个基本冲击声音分量，产生所述至少一个基本冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

EE55.根据EE54所述的音频处理方法，其中，所述提取操作包括使用非负矩阵分解NMF算法、主成分分析PCA或独立成分分析ICA对所述音频帧进行分解。

EE56.根据EE53所述的音频处理方法，其中，所述提取操作包括使用分解算法来估计所述至少一个冲击显著性特征：将每个音频帧分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量，产生所述至少一个基本冲击声音分量和所述至少一个基本非冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

EE57.根据EE54所述的音频处理方法，其中，所述至少一个冲击声音分量使用所述分解算法从至少一个冲击声源事先获得。

EE58.根据EE56所述的音频处理方法，其中，所述至少一个冲击声音分量和所述至少一个非冲击声音分量使用所述分解算法从至少一个冲击声源和至少一个非冲击声源事先获得。

EE59.根据EE54所述的音频处理方法，其中，所述至少一个基本冲击声音分量根据音乐学知识通过手动构造事先得到。

EE60.根据EE53所述的音频处理方法，还包括使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。

EE61.根据EE60所述的音频处理方法，其中，所述归一化操作包括使用所述音频帧的被在时间上平滑的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。

EE62.根据EE53所述的音频处理方法，其中，所述提取操作包括从所述音频帧的短时傅里叶变换STFT谱中提取每个音频帧的所述至少一个冲击显著性特征。

EE63.根据EE51所述的音频处理方法，其中，所述识别操作包括：

从每个音频帧中提取至少一个相对强度特征，所述至少一个相对强度特征表示所述音频帧相对于至少一个相邻音频帧的强度变化；以及

至少基于所述至少一个相对强度特征对所述多个音频帧进行分类。

EE64.根据EE63所述的音频处理方法，其中，所述提取操作包括计算每个音频帧的谱与至少一个相邻音频帧的谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE65.根据EE64所述的音频处理方法，其中，所述提取操作包括计算每个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE66.根据EE64所述的音频处理方法，其中，所述提取操作包括基于时间校正瞬时频谱TCIF来提取所述至少一个相对强度特征。

EE67.根据EE64所述的音频处理方法，其中，所述提取操作包括计算所述音频帧的对数梅尔带谱与至少一个相邻音频帧的对数梅尔带谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

EE68.根据EE67所述的音频处理方法，其中，所述提取操作包括将针对至少一个梅尔带的所述差作为所述至少一个相对强度特征。

EE69.根据EE68所述的音频处理方法，其中，所述提取操作还包括针对每个梅尔带，相对于针对所述多个音频帧的差的移动平均值或历史平均值对所述差进行整流。

EE70.根据EE68所述的音频处理方法，其中，所述提取操作还包括：针对每个音频帧，对至少一个梅尔带上的所述差求和，其中，所述和作为所述至少一个相对强度特征的一部分。

EE71.根据EE70所述的音频处理方法，其中，所述提取操作还包括在时间维度上滤除所述差和/或所述和中的多余的高频分量。

EE72.根据EE63所述的音频处理方法，其中，所述识别操作包括：

从每个音频帧中提取至少一个冲击显著性特征，所述至少一个冲击显著性特征表示至少一个基本冲击声音分量在所述音频帧中占的比例；

至少基于所述至少一个冲击显著性特征和所述至少一个相对强度特征中的一个对所述多个音频帧进行分类。

EE73.根据EE72所述的音频处理方法，其中，所述识别操作还包括提取至少一个附加特征，以及从所述至少一个附加特征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集，并且所述分类操作包括通过使用所述特征子集来识别重音帧。

EE74.根据EE72所述的音频处理方法，其中，所述至少一个附加特征包括音质相关的特征、能量相关的特征和旋律相关的特征中的至少一个。

EE75.根据EE72所述的音频处理方法，其中，所述至少一个附加特征包括梅尔频率倒谱系数MFCC、谱重心、谱滚降、谱波动、梅尔能量分布、音调色度和低音调色度中的至少一个。

EE76.根据EE53至75中的一项所述的音频处理方法，其中，所述分类操作使用双向长短时存储器BLSTM来实现。

EE77.根据EE51至75中的一项所述的音频处理方法，其中，所述估计操作包括动态规划算法，所述动态规划算法将所述重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。

EE78.根据EE77所述的音频处理方法，其中，所述估计操作还包括在所述动态规划处理之前相对于所述重音序列的移动平均值或历史平均值对所述重音序列进行整流。

EE79.根据EE77所述的音频处理方法，其中，所述估计操作还包括对所述重音序列进行平滑以消除所述重音序列中的噪声峰。

EE80.根据EE77所述的音频处理方法，其中，所述估计操作还包括：估计所述重音序列移动窗口内的针对不同的候选速度值的周期性值，并且所述动态规划处理包括：基于针对不同的候选速度值的所述周期性值来计算所述路径度量，其中，针对所述移动窗口的每一步估计速度值，所述移动窗口的大小取决于所估计的速度值的期望精度，并且所述移动窗口的步长取决于期望的对速度变化的灵敏度。

EE81.根据EE80所述的音频处理方法，其中，估计所述周期性值的操作包括计算移动窗口内的所述重音概率得分的自相关值，作为所述周期性值。

EE82.根据EE81所述的音频处理方法，其中，使用所述移动窗口的大小和所述候选速度值对所述自相关值进行归一化。

EE83.根据EE81所述的音频处理方法，其中，所述估计操作还包括:使用间隔为与特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特定候选速度值的所述自相关值。

EE84.根据EE80所述的音频处理方法，其中，所述估计操作还包括在所述动态规划处理之前相对于所述周期性值的移动平均值或历史平均值对所述周期性值进行整流。

EE85.根据EE80所述的音频处理方法，其中，计算所述路径度量的所述操作包括基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所述路径度量。

EE86.根据EE85所述的音频处理方法，其中，所述计算路径度量的操作包括：基于与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速度值的周期性值，来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概率。

EE87.根据EE85所述的音频处理方法，其中，所述计算路径度量的操作包括：针对特定移动窗口，基于与所述特定移动窗口相对应的可能的元数据值的概率和特定速度值在给定所述特定移动窗口的每个可能的元数据值的条件下的条件概率来，计算特定候选速度值的先验概率。

EE88.根据EE87所述的音频处理方法，其中，所述元数据表示音频类型。

EE89.根据EE85所述的音频处理方法，其中，所述计算路径度量的操作包括：基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率，和针对所述可能的元数据值中的每一个的从所述移动窗口的特定速度值转移到所述下一个移动窗口的特定速度值的概率，来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特定速度值的转移概率。

EE90.根据EE89所述的音频处理方法，其中，所述元数据表示音频类型。

EE91.根据EE87至90中的一项所述的音频处理方法，其中，所述计算路径度量的操作还包括从与所述移动窗口相对应的音频片段中提取所述元数据。

EE92.根据EE91所述的音频处理方法，其中，提取所述元数据的操作包括将所述音频片段分类成音频类型。

EE93.根据EE87至90中的一项所述的音频处理方法，其中，所述元数据已经被编码在所述音频片段中。

EE94.根据EE77所述的音频处理方法，还包括：

基于所述速度序列来估计所述重音序列的一段中的拍子位置的序列。

EE95.根据EE94所述的音频处理方法，其中，估计所述拍子位置的序列的操作包括：

在所述重音序列的所述段的第一方向上针对每个锚点位置，在所述重音序列的所述段的第二方向上跟踪在前的候选拍子位置，以基于所述在前的候选拍子位置的得分来更新所述锚点位置的得分；以及

选择具有最高得分的位置作为用作种子的拍子位置，基于所述种子，基于所述速度序列在所述段的前向方向和后向方向迭代地跟踪所述段中的其他拍子位置；

EE96.根据EE95所述的音频处理方法，其中，所述选择操作包括使用与所述跟踪操作相同的算法跟踪所述其他拍子位置。

EE97.根据EE95所述的音频处理方法，其中，所述跟踪操作包括与相应的锚点位置相关联地存储所述在前的候选拍子位置的信息，并且所述选择操作包括基于所述信息跟踪所述其他拍子位置。

EE98.根据EE95所述的音频处理方法，其中，所述重音序列的所述段中的位置的所述初始得分基于所述帧的重音判定的概率得分来确定。

EE99.根据EE95所述的音频处理方法，其中，所述跟踪操作包括在所述第一方向和所述第二方向两个方向上扫描所有锚点位置，获取每个位置分别所述第一方向和所述第二方向上的两个得分，并且所述选择操作包括基于根据所述两个得分所获得的组合得分来选择所述种子。

EE100.根据EE95所述的音频处理方法，其中，所述跟踪操作包括通过搜索基于所述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前的候选拍子位置。

EE101.根据EE100所述的音频处理方法，其中，所述跟踪操作包括基于根据所述位置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分，以选择所述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置，并且基于所述搜索范围中的最高得分来更新所述锚点位置的得分。

EE102.一种用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法，包括：

将训练音频片段变换成多个帧；

标记所述多个帧中的重音帧；

在两个相邻的重音帧之间随机地选择至少一个帧，并且将所述至少一个帧标记为非重音帧；以及

使用所述重音帧连同所述非重音帧一起作为训练数据集，对所述音频分类器进行训练。

EE103.根据EE102所述的方法，其中，所述音频分类器为选自至少包括双向长短时存储器BLSTM、AdaBoost分类器、支持向量机SVM、隐马尔可夫模型HMM、高斯混合模型GMM和决策树DT的组中的一个。

EE104.根据EE102所述的方法，其中，所述变换操作包括将所述训练音频片段变换成多个重叠的帧。

EE105.一种其上记录有计算机程序指令的计算机可读介质，所述指令在由处理器执行时使得所述处理器能够执行音频处理方法，所述音频处理方法包括：

基于所述重音序列估计所述多个音频帧的速度序列。

EE106.一种其上记录有计算机程序指令的计算机可读介质，所述指令在由处理器执行时使得所述处理器能够执行用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法，所述方法包括：

将训练音频片段变换成多个帧；

标记所述多个帧中的重音帧；

从两个相邻重音帧之间随机地选择至少一个帧，并且将所述至少一个帧标记为非重音帧；以及

Claims

1.一种音频处理装置，包括：

2.根据权利要求1所述的音频处理装置，其中，所述重音识别器包括：

3.根据权利要求2所述的音频处理装置，其中，所述第一特征提取器被配置成使用分解算法来估计每个音频帧的所述至少一个冲击显著性特征：将所述音频帧分解成至少一个基本冲击声音分量，产生所述至少一个基本冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

4.根据权利要求2所述的音频处理装置，其中，所述第一特征提取器被配置成使用分解算法来估计所述至少一个冲击显著性特征：将每个音频帧分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量，产生所述至少一个基本冲击声音分量和所述至少一个基本非冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

5.根据权利要求2所述的音频处理装置，其中，所述第一特征提取器还包括归一化单元，用于使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。

6.根据权利要求1所述的音频处理装置，其中，所述重音识别器包括：

7.根据权利要求6所述的音频处理装置，其中，所述第二特征提取器被配置成计算每个音频帧的谱与至少一个相邻音频帧的谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

8.根据权利要求7所述的音频处理装置，其中，所述第二特征提取器被配置成计算每个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

9.根据权利要求6所述的音频处理装置，其中，所述重音识别器包括：

10.根据权利要求9所述的音频处理装置，其中，所述重音识别器还包括：至少一个附加特征提取器，用于提取至少一个附加特征；以及子集选择器，用于从所述至少一个附加特征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集，并且所述分类器被配置成通过使用所述特征子集来识别重音帧。

11.根据权利要求2至10中的一项所述的音频处理装置，其中，所述分类器包括双向长短时存储器BLSTM。

12.根据权利要求1至10中的一项所述的音频处理装置，其中，所述速度估计器包括动态规划单元，所述动态规划单元将所述重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。

13.根据权利要求12所述的音频处理装置，其中，所述速度估计器还包括周期性估计器，用于估计所述重音序列在移动窗口内的针对不同的候选速度值的周期性值，并且所述动态规划单元包括路径度量单元，用于基于针对不同的候选速度值的所述周期性值来计算所述路径度量，其中，针对所述移动窗口的每一步估计速度值，所述移动窗口的大小取决于所估计的速度值的期望精度，并且所述移动窗口的步长取决于期望的对速度变化的灵敏度。

14.根据权利要求13所述的音频处理装置，其中，所述周期性估计器包括自相关函数ACF计算器，用于计算移动窗口内的所述重音概率得分的自相关值，作为所述周期性值。

15.根据权利要求14所述的音频处理装置，其中，所述速度估计器还包括增强器，用于使用间隔为与特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特定候选速度值的所述自相关值。

16.根据权利要求13所述的音频处理装置，其中，所述路径度量单元被配置成基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所述路径度量。

17.根据权利要求16所述的音频处理装置，其中，所述路径度量单元包括第一概率计算器，用于基于与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速度值的周期性值，来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概率。

18.根据权利要求16所述的音频处理装置，其中，所述路径度量单元还包括第二概率计算器，用于：针对特定移动窗口，基于与所述特定移动窗口相对应的可能的元数据值的概率和特定速度值在给定所述特定移动窗口的每个可能元数据值的条件下的条件概率，来计算特定候选速度值的先验概率。

19.根据权利要求18所述的音频处理装置，其中，所述元数据表示音频类型。

20.根据权利要求16所述的音频处理装置，其中，所述路径度量单元还包括第三概率计算器，用于：基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率，和针对所述可能的元数据值中的每一个从所述移动窗口的特定速度值转移到所述下一个移动窗口的特定速度值的概率，来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特定速度值的转移概率。

21.根据权利要求20所述的音频处理装置，其中，所述元数据表示音频类型。

22.根据权利要求12所述的音频处理装置，还包括：

23.根据权利要求22所述的音频处理装置，其中，所述拍子跟踪单元包括：

24.根据权利要求23所述的音频处理装置，其中，所述重音序列的所述段中的位置的初始得分基于所述帧的重音判定的概率得分来确定。

25.根据权利要求23所述的音频处理装置，其中，所述前趋跟踪单元被配置成在所述第一方向和所述第二方向两个方向上扫描所有锚点位置，获取每个位置分别在所述第一方向和所述第二方向上的两个得分，并且所述选择单元被配置成基于根据所述两个得分所获得的组合得分来选择所述种子。

26.根据权利要求23所述的音频处理装置，其中，所述前趋跟踪单元被配置成通过搜索基于所述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前的候选拍子位置。

27.根据权利要求26所述的音频处理装置，其中，所述前趋跟踪单元被配置成基于根据所述位置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分，以选择所述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置，并且基于所述搜索范围中的最高得分来更新所述锚点位置的得分。

28.一种音频处理方法，包括：

基于所述重音序列估计所述多个音频帧的速度序列。

29.根据权利要求28所述的音频处理方法，其中，所述识别操作包括：

30.根据权利要求29所述的音频处理方法，其中，所述提取操作包括使用分解算法来估计每个音频帧的所述至少一个冲击显著性特征：将所述音频帧分解成至少一个基本冲击声音分量，产生所述至少一个基本冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

31.根据权利要求29所述的音频处理方法，其中，所述提取操作包括使用分解算法来估计所述至少一个冲击显著性特征：将每个音频帧分解成至少一个基本冲击声音分量和至少一个基本非冲击声音分量，产生所述至少一个基本冲击声音分量和所述至少一个基本非冲击声音分量的混合因数的矩阵，所述混合因数整体地或单独地作为所述至少一个冲击显著性特征的基础。

32.根据权利要求29所述的音频处理方法，还包括使用所述音频帧的能量对每个音频帧的所述至少一个冲击显著性特征进行归一化。

33.根据权利要求28所述的音频处理方法，其中，所述识别操作包括：

34.根据权利要求33所述的音频处理方法，其中，所述提取操作包括计算每个音频帧的谱与至少一个相邻音频帧的谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

35.根据权利要求34所述的音频处理方法，其中，所述提取操作包括计算每个音频帧的对数谱与至少一个相邻音频帧的对数谱之间的差，作为每个音频帧的所述至少一个相对强度特征。

36.根据权利要求33所述的音频处理方法，其中，所述识别操作包括：

37.根据权利要求36所述的音频处理方法，其中，所述识别操作还包括提取至少一个附加特征，以及从所述至少一个附加特征、所述至少一个冲击显著性特征和所述至少一个相对强度特征中选择特征子集，并且所述分类操作包括通过使用所述特征子集来识别重音帧。

38.根据权利要求29至37中的一项所述的音频处理方法，其中，所述分类操作使用双向长短时存储器BLSTM来实现。

39.根据权利要求28至37中的一项所述的音频处理方法，其中，所述估计操作包括动态规划算法，所述动态规划算法将所述重音序列作为输入并且通过使沿着时间线包括预定数量的候选速度值的路径的路径度量最小化来输出最佳估计速度序列。

40.根据权利要求39所述的音频处理方法，其中，所述估计操作还包括：估计所述重音序列移动窗口内的针对不同的候选速度值的周期性值，并且所述动态规划处理包括：基于针对不同的候选速度值的所述周期性值来计算所述路径度量，其中，针对所述移动窗口的每一步估计速度值，所述移动窗口的大小取决于所估计的速度值的期望精度，并且所述移动窗口的步长取决于期望的对速度变化的灵敏度。

41.根据权利要求40所述的音频处理方法，其中，估计所述周期性值的操作包括计算移动窗口内的所述重音概率得分的自相关值，作为所述周期性值。

42.根据权利要求41所述的音频处理方法，其中，所述估计操作还包括:使用间隔为与特定候选速度值相对应的间隔的整数倍的情况下的自相关值来增强所述特定候选速度值的所述自相关值。

43.根据权利要求40所述的音频处理方法，其中，计算所述路径度量的所述操作包括基于周期性值在给定特定候选速度值的条件下的条件概率、特定候选速度值的先验概率和从速度序列中的一个特定速度值到另一个特定速度值的转移概率中的至少一个来计算所述路径度量。

44.根据权利要求43所述的音频处理方法，其中，所述计算路径度量的操作包括：基于与特定候选速度值有关的周期性值和对于特定移动窗口所有可能的候选速度值的周期性值，来计算该特定移动窗口的周期性值相对于所述特定候选速度值的条件概率。

45.根据权利要求43所述的音频处理方法，其中，所述计算路径度量的操作包括：针对特定移动窗口，基于与所述特定移动窗口相对应的可能的元数据值的概率和特定速度值在给定所述特定移动窗口的每个可能的元数据值的条件下的条件概率来，计算特定候选速度值的先验概率。

46.根据权利要求45所述的音频处理方法，其中，所述元数据表示音频类型。

47.根据权利要求43所述的音频处理方法，其中，所述计算路径度量的操作包括：基于与移动窗口或下一个移动窗口相对应的可能的元数据值的概率，和针对所述可能的元数据值中的每一个的从所述移动窗口的特定速度值转移到所述下一个移动窗口的特定速度值的概率，来计算从所述移动窗口的特定速度值到所述下一个移动窗口的特定速度值的转移概率。

48.根据权利要求47所述的音频处理方法，其中，所述元数据表示音频类型。

49.根据权利要求39所述的音频处理方法，还包括：

50.根据权利要求49所述的音频处理方法，其中，估计所述拍子位置的序列的操作包括：

51.根据权利要求50所述的音频处理方法，其中，所述重音序列的所述段中的位置的所述初始得分基于所述帧的重音判定的概率得分来确定。

52.根据权利要求50所述的音频处理方法，其中，所述跟踪操作包括在所述第一方向和所述第二方向两个方向上扫描所有锚点位置，获取每个位置分别所述第一方向和所述第二方向上的两个得分，并且所述选择操作包括基于根据所述两个得分所获得的组合得分来选择所述种子。

53.根据权利要求50所述的音频处理方法，其中，所述跟踪操作包括通过搜索基于所述速度序列中的相应的位置处的所述速度值所确定的搜索范围来跟踪所述在前的候选拍子位置。

54.根据权利要求53所述的音频处理方法，其中，所述跟踪操作包括基于根据所述位置和相应的速度值所计算的转移代价来更新所述搜索范围中的每个位置的得分，以选择所述搜索范围中具有最高得分的位置作为所述在前的候选拍子位置，并且基于所述搜索范围中的最高得分来更新所述锚点位置的得分。

55.一种用于训练用于识别音频片段中的重音/非重音帧的音频分类器的方法，包括：

将训练音频片段变换成多个帧；

标记所述多个帧中的重音帧；