CN104395953B

CN104395953B - 来自音乐音频信号的拍子、和弦和强拍的评估

Info

Publication number: CN104395953B
Application number: CN201280074293.7A
Authority: CN
Inventors: A·J·埃罗宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2012-04-30
Filing date: 2012-04-30
Publication date: 2017-07-21
Anticipated expiration: 2032-04-30
Also published as: EP2845188B1; CN104395953A; EP2845188A4; EP2845188A1; US9653056B2; US20160027420A1; WO2013164661A1

Abstract

提供了服务器系统500，其用于接收具有用于在该服务器系统处理的相关联的音频/音乐音轨的视频片段。该系统包括：拍子跟踪模块，其用于识别音频信号中的拍子时刻(t_i)，以及和弦变化估计模块，其用于从在所述拍子时刻(t_i)的所述音频信号中的色度重音信息确定和弦变化似然。此外，提供了基于第一重音和第二重音的估计模块，其用于使用各自不同算法从在所述拍子时刻(t_i)的所述音频信号确定各自的基于第一重音和第二重音的强拍似然值。处理的最后阶段使用预定义的基于分数的算法识别在拍子时刻(t_i)出现的强拍，该预定义的基于分数的算法采用在所述拍子时刻(t_i)的和弦变化似然和所述基于第一重音和第二重音的强拍似然的数值表示作为输入。

Description

来自音乐音频信号的拍子、和弦和强拍的评估

技术领域

本发明涉及用于音频信号分析的方法和系统，以及特别是涉及用于识别音乐信号中的强拍的方法和系统。

背景技术

在音乐术语中，强拍是小节线划分的节(还被称为小节)的第一拍或脉冲。它频繁地，尽管不总是，携带有节奏的循环的最强重音。因为当舞者使他们的移动跟随音乐时，音乐家演奏音乐以及为舞者伴奏，因此对于音乐家而言，强拍是重要的。

有许多实际应用，在该实际应用中，期望的是从音乐音频信号识别强拍的时间位置。此类应用包含：音乐推荐应用，在音乐推荐应用中，搜索与参考音轨类似的音乐，在唱片节目选播员(DJ)应用中，其中例如，要求在播放列表中的歌曲之间的无缝拍子混合过渡，以及要求以自动循环技术。

在使用强拍以帮助同步自动视频场景剪辑至音乐上有意义的点中，已经识别了特别有用的应用。例如，在从与相同音乐表演有关的不同源获得多个视频(具有音频)片段的地方，将期望的是，自动加入来自不同源的片段以及以美观的方式提供视频片段，就像创建专业音乐视频的方式。在这种情况下，有利的是，将视频镜头之间的切换同步到音乐强拍。

以下词语用于理解下面描述的某些概念。

音高：音符的基本频率(f₀)的生理关联。

色度(Chroma)，还被称为音级(pitch class)：由属于共同音级的整数八度分离的音乐音高。在西方音乐中，使用12音级。

拍子或基本拍(tactus)：音乐中的时间的基本单位，它能够被认为是速率，当听到一段音乐时，大多数人在该速率将使他们的脚轻打地面。该词语还用于表示属于单个拍子的音乐部分。

音乐速度：以每分钟拍子数(BPM)为单位表示的拍子或基本拍脉冲的速率。

小节或小节线划分的节：被定义成给定时间期间的给定数目的拍子的时间分割。例如，在具有4/4拍子记号的音乐中，每个小节包括4个拍子。

强拍：小节或小节线划分的节的第一拍子。

重音或基于重音的音频分析：分析音频信号以检测音乐中的事件和/或变化，包含但不限于所有离散声音事件的开始，尤其是长音高声音的起始，音色(timbre)的响度中的突然变化，以及和声变化。以下给出进一步的细节。

音乐节拍的人感知涉及推断来自音乐强音(即重音)的时刻的脉冲的有规律的模式。重音是由音乐中的各种事件导致的，包含所有离散声音事件的开始，尤其是长音高声音的起始，响度或音色中的突然变化，以及和声变化。自动音乐速度、拍子或强拍估计器可以通过测量音乐音频加重、估计潜在脉冲的时间段和阶段以及选择对应于音乐速度或感兴趣的一些其它韵律水平的水平，来试图模仿音乐节拍的人感知。因为重音与音乐中的事件有关，因此基于重音的音频分析指的是音乐中的事件和/或变化的检测。此类变化可以与信号的响度、频谱和/或音高内容中的变化有关。作为示例，基于重音的分析可以有关于检测来自信号的频谱变化、计算来自该信号的新奇度或起始检测函数、检测来自该信号的离散起始或检测该信号的音高和/或和声内容中的变化，例如使用色度特征。当执行频谱变化检测时，可以使用各种变换或滤波器组分解，诸如快速傅里叶变换或多速率滤波器组，或甚至基本频率fo或音高显著估计器。作为简单示例，可以通过计算在信号上的短帧中的一组频带上的信号的短时能量，以及接着计算每两个相邻帧之间的差，诸如欧式距离，来执行重音检测。为了增加针对各种音乐类型的鲁棒性，已经开发了许多不同重音信号分析方法。

下文中将描述的系统和方法利用在以下出版物中描述的背景知识，通过引用将以下出版物并入本文。

[1]Peeters and Papadopoulos，“Simultaneous Beat and Downbeat-TrackingUsing a Probabilistic Framework：Theory and Large-Scale Evaluation”.，″IEEETrans.Audio，Speech and Language Processing，Vol.19，No.6，Aug 2011.

[2]Eronen，A.and Klapuri，A.，″Music Tempo Estimation with k-NNregression，″IEEE Trans.Audio，Speech and Language Processing，Vol.18，No.1，Jan2010.

[3]Eronen，Hiipakka.“Joint Beat&Tatum Tracking from MusicSignals”，International Conference on Music Information Retrieval，ISMIR 2006and JarnoAntti Eronen，Jarmo Hiipakka：Method，apparatus and computerprogram product for providing rhythm information from an audio signal.NokiaNovember 2009：US 7612275.

[4]Antti Eronen and Timo Kosonen，”Creating and sharing variations ofa music file”-United States Patent Application 20070261537.

[5]Klapuri，A.，Eronen，A.，Astola，J.，″Analysis of the meter of acousticmusical signals，″IEEE Trans.Audio，Speech，and Language Processing，Vol.14，No.1，2006.

[6]Jehan，Creating Music by Listening，PhD Thesis，MIT，2005.http：// web.media.mit.edu/～tristan/phd/pdf/Tristan PhD MIT.pdf

[7]D.Ellis，“Beat Tracking by Dynamic Programming”，J.New MusicResearch，Special Issue on Beat and Tempo Extraction，vol.36 no.1，March 2007，pp.51-60.(10pp)DOI：10.1080/09298210701653344

发明内容

本发明的第一方面提供了装置，所述装置包括：拍子跟踪模块，其用于识别音频信号中的拍子时刻(t_i)；和弦变化估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定至少一个和弦变化似然；基于第一重音的估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定至少一个基于第一重音的强拍似然；以及强拍识别器，其用于使用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然来识别在拍子时刻(t_i)出现的强拍。

本发明的实施例能够提供用于确定音乐信号中的强拍的鲁棒和计算上简单的系统和方法。

所述强拍识别器可以被配置为使用预定义的基于分数的算法，该预定义的基于分数的算法采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

所述强拍识别器被配置为：使用基于判决的逻辑电路，该基于判决的逻辑电路采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

所述拍子跟踪模块可以被配置为：从所述音频信号提取重音特征以生成重音信号，从所述重音信号来估计所述音频信号的音乐速度，以及从所述音乐速度和所述重音信号来估计所述拍子时刻(t_i)。

所述拍子跟踪模块可以被配置为：借助于基于基本频率(f₀)的显著性分析提取色度重音特征来生成所述重音信号。

所述拍子跟踪模块可以被配置为：借助于所述音频信号的多速率滤波器组类型分解，来生成所述重音信号。

所述拍子跟踪模块可以被配置为：借助于基于基本频率显著性分析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解，生成所述重音信号。

所述和弦变化估计模块可以使用预定义的算法，该预定义的算法采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间的音高色度的值以及在之前的和/或随后拍子时刻或在之前的和/或随后拍子时刻之间的音高色度的一个或多个值作为输入。

所述预定义的算法可以采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间以及在预定数目的在前和随后拍子时刻或在预定数目的在前和随后拍子时刻之间的音高色度的值作为输入，以使用差的和或相似性计算来生成和弦变化似然。

所述预定义的算法可以采用在当前的以及在前和/或随后的拍子时刻或在当前的以及在前和/或随后的拍子时刻之间的平均音高色度的值作为输入。

所述预定义的算法可以被定义成：

其中x是色度或音级的数目，y是在前拍子时刻的数目以及z是随后拍子时刻的数目。

所述和弦变化估计模块可以被配置为：借助于基于基本频率(f₀)的显著性分析提取色度特征来计算所述音高色度或平均音高色度。

所述装置还可以包括：基于第二重音的估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第二，不同的，重音的强拍似然，以及其中所述强拍识别器还被配置为采用所述基于第二重音的强拍似然作为至所述基于分数的算法的输入。

基于重音的估计模块中的一个基于重音的估计模块可以被配置为将从针对所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号提取色度重音特征应用于预定义的似然算法或变换，使用基本频率(f₀)的显著性分析来提取所述色度重音特征。

所述基于重音的估计模块中的另一个基于重音的估计模块可以被配置为将从所述音频信号的多个子带中的每个子带提取的重音特征应用于预定义的似然算法或变换。

所述重音估计模块或每个重音估计模块可以被配置为在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间将所述重音特征应用于线性判别分析(LDA)变换，以获得各自的基于重音的数字似然。

所述装置还可以包括：用于在输入到所述强拍识别器之前正规化和弦变化似然以及所述基于重音的强拍似然或每个基于重音的强拍似然的值的构件。

所述正规化构件可以被配置为使用值的最大绝对值除这些值中的每个值。

所述强拍识别器可以被配置为：针对一组拍子时刻中的每个时刻生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或每个基于重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然值来识别强拍。

所述强拍识别器可以应用以下算法：

其中S(t_n)是拍子时刻t_n，t_n+M，t_n+2M，...，的集合，M是小节线划分的节中的拍子的数目，以及w_c，w_a和w_m分别是针对所述和弦变化概率、基于第一重音的强拍似然和基于第二重音的强拍似然的权重。

所述装置还可以包括：用于接收多个视频片段的构件，每个视频片段具有各自的具有共同内容的音频信号；以及视频编辑模块，其用于使用所识别的强拍来识别针对所述视频片段的可能的编辑点。

所述视频编辑模块还可以被配置为：在一个或多个编辑点加入多个视频片段以生成加入的视频片段。

本发明的第二方面提供了用于处理音频信号的装置，所述装置包括：拍子跟踪模块，其用于识别所述音频信号中的拍子时刻(t_i)；和弦变化估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号中的色度重音信息确定至少一个和弦变化似然；基于第一重音和第二重音的估计模块，其用于使用各自不同的算法从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定各自的基于第一重音和第二重音的强拍似然值；以及强拍识别器，其用于使用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的和弦变化似然的数值表示和所述基于第一重音和第二重音的强拍似然值来识别在拍子时刻(t_i)出现的强拍。

本发明的第三方面提供了一种方法，所述方法包括：识别音频信号中的拍子时刻(t_i)；从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定至少一个和弦变化似然；从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定至少一个基于第一重音的强拍似然；以及使用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述和弦变化似然和所述基于第一重音的强拍似然来识别在拍子时刻(t_i)出现的强拍。

识别强拍可以使用预定义的基于分数的算法，该预定义的基于分数的算法采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

识别强拍可以使用基于判决的逻辑，该基于判决的逻辑采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

识别拍子时刻(t_i)可以包括：从所述音频信号提取重音特征以生成重音信号，从所述重音信号来估计所述音频信号的音乐速度以及从所述音乐速度和所述重音信号来估计所述拍子时刻(t_i)。

所述方法还可以包括：借助于基于基本频率(f₀)的显著性分析提取色度重音特征来生成所述重音信号。

所述方法还可以包括：借助于所述音频信号的多速率滤波器组类型分解，来生成所述重音信号。

所述方法还可以包括：借助于基于基本频率显著性分析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解，生成所述重音信号。

确定和弦变化似然可以使用预定义的算法，该预定义的算法采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间的音高色度的值以及在之前的和/或随后拍子时刻(t_i)或在之前的和/或随后拍子时刻(t_i)之间的音高色度的一个或多个值作为输入。

所述预定义的算法可以被定义成：

确定和弦变化似然可以借助于基于基本频率(f₀)的显著性分析提取色度特征来计算所述音高色度或平均音高色度。

所述方法还可以包括：从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第二，不同的，重音的强拍似然，以及其中识别强拍还包括采用所述基于第二重音的强拍似然作为至所述基于分数的算法的输入。

确定所述基于重音的强拍似然中的一个基于重音的强拍似然可以包括：将从针对所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的音频信号提取的色度重音特征应用于预定义的似然算法或变换，使用基本频率(f₀)的显著性分析来提取所述色度重音特征。

确定所述基于重音的强拍似然中的另一个基于重音的强拍似然可以包括：将从所述音频信号的多个子带中的每个子带提取的重音特征应用于预定义的似然算法或变换。

确定所述基于重音的强拍似然可以包括：在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间将所述重音特征应用于线性判别分析(LDA)变换，以获得各自的基于重音的数字似然。

所述方法还可以包括：在识别强拍之前正规化和弦变化似然以及所述基于重音的强拍似然或每个基于重音的强拍似然的值。

所述正规化步骤可以包括：使用值的最大绝对值除这些值中的每个值。

识别强拍可以包括：针对一组拍子时刻中的每个时刻，生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或每个基于重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然值来识别强拍。

识别强拍可以使用算法：

其中S(t_n)是拍子时刻t_n，t_n+M，t_n+2M，...，的集合，M是小节线划分的节中的拍子的数目，以及w_c，w_a和w_m分别是针对和弦变化概率、基于第一重音的强拍似然和基于第二重音的强拍似然的权重。

本发明的第三方面提供了一种处理视频片段的方法，所述方法包括：接收多个视频片段，每个视频片段具有各自的具有共同内容的音频信号；执行所述第二方面的方法，或其任何优选的特征，以识别强拍；以及使用所识别的强拍来识别针对所述视频片段的编辑点。

第三方面的所述方法还可以包括：在所述编辑点加入多个视频片段以生成加入的视频片段。

本发明的第四方面提供了一种方法，所述方法包括：识别音频信号中的拍子时刻(t_i)；从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号中的色度重音信息确定至少一个和弦变化似然；使用各自不同的算法从在所述拍子时刻(ti)的所述音频信号确定各自的基于第一重音和第二重音的强拍似然值；以及使用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的和弦变化似然的数值表示和所述基于第一重音和第二重音的强拍似然值来识别在拍子时刻(t_i)出现的强拍。

本发明的第五方面提供了包括指令的计算机程序，当由计算机装置运行该指令时，该指令控制所述计算机装置以执行之前描述的方法。

本发明的第六方面提供了非短暂性的计算机可读存储介质，该非短暂性的计算机可读存储介质具有存储在其上的计算机可读代码，当由计算装置运行该计算机可读代码时，该计算机可读代码使得所述计算装置执行一种方法，所述方法包括：识别音频信号中的拍子时刻(ti)；从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述音频信号确定至少一个和弦变化似然；从在所述拍子时刻(ti或在所述拍子时刻(ti)之间的所述音频信号确定至少一个基于第一重音的强拍似然；以及使用在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的和弦变化似然和所述基于第一重音的强拍似然的数值表示来识别在拍子时刻(ti)出现的强拍。

本发明的第七方面提供了装置，所述装置具有至少一个处理器以及至少一个存储器，所述至少一个存储器具有存储在其上的计算机可读代码，当运行所述计算机可读代码时，所述计算机可读代码控制所述至少一个处理器：以识别音频信号中的拍子时刻(ti)；从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述音频信号确定至少一个和弦变化似然；从在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的所述音频信号确定至少一个基于第一重音的强拍似然；以及使用在所述拍子时刻(ti)或在所述拍子时刻(ti)之间的和弦变化似然和所述基于第一重音的强拍似然的数值表示来识别在拍子时刻(ti)出现的强拍。

附图说明

现在将通过参照附图的非限制性示例来描述本发明的实施例，在附图中：

图1是包含根据本发明的音乐分析服务器和多个终端的网络的示意图；

图2是图1中示出的终端中的一个终端的透视图；

图3是图2中示出的终端的组件的示意图；

图4是示出当在通常的音乐事件中使用时图1的终端的示意图；

图5是图1中示出的分析服务器的组件的示意图；以及

图6是由图1中示出的分析服务器执行的处理阶段的框图。

具体实施方式

以下描述的实施例涉及用于音频分析，主要是音乐以及它的音乐节拍的分析以便识别强拍的系统和方法。如上所述，强拍被定义为音乐的小节或小节线划分的节中的第一拍；它们被认为表示音乐上有意义的点，该音乐上有意义的点能够用于各种实际的应用，包含音乐推荐算法、DJ应用以及自动循环。以下描述的特定实施例涉及视频编辑系统，该视频编辑系统使用在它们相关联的音频音轨中识别的强拍作为视频角度切换点来自动地剪辑视频片段。

参照图1，音乐分析服务器500(下文中“分析服务器”)被示出为连接到网络300，网络300能够是任何数据网络，诸如局域网(LAN)、广域网(WAN)或互联网。分析服务器500被配置为分析与接收的视频片段相关联的音频，以便出于自动视频编辑的目的来识别强拍。随后将更详细地描述这个方面。

使用中的外部终端100、102、104经由网络300与分析服务器500通信，以便上载具有相关联的音频音轨的视频片段。在当前的实例中，终端100、102、104包含视频相机和音频捕获(即，麦克风)硬件以及软件以用于捕获、存储和上载和下载网络300上的视频数据。

参照图2，尽管其它终端102、104被认为是相同或相似的，但是示出了所述终端中的一个终端100。终端100的外部具有触摸敏感显示器102、硬件按键104、背面相机105、扬声器118以及耳机端口120。

图3示出了终端100的组件的示意图。终端100具有控制器106、触摸敏感显示器102(其包括显示部件108和触感接口部件110)、硬件按键104、相机132、存储器112、RAM 114、扬声器118、耳机端口120、无线通信模块122、天线124以及电池116。控制器106连接到其它组件(除了电池116外)中的每个组件，以便控制这些组件的操作。

存储器112可以是非易失性存储器，诸如只读存储器(ROM)、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器122存储操作系统126等，以及可以存储软件应用128。RAM 114由控制器106使用以用于数据的临时存储。操作系统126可以含有代码，当由控制器106结合RAM114来执行该代码时，该代码控制终端的硬件组件中的每个硬件组件的操作。

控制器106可以采取任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或多个处理器。

终端100可以是移动电话或智能电话、个人数字助理(PDA)、便携式媒体播放器(PMP)、便携式计算机或能够运行软件应用并提供音频输出的任何其它设备。在一些实施例中，终端100可以使用无线通信模块122和天线124来参与蜂窝通信。无线通信模块122可以被配置为经由若干协议(诸如全球移动通信(GSM)、码分多址接入(CDMA)、通用移动通信系统(UMTS)、蓝牙和IEEE 802.11(Wi-Fi))进行通信。

触摸敏感显示器102的显示部件108用于向终端的用户显示图像和文本，以及触觉接口部件110用于接收来自用户的触碰输入。

不但存储操作系统126和软件应用128，存储器112还可以存储多媒体文件，诸如音乐和视频文件。可以将各种各样的软件应用128(包含，网络浏览器、无线电和音乐播放器、游戏和实用软件)安装在终端上。存储在终端上的软件应用中的一些或全部软件应用可以提供音频输出。可以由终端的扬声器118(多个)或如果耳机或扬声器已经连接到耳机端口120，则由连接到耳机端口120的耳机或扬声器，将由应用提供的音频转变成声音。

在一些实施例中，终端100还可以与没有存储在终端上的外部软件应用相关联。这些外部软件应用可以是存储在远程服务器设备上的应用，以及可以在远程服务器设备上部分地或专门地运行。这些应用能够被称为云托管的应用。终端100可以与远程服务器设备进行通信，以便使用存储在那里的软件应用。这可以包含接收由外部软件应用提供的音频输出。

在一些实施例中，硬件按键104是专用的音量控制键或开关。硬件按键可以例如包括两个相邻的键，单个摇杆开关或旋转拨号盘。在一些实施例中，硬件按键104位于终端100的侧面。

存储在存储器112上的所述软件应用128中的一个软件应用是专用应用(或“App”)，该专用应用被配置为向分析服务器500上载捕获的视频片段(包含它们相关联的音频音轨)。

分析服务器500被配置为接收来自终端100、102、104的视频片段，以及出于自动视频处理和编辑(例如，在音乐上有意义的点将片段一起加入)的目的来识别在每个相关联的音频音轨中的强拍。替代识别每个相关联的音频音轨中的强拍，分析服务器500可以被配置为分析公共音频音轨中的强拍，已经通过组合来自一个或多个视频片段的音频音轨的部分获得了该公共音频音轨。

参照图4，现在将描述实际示例。终端100、102、104中的每个终端被示出为在由舞台区域1和扬声器3表示的音乐会的事件中被使用。每个终端100、102、104被认为正在使用它们各自的视频相机来捕获该事件；给定终端100、102、104的不同方位，各自视频片段将是不同的，但是假如它们都在公共的时间段上进行捕获，则将具有公共的音频音轨。

终端100、102、104的用户随后使用他们的上述App或从计算机(该终端与该计算机同步)将他们的视频片段上载到分析服务器500。同时，提示用户以标识该事件，通过输入该事件的描述或通过从下拉菜单选择已经注册的事件。可以设想可替代的标识方法，例如通过使用来自终端100、102、104的相关联的GPS数据以标识捕获的位置。

在分析服务器500，接收的来自终端100、102、104的视频片段被标识为与公共事件相关联。接着能够执行每个视频片段的随后分析，以识别强拍，该强拍用作用于自动视频编辑的有用的视频角度切换。

参照图5，示出了分析服务器500的硬件组件。这些硬件组件包含：控制器202、输入和输出接口204、存储器206以及用于存储接收的视频和音频片段的大容量存储设备208。控制器202连接到其它组件中的每个组件，以便控制它们的操作。

存储器206(以及大容量存储设备208)可以是非易失性存储器，诸如只读存储器(ROM)、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器206存储操作系统210等，以及可以存储软件应用212。RAM(未示出)由控制器202使用以用于数据的临时存储。操作系统210可以含有代码，当由控制器202结合RAM来执行该代码时，该代码控制硬件组件中的每个硬件组件的操作。

控制器202可以采用任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或多个处理器。

软件应用212被配置为控制和执行视频处理，包含处理相关联的音频信号以识别强拍。

现在将参照图6描述强拍识别过程。

将看到的是，定义了三个处理路径(左、中、右)；应用于每个处理阶段的标记不是指示处理的顺序。在一些实现方式中，可以并行地执行三个处理路径，允许快速运行。概述地，执行拍子跟踪以识别或估计音频信号中的拍子时间。接着，在拍子时间，每个处理路径生成表示当前拍子是强拍的有差异地导出的似然的数值。这些似然值被正规化，以及接着在基于分数的判决算法中被求和，该基于分数的判决算法识别在邻接拍子的窗口中的哪个拍子是强拍。

基于基本频率的色度特征提取

在步骤6.1中，方法通过基于基本频率(f₀)的显著性估计生成被计算的两个信号开始。

一个信号表示色度重音信号，在步骤6.2中使用在[2]中描述的方法从显著性信息提取该色度重音信号。色度重音信号被认为表示根据时间的音乐变化。因为基于f₀信息来提取这个重音信号，因此，它着重信号中的和声和音高信息。

色度重音信号用于两个目的。首先，它用于估计音乐速度和拍子跟踪。它还用于生成似然值，随后进行描述。

拍子跟踪

色度重音信号用于计算音乐速度(BPM)的估计以及用于拍子跟踪。对于BPM确定，也利用在[2]中描述的方法。可替代地，能够使用针对BPM确定的其它方法。

为了获得最佳的时刻，利用如在[7]中描述的动态规划例程。可替代地，能够利用在[3]中描述的拍子跟踪方法。可替代地，能够利用任何合适的拍子跟踪例程，给定一个或多个重音信号作为输入以及音乐信号的BPM的至少一个估计，其能够找到音乐信号上的拍子时间的序列。替代在色度重音信号上进行操作，拍子跟踪可以在多速率重音信号或色度重音信号和多速率重音信号的任何组合上进行操作。可替代地，任何合适的重音信号分析方法、周期性分析方法以及拍子跟踪方法可以用于获得音乐信号中的拍子。在一些实施例中，由拍子跟踪步骤要求的信息的一部分可以起源于音频信号分析系统的外部。一个示例将是将外部地提供信号的BPM估计的方法。

生成的拍子时间t_i用作针对随后将描述的强拍确定阶段以及针对图6过程的所有三个分支中的数据的同步处理的输入。最后，任务是确定这些拍子时间中的哪个拍子时间对应于强拍，也就是说在小节或小节线划分的节中的第一拍子。

色度差计算&和弦变化概率

左手路径(步骤6.5和步骤6.6)计算什么样的平均音高色度在上述拍子位置处以及推断和弦变化概率，如果该概率高，则该概率被认为指示强拍。现在将描述每个步骤。

拍子同步色度计算

在步骤6.5，在[2]中描述的方法用于获得色度向量，以及针对每个拍子位置计算平均色度向量。可替代地，可以使用用于获得色度向量的任何合适的方法。例如，计算上简单的方法将使用快速傅里叶变换(FFT)以计算在对应于两个拍子之间的音乐信号的一个或多个帧中的信号的短时频谱。接着，能够通过对属于相同音级的FFT的量级箱(bin)求和，来获得色度向量。此类简单的方法可能不能提供最可靠的色度和/或和弦变化估计，但是如果需要将系统的计算代价保持非常低，则可以是可行的解决方案。

替代计算每个拍子位置处的色度，能够使用子拍子分辨率。例如，能够计算每一个拍子的两个色度向量。

色度差计算

接着，在步骤6.6，通过针对每个拍子位置的先前确定的平均色度向量进行差分运算来估计“和弦变化概率”。

试图检测和弦变化以和弦变化常常发生在强拍处的音乐学知识为动机。以下函数用于估计和弦变化概率：

在Chord_change(t_i)中的第一个求和项表示当前拍子色度向量与三个之前的色度向量之间的绝对差的和。第二个求和项表示下三个色度向量的和。当和弦变化发生在拍子t_i时，当前拍子色度向量与三个之前的色度向量之间的差将大于与下三个色度向量之间的差。因此，如果和弦变化发生在时间t_i，则Chord_change(t_i)的值将是峰值。

已经在[1]和[6]中使用了类似的原理，但是实际计算不同。

针对Chord_change函数的可替代方案或变型包含例如：在j的求和中使用超过12个音级。在一些实施例中，音级的值可以是例如36，对应于每个八度具有36个箱(bin)的1/3^rd半音分辨率。例如，在3/4拍号的情况下，k的值的范围能够从1至2。在一些其它实施例中，在和弦变化概率估计中使用的先前的以及随后的拍子时刻的数量可以不同。能够使用各种其它的距离或失真测量，诸如，欧式距离、余弦距离、曼哈坦距离、马氏距离。还能够应用统计测量，诸如散度，包含例如Kullback-Leibler散度。可替代地，能够替代差而使用相似性。以上Chord_change函数的益处是，它在计算上非常简单。

色度重音和多速率重音计算

关于中央路径(步骤6.2，6.3)，以上有关于拍子跟踪已经描述了生成基于显著性的色度重音信号的过程。在所确定的拍子时刻，将色度重音信号应用于步骤6.3中的线性判别变换(LDA)，以下提到。

关于右手路径(步骤6.8，6.9)，使用在[3]中描述的重音信号分析方法来计算另一个重音信号。使用信号的计算上高效的多速率滤波器组分解来计算这个重音信号。

当与之前描述的基于F₀显著性的重音信号比较时，这种多速率重音信号更有关于信号中的鼓和打击乐器内容，以及不着重和声信息。因为，周知的是，鼓模式和和声变化对于强拍确定是重要的，使用/合并两种类型的重音信号是有吸引力的。

重音信号的LDA变换

下一个步骤对在步骤6.2和步骤6.8生成的重音信号在拍子时刻执行各自的LDA变换，以从每个处理路径获得针对每个拍子时刻的强拍似然。

LDA变换方法能够被认为是针对在[5]中呈现的测量模板的替代方案。在[5]中的测量模板的思想是在一个测量期间建模音乐中的典型的加重音频模式。例如，典型模式能够是低声，高声，-，高声，意味着在第一拍子处具有许多低频能量的重音，跨越第二拍子上的频谱具有许多能量的重音，在第三拍子上没有重音，以及跨越第四拍子上的频谱具有许多能量的重音。这对应于例如鼓模式低音，小鼓，-，小鼓。

与手工设计节奏模板相比，使用LDA模板的益处是，能够从手动注释的训练数据的集合来训练它们，而节奏模板是手工获得的。这增加了基于我们的模拟的强拍确定的准确性。

在[1]中建议针对拍子确定使用LDA。因此，在[1]和本实施例之间的主要区别是，这里我们使用用于在“强拍”和“拍子”之间进行区分的LDA训练模板，而在[1]中，在“拍子”和“非拍子”之间进行区分。

参照[1]，将了解的是，LDA分析涉及训练阶段和评估阶段。

在训练阶段，执行两次LDA分析，各自针对基于显著性的色度重音信号(来自步骤6.2)和多速率重音信号(来自步骤6.8)。

来自步骤6.2的色度重音信号是一维向量。

针对两个LDA变换阶段(步骤6.3，6.9)的训练方法如下：

1)在拍子位置处对重音信号进行采样；

2)检查在一个拍子步处的所采样的重音信号，依次采用4个拍子的窗口；

3)如果在4个拍子的窗口中的第一个拍子是强拍，则将对应于该4个拍子的重音信号的采样值添加到正面例子集合；

4)如果在4个拍子的窗口中的第一个拍子不是强拍，则将对应于该4个拍子的重音信号的采样值添加到负面例子集合；

5)存储所有正例子和负例子。在来自步骤6.2的色度重音信号的情况下，每个例子是长度为4的向量；

6)在已经(从具有注释的拍子和强拍时间的歌曲的目录)收集了所有数据后，执行LDA分析以获得变换矩阵。

当训练LDA变换时，有利地是采用与具有的负面例子(没有强拍)一样多的(强拍的)正面例子。这能够通过随机地挑选负面例子的子集以及使得该子集大小匹配正面例子的集合的大小来实现。

7)在M乘d矩阵[X]中收集正面例子和负面例子。M是样本的数目，d是数据维度。在来自步骤6.2的色度重音信号的情况下，d＝4。

9)通过跨越行减去均值以及除以标准差来正规化矩阵[X]。

10)执行如本领域已知的LDA分析，以获得线性系数W。还存储训练数据的均值和标准差。

在在线强拍检测阶段(即，评估阶段步骤6.3和6.9)中，使用以下方法来获得强拍似然：

-对于每个识别的拍子时间，构建在该拍子时刻以及三个随后的拍子时刻的重音信号值的特征向量x；

-减去均值以及使用训练数据的标准差除输入特征向量x；

-计算针对拍子时刻的分数x*W，其中x是1乘d输入特征向量以及W是大小d乘1的线性系数向量。

高分数可以指示高强拍似然，以及低分数可以指示低强拍似然。

在来自步骤6.2的色度重音信号的情况下，特征向量的维数d是4，对应于每个拍子一个重音信号样本。在来自步骤6.8的多速率重音信号的情况下，重音具有4个频带，以及特征向量的维数是16。

通过将带状(bandwise)特征值的矩阵拆解到向量中来构建特征向量。

在拍号不同于4/4的情况下，相应地修改以上处理。例如，当训练针对3/4拍号的LDA变换矩阵时，在三个拍子的窗口中使重音信号行进。可以训练若干此类变换矩阵，例如，系统需要能够在对应于每个拍号的变换矩阵下进行操作。

针对LDA变换的各种可替代方案是可能的。这些可替代方案包含例如，训练任何分类器，预测器或回归模型，其能够建模重音信号值和强拍似然之间的依赖性。示例包含例如，具有各种核心的支持向量机，高斯或其它概率分布、概率分布的混合、k-最近邻居回归、神经网络、模糊逻辑系统、判决树等。LDA的益处是，它易于实现并且计算上简单。

强拍候选评分和强拍确定

当已经使用上述步骤处理了音频时，通过以非因果的方式将和弦变化似然和基于第一重音和第二重音的似然值应用于基于分数的算法，来生成针对强拍的估计。在计算最终分数之前，通过使用和弦变化概率和两个强拍似然信号的最大绝对值来除，对和弦变化概率和两个强拍似然信号进行正规化(见，步骤6.4，6.7和6.10)。

可能的第一强拍是t₁、t₂、t₃、t₄，以及被选择的一个是最大化以下的一个：

S(t_m)是拍子时间t_n，t_n+4，t_n+8，...的集合。

w_c，w_a和w_m分别是针对和弦变化概率、基于色度重音的强拍似然以及基于多速率重音的强拍似然的权重。步骤6.11表示以上求和，以及步骤6.12基于针对可能的强拍窗口的最高分数的确定。

注意的是，在4/4拍号的情况下，呈现以上评分函数。在3/4拍号的情况下，例如，能够跨越每三个拍子来进行求和。各种修改是可能的和明显的，诸如替代求和而使用基于不同重音信号的和弦变化概率的乘积，或使用中间值而不是平均值。此外，能够实现更复杂的判决逻辑，例如，一种可能性能够是训练分类器，该分类器将输入score(t_n)以及输出针对强拍的判决。作为另一个示例，能够训练分类器，该分类器将输入和弦变化概率、基于色度重音的强拍似然和/或基于多速率重音的强拍似然，以及该分类器将输出针对强拍的判决。例如，神经网络能够用于学习强拍似然曲线与强拍位置之间的匹配(包含权重w_c、w_a和w_m)。一般地，能够通过任何判决逻辑来进行强拍的确定，该任何判决逻辑能够采用和弦变化概率和强拍似然曲线作为输入以及产生强拍位置作为输出。另外，在我们能够假设音乐在某一拍号含有仅完整小节的情况下，可以在该信号中的所有拍子上计算以上分数。作为另一个示例，能够在子拍子分辨率处，例如在每半个拍子处计算以上分数。在不是所有小节都是完整的情况下，可以在该信号上的某一持续时间的窗口中计算以上分数。以上评分方法的益处是，它计算上非常简单。

已经识别了视频的音频音轨内的强拍，有意义的编辑点的集合可以被分析服务器中的软件应用212利用以用于做出针对视频的音乐上有意义的剪辑。

将了解的是，上述实施例完全是说明性的，以及不限制本发明的范围。对于本领域的技术人员来说，在阅读了本申请后，其它的变型和修改将是明显的。

此外，本申请的公开应当被理解为包含：在本文中明确地或隐含地公开的特征的任何新颖特征或特征的任何新颖组合或它们的任何一般化，以及在本申请或从本申请得到的任何应用的诉讼期间，可以构想新的权利要求以覆盖任何此类特征和/或此类特征的组合。

Claims

1.一种用于识别音频信号中的强拍的方法，包括：

识别音频信号中的拍子时刻(t_i)；

从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定和弦变化似然；

从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第一重音的强拍似然；

从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第二，不同的，重音的强拍似然，

正规化所确定的和弦变化似然和所述基于第一重音的强拍似然和所述基于第二重音的强拍似然；以及

通过以下来识别强拍：针对一组拍子时刻中的每个拍子时刻，生成表示或包含所确定的和弦变化似然和所述基于第一重音的强拍似然和所述基于第二重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然来识别强拍。

2.根据权利要求1所述的方法，其中识别强拍使用预定义的基于分数的算法，该预定义的基于分数的算法采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

3.根据权利要求1所述的方法，其中识别强拍使用基于判决的逻辑电路，该基于判决的逻辑电路采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

4.根据权利要求1所述的方法，其中识别拍子时刻(t_i)包括：从所述音频信号提取重音特征以生成重音信号，从所述重音信号来估计所述音频信号的音乐速度以及从所述音乐速度和所述重音信号来估计所述拍子时刻(t_i)。

5.根据权利要求4所述的方法，包括：借助于基于基本频率(f₀)的显著性分析提取色度重音特征来生成所述重音信号。

6.根据权利要求4所述的方法，包括：借助于所述音频信号的多速率滤波器组类型分解，来生成所述重音信号。

7.根据权利要求5或6所述的方法，包括：通过基于基本频率显著性分析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解，生成所述重音信号。

8.根据权利要求1所述的方法，其中确定所述和弦变化似然使用预定义的算法，该预定义的算法采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间的音高色度的值以及在之前的和/或随后拍子时刻(t_i)或在之前的和/或随后拍子时刻(t_i)之间的音高色度的一个或多个值作为输入。

9.根据权利要求8所述的方法，其中所述预定义的算法采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间以及在预定数目的在前和随后拍子时刻或在预定数目的在前和随后拍子时刻之间的音高色度的值作为输入，以使用差的和或相似性计算来生成和弦变化似然。

10.根据权利要求8或权利要求9所述的方法，其中所述预定义的算法采用在当前的以及在前和/或随后的拍子时刻或在当前的以及在前和/或随后的拍子时刻之间的平均音高色度的值作为输入。

11.根据权利要求10所述的方法，其中所述预定义的算法被定义成：

C h o r d_c h a n g e (t_{i}) = Σ_{j = 1}^{x} Σ_{k = 1}^{y} | {\overset{&OverBar;}{C}}_{j} (t_{i}) - {\overset{&OverBar;}{C}}_{j} (t_{i - k}) | - Σ_{j = 1}^{x} Σ_{k = 1}^{z} | {\overset{&OverBar;}{C}}_{j} (t_{i}) - {\overset{&OverBar;}{C}}_{j} (t_{i + k}) |

其中x是色度或音级的数目，y是在前拍子时刻的数目，z是随后拍子时刻的数目，是拍子色度向量，Chord_change(t_i)是和弦变化概率。

12.根据权利要求8、9或11所述的方法，其中确定所述和弦变化似然包括借助于基于基本频率(f₀)的显著性分析提取色度特征来计算所述音高色度或平均音高色度。

13.根据权利要求1所述的方法，其中确定所述基于重音的强拍似然中的一个基于重音的强拍似然还包括：将从针对所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号提取色度重音特征应用于预定义的似然算法或变换，使用基本频率(f₀)的显著性分析来提取所述色度重音特征。

14.根据权利要求13所述的方法，其中确定所述基于重音的强拍似然包括：在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间将所述重音特征应用于线性判别分析(LDA)变换，以获得各自的基于重音的数字似然。

15.根据权利要求1所述的方法，其中所述正规化步骤包括：使用值的最大绝对值除这些值中的每个值。

16.根据权利要求1所述的方法，其中识别强拍包括：针对一组拍子时刻中的每个时刻，生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或每个基于重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然值来识别强拍。

17.一种用于识别音频信号中的强拍的装置，包括：

拍子跟踪模块，其用于识别音频信号中的拍子时刻(t_i)；

和弦变化估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定和弦变化似然；

基于第一重音的估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第一重音的强拍似然；

基于第二重音的估计模块，其用于从在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号确定基于第二，不同的，重音的强拍似然；

用于正规化所确定的和弦变化似然和所述基于第一重音的强拍似然和所述基于第二重音的强拍似然的构件；以及

强拍识别器，其用于通过以下来识别强拍：针对一组拍子时刻中的每个拍子时刻，生成表示或包含所确定的和弦变化似然和所述基于第一重音的强拍似然和所述基于第二重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然来识别强拍。

18.根据权利要求17所述的装置，其中所述强拍识别器被配置为使用预定义的基于分数的算法，该预定义的基于分数的算法采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

19.根据权利要求17所述的装置，其中所述强拍识别器被配置为使用基于判决的逻辑电路，该基于判决的逻辑电路采用在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所确定的和弦变化似然和所述基于第一重音的强拍似然的数值表示作为输入。

20.根据权利要求17至19任一所述的装置，其中所述拍子跟踪模块被配置为从所述音频信号提取重音特征以生成重音信号，从所述重音信号来估计所述音频信号的音乐速度以及从所述音乐速度和所述重音信号来估计所述拍子时刻(t_i)。

21.根据权利要求20所述的装置，其中所述拍子跟踪模块被配置为通过基于基本频率(f₀)的显著性分析提取色度重音特征，来生成所述重音信号。

22.根据权利要求20所述的装置，其中所述拍子跟踪模块被配置为：借助于所述音频信号的多速率滤波器组类型分解，来生成所述重音信号。

23.根据权利要求21或22所述的装置，其中所述拍子跟踪模块被配置为：通过基于基本频率显著性分析提取色度重音特征结合所述音频信号的多速率滤波器组类型分解，生成所述重音信号。

24.根据权利要求17所述的装置，其中所述和弦变化估计模块使用预定义的算法，该预定义的算法采用在当前拍子时刻(t_i)或在当前拍子时刻(t_i)之间的音高色度的值以及在之前的和/或随后拍子时刻或在之前的和/或随后拍子时刻之间的音高色度的一个或多个值作为输入。

25.根据权利要求24所述的装置，其中所述预定义的算法采用在所述当前拍子时刻(t_i)或在所述当前拍子时刻(t_i)之间以及在预定数目的在前和随后拍子时刻或在预定数目的在前和随后拍子时刻之间的音高色度的值作为输入，以使用差的和或相似性计算来生成和弦变化似然。

26.根据权利要求24或25所述的装置，其中所述预定义的算法采用在当前的以及在前和/或随后的拍子时刻或在当前的以及在前和/或随后的拍子时刻之间的平均音高色度的值作为输入。

27.根据权利要求26所述的装置，其中所述预定义的算法被定义成：

C h o r d_c h a n g e (t_{i}) = Σ_{j = 1}^{x} Σ_{k = 1}^{y} | {\overset{&OverBar;}{C}}_{j} (t_{i}) - {\overset{&OverBar;}{C}}_{j} (t_{i - k}) | - Σ_{j = 1}^{x} Σ_{k = 1}^{z} | {\overset{&OverBar;}{C}}_{j} (t_{i}) - {\overset{&OverBar;}{C}}_{j} (t_{i + k}) |

28.根据权利要求24或25所述的装置，其中所述和弦变化估计模块被配置为：借助于基于基本频率(f₀)的显著性分析提取色度特征来计算所述音高色度或平均音高色度。

29.根据权利要求17所述的装置，其中基于重音的估计模块中的一个基于重音的估计模块被配置为将从针对所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间的所述音频信号提取色度重音特征应用于预定义的似然算法或变换，使用基本频率(f₀)的显著性分析来提取所述色度重音特征。

30.根据权利要求29所述的装置，其中重音估计模块或每个重音估计模块被配置为在所述拍子时刻(t_i)或在所述拍子时刻(t_i)之间将所述重音特征应用于线性判别分析(LDA)变换，以获得各自的基于重音的数字似然。

31.根据权利要求17所述的装置，其中正规化构件被配置为使用值的最大绝对值除这些值中的每个值。

32.根据权利要求17所述的装置，其中所述强拍识别器被配置为：针对一组拍子时刻中的每个时刻，生成表示或包含所述和弦变化似然值和所述基于重音的强拍似然或每个基于重音的强拍似然的和的分数，以及从在所述一组拍子时刻上的最高的生成的似然值来识别强拍。