CN101452696B

CN101452696B - 信号处理装置、信号处理方法和程序

Info

Publication number: CN101452696B
Application number: CN2008101857187A
Authority: CN
Inventors: 武田晴登
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-07
Filing date: 2008-12-08
Publication date: 2012-11-28
Anticipated expiration: 2028-12-08
Also published as: US20090288546A1; JP4640407B2; JP2009139769A; CN101452696A; US7863512B2

Abstract

本发明提供了一种用于对音频信号进行处理的信号处理装置，该信号处理装置包括：发音时刻检测单元，用于基于所述音频信号的水平来检测发音时刻；和音拍长度计算单元，用于通过如下方式来获得音拍长度Q：设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)表示当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率，该辅助函数用于引导造成所述目的函数P(Q|X)的单调增加的所述音拍长度Q和音乐速度Z二者的更新；并重复所述辅助函数的最大化以使得所述辅助函数收敛。

Description

信号处理装置、信号处理方法和程序

相关申请的交叉引用

本发明包含与2007年12月7日向日本专利局提交的日本专利申请JP 2007-317722相关的主题内容，其全部内容通过引用而合并于此。

技术领域

[01]本发明涉及信号处理装置、信号处理方法和程序。

背景技术

[02]作为检测音乐作品等的音频信号的音乐速度(tempo)的方法，已知有这种方法：通过观察音频信号的发音开始时刻的自相关函数的峰值部分和水平，来分析发音时刻的周期性，并从该分析结果来检测音乐速度或者说一分钟内四分音符的数量。例如，在如日本专利申请特开No.2005-274708号公报所记载的音乐分析技术中，使音频信号的功率(信号水平)的短时间平均的时间变化(以下称作“功率包络”)被处理的水平信号经过傅立叶分析，以获得功率谱，获得该功率谱的峰值以检测音乐速度，进而作为后处理而使用从功率谱得到的特征量来将音乐速度校正至2^N倍。

发明内容

然而，在日本专利申请公开No.2005-274708号公报中记载的音乐分析技术获得如整体乐曲的音乐速度的至少几十秒的区间内的恒定音乐速度，而不能估计将各音长(例如0.2～2秒)的波动也考虑在内的更细范围中的音乐速度和音拍。没有将要分析的更细范围中的音乐速度、节奏等作为对象，并且对于音乐速度在约几十秒的区间中变化的情况(例如，音乐速度在一首乐曲内渐渐加快/放慢的情况)不能作出响应。

其它音乐速度估计方法包括获得恒定时间长度(约几十秒钟)上恒定音乐速度的方法。这种方法包括(1)获得音频信号的功率的时间变化的自相关函数的方法。考虑到功率谱是通过对该自相关函数做傅立叶变换而得的，该方法基本上通过与音乐分析技术相似的方法来获得音乐速度。该方法还包括(2)将在发音时刻的间隔处出现频率最高的时间长度估计为音乐速度的方法。

然而，在以上任何方法中，假定音频信号所代表的音乐的音乐速度恒定，而不能对于音乐速度不恒定的情况作出响应。于是，不能对音乐速度不恒定的、记录正常的人类的演奏者所作的现场音乐的音频信号作出响应，从而不能获得适当的音拍。

本发明是有鉴于上述问题而做出的，并且期望提供一种即使在音频信号的音乐速度变化的情况下也能够从音频信号中获得适当的音拍的新颖且改进的信号处理装置、信号处理方法和程序。

根据本发明的实施例，提供了一种对音频信号进行处理的信号处理装置，所述信号处理装置包括：发音时刻检测单元，用于基于音频信号的水平来检测发音时刻；和音拍长度计算单元，用于通过如下方式获得音拍长度Q：即设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)代表当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率，该辅助函数用于引起造成所述目的函数P(Q|X)单调增加的所述音拍长度Q和音乐速度Z二者的更新；并重复辅助函数的最大化以使得辅助函数收敛。

辅助函数可基于音拍长度Q的更新算法来设置，在该更新算法中将音频信号的音乐速度Z设为潜在变量，并使得后验概率P(Q|X)的对数单调增加，该后验概率P(Q|X)是通过获得潜在变量的期望值而得到的。

音拍长度计算单元可由EM算法来导出辅助函数。

音拍长度计算单元可基于音频信号的功率的时间变化的自相关函数来获得音频信号的音乐速度Z的初始概率分布，并将该音乐速度Z的初始概率分布用作包含在辅助函数中的音乐速度Z的概率分布的初始值。

还可进一步配备音乐速度计算单元，用于基于由所述音拍长度计算单元获得的音拍长度Q和间隔X来获得音频信号的音乐速度Z。

根据本发明的另一实施例，提供了一种对音频信号进行处理的信号处理方法，所述信号处理方法包括以下步骤：基于音频信号的水平来检测发音时刻；和通过以下方式获得音拍长度Q：设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)代表当给出所述发音时刻之间的间隔X时该间隔X是所述音拍长度Q的概率，该辅助函数用于引起造成目的函数P(Q|X)的单调增加的音拍长度Q和音乐速度Z二者的更新；以及重复所述辅助函数的最大化以使得所述辅助函数收敛。

根据本发明的又一实施例，提供了一种使得计算机执行以下步骤的程序：基于音频信号的水平来检测发音时刻；通过以下方式获得音拍长度Q：设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)代表当给出所述发音时刻之间的间隔X时该间隔X是所述音拍长度Q的概率，该辅助函数用于引起造成目的函数P(Q|X)的单调增加的音拍长度Q和音乐速度Z二者的更新；以及重复辅助函数的最大化以使得所述辅助函数收敛。

根据以上配置，基于音频信号的水平来检测发音时刻T，通过以下方式获得音拍长度Q：设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)代表当给出发音时刻之间的间隔X时该间隔X是音拍长度Q的概率，该辅助函数用于引起造成目的函数P(Q|X)的单调增加的音拍长度Q和音乐速度Z二者的更新；以及重复辅助函数的最大化以使得辅助函数收敛。根据该配置，通过对于从音频信号检测的发音间隔而获得最有可能的音拍长度，可以以概率方式从音频信号估计音拍。

如上所述，即使在音频信号的音乐速度变化且音拍波动的情况下，也能够从音频信号获得适当的音拍。

附图说明

图1是示出了根据本发明的第一实施例的音拍和发音时刻之间的关系的说明图；

图2是示出了根据本实施例的信号处理装置的硬件配置的框图；

图3是示出了根据本实施例的信号处理装置的配置的功能框图；

图4是示出了由根据本实施例的信号处理装置执行的信号处理方法的概要的说明图；

图5是示出了根据本实施例的音频信号的功率包络的自相关函数和音乐速度的概率分布之间的关系的说明图；

图6是示出了根据本实施例的音拍分析方法的流程图；

图7是示出了图6的发音时刻检测处理的流程图；

图8是示出了图6的音拍估计处理的例子的流程图；

图9是示出了根据本实施例的音乐速度分析方法的流程图；

图10A是根据本实施例的信号处理装置的预处理后和音拍分析前的显示画面例子；以及

图10B是根据本实施例的信号处理装置的音拍分析后的显示画面例子。

具体实施方式

以下参照附图来详细地说明本发明的优选实施例。注意，在本说明书和附图中，将实质上具有相同功能和结构的结构要素标以相同附图标记，并省略对这些结构要素的重复说明。

第一实施例

以下说明根据本发明的第一实施例的信号处理装置、信号处理方法和程序。

首先说明本实施例的概要。本实施例对音乐速度有波动的音乐的音频信号(指的是包括声音信号等的音频信号)进行分析处理，并进行音拍分析处理，该音拍分析处理获得成为音乐的音拍的打击点的时刻和代表音拍的时间间隔[秒/拍]的音乐速度。

音乐的音拍是代表由音频信号所表示的音乐(乐曲、声音等)的音乐特征的特征量，并被用作用来推荐或搜索音乐的重要特征量。该音拍是进行预处理以进行复杂的音乐分析并使音乐与机器人舞蹈和其它多媒体同步所需的，因而具有广泛的应用。

所演奏的声音的长度由音拍和音乐速度这两个音乐时间要素来决定。因此，从所演奏的声音的长度来同时确定音拍和音乐速度是一种不能从数学上唯一确定解的不适定问题。进而，当成为音乐速度或音拍的时刻有波动时难以准确地获得音拍。

在本实施例中，进行使用概率模型的音拍分析，以从音乐等的音频信号获得音拍。在该音拍分析中，通过对于从音频信号中检测出的发音时刻而获得最有可能的音拍，从而可以概率方式从音频信号中估计音拍。换句话说，在根据本发明的音拍分析中，当提供与音频信号的发音时刻相关的信息时，与该发音时刻T对应的发音是音频信号中的音拍的概率被设置为目的函数，并获得使该目的函数最大化的音拍。对音乐速度的存在以概率方式进行处置的框架可包括表示从音频信号的功率包络(powerenvelope)的自相关函数获得的音乐速度的可信度的信息(音乐速度的概率分布)，因而可执行健壮的估计。即使在音乐的音乐速度变化的情况下，如音乐速度在一首乐曲内渐渐加快/放慢，也可估计该音乐的音乐速度。

在根据本实施例的概率模型中，以概率方式对从音乐中演奏的音拍和该演奏中波动的音乐速度而生成发音时刻的序列这一过程进行模型化。在使用包含音乐速度作为潜在变量的概率模型的音拍估计中，以概率方式考虑音乐速度的存在获得目的函数的最大值(准最佳解)，而不是唯一地限定作为潜在变量的音乐速度的值。这是使用用于进行使目的函数增加的音拍更新的辅助函数来实现的。辅助函数(Q函数)是使得从潜在变量的期望值得到的后验概率的对数单调增加的音拍的更新算法，且具体地例如EM(Expectation-Maximization，期望最大)算法，其中潜在变量是音乐速度。

在使用该概率模型的音拍分析中，根据具有作为概率的多个要素(发音时刻、音拍、音乐速度等)的框架，可以以逻辑一致性将多个模型及其目的函数结合在一起。

下面参照图1来定义本说明书中的术语。图1是示出了音拍和发音时刻之间的关系的说明图。

“音拍分析”是获得由音频信号所表示的音乐演奏的音乐时刻(单位：“拍”)的处理。

“发音时刻”是当音频信号所含的乐声开始时的时刻，并由实际时间轴上的时刻来表示。如图1所示，“发音时刻”代表音频信号所含的发音事件的发生时刻。以下，将音频信号所含的各乐声的发音时刻称作t[1]、t[2]、...、t[N]，其统称为“发音时刻T”(T＝t[1]、t[2]、...、t[N])。

“发音时刻的间隔(Inter-Onset Interval，IOI)”是发音时刻的实际时间中的时间间隔(单位：[秒])。如图1所示，“发音时刻的间隔”代表在音频信号所含的多个发音事件中、与音拍对应的重要发音事件之间的时间。以下，将音频信号所含的各乐声之间的发音时刻的间隔称作x[1]、x[2]、...、x[N]，其统称为“发音时刻的间隔X”(或“发音时刻间隔X”)(X＝x[1]、x[2]、...、x[N])。

“音拍”是由从音频信号的基准时刻点(例如，音乐的演奏开始)起计数的拍所指定的音乐时刻。该音拍代表音频信号所含的乐声在音乐的时间轴上的开始时刻，并由作为音乐时刻的单位的拍来指定，如一拍、两拍等等。

“音拍长度”是音拍的间隔(由音拍指定的音乐时刻点之间的长度)，单位为[拍]。该音拍长度代表音乐时间中的时间间隔，且对应于上述实际时间轴上的“发音时刻的间隔”。以下，将音频信号所含的各乐声之间的音拍长度称作q[1]、q[2]、...、q[N]，其统称为“音拍长度Q”(Q＝q[1]、q[2]、...、q[N])。

“音乐速度”是将发音时刻的间隔[秒]除以音拍长度[拍]所得的值(单位：[秒/拍])，或是将音拍长度[拍]除以发音时刻的间隔[秒]所得的值(单位：[拍/分钟])。音乐速度的功能是用作将发音时刻的间隔[秒]转换成音拍长度[拍]的参数。尽管一般使用[BPM：拍每分]或[拍/分]，但在本实施例中使用前者并将[秒/拍]用作音乐速度的单位。以下，将音频信号所含的各乐声处的音乐速度称作z[1]、z[2]、...、z[N]，其统称为“音乐速度Z”(Z＝z[1]、z[2]、...、z[N])。

该音乐速度Z是表示发音时刻的间隔(IOI)X和音拍长度Q之间的关系的参数(Z＝X/Q)。从发音时刻间隔X、音拍长度Q和音乐速度Z的关系可知：如果不提供发音时刻间隔X和音乐速度Z这两者，则一般不能获得音拍长度Q。然而，一般很难从音频信号准确地获得发音时刻间隔X和音乐速度Z这两者。因此在本实施例中，从音频信号中获得发音时刻T作为发音时刻间隔X的候选，并且不将音乐速度Z限定于预定的固定值而以概率方式来处置音乐速度Z，从而使得能够针对音乐速度的时间变化和音拍的波动估计更健壮的音拍长度Q。

下面说明执行音拍分析处理的信号处理装置的配置。根据本实施例的信号处理装置可应用于各种电子设备，只要该设备包括用于处理音频信号的处理器、存储器等。作为具体的实例，信号处理装置可应用于如个人计算机的信息处理装置，如PDA(个人数字助理)、家用游戏机和DVD/HDD记录机的记录和再现装置，如电视接收机的信息消费电器，如便携型音乐播放器、视听组合、便携型游戏设备、便携型电话和PHS的便携终端，数字照相机、摄影机、车载音响设备、机器人、如电子钢琴的电子乐器、无线/有线通信设备等。

由信号处理装置处置的音频信号内容不仅是音乐(乐曲、声音等)、讲话、广播节目等的音频内容所含的音频信号，还可以是电影、电视节目、视频节目等的视频内容，以及游戏、软件等所含的音频信号。输入信号处理装置的音频信号可以是从包括如音乐CD、DVD、存储卡的可移动存储介质、HDD和半导体存储器在内的各种存储装置读出的音频信号，或是经过包括如因特网、电话线路网、卫星通信网和广播通信网的公众线路网、如LAN(局域网)等的专用线路网在内的网络而接收的音频信号。

下面参照图2来说明根据本实施例的信号处理装置10的硬件配置。在图2中，示出了信号处理装置10被配置成包括个人计算机等的例子，但根据本发明的信号处理装置不限于这种例，而是可应用于各种电子设备。

如图2所示，信号处理装置10包括CPU(中央处理单元)101、ROM(只读存储器)102、RAM(随机存取存储器)103、主机总线104、桥105、外部总线106、接口107、输入装置108、输出装置109、存储装置110(例如HDD)、驱动器111、连接端口112和通信装置113。

CPU 101的功能是用作计算处理装置和控制装置，根据各种程序而工作并控制信号处理装置10的各单元。该CPU 101根据存储在ROM 102中的程序或从存储装置110载入RAM 103的程序而执行各种处理。ROM102存储CPU 101所使用的程序、计算参数等，并还作为减轻从CPU 101对存储装置110的存取的缓冲器而发挥功能。RAM 103暂时地存储在CPU101的执行中使用的程序、在该执行中适当变化的参数等。以上这些由被配置成包括CPU总线等在内的主机总线104相互连接。主机总线104经过桥105而连接至如PCI(周边元件互连/接口)总线的外部总线106。

输入装置108被配置成包括鼠标、键盘、触摸板、按钮、开关、控制杆等。信号处理装置10的用户操作该输入装置108从而对信号处理装置10输入各种数据并指示处理操作。输出装置109被配置成包括如CRT(阴极射线管)显示装置和液晶显示器(LCD)的显示装置、如扬声器的音频输出装置等。

存储装置110是用于存储各种数据的装置，并被配置成包括HDD(硬盘驱动器)等。存储装置110被配置成包括作为存储介质的硬盘、以及用于驱动硬盘的驱动器，并存储要由CPU 101执行的程序和各种数据。驱动器111是用于可移动介质的驱动装置，并容纳在或从外部附接至信号处理装置10。驱动器111关于装载于信号处理装置10上的如CD、DVD、蓝光盘和存储卡的可移动介质进行各种数据的写入/读出。例如，驱动器111对记录在音乐CD、存储卡等上的音乐内容进行读出和再现。于是将音乐内容的音频信号输入信号处理装置10。

连接端口112是用于连接外部周边设备的端口(例如USB端口)，并具有USB、IEEE1394等的连接端子。连接端口112连接至接口107并经过外部总线106、桥105、主机总线104等而连接至CPU 101等。该连接端口112与如USB存储器的带连接器的可移动介质、以及如便携型电影/音乐播放机、PDA和HDD的外部设备连接。从可移动介质、外部设备等转移的音乐内容的音频信号经过该连接端口112而输入至信号处理装置10。

通信装置113是用于连接至如因特网和LAN的各种网络5的通信接口，其中通信方式可以是无线/有线通信。该通信装置113与经过网络而连接的外部设备进行各种数据的发送和接收。例如，通信装置113从内容分布服务器接收音乐内容、电影内容等。然后将从外部接收的音乐内容的音频信号输入信号处理装置10。

下面参照图3～5来说明根据本实施例的信号处理装置10的功能配置。图3是示出了根据本实施例的信号处理装置10的配置的功能框图。图4是示出了由根据本实施例的信号处理装置10执行的信号处理方法(音拍和音乐速度分析方法)的概要的说明图。图5是示出了音频信号的功率包络的自相关函数和音乐速度的概率分布之间的关系的说明图。

如图3所示，根据本实施例的信号处理装置10包括：发音时刻检测单元12，用于基于音频信号的信号水平来检测发音时刻T；发音时刻存储单元14，被配置成包括如闪存和RAM的存储器；音乐速度概率分布设置单元16，用于使用与音频信号的信号水平相关的自相关函数来对音乐速度Z的初始概率分布P₀(Z)进行设置；音拍长度计算单元18，用于基于与检测出的发音时刻T相关的信息(发音时刻的间隔X)和音乐速度Z的初始概率分布P₀(Z)来计算由音频信号所代表的音乐的音拍长度；音乐速度计算单元20，用于基于所估计的音拍和检测出的发音时刻的间隔X来计算由音频信号所代表的音乐的音乐速度；特征量存储单元22，被配置成包括如闪存和RAM的存储器；以及特征量使用单元24，用于使用如音拍和音乐速度Z的特征量。

如图4所示，发音时刻检测单元12对从外部输入的音频信号进行分析，并检测音频信号所含的多个乐声(发音事件)的发音时刻T。例如，发音时刻检测单元12获得音频信号的功率(信号水平)的时间变化(即，音频信号的功率包络)，提取音频信号所含的多个峰值，并将紧挨在各峰值之前的时刻估计为发音时刻T。发音时刻检测单元12将以上述方式检测出的发音时刻T保存在发音时刻存储单元14中。该发音时刻检测单元12所进行的发音时刻检测处理的详情将在后面说明(参见图7等)。

如图4和图5所示，音乐速度概率分布设置单元16分析音频信号的信号水平以获得音频信号的功率包络的自相关函数。在该功率包络的自相关函数中，自相关高的频率具有较高的成为音乐速度的概率。因此，音乐速度概率分布设置单元16使用自相关函数来计算音乐速度Z的初始概率分布P₀(Z)，并将该初始概率分布P₀(Z)设置为后面要说明的音乐速度Z的概率分布P(Z)的初始值。该音乐速度概率分布设置单元16所进行的音乐速度Z的初始概率分布设置处理的详情将在后面说明(参见图8等)。

音拍长度计算单元18使用包含音乐速度Z作为概率变量的概率模型来进行音拍分析，并获得音频信号的音拍长度Q。如图4所示，音拍长度计算单元18针对音频信号的发音时刻间隔X，使用EM算法以概率方式来估计最有可能的音拍长度Q。如果获得音频信号的各乐声(发音事件)的音拍长度Q，则可从该音拍长度Q获得音拍或音频信号的乐声的音乐时刻。

在音拍长度计算单元18所进行的音拍估计处理中，音拍长度计算单元18通过计算由发音时刻检测单元12检测出的多个发音时刻T的差从而获得发音时刻的间隔X。音拍长度计算单元18使用由音乐速度概率分布设置单元16获得的音乐速度Z的初始概率分布P₀(Z)来设置目的函数P(Q|X)和辅助函数(Q函数)，其中目的函数P(Q|X)表示与发音时刻的间隔X对应的发音是音频信号的音拍的概率，辅助函数(Q函数)用于引导使目的函数P(Q|X)单调增加(单调非减少)的音拍长度Q的更新。音拍长度计算单元18使用辅助函数(Q函数)来反复进行将对数似然度log P(X|Q)引导至最大值的更新，以获得目的函数P(Q|X)的准最佳解。EM算法包含E步骤(期望值步骤)和M步骤(最大化步骤)。在E步骤中，音拍长度计算单元18进行作为潜在变量的音乐速度Z的概率分布P(Z|X，Q)的估计处理，并获得辅助函数(Q函数)。在M步骤中，音拍长度计算单元18通过维特比算法等使得辅助函数(Q函数)最大化。通过反复进行E步骤和M步骤，使得辅助函数(Q函数)收敛，并从收敛的Q函数获得音拍长度Q。

音拍长度计算单元18将如上述估计的音拍长度Q保存在特征量存储单元22中。该音拍长度计算单元18所进行的音拍(音拍长度Q)的计算处理的详情将在后面说明(参见图8等)。

音乐速度计算单元20基于由音拍长度计算单元18计算的音拍长度Q和发音时刻间隔X来计算音乐速度Z。例如，音乐速度计算单元20将音频信号所含的各乐声的发音时刻间隔X[秒]除以该各乐声的音拍长度q[拍]，以获得该各乐声中的音乐速度Z[秒/拍](z＝x/q)。而且，音乐速度计算单元20将如上述计算的音拍长度Q保存在特征量存储单元22中。该音乐速度计算单元20所进行的音乐速度Z的计算处理的详情将在后面说明(参见图9等)。

特征量使用单元24使用存储在特征量存储单元22中的音频信号的特征量(音拍长度Q，音乐速度Z等)对电子设备的用户提供各种应用。使用如音拍长度Q或音乐速度Z的特征量的方法延伸到很广的范围上，包括针对音乐内容提供元数据、搜索音乐内容、推荐音乐内容、整理音乐作品、为使机器人随音乐的节拍跳舞而与机器人舞蹈同步、与图片的幻灯片放映同步、自动记谱、音乐分析等。特征量除了音拍长度Q和音乐速度Z以外，还可包括通过对音拍自身、音拍长度Q和音乐速度Z进行计算和处理而得的任意信息，只要该信息是表示音频信号所代表的音乐的特征的信息即可。

以上说明了根据本实施例的信号处理装置10的功能配置。发音时刻检测单元12、音乐速度概率分布设置单元16、音拍长度计算单元18、音乐速度计算单元20或特征量使用单元24可部分或全部地由软件来配置或由硬件来配置。当由软件来配置时，使计算机执行各单元的处理的计算机程序被安装在信号处理装置10上。该程序例如经过任意的存储介质或任意的通信介质而提供给信号处理装置10。

下面参照图6来说明根据本实施例的、作为信号处理方法的一例的音拍分析方法。图6是示出了根据本实施例的音拍分析方法的流程图。

如图6所示，根据本实施例的音拍分析方法包含作为音拍估计处理的预处理的从音频信号中检测发音时刻T的发音时刻检测处理(S10)、以及基于在S10中获得的发音时刻T而以概率方式获得音拍的音拍估计处理(S20)。

在发音时刻检测处理(S10)中，对音频信号进行处理，检测由音频信号所代表的音乐(所演奏的乐声)的发音时刻T，并获得发音时刻间隔X。作为检测发音时刻T的方法，在现有技术中提议了各种方法。在根据本实施例的音拍分析方法中，以该发音时刻检测处理用作预处理，发音时刻T的检测处理S10和从发音时刻T获得音拍的音拍估计处理S20是独立的处理。因而，在根据本实施例的音拍分析方法中，使用条件原则上不局限于与发音时刻检测方法的组合。

下面参照图7来说明根据本实施例的发音时刻检测处理(图6的S10)的具体实例。图7是示出了图6的发音时刻检测处理S10的实例的流程图。

如图7所示，在发音时刻检测处理S10中，首先，信号处理装置10的发音时刻检测单元12获得所输入的音频信号的功率(信号水平)的时间变化(即功率包络)，并提取该功率的时间变化的峰值(步骤S11～S13)。更具体地，发音时刻检测单元12计算音频信号的每一短时间量(例如约几十微秒)的能量，并生成代表该每一短时间量的音频信号的功率的时间变化(即功率包络)的水平信号(步骤S11)。发音时刻检测单元12从音频信号的功率的时间变化(水平信号)中去除无音区间(步骤S12)，并使衰减部分平滑(步骤S13)。此后，发音时刻检测单元12提取在S12和S13中的处理后的水平信号的峰值(步骤S14)，并将紧挨在峰值之前的水平信号变成最小值的这一时刻估计为发音时刻T(＝t[1]、t[2]、...、t[N])(步骤S15)。接着，发音时刻检测单元12将在S15中估计的发音时刻T保持在发音时刻存储单元14中(步骤S16)。

以上说明了发音时刻检测处理。以上检测的发音时刻T可包含与音拍对应的发音事件(乐声)的发音时刻，但一般来说，有可能检测出不与音拍对应的发音事件的发音时刻，或者有可能在原本存在音拍的时刻处未检测出发音时刻。因此，优选地从检测出的发音时刻T中选择与音拍对应的适当的发音时刻T，并在原本存在音拍的时刻处补充发音时刻T。于是，在以下说明的音拍估计处理中，进行使用概率模型的音拍分析，以将从检测出的发音时刻T中获得的发音时刻的间隔X(单位：[秒])转换成适当的音拍长度(单位：[拍])。

以下说明使用根据本实施例的概率模型的音拍分析的原理。首先，计算在发音时刻检测处理(S10)中检测出的多个发音时刻T(＝t[0]、t[1]、...、t[N])间的差，以获得发音时刻间隔(IOI)X(＝x[1]、x[2]、...、x[N])。例如，发音时刻t[0]和发音时刻t[1]之间的差成为发音时刻间隔x[1]。将存在不与音拍对应的发音时刻、以及不存在与音拍对应的发音时刻这样的可能性包含在内，而获得与发音时刻间隔x[1]、...、x[N](单位：[秒])对应的音拍长度q的时间系列(单位：[拍])。

以概率方式将包括音乐速度Z、音拍模式和演奏的波动在内的各种波动考虑进去，假设从由音频信号所得的发音时刻间隔X(＝x[1]、...、x[N])而获得音拍长度Q(＝q[1]、...、q[N])这一问题作为关于检测出的X获得最有可能的Q这一问题，则可公式化为以下等式(1)。由于P(Q|X)∝P(X|Q)P(Q)，因而进行模型化以提供P(X|Q)P(Q)，其中如果可获得其最大化方法则可获得Q。

\hat{Q} = \underset{Q}{\arg \max} P (Q | X) = \underset{Q}{\arg \max} P (X | Q) \cdot P (Q) \cdot \cdot \cdot (1)

P(Q|X)：后验概率

P(X|Q)：似然度

P(Q)：先验概率

这种估计方法称作最大后验概率(maximum a posteriori probability，MAP)，其中P(Q|X)∝P(X|Q)P(Q)称作后验概率。以下说明在根据本实施例的音拍分析中，用于从发音时刻间隔X获得音拍长度Q的模型化和用于使用该模型来实际地获得音拍的计算方法。

此处，在各音拍长度q[n]中存在以其演奏音拍的称作音乐速度z[n]的另一音乐要素，因此不考虑音乐速度z就无法考虑发音时刻间隔(音长)x[n]和音拍长度q[n]的关系。即，如果不以包含音乐速度的模型来考虑，音拍长度Q和发音时刻间隔X之间的关系就无法被模型化。

logP(X|Q′)＝logP(X，Z |Q′)-logP(Z|X，Q′) …(2)

G(Q，Q′)＝∫P(Z|X，Q)·logP(X，Z|Q′)dz …(3)

在本实施例中，将该EM算法应用于音拍分析。以下说明以概率方式来提供给出了P(X，Z|Q)的音乐速度Z、音拍长度Q和发音时刻间隔X之间的关系的模型、当使用该模型时的Q函数、以及当使用该Q函数时的EM算法的具体计算方法。

在概率模型化中，首先对音乐速度Z的波动以概率方式进行模型化。音乐速度Z具有逐渐波动的特性，根据该特性，可进行模型化以使音乐速度Z成为恒定值的概率高。例如，音乐速度Z的波动可被模型化为马尔可夫过程：该马尔可夫过程遵循以0为中心的概率分布p(z[n]|z[n-1])(例如正态分布和对数正态分布)。此处，z[n]对应于第n个发音时刻t[n]处的音乐速度。

对发音时刻间隔X(＝x[1]、x[2]、...、x[N])的波动进行模型化。发音时刻间隔x[n]的波动提供了依赖于音乐速度z[n]和音拍长度q[n]的概率。在音乐速度恒定且没有发音时刻T中的波动和检测中的误差这一理想情况下，发音时刻间隔(音长)x[n](单位：秒)等于音乐速度z[n](单位：秒/拍)和音拍长度q[n](单位：拍)的乘积(x[n]＝z[n]·q[n])。然而，由于实际上包含演奏者的演奏表现所形成的音乐速度Z和发音时刻T中的波动和发音时刻的检测误差，它们一般并不相等。这种情况的误差可以以概率方式来考虑。概率分布p(x[n]|q[n]，z[n])可使用正态分布或对数正态分布来进行模型化。

考虑到发音时刻T处音频信号的音量，一般地认为音量大的声音比音量小的声音具有更高的成为音拍的倾向。该倾向还可以以音量被加至特征量的一个而包含在P(X|Q，Z)中，并可被提供给概率模型。

将以上两者组合起来，当音拍长度为Q＝q[1]、...、q[N]时，音乐速度是Z＝z[1]、...、z[N]，且给出发音时刻的间隔(IOI)X为X＝x[1]、...、x[N]的概率P(X，Z|Q)。

对于音拍长度的模式q[1]、...、q[N]可考虑出现的概率。例如，考虑到出现频率高的音拍长度模式和可写在乐谱上但在现实中却未出现的音拍长度模式，其中自然会想到可由该模式的出现概率的高低来处置这些模式。因此，通过由N-gram模型对q的时间系列进行模型化，或由N-gram模型对预定的音拍长度的模板模式的出现概率或该模板模式进行模型化，从而可以以概率方式对音拍长度模式进行模型化。由该模型提供的音拍长度Q的概率是P(Q)。

考虑到P(Q)，Q函数是如下函数：将log P(Q)加至当对似然度应用EM算法时的Q函数，从而可使用该Q函数作为在MAP估计时引导后验概率P(Q|X)的对数增加的辅助函数。

通过使用该模型所给的P(X，Z|Q)，音乐速度Z的概率分布P(Z|X，Q)可由下式(4)给出。然后可计算出上述Q函数。因此，在这种情况下，Q函数由下式(5)给出。

P (Z | X, Q) = \frac{P (X, Z | Q)}{&Integral; P (X, Z^{'} | Q) {dZ}^{'}} \cdot \cdot \cdot (4)

G (Q, Q^{'}) = \underset{n}{Σ} &Integral; p (z [n] = z | X, Q) \cdot \log p (x [n], z [n] = z | q^{'} [n]) dz + \log P (Q^{'}) + const . \cdot \cdot \cdot (5)

具体地期望计算p(z[n]＝z|X，Q)，以计算使式(5)的Q函数最大化的Q’。以下说明该潜在变量(音乐速度Z)的概率分布的计算方法(对应于E步骤)。

用于使Q函数最大化所需的p(z[n]＝z|X，Q)是由以下算法获得的。这一方法是以HMM(隐马尔可夫模型)来应用称作“Baum-Welch算法”的方法。使用下式(6)的前向概率α_n(z)和下式(7)的后向概率β_n(z)，可由下式(8)来计算p(z[n]＝z|X，Q)。前向概率α_n(z)和后向概率β_n(z)是使用下式(9)和(10)、由高效的递归计算而获得的。与HMM的“Baum-Welch算法”不同点在于：本模型不以获得迁移概率为目的，而且本模型的潜在变量是取连续值的变量，而不是作为隐含状态而处置的离散变量。

α_n(z)＝p(z_n＝z|x₁，...，x_n，Q) ...(6)

β_n(z)＝p(z_n＝z|x_n+1，...，x_N，Q) ...(7)

p(z_n＝z|X，Q)∝α_n(z)·β_n(z) ...(8)

α_n(z)＝∫α_n-1(z′)p(z_n＝z|z_n-1＝z′)dz′·p(x_n|z，q_n) ...(9)

β_n(z)＝∫p(z_n+1＝z′|z_n＝z)·p(x_n+1|z′，q_n+1)·β_n+1(z′)dz′ ...(10)

然后获得使如上计算出的Q函数G(Q，Q’)最大化的Q’(对应于M步骤)。此处使用的算法依赖于P(Q)，并且如果是基于马尔可夫模型，则可以像在维特比算法中那样、以基于DP(Dynamic Programming，动态编程)的算法来优化。如果Q’是包含可变数量的音拍长度Q的模板的马尔可夫模型，则根据如时间同步维特比搜索或2阶段动态编程的给出P(Q)的模型来选择适当的算法。从而获得使Q函数最大化的音拍长度Q。

因此，如果给出某发音时刻间隔IOI的序列X，则可以通过重复计算前向概率α和后向概率β的E步骤和基于该α和β来获得使Q函数最大化的Q的M步骤，使Q函数或辅助函数收敛，以获得与各发音时刻T对应的音拍长度Q(Q＝q[1]、q[2]、...、q[M])。

一般地，在EM算法中，收敛的解依赖于为了开始重复的计算而给出的初始值，因而提供初始值的方式对性能有重要影响。可以对于音乐速度而不是音拍而获得给出初始值的有希望的线索。当使用音频信号的功率的时间变化(功率包络)的自相关函数时，认为自相关大的周期具有较高的该周期是音乐速度的概率，因而可使用使自相关的对象关系反映在概率的大小关系上的音乐速度的概率分布。使用该音乐速度的初始概率分布P₀(Z)作为初始值，来应用EM算法。

使用如上述获得的音拍长度Q(＝q[1]、q[2]、...、q[M])，基于音拍长度Q按需要对音拍的发音时刻进行间插，以获得音拍，从而获得每一拍或每两拍演奏的音拍。

以上说明了根据本实施例的音拍分析方法的原理。根据该音拍分析方法，即使音频信号的音乐速度Z变化，也可获得音频信号的各位置处的适当的音拍长度Q(＝q[1]、q[2]、...、q[M])和音拍。

下面参照图8来详细说明使用上述音拍分析的音拍估计处理(图6的S20)的例子。图8是示出了图6的音拍估计处理S20的例子的流程图。该音拍估计处理S20可在发音时刻检测处理(S10)后的任意定时处执行。

如图8所示，在发音时刻检测处理S10中，首先，信号处理装置10的音拍长度计算单元18计算检测出的发音时刻T的间隔X(步骤S21)。具体地，音拍长度计算单元18从发音时刻存储单元14中读出在发音时刻检测处理(S10)中检测出的多个发音时刻T(＝t[1]、t[2]、...、t[N])，计算各发音时刻t之间的差，并获得发音时刻间隔(IOI)X(＝x[1]、x[2]、...、x[N])。例如，通过从发音时刻t[2]中减去发音时刻t[1]，从而获得发音时刻间隔x[1]。

音乐速度概率分布设置单元16获得音频信号的功率包络的自相关函数(参见图5)(步骤S22)。具体地，音乐速度概率分布设置单元16对所输入的音频信号的功率(信号水平)进行分析，以生成音频信号的功率的时间变化(即音频信号的功率包络)。该功率包络的生成处理与图7的S11相似，因而省略其详细说明。音乐速度概率分布设置单元16可不获得功率包络，而是使用由发音时刻检测单元12获得的功率包络。然后音乐速度概率分布设置单元16获得音频信号的功率包络的自相关函数。

而且，音乐速度概率分布设置单元16使用在S22中获得的音频信号的功率包络的自相关函数，来计算作为潜在变量的音乐速度Z的初始概率分布P₀(Z)，并将该P₀(Z)设置为音乐速度Z的概率分布P(Z)的初始值(步骤S23)。如上所述，利用功率包络的自相关高的周期具有较高的概率能成为音乐速度Z这一事实，音乐速度概率分布设置单元16将该自相关函数转换成音乐速度Z的初始概率分布P₀(Z)。

然后音拍长度计算单元18设置目的函数P(Q|X)和辅助函数(Q函数)(步骤S24)。目的函数P(Q|X)是当提供音频信号所代表的音乐的发音时刻间隔X时、发音时刻间隔X对应于该音乐的音拍间的音拍长度Q的概率。换句话说，目的函数P(Q|X)是当提供音乐的发音时刻T时、发音时刻T对应于该音乐的音拍的概率。辅助函数(Q函数)是这样的函数：其引导音拍长度Q的更新，以使目的函数P(Q|X)单调增加(单调非减少)。具体地，辅助函数(Q函数)是使将音乐速度Z作为潜在变量并取潜在变量的期待值而得的后验概率的对数单调增加(单调非减少)的音拍长度Q的更新算法。该辅助函数(Q函数)是由上述EM算法而导出的(式(3))，且如上所述可使用为适应于音拍分析而修正的式(5)。

为了说明的方便，以下式(11)来表达Q函数。对于式(11)的Q函数中的音乐速度Z(潜在变量)的概率分布P(Z)，将在S23中获得的初始概率分布P₀(Z)用作初始值，此后，使用在如后面说明的EM算法的E步骤S26～S28中获得的P(Z|X，Q)。

G(Q，Q′)＝∫P(Z)·logP(X，Z|Q′)dZ …(11)

P(Z)＝P₀(Z)

P(Z)＝P(Z|X，Q)

然后音拍长度计算单元18通过EM算法，使用辅助函数(Q函数)来更新音拍长度Q以将对数似然度log P(X|Q)引导至最大值。EM算法包括获得使Q函数最大化的Q的M步骤S25和估计音乐速度Z的概率分布P(Z)并获得Q函数的E步骤S26～S28。

首先，在M步骤中音拍长度计算单元18通过维特比算法或2阶段DP，如下式(12)那样使辅助函数(Q函数)最大化(步骤S25)。通过获得使Q函数最大化的Q，可估计与所给的发音时刻间隔X对应的音拍长度Q。音拍的脱落/插入被包含于在该步骤S中获得的音拍长度Q中，直到在步骤S29中判断Q函数收敛为止。

\hat{Q} = \underset{Q^{'}}{\arg \max} G (Q, Q^{'}) = \underset{Q^{'}}{\arg \max} &Integral; P (Z) \cdot \log P (X, Z | Q^{'}) dZ \cdot \cdot \cdot (12)

在E步骤S26～S28中，音拍长度计算单元18使用前向概率α和后向概率β来高效地计算P(Zt|X，Q)。首先，通过前向算法来计算下式(13)所示的前向概率α(步骤S26)，然后通过后向算法来计算下式(14)所示的后向概率β(步骤S27)。此后，音拍长度计算单元18如式(15)那样将前向概率α和后向概率β相乘，并获得P(Zt|X，Q)。

α_n(z)＝P(Z_n＝z|x₁，…，x_n，Q) …(13)

β_n(z)＝P(Z_n＝z|x_n+1，…，x_N，Q) …(14)

p(Z_n＝z|X，Q)∝α_n(z)·β_n(z) …(15)

此后，音拍长度计算单元18判断Q函数是否收敛(S29)，如果不收敛则返回步骤S25并重复EM算法，直到Q函数收敛为止(S25～S29)。如果Q函数收敛，则处理进行到步骤S30，并将收敛的Q函数设为音拍长度Q(步骤S30)。

以下说明根据本实施例的音拍分析方法。可使用在上述音拍分析处理中获得的音拍长度Q和发音时刻间隔X来计算音乐速度Z。可根据目的通过以下方法来获得最佳音乐速度Z。

例如，当想要观察演奏的细微波动时，将各发音时刻间隔X除以与之对应的音拍长度Q，以准确地获得音乐速度Z作为一拍的时间(Z＝X/Q)。

参照图9来说明根据本实施例的、作为信号处理方法的一例的音乐速度分析方法。图9是示出根据本实施例的音乐速度分析方法的流程图。

如图9所示，首先执行发音时刻检测处理(步骤S40)，然后执行音拍估计处理(步骤S41)。该发音时刻检测处理S40与图7的处理S11～S16相似，而音拍估计处理S41与图8的处理S21～S30相似，因而省略详细说明。

然后将从在发音时刻检测处理S40中检测出的发音时刻T获得的各发音时刻间隔X(＝x[1]、x[2]、...、x[N])除以在音拍估计处理S41中所得的各音拍长度Q(＝q[1]、q[2]、...、q[N])，以获得各音乐速度Z(＝z[1]、z[2]、...、z[N])(步骤S42)。

如果在假设概率模型所模型化的音乐速度Z平滑地波动这一特征的情况下而获得音乐速度Z，则可以通过下式(16)获得模型中最有可能的音乐速度Z。除了通过使音乐速度Z的波动平滑而获得的方法以外，还可通过例如使平方误差最小化以使音乐速度与恒定值或模板匹配的各种方法来获得音乐速度。

下面参照图10来说明由根据本实施例的信号处理方法进行的音拍和音乐速度的分析结果的具体例子。图10A示出在根据本实施例的信号处理装置10的显示画面上显示音拍和音乐速度的分析结果的例子。图10A示出预处理后(发音时刻的检测后、音乐速度色概率音拍分析前)、音拍分析处理后的显示画面，图10B示出音拍分析后的显示画面。

如图10A所示，音拍分析前的显示画面显示有音频信号的功率包络、从功率包络检测出的发音时刻X和从功率包络的自相关获得的音乐速度Z的初始概率分布。在音拍分析前的图10A的阶段，不显示音拍的位置，而音乐速度的概率分布不很明确(以纵轴方向的对比度来表现概率的高低，白的部分比黑的部分具有更高的概率)。

在音拍分析后的显示画面上，以双点划线来显示由音拍分析所估计的音拍的位置。所估计的音拍与多个发音时刻X的与音乐的音拍对应的一部分的发音时刻X相匹配。关于所估计的音乐速度的概率分布，与图10A相比，概率高的白的部分呈带状清楚地显示。进而，音乐速度随时间流逝而逐渐降低，可精确地获取数秒中音乐速度的变化。即使音频信号的音乐速度变化，也可根据该音乐速度的变化而适当地估计音拍。

如上所述，在根据本实施例的音拍分析方法中，对于检测出的发音时刻T获得最有可能的音拍并以概率方式估计音拍，以从音频信号所表示的音乐获得音拍。即，当给出音乐的发音时刻间隔X时，设置目的函数P(Q|X)和辅助函数，该目的函数P(Q|X)表示是音乐的音拍间的音拍长度Q的概率，该辅助函数引导使该目的函数P(Q|X)单调增加的音拍长度Q的更新。重复使用辅助函数将对数似然度log P(X|Q)引导至最大值的更新，以获得使目的函数最大化的音拍。这样可准确地获得音乐的音拍。

作为Q函数中包含的音乐速度Z的概率分布的初始值而应用从音频信号的功率包络的自相关函数获得的音乐速度Z的初始概率分布，因而可进行健壮的音拍估计。

而且，即使在如音乐速度在一首音乐(例如，一首乐曲)内渐渐加快/放慢的音乐的音乐速度变化的情况下，也可根据该音乐速度的变化而获得适当的音拍。

音拍和音乐速度是音乐的基本特征量，根据本实施例的音拍和音乐速度分析方法在以下说明的各种应用中有用。

音乐的元数据的提供

如果存在大量的音乐内容数据(乐曲)，则对这些乐曲的所有音乐速度进行标记是非常繁重的工作。特别地，由于音乐速度一般在歌曲中间变化，因而需要很大的努力来逐个音拍或逐个小节地对音乐速度进行标记，这在实际上不可能。在本实施例中，自动地获得每首乐曲的音乐速度和在乐曲内变化的音乐速度，并将其作为元数据而添加到音乐内容，因而可减轻劳动量。

音乐搜索

可以以从音拍分析获得的音乐速度或音拍作为如“音乐速度快的音乐”、“八拍的音乐”等的问题，应用于音乐内容的搜索。

音乐推荐

还可应用于将喜爱的歌曲推荐给收听者。例如，当制作与用户的喜爱相匹配的播放列表时，将音乐速度用作音乐的重要特征量。

乐曲的整理

此外，可基于音乐速度来计算乐曲的相似度。期望获得音乐速度和音拍的信息，以对用户拥有的大量乐曲进行自动分类。

与舞蹈同步

通过得知音乐的音拍，可创建使得机器人等随音乐的音拍跳舞的程序。例如，正在开发具有音乐再现功能的机器人，该机器人在对音乐进行再现的同时自动地进行歌曲分析，并创建动作，且在移动的同时再现音乐(动作再现)。为了使得该机器人随音乐的音拍跳舞，检测音乐的音拍，且实际上分布包含音拍检测功能的软件。可以期待根据本实施例的音拍分析方法进一步强化了在该场景中使用的音拍检测。

与图片的幻灯片放映同步

在随音乐呈现图片的幻灯片放映中，要求使切换图片的定时与切换音乐的定时一致。根据本实施例的音拍分析，可提供音拍的发音时刻作为切换图片的定时的候选。

自动记谱

在乐谱中记述的基本要素是音高(音符的高度)和音拍(音符的长度)，因而，通过将音高提取和根据本实施例的音拍估计组合起来，可将音乐变换成乐谱。

音乐分析

如在音乐分析技术的码分析中那样，可将音拍作为音频信号(音乐/声音信号)的触发而分析各种音乐的特征。例如，以在本实施例中估计的音拍作为单位、对音高提取和如音色的特征进行分析，并对包含副部(refrain)和重复模式在内的乐曲的结构进行分析。

本领域技术人员应当理解：根据设计需求和其它因素，可出现各种变形、组合、子组合和修正，只要它们落入权利要求书或其等同物的范围内。

在上述实施例中，说明了使用概率模型来应用EM算法的例子，但本发明不限于该概率模型的例子。例如，只要可导出基于与概率相同地对花费进行正规化的参数(对应于概率)、以及对于该模型所设置的目的函数(对应于后验概率)的凸性(对应于对数函数)来使目的函数单调增加(或单调减少)的辅助函数(对应于Q函数)，就可进行与该实施例相似的应用。

Claims

1.一种对音频信号进行处理的信号处理装置，包括：

发音时刻检测单元，用于基于音频信号的水平来检测发音时刻；和

音拍长度计算单元，用于通过设置目的函数P(Q|X)和辅助函数以及重复所述辅助函数的最大化以使得所述辅助函数收敛，来获得音拍长度Q，所述目的函数P(Q|X)表示当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率，所述辅助函数用于引导造成所述目的函数P(Q|X)的单调增加的所述音拍长度Q和音乐速度Z二者的更新。

2.根据权利要求1所述的信号处理装置，其中所述辅助函数是基于所述音拍长度Q的更新算法来设置的，其中将所述音频信号的所述音乐速度Z设为潜在变量，并使得对应于目的函数P(Q|X)的后验概率的对数单调增加，该后验概率是通过获得所述潜在变量的期望值而获得的。

3.根据权利要求1所述的信号处理装置，其中所述音拍长度计算单元从EM算法来导出所述辅助函数。

4.根据权利要求1所述的信号处理装置，其中所述音拍长度计算单元基于所述音频信号的功率的时间变化的自相关函数来获得所述音频信号的所述音乐速度Z的初始概率分布，并将该音乐速度Z的初始概率分布用作所述辅助函数所含的所述音乐速度Z的概率分布的初始值。

5.根据权利要求1所述的信号处理装置，进一步包括音乐速度计算单元，用于基于由所述音拍长度计算单元获得的所述音拍长度Q和所述间隔X来获得所述音频信号的所述音乐速度Z。

6.一种对音频信号进行处理的信号处理方法，包括以下步骤：

基于所述音频信号的水平来检测发音时刻；和

通过设置目的函数P(Q|X)和辅助函数以及重复所述辅助函数的最大化以使得所述辅助函数收敛，来获得音拍长度Q，所述目的函数P(Q|X)表示当给出所述发音时刻的间隔X时该间隔X是所述音拍长度Q的概率，所述辅助函数用于引导造成所述目的函数P(Q|X)的单调增加的所述音拍长度Q和音乐速度Z二者的更新。