CN102956230A

CN102956230A - 对音频信号进行歌曲检测的方法和设备

Info

Publication number: CN102956230A
Application number: CN2011102430706A
Authority: CN
Inventors: 芦烈; 克劳斯·鲍尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-08-19
Filing date: 2011-08-19
Publication date: 2013-03-06
Anticipated expiration: 2031-08-19
Also published as: US20130046536A1; EP2560167A2; EP2560167B1; EP2560167A3; CN102956230B; US8595009B2

Abstract

描述了对音频信号进行歌曲检测的方法和设备。音频信号的片段被分类为包括音乐的类别。音乐片段的类边界被检测为第一类型的候选边界。导出包含非交叠部分的组合。每个部分满足下列条件：1)包含长于预定最小歌曲时长的至少一个音乐分段，2)短于预定最大歌曲时长，3)开始和结束于音乐片段，以及4)每个部分中音乐片段的比例大于预定最小比例。通过这种方式，能够获得音频信号中各种可能的歌曲划分以供检查。

Description

对音频信号进行歌曲检测的方法和设备

技术领域

本发明涉及音频信号处理。更具体地，本发明的实施例涉及对音频信号进行歌曲检测的方法和设备。

背景技术

在许多音频应用中，音频信号被记录下来。例如在移动电话、平板计算机或其它便携设备的调频(FM)录音应用中，能够响应用户对录音按钮的操作或基于预订来记录FM节目。所记录的音频信号可包含歌曲(song)、话音(speech)(包含话音叠加音乐(speech-over-music))、噪声、静音等等。用户可能希望仅保存所记录的音频信号中的单独的歌曲。

已经提出了根据音频信号中音频分段(segment)的重复出现来从音频信号中检测歌曲的方案，其中假定重复的长音频分段是歌曲，而话音很少多次重复。在来自PopCatcher AB，Hastholmsvagen 28，5tr，131 40 Nacka，SWEDEN的PopCatcher因特网广播录音机应用(Internet Radio RecorderApplication)中能够看到这种方案的示例性实现，这里通过引用将其合并进来以用于各种目的。

本章节中描述的方案是能够采用的方案，但不一定是先前已经构思或采用的方案。因此，除非另外指出，不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地，根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题，除非另外指出。

发明内容

根据本发明一个实施例，提供了一种对音频信号进行歌曲检测的方法。音频信号的片段被分类为包括音乐的类别。音乐片段的类边界被检测为候选边界。导出包含由候选边界限定的一个或更多个非交叠部分的至少一个组合。每个部分满足下列条件：1)包含长于预定最小歌曲时长的至少一个音乐分段，以作为候选歌曲，2)短于预定最大歌曲时长，3)开始和结束于音乐片段，以及4)每个部分中音乐片段的比例大于预定最小比例。

根据本发明另一个实施例，提供了一种对音频信号进行歌曲检测的设备。设备包含分类单元、边界检测器和歌曲搜索器。分类单元把音频信号的片段分类为包括音乐的类别。边界检测器检测音乐片段的类边界以作为候选边界。歌曲搜索器导出包含由候选边界限定的一个或更多个非交叠部分的至少一个组合。每个部分满足下列条件：1)包含长于预定最小歌曲时长的至少一个音乐分段，以作为候选歌曲，2)短于预定最大歌曲时长，3)开始和结束于音乐片段，以及4)每个部分中音乐片段的比例大于预定最小比例。

下面参考附图详细描述本发明的进一步特性和优点，以及本发明各个实施例的结构和操作。应当注意，本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。

附图说明

在附图中通过例子图解本发明，但这些例子不对本发明产生限制，图中用类似的附图标记表示类似的元件，其中：

图1是图示根据本发明一个实施例的用于对音频信号进行歌曲检测的示例设备的框图；

图2A是图示候选边界的检测的示意图；

图2B示出在1小时音频信号上计算的K-L散度(KLD，Kullback-Leibler Divergence)序列的示例；

图3是图示计算内容一致性距离的示例方法的示意图；

图4是图示分类结果和候选边界的示例的示意图；

图5是图示根据本发明一个实施例的对音频信号进行歌曲检测的示例方法的流程图；

图6是图示根据本发明一个实施例的用于对音频信号进行歌曲检测的示例设备的框图；

图7是图示对数似然差ΔBIC(t)和贝叶斯信息准则(BIC，BayesianInformation Criteria)窗口之间的关系的示意图；

图8是图示根据本发明一个实施例的对音频信号进行歌曲检测的示例方法的流程图；而

图9是图示用于实现本发明的各个方面的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施例。应当注意，出于清楚的目的，在附图和描述中省略了有关所属技术领域的技术人员知道但是与本发明无关的部分和过程的表示和说明。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统(例如，在线数字媒体商店、云计算服务、流媒体服务、电信网络等等)、装置(例如，蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒或数字视频录像机、或任何媒体播放器)、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为″电路″、″模块″或″系统″。此外，本发明的各个方面可以采取体现为一或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如″C″程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

根据候选边界检测歌曲

图1是图示根据本发明一个实施例的用于对音频信号进行歌曲检测的示例设备100的框图。

如图1所示，设备100包含分类单元101、边界检测器102和歌曲搜索器103。

要由设备100处理的音频信号110包含多个连续片段(clip)。每个片段包含多个连续帧。片段的长度和帧的长度取决于对片段进行分类的分类模型的要求。

分类

分类单元101把音频信号110的片段分类为包括音乐的类别。在本说明书的语境中，术语″音乐″包含具有乐器声音的歌曲和没有乐器声音的歌曲。

可以根据针对要识别的类别(例如，音乐)的训练样本集来训练分类模型。可以采用各种用于对象分类的模型。例如，分类模型可以基于adaBoost、支持向量机、隐马尔科夫模型(Hidden Markov Model)或高斯混合模型。

在分类模型中可以采用各种用于表征要识别的类别的音频信号之间的差异的特征。例如，每个帧的特征(也称作帧级特征)可包括音色相关特征和色度特征中的至少之一。音色相关特征可被用于区分不同类型的声音产生，例如音乐、话音等等。例如，音色相关特征可以包括过零率、短时能量、子带谱分布、谱通量和梅尔频率倒谱系数(Mel-frequency CesptralCoefficient)中的至少之一。色度特征可以被用来表示音频信号的旋律信息。例如，色度特征通常被定义为12维向量，其中每个维对应于半音类的强度(一个八度程中有12个半音)。

在分类单元101的示例性实现中，分类单元101可以计算每个片段中的帧的帧级特征，以及根据片段的帧级特征导出用于表征帧级特征的变化的特征(也称作片段级特征)。片段级特征可以被用来获取不同声音的节奏特性，特别是区分话音和音乐。例如，片段的片段级特征可以包括片段的帧级特征的均值和标准差，和/或节奏特征。片段的节奏特征可以被用来获取片段的帧级特征中的规则重现或模式。例如，节奏特征包括节奏强度、节奏规则程度、节奏清晰度和2维(2D)子带调制中的至少之一。可以基于相应的片段级特征来对每个片段进行分类。

计算特征的功能可以实现在分类单元101中，也可以实现在分立的特征提取器(图1中未图解)中。

在某些情况下，音频信号110中记录的歌曲信号可包含由于短时干扰或其它因素引起的噪声。在分类单元101的一个进一步的实施例中，分类单元101识别的类别可进一步包括噪声。分类单元101可以进一步把与两个音乐片段相接并且长度小于一个阈值的任何噪声分段再分类为音乐。可以根据有关样本歌曲录音中噪声长度的统计数据来获得该阈值。通过这种方式，错误记录为噪声的真实歌曲信号能够被校正为音乐类别。

在某些情况下，歌曲中的片段可能被错误地分类为非音乐类别。这样的片段通常呈现为长音乐分段中的突然变化。在分类单元101的一个进一步的实施例中，分类单元101可以进一步计算每个片段的类别的置信度。分类单元101可以包括具有不同平滑窗口的第一中值滤波器和一个或更多个第二中值滤波器。第一中值滤波器从音频信号的开始到结束对片段进行平滑。对于每个当前片段，如果该片段的置信度低于一个阈值并且该片段的类别不同于以该片段为中心的平滑窗口内各片段的类别的中值，则该片段的类别被更新为该中值。该阈值被用来确定置信度是否能够指示正确的分类。该阈值能够预先设置，或能够通过用样本集测试分类器来学习。具有不同平滑窗口的第二中值滤波器接着对各片段进行平滑。通过这种方式，这种错误分类的片段能够被再分类为音乐。

检测候选边界

A-根据分类进行检测

由于每个歌曲能够表现为一个或更多个连续音乐片段组成的分段(在下文中也称作音乐分段)，音频信号110中的片段的类别信息可揭示出一种关于音频信号110中包含的真实歌曲的信息。具体地，根据片段的类别信息，可以从音频信号110中找到每个音乐分段，并且音乐分段可被视作对相应真实歌曲的估计。

边界检测器102检测音乐片段的类边界(音乐片段和非音乐片段之间)，以作为候选边界120。通过这种方式，能够检测出可被估计为真实歌曲的音乐分段。

B-根据特征相异度进行检测

此外，在例如连续播放的情况下，两个或更多个连续歌曲也可以表现为一个音乐分段(例如，音乐混合或采样)。在这样的情况下，根据类别信息确定的音乐分段本身不总是足以发现歌曲的真实边界。利用下述事实可以改进这种估计：对于属于不同歌曲的两个分段，不同分段中的信号特征可表现出某些不同的特性(即，较低的一致性(consistency)/较高的相异度(dissimilarity))。

在边界检测器102的一个进一步的实施例中，如果关于音频信号110中任何音乐分段内的位置布置的两个窗口之间的特征相异度高于阈值TH_D，则边界检测器102也可以将该位置检测为候选边界120。可以根据有关利用包含连续歌曲的样本信号计算的特征相异度的统计数据来确定阈值TH_D。通过这种方式，可以检测出分隔连续歌曲的候选边界。为区分根据分类检测的候选边界和根据特征相异度检测的候选边界，根据分类检测的候选边界被称作第一类型的候选边界，而根据特征相异度检测的候选边界被称作第二类型的候选边界。

图2A是图示第二类型的候选边界的示例性检测的示意图。如图2A所示，对于音乐分段内的每个位置t，左窗口位于紧接在位置t左侧的位置，右窗口位于紧接在位置t右侧的位置。可以计算提取自左窗口的帧的特征和提取自右窗口的帧之间的特征相异度。可选地，左和右窗口能够位于相对位置t离开一个间隔余量的位置处。

在边界检测器102中能够采用各种评估两个窗口的特征之间的特征相异度的方法。例如，两个窗口之间的特征相异度可以被计算为K-L散度(KLD)。

在一个示例中，可以通过下式将特征相异度D_sKLD计算为对称KLD

D_{sKLD} = \frac{1}{2} tr [(C_{l} - C_{r}) (C_{r}^{- 1} - C_{l}^{- 1})] + \frac{1}{2} tr [(C_{l}^{- 1} + C_{r}^{- 1}) (u_{l} - u_{r}) {(u_{l} - u_{r})}^{T}] - - - (1),

其中C_l和C_r分别是提取自左窗口和右窗口的帧的特征的协方差矩阵，u_l和u_r是相应均值，tr[X]是矩阵X的对角线元素的和。

各种提取自帧的特征可以被用于计算特征相异度。计算特征的功能可以被包含在边界检测器102中，也可以实现在分立的特征提取器(图1中未图解)中。在一个示例中，用于计算特征相异度的特征可以是结合分类单元101描述的帧级特征。

图2B示出了在1小时音频信号上计算的KLD序列的示例，其中小圆圈指示真实歌曲边界。可以看出各距离有一些噪声。在真实歌曲边界处距离不总是大的，而在歌曲内也存在许多大的距离。可以把阈值TH_D确定为保证多数或所有局部峰值KLD高于阈值TH_D。因此，更多由于连续歌曲而错过的真实歌曲边界能够被检测为候选边界以供进一步调查。

在一个示例中，阈值TH_D被确定为自适应阈值th_seg(α)

th_seg(α)＝mean+α·std (2)

其中mean和std分别是计算的特征相异度的均值和标准差，α是调节参数，通常在从0到大约3的范围内(例如，等于1.2)。

C-根据内容一致性进行验证

在音频信号110中，候选边界可能是真实歌曲的边界。通过调查宽范围(如果与候选边界检测器中用于计算特征相异度的窗口相比较的话)的围绕候选边界的分段，可以判断候选边界是不是真实歌曲的边界。内容一致性(content coherence)(距离)充当进一步判断候选边界是否真实歌曲的起始/结束边界的度量。如果内容一致性(距离)大(小)，则围绕分段的内容相似，因而候选边界不是真实歌曲的起始/结束边界；否则，如果内容一致性(距离)小(大)，则边界是真实的。

在边界检测器102的一个进一步的实施例中，对于候选边界中的每个边界t，边界检测器102计算围绕边界t的两个窗口(例如，一分钟长)之间的至少一个内容一致性距离。如果针对一个边界计算不止一个内容一致性距离，则用于计算内容一致性距离的特征至少部分地互不相同。

可以采用各种计算两个内容之间的一致性距离的方法。图3是图示计算内容一致性距离的示例方法的示意图。如图3所示，左窗口和右窗口被分成小的分段，根据各个对的左窗口中分段s_i和右窗口中相应分段s_j之间的距离(例如，KLD)来导出内容一致性距离。

可以采用各种特征来计算内容一致性距离。例如，用于计算内容一致性距离的特征可以包括色度特征、音色相关特征和节奏相关特征中的至少之一。在一个进一步的例子中，可以通过音乐速度估计、节拍/小节检测和节奏模式抽取中的至少之一来获得节奏相关特征。

对于候选边界中的每个边界t，边界检测器102根据至少一个相应内容一致性距离计算边界t是歌曲的真实边界的可能性(例如，置信度)。可以采用各种方法来计算可能性。例如，可以采用S形函数(sigmoid function)来计算可能性。再例如，可以根据内容一致性距离D_coh将可能性conf计算为

conf = \{\begin{matrix} VH & D_{coh} &GreaterEqual; {Th}_{ub} \\ VM & D_{coh} &Element; [{Th}_{lb}, {Th}_{ub}) \\ VL & D_{coh} < {Th}_{lb} \end{matrix} - - - (3)

其中Th_lb和Th_ub分别是下限阈值和上限阈值，VH(例如，1)是表示边界t是真实边界的值，VM(例如，0)是表示边界t是假边界的值，VM(例如，0.5)是表示边界t仍不确定(既不是真实的，也不是假的)的值。

如果根据不同特征计算出多个内容一致性距离，可以通过各种方式来组合它们。例如，如果所有内容一致性距离均大于相应上限阈值，或更加宽松地，如果内容一致性距离中的任何一个大于相应上限阈值，则可以将可能性设置为VH。另一个概率性的方式是根据训练集建立表示这些距离的联合分布模型的模型。

如果可能性指示边界t是假边界，则边界检测器102可以进行下列处理。

如果边界t在音乐分段内，则边界检测器102可以在仅包含边界t并且由两个候选边界限定的音乐分段具有小于预定最大歌曲时长的长度的情况下移除边界t。

如果由边界t和另一个候选边界限定的话音分段具有小于阈值的长度，则边界检测器102可以将这两个候选边界识别为要移除的。可以根据有关两个歌曲之间的话音分段的统计数据来获得该阈值。

边界检测器102可以移除所有要移除的候选边界，或者，边界检测器102可以把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型的候选边界，并且移除其余的要移除的候选边界。

在边界检测器102的一个进一步的实施例中，在可能性既不指示边界t是真实边界也不指示边界t是假边界的情况下，如果边界t是第二类型的边界(即，在音乐分段内)，则边界检测器102可以用预先训练的歌曲时长模型计算在边界t处彼此相接的时长l₁和l₂的两个音乐分段是两个真实歌曲的概率P(H₀)，并且用预先训练的歌曲时长模型计算通过合并这两个音乐分段而获得的音乐分段是真实歌曲的概率P(H₁)。如果不满足下列条件，则边界检测器102移除边界t：

\frac{P (H_{0})}{P (H_{1})} = \frac{G (l_{1}) G (l_{2})}{G^{2} (l_{1} + l_{2})} &GreaterEqual; 1 - - - (4),

其中预先训练的歌曲时长模型是高斯模型G(l；μ，σ)。

D-根据重复部分进行验证

在边界检测器102的一个进一步的实施例中，边界检测器102可以在音频信号110中搜索一个或更多个对的两个重复部分[t₁，t₂]和[t₁+l，t₂+l]，其中时滞l短于预定最大歌曲时长。

通常，与其它类型的内容相比，歌曲可以通过包含重复部分，即具有相同旋律的分段而表现出独特的特征。可以假定重复部分(section)[t₁，t₂]和[t₁+l，t₂+l]之间的部分[t₁，t₂+l]属于一个歌曲。因此，如果部分[t₁，t₂+l]中的一个候选边界在音乐分段内，则边界检测器102可以移除该候选边界。如果由两个候选边界限定的部分[t₁，t₂+l]中的话音分段具有小于阈值的长度，则边界检测器102可以将这两个候选边界识别为要移除的。边界检测器102可以移除所有要移除的候选边界，或者，边界检测器102可以把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型的候选边界，并且移除其余的要移除的候选边界。可以根据有关样本歌曲中被误分类为话音的音乐分段的长度的统计数据来获得该阈值。

通过这种方式，可以根据音频信号中的重复部分来验证候选边界，从而降低假的歌曲间边界被检测为真实歌曲边界的可能性。

边界检测器102可以采用各种检测音频信号中重复部分的方法来搜索分段中的重复部分。例如，可以采用基于相似度矩阵或时滞相似度矩阵的方法。

在边界检测器102的一个进一步的实施例中，边界检测器102可以根据一个百分数来计算自适应阈值，该自适应阈值用于对相似度矩阵进行二值化。在按照降序对相似度矩阵中的相似度值进行排序的情况下，只有取决于该百分数的小百分比的排在前面的相似度值被二值化为表示重复的值。该百分数是相应分段中音乐片段的比例与预定基百分数的乘积。通过这种方式，该百分数和该自适应阈值均自适应于分段中音乐内容的比例。

在边界检测器102的一个进一步的实施例中，边界检测器102可以仅搜索长于阈值的重复部分。可以根据有关样本歌曲中重复部分长度的统计数据来获得该阈值。通过这种方式，仅能够检测足够长的重复部分。

在边界检测器102的一个进一步的实施例中，边界检测器102可以搜索部分[t₁，t₂]和[t₁+l，t₂+l]，使得音乐片段在部分[t₁，t₂+l]中占大多数。例如，部分[t₁，t₂+l]中分类为音乐的片段的比例大于50％。再例如，部分[t₁，t₂]中分类为音乐的片段的比例m1、部分[t₁+l，t₂+l]中分类为音乐的片段的比例m2、部分[t₂，t₁+l]中分类为音乐的片段的比例mc和m1、m2及mc的和ms可以满足某种条件，例如下列条件之一：

条件1：m1＞0.5且m2＞0.5且mc＞0.5

条件2：m1＞0.1且m2＞0.1且mc＞0.1且ms＞1.8。

通过这些方式，可以减少把例如话音部分的非音乐部分检测为重复部分的机会。

应当注意，在根据内容一致性和重复部分验证候选边界的情况下，能够按照任意顺序进行根据内容一致性的候选边界验证及根据重复部分的候选边界验证。

在边界检测器102的一个进一步的实施例中，边界检测器102可以把间隔距离小于阈值的两个候选边界合并为一个候选边界。该阈值可以是小于或等于最小歌曲时长的值。合并后的候选边界可以是两个候选边界之间的任意位置。

歌曲检测

回到图1，歌曲搜索器103导出包含由候选边界限定的非交叠部分(section)的至少一个组合。这样的部分满足下列条件：

1)包含长于预定最小歌曲时长的至少一个音乐分段(称作候选歌曲)，

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个部分中音乐片段的比例大于预定最小比例。

可以根据有关各种歌曲的长度的统计数据来确定预定最小歌曲时长和预定最大歌曲时长，也可以由期望得到具有特定范围内的长度的歌曲的用户来指定预定最小歌曲时长和预定最大歌曲时长。

音频信号中两个候选边界之间限定的满足条件1)到4)的任何部分均可以被当作可能的部分。因此，音频信号中可以有多个可能部分。可以选择不彼此交叠的可能部分来形成一个组合。可选地，取决于具体应用要求，组合中的部分的数目可以被设置为特定数目，例如2、3等等。

通过这种方式，可以获得音频信号中各种可能的歌曲划分以作为导出的组合。根据这些组合，可以人工或自动选择期望的歌曲划分。

图4是图示分类结果和候选边界的示例的示意图。如图4所示，存在候选边界a、b、c、d、e、f、g、h和k。

限定一个可能部分的两个候选边界可以是连续的，也就是说，在这两个候选边界之间不存在其它候选边界。在这样的情况下，这个可能部分是不可分的音乐分段。例如，候选边界b和c限定了一个不可分的音乐分段[b，c]。限定一个可能部分的两个候选边界也可以包含一个或更多个其它候选边界。在这样的情况下，这个可能部分包含至少两个不可分的音乐分段。例如，可能部分[a，c]包含两个不可分的分段[a，b]和[b，c]，可能部分[b，e]包含不可分的分段[b，c]、[c，d]和[d，e]。

在形成仅包含一个部分的组合的情况下，可以选择任何的可能部分。在组合包含不止一个部分的情况下，可以选择彼此不交叠的至少两个可能部分来作为形成一个组合的部分。不同的组合可以具有不同数目的部分。例如，根据图4中的音频信号，可以形成组合([b，c]，[f，k])、([a，b]，[b，e]，[h，k])、([a，e]，[f，k])，假定能够满足条件1)至4)。

如果基于内容一致性距离的可能性指示一个候选边界是真实的，则这个候选边界不能在组合的任何部分内。在歌曲搜索器103的一个进一步的实施例中，在导出组合时，歌曲搜索器103排除包含下述部分的任何组合：对应于该部分内的一个候选边界的可能性指示该候选边界是真实边界。也就是说，对应于各部分内的每个候选边界的可能性未指示该候选边界是真实边界。

在歌曲搜索器103的一个进一步的实施例中，歌曲搜索器103可以把由两个连续候选边界t₁和t₂限定并且长于预定最小歌曲时长的每个音乐分段检测为候选歌曲，并且通过把候选歌曲[t₁，t₂]或其扩展包含为部分来形成组合。所形成的组合中的部分不彼此交叠，并且也满足上述条件1)到4)。可以通过以下措施中的至少之一来获得每个扩展：

沿左方向把候选歌曲[t₁，t₂]的边界t₁延伸到音乐分段[t₁-l₁，t₁-l₂]的候选边界t₁-l₁；以及

沿右方向把候选歌曲[t₁，t₂]的边界t₂延伸到音乐分段[t₂+l₃，t₂+l₄]的候选边界t₂+l₄。

通过这种方式，可能避免发生获得某些不可能的组合并接着通过验证它们是否满足各条件而将它们排除的情形，因而降低了计算成本。

在边界检测器102基于前面描述的内容一致性来验证候选边界的情况下，在歌曲搜索器103的一个进一步的实施例中，歌曲搜索器103可以以下述方式获得扩展：

如果延伸到的音乐分段[t₁-l₁，t₁-l₂]的候选边界t₁-l₁的基于内容一致性距离的可能性指示候选边界t₁-l₁是真实歌曲边界，则停止左方向的延伸，以及

如果延伸到的音乐分段[t₂+l₃，t₂+l₄]的候选边界t₂+l₄的基于内容一致性距离的可能性指示候选边界t₂+l₄是真实歌曲边界，则停止右方向的延伸。

通过这种方式，可以排除包含真实歌曲边界的部分，因而提高歌曲检测的准确性。

此外，可以引入这样的要求：如果在进行延伸时要包含进来非音乐(例如，话音)分段并且该非音乐分段长于预定阈值，则可以停止此延伸。

在歌曲搜索器103的一个进一步的实施例中，歌曲搜索器103可以导出不止一个组合。在这样的情况下，歌曲搜索器可以进一步将这些组合分为不同的组。每个组中的每个组合包含相同的候选歌曲，并且该组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲。在图4图示的示例中，假定音乐分段[b，c]和[h，k]是候选歌曲。在这样的情况下，歌曲搜索器103可以导出组合([b，c]，[h，k])、([a，c]，[f，k])、([b，e]，[f，k])和([b，k])。组合([b，c]，[h，k])、([a，c]，[f，k])和([b，e]，[f，k])包含相同的候选歌曲[b，c]和[h，k]。[b，c]、[a，c]和[b，e]中的每个部分包含相同的候选歌曲[b，c]，并且[h，k]和[f，k]中的每个部分包含相同的候选歌曲[h，k]。因此，组合([b，c]，[h，k])、([a，c]，[f，k])、([b，e]，[f，k])属于相同的组。对于属于不同组的每两个组合，这两个组合之一中的至少一个部分不与这两个组合中另一个内的每个部分包含相同的候选歌曲。同样在图4图示的示例中，由于组合([b，k])的一个部分[b，k]中包含的候选歌曲[b，c]和[h，k]与组合([b，c]，[h，k])、([a，c]，[f，k])、([b，e]，[f，k])的每个部分中包含的任何候选歌曲[b，c]或[h，k]不相同，组合([b，k])属于不同的组。

图5是图示根据本发明一个实施例的对音频信号进行歌曲检测的示例方法500的流程图。

如图5所示，方法500从步骤501开始。在步骤503，音频信号的片段被分类为包括音乐的类别。

在步骤503的一个示例性实现中，可以计算每个片段中的帧的帧级特征，以及根据片段的帧级特征导出用于表征帧级特征的变化的片段级特征。片段级特征可以被用来获取不同声音的节奏特性，特别是区分话音和音乐。

在步骤503的一个进一步的实现中，在步骤503识别的类别可进一步包括噪声。可以进一步把与两个音乐片段相接并且长度小于一个阈值的任何噪声分段再分类为音乐。可以根据有关样本歌曲录音中噪声长度的统计数据来获得该阈值。

在步骤503的一个进一步的实现中，可以进一步计算每个片段的类别的置信度。进一步地，可以用平滑窗口从音频信号的起始到结束对片段进行平滑。对于每个当前片段，如果该片段的置信度低于一个阈值并且该片段的类别不同于以该片段为中心的平滑窗口内各片段的类别的中值，则该片段的类别被更新为该中值。进一步地，可以用不同平滑窗口来平滑各片段。该阈值被用来确定置信度是否能够指示正确的分类。该阈值能够预先设置，或能够通过用样本集测试分类器来学习。

在步骤505，音乐片段的类边界被检测为候选边界。

在步骤505的一个进一步的实现中，如果关于音频信号中任何音乐分段内的位置布置的两个窗口之间的特征相异度高于阈值TH_D，则也可以将该位置检测为候选边界。

在步骤505能够采用各种评估两个窗口的特征之间的特征相异度的方法。例如，两个窗口之间的特征相异度可以被计算为K-L散度(KLD)。

在一个示例中，可以通过等式(1)将特征相异度D_sKLD计算为对称KLD。各种提取自帧的特征可以被用于计算特征相异度。

在步骤505的一个进一步的实现中，对于候选边界中的每个边界t，可以计算围绕边界t的两个窗口(例如，一分钟长)之间的至少一个内容一致性距离。如果针对一个边界计算不止一个内容一致性距离，则用于计算内容一致性距离的特征至少部分地互不相同。

对于候选边界中的每个边界t，根据至少一个相应内容一致性距离计算边界t是歌曲的真实边界的可能性(例如，置信度)。可以采用各种方法来计算可能性。例如，可以采用S形函数(sigmoid function)来计算可能性。再例如，可以通过等式(3)根据内容一致性距离D_coh计算可能性conf。

如果可能性指示边界t是假边界，则可以进行下列处理。

如果边界t在音乐分段内，则可以在仅包含边界t并且由两个候选边界限定的音乐分段具有小于预定最大歌曲时长的长度的情况下移除边界t。

如果由边界t和另一个候选边界限定的话音分段具有小于阈值的长度，则可以将这两个候选边界识别为要移除的。可以根据有关两个歌曲之间的话音分段的统计数据来获得该阈值。

可以移除所有要移除的候选边界，或者，可以把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型的候选边界，并且可以移除其余的要移除的候选边界。

在步骤505的一个进一步的实现中，在可能性既不指示边界t是真实边界也不指示边界t是假边界的情况下，如果边界t是第二类型的边界(即，在音乐分段内)，则可以用预先训练的歌曲时长模型计算在边界t处彼此相接的时长l₁和l₂的两个音乐分段是两个真实歌曲的概率P(H₀)，并且可以用预先训练的歌曲时长模型计算通过合并这两个音乐分段而获得的音乐分段是真实歌曲的概率P(H₁)。如果不满足由等式(4)定义的条件，则可以移除边界t。

在步骤505的一个进一步的实现中，可以在音频信号中搜索一个或更多个对的两个重复部分[t₁，t₂]和[t₁+l，t₂+l]，其中时滞l短于预定最大歌曲时长。

如果部分[t₁，t₂+l]中的一个候选边界在音乐分段内，则可以移除该候选边界。如果由两个候选边界限定的部分[t₁，t₂+l]中的话音分段具有小于阈值的长度，则可以将这两个候选边界识别为要移除的。可以移除所有要移除的候选边界，或者，可以把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型的候选边界，并且可以移除其余的要移除的候选边界。可以根据有关样本歌曲中被误分类为话音的音乐分段的长度的统计数据来获得该阈值。

可以采用各种检测音频信号中重复部分的方法来搜索分段中的重复部分。例如，可以采用基于相似度矩阵或时滞相似度矩阵的方法。

在步骤505的一个进一步的实现中，可以根据一个百分数来计算自适应阈值，该自适应阈值用于对相似度矩阵进行二值化。在按照降序对相似度矩阵中的相似度值进行排序的情况下，只有取决于该百分数的小百分比的排在前面的相似度值被二值化为表示重复的值。该百分数是相应分段中音乐片段的比例与预定基百分数的乘积。

在步骤505的一个进一步的实现中，可以仅搜索长于阈值的重复部分。可以根据有关样本歌曲中重复部分长度的统计数据来获得该阈值。

在步骤505的一个进一步的实现中，可以搜索部分[t₁，t₂]和[t₁+l，t₂+l]，使得音乐片段在部分[t₁，t₂+l]中占大多数。例如，部分[t₁，t₂+l]中分类为音乐的片段的比例大于50％。再例如，部分[t₁，t₂]中分类为音乐的片段的比例m1、部分[t₁+l，t₂+l]中分类为音乐的片段的比例m2、部分[t₂，t₁+l]中分类为音乐的片段的比例mc和m1、m2及mc的和ms可以满足某些条件，例如下列条件之一：

条件1：m1＞0.5且m2＞0.5且mc＞0.5

条件2：m1＞0.1且m2＞0.1且mc＞0.1且ms＞1.8。

在步骤505的一个进一步的实现中，可以把间隔距离小于阈值的两个候选边界合并为一个候选边界。该阈值可以是小于或等于最小歌曲时长的值。合并后的候选边界可以是两个候选边界之间的任意位置。

在步骤507，导出包含由候选边界限定的一个或更多个非交叠部分的至少一个组合。这样的部分满足上述条件1)到4)。

在步骤507的一个进一步的实现中，可以把由两个连续候选边界t₁和t₂限定并且长于预定最小歌曲时长的每个音乐分段检测为候选歌曲，并且通过把候选歌曲[t₁，t₂]或其扩展包含为部分来形成组合。所形成的组合中的部分不彼此交叠，并且也满足上述条件1)到4)。可以通过以下措施中的至少之一来获得每个扩展：

在基于前面描述的内容一致性来验证候选边界的情况下，在步骤507的一个进一步的实现中，可以以下述方式获得扩展：

方法500在步骤509结束。

在步骤507的一个进一步的实现中，可以导出不止一个组合。在这样的情况下，步骤507可以进一步包括将这些组合分为不同的组。每个组中的每个组合包含相同的候选歌曲，并且该组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲。对于属于不同组的每两个组合，这两个组合之一中的至少一个部分不与这两个组合中另一个内的每个部分包含相同的候选歌曲。

细化歌曲检测结果

图6是图示根据本发明一个实施例的用于对音频信号进行歌曲检测的示例设备600的框图。

如图6所示，设备600包含分类单元601、边界检测器602、歌曲搜索器603、歌曲评估器604和选择器605。分类单元601、边界检测器602和歌曲搜索器603分别与分类单元101、边界检测器102和歌曲搜索器103具有相同功能，这里不再详细描述。

对于每个组合，歌曲评估器604用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估分隔各部分的所有间隔代表真实歌曲划分的可能性。

观察到一些特性：对于两个连续歌曲，这样的歌曲的时长符合歌曲时长分布，这样的歌曲之间的非歌曲时长(间隔)符合歌曲间隔分布。此外，从这样的歌曲提取的特征表现出不同于非歌曲的某些特性。

对于每个组合，该组合中的每个部分被假设为真实歌曲，该组合代表音频信号中的可能歌曲划分。可以采用上述特性中的一或多个来确定组合是否能够代表真实歌曲划分。例如，可以基于有关一组样本歌曲的时长的统计数据来训练用于评估一个部分是否真实歌曲的歌曲时长模型，并且根据一个部分的长度用所训练的模型来估计该部分是真实歌曲的可能性。再例如，可以根据有关连续样本歌曲之间的间隔的统计数据来训练用于评估两个相邻部分之间的部分是否非歌曲的非歌曲模型，并且根据两个连续部分之间的间隔用所训练的模型来估计这两个部分之间的部分是非歌曲的可能性。再例如，可以根据从一组样本歌曲提取的特征来训练用于评估一个部分是否真实歌曲的歌曲概率模型，并且根据从一个部分提取的特征用所训练的模型来估计该部分是真实歌曲的可能性。也可以采用其它准则来确定组合是否能够代表真实歌曲划分。如果获得不止一个可能性，可以在联合模型中组合它们以获得最终可能性。例如，可以计算各个可能性的均值或联合概率函数。

在联合概率函数的一个示例中，最终可能性可以被计算为用于分隔相应组合中一个或更多部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积，其中如果一个间隔[e，s]分隔两个相邻部分[s₁，e]和[s，e₂]，则置信度P([e，s])被计算为

P ([e, s]) = P_{dur} ([s_{1}, e]) P_{dur} {([s, e_{2}])}^{α} P_{ns}^{β} ([e, s]) P_{song} ([s_{1}, e]) P_{song} ([s, e_{2}])

(5-1)以及

如果相应组合中仅存在一个部分[x，y]，则置信度P([e，s])被计算为

P([e，s])＝P_dur([x，y])P_song([x，y]) (5-2)

其中P_dur()是预先训练的歌曲时长模型，P_ns()是预先训练的非歌曲时长模型，其是作为伽玛(Gamma)分布来估计的，P_song()是指示一个部分是真实歌曲的概率的歌曲概率模型，α和β是处理不同概率分布的不同尺度(scale)的平滑系数。

选择器605选择具有最高可能性的一个组合。该组合中部分被当作真实歌曲。

在选择器605的一个进一步的实施例中，对于所选择的组合中每个部分的每个边界b，选择器605可以根据基于贝叶斯信息准则(BIC)的方法，针对以边界b为中心的BIC窗口中的每个帧位置t计算对数似然差ΔBIC(t)，并且把边界b调整到对应峰值ΔBIC(t)的帧位置t。

图7是图示ΔBIC(t)和BIC窗口之间的关系的示意图。如图7所示，ΔBIC(t)可以被计算为ΔBIC(t)＝BIC(H₀)-BIC(H₁)，其是两个假设H₀和H₁之间的差，其中BIC(H)表示假设H下的对数似然，H₀表示帧边界t为真实边界的假设，并且最好用在时间t处分离的两个分立模型来表示窗口，H₁表示帧边界t不是真实边界的假设，并且最好仅通过一个模型来表示窗口。在图7中，在帧边界t₁和t₂处存在峰值ΔBIC(t₁)和峰值ΔBIC(t₂)，并且d₁和d₂分别表示帧边界t₁和要细化的边界b之间的距离，以及帧边界t₂和边界b之间的距离。

在选择器605的一个进一步的实施例中，选择器605可以把要细化的边界b调整到与峰值ΔBIC(t)对应的帧位置t，其中对应于峰值ΔBIC(t)的帧位置t与对应于另一个峰值ΔBIC(t′)的帧位置t′相比更接近边界b。

在选择器605的一个可选实施例中，对于所选择的组合中的每个部分的每个边界b，选择器605可以针对以边界b为中心的BIC窗口中的每个帧位置t计算一个值R_ΔBIC(t|b)＝ΔBIC(t)·P_st(|t-b|)，其中ΔBIC(t)是根据基于贝叶斯信息准则(BIC)的方法计算的对数似然差，P_st()是根据零均值高斯分布的偏移时长模型。进一步地，选择器605可以把边界b调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

在一个例子中，帧级特征可以包括色度特征。

图8是图示根据本发明一个实施例的对音频信号进行歌曲检测的示例方法800的流程图。

如图8所示，方法800从步骤801开始。步骤801、803、805和807分别与步骤501、503、505和507具有相同功能，这里不再详细描述。当在步骤807导出一个或更多组合之后，方法800前进到步骤809。

在步骤809，对于每个导出的组合，用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估分隔各部分的所有间隔代表真实歌曲划分的可能性。

对于每个导出的组合，该组合中的每个部分被假设为真实歌曲，该组合代表音频信号中的可能歌曲划分。可以采用上述特性中的一或多个来确定组合是否能够代表真实歌曲划分。也可以采用其它准则来确定组合是否能够代表真实歌曲划分。如果获得不止一个可能性，可以在联合模型中组合它们以获得最终可能性。例如，可以计算各个可能性的均值或联合概率函数。

在联合概率函数的一个示例中，根据等式(5-1)和(5-2)，最终可能性可以被计算为用于分隔相应组合中一个或更多部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积。

在步骤811，选择具有最高可能性的一个组合。该组合中部分被当作真实歌曲。

在步骤811的一个进一步的实现中，对于所选择的组合中每个部分的每个边界b，可以根据基于贝叶斯信息准则(BIC)的方法，针对以边界b为中心的BIC窗口中的每个帧位置t计算对数似然差ΔBIC(t)，并且把边界b调整到对应峰值ΔBIC(t)的帧位置t。

在步骤811的一个进一步的实现中，可以把要细化的边界b调整到与峰值ΔBIC(t)对应的帧位置t，其中对应于峰值ΔBIC(t)的帧位置t与对应于另一个峰值ΔBIC(t′)的帧位置t′相比更接近边界b。

在步骤811的一个可选实现中，对于所选择的组合中的每个部分的每个边界b，可以针对以边界b为中心的BIC窗口中的每个帧位置t计算一个值R_ΔBIC(t|b)＝ΔBIC(t)·P_st(|t-b|)，其中ΔBIC(t)是根据基于贝叶斯信息准则(BIC)的方法计算的对数似然差，P_st()是根据零均值高斯分布的偏移时长模型。进一步地，可以把边界b调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

在一个例子中，帧级特征可以包括色度特征。

图9是图示用于实现本发明的各个方面的示例性系统的框图。

在图9中，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机访问存储器(RAM)903的程序执行各种处理。在RAM 903中，也根据需要存储当CPU 901执行各种处理等等时所需的数据。

CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下列部件连接到输入/输出接口905：包括键盘、鼠标等等的输入部分906；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分907；包括硬盘等等的存储部分908；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分909。通信部分909经由例如因特网的网络执行通信处理。

根据需要，驱动器910也连接到输λ/输出接口905。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质911根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质911的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的，而不意图限定本发明。本文中所用的单数形式的″一″和″该″旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，″包括″一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。前面对本发明进行的描述只是为了图解和描述，不被用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

这里描述了下面的示例性实施例(均用″EE″表示)。

EE 1.一种对音频信号进行歌曲检测的方法，包括：

把音频信号的片段分类为包括音乐的类别；

检测音乐片段的类边界以作为候选边界；以及

导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合，其中每个所述部分满足下列条件：

1)包含长于预定最小歌曲时长的至少一个音乐分段，以作为候选歌曲，

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个所述部分中所述音乐片段的比例大于预定最小比例。

EE 2.如EE 1所述的方法，其中所述类别还包括噪声，并且

其中所述分类还包括把与两个音乐片段相接并且长度小于第一阈值的噪声分段再分类为音乐。

EE 3.如EE 1所述的方法，其中所述分类还包括：

计算每个所述片段的所述类别的置信度；

用平滑窗口从所述音频信号的起始到结束平滑所述片段，其中对于每个当前片段，如果所述当前片段的所述置信度低于第二阈值并且所述当前片段的所述类别不同于以所述当前片段为中心的所述平滑窗口中各片段的类别的中值，则用所述中值更新所述当前片段的类别；以及

用不同平滑窗口从所述音频信号的起始到结束平滑所述片段，其中对于每个当前片段，如果所述当前片段的所述置信度低于第三阈值并且所述当前片段的所述类别不同于以所述当前片段为中心的所述平滑窗口中各片段的类别的中值，则用所述中值更新所述当前片段的类别。

EE 4.如EE 1所述的方法，其中所述类边界被检测为第一类型，并且所述检测还包括：

检测每个音乐分段内的每个位置以作为第二类型的候选边界，其中在关于所述位置布置的两个第一窗口之间的内容相异度高于第四阈值的情况下，检测到所述位置。

EE 5.如EE 4所述的方法，其中所述类别还包括话音，并且所述检测还包括：

在音频信号中搜索两个重复部分[t₁，t₂]和[t₁+l，t₂+l]，其中l短于所述预定最大歌曲时长；

如果部分[t₁，t₂+l]中的一个所述候选边界在音乐分段内，则移除所述候选边界；

如果由两个所述候选边界限定的部分[t₁，t₂+l]中的话音分段具有小于第五阈值的长度，则将这两个候选边界识别为要移除的；以及

移除所有所述要移除的候选边界，或者，把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型，并且移除其余的要移除的候选边界。

EE 6.如EE 5所述的方法，其中音乐片段在部分[t₁，t₂+l]中占大多数。

EE 7.如EE 5所述的方法，其中所述重复部分的长度大于第六阈值。

EE 8.如EE 5所述的方法，其中通过相似度矩阵的方法搜索所述重复部分，其中根据一个百分数来获得用于对所述相似度矩阵进行二值化的自适应阈值，所述百分数使得在按照降序对所述相似度矩阵中的相似度值进行排序的情况下，只有取决于该百分数的小百分比的排在前面的相似度值被二值化为表示重复的值，以及

其中所述百分数是所述相应分段中音乐片段的比例与预定基百分数的乘积。

EE 9.如EE 4所述的方法，其中所述检测包括把间隔距离小于第七阈值的两个候选边界合并为一个候选边界。

EE10.如EE 4所述的方法，其中所述检测还包括：

计算围绕每个所述候选边界、长于所述第一窗口的两个第二窗口之间的至少一个内容一致性距离，其中用于计算所述至少一个内容一致性距离的特征至少部分地互不相同；

对于每个所述候选边界，根据所述至少一个相应内容一致性距离计算所述候选边界是歌曲的真实边界的第一可能性；以及

如果所述第一可能性指示所述候选边界是假边界，

如果所述候选边界在音乐分段内，则在仅包含所述候选边界并且由两个候选边界限定的音乐分段具有小于所述预定最大歌曲时长的长度的情况下移除所述候选边界；

如果由所述候选边界和另一个候选边界限定的话音分段具有小于第八阈值的长度，则将这两个候选边界识别为要移除的；以及

EE 11.如EE10所述的方法，其中如果所述至少一个相应内容一致性距离中的所有或一个内容一致性距离大于第九阈值，则相应第一可能性被计算为指示所述对应边界是歌曲的真实边界的值。

EE 12.如EE10所述的方法，其中在所述第一可能性既不指示所述候选边界是真实边界也不指示所述候选边界是假边界的情况下，如果所述候选边界是第二类型的，则所述检测还包括：

用预先训练的歌曲时长模型计算在所述候选边界处彼此相接、时长l₁和l₂的两个音乐分段是两个真实歌曲的概率P(H₀)；

用所述预先训练的歌曲时长模型计算通过合并所述两个音乐分段而获得的音乐分段是真实歌曲的概率P(H₁)；以及

如果不满足下列条件，则移除所述候选边界：

\frac{P (H_{0})}{P (H_{1})} = \frac{G (l_{1}) G (l_{2})}{G^{2} (l_{1} + l_{2})} &GreaterEqual; 1,

其中所述预先训练的歌曲时长模型是高斯模型G(l；μ，σ)。

EE 13.如EE 1或4所述的方法，其中通过下述操作导出所述至少一个组合中的每个：

把由两个连续候选边界t₁和t₂限定并且长于所述预定最小歌曲时长的每个音乐分段检测为所述候选歌曲；以及

通过把所述候选歌曲[t₁，t₂]或其扩展包含为部分来形成所述组合，其中通过下述操作中的至少之一来获得每个扩展：

沿左方向把所述候选歌曲[t₁，t₂]的边界t₁延伸到音乐分段[t₁-l₁，t₁-l₂]的候选边界t₁-l₁；以及

沿右方向把所述候选歌曲[t₁，t₂]的边界t₂延伸到音乐分段[t₂+l₃，t₂+l₄]的候选边界t₂+l₄。

EE 14.如EE 1或4或13所述的方法，还包括：

用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估所述至少一个组合的、分隔各部分的所有间隔代表真实歌曲划分的第二可能性；以及

选择所述至少一个组合中具有最高第二可能性的组合。

EE 15.如EE 14所述的方法，其中所述第二可能性被计算为用于分隔相应组合中一个或更多部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积，其中如果一个间隔[e，s]分隔两个相邻部分[s₁，e]和[s，e₂]，则置信度P([e，s])被计算为

P ([e, s]) = P_{dur} ([s_{1}, e]) P_{dur} {([s, e_{2}])}^{α} P_{ns}^{β} ([e, s]) P_{song} ([s_{1}, e]) P_{song} ([s, e_{2}]),

以及

P([e，s])＝P_dur([x，y])P_song([x，y])，

其中P_dur()是预先训练的歌曲时长模型，P_ns()是预先训练的非歌曲时长模型，其是作为伽玛(Gamma)分布来估计的，P_song()是指示一个部分是真实歌曲的概率的歌曲概率模型，α和β是处理不同概率分布的不同尺度的平滑系数。

EE 16.如EE 14所述的方法，其中所述分类还包括计算每个所述片段中的帧的帧级特征，并且

其中所述选择还包括：

对于所选择的组合的所述至少一个部分的每个边界，根据基于贝叶斯信息准则(BIC)的方法，针对以所述边界为中心的BIC窗口中的每个帧位置t，计算对数似然差ΔBIC(t)；以及

把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。

EE 17.如EE 16所述的方法，其中对应于峰值4BIC(t)的帧位置t与对应于另一个峰值ΔBIC(t′)的帧位置t′相比更接近所述边界。

EE 18.如EE 14所述的方法，其中所述分类还包括计算每个所述片段中的帧的帧级特征，并且

其中所述选择还包括：

对于所选择的组合中的所述至少一个部分的每个边界，针对以所述边界为中心的BIC窗口中的每个帧位置t计算一个值R_ΔBIC(t|b)＝ΔBIC(t)·P_st(|t-b|)，其中ΔBIC(t)是根据基于贝叶斯信息准则(BIC)的方法计算的对数似然差，P_st()是根据零均值高斯分布的偏移时长模型；以及

把所述边界调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

EE 19.如EE 13所述的方法，其中所述检测还包括：

如果所述第一可能性指示所述候选边界是假边界，

移除所有所述要移除的候选边界，或者，把一个或更多个对的限定音乐分段的两个要移除的候选边界改变为第二类型，并且移除其余的要移除的候选边界，

其中如果延伸到的音乐分段[t₁-l₁，t₁-l₂]的候选边界t₁-l₁的所述第一可能性指示候选边界t₁-l₁是真实歌曲边界，则停止左方向的延伸，以及

如果延伸到的音乐分段[t₂+l₃，t₂+l₄]的候选边界t₂+l₄的所述第一可能性指示候选边界t₂+l₄是真实歌曲边界，则停止右方向的延伸。

EE 20.如EE 1所述的方法，其中所述至少一个组合包含不止一个组合，并且

其中所述导出还包括将所述组合分为不同的组，其中每个组中的每个组合包含相同的候选歌曲，并且所述组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲，并且

其中对于属于不同组的每两个组合，这两个组合之一中的至少一个部分不与这两个组合中另一个内的每个部分包含相同的候选歌曲。

EE 21.一种对音频信号进行歌曲检测的设备，包括：

分类单元，其把音频信号的片段分类为包括音乐的类别；

边界检测器，其检测音乐片段的类边界以作为候选边界；以及

歌曲搜索器，其导出包含由所述候选边界限定的一个或更多个非交叠部分的至少一个组合，其中每个所述部分满足下列条件：

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个所述部分中所述音乐片段的比例大于预定最小比例。

EE 22.如EE 21所述的设备，其中所述类别还包括噪声，并且

其中所述分类单元进一步被配置成把与两个音乐片段相接并且长度小于第一阈值的噪声分段再分类为音乐。

EE 23.如EE 21所述的设备，其中所述分类单元进一步被配置成计算每个所述片段的所述类别的置信度，并且

其中所述分类单元还包括：

第一中值滤波器，其从所述音频信号的起始到结束平滑所述片段，其中对于每个当前片段，如果所述当前片段的所述置信度低于第二阈值并且所述当前片段的所述类别不同于以所述当前片段为中心的平滑窗口中各片段的类别的中值，则用所述中值更新所述当前片段的类别；以及

具有不同平滑窗口的一个或更多个第二中值滤波器，其从所述音频信号的起始到结束平滑所述片段，其中对于每个当前片段，如果所述当前片段的所述置信度低于第三阈值并且所述当前片段的所述类别不同于以所述当前片段为中心的平滑窗口中各片段的类别的中值，则用所述中值更新所述当前片段的类别。

EE 24.如EE 21所述的设备，其中所述类边界被检测为第一类型，并且所述边界检测器进一步被配置成

EE 25.如EE 24所述的设备，其中所述类别还包括话音，并且所述边界检测器进一步被配置成

EE 26.如EE 25所述的设备，其中音乐片段在部分[t₁，t₂+l]中占大多数。

EE 27.如EE 25所述的设备，其中所述重复部分的长度大于第六阈值。

EE 28.如EE 25所述的设备，其中通过相似度矩阵的方法搜索所述重复部分，其中根据一个百分数来获得用于对所述相似度矩阵进行二值化的自适应阈值，所述百分数使得在按照降序对所述相似度矩阵中的相似度值进行排序的情况下，只有取决于该百分数的小百分比的排在前面的相似度值被二值化为表示重复的值，以及

EE 29.如EE 24所述的设备，其中所述边界检测器进一步被配置成把间隔距离小于第七阈值的两个候选边界合并为一个候选边界。

EE 30.如EE 24所述的设备，其中所述边界检测器进一步被配置成

如果所述第一可能性指示所述候选边界是假边界，

EE 31.如EE 30所述的设备，其中如果所述至少一个相应内容一致性距离中的所有或一个内容一致性距离大于第九阈值，则相应第一可能性被计算为指示所述对应边界是歌曲的真实边界的值。

EE 32.如EE 30所述的设备，其中在所述第一可能性既不指示所述候选边界是真实边界也不指示所述候选边界是假边界的情况下，如果所述候选边界是第二类型的，则所述边界检测器进一步被配置成

如果不满足下列条件，则移除所述候选边界：

\frac{P (H_{0})}{P (H_{1})} = \frac{G (l_{1}) G (l_{2})}{G^{2} (l_{1} + l_{2})} &GreaterEqual; 1,

其中所述预先训练的歌曲时长模型是高斯模型G(l；μ，σ)。

EE 33.如EE 21或24所述的设备，其中通过下述操作导出所述至少一个组合中的每个：

EE 34.如EE 21或24或33所述的设备，还包括：

歌曲评估器，其用基于歌曲时长、歌曲间间隔和歌曲概率中至少之一训练的评估模型来评估所述至少一个组合的、分隔各部分的所有间隔代表真实歌曲划分的第二可能性；以及

选择器，其选择所述至少一个组合中具有最高第二可能性的组合。

EE 35.如EE 34所述的设备，其中所述第二可能性被计算为用于分隔相应组合中一个或更多部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积，其中如果一个间隔[e，s]分隔两个相邻部分[s₁，e]和[s，e₂]，则置信度P([e，s])被计算为

P ([e, s]) = P_{dur} ([s_{1}, e]) P_{dur} {([s, e_{2}])}^{α} P_{ns}^{β} ([e, s]) P_{song} ([s_{1}, e]) P_{song} ([s, e_{2}]),

以及

P([e，s])＝P_dur([x，y])P_song([x，y])，

EE 36.如EE 34所述的设备，其中所述分类单元进一步被配置成计算每个所述片段中的帧的帧级特征，并且

其中所述选择器进一步被配置成

把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。

EE 37.如EE 36所述的设备，其中对应于峰值ΔBIC(t)的帧位置t与对应于另一个峰值ΔBIC(t′)的帧位置t′相比更接近所述边界。

EE 38.如EE 34所述的设备，其中所述分类单元进一步被配置成计算每个所述片段中的帧的帧级特征，并且

其中所述选择器进一步被配置成

把所述边界调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

EE 39.如EE 33所述的设备，其中所述边界检测器进一步被配置成

如果所述第一可能性指示所述候选边界是假边界，

EE 40.如EE 21所述的设备，其中所述至少一个组合包含不止一个组合，并且

其中所述歌曲搜索器进一步被配置成将所述组合分为不同的组，其中每个组中的每个组合包含相同的候选歌曲，并且所述组合中的每个部分与相同组的其它组合中的一个部分包含相同的候选歌曲，并且

EE 41.一种计算机可读介质，其上记录有计算机程序指令，所述指令在被处理器执行时使得该处理器能够执行对音频信号进行歌曲检测的方法，所述方法包括：

把音频信号的片段分类为包括音乐的类别；

检测音乐片段的类边界以作为候选边界；以及

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个所述部分中所述音乐片段的比例大于预定最小比例。

Claims

1.一种对音频信号进行歌曲检测的方法，包括：

把音频信号的片段分类为包括音乐的类别；

检测音乐片段的类边界以作为候选边界；以及

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个所述部分中所述音乐片段的比例大于预定最小比例。

2.如权利要求1所述的方法，其中所述类边界被检测为第一类型，并且所述检测还包括：

检测每个音乐分段内的每个位置以作为第二类型的候选边界，其中在关于所述位置布置的两个第一窗口之间的内容相异度高于第一阈值的情况下，检测到所述位置。

3.如权利要求2所述的方法，其中所述类别还包括话音，并且所述检测还包括：

如果由两个所述候选边界限定的部分[t₁，t₂+l]中的话音分段具有小于第二阈值的长度，则将这两个候选边界识别为要移除的；以及

4.如权利要求2所述的方法，其中所述检测还包括：

如果所述第一可能性指示所述候选边界是假边界，

如果由所述候选边界和另一个候选边界限定的话音分段具有小于第三阈值的长度，则将这两个候选边界识别为要移除的；以及

5.如权利要求1或2所述的方法，其中通过下述操作导出所述至少一个组合中的每个：

6.如权利要求1或2或5所述的方法，还包括：

选择所述至少一个组合中具有最高第二可能性的组合。

7.如权利要求6所述的方法，其中所述第二可能性被计算为用于分隔相应组合中一个或更多个部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积，其中如果一个间隔[e，s]分隔两个相邻部分[s₁，e]和[s，e₂]，则置信度P([e，s])被计算为

P ([e, s]) = P_{dur} ([s_{1}, e]) P_{dur} {([s, e_{2}])}^{α} P_{ns}^{β} ([e, s]) P_{song} ([s_{1}, e]) P_{song} ([s, e_{2}]),

以及

P([e，s])＝P_dur([x，y])P_song([x，y])，

8.如权利要求6所述的方法，其中所述分类还包括计算每个所述片段中的帧的帧级特征，并且

其中所述选择还包括：

把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。

9.如权利要求6所述的方法，其中所述分类还包括计算每个所述片段中的帧的帧级特征，并且

其中所述选择还包括：

把所述边界调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

10.如权利要求1所述的方法，其中所述至少一个组合包含不止一个组合，并且

11.一种对音频信号进行歌曲检测的设备，包括：

分类单元，其把音频信号的片段分类为包括音乐的类别；

2)短于预定最大歌曲时长，

3)开始和结束于音乐片段，以及

4)每个所述部分中所述音乐片段的比例大于预定最小比例。

12.如权利要求11所述的设备，其中所述类边界被检测为第一类型，并且所述边界检测器进一步被配置成

13.如权利要求12所述的设备，其中所述类别还包括话音，并且所述边界检测器进一步被配置成

14.如权利要求13所述的设备，其中所述边界检测器进一步被配置成

如果所述第一可能性指示所述候选边界是假边界，

15.如权利要求11或12所述的设备，其中通过下述操作导出所述至少一个组合中的每个：

16.如权利要求11或12或15所述的设备，还包括：

17.如权利要求16所述的设备，其中所述第二可能性被计算为用于分隔相应组合中一个或更多部分的所有间隔[e，s]的置信度P([e，s])的平均值或乘积，其中如果一个间隔[e，s]分隔两个相邻部分[s₁，e]和[s，e₂]，则置信度P([e，s])被计算为

P ([e, s]) = P_{dur} ([s_{1}, e]) P_{dur} {([s, e_{2}])}^{α} P_{ns}^{β} ([e, s]) P_{song} ([s_{1}, e]) P_{song} ([s, e_{2}]),

以及

P([e，s])＝P_dur([x，y])P_song([x，y])，

18.如权利要求16所述的设备，其中所述分类单元进一步被配置成计算每个所述片段中的帧的帧级特征，并且

其中所述选择器进一步被配置成

把所述边界调整到对应于峰值ΔBIC(t)的帧位置t。

19.如权利要求16所述的设备，其中所述分类单元进一步被配置成计算每个所述片段中的帧的帧级特征，并且

其中所述选择器进一步被配置成

把所述边界调整到对应于最高峰值R_ΔBIC(t)的帧位置t。

20.如权利要求11所述的设备，其中所述至少一个组合包含不止一个组合，并且