CN1998044B

CN1998044B - 音频信号分类方法和系统

Info

Publication number: CN1998044B
Application number: CN2005800136388A
Authority: CN
Inventors: D·布里巴特; M·麦克金尼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-29
Filing date: 2005-04-21
Publication date: 2011-08-03
Anticipated expiration: 2025-04-21
Also published as: WO2005106844A1; EP1745463A1; US20080243512A1; JP2007534995A; EP1745463B1; TW200606816A; DE602005008041D1; KR20070004891A; ATE400870T1; CN1998044A

Abstract

本发明描述了一种分类音频输入信号(1)的方法，该方法包括以下步骤：提取该音频输入信号(1)的至少一个特征(2)；基于该至少一个所提取的特征(2)为该输入音频信号(1)导出特征矢量(3)；以及确定该输入音频信号(1)的该特征矢量(3)落入多个类别(C1，C2….，Cn)中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。

Description

音频信号分类方法和系统

发明领域

本发明总体涉及一种识别音频输入信号、尤其是音乐轨道的系统和方法，本发明还涉及一种用于分类音频输入信号、尤其是音乐轨道的音频处理设备。

发明背景

作为广播技术、传输带宽和互联网发展的结果，并且由于消费存储设备的不断提高的容量，如今的消费者可以使用数量快速增大的多媒体内容。超过10,000个轨道的音乐集合也不例外。随着多媒体内容数量的所述增大，带来了对内容自动过滤、处理和存储的需要。从这种大音乐数据库中组织和选择音乐是非常困难的并且很消耗时间。该问题可以部分地通过包含元数据来解决，所述元数据可以被理解成以某种方式附着在实际音频数据文件上的附加信息标签。元数据有时由服务提供商提供，但是为了可以使用这些服务，消费者通常需要在线连接到该服务提供商，该服务提供商多半会对消费者所取回的数据收费。因此，从外部服务提供商取回元数据对于消费者来说并不总是具有吸引力的。

当前的自动音频分类技术主要依赖于从音频中提取的相关特征，可以基于这些相关特征进行分析。例如，WO 01/0483 A2描述了一种在数据库中搜索与第一段音乐相似的第二段音乐的方法。这里，该数据库由歌曲集合组成，每首歌曲与某种具有参数形式的元数据相关联。参数在第一段音乐中被识别并且被分析，以便在数据库中定位一组匹配的参数。该方法被限于定位与第一段音乐相似的第二段音乐，因此对那些不太希望听到完全相同的歌曲的用户来说仅仅具有非常有限的兴趣。

最近的研究显示，人们的音乐偏好与当他们在10到20岁时流行的音乐相符。这就表示许多人偏好来自特定年代(例如80年代)的音乐。找到来自特定时期的歌曲或者找到听起来像是来自那个年代的歌曲是很困难的。并不是集合中的所有歌曲都可以有表明歌曲的发行日期的元数据，这尤其是因为元数据的使用是最近刚发展起来的，因此较老的集合将不具有该元数据。

发明目的和概要

因此，本发明的一个目的是提供一种方法和系统，其可以用来简单地识别音频片段的发行日期，而不需要使用元数据。

为此，本发明提供一种根据音频输入信号的发行日期来分类音频输入信号的方法，该方法包括以下步骤：提取音频输入信号的至少一个特征；基于该至少一个特征为输入音频信号导出特征矢量；以及确定该输入音频信号的特征矢量落入多个类别当中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。这里的“音频输入信号”是可以来自音频数据文件、音乐轨道、声轨、MP3音乐文件等等的信号。该音频输入信号也可以是(例如来自麦克风的)模拟信号，其优选地(但并不是必须)被转换成数字形式以便进行进一步的数字信号处理。音频信号的一个短的选段对于使用本发明的方法来估计其发行日期就足够了。

根据上述方法的用于分类音频输入信号的发行日期的适当系统包括以下装置：用于提取音频输入信号的至少一个特征的特征提取单元；用于基于该至少一个特征为输入音频信号导出特征矢量的导出单元；以及概率确定单元，其用于确定该输入音频信号的特征矢量落入多个类别当中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。

所述方法和系统因此提供了一种自动估计音频输入信号的发行日期的简单方式。由此，“发行日期”一词意图表示特定的历年，其也可以表示一个时期，诸如“70年代早期”或“1998年前后”，或者表示任何其他时间点(例如特定的日期)。例如，发行日期可以是发行年，其被定义为一年，在其之前和之后可能有一段持续时间，从而定义了一定程度的不确定性，该音频信号很有可能在这之间发行。对于特定的音频信号，包含(framing)所识别的发行时期的时间跨距的总长度可以被解释为精确度的度量，即可以确定该音频信号的日期的精确度。因此，包含所识别的年份的相对较短的时间跨距将表示该相应的音频信号可以被确信地假设为来自所识别的发行时期，而较长的时间跨距将允许所提出的音频信号的产生日期具有一定程度的不确定性。

通过本发明的适当应用，甚至可以在实际发行日期和感觉的发行日期之间做出区分。实际的发行日期就是该特定歌曲被发行的真实年份，而感觉的发行日期则是大多数听众在听到该歌曲时所联想到的年份。实际的发行日期信息对于翻唱版本和原唱版本是不同的，可以基于所提取的特征正确地估计出实际的发行日期信息。如果翻唱版本非常类似于原唱版本(也就是说翻唱版本在流派特征、风格等方面与原唱版本没有显著不同)但是很久以后才被发行，那么如果期望的话，该翻唱版本可以用感觉的发行日期来分类。

独立权利要求和以下的描述公开了本发明的特别有利的实施例和特征。

所述“特征”是音频输入信号的描述性特征，诸如信号带宽、信号能量、频谱跌落频率、频谱质心等等。在提取所述特征之前，所述音频信号通常被转换成数字形式。然后，例如可以从音频样本的重叠帧计算所述特征。对所提取的特征执行进一步的处理，比如计算功率谱、归一化该功率谱以及计算在多个不同能量带上的能量，以便给出多个附加特征。最后，从整个特征组中产生一个特征选集，以便给出对应于该音频输入信号的特征矢量。

因此，从所述输入音频信号中导出的该特征矢量可以被用于分类音频信号。为此，对该特征矢量执行分析，以便确定该特征矢量落入多个可能类别当中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。所述类别可以由点簇来图形地表示，每个点由一个特征矢量表示。所述点簇可以被理解成被安排在n维特征空间中，其中n对应于被用来计算每个特征矢量的特征的数量。每个簇是基于之前为来自一个音频信号集合的各音频信号计算的特征矢量而建立的，该音频信号集合代表关于某个发行日期的音频信号分类。为了确保分类的高成功率，该音频信号集合优选地包括分布在所有期望的发行日期类别上的足够大数量的音频信号。

在本发明的一个优选实施例中，代表特定发行日期信息的类别(或者其相应的簇)可以用从先前计算的与该发行日期信息相关联的特征矢量集合中导出的模型来描述。这种模型可以例如是高斯多变量模型，其中的每个类别具有其自身的均值矢量及其自身的协方差矩阵。为了确保最佳可能的分类结果，该模型空间的维数被保持得尽可能低，同时选择给出在所得到的模型的各类别和各簇之间的最佳可能区分的特征。已知的特征分级(ranking)和维数缩减的方法可以被应用来产生最佳的特征组以供使用。该特征组被用来基于音频信号的集合而建立所述类别模型，并且随后被用来利用该模型为将被分类的任何输入音频信号计算特征矢量。

多种已知的方法可用于计算音频输入信号的特征矢量落入特定类别(即对特征矢量进行分类)的概率。

在本发明的一个优选实施例中采用了判别分析的方法。利用该分析方法，基于每个类别的平均值和协方差矩阵，可以使用例如Bayes规则对特征矢量进行分类以便确定特定类别包含该特征矢量的概率，并且采用先前为每个类别计算的概率密度。如果所述协方差矩阵在各类别上不同，那么所述判别函数就是二次的，从而所述判决边界在特征空间中形成二次曲面。该方法在这种情况下被称为二次判别分析。如果所述方差矩阵在各类别上是恒定的，那么所述判决边界在特征空间中形成线性曲面，并且该分析方法被称作线性判别分析。

使用这些分析方法，就可以“定位”特征矢量在特征空间中的位置，这样可以确定与其最紧密相关的类别。如果该特征矢量明显地趋向位于与特定发行日期相关联的特定类别的中心，则可以假设相关联的音频输入信号在相应的日期(诸如“1970”)被发行。但是，如果该特征矢量更趋向位于该簇的边缘或边界，那么包含该发行日期的时间跨距就反映了不精确性。例如，对应于音频输入信号的发行日期或发行年份可以分别被报告为“1970±2”。

特征的选择对于分类方法的成功可能具有很大的影响。因此，在本发明的一个特别优选的实施例中，被用于分类音频输入信号的特征矢量包括音频输入信号的听觉滤波器时间包络调制特征和/或心理声学特征。

听觉滤波器时间包络(AFTE)调制特征可以通过使用多个特定类型的滤波器(其被称作伽马音调滤波器，其频谱形状类似于人类听觉系统的频率分辨率)对输入音频信号进行滤波而获得。对滤波后的信号执行进一步的处理，以便给出一组AFTE特征。该AFTE特征组的一个有力的属性在于，其允许标识波形频谱和包络频谱的那些包含相关信息的部分，以用于分类的目的。使用标准高斯框架来进行分类，结果显示，所述特征的时间行为对于自动音频分类来说是很重要的。此外，如果基于来自听觉感觉的模型的特征而不是基于标准特征，那么平均而言分类更好。

心理声学特征是基于对粗糙度、锐度、响度等等的感觉。粗糙度是对在大约20-150Hz的范围内的时间包络调制的感觉，并且对于70Hz附近的调制表现出最大值。响度是对强度的感觉，锐度是与高频能量的频谱密度和相对强度相关的感觉。这些特征在发行年份分类中尤为有用，因为已经观察到对应于记录和混合设备的发展，音乐生产的某些质量多年来发生了改变，并且这些质量部分地由心理声学特征反映。例如，音乐的响度多年来稳定地提高，从而在确定音乐片段的起源日期时，使用响度可以产生良好的效果。

这就允许这里所描述的系统被用于实际的和所感觉的发行日期分类。如上所述，音乐片段可以被感觉为源自特定时间，即便其产生和发行时间是在很久之后。可以使用上述方法来识别实际的发行日期。

优选地，通过反复地调节一些特征(诸如响度等等)并且执行分类处理，也可以容易地识别感觉的发行日期。所述调节可以涉及对于各特征适配加权系数或者某种类似程序。例如，如果从响度等导出的特征被调节成反应70年代的典型水平，那么即使Abba乐曲的翻唱版本或者意欲拷贝Abba风格的音乐片段是在90年代发行的，也仍然可以被正确地识别为70年代。另一方面，本发明可以识别表现出过去流派的典型特征的音乐片段的正确发行日期，即使它是在很久以后发行的。

本发明可以用于多种音频处理应用。例如，在一个优选实施例中，如上所述的用于估计音频输入信号的发行年份的分类系统可以被合并到一个音频处理设备中，该音频处理设备用于根据特定发行年份-日期来选择音频样本。该音频处理设备可以包括用于根据发行日期从数据库中选择一个或多个音乐数据文件的音乐查询系统。该音频处理设备可以解释用户输入，以便在估计发行日期之前确定将要对于从音乐数据文件中提取的音频信号的特征所执行的任何处理步骤。例如，该设备的用户可以输入参数，所述参数指定应当基于其实际发行日期来选择音乐片段，还是基于感觉的发行日期来选择音乐片段。按照这种方式，用户可以容易地建立来自一个或多个流派、来自特定的十年或时间跨距的音乐的集合，或者他可以更愿意指定特定类型的音乐，诸如60年代类型的摇滚乐，而不管其实际的发行年份。一旦对于特定的音乐片段进行了估计之后，该音频处理设备可以在本地或外部数据库中存储所述实际的和/或感觉的发行日期信息，以备将来使用。

所述音频处理设备的另一个实施例包括自动DJ设备，其用于根据所期望的序列从音乐数据库中选择音乐片段。这种自动DJ设备可以是录音室、电台或电视台、迪斯科舞厅等场所中的专业设备，或者可以被合并入PC、家庭娱乐设备、PDA、移动电话等等。该自动DJ设备可以包括用于播放所选择的音乐片段的音频输出端，或者其可以连接到单独的播放音乐的装置。该自动DJ设备的特征在于其可以具有连接到远程音乐数据库(例如在因特网中)或者本地音乐数据库(例如家庭娱乐设备中的MP3文件列表)的装置。用户可以指定例如60年代风格的摇滚乐，其后是一个不同的流派(诸如70年代风格的迪斯科)。该自动DJ设备在实际的和感觉的发行日期信息的音乐数据库中搜索指定流派的音乐，并且按照所期望的顺序来编辑所述音乐片段的列表。

根据本发明的分类系统可以被非常经济地实现为计算机程序。用于确定音乐输入信号的模糊度的度量的所有组件(例如滤波器组、谐振器滤波器组、能量相加单元、分级单元、节奏方案编辑器等等)可以被实现为计算机程序模块的形式。任何所需要的软件或算法可以在硬件设备的处理器上进行编码，从而现有的硬件设备可以被适配成从本发明的特征中获益。替换地，用于确定音乐输入信号的模糊度的度量的组件同样可以至少部分地利用硬件模块来实现，从而本发明可以被应用于数字和/或模拟音乐输入信号。

在本发明的一个实施例中，所述音乐数据库可以处于与先前利用上述方法编辑的相关发行日期信息列表分开的存储设备中，或者二者可以都被存储在相同的设备上，例如被存储在个人计算机、CD或DVD等上。该音乐数据库可以被存储在一个位置上，或者可以分布在几个设备上，例如分布在音乐CD集合中。在本发明的一个优选实施例中，所述音乐数据库和对应于该音乐数据库的各单元的发行日期信息以这样的方式被存储：只需要最小的努力就能够首先取回对应于特定音乐片段的发行日期信息。

本发明的其他目的和特征将通过参考附图以及下面的详细说明而变得更加清楚。但是，应当理解，附图仅仅用于说明而不是限制本发明。

附图简述

图1是根据本发明一个实施例的用于确定音乐片段的发行年份的系统的示意框图。

图2是在二维特征矢量空间中的多个类别的图形表示。

实施例描述

在图1中，音频输入信号1(在本例中是来自音乐数据文件、音乐轨道、MP3文件等等的数字音乐输入信号1)被输入到分类系统4。

在特征提取单元5中，从音频输入信号样本的10个743ms的帧中提取特征2。所述样本优选地是从趋向于轨道或音乐数据文件的中间的位置处获得的，这是因为音乐轨道的开头和结尾听起来常常与主体部分有所不同。

在接下来的导出单元6中，为输入音频信号1的10个帧当中的每一个的特征2计算一个特征矢量3。

然后在概率确定单元7中对每个特征矢量3进行分类处理，其中执行分析步骤以便确定特征矢量3落入多个可能类别中的一个特定类别之内的概率。

因此，分类系统4可以访问包含所述分类处理所需的信息的数据库9。通过例如让两个收听者听大量歌曲然后根据预定义的类别列表(C1，C2，...，Cn)独立地对它们进行分类来建立和训练数据库9，每个类别对应于特定的发行日期信息，诸如“1966-1970”、“1970-1974”等等。每个歌曲或轨道将用一个分数进行评级，该分数表示该歌曲或轨道与其类别(C1，C2，...，Cn)的对应程度。从这些歌曲中识别出一个精简集合，该精简集合包括满足以下标准的所有轨道：

●由两个收听者识别的类别(C1，C2，...，Cn)对于该轨道是相同的；

●每个轨道的评级或分数大于预定义的最小值；

●来自每个艺术家或唱片的最大轨道数量是2。

以类似于计算输入信号的特征矢量的方式为所述精简集合的每一个轨道计算特征矢量。使用这些特征矢量以及由用户提供的分类信息，可以构建一个代表所述类别(C1，C2，...，Cn)的模型。该信息被存储在数据库9中，以便在所述分类处理中使用。在导出用于训练数据库的特征矢量的过程中所涉及的处理步骤与之后用于从输入音频信号1中导出特征矢量以便进行分类的处理步骤相同。

在完成所述分类处理之后，分类系统4以适当的方式报告结果8，比如输出到显示器，这没有在图中显示。所述输出可以是“轨道ABC：发行年份1990±2”的形式，其表示被标识为“ABC”的轨道最有可能是在1990年发行的，但是必须考虑2年的不确定性因素。

图2显示了由二维特征矢量空间中的簇表示的多个类别(C1，C2)的图形表示。通常来说，特征矢量的数量和矢量空间的维数将高很多，但是这很难在二维空间表示中显示。因此，为了简明起见，该图被限制到由两个特征f1和f2建立的二维特征空间。

为了说明的目的，假设分类系统4被用来分类2个音乐轨道“X”和“Y”。进一步假设分类系统4可以分类到两个类别1或2的其中之一，其中类别C1表示70年代早期(“1970-1974”)的音乐，而C2表示70年代后期(“1975-1979”)的音乐。如上所述，计算音乐轨道“X”和“Y”的特征矢量Fx、Fy，概率导出单元7现在继续定位这两个特征矢量Fx、Fy所最可能属于的类别。因为Fx明显位于类别C1内，因此该概率确定单元可以确信地得出这样的结论：音乐轨道“X”源自由类别C1表示的时间跨距的中间，于是报告“1972±1”作为该音乐轨道的分类结果。另一方面，Fy位于类别C1和C2之间，但是比起C2更接近于C1。因此，概率确定单元7得出这样的结论：已经为之计算出这些特征矢量的该音乐轨道源自这些类别之间的某个时间，于是报告估计的发行年份“1974±4”，这表示该轨道最有可能在1974年前后发行，但是估计可能在1974年的最多4年前或4年后发行。该不确定性是特征矢量Fx、Fy与类别C1、C2的质心之间的距离的一个度量。

当对为输入信号1计算的特征矢量3进行分类时，概率确定单元7在某些情况下可以得出这样的结论：如果一些特征2被修改，则可以获得更好的分类结果。利用适当的信号10，概率确定单元7把必要的修改通知给特征提取单元5。在执行所述修改之后，特征提取单元5把最新计算的特征2转发到导出单元6，从而可以使用新的特征矢量3再次执行所述分类处理。可以重复该迭代处理，直到概率确定单元7得出结果8是令人满意的结论。

虽然已经以优选实施例及其变型的形式描述了本发明，但是应当理解，可以在不偏离本发明范围的情况下做出许多附加的修改和变化。例如，可以使用所述方法来确定任何音频(比如无线电广播、电影声轨等等)的时间。此外，本发明不限于使用上述的分析方法，而是可以采用任何适当的分析方法。

为了清楚起见，还应当理解，在本申请中使用的“一个”并不排除多个，“包括”一词并不排除其他步骤或元件。“单元”可以包括多个块或设备，除非其被明确地描述为单个实体。

Claims

1.一种分类音频输入信号(1)的方法，该方法包括以下步骤：

-提取该音频输入信号(1)的至少一个特征(2)；

-基于该至少一个所提取的特征(2)为该输入音频信号(1)导出特征矢量(3)；

-确定该输入音频信号(1)的特征矢量(3)落入多个类别(C1，C2，...，Cn)当中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。

2.根据权利要求1的方法，其中，表示特定发行日期信息的类别(C1，C2，...，Cn)是基于先前为来自音频信号集合中的各音频信号计算的各特征矢量而定义的，所述特征矢量与该发行日期信息相关联。

3.根据权利要求2的方法，其中，表示特定发行日期信息的类别(C1，C2，...，Cn)是由从先前计算的与该发行日期信息相关联的特征矢量的集合中导出的模型来描述的。

4.根据之前任何一个权利要求的方法，其中，确定所述输入音频信号(1)的所述特征矢量(3)落入特定类别(C1，C2，...，Cn)之内的概率包括对于该特征矢量(3)执行判别分析的步骤。

5.根据权利要求1的方法，其中，所述特征矢量(3)包括：

-所述音频输入信号(1)的心理声学特征(2)；以及/或者

-描述该音频输入信号(1)的时间包络的听觉模型表示的特征(2)。

6.根据权利要求1或权利要求2的方法，其中，提取特征(2)包括：计算每个特征(2)的功率谱，归一化该功率谱，以及计算在多个不同能量带上的能量。

7.根据权利要求1、2、3和5中任何一个的方法，其中，所述输入音频信号(1)的所述特征(2)在所述分类处理期间被反复调节，以便获得对应于该输入音频信号(1)的最佳分类的特征矢量(3)。

8.一种用于分类音频输入信号(1)的分类系统(4)，所述分类系统包括以下装置：

-特征提取单元(5)，其用于提取该音频输入信号(1)的至少一个特征(2)；

-导出单元(6)，其用于基于该至少一个所提取的特征(2)为该输入音频信号(1)导出特征矢量(3)；

-概率确定单元(7)，其用于确定该输入音频信号(1)的该特征矢量(3)落入多个类别(C1，C2，...，Cn)中的任何一个之内的概率，其中每个类别对应于特定的发行日期信息。

9.一种用于根据特定发行日期选择音频项目的音频处理设备，其包括根据权利要求8的分类系统。

10.一种根据权利要求9的音频处理设备，其包括自动DJ设备以用于根据用户定义的发行日期信息的序列从音乐数据库中选择音乐片段，从而实现根据实际的或感觉的发行日期的音乐分组。