CN101292241B

CN101292241B - 用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备

Info

Publication number: CN101292241B
Application number: CN2006800387183A
Authority: CN
Inventors: M·F·麦克金尼; D·J·布里巴特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-10-17
Filing date: 2006-10-16
Publication date: 2012-06-06
Anticipated expiration: 2026-10-16
Also published as: US8214304B2; RU2008119231A; EP1941400A1; BRPI0617432A2; JP5498017B2; JP2009511981A; CN101292241A; WO2007046049A1; RU2451332C2; US20080281895A1

Abstract

本发明计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法，包括计算第一特征矢量和第二特征矢量之间的距离的步骤，第一特征矢量和第二特征矢量两者都包括第二维的特征值，其中使用了加权因子，该加权因子赋给第一维的权重大于赋给第二维的权重，其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。本发明的设备包括电子电路，其被操作来执行本发明的方法。本发明的软件使得可编程设备操作时执行本发明的方法。

Description

用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备

本发明涉及计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法。

本发明进一步涉及用于计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的设备。

本发明还涉及用于使得可编程设备操作时执行计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法的软件。

WO2004/095315记载了这种方法的一个实施例。用于寻找相似音频信号的这种已知方法具有的缺陷在于，由于要么不是所有相似的音频信号都被找到，要么不是所有确定相似的音频信号都充分相似，在这个意义上，所计算的相似性度量不是最优的。

在Soonil Kwon等人的文章“Speaker change detection using anew weighted distance measure”ICSLP 2002：7th InternationalConference on Spoken Language Processing，Denver，Colorado，2002年9月16-20日，International Conference on Spoken LanguageProcessing(ICSLP)，Adelaide：Causal Productions，AU，Vol.4，2002年9月16日(2002-09-16)，第2537-2540页中公开了一种用于在音频流中检测说话人变化的算法。为此目的，计算了两个相邻音频段之间的加权平方欧氏距离。

本发明的第一目的是提供开篇段落中所述类型的方法，其提供更精确的相似性度量计算。

本发明的第二目的是提供开篇段落中所述类型的设备，其提供更精确的相似性度量计算。

依照本发明，所述第一目的的实现在于，该方法包括计算第一特征矢量和第二特征矢量之间的距离的步骤，第一特征矢量和第二特征矢量两者都包括第二维的特征值，其中使用了加权因子，该加权因子赋给第一维的权重大于赋给第二维的权重，其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。实验已经表明，通过向一定维(特征)尤其是那些对于(音乐)分类重要的维赋予更大的权重可以获得更为精确的相似性度量计算。

所述音频和/或视频信号可以来自任何适当的信源。最一般的情况是，音频信号可能来自音频文件，其可以具有许多格式中的任意一种。音频文件格式的例子有：非压缩格式，例如(WAV)；无损压缩格式，例如Windows媒体音频(WMA)；以及有损压缩格式，例如MP3(MPEG-1音频层3)文件、AAC(高级音频编解码)等等。同样地，通过使用任何合适的技术来数字化音频信号可以获得音频输入信号，这对于本领域技术人员来说是已知的。

在本发明方法的一个实施例中，特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差(即某个维中所有类的所有值的总方差)和/或取决于所述信号集合的每类信号的该特定的一个特征的平均值的方差(即某个维中多个平均值的方差，这些平均值针对每类来确定)。以此方式，那些对于(音乐)分类重要的维被赋予了更大的权重。方差可以在多维空间中进行计算。所述信号集合可以是公司或组织拥有的集合或者个人的集合。如果所述信号集合是公司或组织拥有的集合，那么加权因子可以在硬件中或者在软件中被预先配置，或者可以是可经由因特网从所述公司或组织中获取的。

加权因子可以取决于每类信号的所述特定的一个特征的平均值的方差与针对该信号集合的该特定的一个特征的值的方差之比。

加权因子可以取决于所述第一或第二音频和/或视频信号的分类(例如类别、调式和/或艺术家)。该分类可以例如从音频文件的ID3标签中获取。例如，当用户选择摇滚歌曲作为种子歌曲时使用的被加权的协方差矩阵可以不同于当他选择一首古典音乐作为种子歌曲时使用的被加权的协方差矩阵。

依照本发明，所述第二目的的实现在于，所述设备包括电子电路，该设备包括用于计算第一特征矢量和第二特征矢量之间的距离的装置，第一特征矢量和第二特征矢量两者都包括第二维的特征值，其中使用了加权因子，该加权因子赋给第一维的权重大于赋给第二维的权重，特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。

本发明的这些和其他方面根据示例和附图是显然的，并且将通过举例的方式参照附图进一步加以阐述，在附图中：

图1示出了在本发明实施例中使用的三个等式；

图2示出了两维特征空间中特征值的示例，其中这些特征值可以分成两种类别；

附图中对应的元素用相同的参考数字来表示。

本发明的方法可以用于寻找与目标歌曲或者当前播放的选择相似的音乐。例如，如果听众具有大的音乐集合并且正在聆听他特别喜欢的一段音乐(track)，那么他可以仅仅按下一个按键，该按键将启动对整个音乐集合的搜索并且返回最相似歌曲的列表然后提示其准备好用于回放。这样的功能在某些Philips消费设备中被称为LikeMusic^TM。这种功能预计会出现在便携式mp3播放器、汽车收音机和家庭娱乐系统上，并且可用于大的本地音乐集合、流式音乐与音频以及广播音乐与音频。此外，用户可以收听收音机并且让按键在其私人集合中搜索相似的歌曲，或者反过来。LikeMusic^TM算法工作在从音频波形自身自动提取的特征(信号统计量)上，因此不需要外部的或者带注解的元数据。第一个LikeMusic^TM算法使用了标准的统计距离度量(马氏距离)来计算歌曲之间的距离。

由于可以在多个维中描述音乐相似性，因此通常感兴趣的是分离出相似性的特定维。本发明的方法通过修改所述第一个LikeMusic^TM算法以便加权对于音乐分类重要的那些特征维而提供了一种用于根据声学参数计算沿特定知觉相似性维的相似性距离的有效方式。对于特征维的加权可以基于例如类别、艺术家和/或调式分类。

在本发明方法的实施例中，该方法首先从每首歌曲中提取出特征(描述性音频信号统计量)并且产生具有每个音轨名和关联特征的列表。这些特征可以来自大范围的统计量。在现代PC上，数百次实时地提取这些特征。当正在播放歌曲时，该方法可以从该歌曲中实时提取特征，或者如果该歌曲来自数据库，则在数据库列表中查找该歌曲。这些方法之间的区别在于，在数据库中列出的特征是在该整首歌曲上进行平均的，而实时提取的特征仅代表该歌曲的一部分(这些特征可以针对指定数量的时间累积，然后在那个时间上平均)。两种方法各有优缺点，其取决于被分析的音乐类型(例如，如果一首歌曲包含各种风格并且有人只对这些特定风格中的一种感兴趣，那么出于那个目的，局部的分析比在整首歌曲上平均要好)。然而，在大多数情况下，歌曲的风格变化并不大并且两种方法得到相同的结果。

自动地或者通过按压按键执行的推荐过程将或者查找或者计算当前播放选择的特征、计算当前歌曲和数据库中的每首歌曲之间的距离度量D并且然后推荐最接近的20首歌曲。用户可以调节被推荐歌曲的数量，系统可以自动地提示和播放这些被推荐的(相似的)歌曲。距离度量D是多维特征空间中特征矢量之间马氏距离的带加权因子的修改形式，所述加权因子给对于音乐分类重要的维(特征)赋予更大的权重。这个特征空间例如是20维空间。

音轨1和音轨2之间的距离D可以用图1的等式(1)来计算，其中μ₁和μ₂分别为音轨1和2的矢量，W为数据库中所有特征矢量的被加权的协方差矩阵。该被加权的协方差矩阵W是个常量，并不从一个推荐到下一个推荐发生变化。它可以根据公司或组织拥有的音轨集合来确定，或者根据用户个人的音轨集合来确定。W可以用图1的等式(2)来计算，其中C为来自(例如训练)数据库的所有特征的协方差矩阵，并且gw为图1的等式(3)中所定义的类别加权矢量，其中

为总体特征方差矢量(协方差矩阵C的对角，例如包括针对特征1的类别11和13的特征值的方差以及针对特征2的类别11和13的特征值的方差，参见图2)，为每类别平均特征值的方差矢量(例如包括针对特征1的类别11的平均特征值15与类别13的平均特征值17之间的方差以及针对特征2的类别11的平均特征值15与类别13的平均特征值17之间的方差，参见图2)。可以针对除音乐类别之外的音乐艺术家、音乐调式分类或者个人音乐分类执行同一类型的计算。于是，每种变化情况将沿相似性的不同维计算距离。

该方法可以在硬件中或者在软件中执行，例如在专用处理器上或者在诸如Intel奔腾处理器或AMD Athlon处理器的通用处理器上执行。执行该方法的电子设备可以是便携式设备或者诸如媒体中心PC/设备的固定设备。

尽管已经结合优选的实施例描述了本发明，但是可以理解的是，其在以上概括的原理内的修改对于本领域技术人员来说是显而易见的，因此，本发明并不限于这些优选的实施例而是意欲包括这些修改。本发明体现在每一种新颖特性特征以及特性特征的每一种组合之中。权利要求中的附图标记并不限制其保护范围。动词“包括”及其变体的使用并没有排除权利要求中未列出的元素(元件)的存在。元素(元件)之前的冠词“一”或“一个”的使用并没有排除多个这样的元素(元件)的存在。

对于本领域技术人员显而易见的是，“装置”指的是包括执行操作或者被设计来执行指定功能的任何硬件(例如分立或集成电路或者电子元件)或软件，不管它是单独的还是结合了其他功能，不管它是孤立的还是与其他元件协作。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中，这些装置中的一些可以由同一硬件项来实施。“软件”应当被理解为指的是存储在诸如软盘的计算机可读介质上、可经由诸如因特网的网络下载或者可以任何其他方式销售的任何软件产品。

Claims

1.一种计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法，该方法包括步骤：

-计算第一特征矢量和第二特征矢量之间的距离，第一特征矢量和第二特征矢量两者都包括第二维的特征值，其中使用了加权因子，该加权因子赋给第一维的权重大于赋给第二维的权重，其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。

2.如权利要求1所述的方法，其中加权因子取决于每类信号的所述特定的一个特征的平均值的方差与针对信号集合的该特定的一个特征的值的方差之比。

3.如权利要求1所述的方法，其中加权因子还取决于所述第一或第二音频和/或视频信号的分类。

4.一种用于计算音频和/或视频信号的第一特征矢量与第二特征矢量之间的相似性度量的设备，该设备包括：

-用于计算第一特征矢量和第二特征矢量之间的距离的装置，第一特征矢量和第二特征矢量两者都包括第二维的特征值，其中使用了加权因子，该加权因子赋给第一维的权重大于赋给第二维的权重，特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。