CN101292241B - 用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备 - Google Patents

用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备 Download PDF

Info

Publication number
CN101292241B
CN101292241B CN2006800387183A CN200680038718A CN101292241B CN 101292241 B CN101292241 B CN 101292241B CN 2006800387183 A CN2006800387183 A CN 2006800387183A CN 200680038718 A CN200680038718 A CN 200680038718A CN 101292241 B CN101292241 B CN 101292241B
Authority
CN
China
Prior art keywords
eigenvector
variance
weighting factor
dimension
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800387183A
Other languages
English (en)
Other versions
CN101292241A (zh
Inventor
M·F·麦克金尼
D·J·布里巴特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101292241A publication Critical patent/CN101292241A/zh
Application granted granted Critical
Publication of CN101292241B publication Critical patent/CN101292241B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Abstract

本发明计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法,包括计算第一特征矢量和第二特征矢量之间的距离的步骤,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重,其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。本发明的设备包括电子电路,其被操作来执行本发明的方法。本发明的软件使得可编程设备操作时执行本发明的方法。

Description

用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备
本发明涉及计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法。 
本发明进一步涉及用于计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的设备。 
本发明还涉及用于使得可编程设备操作时执行计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法的软件。 
WO2004/095315记载了这种方法的一个实施例。用于寻找相似音频信号的这种已知方法具有的缺陷在于,由于要么不是所有相似的音频信号都被找到,要么不是所有确定相似的音频信号都充分相似,在这个意义上,所计算的相似性度量不是最优的。 
在Soonil Kwon等人的文章“Speaker change detection using anew weighted distance measure”ICSLP 2002:7th InternationalConference on Spoken Language Processing,Denver,Colorado,2002年9月16-20日,International Conference on Spoken LanguageProcessing(ICSLP),Adelaide:Causal Productions,AU,Vol.4,2002年9月16日(2002-09-16),第2537-2540页中公开了一种用于在音频流中检测说话人变化的算法。为此目的,计算了两个相邻音频段之间的加权平方欧氏距离。 
本发明的第一目的是提供开篇段落中所述类型的方法,其提供更精确的相似性度量计算。 
本发明的第二目的是提供开篇段落中所述类型的设备,其提供更精确的相似性度量计算。 
依照本发明,所述第一目的的实现在于,该方法包括计算第一特征矢量和第二特征矢量之间的距离的步骤,第一特征矢量和第二特征  矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重,其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。实验已经表明,通过向一定维(特征)尤其是那些对于(音乐)分类重要的维赋予更大的权重可以获得更为精确的相似性度量计算。 
所述音频和/或视频信号可以来自任何适当的信源。最一般的情况是,音频信号可能来自音频文件,其可以具有许多格式中的任意一种。音频文件格式的例子有:非压缩格式,例如(WAV);无损压缩格式,例如Windows媒体音频(WMA);以及有损压缩格式,例如MP3(MPEG-1音频层3)文件、AAC(高级音频编解码)等等。同样地,通过使用任何合适的技术来数字化音频信号可以获得音频输入信号,这对于本领域技术人员来说是已知的。 
在本发明方法的一个实施例中,特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差(即某个维中所有类的所有值的总方差)和/或取决于所述信号集合的每类信号的该特定的一个特征的平均值的方差(即某个维中多个平均值的方差,这些平均值针对每类来确定)。以此方式,那些对于(音乐)分类重要的维被赋予了更大的权重。方差可以在多维空间中进行计算。所述信号集合可以是公司或组织拥有的集合或者个人的集合。如果所述信号集合是公司或组织拥有的集合,那么加权因子可以在硬件中或者在软件中被预先配置,或者可以是可经由因特网从所述公司或组织中获取的。 
加权因子可以取决于每类信号的所述特定的一个特征的平均值的方差与针对该信号集合的该特定的一个特征的值的方差之比。 
加权因子可以取决于所述第一或第二音频和/或视频信号的分类(例如类别、调式和/或艺术家)。该分类可以例如从音频文件的ID3标签中获取。例如,当用户选择摇滚歌曲作为种子歌曲时使用的被加权的协方差矩阵可以不同于当他选择一首古典音乐作为种子歌曲时使用的被加权的协方差矩阵。 
依照本发明,所述第二目的的实现在于,所述设备包括电子电路,该设备包括用于计算第一特征矢量和第二特征矢量之间的距离的装 置,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重,特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。 
本发明的这些和其他方面根据示例和附图是显然的,并且将通过举例的方式参照附图进一步加以阐述,在附图中: 
图1示出了在本发明实施例中使用的三个等式; 
图2示出了两维特征空间中特征值的示例,其中这些特征值可以分成两种类别; 
附图中对应的元素用相同的参考数字来表示。 
本发明的方法可以用于寻找与目标歌曲或者当前播放的选择相似的音乐。例如,如果听众具有大的音乐集合并且正在聆听他特别喜欢的一段音乐(track),那么他可以仅仅按下一个按键,该按键将启动对整个音乐集合的搜索并且返回最相似歌曲的列表然后提示其准备好用于回放。这样的功能在某些Philips消费设备中被称为LikeMusicTM。这种功能预计会出现在便携式mp3播放器、汽车收音机和家庭娱乐系统上,并且可用于大的本地音乐集合、流式音乐与音频以及广播音乐与音频。此外,用户可以收听收音机并且让按键在其私人集合中搜索相似的歌曲,或者反过来。LikeMusicTM算法工作在从音频波形自身自动提取的特征(信号统计量)上,因此不需要外部的或者带注解的元数据。第一个LikeMusicTM算法使用了标准的统计距离度量(马氏距离)来计算歌曲之间的距离。 
由于可以在多个维中描述音乐相似性,因此通常感兴趣的是分离出相似性的特定维。本发明的方法通过修改所述第一个LikeMusicTM算法以便加权对于音乐分类重要的那些特征维而提供了一种用于根据声学参数计算沿特定知觉相似性维的相似性距离的有效方式。对于特征维的加权可以基于例如类别、艺术家和/或调式分类。 
在本发明方法的实施例中,该方法首先从每首歌曲中提取出特征(描述性音频信号统计量)并且产生具有每个音轨名和关联特征的列表。这些特征可以来自大范围的统计量。在现代PC上,数百次实时地提取这些特征。当正在播放歌曲时,该方法可以从该歌曲中实时提取特征,或者如果该歌曲来自数据库,则在数据库列表中查找该歌曲。这些方法之间的区别在于,在数据库中列出的特征是在该整首歌曲上进行平均的,而实时提取的特征仅代表该歌曲的一部分(这些特征可以针对指定数量的时间累积,然后在那个时间上平均)。两种方法各有优缺点,其取决于被分析的音乐类型(例如,如果一首歌曲包含各种风格并且有人只对这些特定风格中的一种感兴趣,那么出于那个目的,局部的分析比在整首歌曲上平均要好)。然而,在大多数情况下,歌曲的风格变化并不大并且两种方法得到相同的结果。 
自动地或者通过按压按键执行的推荐过程将或者查找或者计算当前播放选择的特征、计算当前歌曲和数据库中的每首歌曲之间的距离度量D并且然后推荐最接近的20首歌曲。用户可以调节被推荐歌曲的  数量,系统可以自动地提示和播放这些被推荐的(相似的)歌曲。距离度量D是多维特征空间中特征矢量之间马氏距离的带加权因子的修改形式,所述加权因子给对于音乐分类重要的维(特征)赋予更大的权重。这个特征空间例如是20维空间。 
音轨1和音轨2之间的距离D可以用图1的等式(1)来计算,其中μ1和μ2分别为音轨1和2的矢量,W为数据库中所有特征矢量的被加权的协方差矩阵。该被加权的协方差矩阵W是个常量,并不从一个推荐到下一个推荐发生变化。它可以根据公司或组织拥有的音轨集合来确定,或者根据用户个人的音轨集合来确定。W可以用图1的等式(2)来计算,其中C为来自(例如训练)数据库的所有特征的协方差矩阵,并且gw为图1的等式(3)中所定义的类别加权矢量,其中 
Figure S2006800387183D00041
为总体特征方差矢量(协方差矩阵C的对角,例如包括针对特征1的类别11和13的特征值的方差以及针对特征2的类别11和13的特征值的方差,参见图2), 为每类别平均特征值的方差矢量(例如包括针对特征1的类别11的平均特征值15与类别13的平均特征值17之间的方差以及针对特征2的类别11的平均特征值15与类别13的平均特征值17之间的方差,参见图2)。可以针对除音乐类别之外的音乐艺术家、音乐调式分类或者个人音乐分类执行同一类型的计算。于是,每种变化情况将沿相似性的不同维计算距离。 
该方法可以在硬件中或者在软件中执行,例如在专用处理器上或者在诸如Intel奔腾处理器或AMD Athlon处理器的通用处理器上执行。执行该方法的电子设备可以是便携式设备或者诸如媒体中心PC/设备的固定设备。 
尽管已经结合优选的实施例描述了本发明,但是可以理解的是,其在以上概括的原理内的修改对于本领域技术人员来说是显而易见的,因此,本发明并不限于这些优选的实施例而是意欲包括这些修改。本发明体现在每一种新颖特性特征以及特性特征的每一种组合之中。权利要求中的附图标记并不限制其保护范围。动词“包括”及其变体的使用并没有排除权利要求中未列出的元素(元件)的存在。元素(元件)之前的冠词“一”或“一个”的使用并没有排除多个这样的元素(元件)的存在。 
对于本领域技术人员显而易见的是,“装置”指的是包括执行操  作或者被设计来执行指定功能的任何硬件(例如分立或集成电路或者电子元件)或软件,不管它是单独的还是结合了其他功能,不管它是孤立的还是与其他元件协作。本发明可以借助于包括若干不同元件的硬件以及借助于经过适当编程的计算机来实现。在列举了若干装置的设备权利要求中,这些装置中的一些可以由同一硬件项来实施。“软件”应当被理解为指的是存储在诸如软盘的计算机可读介质上、可经由诸如因特网的网络下载或者可以任何其他方式销售的任何软件产品。 

Claims (4)

1.一种计算第一音频和/或视频信号的第一特征矢量与第二音频和/或视频信号的第二特征矢量之间的相似性度量的方法,该方法包括步骤:
-计算第一特征矢量和第二特征矢量之间的距离,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重,其中特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。
2.如权利要求1所述的方法,其中加权因子取决于每类信号的所述特定的一个特征的平均值的方差与针对信号集合的该特定的一个特征的值的方差之比。
3.如权利要求1所述的方法,其中加权因子还取决于所述第一或第二音频和/或视频信号的分类。
4.一种用于计算音频和/或视频信号的第一特征矢量与第二特征矢量之间的相似性度量的设备,该设备包括:
-用于计算第一特征矢量和第二特征矢量之间的距离的装置,第一特征矢量和第二特征矢量两者都包括第二维的特征值,其中使用了加权因子,该加权因子赋给第一维的权重大于赋给第二维的权重,特征中特定的一个特征的加权因子取决于针对信号集合的该特定的一个特征的值的方差和/或取决于该信号集合的每类信号的该特定的一个特征的平均值的方差。
CN2006800387183A 2005-10-17 2006-10-16 用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备 Expired - Fee Related CN101292241B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05109636 2005-10-17
EP05109636.0 2005-10-18
PCT/IB2006/053788 WO2007046049A1 (en) 2005-10-17 2006-10-16 Method and device for calculating a similarity metric between a first feature vector and a second feature vector

Publications (2)

Publication Number Publication Date
CN101292241A CN101292241A (zh) 2008-10-22
CN101292241B true CN101292241B (zh) 2012-06-06

Family

ID=37734940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800387183A Expired - Fee Related CN101292241B (zh) 2005-10-17 2006-10-16 用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备

Country Status (7)

Country Link
US (1) US8214304B2 (zh)
EP (1) EP1941400A1 (zh)
JP (1) JP5498017B2 (zh)
CN (1) CN101292241B (zh)
BR (1) BRPI0617432A2 (zh)
RU (1) RU2451332C2 (zh)
WO (1) WO2007046049A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105355214A (zh) * 2011-08-19 2016-02-24 杜比实验室特许公司 测量相似度的方法和设备
US8626607B1 (en) 2011-08-31 2014-01-07 Amazon Technologies, Inc. Generating media recommendations based upon beats per minute
US9235198B2 (en) 2012-10-25 2016-01-12 International Business Machines Corporation System and method for using biometrics to predict and select music preferences
US20150169177A1 (en) * 2012-11-29 2015-06-18 Google Inc. Classifying particular images as primary images
CN104484459B (zh) * 2014-12-29 2019-07-23 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
US20170046510A1 (en) * 2015-08-14 2017-02-16 Qualcomm Incorporated Methods and Systems of Building Classifier Models in Computing Devices
EP3246824A1 (en) 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program
US11681747B2 (en) * 2019-11-25 2023-06-20 Gracenote, Inc. Methods and apparatus to generate recommendations based on attribute vectors
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music
CN113592750B (zh) * 2021-07-30 2023-10-20 成都市晶林科技有限公司 一种基于梯度直方图的红外增强方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173275B1 (en) * 1993-09-20 2001-01-09 Hnc Software, Inc. Representation and retrieval of images using context vectors derived from image information elements
US5982903A (en) * 1995-09-26 1999-11-09 Nippon Telegraph And Telephone Corporation Method for construction of transfer function table for virtual sound localization, memory with the transfer function table recorded therein, and acoustic signal editing scheme using the transfer function table
US5930749A (en) * 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
CZ301303B6 (cs) * 1998-10-05 2010-01-06 Koninklijke Philips Electronics N. V. Informacní nosic, prehrávac a záznamové zarízení pro nosic a zpusob zaznamenávání informace
US6317883B2 (en) * 1998-12-11 2001-11-13 Mediaone Group, Inc. System and method for content-based television program selection
US6598054B2 (en) * 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US7454775B1 (en) * 2000-07-27 2008-11-18 Koninklijke Philips Electronics N.V. Method and apparatus for generating television program recommendations based on similarity metric
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
DE60236161D1 (de) * 2001-07-20 2010-06-10 Gracenote Inc Automatische identifizierung von klangaufzeichnungen
CN100543731C (zh) 2003-04-24 2009-09-23 皇家飞利浦电子股份有限公司 参数化的时间特征分析
AU2005286823B2 (en) * 2004-09-17 2009-10-01 Cyberextruder.Com, Inc. System, method, and apparatus for generating a three-dimensional representation from one or more two-dimensional images

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Soonil Kwon, Shrikanth Narayanan.SPEAKER CHANGE DETECTION USING A NEWWEIGHTED DISTANCE MEASURE.ICSLP 2002:7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING.4.2002,4第2538页右栏第15行至第2539页左栏第40行.
Soonil Kwon, Shrikanth Narayanan.SPEAKER CHANGE DETECTION USING A NEWWEIGHTED DISTANCE MEASURE.ICSLP 2002:7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING.4.2002,4第2538页右栏第15行至第2539页左栏第40行. *

Also Published As

Publication number Publication date
US8214304B2 (en) 2012-07-03
RU2008119231A (ru) 2009-12-10
EP1941400A1 (en) 2008-07-09
BRPI0617432A2 (pt) 2011-07-26
JP5498017B2 (ja) 2014-05-21
JP2009511981A (ja) 2009-03-19
CN101292241A (zh) 2008-10-22
WO2007046049A1 (en) 2007-04-26
RU2451332C2 (ru) 2012-05-20
US20080281895A1 (en) 2008-11-13

Similar Documents

Publication Publication Date Title
CN101292241B (zh) 用于计算第一特征矢量和第二特征矢量之间相似性度量的方法和设备
WO2019233358A1 (zh) 一种基于深度学习的音质特性处理方法及系统
US9077581B2 (en) Device and method for monitoring, rating and/or tuning to an audio content channel
US7696427B2 (en) Method and system for recommending music
Allamanche et al. Content-based Identification of Audio Material Using MPEG-7 Low Level Description.
CN100543731C (zh) 参数化的时间特征分析
CN1998044B (zh) 音频信号分类方法和系统
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
CN101292280B (zh) 导出音频输入信号的一个特征集的方法
US20060155399A1 (en) Method and system for generating acoustic fingerprints
CN103999150A (zh) 媒体数据中的低复杂度重复检测
TW200300925A (en) System and method for music identification
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
KR101057919B1 (ko) 사용자들의 재생 목록 분석을 통한 맞춤형 음악 추천 방법
CN109147816B (zh) 对音乐进行音量调节的方法及设备
CN101196888A (zh) 应用数字音频特征集分类音频的系统及其方法
KR100869643B1 (ko) 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
Flexer et al. Combining features reduces hubness in audio similarity
Tsai et al. Content-based retrieval of MP3 songs for one singer using quantization tree indexing and melody-line tracking method
Dutta et al. A hierarchical approach for silence/speech/music classification
Gruhne Robust audio identification for commercial applications
Li Using random forests with meta frame and meta features to enable overlapped audio content indexing and segmentation
Fenton Audio Dynamics: Towards a Perceptual Model of'punch'.
Jun et al. SmartRadio: Cloning internet radio broadcasting stations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120606

Termination date: 20171016