CN1985302B - 用于对音乐进行分类的方法 - Google Patents

用于对音乐进行分类的方法 Download PDF

Info

Publication number
CN1985302B
CN1985302B CN2005800232281A CN200580023228A CN1985302B CN 1985302 B CN1985302 B CN 1985302B CN 2005800232281 A CN2005800232281 A CN 2005800232281A CN 200580023228 A CN200580023228 A CN 200580023228A CN 1985302 B CN1985302 B CN 1985302B
Authority
CN
China
Prior art keywords
music
snatch
classified
classify
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800232281A
Other languages
English (en)
Other versions
CN1985302A (zh
Inventor
T·坎普
M·托洛斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of CN1985302A publication Critical patent/CN1985302A/zh
Application granted granted Critical
Publication of CN1985302B publication Critical patent/CN1985302B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

提出了一种用于对音乐进行分类的方法,包括以下步骤:提供音乐分类数据(MCD),提供要分类的未分类的音乐片段(s),针对所述音乐分类数据(MCD)中的每个音乐种类(c1,...,cn)导出相应的Gish距离值(D1,...,Dn),其中有限数量(n)的Gish距离值(D1,...,Dn)的有限集合(Δ)描述所述要分类的未分类的音乐片段(s)与有限数量(n)的音乐种类(c1,...,cn)的离散和有限集合(Г)的关系。替代地,为要分类的给定音乐片段(s)获得代表所述音乐片段(s)的基调的、具有至少三个数的n元组形式的音乐分类数据(MCD)。根据所述音乐分类数据(MCD)的所述n元数组确定代表所述音乐片段(s)的基调的一对二维坐标值。

Description

用于对音乐进行分类的方法
本发明涉及一种用于对音乐进行分类的方法。本发明尤其涉及一种用于自动检测音乐基调(mood)的方法。
最近几年中出现了所谓的移动音乐播放器,由于这些移动音乐播放器仍在增大允许存储非常大数量的存储项的存储能力,所以这些移动音乐播放器能够提供可比较的大量音乐或可比较的大量音乐片段。但是,这些移动音乐播放器就对所存储的音乐片段的选择和分类过程而言有时不太方便。有时,要由这种移动音乐播放器的用户进行的音乐片段的分类和/或选择过程变得困难。
因此,本发明的目的是提供一种用于对音乐进行分类的方法,该方法能够以简单的方式可靠地提供未分类的音乐片段的分类。
该目的通过根据独立权利要求1的第一解决方案和根据独立权利要求31的第二解决方案的用于对音乐进行分类的方法来实现。用于对音乐进行分类的本发明方法的优选实施方案在从属权利要求的范围内。该目的此外通过分别根据权利要求41、42和43的用于对音乐进行分类的系统、相应的计算机程序产品以及计算机可读存储介质来实现。
根据该目的的第一解决方案的用于对音乐进行分类的本发明方法包括以下步骤:
(a)提供音乐分类数据,这些音乐分类数据描述有限数量的音乐种类的离散和有限集合,
(b)提供要分类的未分类的音乐片段,以及
(c)针对所述音乐种类集合的所述音乐种类中的每一个导出关于所述要分类的未分类的音乐片段的相应Gish距离值,从而得到有限数量的Gish距离值的离散和有限集合,
其中所述有限数量的Gish距离值的有限集合描述所述要分类的未分类的音乐片段与所述有限数量的音乐种类的离散和有限集合的关系。
另外,可以包括一个另外的步骤(d),根据该步骤,在所述Gish距离值集合中,确定至少一个最小Gish距离值,并且因此确定所述音乐种类集合中的对应于所述最小Gish距离值的显著的最小化音乐种类。
此外,可以包括步骤(e):将所述最小化音乐种类选择为所述要分类的未分类的音乐片段的特征种类。
因此,本发明的一个主要思想是:从所提供的音乐种类中导出关于所述未分类的音乐片段的相应Gish距离值,以及从由此所收集的Gish距离值集合中得到关于所述未分类的音乐片段的相应Gish距离值。
另外,可以优选地得到最小Gish距离值并且由此得到表征该未分类的音乐片段的、使Gish距离值最小化的音乐种类形式的显著特征种类。
根据本发明的优选实施方案,Gish距离值根据等式(1)来计算:
Dj : = D ( s , cj ) = def log ( L ( s | m ( s ) ) · L ( cj | m ( cj ) ) L ( s + cj | m ( s + cj ) ) ) - - - ( 1 )
其中j=1,...,n。在等式(1)中,s表示要分类的未分类的音乐片段或其一部分。符号+表示相应音乐片段或其部分的拼接操作。符号cj(其中j=1,...,n)表示相应音乐种类或其代表或其代表的一部分。符号m(·)表示关于相应音乐片段的相应模型或模型构建操作。符号L(x|y)表示当给出模型y时观察到音乐片段x、数据集x、或其一部分x的似然性。
优选的是将高斯密度模型用作模型m(·)。
优选地,只使用一个单个全协方差高斯密度。
另外地或替代地,可以将多变量模型用作模型m(·)。
根据本发明的一个优选的并且有利的实施方案,所述提供所述音乐分类数据的步骤(a)是或包括接收和/或产生所述音乐分类数据或其一部分的过程或所述过程的一部分。
另外地或作为一种替代方案,所述提供要分类的未分类的音乐片段的步骤(b)可以包括尤其从外部源接收所述要分类的未分类的音乐片段或其一部分的过程或所述过程的一部分。
所述音乐分类数据和/或模型m(·)可以基于完整的歌曲或完整的音乐片段或基于其特征部分。
另外的优点是:所述导出所述Gish距离值的步骤(c)和/或所述检测所述最小Gish距离值的步骤(d)构建或包括将所述要分类的未分类的音乐片段或其所述相应部分与多个或全部音乐种类进行比较并且由此在由所述音乐分类数据所限定的并且尤其是由所述音乐种类所限定的基调空间中定位所述未分类的音乐片段或其所述相应部分的过程。
根据本发明的另一有利的实施方案,用于对音乐进行分类的本发明方法包括提供歌曲分类数据的步骤(f),这些歌曲分类数据描述所述要分类的未分类的音乐片段或其相应部分与所述音乐种类之间的关系并且因此根据所述音乐种类对所述未分类的音乐片段或其相应部分进行分类。
根据本发明的另一优选实施方案,可以对所述音乐片段和/或其部分进行采样。
在这种情况下,可以使用大约22kHz的采样频率。
此外,因此所述音乐片段和/或其部分可以被分割成帧。
在这种情况下,可以使用大约32ms的帧长度。
另外地或替代地,可以使用约为50ms的帧速率。
另外地或替代地,可以在计算相应的FFT之前对每一帧加汉明窗。
根据另一优选的并且有利的实施方案,从相应的FET可以得出相应的功率谱,并且可以将该相应的功率谱向量用作特征向量计算的基础。
在这种情况下,所述特征向量可以被梅尔刻度弯曲(melscalewarped)。
优选地,可以使用30个梅尔刻度系数。
而且,所述梅尔刻度系数可以被对数化(logarithmized)。
在这种情况下,所述对数化的梅尔刻度系数可以经受离散傅里叶反变换。
从所述对数化的梅尔刻度系数的离散傅里叶反变换可以得出每一帧的(尤其是13个)倒频谱系数的集合。
从所述每一帧的倒频谱系数的集合可以计算出一个或任意多个频谱中心、频谱流量和频谱滑动。
所述频谱中心的、所述频谱流量的和/或所述频谱滑动的方差可以被计算。
在这种情况下,所述频谱中心的、所述频谱流量的和/或所述频谱滑动的所述方差可以在具有Q个相邻帧的窗口的范围内被计算,其中尤其是Q的范围是5-20。
有利地,所述方差被视作参数。
根据另一优选实施方案,根据所述Gish距离值集合,导出所述要分类的音乐片段或其所述部分的、尤其是具有至少三个数的n元组形式的音乐分类数据。
本发明第一方法的另一有利实施方案包括(f)为要分类的给定音乐片段获得/提供代表所述音乐片段或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据以及(g)从所述音乐分类数据的所述n元数组中确定代表所述音乐片段或其所述部分的基调的一对二维坐标值的步骤。
根据所述目的的第二解决方案的用于对音乐进行分类的本发明方法包括(f)为要分类的给定音乐片段获得/提供代表所述音乐片段或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据以及(g)从所述音乐分类数据的所述n元数组中确定代表所述音乐片段或其所述部分的基调的一对二维坐标值的步骤。
另外地或替代地,笛卡尔坐标和/或极坐标可以被用作二维坐标值。
此外,三个一组的数可以被用作所述n元数组。
优选地,所述三个一组的数由所述音乐片段或其所述部分的三个基调值构成。
在这种情况下,根据所述音乐片段或其所述部分,所述基调值分别被选择用于对基调“高兴的”、“悲伤的”和“积极的(aggressive)”进行分类。
在本发明方法的优选实施方案中,根据下式确定作为二维坐标值的笛卡尔坐标:
x = j · cos ( π / 6 ) - s · cos ( π / 6 ) - - - ( 1 a )
y = a - j · sin ( π / 6 ) - s · sin ( π / 6 ) - - - ( 1 b )
-其中x,y分别表示所述第一和第二笛卡尔坐标值,以及
-其中j,s,a分别表示所述音乐片段或其所述部分的所述音乐分类数据的、尤其是标准化形式的并且此外尤其是分别相对于所述基调“高兴的”、“悲伤的”和“积极的”的所述第一个、第二个和第三个数。
根据本发明方法的另一实施方案,根据下式确定作为二维坐标值的极坐标:
r = x 2 + y 2 - - - ( 2 a )
φ = 1 2 π · arctan ( y / x ) - - - ( 2 b )
-其中r,φ分别表示极半径和极角坐标值,以及
-其中x,y表示尤其是根据等式(1a)、(1b)的二维笛卡尔坐标值。
根据尤其是标准化形式的二维坐标值,可以产生描述颜色的一个或多个颜色值,这些值描述所述音乐片段或其所述部分的基调。
在这种情况下,这个颜色值和/或这些颜色值可以根据HSV系统来确定。
尤其是,这个颜色值和/或这些颜色值可以根据所述HSV系统按下式来确定:
h=φ   (3a)
s=r    (3b)
v=1.0,(3c)
-其中h,s,v分别表示HSV颜色值色调、饱和度、和值,以及
-其中r,φ分别表示尤其是根据等式(2a)、(2b)的二维极半径和极角坐标值。
根据本发明的另一方面,提供了一种用于对音乐进行分类的系统,该系统被适配和/或被布置并且该系统包含装置,以便实现用于对音乐进行分类的本发明方法及其步骤。
根据本发明的另一方面,提供了一种包括计算机程序装置的计算机程序产品,该计算机程序产品被布置和/或被适配,以便当它在数字信号处理装置或计算机上被执行时实现用于对音乐进行分类的本发明方法或用于对音乐进行分类的本发明步骤。
本发明的又一方面是提供一种包含本发明计算机程序产品的计算机可读存储介质。
在下文中,通过参考下列评论,本发明的这些和其它方面将变得更加清楚:
本发明尤其涉及用于自动检测音乐基调的方法和装置。
随着提供用于非常多的音乐片段的巨大存储能力、但具有不允许包含屏幕或键盘的形状因素和尺寸的移动音乐播放器的发展,音乐选择问题变得越来越重要。在许多调查中,用户已表现出将他们的心情或音乐基调用作音乐选择的选择标准的偏爱。但是,音乐基调是到目前为止需要人工标记的概念,如果大规模地执行,则人工标记是极其麻烦和昂贵的。我们提出一种系统,该系统能够自动地确定任何音乐片段的基调并自动地为音乐分配基调标签。
自动从音乐得出基调的大多数尝试均限于符号数据(例如音乐的MIDI表示)。但是,大多数音乐不能以符号形式得到,因此这种方法的可用性非常有限。微软研究中心的Dan Liu、Lie Lu和Hong-JiangZhang创建了(据我们所知)唯一的处理古典音乐的这种系统。与我们的系统相比,他们的系统使用基调的Thayer模型并且采用分级结构,这使用户适应已经训练过的系统变得不可能并且也使得引入新的基调种类变得非常困难[1]。
目前没有从大的歌曲集(数据库)中选出一首歌的快速且可靠的方法。分级的、基于列表选择的、基于选择并点击的图形范例的方法需要几种基本操作并且麻烦,而语音命令选择是直接且简单的,但具有高的语音识别误差率。另外,在许多情况下,用户对为新音乐体验而研究给定的数据库有强烈的兴趣,而这在选择已知的音乐片段的情况下不能以任何选择范例来实现。
本发明的一个目的是简化用于浏览音乐数据库并从该音乐数据库中选择歌曲的容易且直观的方法,而无需昂贵且费时地为该数据库中的歌曲人工创建元数据。
这种能够自动地确定音乐基调的系统能被分解成三个子系统:选择学习集,创建基调模型,以及利用预先计算出的基调模型确定给定音乐的基调。主要的发明步骤在第三子系统中,而一些附加的相关的和新颖的扩展在第一子系统中。
在所述第一子系统中,代表基调的学习集被选择。在最简单的形式中,这能够通过为每个所期望的基调类别选择一些音乐片段来完成。例如,如果期望有三种基调类别[高兴的、积极的、悲伤的],则这可以通过为这三个类别中的每一个选择多首(例如N=10)歌曲来完成:10首高兴的歌曲、10首悲伤的歌曲、和10首积极的歌曲。在最简单的方案中,这是所需要的全部。然而,将整首歌曲视为给定基调的代表会使人误解。例如,虽然许多歌曲的一些部分(在许多情况下开头)相当悲伤,可是主要部分是积极的(合唱部分,或就与该歌曲的剩余部分的平均相似性而言最有代表性的部分,或包含歌唱的部分),它们仍被归类为积极的。因此,有利的是仅从歌曲中提取一部分以便创建基调模型,而不是取整首歌。然而,如果实现了这种方案,那么重要的是在所述第三子系统中使用相同的方案,其中将未知歌曲与该基调模型进行比较;因此,只能使用用于提取歌曲的相关部分的自动装置。尤其是,在SSG的早期的专利申请中已经描述了一种提取音乐的相关部分的系统,并且本发明的教导能够被用于此目的。在另一从属权利要求中,应当注意,每种情绪的音乐片段的选择将最终决定整个系统的工作方式,因此,该选择能够由用户访问以便使该系统适配于其个人品位。例如,在这种情况下,用户能够例如将一首歌添加到任一类别中,然后该系统将重新训练模型。这允许用户在该系统中实现他或她自己的基调感觉(用户适配),而无需以任何方式改变所述系统的结构。
所述三个子系统中的第二子系统根据先前所确定的音乐片段集(根据在所述第一子系统中所使用的提取方法,该音乐片段集可以是由系统开发者或用户手选的音乐片段的部分或全部)计算基调模型。音乐被采样(已经证明22kHz的采样频率足够了),因此如果应减少存储,那么44.1kHz的立体声片段能够被下采样为22kHz,并且立体声通道能够被组合成一个单通道,并分割成32ms长的帧,其中帧速率为50ms。当然可以使用其它帧速率和帧长度。对每一帧加汉明窗,并计算FFT。根据该FFT得出功率谱。该功率谱向量用作特征向量计算的基础。首先,像在语音识别中一样,将它们梅尔刻度弯曲(参见相关文献)为30个梅尔刻度系数、对数化,并计算反DFT变换,从而产生每一帧的具有13个倒频谱系数的集合。其次,计算所述频谱中心、频谱流量和/或频谱滑动,并且它们在具有Q个相邻帧的窗口的范围内的方差被视作参数,其中Q的典型值的范围为5-20。频谱中心、频谱流量和频谱滑动均在文献[2]中被解释。
针对每个种类(悲伤、高兴等等),得到这样所计算的参数向量,并且根据它以最大似然形式计算一个单个全协方差高斯密度。所产生的正态分布用作基调识别器的三个子系统中的第三子系统的基调模型。
所述三个子系统中的第三子系统获得基调模型(每个都是多变量高斯密度)的集合和未知的音乐片段,并通过比较每个基调模型和从该未知音乐片段导出的基调模型的相似性来计算该未知音乐片段的基调。为了实现这一点,首先在前两个子系统中将该未知音乐片段处理为训练集音乐:如果合适,则在所述第一子系统中提取出其最相关的部分,然后在所述第二子系统中进行预处理并在所述第三子系统中计算多变量高斯密度。结果就是未知歌曲的多变量高斯密度。使用该模型和预先计算出的基调模型,利用所谓的Gish距离D来计算未知模型和基调模型之间的距离:
D ( s 1 , s 2 ) = def log ( L ( s 1 | m ( s 1 ) ) · L ( s 2 | m ( s 2 ) ) L ( s 1 + s 2 | m ( s 1 + s 2 ) ) ) . - - - ( 2 )
其中符号L(sX|m(sX))表示:对于X=1,2,观察到sX的给定多变量高斯密度模型m(sX)的数据序列sX的似然性。符号m(s1+s2)表示为歌曲或音乐片段或声音s1和s2的拼接所创建的模型。符号s1+s2表示歌曲或音乐片段或声音s1和s2的拼接。如果如迄今为止所提出的那样为单个高斯正态密度m或单个高斯正态密度模型m计算等式(2),那么存在一个有效的公式,其中当s1是未知歌曲并且s2是当前基调的训练集歌曲的所有相关部分或歌曲的拼接时,无需存储这些歌曲或音乐片段或声音s1和s2。当然,可以使用其它模型来计算等式(2)中的项。然而,在这种情况下,公式的评价是明显更繁重的。
在针对所有基调模型评价了等式(2)之后,选择所产生的三个距离中的最小距离并将产生了该最小距离的基调模型选择作为音乐片段的暂定基调。也可以并且非常有用的是根据到所述基调模型的距离建立标准化向量。根据例如三种基调,所产生的三维向量在“基调空间”中给出一个坐标,该基调空间可被用于利用一个或多个基调轴来导航并定位歌曲。所产生的空间是高度不均匀分布的,各个维完全不独立,因此有利的是在目标空间中计算使变换(PCA,或Karhunen-Loewe变换)标准化并且对数化的方差,利用大的测试歌曲集来计算该变换。在坐标变换之后,所产生的空间能够适当地被用于在音乐基调空间中导航。还必须记住的是,Euclidean距离即使在变换后的空间中也不是一个量度,因为它由于等式(2)的Gish距离的特性而不总是满足三角不等式。
所提出的本发明允许在相对短的时间内并利用适度的计算资源自动生成具有非常高的质量的音乐基调标记。所述系统能够被扩展为仅集中于音乐的部分,并且基调个人观念的个性化是容易的,以便能够处理任何给定音乐片段的个人感觉差异。基调空间能够自动地被构建,该基调空间允许在该基调空间内定位歌曲并且该基调空间因此能够被用于音乐选择。
问题:
为了将所提供的歌曲基调数据(每首歌曲的至少三个、尤其是无限的、无符号的数)转换为线性可视界面。
解决方案概述:
从“库”(歌曲集)中为每首歌曲输入三个“基调”值;这些值在内部被称为“高兴的”、“悲伤的”和“积极的”。根据该库中的最大和最小值将这些值标准化,因此各自具有[0.0,1.0]的值,并被存储在数据库中。
接着,通过首先将这三个“基调”值转换成笛卡尔坐标并且然后从笛卡尔坐标转换成极坐标,将每首歌曲映射到一种颜色上。
从歌曲“基调”值到笛卡尔坐标的转换利用下面的公式来完成: x = j · cos ( π / 6 ) - s · cos ( π / 6 ) y = a - j · sin ( π / 6 ) - s · sin ( π / 6 ) ,其中“x”是横坐标,“y”是纵坐标,“j”是歌曲“高兴的”值,“s”是歌曲“悲伤的”值,“a”是歌曲“积极的”值。
从笛卡尔坐标到极坐标的转换利用下面的(标准)公式来完成: r = x 2 + y 2 以及 φ = 1 2 π · arctan ( y / x ) ,其中“r”是半径,“φ”是弧度角,“x”是横坐标,“y”是纵坐标。
半径值通过所述库被标准化到范围[0.0,1.0]。然后利用HSV颜色系统将这个标准化的极坐标映射为一种颜色。所述HSV颜色系统用3个值来定义颜色;这些值是色度[0.0,1.0]、饱和度[0.0,1.0]和值[0.0,1.0]。
值颜色通过下面的公式来确定:h=φ,s=r,v=1.0,其中“h”是色度,“s”是饱和度,“v”是值,“r”是半径,“φ”是弧度角。
总结:
通过将歌曲的三个“基调”值映射到二维中、然后映射到颜色空间中,可以用色度(即歌曲“基调”)和饱和度(即歌曲“基调”强度)来对歌曲库进行导航。较饱和的颜色指示具有高强度的特定“基调”的歌曲。它还允许用户利用仅仅使用2个输入值的界面以简单的方式对所述库进行导航。
本发明的这些和其它方面将通过参考附图进一步进行论述。
图1是描述用于对音乐进行分类的本发明方法的一个优选实施方案的一些基本特征的流程图。
图2、3是用于说明二维和彩色映射的基本思想的二维和着色表示。
图1的用于对音乐进行分类的本发明方法的示意性描述的实施方案包括连续的第一至第五处理步骤(a)-(e)。
在第一步骤(a)中,提供音乐分类数据MCD。这些音乐分类数据可以至少部分地由音乐种类c1,...,cn的集合Г来给出。在最简单的情况下,这些音乐种类c1,...,cn可以是音乐的样本片段,每个样本片段都是不同的音乐基调或音乐种类的实例。所述音乐分类数据还可以基于对样本片段或对给定种类c1,...,cn的狭义评价和分类过程。这种狭义评价在上面已经描述过了。
在接着的第二步骤(b)中,提供必须按照用于对音乐进行分类的本发明方法来分类的未分类的音乐片段s。
根据该未分类的音乐片段s,在接着的第三步骤(c)中,导出Gish距离值Dj:=D(s,cj)(其中j=1,...,n)的集合Г:Г:={D1,...,Dn}。
在接着的第四步骤(d)中,将最小Gish距离值Djmin检测为所述集合r的最小值:Djmin:=min{D1,...,Dn}。
最后,在第五步骤(e)中,不同的音乐种类cjmin被检测并被选择为要分类的所述未分类的音乐片段s的表征种类cs。cjmin是来自音乐种类c1,...,cn的集合Г的不同种类,针对该种类获得所述最小Gish距离值Djmin。该未分类的音乐片段s能够被称为不同分类音乐种类cjmin的下一相邻种类,反之亦然。还可以根据所检测到的Gish距离值的相应阈值条件通过包含一定数量的下一相邻种类的Г的子集对所述未分类的音乐片段s进行分类。在这种情况下,基于多个音乐种类的表征可以更完善,并且可以包含用于要分类的音乐片段s的更好的信息和分类。
图1和2是用于说明二维和彩色映射的基本思想的二维和着色表示。
参考符号
cj          音乐种类,j=1,...,n
cjmin       最小化音乐种类
cs          特征种类
Dj          Gish距离值,j=1,...,n
Djmin       最小Gish距离值
MCD         音乐分类数据
s           要分类的未分类的音乐片段
SCD         歌曲分类数据
Г          音乐种类集合
Δ          Gish距离值集合
所引用的文献
Dan Liu,Lie Lu,H.J.Zhang在Proceedings ISMIR 2003中发表的Automatic Mood Detection from Acoustic Music Data,Baltimore,MD。
George Tzanetakis和Perry Cook在IEEE Transactions onspeech and audio processing中发表的Musical GenreClassification of Audio Signals,第10卷,第5期,2002年7月。

Claims (42)

1.用于对音乐进行分类的方法,包括以下步骤:
(a)提供音乐分类数据(MCD),这些音乐分类数据描述有限数量(n)的音乐种类(c1,...,cn)的离散和有限集合(Γ),
(b)提供要分类的未分类的音乐片段(s),
(c)针对所述音乐种类的集合(Γ)的所述音乐种类(c1,...,cn)中的每一个,导出关于所述要分类的未分类的音乐片段(s)的相应Gish距离值(D1,...,Dn),从而得到有限数量(n)的Gish距离值(D1,...,Dn)的离散和有限集合(Δ),
其中所述有限数量(n)的Gish距离值(D1,...,Dn)的有限集合(Δ)描述所述要分类的未分类的音乐片段(s)与所述有限数量(n)的音乐种类(c1,...,cn)的离散和有限集合(Γ)的关系。
2.根据权利要求1的方法,进一步包括步骤:
(d)在所述Gish距离值(D1,...,Dn)的集合(Δ)中检测至少一个最小Gish距离值(Djmin),并且由此在音乐种类(c1,...,cn)的集合(Γ)中确定对应于所述最小Gish距离值(Djmin)的显著的最小化音乐种类(cjmin)。
3.根据权利要求2的方法,进一步包括步骤:
(e)将所述最小化音乐种类(cjmin)选择作为所述要分类的未分类的音乐片段(s)的特征种类(cs)。
4.根据前述权利要求中的任何一个的方法,
-其中所述Gish距离值(D1,...,Dn)根据等式(1)来计算:
Dj : = D ( s , cj ) = def log ( L ( s | m ( s ) ) · L ( cj | m ( cj ) ) L ( s + cj | m ( s + cj ) ) ) - - - ( 1 )
其中j=1,...,n,
-其中s表示要分类的未分类的音乐片段或其一部分,
-其中“+”表示相应音乐片段的拼接操作,
-其中对于j=1,...,n,cj表示相应音乐种类或其代表或代表的一部分,
-其中m(·)表示关于相应音乐片段的相应模型或模型构建操作,以及
-其中L(x|y)表示当给出模型y时观察到音乐片段、数据集x或其一部分x的似然性。
5.根据权利要求4的方法,
其中高斯密度模型被用作模型m(·)。
6.根据权利要求4的方法,
其中只使用一个单个全协方差高斯密度。
7.根据权利要求4的方法,
其中多变量模型被用作模型m(·)。
8.根据权利要求4的方法,
其中所述提供所述音乐分类数据(MCD)的步骤(a)是或包括接收和/或产生所述音乐分类数据(MCD)或其一部分的过程。
9.根据权利要求4的方法,
其中所述提供要分类的未分类的音乐片段(s)的步骤(b)包括从外部源接收所述要分类的未分类的音乐片段(s)或其一部分的过程。
10.根据权利要求4的方法,
其中所述音乐分类数据(MCD)和/或模型m(·)基于完整的歌曲或音乐片段或基于其特征部分。
11.根据权利要求2的方法,
其中所述导出所述Gish距离值(D1,...,Dn)的步骤(c)和/或所述检测所述最小Gish距离值(Djmin)的步骤(d)建立或包含将所述要分类的未分类的音乐片段(s)或其所述相应部分与多个或全部音乐种类(c1,...,cn)进行比较、并由此在由所述音乐分类数据(MCD)并且由所述音乐种类(c1,...,cn)所限定的基调空间中定位所述未分类的音乐片段(s)或其相应部分的过程。
12.根据权利要求4的方法,
包括提供歌曲分类数据(SCD)并由此根据所述音乐种类(c1,...,cn)对所述未分类的音乐片段(s)或其相应部分进行分类的步骤(f),这些歌曲分类数据描述所述要分类的未分类的音乐片段(s)或其相应部分与所述音乐种类(c1,...,cn)的关系。
13.根据权利要求4的方法,
其中对所述音乐片段或其部分进行采样。
14.根据权利要求13的方法,
其中使用22kHz的采样频率。
15.根据权利要求13的方法,
其中将所述音乐片段或其部分分割成帧。
16.根据权利要求15的方法,
其中使用32ms的帧长度。
17.根据权利要求15的方法,
其中使用每秒20帧的帧速率。
18.根据权利要求15的方法,
其中在计算相应的FFT之前对每一帧加汉明窗。
19.根据权利要求18的方法,
-其中从相应的FFT得出相应的功率谱,以及
-其中相应的功率谱向量被用作特征向量计算的基础。
20.根据权利要求19的方法,
其中所述特征向量被梅尔刻度弯曲。
21.根据权利要求20的方法,
其中使用30个梅尔刻度系数。
22.根据权利要求21的方法,
其中所述梅尔刻度系数被对数化。
23.根据权利要求22的方法,
其中所述对数化的梅尔刻度系数经受离散傅里叶反变换。
24.根据权利要求23的方法,
其中从所述对数化的梅尔刻度系数的所述离散傅里叶反变换得出每一帧的倒频谱系数集合。
25.根据权利要求24的方法,
其中根据每一帧的所述倒频谱系数集合来计算频谱中心、频谱流量和频谱滑动中的一个或任意多个。
26.根据权利要求25的方法,
其中计算所述频谱中心的、所述频谱流量的和/或所述频谱滑动的方差。
27.根据权利要求26的方法,
-其中所述频谱中心的、所述频谱流量的和/或所述频谱滑动的所述方差在具有Q个相邻帧的窗口的范围内被计算,
-其中Q的范围是5-20。
28.根据前述权利要求26或27中的任何一个的方法,
其中所述方差被视作参数。
29.根据权利要求4的方法,
其中根据所述Gish距离值(D1,...,Dn)的集合(Δ),得出所述要分类的音乐片段(s)或其部分的音乐分类数据(MCD)。
30.根据权利要求29的方法,还包括以下步骤:
(f)为要分类的给定音乐片段(s)获得/提供代表所述音乐片段(s)或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据(MCD),
(g)根据所述音乐分类数据(MCD)的所述具有至少三个数的n元组确定代表所述音乐片段(s)或其所述部分的基调的一对二维坐标值(x,y;r,φ)。
31.根据权利要求29的方法,其中为要分类的给定音乐片段(s)得出具有至少三个数的n元组形式的音乐分类数据(MCD)。
32.根据权利要求30的方法,
其中笛卡尔坐标(x,y)和/或极坐标(r,φ)被用作二维坐标值(x,y;r,φ)。
33.根据权利要求30的方法,
其中三个一组的数(j,s,a)被用作所述具有至少三个数的n元组。
34.根据权利要求33的方法,
其中所述三个一组的数(j,s,a)由所述音乐片段(s)或其所述部分的三个基调值(j,s,a)构成。
35.根据权利要求34的方法,
其中根据所述音乐片段(s)或其所述部分,所述基调值(j,s,a)分别被选择用于对基调“高兴的”、“悲伤的”和“积极的”进行分类。
36.根据权利要求35的方法,
-其中根据下式来确定作为二维坐标值的笛卡尔坐标(x,y):
x=j·cos(π/6)-s·cos(π/6)                     (1a)
y=a-j·sin(π/6)-s·sin(π/6)                   (1b)
-其中x,y分别表示所述第一和第二笛卡尔坐标值,以及
-其中j,s,a分别表示所述音乐片段(s)或其所述部分的所述音乐分类数据(MCD)的、标准化形式的并且此外分别根据所述基调“高兴的”、“悲伤的”和“积极的”的第一个、第二个和第三个数。
37.根据权利要求36的方法,
-其中根据下式来确定作为二维坐标值的极坐标(r,φ):
r = x 2 + y 2 - - - ( 2 a )
φ = 1 2 π · arctan ( y / x ) - - - ( 2 b )
-其中r,φ分别表示极半径和极角坐标值,以及
-其中x,y表示根据等式(1a)、(1b)的二维笛卡尔坐标值。
38.根据前述权利要求30或32的方法,
其中根据标准化形式的二维坐标值(x,y;r,φ),产生描述颜色的一个颜色或多个颜色值(h,s,v),这些颜色值描述所述音乐片段(s)或其所述部分的基调。
39.根据权利要求38的方法,
其中所述一个颜色和/或多个颜色值(h,s,v)根据HSV系统来确定。
40.根据权利要求38的方法,
-其中所述一个颜色和/或多个颜色值(h,s,v)根据HSV系统按下式来确定:
h=φ,                                (3a)
s=r,                                 (3b)
v=1.0,                               (3c)
-其中h,s,v分别表示HSV颜色值色度、饱和度、和值,以及
-其中r,φ分别表示根据等式(2a)、(2b)的二维极半径和极角坐标值。
41.用于对音乐进行分类的装置,包括:
被配置用于提供音乐分类数据(MCD)的模块,这些音乐分类数据描述有限数量(n)的音乐种类(c1,...,cn)的离散和有限集合(Γ),
被配置用于提供要分类的未分类的音乐片段(s)的模块,
被配置用于针对所述音乐种类的集合(Γ)的所述音乐种类(c1,...,cn)中的每一个导出关于所述要分类的未分类的音乐片段(s)的相应Gish距离值(D1,...,Dn)、从而得到有限数量(n)的Gish距离值(D1,...,Dn)的离散和有限集合(Δ)的模块,
其中所述有限数量(n)的Gish距离值(D1,...,Dn)的有限集合(Δ)描述所述要分类的未分类的音乐片段(s)与所述有限数量(n)的音乐种类(c1,...,cn)的离散和有限集合(Γ)的关系。
42.根据权利要求41的装置,进一步包括:
被配置用于在所述Gish距离值(D1,...,Dn)的集合(Δ)中检测至少一个最小Gish距离值(Djmin)并且由此在音乐种类(c1,...,cn)的集合(Γ)中确定对应于所述最小Gish距离值(Djmin)的显著的最小化音乐种类(cjmin)的模块。
CN2005800232281A 2004-07-09 2005-07-08 用于对音乐进行分类的方法 Expired - Fee Related CN1985302B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04016229.9 2004-07-09
EP04016229A EP1615204B1 (en) 2004-07-09 2004-07-09 Method for classifying music
PCT/EP2005/007403 WO2006005533A2 (en) 2004-07-09 2005-07-08 Method for classifying music

Publications (2)

Publication Number Publication Date
CN1985302A CN1985302A (zh) 2007-06-20
CN1985302B true CN1985302B (zh) 2010-12-22

Family

ID=34925687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800232281A Expired - Fee Related CN1985302B (zh) 2004-07-09 2005-07-08 用于对音乐进行分类的方法

Country Status (6)

Country Link
US (1) US7858868B2 (zh)
EP (1) EP1615204B1 (zh)
JP (1) JP4825800B2 (zh)
CN (1) CN1985302B (zh)
DE (1) DE602004009676T2 (zh)
WO (1) WO2006005533A2 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60319710T2 (de) 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
EP1816639B1 (en) * 2004-12-10 2013-09-25 Panasonic Corporation Musical composition processing device
US20070061309A1 (en) * 2005-08-05 2007-03-15 Realnetworks, Inc. System and method for color-based searching of media content
KR100822376B1 (ko) * 2006-02-23 2008-04-17 삼성전자주식회사 곡명을 이용한 음악 주제 분류 방법 및 시스템
EP1975866A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for recommending content items
KR101540598B1 (ko) 2007-10-02 2015-07-30 코닌클리케 필립스 엔.브이. 콘텐트 아이템들의 컬렉션 중 적어도 하나의 아이템을 선택하는 방법
EP2083416A1 (en) * 2008-01-23 2009-07-29 Sony Corporation Method for deriving animation parameters and animation display device
EP2101501A1 (en) * 2008-03-10 2009-09-16 Sony Corporation Method for recommendation of audio
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
EP2159719B1 (en) 2008-08-27 2013-01-09 Sony Corporation Method for graphically displaying pieces of music
JP5098896B2 (ja) * 2008-08-28 2012-12-12 ソニー株式会社 再生装置および再生方法
WO2010027509A1 (en) * 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
US20100132122A1 (en) * 2008-12-02 2010-06-03 Dan Hollingshead Bed-Mounted Computer Terminal
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US8606733B2 (en) * 2009-12-07 2013-12-10 Xerox Corporation System and method for classification and selection of color palettes
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
CN102129456B (zh) * 2011-03-09 2012-07-04 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
WO2013019997A1 (en) * 2011-08-02 2013-02-07 Emotiv Lifesciences Inc. Methods for modeling neurological development and diagnosing a neurological impairment of a patient
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US9639871B2 (en) 2013-03-14 2017-05-02 Apperture Investments, Llc Methods and apparatuses for assigning moods to content and searching for moods to select content
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US9383965B1 (en) * 2013-08-16 2016-07-05 Amazon Technologies, Inc. Media library analyzer
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN104778216B (zh) * 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
US9880723B2 (en) 2015-03-27 2018-01-30 Spkdrm Llc Graphical user interface using color spectrum to map sentiments
CN110155075A (zh) * 2018-06-01 2019-08-23 腾讯大地通途(北京)科技有限公司 氛围设备控制方法及相关装置
US11615772B2 (en) * 2020-01-31 2023-03-28 Obeebo Labs Ltd. Systems, devices, and methods for musical catalog amplification services
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
US11900914B2 (en) * 2021-06-07 2024-02-13 Meta Platforms, Inc. User self-personalized text-to-speech voice generation
WO2022265132A1 (ko) * 2021-06-17 2022-12-22 견두헌 색혼합 방식으로 장르를 표현하는 음악장르 분류 장치 및 그 방법
CN116304721A (zh) * 2023-05-24 2023-06-23 北京希嘉创智数据技术有限公司 基于数据类别的大数据治理中数据标准制定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
EP0955592A2 (en) * 1998-05-07 1999-11-10 Canon Kabushiki Kaisha A system and method for querying a music database
US20030045954A1 (en) * 2001-08-29 2003-03-06 Weare Christopher B. System and methods for providing automatic classification of media entities according to melodic movement properties

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3964979B2 (ja) * 1998-03-18 2007-08-22 株式会社ビデオリサーチ 楽曲識別方法及び楽曲識別システム
JP2001297093A (ja) * 2000-04-14 2001-10-26 Alpine Electronics Inc 音楽配給システムおよびサーバ装置
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
DE60319710T2 (de) * 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
EP0955592A2 (en) * 1998-05-07 1999-11-10 Canon Kabushiki Kaisha A system and method for querying a music database
US20030045954A1 (en) * 2001-08-29 2003-03-06 Weare Christopher B. System and methods for providing automatic classification of media entities according to melodic movement properties

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
George Tzanetakis,Perry Cook.Musical Genre Classification of Audio Signals.IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING第10卷 第5期.2002,第10卷(第5期),第293-302页.
George Tzanetakis,Perry Cook.Musical Genre Classification of Audio Signals.IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING第10卷 第5期.2002,第10卷(第5期),第293-302页. *
Thomas Kemp等.STRATEGIES FOR AUTOMATIC SEGMENTATION OFAUDIO DATA.ICASSP 2000年.2000,(2000年),第1423-1426页.
Thomas Kemp等.STRATEGIES FOR AUTOMATIC SEGMENTATION OFAUDIO DATA.ICASSP 2000年.2000,(2000年),第1423-1426页. *

Also Published As

Publication number Publication date
EP1615204B1 (en) 2007-10-24
CN1985302A (zh) 2007-06-20
WO2006005533A2 (en) 2006-01-19
JP4825800B2 (ja) 2011-11-30
JP2008506141A (ja) 2008-02-28
US20090031882A1 (en) 2009-02-05
DE602004009676T2 (de) 2008-08-07
DE602004009676D1 (de) 2007-12-06
EP1615204A1 (en) 2006-01-11
WO2006005533A3 (en) 2006-04-06
US7858868B2 (en) 2010-12-28

Similar Documents

Publication Publication Date Title
CN1985302B (zh) 用于对音乐进行分类的方法
Dixon et al. Towards Characterisation of Music via Rhythmic Patterns.
Pohle et al. Evaluation of frequently used audio features for classification of music into perceptual categories
Murthy et al. Classification of vocal and non-vocal segments in audio clips using genetic algorithm based feature selection (GAFS)
CN1979491A (zh) 对音乐文件分类的方法及其系统
CN101398825B (zh) 用于快速音乐分类和检索的方法和设备
Chathuranga et al. Automatic music genre classification of audio signals with machine learning approaches
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
WO2009001202A1 (en) Music similarity systems and methods using descriptors
Mokhsin et al. Automatic music emotion classification using artificial neural network based on vocal and instrumental sound timbres
Azarloo et al. Automatic musical instrument recognition using K-NN and MLP neural networks
KR20060102757A (ko) 분류알고리즘을 이용한 음악장르 분류 방법
Nagavi et al. Overview of automatic Indian music information recognition, classification and retrieval systems
Kumar et al. Melody extraction from music: A comprehensive study
Weiß et al. Timbre-invariant audio features for style analysis of classical music
Lee et al. Automatic melody extraction algorithm using a convolutional neural network
Eronen Signal processing methods for audio classification and music content analysis
Deshpande et al. Mugec: Automatic music genre classification
Dodia et al. Identification of raga by machine learning with chromagram
Loni et al. Singing voice identification using harmonic spectral envelope
Ishwar Pitch estimation of the predominant vocal melody from heterophonic music audio recordings
Loni et al. Extracting acoustic features of singing voice for various applications related to MIR: A review
Park Partitioned feature-based classifier model with expertise table
Abbas et al. A Comprehensive Analysis of Music Genre Classification with Audio Spectrograms using Deep Learning Techniques
Chatterjee et al. Audio Processing using Pattern Recognition for Music Genre Classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101222

Termination date: 20150708

EXPY Termination of patent right or utility model