CN106528706B - 音乐检索方法及装置 - Google Patents

音乐检索方法及装置 Download PDF

Info

Publication number
CN106528706B
CN106528706B CN201610950058.1A CN201610950058A CN106528706B CN 106528706 B CN106528706 B CN 106528706B CN 201610950058 A CN201610950058 A CN 201610950058A CN 106528706 B CN106528706 B CN 106528706B
Authority
CN
China
Prior art keywords
music
matched
feature
gfcc
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610950058.1A
Other languages
English (en)
Other versions
CN106528706A (zh
Inventor
明悦
吴岳辛
任振
洪明辉
尹文泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610950058.1A priority Critical patent/CN106528706B/zh
Publication of CN106528706A publication Critical patent/CN106528706A/zh
Application granted granted Critical
Publication of CN106528706B publication Critical patent/CN106528706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种音乐检索方法及装置,该方法包括:获取用户输入的初始音乐片段;对所述初始音乐片段进行预处理,得到待匹配音乐片段;获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐。用于提高音乐检索的精确性。

Description

音乐检索方法及装置
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种音乐检索方法及装置。
背景技术
目前,在进行音乐检索时,用户可以输入音乐片段(例如,用户自己哼唱的音乐),以使计算机根据该音乐片段,在音乐库中匹配相应的音乐。
现有技术中,在用户输入音乐片段之后,计算机可以提取音乐片段中各个音轨的特征信息,音轨的特征信息可以包括通道号、平衡度、同时发音率、平均力度等,然后,根据各个音轨的特征信息,在多个音轨中确定主音轨,获取主音轨对应的主旋律,并根据该主旋律在音乐库中匹配获取该主旋律对应的目标音乐。
然而,由于主旋律的音强通常较低,以使主旋律容易受到其它音轨旋律、及外界环境噪声的影响,使得主旋律中的噪声较强,进而导致根据主旋律无法在音乐库中获取准确的目标音乐。
发明内容
本发明实施例提供一种音乐检索方法及装置,用于提高音乐检索的精确性。
第一方面,本发明实施例提供一种音乐检索方法,包括:
获取用户输入的初始音乐片段;
对所述初始音乐片段进行预处理,得到待匹配音乐片段;
获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;
对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;
根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐。
在一种可能的实施方式中,所述对所述初始音乐片段进行预处理,得到待匹配音乐片段,包括:
对所述初始音乐片段进行始末检测,在所述初始音乐片段中确定有效音乐片段;
对所述有效音乐片段进行滤波处理,得到所述待匹配音乐片段。
在另一种可能的实施方式中,获取所述待匹配音乐片段的韵律特征,包括:
根据所述韵律特征对应的特征类型,对所述待匹配音乐片段进行时域特征提取,得到所述待匹配音乐片段的多个韵律特征值,其中,所述特征类型包括音长、音高、音强、环境信息中的至少一种;
根据所述多个韵律特征值,确定所述待匹配音乐片段对应的M*N维韵律特征矩阵,其中,所述M为大于1的正整数,所述N为大于1的正整数。
在另一种可能的实施方式中,获取所述待匹配音乐片段的GFCC特征,包括:
对所述待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
根据所述GFCC特征对应的特征类型,对所述频域音乐片段进行频域特征提取,得打所述待匹配音乐片段的多个GFCC特征值;
根据所述多个GFCC特征值,确定所述待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,所述P为大于1的正整数,所述K为大于1的正整数。
在另一种可能的实施方式中,所述对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息,包括:
对所述M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,其中,所述M大于或等于所述X,所述N大于或等于所述Y;
对所述P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,所述P大于或等于所述X,所述K大于或等于所述Y;
根据所述X*Y维韵律特征矩阵、所述X*Y维GFCC特征矩阵、所述韵律特征的权重值、和所述GFCC特征的权重值,确定所述特征信息,所述特征信息为X*Y维特征矩阵。
在另一种可能的实施方式中,根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐,包括:
获取所述音乐库中各音乐的特征矩阵;
通过动态时间规整DTW算法,获取所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离;
根据所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离,在所述音乐库中获取所述目标音乐。
第二方面,本发明实施例提供一种音乐检索装置,包括:
第一获取模块,用于获取用户输入的初始音乐片段;
预处理模块,用于对所述初始音乐片段进行预处理,得到待匹配音乐片段;
第二获取模块,用于获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;
特征融合模块,用于对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;
匹配模块,用于根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐。
在另一种可能的实施方式中,所述预处理模块具体用于:
对所述初始音乐片段进行始末检测,在所述初始音乐片段中确定有效音乐片段;
对所述有效音乐片段进行滤波处理,得到所述待匹配音乐片段。
在另一种可能的实施方式中,所述第二获取模块具体用于:
根据所述韵律特征对应的特征类型,对所述待匹配音乐片段进行时域特征提取,得到所述待匹配音乐片段的多个韵律特征值,其中,所述特征类型包括音长、音高、音强、环境信息中的至少一种;
根据所述多个韵律特征值,确定所述待匹配音乐片段对应的M*N维韵律特征矩阵,其中,所述M为大于1的正整数,所述N为大于1的正整数。
在另一种可能的实施方式中,所述第二获取模块具体用于:
对所述待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
根据所述GFCC特征对应的特征类型,对所述频域音乐片段进行频域特征提取,得打所述待匹配音乐片段的多个GFCC特征值;
根据所述多个GFCC特征值,确定所述待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,所述P为大于1的正整数,所述K为大于1的正整数。
在另一种可能的实施方式中,所述特征融合模块具体用于:
对所述M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,其中,所述M大于或等于所述X,所述N大于或等于所述Y;
对所述P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,所述P大于或等于所述X,所述K大于或等于所述Y;
根据所述X*Y维韵律特征矩阵、所述X*Y维GFCC特征矩阵、所述韵律特征的权重值、和所述GFCC特征的权重值,确定所述特征信息,所述特征信息为X*Y维特征矩阵。
在另一种可能的实施方式中,所述匹配模块具体用于:
获取所述音乐库中各音乐的特征矩阵;
通过动态时间规整DTW算法,获取所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离;
根据所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离,在所述音乐库中获取所述目标音乐。
本发明实施例提供的音乐检索方法及装置,当需要进行音乐检索时,先获取用户输入的初始音乐片段,对初始音乐片段进行预处理,得到待匹配音乐片段,并获取待匹配音乐片段的韵律特征、及待匹配音乐片段的GFCC特征,对韵律特征和GFCC特征进行融合,得到待匹配音乐片段的特征信息,并根据待匹配音乐片段的特征信息,在音乐库中匹配获取待匹配音乐片段对应的目标音乐。在上述过程中,对初始音乐片段进行预处理得到的待匹配音乐片段中去除了非音乐片段、环境噪声等内容,进而提高了音乐检索的精确性,进一步的,待匹配音乐片段的韵律特征体现了待匹配音乐片段在时域的特征,待匹配音乐片段的GFCC特征体现了待匹配音乐待频域的特征,以使通过对韵律特征和GFCC特征融合得到的待匹配音乐的特征信息可以从多个维度体现待匹配音乐表示待匹配音乐片段,进而可以提高音乐检索的精准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的音乐检索方法的应用场景示意图;
图2为本发明提供的音乐检索方法的流程示意图;
图3为本发明提供的获取韵律特征方法的流程示意图;
图4为本发明提供的获取GFCC特征方法的流程示意图;
图5为本发明提供的对韵律特征和GFCC特征进行融合方法的流程图;
图6为本发明提供的匹配目标音乐方法的流程示意图;
图7为本发明提供的音乐检索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的音乐检索方法的应用场景示意图,请参见图1,包括特征提取模块101和音乐库102。其中,当需要在音乐库102中匹配出目标音乐时,可以先通过特征提取模块101对用于进行搜索的音乐片段进行特征提取,得到音乐片段的韵律特征和GFCC特征,并通过音乐片段的韵律特征和GFCC特征在音乐库中匹配目标音乐,其中,GFCC为Gammatone滤波器倒谱系数。在本申请中,由于韵律特征表示音乐片段在时域的特征,GFCC特征表示音乐片段在频域的特征,同时通过音乐片段的时域特征和音乐片段的频域特征进行音乐检索,这样可以从多个维度进行音乐检索,进而提高音乐检索的精确性。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本发明提供的音乐检索方法的流程示意图,请参见图2,该方法可以包括:
S201、获取用户输入的初始音乐片段;
S202、对初始音乐片段进行预处理,得到待匹配音乐片段;
S203、获取待匹配音乐片段的韵律特征、及待匹配音乐片段的GFCC特征;
S204、对韵律特征和GFCC特征进行融合,得到待匹配音乐片段的特征信息;
S205、根据待匹配音乐片段的特征信息,在音乐库中匹配获取待匹配音乐片段对应的目标音乐。
本发明实施例的执行主体可以为音乐检索装置,该音乐检索装置可以通过软件和/或硬件实现。
在图2所示的实施例中,用户可以通过音乐片段在音乐库中进行音乐检索,具体的,当用户需要进行音乐检索时,用户可以在音乐检索装置中输入初始音乐片段,可选的,该初始音乐片段可以为用户哼唱的音乐,也可以为其它播放器播放的音乐。
在音乐检索装置获取到用户输入的初始音乐片段之后,对初始音乐片段进行预处理,得到待匹配音乐片段。可选的,可以对初始音乐片段进行始末检测,在初始音乐片段中确定有效音乐片段,并对有效音乐片段进行滤波处理,得到待匹配音乐片段。其中,对初始音乐片段进行始末检测,可以过滤初始音乐片段中非真正音乐的部分,例如,可以将初始音乐片段前后的空白、或者音乐片段前后用户的讲话内容过滤,可选的,由于多数音乐的频率在预设范围内,因此,可以根据预设频率对音乐片段进行始末检测。在得到有效音乐片段之后,再对有效音乐片段进行滤波处理,可选的,可以通过预设滤波器对有效音乐片段进行滤波,以滤出音乐片段中频率过高、或者频率过低的部分。通过对初始音乐片段进行预处理可以滤出环境中的噪声,进而提高音乐检索的精确性。
在得到待匹配音乐片段之后,获取待匹配音乐片段的韵律特征、及待匹配音乐片段的GFCC特征,其中,待匹配音乐片段的韵律特征为待匹配音乐的时域特征,待匹配音乐片段的GFCC特征为待匹配音乐片段的频域特征。其中,韵律特征可以包括待匹配音乐的音长、音高、音强等信息。GFCC特征可以包括待匹配音乐片段频谱能量、频谱带宽、频谱质心等。
在得到待匹配音乐片段的韵律特征和GFCC特征之后,对韵律特征和GFCC特征进行融合,得到待匹配音乐片段的特征信息,以使的待匹配音乐片段的特征信息中包括待匹配音乐片段的时域特征和待匹配音乐片段的频域特征,使得待匹配音乐片段的特征信息可以从多个维度表示待匹配音乐片段,并根据待匹配音乐片段的特征信息,在音乐库中匹配获取待匹配音乐片段对应的目标音乐。可选的,匹配得到的目标音乐可以为一个,也可以为多个,当目标音乐的个数为多个时,可以获取各个目标音乐的匹配度,并按照各个目标音乐的匹配度从高到低的顺序,对多个目标音乐进行排列。
可选的,在音乐库中进行音乐检索时,可以获取音乐库中各个音乐的特征信息,并将待匹配音乐片段的特征信息与音乐库中各个音乐的特征信息进行匹配,以获取目标音乐;其中,音乐库中各个音乐的特征信息为音乐的韵律特征和音乐的GFCC特征的融合。
本发明实施例提供的音乐检索方法,当需要进行音乐检索时,先获取用户输入的初始音乐片段,对初始音乐片段进行预处理,得到待匹配音乐片段,并获取待匹配音乐片段的韵律特征、及待匹配音乐片段的GFCC特征,对韵律特征和GFCC特征进行融合,得到待匹配音乐片段的特征信息,并根据待匹配音乐片段的特征信息,在音乐库中匹配获取待匹配音乐片段对应的目标音乐。在上述过程中,对初始音乐片段进行预处理得到的待匹配音乐片段中去除了非音乐片段、环境噪声等内容,进而提高了音乐检索的精确性,进一步的,待匹配音乐片段的韵律特征体现了待匹配音乐片段在时域的特征,待匹配音乐片段的GFCC特征体现了待匹配音乐待频域的特征,以使通过对韵律特征和GFCC特征融合得到的待匹配音乐的特征信息可以从多个维度体现待匹配音乐表示待匹配音乐片段,进而可以提高音乐检索的精准性。
在图2所示实施例的基础上,可选的,可以通过如下可行的实现方式获取待匹配音乐片段的韵律特征(图2所示实施例中的S203),具体的,请参见图3所示的实施例。
图3为本发明提供的获取韵律特征方法的流程示意图,请参见图3,该方法可以包括:
S301、根据韵律特征对应的特征类型,对待匹配音乐片段进行时域特征提取,得到待匹配音乐片段的多个韵律特征值,其中,特征类型包括音长、音高、音强、环境信息中的至少一种;
S302、根据多个韵律特征值,确定待匹配音乐片段对应的M*N维韵律特征矩阵,其中,M为大于1的正整数,N为大于1的正整数。
在图3所示的实施例中,可以通过M*N维韵律特征矩阵表示待匹配音乐片段的韵律特征,M为大于1的正整数,N为大于1的正整数,下面,对获取M*N维韵律特征矩阵的过程进行详细说明。
在实际应用过程中,当需要获取待匹配音乐片段的韵律特征矩阵时,根据韵律特征对应的特征类型,对待匹配音乐片段进行时域特征提取,得到待匹配音乐片段的多个韵律特征值。由于待匹配音乐片段为一段长度的音乐,因此,对待匹配音乐片段进行时域特征提取,可以获取得到待匹配音乐片段在各个时刻的韵律特征值。可选的,韵律特征对应的特征类型可以包括待匹配音乐片段的音长、音高、音强等,相应的,可以提取待匹配音乐片段中各个时刻对应的音长、音高、音强等。
在获取得到待匹配音乐片段在各个时刻对应的韵律特征值之后,可以根据多个韵律特征值,确定待匹配音乐片段对应的M*N维韵律特征矩阵。可选的,每一时刻对应的韵律特征值可以对应M*N维韵律特征矩阵中的一行,例如,第一时刻对应的韵律特征值为M*N维韵律特征矩阵中的第一行,第二时刻对应的韵律特征值为M*N维韵律特征矩阵中的第二行。可选的,还可以对每一个时刻对应的韵律特征值进行加权组合,以得到每一时刻对应的韵律特征结果,并按照时间先后顺序,对各个时刻对应的韵律特征结果在M*N维韵律特征矩阵中从前到后、逐行逐列填充,以得到M*N维韵律特征矩阵。当然,在实际应用过程中,还可以根据其它实现方式根据多个韵律特征值,确定待匹配音乐片段对应的M*N维韵律特征矩阵,本发明对此不作具体限定。当然,也可以采用现有的韵律特征提取方法,得到M*129维韵律特征矩阵,本发明对此不再进行赘述。
在上述过程中,通过M*N维韵律特征矩阵表示待匹配音乐片段的韵律特征,不但利于对韵律特征和GFCC特征进行融合,还有利于在音乐库中进行音乐匹配。
在图2所示实施例的基础上,可选的,可以通过如下可行的实现方式获取待匹配音乐片段的GFCC特征(图2所示实施例中的S203),具体的,请参见图4所示的实施例。
图4为本发明提供的获取GFCC特征方法的流程示意图,请参见图4,该方法可以包括:
S401、对待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
S402、根据GFCC特征对应的特征类型,对频域音乐片段进行频域特征提取,得打待匹配音乐片段的多个GFCC特征值;
S403、根据多个GFCC特征值,确定待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,P为大于1的正整数,K为大于1的正整数。
在图4所示的实施例中,可以通过P*K维GFCC特征矩阵表示待匹配音乐片段的GFCC特征,P为大于1的正整数,K为大于1的正整数,下面,对获取P*K维GFCC特征矩阵的过程进行详细说明。
在实际应用过程中,当需要获取待匹配音乐片段的GFCC特征矩阵时,先对待匹配音乐片段进行傅里叶变换,得到频域音乐片段,并根据GFCC特征对应的特征类型,对频域音乐片段进行频域特征提取,得到待匹配音乐片段的多个GFCC特征值。由于待匹配音乐片段为一段长度的音乐,因此,对频域音乐片段进行频域特征提取,可以获取得到频域音乐片段在各个时刻的GFCC特征值。可选的,GFCC特征对应的特征类型可以包括待匹配音乐片段的频谱能量、频谱带宽、频谱质心等,相应的,可以提取待匹配音乐片段中各个时刻对应的频谱能量、频谱带宽、频谱质心等。
在获取得到待匹配音乐片段在各个时刻对应的GFCC特征值之后,可以根据多个GFCC特征值,确定待匹配音乐片段对应的P*K维GFCC特征矩阵。可选的,每一时刻对应的GFCC特征值可以对应P*K维GFCC特征矩阵中的一行,例如,第一时刻对应的GFCC特征值为P*K维GFCC特征矩阵中的第一行,第二时刻对应的韵律特征值为P*K维GFCC特征矩阵中的第二行。可选的,还可以对每一个时刻对应的GFCC特征值进行加权组合,以得到每一时刻对应的GFCC特征结果,并按照时间先后顺序,对各个时刻对应的GFCC特征结果在P*K维GFCC特征矩阵中从前到后、逐行逐列填充,以得到P*K维GFCC特征矩阵。当然,在实际应用过程中,还可以根据多个GFCC特征值,确定待匹配音乐片段对应的P*K维GFCC特征矩阵,本发明对此不作具体限定。当然,也可以采用现有的GFCC特征提取方法,得到P*13维韵律特征矩阵,本发明对此不再进行赘述。
在上述过程中,通过P*K维GFCC特征矩阵表示待匹配音乐片段的GFCC特征,不但利于对韵律特征和GFCC特征进行融合,还有利于在音乐库中进行音乐匹配。
在上述任意一个实施例的基础上,可选的,可以通过如下可行的实现方式对韵律特征和GFCC特征进行融合,得到待匹配音乐片段的特征信息(图2所示实施例中的S204),具体的,请参见图5所示的实施例。
图5为本发明提供的对韵律特征和GFCC特征进行融合方法的流程图,请参见图5,该方法可以包括:
S501、对M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,其中,M大于或等于X,N大于或等于Y;
S502、对P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,P大于或等于X,K大于或等于Y;
S503、根据X*Y维韵律特征矩阵、X*Y维GFCC特征矩阵、韵律特征的权重值、和GFCC特征的权重值,确定特征信息,特征信息为X*Y维特征矩阵。
在图5所示的实施例中,当需要对M*N维韵律特征矩阵和P*K维GFCC特征矩阵进行融合时,对M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,对P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,M大于或等于X,N大于或等于Y,P大于或等于X,K大于或等于Y。
在对M*N维韵律特征矩阵和P*K维GFCC特征矩阵进行降维之后,韵律特征矩阵和GFCC特征矩阵均为X*Y维矩阵,使得韵律特征矩阵和GFCC特征矩阵的行数和列数分别对应相等,然后,根据X*Y维韵律特征矩阵、X*Y维GFCC特征矩阵、韵律特征的权重值、和GFCC特征的权重值,确定特征信息,该特征信息为X*Y维特征矩阵。可选的,可以通过如下公式一确定特征信息:
F=ω1×f12×f2 公式一
其中,F为特征信息,f1为X*Y维韵律特征矩阵,ω1为韵律特征的权重值,f2为X*Y维GFCC特征矩阵,ω2GFCC特征的权重值。
可选的,韵律特征的权重值和GFCC特征的权重值可以相同,例如,韵律特征的权重值和GFCC特征的权重值可以均为0.5。当然,在实际应用过程中,可以根据实际需要设置韵律特征的权重值和GFCC特征的权重值。
可选的,可以通过主成分分析(Principal Component Analysis,简称PCA)降维方法对M*N维韵律特征矩阵、及P*K维GFCC特征矩阵进行降维,本发明对PCA降维方法不再进行赘述。当然,在实际应用过程中,还可以根据其它方式对M*N维韵律特征矩阵、及P*K维GFCC特征矩阵进行降维,本发明对此不作具体限定。
在上述过程中,通过对M*N维韵律特征矩阵和P*K维GFCC特征矩阵进行降维,使得韵律特征矩阵和GFCC特征矩阵具有相同的行数和列数,进而便于对韵律特征矩阵和GFCC特征矩阵进行融合,提高了音乐检索的效率。
在上述任意一个实施例的基础上,可选的,可以通过如下可行的实现方式根据待匹配音乐片段的特征信息,在音乐库中匹配获取待匹配音乐片段对应的目标音乐(图2所示实施例的S205),具体的,请参见图6所示的实施例。
图6为本发明提供的匹配目标音乐方法的流程示意图,请参见图6,该方法可以包括:
S601、获取音乐库中各音乐的特征矩阵;
S602、通过动态时间规整DTW算法,获取X*Y维特征矩阵与音乐库中各音乐的特征矩阵的距离;
S603、根据X*Y维特征矩阵与音乐库中各音乐的特征矩阵的距离,在音乐库中获取目标音乐。
在图6所示的实施例中,在获取到待匹配音乐片段的X*Y维特征矩阵之后,音乐检索装置获取音乐库中各个音乐的特征矩阵,可选的,音乐库中各个音乐的特征矩阵也是X*Y维矩阵。
音乐检索装置动态时间规整(Dynamic Time Warping,简称DTW)算法,获取待匹配音乐片段的X*Y维特征矩阵与音乐库中各音乐的特征矩阵的距离。可选的,可以将特征矩阵与待匹配音乐片段的X*Y维特征矩阵的距离小于预设阈值的音乐确定为目标音乐,还可以将特征矩阵与待匹配音乐片段的X*Y维特征矩阵的距离最小的L个音乐确定为目标音乐,L为大于或等于1的正整数。
需要说明的是,在实际应用过程中,还可以根据其它方式通过待匹配音乐片段的X*Y维特征矩阵在音乐库中获取目标音乐,本发明对此不作具体限定。
图7为本发明提供的音乐检索装置的结构示意图,请参见图7,该装置可以包括:
第一获取模块701,用于获取用户输入的初始音乐片段;
预处理模块702,用于对所述初始音乐片段进行预处理,得到待匹配音乐片段;
第二获取模块703,用于获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;
特征融合模块704,用于对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;
匹配模块705,用于根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐。
本发明实施例提供的音乐检索装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述预处理模块702具体用于:
对所述初始音乐片段进行始末检测,在所述初始音乐片段中确定有效音乐片段;
对所述有效音乐片段进行滤波处理,得到所述待匹配音乐片段。
在另一种可能的实施方式中,所述第二获取模块703具体用于:
根据所述韵律特征对应的特征类型,对所述待匹配音乐片段进行时域特征提取,得到所述待匹配音乐片段的多个韵律特征值,其中,所述特征类型包括音长、音高、音强、环境信息中的至少一种;
根据所述多个韵律特征值,确定所述待匹配音乐片段对应的M*N维韵律特征矩阵,其中,所述M为大于1的正整数,所述N为大于1的正整数。
在另一种可能的实施方式中,所述第二获取模块703具体用于:
对所述待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
根据所述GFCC特征对应的特征类型,对所述频域音乐片段进行频域特征提取,得打所述待匹配音乐片段的多个GFCC特征值;
根据所述多个GFCC特征值,确定所述待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,所述P为大于1的正整数,所述K为大于1的正整数。
在另一种可能的实施方式中,所述特征融合模块704具体用于:
对所述M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,其中,所述M大于或等于所述X,所述N大于或等于所述Y;
对所述P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,所述P大于或等于所述X,所述K大于或等于所述Y;
根据所述X*Y维韵律特征矩阵、所述X*Y维GFCC特征矩阵、所述韵律特征的权重值、和所述GFCC特征的权重值,确定所述特征信息,所述特征信息为X*Y维特征矩阵。
在另一种可能的实施方式中,所述匹配模块705具体用于:
获取所述音乐库中各音乐的特征矩阵;
通过动态时间规整DTW算法,获取所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离;
根据所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离,在所述音乐库中获取所述目标音乐。
本发明实施例提供的音乐检索装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种音乐检索方法,其特征在于,包括:
获取用户输入的初始音乐片段;
对所述初始音乐片段进行预处理,得到待匹配音乐片段;
获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;
对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;
根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐;
所述对所述初始音乐片段进行预处理,得到待匹配音乐片段,包括:
对所述初始音乐片段进行始末检测,在所述初始音乐片段中确定有效音乐片段;
对所述有效音乐片段进行滤波处理,得到所述待匹配音乐片段;
获取所述待匹配音乐片段的韵律特征,包括:
根据所述韵律特征对应的特征类型,对所述待匹配音乐片段进行时域特征提取,得到所述待匹配音乐片段的多个韵律特征值,其中,所述特征类型包括音长、音高、音强、环境信息中的至少一种;
根据所述多个韵律特征值,确定所述待匹配音乐片段对应的M*N维韵律特征矩阵,其中,所述M为大于1的正整数,所述N为大于1的正整数。
2.根据权利要求1所述的方法,其特征在于,获取所述待匹配音乐片段的GFCC特征,包括:
对所述待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
根据所述GFCC特征对应的特征类型,对所述频域音乐片段进行频域特征提取,得打所述待匹配音乐片段的多个GFCC特征值;
根据所述多个GFCC特征值,确定所述待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,所述P为大于1的正整数,所述K为大于1的正整数。
3.根据权利要求2所述的方法,其特征在于,所述对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息,包括:
对所述M*N维韵律特征矩阵进行降维,得到X*Y维韵律特征矩阵,其中,所述M大于或等于所述X,所述N大于或等于所述Y;
对所述P*K维GFCC特征矩阵进行降维,得到X*Y维GFCC特征矩阵,其中,所述P大于或等于所述X,所述K大于或等于所述Y;
根据所述X*Y维韵律特征矩阵、所述X*Y维GFCC特征矩阵、所述韵律特征的权重值、和所述GFCC特征的权重值,确定所述特征信息,所述特征信息为X*Y维特征矩阵。
4.根据权利要求3所述的方法,其特征在于,根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐,包括:
获取所述音乐库中各音乐的特征矩阵;
通过动态时间规整DTW算法,获取所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离;
根据所述X*Y维特征矩阵与所述音乐库中各音乐的特征矩阵的距离,在所述音乐库中获取所述目标音乐。
5.一种音乐检索装置,其特征在于,包括:
第一获取模块,用于获取用户输入的初始音乐片段;
预处理模块,用于对所述初始音乐片段进行预处理,得到待匹配音乐片段;
第二获取模块,用于获取所述待匹配音乐片段的韵律特征、及所述待匹配音乐片段的GFCC特征;
特征融合模块,用于对所述韵律特征和所述GFCC特征进行融合,得到所述待匹配音乐片段的特征信息;
匹配模块,用于根据所述待匹配音乐片段的特征信息,在音乐库中匹配获取所述待匹配音乐片段对应的目标音乐;
所述预处理模块具体用于:
对所述初始音乐片段进行始末检测,在所述初始音乐片段中确定有效音乐片段;
对所述有效音乐片段进行滤波处理,得到所述待匹配音乐片段;
所述第二获取模块具体用于:
根据所述韵律特征对应的特征类型,对所述待匹配音乐片段进行时域特征提取,得到所述待匹配音乐片段的多个韵律特征值,其中,所述特征类型包括音长、音高、音强、环境信息中的至少一种;
根据所述多个韵律特征值,确定所述待匹配音乐片段对应的M*N维韵律特征矩阵,其中,所述M为大于1的正整数,所述N为大于1的正整数。
6.根据权利要求5所述的装置,其特征在于,所述第二获取模块具体用于:
对所述待匹配音乐片段进行傅里叶变换,得到频域音乐片段;
根据所述GFCC特征对应的特征类型,对所述频域音乐片段进行频域特征提取,得打所述待匹配音乐片段的多个GFCC特征值;
根据所述多个GFCC特征值,确定所述待匹配音乐片段对应的P*K维GFCC特征矩阵,其中,所述P为大于1的正整数,所述K为大于1的正整数。
CN201610950058.1A 2016-10-26 2016-10-26 音乐检索方法及装置 Active CN106528706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610950058.1A CN106528706B (zh) 2016-10-26 2016-10-26 音乐检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610950058.1A CN106528706B (zh) 2016-10-26 2016-10-26 音乐检索方法及装置

Publications (2)

Publication Number Publication Date
CN106528706A CN106528706A (zh) 2017-03-22
CN106528706B true CN106528706B (zh) 2020-02-07

Family

ID=58325235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610950058.1A Active CN106528706B (zh) 2016-10-26 2016-10-26 音乐检索方法及装置

Country Status (1)

Country Link
CN (1) CN106528706B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295399A (zh) * 2017-07-29 2017-10-24 安徽博威康信息技术有限公司 一种基于用户的视频历史观看记录的音乐获取系统
CN107295398A (zh) * 2017-07-29 2017-10-24 安徽博威康信息技术有限公司 一种基于正在观看的电视节目的音乐筛选方法
CN107844239B (zh) * 2017-09-29 2020-04-03 维沃移动通信有限公司 一种音乐文件的生成方法及移动终端
CN108536871B (zh) * 2018-04-27 2022-03-04 大连民族大学 粒子滤波并限定动态规划搜索范围的音乐主旋律提取方法及装置
CN114724583A (zh) * 2021-01-05 2022-07-08 北京字跳网络技术有限公司 一种音乐片段的定位方法、装置、设备及存储介质
CN113515662A (zh) * 2021-07-09 2021-10-19 北京百度网讯科技有限公司 一种相似歌曲检索方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471068A (zh) * 2007-12-26 2009-07-01 三星电子株式会社 通过哼唱音乐旋律搜索基于波形的音乐文件的方法和系统
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
CN105022744A (zh) * 2014-04-24 2015-11-04 上海京知信息科技有限公司 一种基于动态规划的哼唱旋律提取匹配检索方法
CN105718486A (zh) * 2014-12-05 2016-06-29 科大讯飞股份有限公司 在线哼唱检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471068A (zh) * 2007-12-26 2009-07-01 三星电子株式会社 通过哼唱音乐旋律搜索基于波形的音乐文件的方法和系统
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN102063904A (zh) * 2010-11-30 2011-05-18 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
CN104978962A (zh) * 2014-04-14 2015-10-14 安徽科大讯飞信息科技股份有限公司 哼唱检索方法及系统
CN105022744A (zh) * 2014-04-24 2015-11-04 上海京知信息科技有限公司 一种基于动态规划的哼唱旋律提取匹配检索方法
CN105718486A (zh) * 2014-12-05 2016-06-29 科大讯飞股份有限公司 在线哼唱检索方法及系统

Also Published As

Publication number Publication date
CN106528706A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528706B (zh) 音乐检索方法及装置
CN105976812B (zh) 一种语音识别方法及其设备
EP2921935A1 (en) Input method and system
US8756061B2 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN104464726B (zh) 一种相似音频的确定方法及装置
US11386876B2 (en) Method for extracting big beat information from music beat points, storage medium and terminal
Thrane et al. Detecting Gravitational-Wave Transients at 5 σ: A Hierarchical Approach
CN109979466B (zh) 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
JP5523543B2 (ja) 共学習に基づく概念認識方法および概念認識装置
US20110178615A1 (en) Method for calculating measures of similarity between time signals
CN108877783A (zh) 确定音频数据的音频类型的方法和装置
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
CN109600382A (zh) webshell检测方法及装置、HMM模型训练方法及装置
Kawa et al. Improved deepfake detection using whisper features
CN113903361A (zh) 基于人工智能的语音质检方法、装置、设备及存储介质
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
Birla A robust unsupervised pattern discovery and clustering of speech signals
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
US9449085B2 (en) Pattern matching of sound data using hashing
CN113420178A (zh) 一种数据处理方法以及设备
KR101233296B1 (ko) 가중치 합을 이용한 거리 함수 생성 방법 및 시스템
CN110728972B (zh) 音色相似度的确定方法、装置及计算机存储介质
JP6588212B2 (ja) 音源検索装置および音源検索方法
CN114783417B (zh) 一种语音检测方法、装置、电子设备及存储介质
KR100978914B1 (ko) Svr 기반 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant