CN109829061A - 一种多媒体信息查找方法及系统 - Google Patents
一种多媒体信息查找方法及系统 Download PDFInfo
- Publication number
- CN109829061A CN109829061A CN201910031511.2A CN201910031511A CN109829061A CN 109829061 A CN109829061 A CN 109829061A CN 201910031511 A CN201910031511 A CN 201910031511A CN 109829061 A CN109829061 A CN 109829061A
- Authority
- CN
- China
- Prior art keywords
- multimedia messages
- finger print
- print information
- similarity
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Collating Specific Patterns (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种多媒体信息查找方法及系统,包括如下步骤:将第一多媒体信息分割成多个第一多媒体信息片段;计算每个所述第一多媒体信息片段的第一指纹信息,所述第一指纹信息包括第一节拍指纹,用以描述节拍特征,和第一频率指纹,用以描述频率特征;计算指纹相似度,并分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段,所述第二指纹信息包括第二节拍指纹用以描述节拍特征和第二频率指纹,用以描述频率特征。利用第一指纹信息描述待查找多媒体信息的特征,能够提高查找多媒体信息的准确度,提高查找效率,在后续的多媒体信息匹配或音乐视频制作等场景中,提高用户的效率。
Description
技术领域
本发明涉及多媒体信息领域,尤其涉及一种多媒体信息查找方法及系统。
背景技术
随着高速互联网和数字技术的快速发展,多媒体也在不断的增多,人们对多媒体信息的需求也在不断增多。在海量的多媒体信息中查找需要的内容对多媒体的应用和扩展是十分必要的。
对于音频用户,音乐搜索是最基本的需求之一,传统的音乐搜索主要是通过文本搜索。文本搜索即用歌曲的名称、介绍、歌词、标签等文本信息作为关键字进行搜索,需要用户熟悉并牢记各种标签的关键词,同时,文本信息不能准确的描述视频或音频的特征,从而使得查找的准确性堪忧。
对于视频用户或音视频用户,通过已知的视频寻找相似音频,或通过已知的音频寻找相似的视频也是常见的需求,海量的视频和图像数据库使得音乐视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐相关的图像或视频,十分浪费人力物力,并需要专业知识,从而导致如MV制作等场景下,业余人员往往很难制作出自己期望的高质量音乐视频。而现有对音频与视频之间语义联系的空白使得现有音乐视频自动生成系统无法准确的寻找到与音乐关联度高的图片,从而令生成的MV质量通常比较低。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种多媒体信息查找方法及系统,可以通过已有的音频信息,准确的查找到相同或相似的音频或视频信息,降低音频或视频的搜索难度,方便用户搜索,提升用户体验。
为达到以上目的,本发明实施例提供了一种多媒体信息查找方法,包括如下步骤:
S1.将第一多媒体信息分割成多个第一多媒体信息片段;
S2.计算每个所述第一多媒体信息片段的第一指纹信息;所述第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征;
S3.将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对;所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对包括:分别计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
S4.分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
更进一步的,在步骤S1之前,还包括:
S01.将第二多媒体信息分割成多个第二多媒体信息片段;
S02.计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
更进一步的,所述步骤S4之后还包括:
S5.计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
S6.根据整体相似度的高低对所述预设数量个所述第二多媒体信息进行排序,并推送给用户。
更进一步的,所述步骤S4之后还包括:
S7.将查找到的所有所述第二指纹信息对应的所述第二多媒体信息片段,按相对应的所述第一多媒体信息片段的顺序进行拼接。
S8.将拼接后得到的第三多媒体信息推送给用户。
更进一步的,使用minhash算法计算所述第一节拍指纹和所述第二节拍指纹的所述节拍相似度,以及所述第一频率指纹与所述第二频率指纹的所述频率相似度。
另一方面,本发明实施例提供了一种多媒体信息查找系统,包括:
第一多媒体信息分割模块,用于将第一多媒体信息分割成多个第一多媒体信息片段;
第一指纹信息计算模块,用于计算每个所述第一多媒体信息片段的第一指纹信息,第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征;
相似度计算模块,用于将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对,所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述相似度计算模块,用于计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
查找模块,用于分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
更进一步的,还包括:
第二多媒体信息分割模块,用于将第二多媒体信息分割成多个第二多媒体信息片段;
第二指纹信息计算模块,用于计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
更进一步的,还包括:
整体相似度计算模块,用于计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
还包括:
第一推送模块,用于根据整体相似度的高低对预设数量个所述第二多媒体信息进行排序,并推送给用户。
更进一步的,还包括:
拼接模块,用于将查找到的所有所述第二指纹信息对应的所述第二多媒体信息按相对应的所述第一多媒体信息片段的顺序进行拼接,得到第三多媒体信息;
第二推送模块,用于将所述第三多媒体信息推送给用户。
更进一步的,所述查找模块,还用于分别比较所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和第二频率指纹的频率相似度,并根据所述节拍相似度和频率相似度确定所述第一指纹信息和第二指纹信息的相似度。
上述一种多媒体信息查找方法及系统,利用第一指纹信息描述待查找多媒体信息,可以全面准确的描述待查找的多媒体信息的特征,并利用例如minhash算法,查找相似特征的音频或视频,不仅降低了音频或视频的搜索难度,方便用户搜索音乐,还能够准确的查找到用户想要的信息,在后续的应用中,如音乐视频制作中,还可以减少音乐视频制作者的劳动,提高制作音乐视频的效率和质量,以提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一个实施例中一种多媒体信息查找方法的流程示意图;
图2是另一个实施例中一种多媒体信息查找方法的流程示意图;
图3是又一个实施例中一种多媒体信息查找方法的流程示意图;
图4是一个实施例中一种多媒体信息查找系统的结构示意图;
图5是另一个实施例中一种多媒体信息查找系统的结构示意图;
图6是又一个实施例中一种多媒体信息查找系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,为本发明实施例一种多媒体信息查找方法的流程示意图,包括:
S1.将第一多媒体信息分割成多个第一多媒体信息片段;
所述第一多媒体信息为用户上传的用于查找与之相似的多媒体的多媒体信息,所述第一多媒体信息可以为完整的多媒体信息,也可以为多媒体信息片段。按照预设的分割间隙,将所述第一多媒体信息分割成多个所述第一多媒体信息片段,在一般的查找相似音频视频的场景下,分割间隙远远小于所述第一多媒体信息的长度。
S2.计算每个所述第一多媒体信息片段的第一指纹信息;所述第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征;
节拍指纹,是指利用多媒体信息的信号强度作为特征,对多媒体信息进行描述的一种特征值。具体计算方式为,根据设定的计算区间,将多媒体信息分割为N个区间(N为不为0的自然数),根据设定的规则,选择其中的M个区间作为均值计算区间(M为不为0的自然数,且M小于N),计算平均信号强度,将N个区间分别与平均信号强度相减,保留大于0的信号强度,可选的,可以选择将保留信号强度的采样点的序号组成多元数组,作为所述多媒体信息的节拍指纹。在本实施例中,使用mp3音频的采样率44100Hz,设定计算区间为1024,假定某第一多媒体信息片段为1s,则一共包含44100/1024=43.066,约为43个区间,则每个区间长度约为23.22ms,假定选择前10个区间和后10个区间为均值计算区间,计算各区间相同采样点(如第一区间的第一个采样点、第二区间的第一个采样点、第三区间的第一个采样点等等)的信号强度的平均值,可以得到1024个平均信号强度。将所述的43个区间的相同采样点的信号强度与平均信号强度相减,保留大于0的信号强度,即得到所述第一多媒体信息片段的原始节拍指纹信息,在其中一种实施方式中,可以选择将保留信号强度的采样点的序号组成多元数组,作为所述第一多媒体信息片段的所述第一节拍指纹。
频率指纹,是指利用多媒体信息的音乐频率作为特征,对多媒体信息进行描述的一种特征值。具体计算方式为,将多媒体信息通过傅里叶变换把时域信号变换成频域信号,并对其取模,可以得到多媒体信息模长的数组,即为多媒体信息的特征值,将多媒体信息模长的数组分割成多个区间,选取各区间中模长最大的元素的序号组成多元组,将多媒体信息片段的多元组作为元素组成多元组数组,即为所述多媒体信息的频率指纹。在本实施例中,假定某第一多媒体信息片段模长的数组共有180个特征值,将该数组分割为四个区间,即序号值为(0,40]、(40,80]、(80,120]、(120,180]四个区间(假定各个区间的最大值所在的元素序号分别为39,65,110,131),选取各区间中模长最大的元素的序号组成四元组,即(39,65,110,131),即为所述第一多媒体信息片段的所述第一频率指纹。
所述第一节拍指纹和所述第一频率指纹组成所述第一多媒体信息片段的所述第一指纹信息。
S3.分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段;所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
所述步骤S3包括:
将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对;所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对包括:分别计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
S4.分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
根据步骤S2中计算得到的所述第一指纹信息,查找相似度最高的第二指纹信息。由于所述第一节拍指纹和所述第一频率指纹均为特征值组成的多元数组,所以所述相似度为所述第一指纹信息和所述第二指纹信息相同的特征值数与全部特征值数的比值。若假定所述第一指纹信息中的所述第一节拍指纹为(50,60,70,80),所述第一频率指纹为(39,65,110,131),所述第二指纹信息中的所述第二节拍指纹为(50,60,75,85),所述第二频率指纹为(39,65,85,131),则所述第一节拍指纹和所述第二节拍指纹的相似度为2/4=0.5,所述第一频率指纹和所述第二频率指纹的相似度为3/4=0.75,所述第一指纹信息与所述第二指纹信息的相似度是由节拍指纹相似度和频率指纹相似度决定的。
在本实施例中,当频率指纹相似度>系数a时,指纹信息相似度为频率指纹相似度;当频率指纹相似度<系数a且频率指纹相似度>系数b×节拍指纹相似度时,指纹信息相似度为频率指纹相似度;其余情况,指纹信息相似度为节拍指纹相似度。其中,系数a和系数b可以根据计算时所使用的算法进行调整。在此实施例中,若设定系数a=0.7,则指纹信息相似度为频率指纹相似度,即0.75;若设定系数a=0.8,b=1,则指纹信息相似度为频率指纹相似度,即0.75;若设定系数a=0.8,b=2,则指纹信息相似度为节拍指纹相似度,即0.5。所述第一指纹信息与数据库中的每个所述第二指纹信息进行比对,找到相似度最高的第二指纹信息。
在其中一种实施方式中,使用MinHash算法计算第一节拍指纹和第二节拍指纹的相似度,以及第一频率指纹与第二频率指纹的相似度,然后根据上述方法设定系数,计算得到所述第一多媒体信息片段与所述第二多媒体信息片段的所述指纹信息相似度。MinHash算法属于局部敏感hash算法的一种,可以用来快速估算两个集合的相似度,该算法通过降维,可以减少计算的时间和空间复杂度,同时相对于kmeans进行聚类,可以节约资源的消耗,同时具有查找速度快,准确率高等优点。
在本实施例中,在步骤S1之前,还包括:
S01.将第二多媒体信息分割成多个第二多媒体信息片段;
S02.计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
所述第二多媒体信息为数据库中已存在的多媒体信息,所述第二多媒体信息基本为完整的多媒体信息。按照预设的分割间隙,将所述第二多媒体信息分割成多个所述第二多媒体信息片段,在一般的查找相似音频视频的场景下,分割间隙远远小于所述第二多媒体信息的长度。需要说明的是,对于所述第二多媒体信息的分割,分割间隙与分割所述第一多媒体信息的分割间隙相同,即分割后的所述第二多媒体信息片段与所述第一多媒体信息片段的时间长度相同。
所述第二指纹信息包括所述第二节拍指纹和所述第二频率指纹,所述第二节拍指纹和所述第二频率指纹的计算方法与所述第一节拍指纹和所述第一频率指纹的计算方法相同,此处不再赘述。
在本实施例中,通过计算各第一多媒体信息片段的第一指纹信息,与数据库中的第二指纹信息进行比对,可以快速的准确的得到所需查找的多媒体信息。使用指纹信息对多媒体信息进行描述,能够全面准确的确定多媒体信息的特征值,有利于快速定位相似信息。
实施例2:
如图1和图2所示,为本发明另一实施例一种多媒体信息查找方法的流程示意图,本实施例与实施例1的区别点在于:
所述步骤S4之后,还包括:
S5.计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
S6.根据整体相似度的高低对所述预设数量个所述第二多媒体信息进行排序,并推送给用户。
对于相似多媒体文件进行描述和查找时,需要平衡查找效率和查找准确性,而且在对多媒体文件进行描述时,不可避免的会省略某些特征值,所以为方便用户使用,需要将查找到的多个相似文件提供给用户。在本实施例中,假设第一多媒体信息被分割成三个多媒体信息片段,分别为A1,A2,A3,与三个多媒体信息片段相似度最高的三个第二多媒体信息片段分别为B1,C2,D3,分别对应第二多媒体信息B,C,D,计算每个所述第二多媒体信息中其余的第二多媒体信息片段与对应的所述第一多媒体信息片段的指纹信息相似度,即C1、D1与A1,B2、D2与A2,B3、C3与A3,然后将该第二多媒体信息片段的指纹相似度进行相加,得到所述第二多媒体信息的整体相似度,即第二多媒体信息B的整体相似度为B1、B2和B3的相似度相加,设为Sb;即第二多媒体信息C的整体相似度为C1、C2和C3的相似度相加,设为Sc;即第二多媒体信息D的整体相似度为D1、D2和D3的相似度相加,设为Sd。根据数值大小将Sb、Sc、Sd排序,然后按照降序,将对应的第二多媒体信息B、C、D推送给用户。
在对本发明的技术方案进行使用时,根据场景的需要,可以预设不同的推送数量,当得到的第二多媒体信息数量小于推送数量时,以得到第二多媒体信息数量为推送数量。
在本实施例中,假定的场景为查找相似歌曲,用户上传录制的第一多媒体信息,在数据库中查找与第一多媒体信息相似度最高的预设数量的歌曲,推送给用户,使得用户可以选择最需要的第二多媒体信息。
在本实施例中,在查找相似歌曲的场景下,用户可以快速便捷的获得与所上传的多媒体信息相似的多个多媒体信息作为选择,并选择自己所需的多媒体信息。
实施例3:
如图1和图3所示,为本发明又一实施例一种多媒体信息查找方法的流程示意图,本实施例与实施例1的区别点在于:
所述步骤S4之后还包括:
S7.将查找到的所有所述第二指纹信息对应的所述第二多媒体信息片段,按相对应的所述第一多媒体信息片段的顺序进行拼接。
S8.将拼接后得到的第三多媒体信息推送给用户。
由于对第一多媒体信息进行查找时,是通过将第一多媒体信息进行分割成多个第一多媒体信息片段进行查找的。此时,将每个所述第一多媒体信息片段查找到的所述第二多媒体信息片段按相对应的第一多媒体信息片段的顺序进行拼接,可以得到拼接后的多媒体信息,推送给用户。
在本实施例中,假定的场景为:自动为无音乐视频的歌曲或音乐制作主题相近的音乐视频。所述第一多媒体信息为用户确定的所需制作音乐视频的歌曲或音乐,将实施例1中得到的所有第二多媒体信息片段进行拼接,可以得到与所述第一多媒体信息情感或主题相近的多媒体,将该多媒体静音后与用户选择的无音乐视频的歌曲或音乐进行合成,即可得到用户所需的音乐视频。
在本实施例的场景下,用户可以快速的得到所需的音乐视频,而对于音乐视频制作者来说,还可以减少音乐视频制作者的劳动,提高制作音乐视频的效率和质量,提升用户体验。
实施例4:
如图4所示,为本发明实施例一种多媒体信息查找系统的结构示意图,包括:
第一多媒体信息分割模块11,用于将第一多媒体信息分割成多个第一多媒体信息片段;
所述第一多媒体信息为用户上传的用于查找与之相似的多媒体的多媒体信息,所述第一多媒体信息可以为完整的多媒体信息,也可以为多媒体信息片段。第一多媒体信息分割模块11,按照预设的分割间隙,将所述第一多媒体信息分割成多个所述第一多媒体信息片段,在一般的查找相似音频视频的场景下,分割间隙远远小于所述第一多媒体信息的长度。
第一指纹信息计算模块12,用于计算每个所述第一多媒体信息片段的第一指纹信息,第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征。
第一指纹信息计算模块12,用于根据设定的计算区间,将多媒体信息分割为N个区间(N为不为0的自然数),根据设定的规则,选择其中的M个区间作为均值计算区间(M为不为0的自然数,且M小于N),计算平均信号强度,将N个区间分别与平均信号强度相减,保留大于0的信号强度,可选的,可以选择将保留信号强度的采样点的序号组成多元数组,作为所述多媒体信息的节拍指纹。在本实施例中,使用mp3音频的采样率44100Hz,设定计算区间为1024,假定某第一多媒体信息片段为1s,则一共包含44100/1024=43.066,约为43个区间,则每个区间长度约为23.22ms,假定选择前10个区间和后10个区间为均值计算区间,计算各区间相同采样点(如第一区间的第一个采样点、第二区间的第一个采样点、第三区间的第一个采样点等等)的信号强度的平均值,可以得到1024个平均信号强度。将所述的43个区间的相同采样点的信号强度与平均信号强度相减,保留大于0的信号强度,即得到所述第一多媒体信息片段的原始节拍指纹信息,在其中一种实施方式中,可以选择将保留信号强度的采样点的序号组成多元数组,作为所述第一多媒体信息片段的所述第一节拍指纹,从而得到所述第一节拍指纹。
第一指纹信息计算模块12,还用于将多媒体信息通过傅里叶变换把时域信号变换成频域信号,并对其取模,可以得到多媒体信息模长的数组,即为多媒体信息的特征值,将多媒体信息模长的数组分割成多个区间,选取各区间中模长最大的元素的序号组成多元组,将多媒体信息片段的多元组作为元素组成多元组数组,即为所述多媒体信息的频率指纹。在本实施例中,假定某第一多媒体信息片段模长的数组共有180个特征值,将该数组分割为四个区间,即序号值为(0,40]、(40,80]、(80,120]、(120,180]四个区间(假定各个区间的最大值所在的元素序号分别为39,65,110,131),选取各区间中模长最大的元素的序号组成四元组,即(39,65,110,131),从而得到所述第一频率指纹。
所述第一指纹信息计算模块12计算得到的所述第一节拍指纹和所述第一频率指纹即为所述第一指纹信息。
相似度计算模块3,用于将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对,所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述相似度计算模块3,用于计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
查找模块4,用于分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
根据接收到的所述第一指纹信息计算模块12计算得到的所述第一指纹信息,所述查找模块4查找相似度最高的第二指纹信息。
由于所述第一节拍指纹和所述第一频率指纹均为特征值组成的多元数组,所以所述相似度为所述第一指纹信息和所述第二指纹信息相同的特征值数与全部特征值数的比值。若假定所述第一指纹信息中的所述第一节拍指纹为(50,60,70,80),所述第一频率指纹为(39,65,110,131),所述第二指纹信息中的所述第二节拍指纹为(50,60,75,85),所述第二频率指纹为(39,65,85,131),则所述第一节拍指纹和所述第二节拍指纹的相似度为2/4=0.5,所述第一频率指纹和所述第二频率指纹的相似度为3/4=0.75,所述第一指纹信息与所述第二指纹信息的相似度是由节拍指纹相似度和频率指纹相似度决定的。在本实施例中,当频率指纹相似度>系数a时,指纹信息相似度为频率指纹相似度;当频率指纹相似度<系数a且频率指纹相似度>系数b×节拍指纹相似度时,指纹信息相似度为频率指纹相似度;其余情况,指纹信息相似度为节拍指纹相似度。其中,系数a和系数b可以根据计算时所使用的算法进行调整。在此实施例中,若设定系数a=0.7,则指纹信息相似度为频率指纹相似度,即0.75;若设定系数a=0.8,b=1,则指纹信息相似度为频率指纹相似度,即0.75;若设定系数a=0.8,b=2,则指纹信息相似度为节拍指纹相似度,即0.5。所述第一指纹信息与数据库中的每个所述第二指纹信息进行比对,找到相似度最高的第二指纹信息。
在其中一种实施方式中,相似度计算模块3使用MinHash算法计算第一节拍指纹和第二节拍指纹的相似度,以及第一频率指纹与第二频率指纹的相似度,然后根据上述方法设定系数,计算得到所述第一多媒体信息片段与所述第二多媒体信息片段的所述指纹信息相似度。MinHash算法属于局部敏感hash算法的一种,可以用来快速估算两个集合的相似度,该算法通过降维,可以减少计算的时间和空间复杂度,同时相对于kmeans进行聚类,可以节约资源的消耗,同时具有查找速度快,准确率高等优点。
在本实施例中,一种多媒体信息查找系统还包括:
第二多媒体信息分割模块21,用于将第二多媒体信息分割成多个第二多媒体信息片段;
第二指纹信息计算模块22,用于计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
所述第二多媒体信息为数据库中已存在的多媒体信息,所述第二多媒体信息基本为完整的多媒体信息。第二多媒体信息分割模块21按照预设的分割间隙,将所述第二多媒体信息分割成多个所述第二多媒体信息片段,在一般的查找相似音频视频的场景下,分割间隙远远小于所述第二多媒体信息的长度。需要说明的是,对于所述第二多媒体信息的分割,分割间隙与分割所述第一多媒体信息的分割间隙相同,即分割后的所述第二多媒体信息片段与所述第一多媒体信息片段的时间长度相同。
所述第二节拍指纹计算模块22对所述第二多媒体信息计算得到的所述第二节拍指纹和所述第二频率指纹的计算方法与所述第一节拍指纹计算模块12计算所述第一节拍指纹和所述第一频率指纹的计算方法相同,此处不再赘述。
所述第二指纹信息计算模块22计算得到的所述第二节拍指纹和所述第二频率指纹即为所述第二指纹信息。
在本实施例中,第一指纹信息计算模块12通过计算各第一多媒体信息片段的第一指纹信息,利用相似度计算模块3、查找模块4与第二指纹信息计算模块22计算后存储在数据库中的第二指纹信息进行比对查找,可以快速的准确的得到所需查找的多媒体信息。使用指纹信息对多媒体信息进行描述,能够全面准确的确定多媒体信息的特征值,有利于快速定位相似信息。
实施例5:
如图5所示,为本发明另一实施例一种多媒体信息查找系统的结构示意图,本实施例与实施例4的区别点在于,还包括:
整体相似度计算模块5,用于计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
第一推送模块61,用于将根据相似度进行排序后的所述第二指纹信息对应的所述第二多媒体信息推送给用户。
对于相似多媒体文件进行描述和查找时,需要平衡查找效率和查找准确性,而且在对多媒体文件进行描述时,不可避免的会省略某些特征值,所以为方便用户使用,需要将查找到的多个相似文件提供给用户。在本实施例中,假设第一多媒体信息被分割成三个多媒体信息片段,分别为A1,A2,A3,与三个多媒体信息片段相似度最高的三个第二多媒体信息片段分别为B1,C2,D3,分别对应第二多媒体信息B,C,D,计算每个所述第二多媒体信息中其余的第二多媒体信息片段与对应的所述第一多媒体信息片段的指纹信息相似度,即C1、D1与A1,B2、D2与A2,B3、C3与A3,然后将该第二多媒体信息片段的指纹相似度进行相加,得到所述第二多媒体信息的整体相似度,即第二多媒体信息B的整体相似度为B1、B2和B3的相似度相加,设为Sb;即第二多媒体信息C的整体相似度为C1、C2和C3的相似度相加,设为Sc;即第二多媒体信息D的整体相似度为D1、D2和D3的相似度相加,设为Sd。根据数值大小将Sb、Sc、Sd排序,然后按照降序,将对应的第二多媒体信息B、C、D推送给用户。所以,为方便用户的使用,所述第一推送模块61可以根据预设的不同的推送数量,当得到的第二多媒体信息数量小于推送数量时,以得到第二多媒体信息数量为推送数量。
在本实施例中,假定的场景为查找相似歌曲,用户上传录制的第一多媒体信息,所述相似度计算模块3、所述查找模块4和整体相似度计算模块5在数据库中查找与第一多媒体信息相似度最高的预设数量的歌曲,反馈给所述第一推送模块61,所述第一推送模块61推送给用户,使得用户可以选择最需要的第二多媒体信息。
在本实施例中,在查找相似歌曲的场景下,用户可以快速便捷的获得与所上传的多媒体信息相似的多个多媒体信息作为选择,并选择自己所需的多媒体信息。
实施例6:
如图6所示,为本发明又一实施例一种多媒体信息查找系统的结构示意图,本实施例与实施例4的区别点在于:
还包括:
拼接模块62,用于将查找到的所有所述第二指纹信息对应的第二多媒体信息按相对应的第一多媒体信息片段的顺序进行拼接,得到第三多媒体信息;
第二推送模块63,用于将所述第三多媒体信息推送给用户。
由于对第一多媒体信息进行查找时,是通过第一多媒体信息分割模块11将第一多媒体信息进行分割成多个第一多媒体信息片段,使用所述查找模块4进行查找的。此时,需要拼接模块62将每个所述第一多媒体信息片段查找到的所述第二多媒体信息片段按相对应的第一多媒体信息片段的顺序进行拼接,可以得到拼接后的多媒体信息,反馈给所述第二推送模块63,所述第二推送模块63推送给用户。在本实施例中,假定的场景为:自动为无音乐视频的歌曲或音乐制作主题相近的音乐视频。所述第一多媒体信息为用户确定的所需制作音乐视频的歌曲或音乐,所述拼接模块62将实施例4中得到的所有第二多媒体信息片段进行拼接,可以得到与所述第一多媒体信息情感或主题相近的多媒体,将该多媒体静音后与用户选择的无音乐视频的歌曲或音乐进行合成,即可得到用户所需的音乐视频,由所述第二推送模块63推送给用户。
在本实施例的场景下,用户可以快速的得到所需的音乐视频,而对于音乐视频制作者来说,还可以减少音乐视频制作者的劳动,提高制作音乐视频的效率和质量,提升用户体验。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多媒体信息查找方法,其特征在于,包括如下步骤:
S1.将第一多媒体信息分割成多个第一多媒体信息片段;
S2.计算每个所述第一多媒体信息片段的第一指纹信息;所述第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征;
S3.将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对;所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对包括:分别计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
S4.分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
2.如权利要求1所述的一种多媒体信息查找方法,其特征在于,所述步骤S1之前,包括:
S01.将第二多媒体信息分割成多个第二多媒体信息片段;
S02.计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
3.如权利要求2所述的一种多媒体信息查找方法,其特征在于,所述步骤S4之后,包括:
S5.计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
S6.根据整体相似度的高低对所述预设数量个所述第二多媒体信息进行排序,并推送给用户。
4.如权利要求2所述的一种多媒体信息查找方法,其特征在于,所述步骤S4之后还包括:
S7.将查找到的所有所述第二指纹信息对应的所述第二多媒体信息片段,按相对应的所述第一多媒体信息片段的顺序进行拼接;
S8.将拼接后得到的第三多媒体信息推送给用户。
5.如权利要求1至4中任一种多媒体信息查找方法,其特征在于,
使用minhash算法计算所述第一节拍指纹和所述第二节拍指纹的所述节拍相似度,以及所述第一频率指纹与所述第二频率指纹的所述频率相似度。
6.一种多媒体信息查找系统,其特征在于,包括:
第一多媒体信息分割模块,用于将第一多媒体信息分割成多个第一多媒体信息片段;
第一指纹信息计算模块,用于计算每个所述第一多媒体信息片段的第一指纹信息,第一指纹信息包括第一节拍指纹,用以描述所述第一多媒体信息片段的节拍特征,和第一频率指纹,用以描述所述第一多媒体信息片段的频率特征;
相似度计算模块,用于将每个所述第一指纹信息分别与数据库中的每个第二指纹信息进行比对,所述第二指纹信息包括第二节拍指纹,用以描述所述第二多媒体信息片段的节拍特征,和第二频率指纹,用以描述所述第二多媒体信息片段的频率特征;
其中,所述相似度计算模块,用于计算所述第一节拍指纹和所述第二节拍指纹的节拍相似度,以及所述第一频率指纹和所述第二频率指纹的频率相似度,根据所述节拍相似度和所述频率相似度计算所述第一指纹信息和所述第二指纹信息的相似度;
查找模块,用于分别查找与每个所述第一指纹信息相似度最高的第二指纹信息所对应的第二多媒体信息片段。
7.如权利要求6所述的一种多媒体信息查找系统,其特征在于,还包括:
第二多媒体信息分割模块,用于将第二多媒体信息分割成多个第二多媒体信息片段;
第二指纹信息计算模块,用于计算每个所述第二多媒体信息片段的所述第二指纹信息,并将所述第二指纹信息存入数据库。
8.如权利要求7所述的一种多媒体信息查找系统,其特征在于,还包括:
整体相似度计算模块,用于计算查找到的每个所述第二多媒体信息片段所对应的所述第二多媒体信息中,其余的所述第二多媒体信息片段的所述第二指纹信息与对应的所述第一多媒体信息片段的所述第一指纹信息的相似度,并将所述第二多媒体信息的所有所述第二多媒体信息片段的相似度进行相加,得到所述第二多媒体信息的整体相似度;
第一推送模块,用于根据整体相似度的高低对预设数量个所述第二多媒体信息进行排序,并推送给用户。
9.如权利要求7所述的一种多媒体信息查找系统,其特征在于,还包括:
拼接模块,用于将查找到的所有所述第二指纹信息对应的所述第二多媒体信息按相对应的所述第一多媒体信息片段的顺序进行拼接,得到第三多媒体信息;
第二推送模块,用于将所述第三多媒体信息推送给用户。
10.如权利要求6至9中任一种多媒体信息查找系统,其特征在于,所述相似度计算模块,使用minhash算法计算所述第一节拍指纹和所述第二节拍指纹的所述节拍相似度,以及所述第一频率指纹与所述第二频率指纹的所述频率相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031511.2A CN109829061A (zh) | 2019-01-14 | 2019-01-14 | 一种多媒体信息查找方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910031511.2A CN109829061A (zh) | 2019-01-14 | 2019-01-14 | 一种多媒体信息查找方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109829061A true CN109829061A (zh) | 2019-05-31 |
Family
ID=66860227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910031511.2A Pending CN109829061A (zh) | 2019-01-14 | 2019-01-14 | 一种多媒体信息查找方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829061A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825891A (zh) * | 2019-10-31 | 2020-02-21 | 北京小米移动软件有限公司 | 多媒体信息的识别方法及装置、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
CN102236685A (zh) * | 2010-05-07 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 一种基于音频指纹技术的本地音乐信息重获方法 |
US8370382B2 (en) * | 2008-05-21 | 2013-02-05 | Ji Zhang | Method for facilitating the search of video content |
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
CN106708990A (zh) * | 2016-12-15 | 2017-05-24 | 腾讯音乐娱乐(深圳)有限公司 | 一种音乐片段提取方法和设备 |
CN108287859A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种多媒体信息检索方法及装置 |
-
2019
- 2019-01-14 CN CN201910031511.2A patent/CN109829061A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8370382B2 (en) * | 2008-05-21 | 2013-02-05 | Ji Zhang | Method for facilitating the search of video content |
CN101651694A (zh) * | 2009-09-18 | 2010-02-17 | 北京亮点时间科技有限公司 | 提供音频相关信息的方法、系统、客户端及服务器 |
CN102236685A (zh) * | 2010-05-07 | 2011-11-09 | 盛乐信息技术(上海)有限公司 | 一种基于音频指纹技术的本地音乐信息重获方法 |
CN103440313A (zh) * | 2013-08-27 | 2013-12-11 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
CN106708990A (zh) * | 2016-12-15 | 2017-05-24 | 腾讯音乐娱乐(深圳)有限公司 | 一种音乐片段提取方法和设备 |
CN108287859A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种多媒体信息检索方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825891A (zh) * | 2019-10-31 | 2020-02-21 | 北京小米移动软件有限公司 | 多媒体信息的识别方法及装置、存储介质 |
CN110825891B (zh) * | 2019-10-31 | 2023-11-14 | 北京小米移动软件有限公司 | 多媒体信息的识别方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018059342A1 (zh) | 一种双音源音频数据的处理方法及装置 | |
Chai et al. | Music thumbnailing via structural analysis | |
CN105488135B (zh) | 直播内容分类方法及装置 | |
CN105161116B (zh) | 多媒体文件高潮片段的确定方法及装置 | |
US20130138232A1 (en) | Apparatus and method for extracting highlight section of music | |
CN109979485B (zh) | 音频评价方法和装置 | |
Faraldo et al. | Key estimation in electronic dance music | |
CN110010159B (zh) | 声音相似度确定方法及装置 | |
US20160134855A1 (en) | Scenario generation system, scenario generation method and scenario generation program | |
Gómez et al. | Phenicx: Performances as highly enriched and interactive concert experiences | |
KR100512143B1 (ko) | 멜로디 기반 음악 검색방법과 장치 | |
Krause et al. | Classifying Leitmotifs in Recordings of Operas by Richard Wagner. | |
CN109829061A (zh) | 一种多媒体信息查找方法及系统 | |
Lee et al. | Segmentation-Based Lyrics-Audio Alignment using Dynamic Programming. | |
Lee et al. | Korean traditional music genre classification using sample and MIDI phrases | |
Dhall et al. | Music genre classification with convolutional neural networks and comparison with f, q, and mel spectrogram-based images | |
Shao et al. | Automatic summarization of music videos | |
CN111339865A (zh) | 一种基于自监督学习的音乐合成视频mv的方法 | |
Fujihara et al. | Hyperlinking Lyrics: A Method for Creating Hyperlinks Between Phrases in Song Lyrics. | |
Goto et al. | PodCastle and Songle: Crowdsourcing-Based Web Services for Retrieval and Browsing of Speech and Music Content. | |
CN109299314A (zh) | 音乐检索与推荐的方法、装置、存储介质和终端设备 | |
Kosugi et al. | SoundCompass: a practical query-by-humming system; normalization of scalable and shiftable time-series data and effective subsequence generation | |
Sharma et al. | Audio songs classification based on music patterns | |
CN116034421A (zh) | 乐曲构造解析装置及乐曲构造解析方法 | |
KR20210063822A (ko) | 음악 컨텐츠 운용 방법 및 이를 지원하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190531 |