CN103440313A - 基于音频指纹特征的音乐检索系统 - Google Patents

基于音频指纹特征的音乐检索系统 Download PDF

Info

Publication number
CN103440313A
CN103440313A CN2013103780000A CN201310378000A CN103440313A CN 103440313 A CN103440313 A CN 103440313A CN 2013103780000 A CN2013103780000 A CN 2013103780000A CN 201310378000 A CN201310378000 A CN 201310378000A CN 103440313 A CN103440313 A CN 103440313A
Authority
CN
China
Prior art keywords
song
point
feature
characteristic
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103780000A
Other languages
English (en)
Other versions
CN103440313B (zh
Inventor
俞鹏飞
杨夙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201310378000.0A priority Critical patent/CN103440313B/zh
Publication of CN103440313A publication Critical patent/CN103440313A/zh
Priority to PCT/CN2014/081338 priority patent/WO2015027751A1/zh
Application granted granted Critical
Publication of CN103440313B publication Critical patent/CN103440313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息检索技术领域,具体为一种基于音频指纹特征的音乐检索系统。该系统由预处理模块、特征提取模块、倒排索引模块和精匹配模块四部分组成。预处理模块主要完成音频信号的转换、重采样、滤波;特征提取模块是对音频文件的表示,采用音频指纹特征,通过两次基于动态阈值的筛选来选取频谱中最为稳定的点作为特征点,用一个点对表示一个特征;倒排索引模块是将特征作为关键词,由歌曲库的特征建立倒排索引,根据相同关键词多少返回索引结果;精匹配模块是结合音频特征间的时序关系,采用改进的编辑距离作为两个特征序列的相似度,以此优化索引结果。本系统适用海量音乐检索,尤其能对录音查询片段进行有效检索。

Description

基于音频指纹特征的音乐检索系统
技术领域
本发明属于信息检索技术领域,具体涉及音频信号处理和多媒体信息检索系统,进一步涉及一种基于音频指纹特征的音乐检索系统。
背景技术
早前,由于音乐信息是非结构化数据,其检索系统一般通过基于文本描述来实现检索。例如在互联网中检索一首歌曲,以歌曲的名字、歌唱者、作歌者、歌曲存取格式等来检索。该方法具有很多的缺点:数据量越来越大,从而人工注释工作量也随之加大;音频感知难以用文字注释表达清楚;信息描述具有一定的主观性。而基于内容的音乐检索系统是根据信息本身的特征参数而非外部属性对内容进行检索,其提取过程由程序自动完成。因此,其不存在对信息描述的主观性,能更好的表示音乐信息,从而使检索更加有效。
音频特征是音频信息的结构化表示,是基于内容的音频检索系统中较为关键的一步,音频特征的好坏直接影响系统性能。音频特征分为时域音频特征和变换域音频特征,时域音频特征较为容易提取,但抗噪能力较差;变换域特征提取过程较复杂,抗噪能力良好,使用较多。在变换域特征中,较为常见的是基于傅里叶和小波变换的特征。早期,Mel倒谱系数(MFCC)和线性预测倒谱系数(LPCC)特征较为经典,特别是MFCC,由于其特征是根据人的听觉模型生成的,应用较为广泛。随着音频指纹特征的出现,由于其特征鲁棒性较好,使得大量学者投入在这方面进行研究,发展较快。
目前,基于音频指纹特征的音乐检索系统以Shazam公司和Philips公司的音乐检索系统较为经典。Shazam公司的音乐检索系统是在频谱上选取局部极值点作为特征点,然后把相邻的两个特征点组成一个点对来表示一个特征;采用hash索引实现检索;查询时,使用直方图统计相同特征点的时间差,一般目标歌曲的时间差是统一的,将会集中出现在某处,从而检索到该歌曲。该系统查询方式并不适用海量音频检索,而且局部极值点非常多,导致特征数据非常多,很多特征抗噪能力差。在Philips公司的音乐检索系统中,特征是在频谱上计算各频段能量,根据相邻帧的能量大小,将各频段量化成 0 或 1,所有频段组成一个二进制序列,通过哈希(hash)函数,得到最终特征。采用哈希表实现检索,通过统计词频数来进行检索排序。在海量音乐数据下,hash冲突会非常多,也不适用,同时在特征性能上不如前一种指纹特征。
发明内容
本发明的目的在于提供一种基于音频指纹特征的音乐检索系统,该系统能够在海量音乐信息下进行快速准确的检索,且能够对录音查询片段进行有效检索。
本发明提供的基于音频指纹特征的音乐检索系统,包括预处理模块,特征提取模块,倒排索引模块和精匹配模块四个部分。其中:
所述的预处理模块,用于音频文件格式统一,音频重采样和音频滤波。
所述的特征提取模块,用于对音乐文件的结构化表示,采用基于动态阈值的音乐指纹特征。首先对歌曲序列进行分帧,帧之间有较高重叠率,对每帧进行快速傅里叶变换(FFT),处理完所有帧,得到频谱矩阵;接着,对频谱矩阵进行平滑处理;然后,在矩阵中选取极值点,并根据动态阈值对这些点进行两次筛选,取大于阈值的点作为特征点;最后,用一个点对来表示一个特征,并经哈希(Hash)函数变换,一个哈希值即为一个特征。对于每个特征点,在其后续频段的邻近区域内,选取最多P个最近邻的特征点与该特征点一一组成特征,所有特征按帧的先后顺序和特征点的筛选顺序组成一个特征序列。
所述的倒排索引模块,用于系统的初次检索,以一个特征作为一个关键词,以歌曲库的所有特征建立倒排索引表;当查询时,通过倒排索引表统计查询片段每个关键词在各歌曲中出现的次数,并将所有关键词在各个歌曲中出现的次数求和,然后对求和的结果进行排序,排序结果所对应的歌曲作为初次检索结果。为了防止查询片段较短或者较为偏僻,在倒排索引中并未加入权重,即各词项在各歌曲中权重是一样的。但这样可能降低目标歌曲与其他歌曲的区分度,对于较长的歌曲,需要对歌曲进行分段,以歌曲片段为单位加入倒排索引表中。
所述的精匹配模块,用于系统的二次检索,先根据倒排索引返回的结果选定候选歌曲,接着读取各候选歌曲的特征序列,并对特征序列按查询特征序列长度进行分段,对每首歌曲筛选出最为相似的Q个特征序列片段(与查询特征序列具有最多的相同特征个数),然后,对这Q个片段与查询特征序列进行改进的编辑距离计算(特征值只错一位认为是相同的),取最小的编辑距离作为该歌曲片段与查询片段的相似度,最后,根据相似度对候选歌曲进行排序,得到最终的检索排名,作为系统检索结果。如果某首歌在排名中出现多条记录,只保留第一条记录。
本发明的优点为:系统所用的特征鲁棒性好且数据量小;采用现阶段较为成熟的倒排索引技术作为系统初始检索,可适用于海量音乐检索;精匹配作为系统二次检索,能有效的找出目标歌曲且可以并行计算。
附图说明
图1为本发明系统结构示意图。
图2为本发明系统音乐指纹特征提取流程图。
图3为本发明系统特征表示示意图。
图4为本发明系统倒排索引结构示意图。
图5为本发明系统精匹配流程图。
具体实施方式
图1显示了系统结构,包括预处理模块,特征提取模块,倒排索引模块和精匹配模块四个部分。预处理模块主要完成音频信号的转换、重采样和滤波;特征提取模块是对音频文件的结构化表示,采用基于两次阈值筛选的音频指纹特征;倒排索引模块是根据歌曲库的特征建立倒排索引,当查询时,通过倒排索引统计各歌曲片段与查询片段相同关键词个数多少,并对个数和进行排序,作为初次检索结果;精匹配模块在初次检索的基础上,结合音频特征间的时序关系,采用改进的编辑距离作为两个特征序列的相似度,优化索引结果。对于数据库中每首歌,通过预处理和特征提取,将特征保存于特征库中,用于建倒排索引和精匹配;对于查询片段,做相同的预处理和特征提取,其特征用于查询和精匹配。
所述的特征提取模块,其特征提取过程如图2所示,采用基于两次阈值筛选的音频指纹特征。首先,对音频序列X={x1,x2, … ,xL}进行分帧,L为音频序列长度,帧之间有较高的重叠率,共分成M帧;接着,对每一帧进行N点快速傅里叶变换,即取N个频段点,处理完所有帧后,得到N*M维的频谱矩阵S,并对频谱矩阵S=[Si,j| i=1,2,…,N; j=1,2,…,M]进行平滑处理,平滑计算公式如下:
Figure 2013103780000100002DEST_PATH_IMAGE002
 (1)
其中abs( )为取模运算,M由音频长度决定,N可取129(傅里叶变换取256个点,由于对称性,取一半),然后,在S中选取极大值点,即 Si,j> Si,j-1且 Si,j> Si,j+1,作为特征点,并根据阈值对特征点进行两次筛选;用N维向量thresh表示频谱中各频段的阈值,在S矩阵中,取前R帧各频段的最大值来初始化对应频段的阈值,一般R取10;初次筛选:顺序扫描所有特征点,若该点值大于对应维度的阈值,则保留该特征点,否则删除该特征点,同时按以下公式更新阈值向量thresh: 
Figure 2013103780000100002DEST_PATH_IMAGE004
 (2)
第二次筛选:从最后一个特征点开始,逆序扫描所有特征点,按相同规则筛选特征点和更新阈值; 最后,用一个点对来表示一个特征,对于每一个特征点,用它与其邻近区域的每个特征点组成一个特征;当邻近区域内特征点较多时,选取与它最相邻的P个点与该特征点一一组成特征。一般,P取3~5的整数,P越大,包含信息越多,但特征数量明显增多。用这些点对的时间,频率来表示特征,并进行了哈希(Hash)函数计算,具体见图3。按第一次筛选顺序逐个表示这些特征点,处理完所有帧得到一维特征序列。
图3显示了特征的表示,点A(t, f)为要表示的特征点,矩形为它的邻近区域[t+1: t+T, f-F/2: f+F/2],区域中最相邻的P个特征点与点A组成P个特征,在程序中,P取3,T取32,F取64,如图中三个箭头。由于使用一个查询片段来进行检索,我们用第一个点的频率F1,第二点与第一个点的频率差ΔF及它们的时间差Δt来表示一个特征。为了便于后续检索,我们对特征进行了哈希函数运算,公式如下。
Figure DEST_PATH_IMAGE006
    (3) 
其中,<<为向左移位运算,用fbits位表示频率差ΔF,tbits位表示时间差Δt,Feature为特征值。当fbits或者tbits较小时,还需要进行取模运算,在程序中,tbits取6,fbits取8。一个哈希值便是一个音乐指纹特征,一般用2-3个字节来表示。 
所述的倒排索引模块由两部分组成,如图4所示,左边部分叫做字典,即由词项组成,是一系列字符串的集合,字典在索引中通常是以字典序列存储,系统中,所有哈希值相同的特征组成一个词项;右边部分是包含某个字符串的文档编号的集合,称之为“倒排链表”,每一个词项都对应一个属于自己的“倒排链表”,该表记录了包含该词项的歌曲编号或者歌曲片段编号。当查询时,通过倒排索引表统计各歌曲片段与查询片段相同关键词个数多少,然后计算个数和(对于查询片段中出现的重复关键词进行累加计算),并按个数和进行排序,作为倒排索引的结果。考虑到查询片段的特征很可能是目标歌曲的偏僻特征,在链表中并未加入权重,也就是各词项在各歌曲中具有相同的权重。然而这样大大降低了目标歌曲与其他歌曲的区分度,通常需要对长歌曲进行分段,以歌曲片段为单位建立索引,能有效的提高它们之间的区分度。
所述的精匹配模块,采用多个步骤实现精匹配,其过程如图5所示,首先,根据初次检索返回结果,寻找一“拐点”,假定倒排索引表返回的第i首歌曲中具有的相同特征个数之和为numi,如果存在一点K,使得:
Figure DEST_PATH_IMAGE008
        (4)
则认为该点为“拐点”,目标歌曲就在这前K个候选歌曲片段中;接着,读取前K个候选歌曲片段的特征序列,对这些序列进行分段,找出最为相似的Q个片段,它们与查询序列具有最多的相同特征个数,一般,Q取3~6,Q越小,计算改进的编辑距离次数越少,速度越快,但有可能无法包含目标片段,对于一般查询片段,Q取3;然后,将这Q个片段与查询特征序列进行改进的编辑距离计算,把最小距离的片段作为与查询序列最相似的片段,并取最小距离作为与该候选歌曲片段的相似度。设查询特征序列A={A[1], A[2], … , A[m]},比较的特征序列 B={B[1], B[2], ... , B[n]},长度分别为m和n,距离矩阵d={d[i, j]=0 |i=1,2,…,m; j=1,2,…,n}, d[i, j]为子序列A[1…i]和B[1…j]的距离,改进的编辑距离算法步骤如下:
(1)初始化距离矩阵d,读入特征序列A和B;
(2)循环遍历特征序列A,逐次取数A[i],依次执行操作步骤(3)、(4)、(5);
(3)循环遍历特征序列B,逐次取数B[j] ,依次执行操作步骤(4)、(5);
(4)计算代价cost,如果数A[i]与数B[j]相等或只有1位(bit)不同,cost为0,否则为1,如公式:
Figure DEST_PATH_IMAGE010
     (5)
其中,^为位异或运算,&为位与运算;
(5)调整距离矩阵,计算出当前最小距离d[i,j],公式如下:
 (6)
(6) d[m, n]即为改进的编辑距离。
最后,我们根据相似度进行排序,得最终的检索排名,如果某首歌在排名中出现多条记录(较长歌曲建立倒排索引时分段),只保留第一条记录。

Claims (4)

1.一种基于音频指纹特征的音乐检索系统,其特征在于包括预处理模块,特征提取模块,倒排索引模块和精匹配模块四个部分;其中:
所述的预处理模块,用于音频文件格式统一,音频重采样和音频滤波;
所述的特征提取模块,用于对音乐文件的结构化表示,采用基于动态阈值的音乐指纹特征;首先对歌曲序列进行分帧,对每帧进行快速傅里叶变换,处理完所有帧,得到频谱矩阵;接着,对频谱矩阵进行平滑处理;然后,在矩阵中选取极值点,并根据动态阈值对这些点进行两次筛选,取大于阈值的点作为特征点;最后,用一个点对表示一个特征,并经哈希函数变换,输出一个哈希值为一个特征;对于每个特征点,在其后续频段的邻近区域内,选取最多P个最近邻的特征点与该特征点一一组成特征;所有特征按帧的先后顺序和首次特征点筛选顺序组成一维特征序列;
所述的倒排索引模块,用于系统的初次检索,以一个特征作为一个关键词,对数据库中的每首歌曲的特征建立倒排索引表;当查询时,通过倒排索引表统计查询片段每个关键词在各歌曲中出现的次数,并将所有关键词在各个歌曲中出现的次数求和,然后对求和的结果进行排序,排序结果所对应的歌曲作为初次检索结果;
所述的精匹配模块,用于系统的二次检索,先根据初次检索返回的结果选定候选歌曲,接着读取各候选歌曲的特征序列,并对特征序列按查询特征序列长度进行分段,对每首歌曲筛选出最为相似的Q个特征序列片段,即其与查询特征序列具有最多的相同特征个数;然后,对这Q个片段与查询特征序列进行改进的编辑距离计算,取最小的编辑距离作为该歌曲片段与查询片段的相似度;最后,根据相似度对候选歌曲进行排序,得到最终的检索排名。
2.根据权利要求1所述的音乐检索系统,其特征在于:在特征提取模块中,所述的采用基于动态阈值的音乐指纹特征,具体实现过程为:首先,对音频序列X={x1,x2, … ,xL}进行分帧,L为音频序列长度,帧之间有较高的重叠率,共分成M帧;接着,对每一帧进行N点快速傅里叶变换,处理完所有帧后,得到N*M维的频谱矩阵S,并对频谱矩阵S=[Si,j| i=1,2,…,N; j=1,2,…,M]进行平滑处理,平滑计算公式如下:
  (1)
其中abs( )为取模运算,然后,在S中选取极大值点,即 Si,j> Si,j-1且 Si,j> Si,j+1,作为特征点,并根据阈值对特征点进行两次筛选;用N维向量thresh表示频谱中各频段的阈值,在S矩阵中,取开始R帧各频段的最大值来初始化对应频段的阈值;初次筛选:顺序扫描所有特征点,若该点值大于对应维度的阈值,则保留该特征点,否则删除该特征点,同时按以下公式更新阈值向量thresh: 
Figure 312939DEST_PATH_IMAGE002
 (2)
第二次筛选:从最后一个特征点开始,逆序扫描所有保留的特征点,按与上述相同规则筛选特征点和更新阈值; 最后,用一个点对来表示一个特征,对于每一个特征点,用它分别与其后续频段的邻近区域的每个特征点组成一个特征;当邻近区域内特征点较多时,选取与它最相邻的P个点与该特征点一一组成特征,并按第一次筛选顺序逐个表示这些特征点,处理完所有帧得到一维特征序列。
3.根据权利要求1所述的音乐检索系统,其特征在于:所述的倒排索引模块由两部分组成,一部分为字典,字典由词项组成,所有哈希值相同的特征组成一个词项;另一部分是倒排索引表,其中,每一个词项都对应一个属于自己的“倒排链表”,该表记录了包含该词项的歌曲编号或者歌曲片段编号。
4.根据权利要求1所述的音乐检索系统,其特征在于:所述的精匹配模块,采用多个步骤实现精匹配,首先,根据初次检索返回的结果,寻找一“拐点”,假定倒排索引表返回的第i首歌曲中与查询片段具有的相同特征个数之和为numi,如果存在一点K,使得:
Figure 2013103780000100001DEST_PATH_IMAGE003
    (4)
则认为该点为“拐点”,目标歌曲就在这前K个候选歌曲片段中;接着,读取前K个候选歌曲片段的特征序列,对这些序列进行分段,找出最为相似的Q个片段,它们与查询序列具有最多的相同特征个数;然后,将这Q个片段与查询特征序列进行改进的编辑距离计算,把最小距离的片段作为与查询序列最相似的片段,并取最小距离作为与该候选歌曲片段的相似度;设查询特征序列A={A[1], A[2], … , A[m]},比较的特征序列 B={B[1], B[2], ... , B[n]},长度分别为m和n,距离矩阵d={d[i, j]=0 |i=1,2,…,m; j=1,2,…,n}, d[i, j]为子序列A[1…i]和B[1…j]的距离,改进的编辑距离算法步骤如下: 
(1)初始化距离矩阵d,读入特征序列A和B;
(2)循环遍历特征序列A,逐次取数A[i],依次执行操作步骤(3)、(4)、(5);
(3)循环遍历特征序列B,逐次取数B[j],依次执行操作步骤(4)、(5);
(4)计算代价cost,如果数A[i]与数B[j]相等或只有1位(bit)不同,cost为0,否则为1,如公式:
Figure 698921DEST_PATH_IMAGE004
  (5)
其中,^为位异或运算,&为位与运算;
(5)调整距离矩阵,计算出当前最小距离d[i,j],公式如下:
Figure DEST_PATH_IMAGE005
(6)
(6) d[m, n]即为改进的编辑距离。
CN201310378000.0A 2013-08-27 2013-08-27 基于音频指纹特征的音乐检索系统 Active CN103440313B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310378000.0A CN103440313B (zh) 2013-08-27 2013-08-27 基于音频指纹特征的音乐检索系统
PCT/CN2014/081338 WO2015027751A1 (zh) 2013-08-27 2014-07-01 基于音频指纹特征的音乐检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310378000.0A CN103440313B (zh) 2013-08-27 2013-08-27 基于音频指纹特征的音乐检索系统

Publications (2)

Publication Number Publication Date
CN103440313A true CN103440313A (zh) 2013-12-11
CN103440313B CN103440313B (zh) 2018-10-16

Family

ID=49694006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310378000.0A Active CN103440313B (zh) 2013-08-27 2013-08-27 基于音频指纹特征的音乐检索系统

Country Status (2)

Country Link
CN (1) CN103440313B (zh)
WO (1) WO2015027751A1 (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320549A (zh) * 2014-11-17 2015-01-28 科大讯飞股份有限公司 基于原声检索技术的自动彩铃检测方法及系统
WO2015027751A1 (zh) * 2013-08-27 2015-03-05 复旦大学 基于音频指纹特征的音乐检索系统
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
CN104866604A (zh) * 2015-06-01 2015-08-26 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN105139866A (zh) * 2015-08-10 2015-12-09 泉州师范学院 南音的识别方法及装置
CN105185381A (zh) * 2015-08-26 2015-12-23 江苏久祥汽车电器集团有限公司 智能机器人声音识别系统
FR3028086A1 (fr) * 2014-11-04 2016-05-06 Univ Bordeaux Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
CN105678244A (zh) * 2015-12-31 2016-06-15 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN106162321A (zh) * 2016-08-31 2016-11-23 成都广电视讯文化传播有限公司 一种声纹特征和音频水印相结合的音频信号识别方法
CN106649642A (zh) * 2016-12-08 2017-05-10 腾讯音乐娱乐(深圳)有限公司 一种歌曲搜索方法、系统及相关设备
CN106708990A (zh) * 2016-12-15 2017-05-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法
CN106910494A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种音频识别方法和装置
CN107025255A (zh) * 2015-09-30 2017-08-08 远升科技股份有限公司 用于确定对象序列中的对象的索引的系统和方法
CN107293307A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 音频检测方法及装置
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107784128A (zh) * 2017-11-30 2018-03-09 成都嗨翻屋文化传播有限公司 一种数字音频指纹大数据存储检索的方法及系统
CN107864678A (zh) * 2015-06-26 2018-03-30 亚马逊技术公司 对视觉指示器的检测和解译
CN107948734A (zh) * 2017-12-05 2018-04-20 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN108197319A (zh) * 2018-02-02 2018-06-22 重庆邮电大学 一种基于时频局部能量的特征点的音频检索方法和系统
CN108364648A (zh) * 2018-02-11 2018-08-03 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
CN108399913A (zh) * 2018-02-12 2018-08-14 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN109117622A (zh) * 2018-09-19 2019-01-01 北京容联易通信息技术有限公司 一种基于音频指纹的身份认证方法
CN109241329A (zh) * 2018-08-03 2019-01-18 百度在线网络技术(北京)有限公司 用于ar场景的音乐检索方法、装置、设备及存储介质
CN109388729A (zh) * 2017-08-14 2019-02-26 阿里巴巴集团控股有限公司 音频子指纹的检索方法、装置以及音频查询系统
CN109829061A (zh) * 2019-01-14 2019-05-31 北京雷石天地电子技术有限公司 一种多媒体信息查找方法及系统
CN109871463A (zh) * 2019-03-06 2019-06-11 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质
CN109977630A (zh) * 2017-12-27 2019-07-05 上海全土豆文化传播有限公司 音频指纹生成方法及装置
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110490268A (zh) * 2019-08-26 2019-11-22 山东浪潮人工智能研究院有限公司 一种基于余弦相似度的改进最近邻距离比的特征匹配方法
CN110555114A (zh) * 2018-03-29 2019-12-10 北京字节跳动网络技术有限公司 一种媒体检索方法及装置
CN110956970A (zh) * 2019-11-27 2020-04-03 广州市百果园信息技术有限公司 音频重采样方法、装置、设备及存储介质
CN111161758A (zh) * 2019-12-04 2020-05-15 厦门快商通科技股份有限公司 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN111881090A (zh) * 2020-07-27 2020-11-03 山东女子学院 一种音乐片段提取方法及设备
CN109271501B (zh) * 2018-09-19 2020-12-29 北京容联易通信息技术有限公司 一种音频数据库的管理方法及系统
CN112732972A (zh) * 2020-12-24 2021-04-30 云境商务智能研究院南京有限公司 一种音频指纹生成系统及方法
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113515933A (zh) * 2021-09-13 2021-10-19 中国电力科学研究院有限公司 电力一二次设备融合处理方法、系统、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
CN101364222B (zh) * 2008-09-02 2010-07-28 浙江大学 一种两阶段的音频检索方法
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
CN103093761B (zh) * 2011-11-01 2017-02-01 深圳市世纪光速信息技术有限公司 音频指纹检索方法及装置
US8492633B2 (en) * 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
CN103440313B (zh) * 2013-08-27 2018-10-16 复旦大学 基于音频指纹特征的音乐检索系统

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015027751A1 (zh) * 2013-08-27 2015-03-05 复旦大学 基于音频指纹特征的音乐检索系统
FR3028086A1 (fr) * 2014-11-04 2016-05-06 Univ Bordeaux Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore
WO2016071085A1 (fr) * 2014-11-04 2016-05-12 Universite de Bordeaux Recherche automatisée d'une sous-séquence sonore la plus représentative au sein d'une bande sonore
CN104320549B (zh) * 2014-11-17 2018-09-21 科大讯飞股份有限公司 基于原声检索技术的自动彩铃检测方法及系统
CN104320549A (zh) * 2014-11-17 2015-01-28 科大讯飞股份有限公司 基于原声检索技术的自动彩铃检测方法及系统
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
CN104866604A (zh) * 2015-06-01 2015-08-26 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN104866604B (zh) * 2015-06-01 2018-10-30 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN107864678B (zh) * 2015-06-26 2021-09-28 亚马逊技术公司 对视觉指示器的检测和解译
CN107864678A (zh) * 2015-06-26 2018-03-30 亚马逊技术公司 对视觉指示器的检测和解译
CN105139866A (zh) * 2015-08-10 2015-12-09 泉州师范学院 南音的识别方法及装置
CN105185381A (zh) * 2015-08-26 2015-12-23 江苏久祥汽车电器集团有限公司 智能机器人声音识别系统
CN107025255A (zh) * 2015-09-30 2017-08-08 远升科技股份有限公司 用于确定对象序列中的对象的索引的系统和方法
CN107025255B (zh) * 2015-09-30 2021-12-31 远升科技股份有限公司 用于确定对象序列中的对象的索引的系统和方法
CN105678244B (zh) * 2015-12-31 2018-12-18 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN105678244A (zh) * 2015-12-31 2016-06-15 北京理工大学 一种基于改进编辑距离的近似视频检索方法
CN107293307B (zh) * 2016-03-31 2021-07-16 阿里巴巴集团控股有限公司 音频检测方法及装置
CN107293307A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 音频检测方法及装置
CN106910494A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种音频识别方法和装置
US11133022B2 (en) 2016-06-28 2021-09-28 Advanced New Technologies Co., Ltd. Method and device for audio recognition using sample audio and a voting matrix
WO2018001125A1 (zh) * 2016-06-28 2018-01-04 阿里巴巴集团控股有限公司 一种音频识别方法和装置
US10910000B2 (en) 2016-06-28 2021-02-02 Advanced New Technologies Co., Ltd. Method and device for audio recognition using a voting matrix
CN106162321A (zh) * 2016-08-31 2016-11-23 成都广电视讯文化传播有限公司 一种声纹特征和音频水印相结合的音频信号识别方法
CN106649642A (zh) * 2016-12-08 2017-05-10 腾讯音乐娱乐(深圳)有限公司 一种歌曲搜索方法、系统及相关设备
CN106708990B (zh) * 2016-12-15 2020-04-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
CN106708990A (zh) * 2016-12-15 2017-05-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法
CN106802960B (zh) * 2017-01-19 2020-07-14 湖南大学 一种基于音频指纹的分片音频检索方法
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107402965B (zh) * 2017-06-22 2020-04-28 中国农业大学 一种音频检索方法
CN109388729A (zh) * 2017-08-14 2019-02-26 阿里巴巴集团控股有限公司 音频子指纹的检索方法、装置以及音频查询系统
CN107784128A (zh) * 2017-11-30 2018-03-09 成都嗨翻屋文化传播有限公司 一种数字音频指纹大数据存储检索的方法及系统
CN107784128B (zh) * 2017-11-30 2021-06-25 成都嗨翻屋科技有限公司 一种数字音频指纹大数据存储检索的方法及系统
CN107948734A (zh) * 2017-12-05 2018-04-20 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN107948734B (zh) * 2017-12-05 2020-09-11 深圳市茁壮网络股份有限公司 一种广告视频的筛选方法及系统
CN109977630A (zh) * 2017-12-27 2019-07-05 上海全土豆文化传播有限公司 音频指纹生成方法及装置
CN108197319A (zh) * 2018-02-02 2018-06-22 重庆邮电大学 一种基于时频局部能量的特征点的音频检索方法和系统
CN108364648A (zh) * 2018-02-11 2018-08-03 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
CN108399913A (zh) * 2018-02-12 2018-08-14 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
CN110555114A (zh) * 2018-03-29 2019-12-10 北京字节跳动网络技术有限公司 一种媒体检索方法及装置
US11874869B2 (en) 2018-03-29 2024-01-16 Beijing Bytedance Network Technology Co., Ltd. Media retrieval method and apparatus
CN109241329A (zh) * 2018-08-03 2019-01-18 百度在线网络技术(北京)有限公司 用于ar场景的音乐检索方法、装置、设备及存储介质
CN109271501B (zh) * 2018-09-19 2020-12-29 北京容联易通信息技术有限公司 一种音频数据库的管理方法及系统
CN109117622A (zh) * 2018-09-19 2019-01-01 北京容联易通信息技术有限公司 一种基于音频指纹的身份认证方法
CN109829061A (zh) * 2019-01-14 2019-05-31 北京雷石天地电子技术有限公司 一种多媒体信息查找方法及系统
CN109871463B (zh) * 2019-03-06 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质
CN109871463A (zh) * 2019-03-06 2019-06-11 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置、电子设备及存储介质
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN110047515B (zh) * 2019-04-04 2021-04-20 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN110209872A (zh) * 2019-05-29 2019-09-06 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110209872B (zh) * 2019-05-29 2021-06-22 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110490268A (zh) * 2019-08-26 2019-11-22 山东浪潮人工智能研究院有限公司 一种基于余弦相似度的改进最近邻距离比的特征匹配方法
CN110956970B (zh) * 2019-11-27 2023-11-14 广州市百果园信息技术有限公司 音频重采样方法、装置、设备及存储介质
CN110956970A (zh) * 2019-11-27 2020-04-03 广州市百果园信息技术有限公司 音频重采样方法、装置、设备及存储介质
CN111161758A (zh) * 2019-12-04 2020-05-15 厦门快商通科技股份有限公司 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN111881090A (zh) * 2020-07-27 2020-11-03 山东女子学院 一种音乐片段提取方法及设备
CN112732972A (zh) * 2020-12-24 2021-04-30 云境商务智能研究院南京有限公司 一种音频指纹生成系统及方法
CN112732972B (zh) * 2020-12-24 2023-10-27 云境商务智能研究院南京有限公司 一种音频指纹生成系统及方法
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113515933A (zh) * 2021-09-13 2021-10-19 中国电力科学研究院有限公司 电力一二次设备融合处理方法、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2015027751A1 (zh) 2015-03-05
CN103440313B (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN103440313A (zh) 基于音频指纹特征的音乐检索系统
CN101404015B (zh) 自动生成词条层次
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109166615B (zh) 一种随机森林哈希的医学ct图像存储与检索方法
CN101404016A (zh) 确定文档特异性
CN107291895B (zh) 一种快速的层次化文档查询方法
CN104794153B (zh) 利用用户交互的相似水文过程搜索方法
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
CN113569057B (zh) 一种面向本体标签知识图谱的样例查询方法
Xiao et al. Fast Hamming Space Search for Audio Fingerprinting Systems.
CN117453861A (zh) 基于对比学习与预训练技术的代码搜索推荐方法和系统
CN103034709B (zh) 检索结果重排序系统及其方法
Sohrabi et al. Finding similar documents using frequent pattern mining methods
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
Truong et al. A survey on time series motif discovery
Arjannikov et al. An Association-based Approach to Genre Classification in Music.
JP2019125124A (ja) 抽出装置、抽出方法、及び抽出プログラム
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
Wei et al. An index construction and similarity retrieval method based on sentence-bert
Yingfan et al. Revisiting $ k $-Nearest Neighbor Graph Construction on High-Dimensional Data: Experiments and Analyses
CN101493823B (zh) 根据单词相关度识别单词聚类
EP3477505A1 (en) Fingerprint clustering for content-based audio recogntion
Jingle et al. Enhanced algorithms for mining optimized positive and negative association rule from cancer dataset
Panyapanuwat et al. Similarity-preserving hash for content-based audio retrieval using unsupervised deep neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant