CN108280074A - 音频的识别方法及系统 - Google Patents

音频的识别方法及系统 Download PDF

Info

Publication number
CN108280074A
CN108280074A CN201710006772.XA CN201710006772A CN108280074A CN 108280074 A CN108280074 A CN 108280074A CN 201710006772 A CN201710006772 A CN 201710006772A CN 108280074 A CN108280074 A CN 108280074A
Authority
CN
China
Prior art keywords
audio
fingerprint
frequency
song
frequency fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710006772.XA
Other languages
English (en)
Inventor
马明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201710006772.XA priority Critical patent/CN108280074A/zh
Publication of CN108280074A publication Critical patent/CN108280074A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明实施例涉及一种音频的识别方法及系统。包括:建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。可以针对各种格式音频文件根据音频文件的音频指纹来标识歌曲,即使更改歌曲的歌手名、专辑名等信息,音频指纹也是不会改变,识别准确率更高。

Description

音频的识别方法及系统
技术领域
本发明涉及音频数据处理技术领域,尤其涉及一种音频的识别方法及系统。
背景技术
对于音频文件一般包括用于存储歌手、标题、专辑名称、年代以及风格等标识信息的数据段,例如,对于MP3格式的音频文件,一般在该MP3音频文件的ID3信息中存储标识信息。在播放音频文件时,通常通过读取存储有标识信息的数据段中的标识信息,将该标识信息显示在播放界面,提供给用户。
但是,随着技术的不断进步,出于为了规避版权等等原因,可轻易的对音频文件中存储标识信息的数据段进行修改或者删除。对于这类音频文件,在进行播放时,将会出现无法正确识别歌曲的情况,这势必会影响歌曲的欣赏体验。
发明内容
本发明实施例提供了一种音频指纹的生成方法及系统。通过提取音频文件中的取出并计算得到的一串标识符作为音频文件的音频指纹,以此来标识歌曲,可在ID3信息等改变后,依然可以正确识别歌曲。
一方面,本发明实施例提供了一种音频的识别方法。包括:
建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;
确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;
将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;
根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,所述多个音频指纹中的每个与所述目标音频指纹的相关度至少包括下述一项或多项:
所述多个音频指纹中的每个对应的多个子指纹与所述多个目标子指纹匹配成功的个数;
匹配成功的子指纹在所述目标音频指纹与所述多个音频指纹中的每个的位差异程度;
所述多个音频指纹中的每个对应的音频文件的时长;
所述多个音频指纹中的每个对应的音频文件的码率;
所述多个音频指纹中的每个对应的音频文件与所述待识别音频文件的歌曲信息的相似度。
可选地,所述确定所述多个音频指纹中的每个与所述目标音频指纹的相关度包括:
确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
可选地,根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息包括:
根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹;
确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度;
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,所述根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息包括:
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的音频文件中选择多个备选音频文件;
基于音频文件时长以及码率对所述多个备选歌曲进行筛选;
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息;
根据所述权重信息,在所述多个筛选后的备选音频文件的歌曲信息选择所述待识别歌曲的歌曲信息。
另一方面,本发明实施例提供了一种音频的识别系统。包括:
建立单元,用于建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;
确定单元,用于确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;
匹配单元,用于将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;
选择单元,用于根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,所述多个音频指纹中的每个与所述目标音频指纹的相关度至少包括下述一项或多项:
所述多个音频指纹中的每个对应的多个子指纹与所述多个目标子指纹匹配成功的个数;
匹配成功的子指纹在所述目标音频指纹与所述多个音频指纹中的每个的位差异程度;
所述多个音频指纹中的每个对应的音频文件的时长;
所述多个音频指纹中的每个对应的音频文件的码率;
所述多个音频指纹中的每个对应的音频文件与所述待识别音频文件的歌曲信息的相似度。
可选地,所述匹配单元还用于,确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
可选地,所述匹配单元还用于,
根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹;
确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度;
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,所述匹配单元还用于,
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的音频文件中选择多个备选音频文件;
基于音频文件时长以及码率对所述多个备选歌曲进行筛选;
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息;
根据所述权重信息,在所述多个筛选后的备选音频文件的歌曲信息选择所述待识别歌曲的歌曲信息。
通过本发明实施例,可以针对各种格式音频文件根据音频文件的音频指纹来标识歌曲,即使更改歌曲的歌手名、专辑名等信息,音频指纹也是不会改变,识别准确率更高。
附图说明
图1为本发明实施例提供的一种音频指纹的生成方法的流程图;
图2为本发明实施例提供的一种在音频文件数据库中添加音频指纹的方法流程图;
图3为本发明实施例提供的一种音频的识别方法的流程图;
图4为本发明实施例提供的一个示例;
图5为本发明实施例提供的另一个示例;
图6为本发明实施例提供的另一种音频的识别方法的流程图;
图7为本发明实施例提供的一种音频的识别系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例通过对不同任意版本的音频文件转换成标准格式,根据该标准格式的音频文件去提取,所以不会出现由于音频文件的多版本问题造成的采样标准不统一的问题,同时,在计算指纹的过程中,通过降采样,傅里叶变换方式,采样了歌曲部分指纹,既满足了各种音频文件的指纹生成的唯一性,也为提高识别该音频文件的指纹效率提供了基础。
为便于对本发明实施例的理解,下面将结合附图以具体实施例作进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种音频指纹的生成方法的流程图。如图1所示,该方法具体包括:
S110,根据第一音频文件截取基于PCM编码的第二音频文件,该第二音频文件为在第一音频文件第一时间处截取的音频文件。
第一音频文件为标准格式的音频文件,该第一音频文件的格式可以为WMA等通用的音频文件的格式。
源音频文件,也就是需要利用音频指纹进行标识的音频文件,可能存在多个版本多种格式,首先将源音频文件转换为标准格式的音频文件,使得音频指纹生成时,采样的统一,提高了音频指纹的准确度。
在依据第一音频文件生成音频指纹时,可截取该音频文件的一部分,该一部分音频指纹即可认为是该音频源文件的数据指纹。该一部分为基于PCM编码的音频文件。
具体地,可利用Mplayer播放该第一音频文件,在45秒截取该第一音频文件从开始播放到该45秒处的第二音频文件,该第二音频文件为基于PCM编码的WAV音频格式文件,与模拟信号比,它不易受传送系统的杂波及失真的影响,动态范围宽,可得到音质相当好的影响效果。应该知道的是,第二音频文件的时长越长,识别准确度越高,45秒仅是本发明的一个示例,并不构成限定。
S120,根据第二音频文件得到多个子指纹。
其中,多个子指纹的生成过程具体如下所述:
针对各种声道和采样率对第二音频文件进行降采样。通过汉宁窗处理,消去高频干扰和漏能,进行傅里叶变换。通过计算频域幅度,和每个频带的频率域中计算能量。计算出能量差值,将差值WRT大于0的录入指纹,得到子指纹。
音频实现实际上也是频率信息,每一个采样点记录的是波形在该点的振幅,对于一个音频文件来说,他的特征是在频率信息上。
在一个示例中,子指纹的生成具体包括如下步骤:
1、提取经过降采样的第二音频文件的一帧音频信息。
2、通过汉宁窗处理,消去高频干扰和漏能,进行傅里叶变换。
3、根据傅里叶变换后的第二音频文件,将振幅信息转成能量信息。
4、将能量信息的结果取绝对值。
5、把频率在300---2000,映射到9频率频带,计算各个频带能量。
根据300---2000HZ频率bark值,平均分成9的频率段,计算每个频率段能量和。
6、与上一帧能量值比较产生子指纹。
我们得到9能量信息,E[1....9],E_[i]=[i+1]-E[i];F[n,M]表示第n帧,E_[M]的值。
如果F[n,M]-F[n-1,M]>0则子指纹第M位为1,否则为0,这样可根据两个帧的比较产生一个8字节的子指纹。
S130,从第二时间处开始截取多个子指纹中的设定数量个子指纹作为第一音频文件的音频指纹。
根据前述S110、S120可确定第二音频文件对应有多个子指纹,可截取该多个子指纹的一部分,该一部分子指纹的组合即为第一音频文件或者源音频文件的音频指纹。
具体地,可确定第二音频文件从第二时间处开始,截取该第二音频文件对应的多个子指纹中设定数量的子指纹作为音频指纹。其中,该第二时间可为大于32秒小于第一时间的任意时间,例如第一时间为45秒,第二时间可为32秒或者35秒等等,这样可避开音频文件的前奏,增强不同歌曲指纹差异性。设定数量可以为512个子指纹(大概6秒音频对应的子指纹)。
生成的数据纹数据例子:5939cd89,5d39dd8b,5d39dda3,……(省略508个子指纹),a96a76ab。
需要说明的是,截取第二音频文件的多个子指纹的起始值为第二时间,该第二时间为32秒仅是本发明实施例提供的一个示例,并不构成限定。
还需要说明的是,截取6秒音频对应的指纹仅是本发明实施例提供的一个示例,并不构成限定。计算指纹的时间跨度越大越准确,时间跨度越小效率越高。只计算6秒指纹识别效率高,且识别效果可达到95%。
通过本发明实施例,可以针对各种格式音频文件提取计算得到一串标识符作为音频文件的音频指纹,该一串字符串与音频文件对应,且出现相同的音频指纹的概率非常小,以此来标识歌曲,即使更改歌曲的歌手名、专辑名等信息,音频指纹也是不会改变。
图2为本发明实施例提供的一种在音频文件数据库中添加音频指纹的方法流程图。如图2所示,音频文件数据库包括多个音频文件,该方法具体包括:
S210,确定多个音频文件中未包括音频指纹的至少一个音频文件。
音频文件数据库一般包括多个音频文件,该音频文件可能一部分已经拥有音频指纹,一部分没有。可以依次检查,确定每个音频文件是否都已经计算过了音频指纹,将未计算的音频文件加入miss(错过)列表。
该miss列表一般包括至少一个音频文件,该至少一个音频文件都未计算音频指纹。
S220,计算至少一个音频文件中每个对应的多个子指纹。
对miss列表中包括的至少一个音频文件分别计算音频指纹。
首先,计算miss列表中每个音频文件对应的多个子指纹,该子指纹的计算方式可参见前述图1所示的实施例中S120中的描述,不再赘述。
S230,生成至少一个音频文件中大于第一时间的音频文件的音频指纹,该音频指纹为从大于第一时间的音频文件的第一时间处开始截取的设定数量个子指纹。
其中,音频指纹的生成可参见图1所示的实施例中S130中的描述。
在本发明实施例中,由于生成音频指纹时,需要从第一时间开始截取子指纹,对于miss列表中的音频文件,可能包括一部分小于第一时间长度的音频文件,还包括一部分大于第一时间长度的音频文件。其中,第一时间可参见前述图1所示实施例中的第二时间,例如可为32秒。
需要对大于第一时间长度的音频文件计算音频指纹。
对于小于第一时间长度的音频文件在计算音频指纹时,会出现计算失败的情况,归并所有计算失败的音频文件的标识。
S240,根据所述音频指纹生成数据库语句,并将所述音频指纹添加在所述数据库中。
对于正确生成音频指纹的音频文件,利用该音频指纹标识该音频文件,根据该音频指纹创建MYSQL语句,以便根据该MYSQL语句对该音频文件进行查询、删除等操作。将该音频指纹按照其与音频文件的对应关系,添加在数据库中。
以此可对数据库中的每个音频文件添加歌曲指纹,并统计添加成功的和没添加成功的歌曲文件。
图3为本发明实施例提供的一种音频的识别方法的流程图。如图3所示,该方法具体包括:
S310,建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息。
在一个示例中,结合图4以音频文件的音频指纹包含256子指纹(子指纹可称为fp)为例进行介绍。
在服务器端以fp为单位建立索引,服务器端至少包含两个数组:Index 1以及Index 2。
Index 1记录每一个fp散列(hash)后对应的槽。
Index 1中每一项的结构如下:
struct t_sb_music_index1{
unsigned index2_off:26;
unsigned index2_num:6;
};
其中,index2_off占26bit,记录散列后落在该槽的一组fp在Index2中起始的位置,Index2_num记录冲突的fp有多少个(具有相同key的fp数)。
Index 2中记录了每个fp的详细信息。
Index 2中每一项的结构如下:
其中fp保存了该fp的值,music_id记录该fp所属的音频文件的的编号,fp_off记录了该fp在其所属音频文件中的位置(每首歌共有256个fp)。
其中,数据库的建立方式可结合图2所示的实施例中的描述,此处不再赘述。
S320,确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹。
待识别音频文件可由终端提供。例如,用户在利用安装有音频播放软件的终端播放音频文件时,想要了解该音频文件的歌曲信息,例如,专辑名称、歌手名称以及年代等等。终端可将待识别的音频文件发送给服务器。
其中,终端可直接将待识别的音频文件发送给服务器,也可以是,终端计算待识别的音频文件的待识别音频指纹,终端将待识别的音频指纹发送给服务器。
另外,待识别的音频文件也可为服务器本地存储或管理员上传的音频文件。具体地,服务器也可批量依次对音频文件进行识别,例如,服务器在将歌曲推送给终端时,有时会根据音频文件的歌曲信息进行推送,服务器可对需要推送的音频文件进行识别。
S330,将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度。
由步骤S310可知,数据库中包括多个音频指纹,且每个音频指纹包括多个子指纹。
在一个示例中,数据库中的每个音频指纹与目标音频指纹的相关度至少包括下述一项或多项:
数据库中的每个音频指纹对应的多个子指纹与多个目标子指纹匹配成功的个数;其中,匹配成功的个数越多可认为越相关。
数据库中的每个音频指纹与目标音频指纹匹配成功的子指纹的位差异程度;其中,位差异程度越小可认为越相关。
数据库中的每个音频指纹对应的音频文件的时长,其中,时长与待识别音频文件越接近,认为越相关;
数据库中的每个音频指纹对应的音频文件的码率,其中,码率越接近则认为越相关;
数据库中的每个音频指纹对应的音频文件的歌曲信息与待识别音频文件的歌曲信息的相似度,其中,越相似则认为越相关。
其中,匹配成功可以为子指纹的值相同。具体地,可通过散列的方法在index 1找到在index 2的起始位置,然后比较每个有冲突的fp。通过该方法记录数据库中与目标音频指纹有完全相同fp(比较fp的值)的每个音频指纹,统计该数据库中的音频指纹与目标音频指纹相同的fp的个数。
例如目标音频指纹与数据库中的音频指纹M1有20个相同的fp,与数据库中的音频指纹M2有56个相同的fp等等。
结合图5所示,如图,如果音频指纹51的第一个fp与音频指纹52的第3个fp相同,那么在计算位差异程度时,计算两者相交的多个个fp,如果音频指纹包括256个,同为的fp为254个。其中,音频指纹51与音频指纹52位差异程度(diff)=不同位的个数/总的位数。
数据库中的每个音频指纹对应的音频文件的歌曲信息与待识别音频文件的歌曲信息的相似度可根据权重规则来确定。例如,设置权重规则:数据库中的音频文件与待识别音频文件的歌曲名前4字节相同,则权重+1;专辑名前4字节相同,则权重+1;专辑名前4字节相同,则权重+1;歌曲名完全相同,则权重+1;歌手完全相同,则权重+1;专辑完全相同,权重+1。
S340,根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
根据步骤S330中的方式,可为数据库中的每个音频指纹计算得到一个相关度,可根据该每个音频指纹的相关度,选择与待识别的音频文件的音频指纹相关度最高的一个,确定该相关度最高的一个音频指纹对应的音频文件的歌曲信息作为待识别音频文件的新的歌曲信息。
图6为本发明实施例提供的另一种音频的识别方法的流程图。如图6所示,该方法具体包括:
S310,建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息。
S320,确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹。
其中,S310以及S320可参见图3所示的实施例中的描述。
S630,将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
其中,S630可参见图3所示的实施例中S330中关于将所述目标子指纹与所述数据库中的子指纹进行匹配的描述。
其中,可以选择数据库中的音频指纹与目标音频指纹匹配的子指纹最多个一个音频指纹对应的音频文件的歌曲信息作为待识别音频文件的新的歌曲信息。
在一个实施例中,本发明实施例还可以依据数据库中的音频指纹与目标音频指纹匹配的子指纹的个数进行初筛选,再进行进一步地判断,具体包括如下步骤:
S640,根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹。
对S630计算出数据库中的音频指纹与目标音频指纹匹配的子指纹的个数对数据库中的音频指纹可由大到小进行排序,选择排序靠前的多个音频指纹。例如,排序前10%。
S650,确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度。
其中,位差异程度的计算方式可参见图3所示的实施例中S330中的描述,此处不再赘述。
S660,根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
例如,可以选择位差异程度最小的一个音频指纹对应的歌曲信息作为待识别音频文件的新的歌曲信息。
在另一个实施例中,本发明实施例还可以依据数据库中的音频指纹与目标音频指纹匹配的子指纹的个数以及位差异程度进行初筛选,再进行进一步地判断,具体包括如下步骤:在S650后,根据符合预制规则的多个音频指纹对应的位差异程度,选择多个音频指纹,确定该选定的多个音频指纹对应的音频文件为备选音频文件。
例如,可设置位差异程度阈值,过滤那些与目标音频指纹相交的fp个数很小的音频指纹。例如,音频指纹包括256个子指纹,可设置位差异程度阈值为不同位的个数不超过64,也就是位差异程度不大于64/256。
可基于音频文件时长以及码率对多个备选歌曲进行筛选。
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息
例如,可以选择备选音频文件中权重最大的一个音频文件的歌曲信息作为待识别音频文件的新的歌曲信息。
其中,权重信息的计算方式可参见图3所示的实施例中S330中的描述,此处不再赘述。
对于待识别的音频文件或者目标音频指纹由终端提供的情况,服务器在计算得到待识别音频文件的新的歌曲信息后,可将该新的歌曲信息发送给客户端。
通过本发明实施例,可以针对各种格式音频文件根据音频文件的音频指纹来标识歌曲,即使更改歌曲的歌手名、专辑名等信息,音频指纹也是不会改变,识别准确率更高。
图7为本发明实施例提供的一种音频的识别系统结构示意图,如图7所示包括:
建立单元701,用于建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;
确定单元702,用于确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;
匹配单元703,用于将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;
选择单元704,用于根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,所述多个音频指纹中的每个与所述目标音频指纹的相关度至少包括下述一项或多项:
所述多个音频指纹中的每个对应的多个子指纹与所述多个目标子指纹匹配成功的个数;
匹配成功的子指纹在所述目标音频指纹与所述多个音频指纹中的每个的位差异程度;
所述多个音频指纹中的每个对应的音频文件的时长;
所述多个音频指纹中的每个对应的音频文件的码率;
所述多个音频指纹中的每个对应的音频文件与所述待识别音频文件的歌曲信息的相似度。
可选地,匹配单元703还用于,确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
可选地,匹配单元703还用于,
根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹;
确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度;
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
可选地,匹配单元703还用于,
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的音频文件中选择多个备选音频文件;
基于音频文件时长以及码率对所述多个备选歌曲进行筛选;
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息;
根据所述权重信息,在所述多个筛选后的备选音频文件的歌曲信息选择所述待识别歌曲的歌曲信息。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的范围之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音频的识别方法,其特征在于,包括:
建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;
确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;
将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;
根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
2.根据权利要求1所述的方法,其特征在于,所述多个音频指纹中的每个与所述目标音频指纹的相关度至少包括下述一项或多项:
所述多个音频指纹中的每个对应的多个子指纹与所述多个目标子指纹匹配成功的个数;
匹配成功的子指纹在所述目标音频指纹与所述多个音频指纹中的每个的位差异程度;
所述多个音频指纹中的每个对应的音频文件的时长;
所述多个音频指纹中的每个对应的音频文件的码率;
所述多个音频指纹中的每个对应的音频文件与所述待识别音频文件的歌曲信息的相似度。
3.根据权利要求1所述的方法,其特征在于,所述确定所述多个音频指纹中的每个与所述目标音频指纹的相关度包括:
确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
4.根据权利要求3所述的方法,其特征在于,根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息包括:
根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹;
确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度;
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息包括:
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的音频文件中选择多个备选音频文件;
基于音频文件时长以及码率对所述多个备选歌曲进行筛选;
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息;
根据所述权重信息,在所述多个筛选后的备选音频文件的歌曲信息选择所述待识别歌曲的歌曲信息。
6.一种音频的识别系统,其特征在于,包括:
建立单元,用于建立数据库,所述数据库包括多个音频指纹,所述音频指纹包括多个子指纹,所述多个音频指纹分别对应有音频文件,所述音频文件包括歌曲信息;
确定单元,用于确定待识别音频文件的目标音频指纹,所述目标音频指纹包括多个目标子指纹;
匹配单元,用于将所述目标子指纹与所述数据库中的子指纹进行匹配,确定所述多个音频指纹中的每个与所述目标音频指纹的相关度;
选择单元,用于根据所述多个音频指纹对应的相关度,在所述多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
7.根据权利要求6所述的系统,其特征在于,所述多个音频指纹中的每个与所述目标音频指纹的相关度至少包括下述一项或多项:
所述多个音频指纹中的每个对应的多个子指纹与所述多个目标子指纹匹配成功的个数;
匹配成功的子指纹在所述目标音频指纹与所述多个音频指纹中的每个的位差异程度;
所述多个音频指纹中的每个对应的音频文件的时长;
所述多个音频指纹中的每个对应的音频文件的码率;
所述多个音频指纹中的每个对应的音频文件与所述待识别音频文件的歌曲信息的相似度。
8.根据权利要求6所述的系统,其特征在于,所述匹配单元还用于,确定所述多个音频指纹中的每个对应的多个子指纹与所述目标子指纹匹配成功的个数。
9.根据权利要求8所述的系统,其特征在于,所述匹配单元还用于,
根据所述多个音频指纹中的每个匹配成功的个数,选择所述多个音频指纹中符合预制规则的多个音频指纹;
确定所述目标音频指纹与所述符合预制规则的多个音频指纹中的每个的位差异程度;
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的歌曲信息中选择所述待识别歌曲的歌曲信息。
10.根据权利要求9所述的系统,所述匹配单元还用于,
根据所述符合预制规则的多个音频指纹对应的位差异程度,在所述符合预制规则的多个音频指纹对应的音频文件中选择多个备选音频文件;
基于音频文件时长以及码率对所述多个备选歌曲进行筛选;
根据多个筛选后的备选音频文件的歌曲信息分别计算权重信息;
根据所述权重信息,在所述多个筛选后的备选音频文件的歌曲信息选择所述待识别歌曲的歌曲信息。
CN201710006772.XA 2017-01-05 2017-01-05 音频的识别方法及系统 Pending CN108280074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710006772.XA CN108280074A (zh) 2017-01-05 2017-01-05 音频的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710006772.XA CN108280074A (zh) 2017-01-05 2017-01-05 音频的识别方法及系统

Publications (1)

Publication Number Publication Date
CN108280074A true CN108280074A (zh) 2018-07-13

Family

ID=62800490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710006772.XA Pending CN108280074A (zh) 2017-01-05 2017-01-05 音频的识别方法及系统

Country Status (1)

Country Link
CN (1) CN108280074A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN111444376A (zh) * 2020-04-15 2020-07-24 厦门快商通科技股份有限公司 一种音频指纹的识别方法和装置以及设备
CN111508506A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 音频文件的原唱检测方法、装置、服务器及存储介质
CN112102848A (zh) * 2019-06-17 2020-12-18 华为技术有限公司 一种用于识别音乐的方法、芯片和终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455513A (zh) * 2012-06-01 2013-12-18 腾讯科技(深圳)有限公司 音频文件更新方法及更新装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455513A (zh) * 2012-06-01 2013-12-18 腾讯科技(深圳)有限公司 音频文件更新方法及更新装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈海浪: "《压缩域音频指纹及其鲁棒性研究》", 15 October 2013, 中国优秀硕士学位论文全文数据库 信息科技辑 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047515A (zh) * 2019-04-04 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
WO2020199384A1 (zh) * 2019-04-04 2020-10-08 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置、设备及存储介质
CN110047515B (zh) * 2019-04-04 2021-04-20 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备及存储介质
CN112102848A (zh) * 2019-06-17 2020-12-18 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN112102848B (zh) * 2019-06-17 2024-04-26 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN111508506A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 音频文件的原唱检测方法、装置、服务器及存储介质
CN111508506B (zh) * 2020-04-03 2024-03-01 北京达佳互联信息技术有限公司 音频文件的原唱检测方法、装置、服务器及存储介质
CN111444376A (zh) * 2020-04-15 2020-07-24 厦门快商通科技股份有限公司 一种音频指纹的识别方法和装置以及设备

Similar Documents

Publication Publication Date Title
US10719551B2 (en) Song determining method and device and storage medium
EP1550297B1 (en) Fingerprint extraction
CN108280074A (zh) 音频的识别方法及系统
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
US6604072B2 (en) Feature-based audio content identification
US6881889B2 (en) Generating a music snippet
JP2008504741A (ja) 2つのメディア・セグメントの重なりを特徴付ける方法
JP2013534645A (ja) オーディオメディア認識のためのシステム及び方法
WO2016189307A1 (en) Audio identification method
JP6901798B2 (ja) オーディオエネルギー特性に基づくオーディオフィンガープリンティング
US10534777B2 (en) Systems and methods for continuously detecting and identifying songs in a continuous audio stream
JP4267463B2 (ja) 音声コンテンツを特定する方法、音声信号の記録の一部分を特定する特徴を形成する方法およびシステム、音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法、コンピュータ・プログラム、音声信号の記録を特定するシステム
US20160350415A1 (en) Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
CN109271501B (zh) 一种音频数据库的管理方法及系统
CN108205550A (zh) 音频指纹的生成方法及装置
WO2016024171A1 (en) Method of and a system for indexing audio tracks using chromaprints
CN117037837B (zh) 基于音轨分离技术的噪声分离方法和装置
US20230326479A1 (en) Audio content recognition method and system
CN108648733B (zh) 一种迪曲生成方法及系统
CN112352279B (zh) 便于自动视频编辑的节拍分解
WO2023089324A1 (en) Media identification system
Selvakumar et al. Content recognition using audio finger printing
CN116781944A (zh) 歌曲检测方法、装置、设备及可读存储介质
CN117573918A (zh) 用于识别音频片段的方法、装置及计算机可读介质
CN117807564A (zh) 音频数据的侵权识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180713