CN104915403A - 一种信息处理方法及服务器 - Google Patents
一种信息处理方法及服务器 Download PDFInfo
- Publication number
- CN104915403A CN104915403A CN201510293840.6A CN201510293840A CN104915403A CN 104915403 A CN104915403 A CN 104915403A CN 201510293840 A CN201510293840 A CN 201510293840A CN 104915403 A CN104915403 A CN 104915403A
- Authority
- CN
- China
- Prior art keywords
- cryptographic hash
- parameter value
- information
- coupling
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理方法及服务器,其中,所述方法包括:接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;对所述匹配信息进行筛选,得到筛选结果;根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
Description
技术领域
本发明涉及通讯技术,尤其涉及一种信息处理方法及服务器。
背景技术
本申请发明人在实现本申请实施例技术方案的过程中,至少发现相关技术中存在如下技术问题:
多媒体信息的共享和播放成为用户生活中的必备服务,为了更快捷的识别出某个多媒体信息,产生了指纹识别技术。以多媒体信息为音频信息为例,音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了以音乐为主的海量音频信息,手工选取某首歌曲很多时候已经变得不可能,这直接促使产生了可以进行音乐自动识别的数字音频指纹技术。
就针对多媒体信息的指纹识别技术而言,仍以多媒体信息为音频信息为例,音频指纹是一种可以代表一段音乐重要声学特征的基于内容的紧致数字签名,音频指纹用于建立一种有效机制来比较两个音频数据的感知听觉质量,这里需要指出的是,并不是直接比较通常很大的两个或多个音频数据本身,而是比较其相应通常较小的数字指纹,即:经由两个或多个音频数据本身得到的两个或多个音频指纹。
采用现有技术来识别进而选取一首歌曲或一段视频,通过上述指纹识别技术,是需要生成音频指纹或视频指纹信息,然后与数据库中已有的音频指纹或视频指纹信息样本进行比对从而进行识别。然而,为了提高识别率,需要在数据库中保存越来越多的音频指纹或视频指纹信息样本,这些信息会大量占用数据库的存储空间,也影响待识别的多媒体信息与已有多媒体信息样本之间匹配的速度和识别成功率,尤其是匹配不是基于一对一的情况下,而是基于一对多 的情况,即:待识别的多媒体信息在已有多媒体信息样本中存在多个与其相同或相近似的结果,采用现有的匹配方式,无论匹配速度还是匹配精度都达不到能从多个与其相同或相近似的结果中识别出待识别的多媒体信息的效果,从而无法做到快速精准的匹配以识别出待识别的多媒体信息。相关技术中,对于该问题,尚无有效解决方案。
发明内容
有鉴于此,本发明实施例希望提供一种信息处理方法及服务器,至少解决了现有技术的问题,提高了匹配速度和识别成功率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;
对所述匹配信息进行筛选,得到筛选结果;
根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
较佳地,所述候选参数值的类型包括哈希值,所述第一参数值为第一哈希值;
所述将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息,包括:
将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒体数据及其时间点信息,以组成所述匹配信息。
较佳地,所述对所述匹配信息进行筛选,得到筛选结果,包括:
将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配 信息的第一级筛选过滤,得到所述筛选结果。
较佳地,所述时间差通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到;
所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间点信息计算得到。
较佳地,所述方法还包括:
对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
较佳地,所述根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息,包括:
对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;
将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
本发明实施例又提供了一种服务器,所述服务器包括:
接收单元,用于接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元,用于将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
匹配单元,用于将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;
筛选单元,用于对所述匹配信息进行筛选,得到筛选结果;
过滤单元,用于根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
较佳地,所述候选参数值的类型包括哈希值,所述第一参数值为第一哈希值;
所述匹配单元,进一步用于将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒体数据及其时间点信息,以组成所述匹配信息。
较佳地,所述筛选单元,进一步用于将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配信息的第一级筛选过滤,得到所述筛选结果。
较佳地,所述筛选单元,进一步用于通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到所述时间差;所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间点信息计算得到。
较佳地,所述服务器还包括:
选取单元,用于对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
较佳地,所述过滤单元,进一步包括:
统计子单元,用于对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断子单元,用于判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
本发明实施例的信息处理方法包括:接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一 参数值的存储容量小于所述第一多媒体指纹信息的存储容量;将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;对所述匹配信息进行筛选,得到筛选结果;根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
采用本发明实施例,转换得到比第一多媒体指纹信息的存储容量还要小的第一参数值,不仅减少了数据库的存储空间,而且根据第一参数值进行匹配,通过对所述匹配信息进行筛选,得到筛选结果,根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息,还能得到最精确的匹配识别结果,提高了匹配速度和识别成功率。
附图说明
图1为本发明方法实施例一的一个实现流程示意图;
图2为本发明方法实施例二的一个实现流程示意图;
图3为本发明服务器实施例一的一个组成结构示意图;
图4为应用本发明实施例的服务器的硬件示例结构图;
图5为应用本发明实施例的一个实例的实现流程示意图;
图6-图10为应用本发明实施例的另一个实例的示意图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
方法实施例一:
本发明实施例的一种信息处理方法,如图1所示,所述方法包括:
步骤101、接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
步骤102、将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
步骤103、将所述第一参数值与选取的已有候选参数值进行匹配,得到匹 配信息;
步骤104、对所述匹配信息进行筛选,得到筛选结果;
步骤105、根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
采用本发明实施例,通过步骤101-102,转换得到比第一多媒体指纹信息的存储容量还要小的第一参数值,不仅减少了数据库的存储空间,而且通过步骤103-105能根据第一参数值进行匹配,通过对所述匹配信息进行筛选,得到筛选结果,根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息,还能得到最精确的匹配识别结果,提高了匹配速度和识别成功率。
方法实施例二:
本发明实施例的一种信息处理方法,如图2所示,所述方法包括:
步骤201、接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
步骤202、将所述第一多媒体指纹信息转换成与其对应的第一哈希值,所述第一哈希值的存储容量小于所述第一多媒体指纹信息的存储容量;
步骤203、将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒体数据及其时间点信息,以组成所述匹配信息;
步骤204、对所述匹配信息进行筛选,得到筛选结果;
步骤205、根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
在本发明实施例一实施方式中,所述对所述匹配信息进行筛选,得到筛选结果,包括:将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配信息的第一级筛选过滤,得到所述筛选结果。
在本发明实施例一实施方式中,所述时间差通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到;所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间 点信息计算得到。
在本发明实施例一实施方式中,所述方法还包括:对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
在本发明实施例一实施方式中,所述根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息,包括:
对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;
将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
服务器实施例一:如图3所示,所述服务器包括:
接收单元11,用于接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元12,用于将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
匹配单元13,用于将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;
筛选单元14,用于对所述匹配信息进行筛选,得到筛选结果;
过滤单元15,用于根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
在本发明实施例一实施方式中,所述候选参数值的类型包括哈希值,所述第一参数值为第一哈希值;
所述匹配单元,进一步用于将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒 体数据及其时间点信息,以组成所述匹配信息。
在本发明实施例一实施方式中,所述筛选单元,进一步用于将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配信息的第一级筛选过滤,得到所述筛选结果。
在本发明实施例一实施方式中,所述筛选单元,进一步用于通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到所述时间差;所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间点信息计算得到。
在本发明实施例一实施方式中,所述服务器还包括:
选取单元,用于对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
在本发明实施例一实施方式中,所述过滤单元,进一步包括:
统计子单元,用于对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断子单元,用于判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
这里需要指出的是,上述服务器可以是通过集群系统构成的,为实现各单元功能而合并为一或各单元功能分体设置的电子设备,服务器都至少包括用于存储数据的数据库和用于数据处理的处理器,或者包括设置于服务器内的存储介质或独立设置的存储介质。
其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Singnal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array) 实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例信息处理方法流程中的各个步骤。
该服务器作为硬件实体S11的一个示例如图4所示。所述装置包括处理器31、存储介质32以及至少一个外部通信接口33;所述处理器31、存储介质32以及外部通信接口33均通过总线34连接。
这里需要指出的是:以上涉及服务器项的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明服务器实施例中未披露的技术细节,请参照本发明方法实施例的描述。
以一个现实应用场景为例对本发明实施例阐述如下:
本应用场景为:识别进而选取一首歌曲或一段视频的情况,可以通过指纹识别技术来实现,即:在客户端生成音频指纹或视频指纹信息,然后将其与服务器的数据库中已有的音频指纹或视频指纹信息样本进行比对,从而进行识别。
服务器的数据库中已有的音频指纹或视频指纹信息样本有非常多,以其中的音频指纹样本为例进行如下描述,视频指纹信息样本是类似的,不作赘述。
大量音频数据对应的音频指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用音频指纹作为相应元数据的索引,这种情况是音频指纹和其相应的元数据分别独立存在数据库的一条记录中,且音频指纹作为该记录的索引值;也可以是:音频指纹中就包含了作为数据头的音频指纹及作为其数据具体内容的所述元数据。
一个音频指纹系统通常包括两个部分:1)计算听觉重要特征的指纹提取算法;2)在指纹数据库中进行有效搜索的比对算法。
具体来说,当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,得到音频指纹,然后与数据库中存储的已有大量音频指纹信息样本相比对,从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若经过比对能识别到与所述音频指纹对应的原始指纹,则可提取出相应的元数据信息(如歌 曲名称、词曲作者、歌词等内容)返回给用户。使用基于音频数据生成的音频指纹而不是音频数据本身进行检索具有三方面好处:1)因为音频指纹的数据量相对比较小,可以大大减少对硬盘及内存的存储要求;2)音频指纹来源于音频数据听觉最重要的部分,因此在经受信号失真时仍能进行有效比对;3)音频指纹的数据库与媒体数据库相比尺寸减小很多,从而可以进行更高效的搜索。
在音频指纹的应用中,即便采用音频指纹而不是音频数据本身,虽然能占用相对少的数据库存储空间,但是对于信息爆炸的社会,这远远不够,仍然会严重影响到匹配的速度和效能。
为了达到快速、精准的匹配,还可以进一步把音频指纹的特征转变成相应的哈希值,这样与采用音频指纹的情况来对比,同样大小的数据库,采用哈希值会占用更少的数据库存储空间,从而减少了匹配的时间。采用这种音频、视频指纹对应哈希值来进行匹配的快速算法虽然能改善简单通过音频、视频指纹进行比对的算法,提升了匹配的准确度,降低了匹配的复杂度,从而能有效地将音视频指纹的哈希应用于各种领域,如板权保护,音视频去重等等应用领域中,但是,还存在着不完全匹配,或漏配的情况,尤其是在匹配不是基于一对一的情况下,而是基于一对多的情况,即:待识别的多媒体信息在已有多媒体信息样本中存在多个与其相同或相近似的结果,采用现有的匹配方式,无论匹配速度还是匹配精度都达不到能从多个与其相同或相近似的结果中识别出待识别的多媒体信息的效果,存在这种不足的原因如下所述:
采用上述音频、视频指纹对应哈希值来进行匹配的快速算法,以其中的音频指纹样本为例进行如下描述,这里需要指出的是,通过音频指纹样本也可以对视频进行识别,通常视频中是包括音频数据的,那么,可以先提取某段视频中的音频数据的特征参数,根据特征参数得到音频指纹,再将音频指纹转换成相应的哈希值,以便进行快速的搜索和便捷的存储。在音频指纹的哈希匹配中,利用了匹配数量和时间的矫正机制,以便在海量的视频中判断出匹配到的相似视频,具体来说,1)在匹配的过程中,首先对输入的视频做音频指纹的提取,再转变成哈希,得到相应的哈希值;2)然后对每一个哈希值,音频指纹库里面 去做匹配,找到具有相同哈希值的视频和其哈希值对应的时间点,把结果统一起来后以便做进一步的选取;3)在选取的过程中,把具有相同视频,和时间差(输入视频的哈希时间点和视频库里的哈希时间点的差)进行统计,找出具有相同视频和相同时间差的匹配到的哈希值。当这个匹配的哈希量到达一个预设定的值的时候,那么这个视频就是匹配到的视频,然而,采用上述音频、视频指纹对应哈希值来进行匹配的快速算法实际上仅对匹配的数量和时间进行了矫正,如一个例子为一套电视剧分为20集,每一集的开头和结束曲都是一样的,那么匹配时就都算作所述匹配到的视频,实际上匹配结果是错的,分析得到这种错误匹配的形成是因为忽略了对匹配的每一段的匹配数量的考虑,从而会导致错误的匹配频繁发生,尤其是上述例子中提及的如果音频指纹只匹配到开始和结束的视频,而在这个中间没有匹配到,那么在匹配的结果中,就会出现错误匹配的情况,如电视剧,开头和结尾是相同的,但中间的内容是不一样的情况。在这个匹配的过程中,会产生错误的选择。
综上所述,采用上述音频、视频指纹对应哈希值来进行匹配的快速算法,对于短音频(几秒到几十秒)的效果还可以,匹配错误率相对低,但是不支持于长音频(几分钟以上)的匹配,尤其不支持输入的视频中的音频有多个在音频指纹库的匹配的情况。
针对上述的分析结果,本应用场景采用本发明实施例所采取的方案,对匹配的每一段的匹配数量也进行了考虑,是一种基于音频指纹对应的哈希值进行精准匹配的算法,能有效地提高音频指纹在海量的指纹库里匹配的准确率,也可以说:该匹配方案考虑了音频指纹在时间匹配上哈希的分布密度,解决了在匹配中,只匹配到部分音频的错误判段,从而提高了音频指纹在海量音频的匹配准确率,匹配速度也是很快的。
应用实例一:
如图5所示为本应用场景采用本发明实施例的一个实现流程,包括:
步骤601、输入的音频数据经过特征提取,再转换成相应的哈希值。
步骤602、利用这些哈希值进行哈希匹配,在视频指纹库里找到相对应匹 配的哈希值,及其对应的视频的时间点以组成匹配信息。
这里,因为音频指纹库的海量性原因,为了平衡时间,加快匹配的速度,同时不减少准确度的情况下,采用了模糊匹配。
步骤603、在选取的过程中,把具有相同视频和时间差(输入视频的哈希时间点和视频库里的哈希时间点的差)的匹配哈希数据进行统计,用于匹配信息过滤,只选取首N个匹配到的音频以组成潜力匹配的音频段。
这里,把具有相同视频和时间差的匹配哈希数据进行统计,由于匹配哈希数据不只一个,需要进行信息过滤,按照匹配的排序结果,从排序结果中的第一个数据开始,选取匹配哈希数据中前N个匹配到的音频以组成潜力匹配的音频段。N为大于1的自然数,通常可以选50或100。
步骤604、从所述潜力匹配的音频段中选取每一段匹配的音频,分析它的哈希量在特定时间上的密度,如果密度大于阀值T1,则保持,反之则去除,只保留密度大于T1的哈希值片段,已得到通过进一步筛选得到的精选潜力匹配音频段。
这里,通过步骤603得到的所述潜力匹配的音频段为多个,对多个所述潜力匹配的音频段中的任意一个音频段采取一样的处理机制,即:按照哈希时间密度分布来从N个潜力匹配的音频段中任意选取的每一个音频段进行过滤,以得到密度大于T1的哈希值片段,从而经过步骤604的这个处理阶段,可以把匹配密度低的潜力音频段去除,得到精选潜力匹配音频段,能提高匹配的精确性。
步骤605、在选取的所述精选潜力匹配音频段里进行去重挑选,把在时间上匹配到的重复音频,挑选哈希密度最大的作为最终的匹配音频。
这里,该匹配过程中,可允许一对一,或一对多的匹配,这个过程可以在哈希密度分析时进行进一步的筛选,只保留匹配时长最长的一段音频。
应用实例二:
图6-图10为本应用场景采用本发明实施例的另一个应用实例对应的相关示意图,本应用实例包括以下内容:
一、首先音频数据通过特征提取转变成哈希值,如图7所述,每一个哈希值对应一个时间点。在哈希值匹配的过程中,可以得到相关匹配视频的信息,如是哪一个视频的哪一个时间点,如图7所示,IDa是匹配的某一个视频,ta是它对应的时间点。
二、完成匹配信息收集之后,会将匹配的信息作进一步的处理,如图7所示,匹配的相关信息会整理成为(IDa,ta-t1,t1)的形式来代表在t1时间里匹配到的相关视频信息。把所有的匹配信息整理完之后,会得到一个很长的列表,(ID,DT,T),对应如上例子的(IDa,ta-t1,t1)。这些信息会按照ID和DT做相应的排序,算出有相同ID和DT的匹配个数。当匹配个数小于某一个阀值,K时,会把ID和DT的所有点去除。在潜力股的选择中,只选取匹配个数最大的前N个作为潜力匹配的音频段。
三、在下个阶段,在时间上去看匹配点的分布,这里称之为密度分析。像一般的电视剧,开头和结果是一样的,而中间是不一样的。在这种情况下,得到的匹配个数和时间的分布会如图8所示,蓝色的区域表示密度分别情况。在传统的匹配中是不考虑匹配数量的问题,本实例是考虑了匹配数量的问题,还需要进行密度分析,具体为:在这个阶段,首先对匹配点的分布进行分析,会发现时间从时间9到29之间不存在匹配数,或者匹配数量很少的情况下,会去掉这部分。只保留时间1-7,和30-35的匹配情况。如果情况如图9所示,会将整个匹配的时间点作为输出。
四、在得到时间点上的匹配之后,会进行去重的步骤,因为经过执行上述一至三描述的内容之后,是会允许一对多的匹配情况。如图9所示,如果输入的视频匹配到视频a,b,c,d。视频a,b会有重复的部分,这时候会选取时长较长的b,并把匹配的a去掉。同理,c和d中,会把c去掉,保留d。这个去重的过程中允许保留多段不同的匹配。当然,在某些应用中,只需要找到一个唯一的匹配,只需在这个去重的过程中保留一个匹配上最长的视频,如图10所示,把a去掉,保存b就可以了。
采用本发明实施例得到的优势为:1)在音频哈希值匹配时充分利用哈希值 在时间上的分布,哈希值在一定时间内的匹配数量,从而达到将音频匹配的准确度提升到99.5%;2)不仅适用于短音频的匹配(从约五秒到几十秒),也适用于长音频(大于1分钟)的音频指纹匹配;3)该匹配算法可以通过参数、模糊搜索条计的调节,控制匹配的精准度,和匹配的复杂度;4)该匹配算法不仅可应用于基于哈希值的音频指纹,也适用基于特征的音频指纹,视频指纹。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立 的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种信息处理方法,其特征在于,所述方法包括:
接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;
对所述匹配信息进行筛选,得到筛选结果;
根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
2.根据权利要求1所述的方法,其特征在于,所述候选参数值的类型包括哈希值,所述第一参数值为第一哈希值;
所述将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息,包括:
将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒体数据及其时间点信息,以组成所述匹配信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述匹配信息进行筛选,得到筛选结果,包括:
将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配信息的第一级筛选过滤,得到所述筛选结果。
4.根据权利要求3所述的方法,其特征在于,所述时间差通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到;
所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间点信息计算得到。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
6.根据权利要求5所述的方法,其特征在于,所述根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息,包括:
对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;
将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
7.一种服务器,其特征在于,所述服务器包括:
接收单元,用于接收第一多媒体指纹信息,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元,用于将所述第一多媒体指纹信息转换成与其对应的第一参数值,所述第一参数值的存储容量小于所述第一多媒体指纹信息的存储容量;
匹配单元,用于将所述第一参数值与选取的已有候选参数值进行匹配,得到匹配信息;
筛选单元,用于对所述匹配信息进行筛选,得到筛选结果;
过滤单元,用于根据参数值的时间密度分布从所述筛选结果中过滤得到目标信息。
8.根据权利要求7所述的服务器,其特征在于,所述候选参数值的类型包括哈希值,所述第一参数值为第一哈希值;
所述匹配单元,进一步用于将所述第一哈希值与已有哈希值进行哈希匹配,找到与所述第一哈希值相匹配的至少一个哈希值,及与所述哈希值对应的多媒体数据及其时间点信息,以组成所述匹配信息。
9.根据权利要求8所述的服务器,其特征在于,所述筛选单元,进一步用于将具有相同多媒体数据和时间差的匹配哈希值进行统计,以用于所述匹配信息的第一级筛选过滤,得到所述筛选结果。
10.根据权利要求9所述的服务器,其特征在于,所述筛选单元,进一步用于通过输入的所述第一多媒体数据对应的哈希时间点与候选多媒体数据库里的哈希时间点的差计算得到所述时间差;所述候选多媒体数据库里的哈希时间点通过所述哈希值对应的多媒体数据及其时间点信息计算得到。
11.根据权利要求9或10所述的服务器,其特征在于,所述服务器还包括:
选取单元,用于对所述筛选结果按照预设条件进行排序选取,选取得到所述筛选结果中前N个匹配到的多媒体数据,并组成潜力匹配的音频段,所述N为大于1的整数。
12.根据权利要求11所述的服务器,其特征在于,所述过滤单元,进一步包括:
统计子单元,用于对于所述潜力匹配的音频段中的每一个匹配的音频段,根据所述参数值的时间密度分布进行统计,得到所述每一个匹配的音频段其哈希值在指定时间上的密度分布;
判断子单元,用于判断所述每一个匹配的音频段其哈希值在指定时间上的密度分布是否大于第一阀值,如果是,则保留当前哈希值密度分布大于第一阀值的音频段,否则,删除当前哈希值密度分布小于等于第一阀值的音频段;将当前哈希值密度分布大于第一阀值的音频段组成所述目标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510293840.6A CN104915403B (zh) | 2015-06-01 | 2015-06-01 | 一种信息处理方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510293840.6A CN104915403B (zh) | 2015-06-01 | 2015-06-01 | 一种信息处理方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915403A true CN104915403A (zh) | 2015-09-16 |
CN104915403B CN104915403B (zh) | 2018-07-27 |
Family
ID=54084466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510293840.6A Active CN104915403B (zh) | 2015-06-01 | 2015-06-01 | 一种信息处理方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915403B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198573A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 音频识别方法及装置、存储介质及电子设备 |
CN108882016A (zh) * | 2018-07-31 | 2018-11-23 | 成都华栖云科技有限公司 | 一种视频基因数据提取的方法及系统 |
CN109376277A (zh) * | 2018-11-23 | 2019-02-22 | 北京京东金融科技控股有限公司 | 确定设备指纹同源性的方法及装置 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
WO2022161291A1 (zh) * | 2021-01-28 | 2022-08-04 | 百果园技术(新加坡)有限公司 | 一种音频搜索方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404032A (zh) * | 2008-11-11 | 2009-04-08 | 清华大学 | 一种基于内容的视频检索方法及系统 |
US20110113037A1 (en) * | 2009-11-10 | 2011-05-12 | Rovi Technologies Corporation | Matching a Fingerprint |
CN102117335A (zh) * | 2011-03-25 | 2011-07-06 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息检索的方法 |
WO2011087756A1 (en) * | 2010-01-13 | 2011-07-21 | Rovi Technologies Corporation | Multi-stage lookup for rolling audio recognition |
CN103021440A (zh) * | 2012-11-22 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种音频流媒体的跟踪方法及系统 |
CN103929644A (zh) * | 2014-04-01 | 2014-07-16 | Tcl集团股份有限公司 | 一种视频指纹库建立、视频指纹识别方法及装置 |
CN104142984A (zh) * | 2014-07-18 | 2014-11-12 | 电子科技大学 | 一种基于粗细粒度的视频指纹检索方法 |
-
2015
- 2015-06-01 CN CN201510293840.6A patent/CN104915403B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404032A (zh) * | 2008-11-11 | 2009-04-08 | 清华大学 | 一种基于内容的视频检索方法及系统 |
US20110113037A1 (en) * | 2009-11-10 | 2011-05-12 | Rovi Technologies Corporation | Matching a Fingerprint |
WO2011087756A1 (en) * | 2010-01-13 | 2011-07-21 | Rovi Technologies Corporation | Multi-stage lookup for rolling audio recognition |
CN102117335A (zh) * | 2011-03-25 | 2011-07-06 | 天脉聚源(北京)传媒科技有限公司 | 一种多媒体信息检索的方法 |
CN103021440A (zh) * | 2012-11-22 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种音频流媒体的跟踪方法及系统 |
CN103929644A (zh) * | 2014-04-01 | 2014-07-16 | Tcl集团股份有限公司 | 一种视频指纹库建立、视频指纹识别方法及装置 |
CN104142984A (zh) * | 2014-07-18 | 2014-11-12 | 电子科技大学 | 一种基于粗细粒度的视频指纹检索方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198573A (zh) * | 2017-12-29 | 2018-06-22 | 北京奇艺世纪科技有限公司 | 音频识别方法及装置、存储介质及电子设备 |
CN108198573B (zh) * | 2017-12-29 | 2021-04-30 | 北京奇艺世纪科技有限公司 | 音频识别方法及装置、存储介质及电子设备 |
CN108882016A (zh) * | 2018-07-31 | 2018-11-23 | 成都华栖云科技有限公司 | 一种视频基因数据提取的方法及系统 |
CN109376277A (zh) * | 2018-11-23 | 2019-02-22 | 北京京东金融科技控股有限公司 | 确定设备指纹同源性的方法及装置 |
CN109871463A (zh) * | 2019-03-06 | 2019-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN109871463B (zh) * | 2019-03-06 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
WO2022161291A1 (zh) * | 2021-01-28 | 2022-08-04 | 百果园技术(新加坡)有限公司 | 一种音频搜索方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104915403B (zh) | 2018-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915403A (zh) | 一种信息处理方法及服务器 | |
US10956484B1 (en) | Method to differentiate and classify fingerprints using fingerprint neighborhood analysis | |
EP2685450B1 (en) | Device and method for recognizing content using audio signals | |
US8886531B2 (en) | Apparatus and method for generating an audio fingerprint and using a two-stage query | |
US8352259B2 (en) | Methods and apparatus for audio recognition | |
US8335786B2 (en) | Multi-media content identification using multi-level content signature correlation and fast similarity search | |
CN102959624B (zh) | 用于音频媒体识别的系统和方法 | |
US8886635B2 (en) | Apparatus and method for recognizing content using audio signal | |
CN101373476B (zh) | 信息处理设备和信息处理方法 | |
KR100862616B1 (ko) | 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법 | |
US20110173185A1 (en) | Multi-stage lookup for rolling audio recognition | |
CN107633078B (zh) | 音频指纹提取方法、音视频检测方法、装置及终端 | |
Poisel et al. | A comprehensive literature review of file carving | |
CN105389590B (zh) | 一种视频聚类推荐方法和装置 | |
CN107204183B (zh) | 一种音频文件检测方法及装置 | |
CN103593371A (zh) | 推荐搜索关键词的方法和装置 | |
WO2016189307A1 (en) | Audio identification method | |
CN104902292A (zh) | 一种基于电视报道的舆情分析方法和系统 | |
WO2016024172A1 (en) | Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine | |
KR20120090101A (ko) | 디지털 비디오 고속 정합 시스템 | |
CN101278350A (zh) | 通过分割的特征比较而自动生成播放列表的方法和设备 | |
CN104866604A (zh) | 一种信息处理方法及服务器 | |
JP5366212B2 (ja) | 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法 | |
AU2020269924A1 (en) | Methods and systems for determining compact semantic representations of digital audio signals | |
JP7014072B2 (ja) | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |