CN104866604B - 一种信息处理方法及服务器 - Google Patents

一种信息处理方法及服务器 Download PDF

Info

Publication number
CN104866604B
CN104866604B CN201510294205.XA CN201510294205A CN104866604B CN 104866604 B CN104866604 B CN 104866604B CN 201510294205 A CN201510294205 A CN 201510294205A CN 104866604 B CN104866604 B CN 104866604B
Authority
CN
China
Prior art keywords
frequency
time
point
domain
pending data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510294205.XA
Other languages
English (en)
Other versions
CN104866604A (zh
Inventor
徐叙远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201510294205.XA priority Critical patent/CN104866604B/zh
Publication of CN104866604A publication Critical patent/CN104866604A/zh
Application granted granted Critical
Publication of CN104866604B publication Critical patent/CN104866604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种信息处理方法及服务器,其中,所述方法包括:接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量。

Description

一种信息处理方法及服务器
技术领域
本发明涉及通讯技术,尤其涉及一种信息处理方法及客户端。
背景技术
本申请发明人在实现本申请实施例技术方案的过程中,至少发现相关技术中存在如下技术问题:
多媒体信息的共享和播放成为用户生活中的必备服务,为了更快捷的识别出某个多媒体信息,产生了指纹识别技术。以多媒体信息为音频信息为例,音频压缩技术的进步以及大容量存储器的出现使得互联网上出现了以音乐为主的海量音频信息,手工选取某首歌曲很多时候已经变得不可能,这直接促使产生了可以进行音乐自动识别的数字音频指纹技术。
就针对多媒体信息的指纹识别技术而言,仍以多媒体信息为音频信息为例,音频指纹是一种可以代表一段音乐重要声学特征的基于内容的紧致数字签名,音频指纹用于建立一种有效机制来比较两个音频数据的感知听觉质量,这里需要指出的是,并不是直接比较通常很大的两个或多个音频数据本身,而是比较其相应通常较小的数字指纹,即:经由两个或多个音频数据本身得到的两个或多个音频指纹。
采用现有技术来识别进而选取一首歌曲或一段视频,通过上述指纹识别技术,是需要生成音频指纹或视频指纹信息,然后与数据库中已有的音频指纹或视频指纹信息样本进行比对从而进行识别。然而,为了提高识别率,需要在数据库中保存越来越多的音频指纹或视频指纹信息样本,这些信息会大量占用数据库的存储空间,也影响待识别的多媒体信息与已有多媒体信息样本之间匹配的速度和识别成功率。相关技术中,对于该问题,尚无有效解决方案。
发明内容
有鉴于此,本发明实施例希望提供一种信息处理方法及客户端,至少解决了现有技术存在的问题,从而节约了存储空间,提高匹配速度和识别成功率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;
所述第一参数值的存储容量小于所述待处理数据的存储容量。
较佳地,所述将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,包括:
将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
根据所述第一结果经频域的方式转换得到所述第一参数值。
较佳地,所述将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数,包括:
通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
较佳地,所述根据所述第一结果经频域的方式转换得到所述第一参数值,包括:
将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;
获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点;
对所述明显特征点进行哈希转换得到所述第一哈希值;
所述第一哈希值由所述主导的频率分布点组成。
较佳地,所述在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:
选取整个所述时频窗口中频率值最大的候选特征点作为所述主导的频率分布点。
较佳地,所述在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:
选取整个所述时频窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
本发明实施例又提供了一种服务器,所述服务器包括:
接收单元,用于接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元,用于将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量。
较佳地,所述转换单元,进一步包括:
第一转换子单元,用于将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
第二转换子单元,用于根据所述第一结果经频域的方式转换得到所述第一参数值。
较佳地,所述第一转换子单元,进一步用于通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
较佳地,所述第二转换子单元,进一步用于:
将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;
获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点;
对所述明显特征点进行哈希转换得到所述第一哈希值;
所述第一哈希值由所述主导的频率分布点组成。
较佳地,所述第二转换子单元,进一步用于选取整个所述时频窗口中频率值最大的候选特征点作为所述主导的频率分布点。
较佳地,所述第二转换子单元,进一步用于选取整个所述时频窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
本发明实施例的信息处理方法包括:接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量。
采用本发明实施例,将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量,节约了存储空间,从而提高了匹配速度和识别成功率。
附图说明
图1为本发明方法实施例一的一个实现流程示意图;
图2为本发明客户端实施例一的一个组成结构示意图;
图3为本发明服务器实施例一的一个组成结构示意图;
图4为应用本发明实施例的服务器的硬件示例结构图;
图5a-5d为现有实例的示意图;
图6a-6d为为应用本发明实施例的一个实例的示意图。
图7、图8a-8b为应用本发明实施例的另一个实例的示意图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
方法实施例一:
本发明实施例的一种信息处理方法,如图1所示,所述方法包括:
步骤101、接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
步骤102、将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;
步骤103、所述第一参数值的存储容量小于所述待处理数据的存储容量。
采用本发明实施例,将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量,节约了存储空间,从而提高了匹配速度和识别成功率。
方法实施例二:
本发明实施例的一种信息处理方法,如图2所示,所述方法包括:
步骤201、接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
步骤202、将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
步骤203、根据所述第一结果经频域的方式转换得到所述第一参数值;
步骤204、所述第一参数值的存储容量小于所述待处理数据的存储容量。
在本发明实施例一实施方式中,所述将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数,包括:通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
在本发明实施例一实施方式中,所述根据所述第一结果经频域的方式转换得到所述第一参数值,包括:将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点;对所述明显特征点进行哈希转换得到所述第一哈希值;所述第一哈希值由所述主导的频率分布点组成。
在本发明实施例一实施方式中,所述在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:选取整个所述时频窗口中频率值最大的候选特征点作为所述主导的频率分布点。
在本发明实施例一实施方式中,所述在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:选取整个所述时频窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
服务器实施例一:
本发明实施例的一种服务器,如图3所示,所述服务器包括:
接收单元11,用于接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元12,用于将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量。
在本发明实施例一实施方式中,所述转换单元,进一步包括:
第一转换子单元,用于将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
第二转换子单元,用于根据所述第一结果经频域的方式转换得到所述第一参数值。
在本发明实施例一实施方式中,所述第一转换子单元,进一步用于通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
在本发明实施例一实施方式中,所述第二转换子单元,进一步用于:将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时频窗口中选择主导的频率分布点作为特征明显的明显特征点;对所述明显特征点进行哈希转换得到所述第一哈希值;所述第一哈希值由所述主导的频率分布点组成。
在本发明实施例一实施方式中,所述第二转换子单元,进一步用于选取整个所述时频窗口中频率值最大的候选特征点作为所述主导的频率分布点。
在本发明实施例一实施方式中,所述第二转换子单元,进一步用于选取整个所述时频窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
这里需要指出的是,所述服务器可以是通过集群系统构成的,为实现各单元功能而合并为一或各单元功能分体设置的电子设备,服务器都至少包括用于存储数据的数据库和用于数据处理的处理器,或者包括设置于服务器内的存储介质或独立设置的存储介质。
其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital SingnalProcessor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例信息处理方法流程中的各个步骤。
该服务器作为硬件实体S11的一个示例如图4所示。所述装置包括处理器31、存储介质32以及至少一个外部通信接口33;所述处理器31、存储介质32以及外部通信接口33均通过总线34连接。
这里需要指出的是:以上涉及服务器项的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明服务器实施例中未披露的技术细节,请参照本发明方法实施例的描述。
以一个现实应用场景为例对本发明实施例阐述如下:
本应用场景为:识别进而选取一首歌曲或一段视频的情况,可以通过指纹识别技术来实现,即:在客户端生成音频指纹或视频指纹信息,然后将其与服务器的数据库中已有的音频指纹或视频指纹信息样本进行比对,从而进行识别。
服务器的数据库中已有的音频指纹或视频指纹信息样本有非常多,以其中的音频指纹样本为例进行如下描述,视频指纹信息样本是类似的,不作赘述。
大量音频数据对应的音频指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中,并采用音频指纹作为相应元数据的索引,这种情况是音频指纹和其相应的元数据分别独立存在数据库的一条记录中,且音频指纹作为该记录的索引值;也可以是:音频指纹中就包含了作为数据头的音频数据及作为其数据具体内容的所述元数据。
一个音频指纹系统通常包括两个部分:1)计算听觉重要特征的指纹提取算法;2)在指纹数据库中进行有效搜索的比对算法。
具体来说,当要识别一段未知音频时,首先按照指纹提取算法计算其音频特征,得到音频指纹,然后与数据库中存储的已有大量音频指纹信息样本相比对,从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若经过比对能识别到与所述音频指纹对应的原始指纹,则可提取出相应的元数据信息(如歌曲名称、词曲作者、歌词等内容)返回给用户。使用基于音频数据生成的音频指纹而不是音频数据本身进行检索具有三方面好处:1)因为音频指纹的数据量相对比较小,可以大大减少对硬盘及内存的存储要求;2)音频指纹来源于音频数据听觉最重要的部分,因此在经受信号失真时仍能进行有效比对;3)音频指纹的数据库与媒体数据库相比尺寸减小很多,从而可以进行更高效的搜索。
在音频指纹的应用中,即便采用音频指纹而不是音频数据本身,虽然能占用相对少的数据库存储空间,但是对于信息爆炸的社会,这远远不够,仍然会严重影响到匹配的速度和效能。
为了达到快速、精准的匹配,还可以进一步把音频指纹的特征转变成相应的哈希值,以便进行快速的搜索和便捷的存储,这样与采用音频指纹的情况来对比,同样大小的数据库,采用哈希值会占用更少的数据库存储空间,从而减少了匹配的时间。在音频指纹的哈希匹配中,可以采用匹配数量和时间的矫正,也可以基于匹配的每一段的匹配数量的考虑,对音频指纹采用在时间匹配上哈希的分布密度来进一步调整,选取出精选潜力匹配音频段,并在选取出的精选潜力匹配音频段里进行去重挑选,从而在海量的视频中判断出匹配到的相似视频。
在音频指纹的提取过程中,把原音频数据通过采用率的变换,转换成采样率为K样本/秒(K取8000)。一种方式是:通过加窗傅立叶变换把采集到的一维时域表示的音频信号转换成二维时频图,如图5a所示,然后在二维时频图上提取具有特征明显的特征点作为明显的特征,如图5b所示,如密度分布比较集中的点可以作为明显的特征点。对于选取的这些每一个明显特征,如特征点A在图5c中,在时频上选择合适的窗口,进行特征哈希值的转换。在哈希值的选取过程中,选择距离点A相近的点(如C)作为哈希值的组成。哈希值的组成为点A对应的加窗傅立叶变换的频率F1,如图5d所示,点C对应的加窗傅立叶变换的频率F2,和点A和点B之间的时间差Δt。哈希值的组成为(F1,F2,Δt)。
采用上述这种方式,在哈希的组成时,采取的是选择邻近点的策略。然而,由于所选择的邻近点也许未能代表明显的特征,因此,所组成的基于哈希值的特征值未能充分地代表音频指纹的明显特征。而这些特征可能在转码,传输,或嗓音的时候丢失。从而变成冗余的音频指纹,也会进一步降低音频指纹的准确性。为达到相应的效果,通常设定选择大量的哈希值来避免匹配时准确性的损失。然而大量的哈希值对于音频指纹的存储或匹配复杂度的影响甚大。
针对上述的分析结果,针对上述方式采用选择邻近点的策略存在的匹配的速度和识别成功率低的问题,本应用场景采用本发明实施例,是一种基于音视频指纹的哈希值选取方案,进行特征哈希值的转换,先提取某段视频中的音频数据的特征参数,根据特征参数得到音频指纹,再将音频指纹转换成相应的哈希值,采取明显特征的选取方式,在特征提取后,可以有效地保留明显的特征,增加音频指纹在匹配时的准确度。此外,明显特征的选取方式,可以增加抗嗓能力,达到得到相同的准确度,所需的特征量大大地减少,从而可以减少特征存储的空间和特征匹配的时间,匹配的速度和识别成功率都大大提高。
应用实例一:
图6a-图6d为本应用场景采用本发明实施例的一个应用实例对应的相关示意图,本应用实例包括以下内容:
一、在音频指纹的提取过程中,把原音频数据通过采用率的变换,转换成采样率为K样本/秒(K取8000)。加窗傅立叶变换把采集到的一维时域表示的音频信号转换成二维时频图。
二、再将二维时频图转换成功率谱图,如图6a所示,在每个时间点,只选取功率谱具有最大值的前N个高峰点作为候选的特征点,得到图6b。此过程可以让特征点只保留相应在这个时间的主导频率,以得到明显特征。
三、对于保留下来的每一个明显特征,如点A在图6c中,在时频上选择合适的窗口,进行哈希值的转换。该发明的选择方式为:选取该窗口中具有功率谱最大的点,换句话说,就是在时频窗口中选择主导的频谱分布点作为哈希值的组成。该过程可以避免选取的点非主导频率,非主导频率容易在有损压缩,传输等过程中受嗓音的影响。
四、哈希值的组成为点A对应的加窗傅立叶变换的频率F1,如图6d所示,点B对应的加窗傅立叶变换的频率F2,和点A和点B之间的时间差Δt。哈希值的组成为(F1,F2,Δt)。
采用本发明实施例,能有效地提高音频指纹在海量的指纹库里匹配的准确率,在保持准确度不变的情况下,可以将音频指纹的哈希减少到原来的50%。该哈希的选取考虑了明显特征点的选择,筛选了特征较为不明显的点,从而提高了音频指纹的抗嗓能力,和在海量音频里的匹配准确率。
应用实例二:
图7、图8a-图8b为本应用场景采用本发明实施例的一个应用实例对应的相关示意图,本应用实例包括以下内容:
一、如图7所示,在选定A为局部最大值(时频谱图中在时间t1的主导频率)。在针对上述方式采用选择邻近点的策略的选择方式中,会在选择区域中选取C作为哈希值的匹配对。
二、时间t3点的频谱图如图8a所示,若在选择区域中选取C作为哈希值的匹配对,则f3是在t3时间上的主导频率,但是,它和相邻的频率比较接近,如果在时间t3这个点上,频率上有损失的话,那么t3点这个最大值就有可能很大程度上地改变,造成哈希值的无效性。图8a为振幅谱线(magnitude spectrum)。
三、不采用针对上述方式采用选择邻近点的策略的选择方式,而是采用上述明显特征的选取方式,则会在选择区域里选取最主导的频率作为特征点,比如选取的点为B点。如图8b所示,在时间t2上,可以很清楚地看到B作为整个区域中主导的频率。在发生损失的时候,保持损失后仍为主导频率的概率会大大提升。因为所选取的B是一个区域中的主导频率,它是这个区域中值最大的(在一定的时间里),发生频率对其的损失的影响也较小。图8b也为振幅谱线(magnitude spectrum)。
需要指出的是,在实际的操作中,为了避免所选取的区域会有可能损失后不是主导频率,所以在选择区域中,通常选取N个最大主导频率。防止一个损失,对整个准确性的影响。基于这样的操作,可以有效增强音频指纹的对抗嗓音鲁棒性。
采用本发明实施例得到的优势为:1)在音频哈希值选取时,考虑了时谱上主导的频率对音频指纹匹配的影响,从而提高了音频指纹的抗嗓能力;2)基于哈希值明显特征的选取,达到相同的音频指纹匹配效果,需要的音频指纹哈希量为原来的约50%。该发明大大减少了音频指纹的哈希量,降低了音频指纹存储的压力,也降低了音频指纹匹配时的复杂度,加快了音频指纹在海量音频中的搜索,匹配时间。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种信息处理方法,其特征在于,所述方法包括:
接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;
所述第一参数值的存储容量小于所述待处理数据的存储容量;
其中,将所述待处理数据以结合时域和频域的方式进行分析,得到二维时频图,在所述二维时频图的每个时间点,选取功率最大值的前N个高峰点作为候选的特征点,针对候选的特征点在所述二维时频图的时频上选择时域窗口,进行哈希值的转换,得到主导的频谱分布点组成的第一哈希值;
所述第一哈希值为所述第一参数值。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,包括:
将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
根据所述第一结果经频域的方式转换得到所述第一参数值。
3.根据权利要求2所述的方法,其特征在于,所述将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数,包括:
通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一结果经频域的方式转换得到所述第一参数值,包括:
将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;
获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时域窗口中选择主导的频率分布点作为特征明显的明显特征点;
对所述明显特征点进行哈希转换得到所述第一哈希值;
所述第一哈希值由所述主导的频率分布点组成。
5.根据权利要求4所述的方法,其特征在于,所述在所述时域窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:
选取整个所述时域窗口中频率值最大的候选特征点作为所述主导的频率分布点。
6.根据权利要求4所述的方法,其特征在于,所述在所述时域窗口中选择主导的频率分布点作为特征明显的明显特征点,包括:
选取整个所述时域窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
7.一种服务器,其特征在于,所述服务器包括:
接收单元,用于接收由第一多媒体数据或第一多媒体指纹信息构成的待处理数据,所述第一多媒体指纹信息根据第一多媒体数据生成,用于表征所述第一多媒体数据的声学特征;
转换单元,用于将所述待处理数据以结合时域和频域的方式进行分析,以转换成与其对应的第一参数值,以基于所述第一参数值进行参数值匹配成功后识别出与所述待处理数据对应的目标数据;所述第一参数值的存储容量小于所述待处理数据的存储容量;
其中,所述转换单元,具体用于将所述待处理数据以结合时域和频域的方式进行分析,得到二维时频图,在所述二维时频图的每个时间点,选取功率最大值的前N个高峰点作为候选的特征点,针对候选的特征点在所述二维时频图的时频上选择时域窗口,进行哈希值的转换,得到主导的频谱分布点组成的第一哈希值;所述第一哈希值为所述第一参数值。
8.根据权利要求7所述的服务器,其特征在于,所述转换单元,进一步包括:
第一转换子单元,用于将所述待处理数据通过采用率的变换,转换得到采样率为K个数据样本/秒的第一结果,所述K为大于1的整数;所述第一结果以时域的方式表示;
第二转换子单元,用于根据所述第一结果经频域的方式转换得到所述第一参数值。
9.根据权利要求8所述的服务器,其特征在于,所述第一转换子单元,进一步用于通过加窗傅立叶变换,把采集到的由一维时域表示的所述待处理数据转换为由待处理数据构成的二维时频图。
10.根据权利要求9所述的服务器,其特征在于,所述第二转换子单元,进一步用于:
将由待处理数据构成的所述二维时频图转换为对应的功率谱图,所述功率谱图用于表征待处理数据中每个时间点对应的特征点所在的频率值;
获取指定特征点A,按照预设条件在时域上选取与所述A对应的候选特征点所在的时域窗口,在所述时域窗口中选择主导的频率分布点作为特征明显的明显特征点;
对所述明显特征点进行哈希转换得到所述第一哈希值;
所述第一哈希值由所述主导的频率分布点组成。
11.根据权利要求10所述的服务器,其特征在于,所述第二转换子单元,进一步用于选取整个所述时域窗口中频率值最大的候选特征点作为所述主导的频率分布点。
12.根据权利要求10所述的服务器,其特征在于,所述第二转换子单元,进一步用于选取整个所述时域窗口中在所述每个时间点具有最大频率值的前M个高峰点对应的候选特征点作为所述主导的频率分布点,所述M为整数。
CN201510294205.XA 2015-06-01 2015-06-01 一种信息处理方法及服务器 Active CN104866604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510294205.XA CN104866604B (zh) 2015-06-01 2015-06-01 一种信息处理方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510294205.XA CN104866604B (zh) 2015-06-01 2015-06-01 一种信息处理方法及服务器

Publications (2)

Publication Number Publication Date
CN104866604A CN104866604A (zh) 2015-08-26
CN104866604B true CN104866604B (zh) 2018-10-30

Family

ID=53912430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510294205.XA Active CN104866604B (zh) 2015-06-01 2015-06-01 一种信息处理方法及服务器

Country Status (1)

Country Link
CN (1) CN104866604B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108053831A (zh) * 2017-12-05 2018-05-18 广州酷狗计算机科技有限公司 音乐生成、播放、识别方法、装置及存储介质
CN108510999B (zh) * 2018-02-09 2020-07-14 杭州默安科技有限公司 基于音频指纹的零权限终端设备识别方法
CN108428457B (zh) * 2018-02-12 2021-03-23 北京百度网讯科技有限公司 音频去重方法及装置
CN113129855A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 音频指纹提取和建库方法、及音频识别和检索方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析系统
US8352259B2 (en) * 2004-12-30 2013-01-08 Rovi Technologies Corporation Methods and apparatus for audio recognition
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统
CN103853836A (zh) * 2014-03-14 2014-06-11 广州酷狗计算机科技有限公司 一种基于音乐指纹特征的音乐检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352259B2 (en) * 2004-12-30 2013-01-08 Rovi Technologies Corporation Methods and apparatus for audio recognition
CN101021854A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的音频分析系统
CN103440313A (zh) * 2013-08-27 2013-12-11 复旦大学 基于音频指纹特征的音乐检索系统
CN103853836A (zh) * 2014-03-14 2014-06-11 广州酷狗计算机科技有限公司 一种基于音乐指纹特征的音乐检索方法及系统

Also Published As

Publication number Publication date
CN104866604A (zh) 2015-08-26

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
CN103971689B (zh) 一种音频识别方法及装置
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
EP2580750B1 (en) System and method for audio media recognition
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
EP2659482B1 (en) Ranking representative segments in media data
US8977067B1 (en) Audio identification using wavelet-based signatures
CN104866604B (zh) 一种信息处理方法及服务器
US20140310006A1 (en) Method to generate audio fingerprints
WO2005101243A1 (en) Method and apparatus for identifying audio such as music
WO2016189307A1 (en) Audio identification method
CN102063904A (zh) 一种音频文件的旋律提取方法及旋律识别系统
CN104915403B (zh) 一种信息处理方法及服务器
CN103294696B (zh) 音视频内容检索方法及系统
EP3477505B1 (en) Fingerprint clustering for content-based audio recogntion
CN107871492B (zh) 音乐合成方法和系统
Setragno et al. Feature-based characterization of violin timbre
Yaslan et al. Audio music genre classification using different classifiers and feature selection methods
CN103180847B (zh) 音乐查询方法和装置
Hellmuth et al. Advanced audio identification using MPEG-7 content description
CN112732972B (zh) 一种音频指纹生成系统及方法
JP2006195384A (ja) 楽曲調性算出装置および選曲装置
Miller et al. Improving balance in automatic chord recognition with random forests
US12125472B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
CN113470693B (zh) 假唱检测方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant