CN104239306A

CN104239306A - 多媒体指纹哈希矢量构建方法及其装置

Info

Publication number: CN104239306A
Application number: CN201310227474.5A
Authority: CN
Inventors: 张德明; 张琦
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-06-08
Filing date: 2013-06-08
Publication date: 2014-12-24

Abstract

本发明涉及多媒体指纹哈希矢量构建方法，包括：步骤1，对当前帧多媒体信号进行时频变换，以获取当前帧多媒体信号的频谱信息；步骤2，在频谱信息中，搜索局部峰值，获取可构成多媒体指纹的待选峰值点集合；步骤3，在待选峰值点集合中选择哈希矢量起点，选取待选哈希矢量终点集合；步骤4，根据当前帧多媒体信号中提取指纹个数的限制，为哈希矢量起点选取哈希矢量终点；步骤5，根据所述哈希矢量终点，为哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；步骤6，重复步骤3至5，直至完成当前帧中全部哈希矢量起点的多媒体指纹提取。通过上述处理过程，可以有效提高在实际应用场景下多媒体信号指纹正确匹配的成功率。

Description

多媒体指纹哈希矢量构建方法及其装置

技术领域

本发明涉及多媒体数据处理领域，具体涉及一种多媒体指纹哈希矢量构建方法及其装置。

背景技术

近年来，计算技术、网络技术的迅猛发展，使人类积累了大量的多媒体数据，通过多媒体数据指纹对多媒体数据进行匹配检索的应用越来越广泛。以音频数据为例，音频数据是多媒体数据的重要类型，它广泛存在于互联网和个人计算机中。

音频指纹技术是一种音频信息检索技术，过对原始音频信号进行时频变换后在频域提取特征信息即音频指纹，将特征信息保留下来构建特征库。当需要进行音频检索时，对待检索音频用同样的方法提取音频指纹，然后到特征库进行匹配，当匹配成功时就能得到待检索音频的具体信息。

如图1所示，音频指纹用一个哈希矢量来表征，在频谱图中找一特定峰值点作为矢量起点，在矢量起点的搜索范围内，例如图中矩形标定的范围，搜索到符合条件的峰值点作为矢量终点，，其中，F1是矢量起点的频率值，ΔF是矢量终点和矢量起点之间的频率差，ΔT是矢量终点和矢量起点的时间差，Indexing=[F1，ΔF，ΔT]，如果用8bit信息表示矢量起点可能的频率值，6bit信息表示搜索范围的时间可能值，6bit信息表示搜索范围的频率可能值，那么就可以用20bit信息表示一个音频指纹。

在实际应用场景中，受到服务器容量大小，搜索时间长短等条件制约，音频指纹数据库大小有一定限制，能存储的音频指纹的数量也受限制，因此在提取音频指纹的时候，需要对搜索范围内符合条件的峰值点进行取舍，构建合适的哈希矢量形成音频指纹。现有技术是按照待选终点与起点之间的时间距离远近进行排序选择，如图2所示的场景中，在数据库中对于起点p最多只能构建三个哈希矢量，按照时间距离由近至远，建立的矢量为[p p1][pp3][p p4]。

但是，当音频信号受到干扰出现失真时，很多在原始信号频谱中出现的峰值点会被噪声谱淹没或者消失。如图3中信号经过干扰失真后，原始信号中的p3，p4峰值点由于能量较小，会被噪声谱淹没，在需要进行音频指纹检索时，构建的哈希矢量为[p p1][p p2]，在数据库匹配时只能找到1个匹配指纹[p p1]。因此在实际应用场景下，如果按照时间距离远近构建哈希矢量会导致提取出的音频指纹匹配成功率急剧降低。

发明内容

本发明的目的是提供一种多媒体指纹哈希矢量构建方法，以解决现有技术中对多媒体信号进行指纹提取和检索时，由于受到噪声干扰，造成指纹匹配度降低的问题。

第一方面，本发明实施例提供了一种多媒体指纹哈希矢量构建方法，所述方法包括：

步骤1，对当前帧多媒体信号进行时频变换，以获取所述的当前帧多媒体信号的频谱信息；

步骤2，在获取的所述当前帧多媒体信号的频谱信息中，搜索局部峰值，以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合；

步骤3，在所述待选峰值点集合中选择哈希矢量起点，并根据所选择的所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合；

步骤4，根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点；

步骤5，根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；

步骤6，重复步骤3至5，直至完成当前帧中的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

基于第一方面，在第一种可能的实施方式中，所述当前帧多媒体信号中提取指纹个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。

基于第一方面的在第一种可能的实施方式中，在第二种可能的实施方式中，在步骤3之后，还包括：

对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

根据所述的每一个哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

基于第一方面的在第一种可能的实施方式中，在第三种可能的实施方式中，所述步骤3之后，还包括：

根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值；

根据当前哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述当前哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

基于第一方面的第一种可能的实施方式，在第四种可能的实施方式中，所述根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点具体包括：

根据当前哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述当前哈希矢量起点在所述待选哈希矢量终点集合中，按照时间顺序选取哈希矢量终点。

第二方面，本发明实施例提供了一种多媒体指纹哈希矢量构建装置，所述装置包括：

时频变换单元，用于对当前帧多媒体信号进行时频变换，以获取所述的当前帧多媒体信号的频谱信息；

搜索单元，用以在获取的所述当前帧多媒体信号的频谱信息中，搜索局部峰值，以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合；

选取单元，用于在所述待选峰值点集合中选择哈希矢量起点，并根据所选择的所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合；

确定单元，用于根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点；

处理单元，用于根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；

控制单元，用于控制所述选取单元、确定单元和所述处理单元，直至完成当前帧的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

基于第二方面，在第一种可能的实施方式中，所述当前帧多媒体信号中提取指纹个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。

基于第二方面的在第一种可能的实施方式中，在第二种可能的实施方式中，所述装置还包括:

加权单元，用于对所述选取单元选取的所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

所述确定单元：根据所述的每一个哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

基于第二方面的在第一种可能的实施方式中，在第三种可能的实施方式中，所述装置还包括：

加权单元，对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

所述确定单元：根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值；

基于第二方面的第一种可能的实施方式，在第四种可能的实施方式中，所述确定单元：

根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数；

本发明实施例提供了一种多媒体指纹哈希矢量构建方法、在对当前需要处理的当前帧多媒体信号进行时频变换后，获取当前帧多媒体信号的频谱信息，然后在频谱信息中，搜索可构成多媒体指纹的待选峰值点集合，之后在待选峰值点集合中选择哈希矢量起点，和待选哈希矢量终点集合，最后根据能量加权在在待选哈希矢量终点集合中选取哈希矢量终点，并为哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；通过上述处理过程，确保频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术构建音频指纹的示意图；

图2为现有技术构建音频指纹的原理图；

图3为本发明实施例提供的多媒体指纹哈希矢量构建方法的流程图；

图4为本发明实施例提供的多媒体指纹哈希矢量构建装置的结构图；

图5为本发明实施例提供的多媒体指纹哈希矢量构建装置的另一种实施例的结构图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

为了解决现有技术中当多媒体信号受到干扰出现失真时，很多在原始信号频谱中出现的峰值点会被噪声谱淹没或者消失，导致的按照时间距离远近构建哈希矢量提取出的音频指纹匹配成功率急剧降低，本发明实施例的核心思想是提出一种基于能量加权的哈希矢量构建方法，提高音频指纹的鲁棒性，从而提高音频检索的成功率。本发明的实施例，不仅可以应用于音频信号，还可以应用在图像、视频信号灯多媒体数据。

如图3所示，在第一方面，本发明实施例提供了一种多媒体指纹哈希矢量构建方法，所述方法包括：

具体的，所述多媒体信号的频谱信息为多个频点的频率、时间以及幅度信息，幅度信息用以表征能量大小。

具体而言，在当前多媒体信号的频谱信息中，按照不同的覆盖区域大小，搜索一个覆盖区域范围内的局部峰值，将这些局部峰值点，作为待选峰值点集合。

步骤3，在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合；

具体而言，在待选峰值点集合中任意选取一个哈希矢量起点，按照与选中的哈希矢量起点的时间差和频率差都在设定范围内的约束，选取一个待选哈希矢量终点集合。

具体而言，在选定哈希矢量起点和待选哈希矢量终点之后，如果系统对每个哈希矢量起点的指纹数有限制，则根据系统对每个哈希矢量起点能够提取的指纹数的限制，选取哈希矢量终点；如果系统没有对一个哈希矢量起点能够提取的指纹数据进行限制，而是对一阵多媒体信号总的指纹提取数有所限制，则要根据每个哈希矢量起点的能量在全部可选的哈希矢量起点的能量和中的占比，再根据能量大小，确定该哈希矢量起点对应的哈希矢量终点数目。

具体而言，在确定了哈希矢量起点和哈希矢量终点之后，按照Indexing=[F1，ΔF，ΔT]建立哈希矢量起点和哈希矢量终点之间的多媒体指纹哈希矢量。

步骤6，重复步骤3至5，直至完成当前帧的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

具体的，在待选峰值点集合中不断更换哈希矢量起点，重复上述的步骤3到步骤5，直到完成当前帧中全部哈希矢量起点的多媒体指纹提取。

通过上述实施例，能够确保多媒体信号的频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

以下以音频信号为例，详细说明本发明的几个实施例。

以音频信号为例，音频指纹可以表示为一个哈希矢量的特征值：[F1ΔFΔT]，其中F1为哈希矢量起点对应的频率，可以用R个bit二进制数表示；ΔF是矢量终点和矢量起点之间的相对频率差，可以用P个bit二进制数表示；ΔT是矢量终点和矢量起点的时间差，可以用Q个bit二进制数表示，在该实施例中，在本实施例中R=8，P=6，Q=6，但根据不同系统的需求，可以根据需求设置，不做赘述。

音频指纹提取受到实际实现系统的限制，对每一帧音频信号能提取的音频指纹个数有限制，可以通过对每一帧音频信号中每个哈希矢量起点能够构成的音频指纹个数进行约束，或者对全部哈希矢量起点构成音频指纹总数进行约束来实现对每一帧音频信号能提取的音频指纹个数的限制。在本实施例中对音频指纹提取个数的限制具体指同一个哈希矢量起点能构成音频指纹的个数不超过V，即对同一个哈希矢量起点，在选择哈希矢量终点是个数不超过V，在本实施例中V=4。

在步骤201中，对当前需要处理的当前帧音频进行时频变换，以获取所述的当前帧音频信号的频谱信息；

在需要建立音频指纹之前，需要将当前待处理的第N帧音频信号进行时频变换得到频谱信息集合为S={[s,i,j]}，其中s为当前频点幅度谱绝对值，i为当前频点对应的相对时间信息，j为当前频点对应的频率信息,s、i、j都受系统限制，具体为，0≤i≤R，0≤j，R、T由系统音频指纹限制条件决定，在本实施例中R=133，T=255。

步骤202，在所述当前帧音频信号的频谱信息中，搜索局部峰值，以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合；

具体而言，以音频信号为例，在对当前帧的音频信号进行时频转换后，在当前帧频谱信息集合S中搜索局部峰值，得到当前帧中所有可构成音频指纹的K个待选峰值点集合M={m_a=[s_a i_a j_a]}（M∈S，1≤a：），其中m_a按照先时间从小到大，后频率从小到大的顺序排序，即若a<b，则i_a<i_b或者当i_a=i_b时，j_a≤j_b。

步骤203，在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合；

具体的，首先在待选峰值点集合M中选取m₀做为哈希矢量起点，在待选峰值点集合M中根据系统音频指纹限制条件确定的搜索范围确定的W个待选矢量终点集合E={e_b=[s_b i_b j_b]}（E∈M，1≤b≤W,且W<K）。在本实施例中系统音频指纹限制条件指0＜i_b-i₀≤64，-31≤j_b-j₀≤32。

在选取待选哈希矢量终点集合E之后，对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合E’对E中的点按照能量大小从大到小排序，得到按照能量加权后的待选矢量终点集合E’={e’_k=[s_k i_k j_k]}，即s₁>s₂>……>s_W。

步骤4，根据当前帧多媒体信号中提取指纹个数的阈值，为所述哈希矢量起点在待选哈希矢量终点集合中选取哈希矢量终点；

在该实施例中，由于系统对每个哈希矢量起点的指纹数有限制，则根据系统对每个哈希矢量起点能够提取的指纹数的限制，选取哈希矢量终点；

按照音频指纹提取个数的限制，按照能量从大到小的顺序，从加权后的待选矢量终点集合E’中选择哈希矢量终点，e₁’、e₂’……e_v’。

步骤5，根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的音频指纹哈希矢量；

具体而言，在确定了哈希矢量起点和哈希矢量终点之后，按照Indexing=[F1，ΔF，ΔT]建立哈希矢量起点和哈希矢量终点之间的音频指纹哈希矢量。

步骤6，重复步骤3至5，直至完成当前帧中全部哈希矢量起点的音频指纹提取。

具体的，在待选峰值点集合中不断更换哈希矢量起点，重复上述的步骤3到步骤5，直到完成当前帧中全部哈希矢量起点的音频指纹提取。

通过上述实施例，在选取待选哈希矢量终点集合之后，对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，之后再加权后的待选哈希矢量终点集合中选取能量加大的点作为哈希矢量终点，能够确保多媒体信号的频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

再次以音频指纹获取为例，在另一种实施例中，

音频指纹提取受到实际实现系统的限制，是对每一帧音频信号中每个哈希矢量起点能够构成的音频指纹个数进行约束。，在本实施例中对音频指纹提取个数的限制具体指当前帧信号总体可提取的音频指纹个数不超过V，在本实施例中V=200。

因此，在获取到所述的当前帧音频信号的频谱信息，选中可构成音频指纹的待选峰值点集合，并且在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合之后，还对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合E’，例如对E中的点按照能量大小从大到小排序，得到按照能量加权后的待选矢量终点集合E’={e’_k=[s_k i_k j_k]}，即s₁>s₂>……>s_W。

与前述的实施例的区别在于，还需要确定每个哈希矢量起点能够提取的指纹数目，具体为：

具体而言，根据当前哈希矢量起点的频点能量特性计算当前哈希矢量起点的可选终点个数V’，其中｜｜表示取整，即起点能量越大，可提取的音频指纹个数越多。

之后，根据当前哈希矢量起点能够提取的音频指纹个数，为所述当前哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

之后的步骤与前述实施例相同，不多赘述。通过该实施例，在选取待选哈希矢量终点集合之后，对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，之后在加权后的待选哈希矢量终点集合中选取能量加大的点作为哈希矢量终点，并且根据每个哈希矢量起点的能量确定该哈希矢量起点对应的音频指纹数，能够确保多媒体信号的频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

再次以音频指纹获取为例，在另一种实施例中，

因此，在获取到所述的当前帧音频信号的频谱信息，选中可构成音频指纹的待选峰值点集合，并且在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合之后，不对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序。

与前述的实施例的相同，还需要确定每个哈希矢量起点能够提取的指纹数目的阈值，具体为：

根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数阈值；

之后，根据当前哈希矢量起点能够提取的音频指纹个数，为所述当前哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照时间顺序选取哈希矢量终点。

之后的步骤与前述实施例相同，不多赘述。通过该实施例，在选取待选哈希矢量终点集合之后，并且根据每个哈希矢量起点的能量确定该哈希矢量起点对应的音频指纹数，能够确保多媒体信号的频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

接着，以图像指纹为例，描述本发明的另外一种实施例。

将图像指纹表示为一个哈希矢量的特征值：[F1ΔFΔT]，其中F1为哈希矢量起点对应的纵轴位置，可以用R个bit二进制数表示；ΔF是矢量终点和矢量起点之间的相对纵轴位置差，可以用P个bit二进制数表示；ΔT是矢量终点和矢量起点的横轴位置差，可以用Q个bit二进制数表示。在本实施例中R=8，P=6，Q=6。

与音频指纹类似，图像指纹提取受到实际实现系统的限制，对每一帧图像信号能提取的图像指纹个数有限制，在本实施例中对图像指纹提取个数的限制具体指同一个哈希矢量起点能构成图像指纹的个数不超过V，即对同一个哈希矢量起点，在选择哈希矢量终点是个数不超过V，在本实施例中V=4，当然，与音频指纹类似，系统也可以以每一帧图像作为整体对图像指纹的个数进行显著。

将当前待处理的第N帧图像信号进行时频变换得到频谱信息集合为S={[s,i,j]}，其中s为当前频点幅度谱绝对值，i为当前频点对应的横轴位置信息，j为当前频点对应的纵轴位置信息。0≤i≤R，0≤j，R、T由系统图像指纹限制条件决定，在本实施例中R=133，T=255。

在当前帧频谱信息S中搜索局部峰值，得到当前帧中所有可构成图像指纹的K个待选峰值点集合M={m_a=[s_a i_a j_a]}（M∈S，1≤a：），其中m_a按照先位置从小到大，后频率从小到大的顺序排序，即若a<b，则i_a<i_b或者当i_a=i_b时，j_a≤j_b。

之后，首先在待选峰值点集合M中选取m₀做为哈希矢量起点，在待选峰值点集合M中根据系统图像指纹限制条件确定的搜索范围确定的W个待选矢量终点集合E={e_b=[s_b i_b j_b]}（E∈M，1≤b≤W,且W<K）。在本实施例中系统图像指纹限制条件指0＜i_b-i₀≤64，-31≤j_b-j₀≤32。

接着，对E中的点按照能量大小从大到小排序，得到按照能量加权后的待选矢量终点集合E’={e’_k=[s_k i_k j_k]}，即s₁>s₂>……>s_W。

之后，按照图像指纹提取个数的限制，按照能量从大到小的顺序选择哈希矢量终点，构成哈希矢量[m₀，e₁’]……[m₀,e_v’],。

最后，重复前面的步骤，直到完成当前帧图像信息的图像指纹提取。

通过该实施例，能够确保图像信息的频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了图像信息指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下图像指纹正确匹配的成功率。

相应的，本发明实施例提供了一种多媒体指纹哈希矢量构建装置，所述装置包括：

时频变换单元401，用于对当前帧多媒体信号进行时频变换，以获取所述的当前帧多媒体信号的频谱信息S；

搜索单元402，用以在获取到的所述当前帧多媒体信号的频谱信息S中，搜索局部峰值，以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合M；

选取单元403，用于在所述待选峰值点集合中选择哈希矢量起点m0，并根据所选择的所述哈希矢量起点m0的时间和频率信息在所述待选峰值点集合M中选取待选哈希矢量终点集合E；

确定单元404，用于根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合E中选取哈希矢量终点；

处理单元405，用于根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；

控制单元406，用于控制所述选取单元、确定单元和所述处理单元，直至完成当前帧的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

第一种可能的实施方式中，所述当前帧多媒体信号中提取指纹个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。

在该种可能的实施方式中，所述装置还包括加权单元，用于对所述选取单元选取的所述待选哈希矢量终点集合E中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

所述确定单元具体用于：根据所述的每一个哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

在另一种该种实施方式中，所述装置还包括加权单元，用于对所述选取单元选取的所述待选哈希矢量终点集合E中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

确定单元具体用于：根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值；

在另外一种实施方式中，所述当前帧多媒体信号中提取指纹个数的限制具体为每一个哈希矢量起点能够提取的多媒体指纹个数。

所述确定单元具体用于：根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值；

根据当前哈希矢量起点能够提取的多媒体指纹个数，为所述当前哈希矢量起点在所述待选哈希矢量终点集合E中，按照时间顺序选取哈希矢量终点。

通过上述实施例，可以确保频谱信息中大能量峰值有较多的多媒体指纹可以被提取，从而解决了多媒体指纹技术在实际应用场景中受噪声、失真等干扰会引起频谱变化，使得原始信号频谱中出现的峰值点被噪声谱淹没或者消失，从而导致按照时间距离远近构建哈希矢量时音频指纹匹配成功率急剧降低的问题，有效的提高了在实际应用场景下音频指纹正确匹配的成功率。

如图5所示，本发明实施例还提供了一种多媒体指纹哈希矢量构建装置，本实施例包括网络接口51、处理器52和存储器53。系统总线54用于连接网络接口51、处理器52和存储器53。

网络接口51用于与服务器通信。

存储器53可以是永久存储器，例如硬盘驱动器和闪存，存储器53中具有软件模块和设备驱动程序。软件模块能够执行本发明上述方法的各种功能模块；设备驱动程序可以是网络和接口驱动程序。

在启动时，这些软件组件被加载到存储器53中，然后被处理器52访问并执行如下指令：

对当前帧多媒体信号进行时频变换，以获取所述的当前帧多媒体信号的频谱信息；

在获取的所述当前帧多媒体信号的频谱信息中，搜索局部峰值，以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合；

在所述待选峰值点集合中选择哈希矢量起点，并根据所选择的所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合；

根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点；

根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量；

重复执行在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合至根据所述的哈希矢量终点，为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量，直至完成当前帧的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

在一种实施方式中，所述当前帧多媒体信号中提取指纹个数的限制具体为每一个哈希矢量起点能够提取的多媒体指纹个数。

处理器52在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合之后，还对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

处理器52根据所述的每一个哈希矢量起点能够提取的多媒体指纹个数的阈值，为所述哈希矢量起点在所述能量加权后的待选矢量终点集合中，按照能量大小顺序选取哈希矢量终点。

在另一种可能的实施方式中，所述当前帧多媒体信号中提取指纹个数的限制具体为每一个哈希矢量起点能够提取的多媒体指纹个数。

处理器52在所述待选峰值点集合中选择哈希矢量起点，并根据所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合之后，还对所述待选哈希矢量终点集合E中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

处理器52根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频点能量之和中的占比，获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值；

在另外的一种实施方式中，所述当前帧多媒体信号中提取指纹个数的限制具体为每一个哈希矢量起点能够提取的多媒体指纹个数。但是，处理器52不对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体指纹哈希矢量构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述当前帧多媒体信号中提取指纹个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。

3.如权利要求2所述的方法，其特征在于，在步骤3之后，还包括：

4.如权利要求2所述的方法，其特征在于，所述步骤3之后，还包括：

5.如权利要求2所述的方法，其特征在于，所述根据当前帧多媒体信号中提取指纹个数的限制，为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点具体包括：

6.一种多媒体指纹哈希矢量构建装置，其特征在于，所述装置包括：

选取单元，用于在所述待选峰值点集合中选择哈希矢量起点，并根据所选择的所述哈希矢量起点的时间和频率信息在所述待选峰值点集合M中选取待选哈希矢量终点集合E；

7.如权利要求6所述的装置，其特征在于，所述当前帧多媒体信号中提取指纹个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。

8.如权利要求7所述的装置，其特征在于，还包括：

加权单元，用于对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序，以获取能量加权后的待选矢量终点集合；

9.如权利要求7所述的装置，其特征在于，还包括：

10.如权利要求7所述的装置，其特征在于，所确定单元：