CN109829066A - 基于分层结构的局部敏感哈希图像索引方法 - Google Patents

基于分层结构的局部敏感哈希图像索引方法 Download PDF

Info

Publication number
CN109829066A
CN109829066A CN201910033703.7A CN201910033703A CN109829066A CN 109829066 A CN109829066 A CN 109829066A CN 201910033703 A CN201910033703 A CN 201910033703A CN 109829066 A CN109829066 A CN 109829066A
Authority
CN
China
Prior art keywords
hash
image
locality
sensitive hash
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910033703.7A
Other languages
English (en)
Other versions
CN109829066B (zh
Inventor
吴家皋
黄超
侯泽磊
成新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910033703.7A priority Critical patent/CN109829066B/zh
Publication of CN109829066A publication Critical patent/CN109829066A/zh
Application granted granted Critical
Publication of CN109829066B publication Critical patent/CN109829066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种基于分层结构的局部敏感哈希图像索引方法,包括如下步骤:S1、定义局部敏感哈希函数族H;S2、从H中取出k个函数,定义k维局部敏感哈希函数族G;S3、利用G将图像特征数据集映射为k维向量集;S4、采用求和取余哈希法建立L张哈希表;S5、判断是否已进行过第二次局部敏感哈希处理,若否则重新设置kL,并返回S2,若是则结束流程。本发明通过引入了分层结构思想的方式对LSH算法进行了优化,即对经过一次LSH处理后得到的特征向量数据再处理一次,从而使得数据可以均匀的分布到各哈希桶中,从而缩小了查询的候选向量集,显著地提升了检索速度。

Description

基于分层结构的局部敏感哈希图像索引方法
技术领域
本发明涉及一种图像索引方法,具体而言,涉及一种基于分层结构的局部敏感哈希图像索引方法,属于图像处理技术领域。
背景技术
随着云计算、大数据技术的发展,互联网上的图像、视频等多媒体数据的处理量急剧增长。与传统数据相比,图像、视频等多媒体数据具有高维度、非结构化的特性,这也就对相似性数据检索和语义分析等算法的研究提出了新的挑战。基于图像特征的局部敏感哈希(Locality Sensitive Hash,LSH)算法在处理高维数据时表现出了良好的性能,也正基于此,使其成为了近年来的研究热点。
LSH算法由Indyk和Motwani于1998年提出,其基本思想是对数据点集利用一组哈希函数,使得经过哈希映射后相似的点冲突的概率增大,而不相似的点冲突的概率减小。目前,领域内已提出多个与局部敏感哈希相关的哈希索引方法,例如:p稳定局部敏感哈希将空间距离计算由汉明空间转移到欧式空间;基于熵的局部敏感哈希在查询项的周围随机产生扰动对象作为查询项集合;多探针局部敏感哈希根据候选查询结果与查询对象的相邻关系提出了有效的索引方案。
由于局部敏感哈希函数的随机性,单个局部敏感哈希函数往往不能满足相似性检索的要求。为了提高算法的精确率,使用k个局部敏感哈希函数组成k维局部敏感哈希函数族;为了提高算法的召回率,使用L个k维局部敏感哈希函数来创建L张哈希表;这样的操作方式也逐渐成为了业内在使用局部敏感哈希处理时的常见步骤。但在实际应用过程中操作人员发现,尽管在局部敏感哈希处理中引入了参数L、k,但还是存在部分特征向量数据在哈希划分时出现错误的情况。
综上所述,如何在现有技术的基础上,提出一种新的局部敏感哈希算法,从而克服现有技术中存在的问题、提高算法使用过程中的检索效率,也就成为了目前业内研究人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于分层结构的局部敏感哈希图像索引方法,包括如下步骤:
S1、定义局部敏感哈希函数族H;
S2、从H中取出k个函数,定义k维局部敏感哈希函数族G;
S3、利用G将图像特征数据集映射为k维向量集;
S4、采用求和取余哈希法建立L张哈希表;
S5、判断是否已进行过第二次局部敏感哈希处理,若否则重新设置k和L,并返回S2,若是则结束流程。
优选地,S1具体包括如下步骤:
设任一图像都能表示为d维特征向量空间Rd中的一个点,则所有图像构成d维特征向量数据集D,定义局部敏感哈希函数族H={h|D→U}为从数据集D到整数域U的映射,
其中,v∈D是任一图像的特征向量,a是d维正态分布随机向量,b为[0,w]上均匀分布的随机实数,w为表示映射区间大小的整数。
优选地,S2具体包括如下步骤:
从H中随机取k=k1个函数,定义k1维局部敏感哈希函数族为从数据集D到k1维整数域U的映射,
其中,
优选地,S3具体包括如下步骤:对所有的v∈D,利用g(v),建立k1维向量集。
优选地,S4具体包括如下步骤:
采用求和取余哈希法对于k1维向量集中的每一条向量进行处理,
其中,T(v)∈[0,M-1],表示图像向量v的哈希桶编号,M为哈希桶总数;
随后以哈希桶编号为标识对图像数据进行分桶,建立哈希表。
优选地,S5具体包括如下步骤:
S51、从G中随机取L=L1个哈希函数,重复步骤S2、S3、S4建立L1张哈希表,完成第一次局部敏感哈希索引的建立;
S52、对于每张哈希表的每个桶中的所有数据向量,重复步骤S3、S4、S51进行第二次局部敏感哈希处理,取k=k2,L=L2,完成分层结构的局部敏感哈希索引的建立。
优选地,所述L1与L2的取值范围为[1,100],且L1≥L2
优选地,所述k1与k2的取值范围为[1,20],且k1≥k2
本发明的优点主要体现在以下几个方面:
本发明通过引入了分层结构思想的方式对局部敏感哈希算法进行了优化,即对经过一次局部敏感哈希处理后得到的特征向量数据再处理一次,从而使得数据可以均匀的分布到各哈希桶中,从而缩小了查询的候选向量集,显著地提升了检索速度。同时,本发明的方法也有效地降低了局部敏感哈希处理过程产生的误差,提高了局部敏感哈希索引的精确率和召回率。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他与局部敏感哈希处理有关的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的流程示意图;
图2为经过本发明建立后的分层结构局部敏感哈希图像索引示意图。
具体实施方式
以下结合附图对本发明的技术方案进行进一步地说明。
如图1~图2所示,本发明揭示了一种基于分层结构的局部敏感哈希图像索引方法,该方法通过设计较好的局部敏感哈希分层结构,可以减少图像查询时间,同时也可以提高召回率和精确率。具体过程包括以下步骤:
S1、定义局部敏感哈希函数族H。
S2、从H中取出k个函数,定义k维局部敏感哈希函数族G。
S3、利用G将图像特征数据集映射为k维向量集。
S4、采用求和取余哈希法建立L张哈希表。
S5、判断是否已进行过第二次局部敏感哈希处理,若否则重新设置k和L,并返回S2,若是则结束流程。
S1具体包括如下步骤:
设任一图像都能表示为d维特征向量空间Rd中的一个点,则所有图像构成d维特征向量数据集D,定义局部敏感哈希函数族H={h|D→U}为从数据集D到整数域U的映射,
其中,v∈D是任一图像的特征向量,a是d维正态分布随机向量,b为[0,w]上均匀分布的随机实数,w为表示映射区间大小的整数。
S2具体包括如下步骤:
从H中随机取k=k1个函数,定义k1维局部敏感哈希函数族为从数据集D到k1维整数域U的映射,
其中,
S3具体包括如下步骤:对所有的v∈D,利用g(v),建立k1维向量集。
S4具体包括如下步骤:
采用求和取余哈希法对于k1维向量集中的每一条向量进行处理,
其中,T(v)∈[0,M-1],表示图像向量v的哈希桶编号,M为哈希桶总数。
随后以哈希桶编号为标识对图像数据进行分桶,建立哈希表。
S5具体包括如下步骤:
S51、从G中随机取L=L1个哈希函数,重复步骤S2、S3、S4建立L1张哈希表,完成第一次局部敏感哈希索引的建立。
S52、对于每张哈希表的每个桶中的所有数据向量,重复步骤S3、S4、S51进行第二次局部敏感哈希处理,取k=k2,L=L2,完成分层结构的局部敏感哈希索引的建立。
需要说明的是,所述L1与L2的取值范围为[1,100],且L1与L2的取值越大效果越好,一般取L1≥L2。所述k1与k2的取值范围为[1,20],同样的,k1与k2的取值越大效果越好,一般取k1≥k2
经过测试,在本发明的实际应用过程中,当L1、L2大于等于20,且k1、k2大于等于10时,局部敏感哈希索引的精确率大于0.9,召回率大于0.9。
如上所述,本发明为了克服部分特征向量数据在哈希划分时出现错误的为题,引入了分构思想对局部敏感哈希算法进行优化,即对经过一次局部敏感哈希处理后得到的特征向量数据再处理一次,具体方法为将每个哈希桶中的向量作为数据集,再次进行局部敏感哈希处理,对桶中的数据集再次划分,从而使得数据可以均匀的分布到各哈希桶中,从而缩小了查询的候选向量集,减层结少了图像查询时间,显著地提升了检索速度。
同时,本发明的方法也有效地降低了局部敏感哈希处理过程产生的误差,提高了局部敏感哈希索引的精确率和召回率。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他与局部敏感哈希处理有关的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种基于分层结构的局部敏感哈希图像索引方法,其特征在于,包括如下步骤:
S1、定义局部敏感哈希函数族H;
S2、从H中取出k个函数,定义k维局部敏感哈希函数族G;
S3、利用G将图像特征数据集映射为k维向量集;
S4、采用求和取余哈希法建立L张哈希表;
S5、判断是否已进行过第二次局部敏感哈希处理,若否则重新设置k和L,并返回S2,若是则结束流程。
2.根据权利要求1所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于,S1具体包括如下步骤:
设任一图像都能表示为d维特征向量空间Rd中的一个点,则所有图像构成d维特征向量数据集D,定义局部敏感哈希函数族H={h|D→U}为从数据集D到整数域U的映射,
其中,v∈D是任一图像的特征向量,a是d维正态分布随机向量,b为[0,w]上均匀分布的随机实数,w为表示映射区间大小的整数。
3.根据权利要求2所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于,S2具体包括如下步骤:
从H中随机取k=k1个函数,定义k1维局部敏感哈希函数族为从数据集D到k1维整数域U的映射,
其中,hi(v)∈H,i...∈[1,k1]。
4.根据权利要求3所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于,S3具体包括如下步骤:对所有的v∈D,利用g(v),建立k1维向量集。
5.根据权利要求4所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于,S4具体包括如下步骤:
采用求和取余哈希法对于k1维向量集中的每一条向量进行处理,
其中,T(v)∈[0,M-1],表示图像向量v的哈希桶编号,M为哈希桶总数;
随后以哈希桶编号为标识对图像数据进行分桶,建立哈希表。
6.根据权利要求5所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于,S5具体包括如下步骤:
S51、从G中随机取L=L1个哈希函数,重复步骤S2、S3、S4建立L1张哈希表,完成第一次局部敏感哈希索引的建立;
S52、对于每张哈希表的每个桶中的所有数据向量,重复步骤S3、S4、S51进行第二次局部敏感哈希处理,取k=k2,L=L2,完成分层结构的局部敏感哈希索引的建立。
7.根据权利要求6所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于:所述L1与L2的取值范围为[1,100],且L1≥L2
8.根据权利要求6所述的基于分层结构的局部敏感哈希图像索引方法,其特征在于:所述k1与k2的取值范围为[1,20],且k1≥k2
CN201910033703.7A 2019-01-14 2019-01-14 基于分层结构的局部敏感哈希图像索引方法 Active CN109829066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910033703.7A CN109829066B (zh) 2019-01-14 2019-01-14 基于分层结构的局部敏感哈希图像索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910033703.7A CN109829066B (zh) 2019-01-14 2019-01-14 基于分层结构的局部敏感哈希图像索引方法

Publications (2)

Publication Number Publication Date
CN109829066A true CN109829066A (zh) 2019-05-31
CN109829066B CN109829066B (zh) 2023-03-21

Family

ID=66860288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910033703.7A Active CN109829066B (zh) 2019-01-14 2019-01-14 基于分层结构的局部敏感哈希图像索引方法

Country Status (1)

Country Link
CN (1) CN109829066B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958109A (zh) * 2019-10-12 2020-04-03 上海电力大学 基于层次默克尔哈希树的轻型动态数据完整性审计方法
WO2021143016A1 (zh) * 2020-01-15 2021-07-22 平安科技(深圳)有限公司 近似数据处理方法、装置、介质及电子设备
CN113190551A (zh) * 2021-04-20 2021-07-30 北京百度网讯科技有限公司 特征检索系统的构建方法、特征检索方法、装置及设备
CN113407749A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 图片索引构建方法、装置、电子设备以及存储介质
CN116401258A (zh) * 2023-06-06 2023-07-07 支付宝(杭州)信息技术有限公司 数据索引方法、数据查询方法及对应装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391554A (zh) * 2017-06-07 2017-11-24 中国人民解放军国防科学技术大学 高效分布式局部敏感哈希方法
CN108959427A (zh) * 2018-06-11 2018-12-07 南京邮电大学 基于经验拟合的局部敏感哈希图像检索参数优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391554A (zh) * 2017-06-07 2017-11-24 中国人民解放军国防科学技术大学 高效分布式局部敏感哈希方法
CN108959427A (zh) * 2018-06-11 2018-12-07 南京邮电大学 基于经验拟合的局部敏感哈希图像检索参数优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李灿 等: "M2LSH: 基于LSH的高维数据近似最近邻查找算法", 《电子学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958109A (zh) * 2019-10-12 2020-04-03 上海电力大学 基于层次默克尔哈希树的轻型动态数据完整性审计方法
CN110958109B (zh) * 2019-10-12 2023-09-19 上海电力大学 基于层次默克尔哈希树的轻型动态数据完整性审计方法
WO2021143016A1 (zh) * 2020-01-15 2021-07-22 平安科技(深圳)有限公司 近似数据处理方法、装置、介质及电子设备
CN113190551A (zh) * 2021-04-20 2021-07-30 北京百度网讯科技有限公司 特征检索系统的构建方法、特征检索方法、装置及设备
CN113407749A (zh) * 2021-06-28 2021-09-17 北京百度网讯科技有限公司 图片索引构建方法、装置、电子设备以及存储介质
CN113407749B (zh) * 2021-06-28 2024-04-30 北京百度网讯科技有限公司 图片索引构建方法、装置、电子设备以及存储介质
CN116401258A (zh) * 2023-06-06 2023-07-07 支付宝(杭州)信息技术有限公司 数据索引方法、数据查询方法及对应装置
CN116401258B (zh) * 2023-06-06 2023-09-22 支付宝(杭州)信息技术有限公司 数据索引方法、数据查询方法及对应装置

Also Published As

Publication number Publication date
CN109829066B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN109829066B (zh) 基于分层结构的局部敏感哈希图像索引方法
JP6721681B2 (ja) 並列検索動作を実行する方法及び装置
CN108595517B (zh) 一种大规模文档相似性检测方法
Pedronette et al. Multimedia retrieval through unsupervised hypergraph-based manifold ranking
CN103744934A (zh) 一种基于位置敏感哈希的分布式索引方法
CN106095920B (zh) 面向大规模高维空间数据的分布式索引方法
Chen et al. Metric similarity joins using MapReduce
Wang et al. Duplicate discovery on 2 billion internet images
Phadikar et al. Content-based image retrieval in DCT compressed domain with MPEG-7 edge descriptor and genetic algorithm
CN107180079B (zh) 基于卷积神经网络以及树与哈希结合索引的图像检索方法
CN113377981A (zh) 基于多任务深度哈希学习的大规模物流商品图像检索方法
Louhichi et al. Unsupervised varied density based clustering algorithm using spline
CN111026922B (zh) 一种分布式向量索引方法、系统、插件及电子设备
CN108959427B (zh) 基于经验拟合的局部敏感哈希图像检索参数优化方法
WO2022007596A1 (zh) 图像检索系统、方法和装置
Davardoost et al. An innovative model for extracting olap cubes from nosql database based on scalable naïve bayes classifier
Wong et al. An empirical study on large-scale content-based image retrieval
Yin et al. Content‐Based Image Retrial Based on Hadoop
JP4440246B2 (ja) 空間インデックス方法
WO2023230769A1 (zh) Cad模型搜索、聚类及分类模型生成方法、装置和存储介质
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
CN113901278A (zh) 一种基于全局多探测和适应性终止的数据搜索方法和装置
WO2021012211A1 (zh) 一种为数据建立索引的方法以及装置
Liu et al. Social Network Community‐Discovery Algorithm Based on a Balance Factor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant