CN109634952A - 一种面向大规模数据的自适应最近邻查询方法 - Google Patents

一种面向大规模数据的自适应最近邻查询方法 Download PDF

Info

Publication number
CN109634952A
CN109634952A CN201811298577.XA CN201811298577A CN109634952A CN 109634952 A CN109634952 A CN 109634952A CN 201811298577 A CN201811298577 A CN 201811298577A CN 109634952 A CN109634952 A CN 109634952A
Authority
CN
China
Prior art keywords
data set
sub data
sub
query point
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811298577.XA
Other languages
English (en)
Other versions
CN109634952B (zh
Inventor
任艳多
钱江波
孙瑶
胡伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Benxi Steel Group Information Automation Co ltd
Dragon Totem Technology Hefei Co ltd
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201811298577.XA priority Critical patent/CN109634952B/zh
Publication of CN109634952A publication Critical patent/CN109634952A/zh
Application granted granted Critical
Publication of CN109634952B publication Critical patent/CN109634952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向大规模数据的自适应最近邻查询方法,特点是首先获取包含多个原始大规模数据的数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集,然后学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按序排列得到所有子数据集的编码索引,再获取查询点在每个子数据集下的查找表,接下来获取查询点在对应的子数据集下的候选集并融合,得到对给定的查询点的最近邻查询结果;这种子数据集的构造方式能更好地挖掘数据集分布的信息,最大限度地降低了编码的冗余,提升了对给定的查询点的最近邻查询过程的查询精度和查询效率。

Description

一种面向大规模数据的自适应最近邻查询方法
技术领域
本发明涉及信息检索技术领域,尤其是一种面向大规模数据的自适应最近邻查询方法。
背景技术
目前,哈希技术是大规模数据检索的一种有效解决方案。相关技术中,对整个数据集,采用统一的哈希编码方式,得到的哈希编码的长度也是一致的。但实际大规模数据中,数据集的分布没有规律性。相关哈希技术没有充分地利用数据集的分布信息,有待改进。
发明内容
本发明所要解决的技术问题是提供一种面向大规模数据的自适应最近邻查询方法,该方法能够根据数据集分布的密度大小将其量化为不同长度的哈希编码,有效减少数据集的编码冗余,提高检索准确性。
本发明解决上述技术问题所采用的技术方案为:一种面向大规模数据的自适应最近邻查询方法,包括以下步骤:
①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据;
②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度;
③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引;
④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表;
⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集;
①将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
所述的k次AND操作的具体过程为:根据原始大规模数据集特征及查询精度的需求确定局部敏感哈希函数个数k,并根据局部敏感哈希函数族构建k个哈希函数,对所有原始大规模数据集中的每个原始大规模数据分别通过k个哈希函数进行映射,将原始大规模数据集划分至2k个子空间,然后按每个子空间中存在的数据数量对子空间降序排序,得到与原始大规模数据集对应的2k个经过降序排序后的子数据集;L次OR操作的具体过程为:将上述k次AND操作执行L次,每次取k个不同的局部敏感哈希函数,最终得到L组不同的2k个经过降序排序后的子数据集,然后将L组不同的2k个经过降序排序后的子数据集按融合因子β进行融合得到最终的2k个子数据集,其中,rank表示子数据集在对应的一组2k个经过降序排序后的子数据集中的排序序号,jac表示jaccard相似系数。
与现有技术相比,本发明的优点在于首先获取包含多个原始大规模数据的数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始数据集构造成若干个子数据集,然后根据每个子数据集的大小对所有子数据集进行排序,再通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引,再根据所有子数据集的编码索引获取查询点在每个子数据集下的查找表,接下来获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的最近邻点集并融合,得到对给定的查询点的最近邻查询结果;这种子数据集的构造方式旨在模拟数据分布的密度信息,通过数据集的密度大小自适应数据的编码长度,使用较短的编码表示密度较小的数据,使用较长的编码表示密度较大的数据,这样能更好地挖掘数据集分布的信息,最大限度地降低了编码的冗余,提升了对给定的查询点的最近邻查询过程的查询精度和查询效率。
附图说明
图1为本发明的步骤流程图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
一种面向大规模数据的自适应最近邻查询方法,包括以下步骤:
①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据。
其中,k次AND操作的具体过程为:根据原始大规模数据集特征及查询精度的需求确定局部敏感哈希函数个数k,并根据局部敏感哈希函数族构建k个哈希函数,对所有原始大规模数据集中的每个原始大规模数据分别通过k个哈希函数进行映射,将原始大规模数据集划分至2k个子空间,然后按每个子空间中存在的数据数量对子空间降序排序,得到与原始大规模数据集对应的2k个经过降序排序后的子数据集;L次OR操作的具体过程为:将上述k次AND操作执行L次,每次取k个不同的局部敏感哈希函数,最终得到L组不同的2k个经过降序排序后的子数据集,然后将L组不同的2k个经过降序排序后的子数据集按融合因子β进行融合得到最终的2k个子数据集,其中,rank表示子数据集在对应的一组2k个经过降序排序后的子数据集中的排序序号,jac表示jaccard相似系数。
②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度。
③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引。
④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表。
⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集。
⑥将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果。

Claims (2)

1.一种面向大规模数据的自适应最近邻查询方法,其特征在于包括以下步骤:
①获取包含多个原始大规模数据的原始大规模数据集并给定查询点,通过包含k次AND操作和L次OR操作的局部敏感哈希方法将原始大规模数据集构造成2k个子数据集,通过k次AND操作和L次OR操作将查询点映射到2k个子数据集中,得到查询点在每个子数据集中对应的映射数据;
②根据每个子数据集的大小从大到小对所有子数据集进行排序得到排序后的数据集,并对排序后的数据集中的每个子数据集设置一个与该子数据集的大小呈线性相关的编码长度;
③将每个子数据集分别映射到乘积空间,通过最小化哈希编码和原始数据的误差的方法学习得到与每个子数据集对应的哈希编码,然后将所有哈希编码按照对应的子数据集在排序后的数据集中的顺序对应排列得到所有子数据集的编码索引;
④根据所有子数据集的编码索引,在每个子数据集中对查询点在每个子数据集中对应的映射数据按最近距离量化映射,得到查询点在每个子数据集下的查找表;
⑤根据子数据集的编码索引和查询点在每个子数据集下的查找表,分别获取在子数据集的编码索引中离每个子数据集下的查找表的海明距离最近的与该查找表对应的最近邻点集,并将每个最近邻点集作为查询点在对应的子数据集下的候选集;
⑥将查询点对应的所有子数据集空间下的候选集进行融合,将融合后的数据集作为对给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
2.根据权利要求1所述的一种面向大规模数据的自适应最近邻查询方法,其特征在于所述的k次AND操作的具体过程为:根据原始大规模数据集特征及查询精度的需求确定局部敏感哈希函数个数k,并根据局部敏感哈希函数族构建k个哈希函数,对所有原始大规模数据集中的每个原始大规模数据分别通过k个哈希函数进行映射,将原始大规模数据集划分至2k个子空间,然后按每个子空间中存在的数据数量对子空间降序排序,得到与原始大规模数据集对应的2k个经过降序排序后的子数据集;L次OR操作的具体过程为:将上述k次AND操作执行L次,每次取k个不同的局部敏感哈希函数,最终得到L组不同的2k个经过降序排序后的子数据集,然后将L组不同的2k个经过降序排序后的子数据集按融合因子β进行融合得到最终的2k个子数据集,其中,rank表示子数据集在对应的一组2k个经过降序排序后的子数据集中的排序序号,jac表示jaccard相似系数。
CN201811298577.XA 2018-11-02 2018-11-02 一种面向大规模数据的自适应最近邻查询方法 Active CN109634952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811298577.XA CN109634952B (zh) 2018-11-02 2018-11-02 一种面向大规模数据的自适应最近邻查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811298577.XA CN109634952B (zh) 2018-11-02 2018-11-02 一种面向大规模数据的自适应最近邻查询方法

Publications (2)

Publication Number Publication Date
CN109634952A true CN109634952A (zh) 2019-04-16
CN109634952B CN109634952B (zh) 2021-08-17

Family

ID=66067129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811298577.XA Active CN109634952B (zh) 2018-11-02 2018-11-02 一种面向大规模数据的自适应最近邻查询方法

Country Status (1)

Country Link
CN (1) CN109634952B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法
US20150161178A1 (en) * 2009-12-07 2015-06-11 Google Inc. Distributed Image Search
CN105574212A (zh) * 2016-02-24 2016-05-11 北京大学 一种多索引磁盘哈希结构的图像检索方法
CN106897374A (zh) * 2017-01-19 2017-06-27 浙江大学 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN107122411A (zh) * 2017-03-29 2017-09-01 浙江大学 一种基于离散多视图哈希的协同过滤推荐方法
CN107656989A (zh) * 2017-09-13 2018-02-02 华中科技大学 云存储系统中基于数据分布感知的近邻查询方法
CN108763481A (zh) * 2018-05-29 2018-11-06 清华大学深圳研究生院 一种基于大规模街景数据的图片地理定位方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161178A1 (en) * 2009-12-07 2015-06-11 Google Inc. Distributed Image Search
CN102609441A (zh) * 2011-12-27 2012-07-25 中国科学院计算技术研究所 基于分布熵的局部敏感哈希高维索引方法
CN105574212A (zh) * 2016-02-24 2016-05-11 北京大学 一种多索引磁盘哈希结构的图像检索方法
CN106897374A (zh) * 2017-01-19 2017-06-27 浙江大学 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN107122411A (zh) * 2017-03-29 2017-09-01 浙江大学 一种基于离散多视图哈希的协同过滤推荐方法
CN107656989A (zh) * 2017-09-13 2018-02-02 华中科技大学 云存储系统中基于数据分布感知的近邻查询方法
CN108763481A (zh) * 2018-05-29 2018-11-06 清华大学深圳研究生院 一种基于大规模街景数据的图片地理定位方法和系统

Also Published As

Publication number Publication date
CN109634952B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Fan et al. Metapath-guided heterogeneous graph neural network for intent recommendation
CN103823823B (zh) 基于频繁项集挖掘算法的反规范化策略选择方法
CN104765872B (zh) 一种基于集成哈希编码的快速图像检索方法
Assent et al. INSCY: Indexing subspace clusters with in-process-removal of redundancy
CN102214213A (zh) 一种采用决策树的数据分类方法和系统
US20150186471A1 (en) System and method for approximate searching very large data
CN103473307B (zh) 跨媒体稀疏哈希索引方法
Papadakis et al. A survey of blocking and filtering techniques for entity resolution
CN102890722A (zh) 应用于时序历史数据库的索引方法
CN107038225A (zh) 信息智能检索系统的检索方法
CN107341178A (zh) 一种自适应的二进制量化哈希编码方法及装置
CN105550368A (zh) 一种高维数据的近似最近邻检索方法及检索系统
CN107766433A (zh) 一种基于Geo‑BTree的范围查询方法及装置
CN101326522A (zh) Xml的简明索引结构
CN110442741A (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN105740428B (zh) 一种基于b+树的高维磁盘索引结构和图像检索方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN106126727A (zh) 一种推荐系统大数据处理方法
Lee et al. Gawd: graph anomaly detection in weighted directed graph databases
CN107133335A (zh) 一种基于分词与索引技术的重复记录检测方法
CN112214488A (zh) 一种欧式空间数据索引树及构建和检索方法
CN109634952A (zh) 一种面向大规模数据的自适应最近邻查询方法
CN103106321A (zh) 一种基于Apriori方法的气象灾害智能感知方法
Wang et al. Gaebic: a novel biclustering analysis method for mirna-targeted gene data based on graph autoencoder
CN109634953A (zh) 一种面向高维大数据集的加权量化哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231113

Address after: 117000 No. 130, Guangyu Road, Pingshan District, Benxi City, Liaoning Province

Patentee after: BENXI STEEL (GROUP) INFORMATION AUTOMATION CO.,LTD.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20231113

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University