CN109684518A - 一种可变长度哈希编码的高维数据最近邻查询方法 - Google Patents

一种可变长度哈希编码的高维数据最近邻查询方法 Download PDF

Info

Publication number
CN109684518A
CN109684518A CN201811298578.4A CN201811298578A CN109684518A CN 109684518 A CN109684518 A CN 109684518A CN 201811298578 A CN201811298578 A CN 201811298578A CN 109684518 A CN109684518 A CN 109684518A
Authority
CN
China
Prior art keywords
data set
coding
sub data
hash
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811298578.4A
Other languages
English (en)
Other versions
CN109684518B (zh
Inventor
任艳多
钱江波
孙瑶
胡伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Guizhou Junwei Technology Co.,Ltd.
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201811298578.4A priority Critical patent/CN109684518B/zh
Publication of CN109684518A publication Critical patent/CN109684518A/zh
Priority to US16/671,181 priority patent/US11488061B2/en
Application granted granted Critical
Publication of CN109684518B publication Critical patent/CN109684518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种可变长度哈希编码的高维数据最近邻查询方法,特点是首先获取原始高维数据集并给定查询点,生成随机傅里叶特征向量集,接着获取与每个原始高维数据对应的哈希码及每个哈希码的编码频率,将编码频率相同的哈希码作为一组子数据集并排序,对每组子数据集设置压缩比,根据压缩比对每组子数据集进行压缩和训练,获取与每组训练后的子数据集对应的哈希编码和原始编码,复制每组训练后的子数据集的哈希编码得到多个复本,再将原始编码与对应复本串联得到串联后的哈希编码并融合组成最终的最近邻查询表;最后获取查询点的查询编码,在最终的最近邻查询表中查找最近邻数据集完成查询;优点是查询效率和准确性大大提高。

Description

一种可变长度哈希编码的高维数据最近邻查询方法
技术领域
本发明涉及信息检索技术领域,特别涉及一种可变长度哈希编码的高维数据最近邻查询方法。
背景技术
目前,哈希技术是大规模高维检索的一种有效解决方案。相关技术中,对整个数据集,采用统一的哈希编码方式,得到较低维度的长度一致的哈希编码索引,对查询点一般采用与数据集一样的哈希方式。但实际大规模高维数据中,数据集的分布没有规律性。相关哈希技术没有充分地利用数据集的分布信息,同时查询点编码长度较短,没有保留更多的信息,有待改进。
发明内容
本发明所要解决的技术问题是提供一种能够最大化地保留查询点的数据信息、减少数据集的编码冗余、提高检索准确性的可变长度哈希编码的高维数据最近邻查询方法。
本发明解决上述技术问题所采用的技术方案为:一种可变长度哈希编码的高维数据最近邻查询方法,包括以下步骤:
①获取包含多个原始高维数据的原始高维数据集并给定查询点,对原始高维数据集做低维映射,生成由与每个原始高维数据对应的随机傅里叶特征向量组成的随机傅里叶特征向量集;
②根据每个随机傅里叶特征向量的哈希值进行编码获得与每个原始高维数据对应的哈希码,对所有哈希码中每个哈希码出现的次数进行统计得到用于表示每个哈希码出现频率的编码频率,将编码频率相同的哈希码作为一组子数据集得到多组子数据集,并按编码频率从高到低的顺序对所有子数据集进行排列得到每个子数据集的排序序号,对每组子数据集设置一个与该组子数据集的编码频率互为倒数的压缩比,根据压缩比对每组子数据集进行压缩,得到压缩后的子数据集及压缩后的子数据集的编码长度,然后按照压缩损失及量化损失之和最小的方法对压缩后的子数据集进行训练,得到训练后的子数据集及训练后的子数据集的哈希编码;
③将每组训练后的子数据集通过提取随机傅里叶特征得到与每组训练后的子数据集对应的原始编码,根据原始编码的编码长度和原始编码对应的压缩比复制每组训练后的子数据集的哈希编码,得到每组训练后的子数据集的哈希编码的多个复本;
④将每组训练后的子数据集的原始编码和每组训练后的子数据集的哈希编码的复本串联得到与每组训练后的子数据集对应的串联后的哈希编码,将所有训练后的子数据集对应的串联后的哈希编码融合组成最终的最近邻查询表;
⑤对给定的查询点提取随机傅里叶特征向量,将给定的查询点的随机傅里叶特征向量映射到与训练后的子数据集对应的串联后的哈希编码的编码长度一致的随机傅里叶编码,将该随机傅里叶编码作为查询点对应的查询编码,最后在最终的最近邻查询表中查找与查询点对应的查询编码海明距离最近的最近邻数据集,作为给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
与现有技术相比,本发明的优点在于首先获取原始高维数据集并给定查询点,对原始高维数据集做低维映射,生成随机傅里叶特征向量集;接着获取与每个原始高维数据对应的哈希码及每个哈希码的编码频率,将编码频率相同的哈希码作为一组子数据集得到多组子数据集,并按编码频率从高到低的顺序对所有子数据集进行排列,对每组子数据集设置一个与该组子数据集的编码频率互为倒数的压缩比,根据压缩比对每组子数据集进行压缩,然后按照压缩损失及量化损失之和最小的方法对压缩后的子数据集进行训练,得到训练后的子数据集及训练后的子数据集的哈希编码;将每组训练后的子数据集通过提取随机傅里叶特征得到与每组训练后的子数据集对应的原始编码,根据原始编码的编码长度和原始编码对应的压缩比复制每组训练后的子数据集的哈希编码,得到每组训练后的子数据集的哈希编码的多个复本;将每组训练后的子数据集的原始编码和每组训练后的子数据集的哈希编码的复本串联得到与每组训练后的子数据集对应的串联后的哈希编码,将所有训练后的子数据集对应的串联后的哈希编码组成最终的最近邻查询表;将给定的查询点的随机傅里叶特征向量映射到与训练后的子数据集对应的串联后的哈希编码的编码长度一致的随机傅里叶编码,将该随机傅里叶编码作为查询点对应的查询编码,最后在最终的最近邻查询表中查找与查询点对应的查询编码海明距离最近的最近邻数据集,作为给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程;该方法首先利用随机傅里叶特征在长编码信息表达的优异性,提取更多的数据信息,然后根据数据集随机傅里叶编码的频率的不同,对原始高维数据集的随机傅里叶编码进行适应性压缩,即编码频率高的数据给一个低的压缩比,编码频率低的数据给一个高的压缩比,接着,对查询点使用随机傅里叶特征编码,量化为一个较长的编码,这样能尽可能地保留原始数据集的信息,这样能更好地挖掘数据集分布的信息,最大限度地降低了编码的冗余,同时查询点的长编码可以最大化地保留查询点的数据信息,使检索准确性得以提高。
附图说明
图1为本发明的步骤流程图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
一种可变长度哈希编码的高维数据最近邻查询方法,包括以下步骤:
①获取包含多个原始高维数据的原始高维数据集并给定查询点,对原始高维数据集做低维映射,生成由与每个原始高维数据对应的随机傅里叶特征向量组成的随机傅里叶特征向量集。
②根据每个随机傅里叶特征向量的哈希值进行编码获得与每个原始高维数据对应的哈希码,对所有哈希码中每个哈希码出现的次数进行统计得到用于表示每个哈希码出现频率的编码频率,将编码频率相同的哈希码作为一组子数据集得到多组子数据集,并按编码频率从高到低的顺序对所有子数据集进行排列得到每个子数据集的排序序号,对每组子数据集设置一个与该组子数据集的编码频率互为倒数的压缩比,根据压缩比对每组子数据集进行压缩,得到压缩后的子数据集及压缩后的子数据集的编码长度,然后按照压缩损失及量化损失之和最小的方法对压缩后的子数据集进行训练,得到训练后的子数据集及训练后的子数据集的哈希编码。
③将每组训练后的子数据集通过提取随机傅里叶特征得到与每组训练后的子数据集对应的原始编码,根据原始编码的编码长度和原始编码对应的压缩比复制每组训练后的子数据集的哈希编码,得到每组训练后的子数据集的哈希编码的多个复本。
④将每组训练后的子数据集的原始编码和每组训练后的子数据集的哈希编码的复本串联得到与每组训练后的子数据集对应的串联后的哈希编码,将所有训练后的子数据集对应的串联后的哈希编码融合组成最终的最近邻查询表。
⑤对给定的查询点提取随机傅里叶特征向量,将给定的查询点的随机傅里叶特征向量映射到与训练后的子数据集对应的串联后的哈希编码的编码长度一致的随机傅里叶编码,将该随机傅里叶编码作为查询点对应的查询编码,最后在最终的最近邻查询表中查找与查询点对应的查询编码海明距离最近的最近邻数据集,作为给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。

Claims (1)

1.一种可变长度哈希编码的高维数据最近邻查询方法,其特征在于包括以下步骤:
①获取包含多个原始高维数据的原始高维数据集并给定查询点,对原始高维数据集做低维映射,生成由与每个原始高维数据对应的随机傅里叶特征向量组成的随机傅里叶特征向量集;
②根据每个随机傅里叶特征向量的哈希值进行编码获得与每个原始高维数据对应的哈希码,对所有哈希码中每个哈希码出现的次数进行统计得到用于表示每个哈希码出现频率的编码频率,将编码频率相同的哈希码作为一组子数据集得到多组子数据集,并按编码频率从高到低的顺序对所有子数据集进行排列得到每个子数据集的排序序号,对每组子数据集设置一个与该组子数据集的编码频率互为倒数的压缩比,根据压缩比对每组子数据集进行压缩,得到压缩后的子数据集及压缩后的子数据集的编码长度,然后按照压缩损失及量化损失之和最小的方法对压缩后的子数据集进行训练,得到训练后的子数据集及训练后的子数据集的哈希编码;
③将每组训练后的子数据集通过提取随机傅里叶特征得到与每组训练后的子数据集对应的原始编码,根据原始编码的编码长度和原始编码对应的压缩比复制每组训练后的子数据集的哈希编码,得到每组训练后的子数据集的哈希编码的多个复本;
④将每组训练后的子数据集的原始编码和每组训练后的子数据集的哈希编码的复本串联得到与每组训练后的子数据集对应的串联后的哈希编码,将所有训练后的子数据集对应的串联后的哈希编码融合组成最终的最近邻查询表;
⑤对给定的查询点提取随机傅里叶特征向量,将给定的查询点的随机傅里叶特征向量映射到与训练后的子数据集对应的串联后的哈希编码的编码长度一致的随机傅里叶编码,将该随机傅里叶编码作为查询点对应的查询编码,最后在最终的最近邻查询表中查找与查询点对应的查询编码海明距离最近的最近邻数据集,将该最近邻数据集作为给定的查询点的最近邻查询结果,完成对给定的查询点的最近邻查询过程。
CN201811298578.4A 2018-11-02 2018-11-02 一种可变长度哈希编码的高维数据最近邻查询方法 Active CN109684518B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811298578.4A CN109684518B (zh) 2018-11-02 2018-11-02 一种可变长度哈希编码的高维数据最近邻查询方法
US16/671,181 US11488061B2 (en) 2018-11-02 2019-11-01 High-dimensional data nearest-neighbor query method based on variable-length hash codes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811298578.4A CN109684518B (zh) 2018-11-02 2018-11-02 一种可变长度哈希编码的高维数据最近邻查询方法

Publications (2)

Publication Number Publication Date
CN109684518A true CN109684518A (zh) 2019-04-26
CN109684518B CN109684518B (zh) 2021-09-17

Family

ID=66184568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811298578.4A Active CN109684518B (zh) 2018-11-02 2018-11-02 一种可变长度哈希编码的高维数据最近邻查询方法

Country Status (2)

Country Link
US (1) US11488061B2 (zh)
CN (1) CN109684518B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417815A (zh) * 2020-11-18 2021-02-26 红有软件股份有限公司 一种大数据处理中类别组合数据的动态编码方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065134A1 (en) * 2021-10-20 2023-04-27 Paypal, Inc. Database management using sort keys

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392207A (zh) * 2014-11-10 2015-03-04 天津大学 一种用于数字图像内容识别的特征编码方法
CN104731884A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于多特征融合的多哈希表的查询方法
US20150317323A1 (en) * 2014-04-30 2015-11-05 Lnternational Business Machines Corporation Indexing and searching heterogenous data entities

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6834278B2 (en) * 2001-04-05 2004-12-21 Thothe Technologies Private Limited Transformation-based method for indexing high-dimensional data for nearest neighbour queries
US6799175B2 (en) * 2001-04-23 2004-09-28 International Business Machines Corporation System and method of determining and searching for patterns in a large database
WO2010064263A1 (en) * 2008-12-02 2010-06-10 Haskolinn I Reykjavik Multimedia identifier
US9940100B2 (en) * 2014-08-29 2018-04-10 Adobe Systems Incorporated Shortlist computation for searching high-dimensional spaces
US20170293838A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Deep high-order exemplar learning for hashing and fast information retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317323A1 (en) * 2014-04-30 2015-11-05 Lnternational Business Machines Corporation Indexing and searching heterogenous data entities
CN104392207A (zh) * 2014-11-10 2015-03-04 天津大学 一种用于数字图像内容识别的特征编码方法
CN104731884A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于多特征融合的多哈希表的查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAMIL AHMAD 等: ""MedicalImageMedical Image Retrieval with Compact Binary Codes GeneratedRetrievalWithCompa"", 《SPRINGER》 *
任艳多: ""大规模数据检索中基于哈希编码的量化技术综述"", 《无线数据通信》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417815A (zh) * 2020-11-18 2021-02-26 红有软件股份有限公司 一种大数据处理中类别组合数据的动态编码方法
CN112417815B (zh) * 2020-11-18 2024-01-23 红有软件股份有限公司 一种大数据处理中类别组合数据的动态编码方法

Also Published As

Publication number Publication date
US11488061B2 (en) 2022-11-01
CN109684518B (zh) 2021-09-17
US20200142897A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
Tolias et al. To aggregate or not to aggregate: Selective match kernels for image search
CN103617217B (zh) 一种基于层次索引的图像检索方法及系统
CN107609356B (zh) 基于标签模型的文本无载体信息隐藏方法
CN105574212B (zh) 一种多索引磁盘哈希结构的图像检索方法
CN109684518A (zh) 一种可变长度哈希编码的高维数据最近邻查询方法
RU2010150819A (ru) Оптимизация формата поискового индекса
CN104765872A (zh) 一种基于集成哈希编码的快速图像检索方法
CN109450450B (zh) 一种json数据实时无损压缩以及解压方法
CN103425669B (zh) 号段及归属地的编码方法和系统、归属地查询方法和系统
He et al. Mobile product search with bag of hash bits
Matsui et al. Pqk-means: Billion-scale clustering for product-quantized codes
CN111125119A (zh) 一种基于HBase的时空数据存储与索引方法
CN105631000B (zh) 基于移动终端位置特征信息的终端缓存的数据压缩方法
CN109979537A (zh) 一种面向多条序列的基因序列数据压缩方法
CN113035282A (zh) 基于标签数据生长基因的数据序列处理方法
CN106709006A (zh) 一种对查询友好的关联数据压缩方法
Li et al. Locally-enriched cross-reconstruction for few-shot fine-grained image classification
CN110310709A (zh) 一种基于参考序列的基因压缩方法
CN103269429B (zh) 一种超光谱信号快速矢量量化编码方法
JP2015534795A (ja) セキュアで損失のないデータ圧縮
CN104102680A (zh) 时间序列的编码索引
CN110007955B (zh) 一种指令集模拟器译码模块代码的压缩方法
CN105302889B (zh) 数据存储结构的转换方法及装置
CN105844214B (zh) 一种基于比特空间的多路径深度编码的信息指纹提取方法
CN104866535A (zh) 一种号段记录压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240102

Address after: No. 1288, 12th Floor, Building 10, Central Business District, Guizhou Financial City, No. 55 Changling North Road, Changling Street Office, Guanshanhu District, Guiyang City, Guizhou Province, 550000

Patentee after: Guizhou Junwei Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20240102

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University