CN106777240A - 一种基于哈希计算的快速检索方法及系统 - Google Patents

一种基于哈希计算的快速检索方法及系统 Download PDF

Info

Publication number
CN106777240A
CN106777240A CN201611225451.0A CN201611225451A CN106777240A CN 106777240 A CN106777240 A CN 106777240A CN 201611225451 A CN201611225451 A CN 201611225451A CN 106777240 A CN106777240 A CN 106777240A
Authority
CN
China
Prior art keywords
data
retrieval
index
key value
hash calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611225451.0A
Other languages
English (en)
Inventor
张瑜
高宁
胡钦太
黄昌勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU CREATEVIEW OPTOELECTRONICS TECHNOLOGY Co Ltd
South China Normal University
Original Assignee
GUANGZHOU CREATEVIEW OPTOELECTRONICS TECHNOLOGY Co Ltd
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU CREATEVIEW OPTOELECTRONICS TECHNOLOGY Co Ltd, South China Normal University filed Critical GUANGZHOU CREATEVIEW OPTOELECTRONICS TECHNOLOGY Co Ltd
Priority to CN201611225451.0A priority Critical patent/CN106777240A/zh
Publication of CN106777240A publication Critical patent/CN106777240A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于哈希计算的快速检索方法及系统,方法包括索引建立步骤和数据检索步骤;系统包括索引建立单元和数据检索单元。本发明通过关键值计算从而能够对教育大数据进行快速、实时和并发的索引和检索;而且具有动态可扩展性,能够动态地扩展索引结构的大小,支持更大规模的数据,从而本发明充分发挥在教育大数据的搜索和管理中的重要作用。本发明可广泛应用于检索领域中。

Description

一种基于哈希计算的快速检索方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于哈希计算的快速检索方法及系统。
背景技术
现在是信息爆炸性增长的时代,待搜索的数据变得越来越多。但是位置敏感哈希为了获得更高的搜索质量和更好的搜索效率需要消耗大量的哈希表,也就是说,内存使用量非常大。这在很大程度上影响了位置敏感哈希在海量数据情景下的可扩展性,因为在单机环境下,内存难以提供足够的空间来加载海量数据所生成的哈希表。
此外,传统的位置敏感哈希在搜索时是要搜索所有冲突表中的候选结果的,当数据量非常大的时候,详细比较的代价也会非常大,这也会降低传统位置敏感哈希的搜索效率。
综上所述,传统的位置敏感哈希可扩展性不太好,而且由于冲突表中的候选结果较多,浪费了很多时间在详细比较阶段,搜索的效率还可以进一步提高。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能有效提高检索效率的一种基于哈希计算的快速检索方法及系统。
本发明所采取的技术方案是:
一种基于哈希计算的快速检索方法,包括:
索引建立步骤:将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索步骤:将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述索引建立步骤包括:
将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述数据检索步骤包括:
将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述数据检索步骤还包括:
根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
作为所述的一种基于哈希计算的快速检索方法的进一步改进,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
本发明所采用的另一技术方案是:
一种基于多级索引的快速检索系统,包括:
索引建立单元,用于将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索单元,用于将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述索引建立单元包括:
一级索引数据计算单元,用于将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
二级索引数据计算单元,用于根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元包括:
检索关键值计算单元,用于将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
数据查找单元,用于根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元还包括:
类似结果查找单元,用于根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
本发明的有益效果是:
本发明一种基于哈希计算的快速检索方法及系统通过关键值计算从而能够对教育大数据进行快速、实时和并发的索引和检索;而且具有动态可扩展性,能够动态地扩展索引结构的大小,支持更大规模的数据,从而本发明充分发挥在教育大数据的搜索和管理中的重要作用。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明一种基于哈希计算的快速检索方法的步骤流程图;
图2是本发明一种基于哈希计算的快速检索方法中索引建立步骤的步骤流程图;
图3是本发明一种基于哈希计算的快速检索方法中数据检索步骤的步骤流程图;
图4是本发明一种基于哈希计算的快速检索方法中关键值算法的步骤流程图;
图5是本发明一种基于哈希计算的快速检索系统的模块方框图。
具体实施方式
参考图1,本发明一种基于哈希计算的快速检索方法,包括:
索引建立步骤:将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索步骤:将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
参考图2,进一步作为优选的实施方式,所述索引建立步骤包括:
将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
参考图3,进一步作为优选的实施方式,所述数据检索步骤包括:
将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
进一步作为优选的实施方式,所述数据检索步骤还包括:
根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
参考图4,进一步作为优选的实施方式,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
参考图5,本发明一种基于多级索引的快速检索系统,包括:
索引建立单元,用于将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索单元,用于将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述索引建立单元包括:
一级索引数据计算单元,用于将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
二级索引数据计算单元,用于根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元包括:
检索关键值计算单元,用于将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
数据查找单元,用于根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述数据检索单元还包括:
类似结果查找单元,用于根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
作为所述的一种基于哈希计算的快速检索系统的进一步改进,所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
从上述内容可知,本发明一种基于哈希计算的快速检索方法及系统通过关键值计算从而能够对教育大数据进行快速、实时和并发的索引和检索;而且具有动态可扩展性,能够动态地扩展索引结构的大小,支持更大规模的数据,从而本发明充分发挥在教育大数据的搜索和管理中的重要作用。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于哈希计算的快速检索方法,其特征在于,包括:
索引建立步骤:将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索步骤:将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
2.根据权利要求1所述的一种基于哈希计算的快速检索方法,其特征在于:所述索引建立步骤包括:
将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
3.根据权利要求1所述的一种基于哈希计算的快速检索方法,其特征在于:所述数据检索步骤包括:
将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
4.根据权利要求3所述的一种基于哈希计算的快速检索方法,其特征在于:所述数据检索步骤还包括:
根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
5.根据权利要求1-4任一项所述的一种基于哈希计算的快速检索方法,其特征在于:所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
6.一种基于多级索引的快速检索系统,其特征在于:包括:
索引建立单元,用于将数据库中的教育大数据根据存储位置和教育大数据中的文本数据生成索引数据;
数据检索单元,用于将需要检索的文本数据进行关键值计算,进而根据关键值在数据库中进行查找,得出对应的教育大数据内容。
7.根据权利要求6所述的一种基于哈希计算的快速检索系统,其特征在于:所述索引建立单元包括:
一级索引数据计算单元,用于将数据库中的教育大数据的存储位置进行哈希计算,得出一级索引数据;
二级索引数据计算单元,用于根据教育大数据的文本数据通过关键值算法进行计算,得出关键值,即二级索引数据。
8.根据权利要求6所述的一种基于哈希计算的快速检索系统,其特征在于:所述数据检索单元包括:
检索关键值计算单元,用于将需要检索的文本数据通过关键值算法进行计算,得出检索的关键值;
数据查找单元,用于根据检索的关键值和索引数据,在数据库中进行查找,得出对应的教育大数据内容。
9.根据权利要求8所述的一种基于哈希计算的快速检索系统,其特征在于:所述数据检索单元还包括:
类似结果查找单元,用于根据预设的检索相似度阈值,在数据库中进行查找满足检索的关键值和索引数据之间相似度大于预设的检索相似度阈值的结果,得出类似的教育大数据内容。
10.根据权利要求6-9任一项所述的一种基于哈希计算的快速检索系统,其特征在于:所述关键值算法具体包括:
将文本数据进行特征词进行提取,并根据每个特种词的重要性进行权重值设置;
将特征词进行哈希计算,得到每个特征词的哈希值;
根据每个特征词的哈希值和与其对应的权重值,形成得到每个特征词的加权值;
将每个特征词的加权值进行合并累加计算,得到加权序列;
将加权序列进行降维计算,得到对应的关键值。
CN201611225451.0A 2016-12-27 2016-12-27 一种基于哈希计算的快速检索方法及系统 Pending CN106777240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611225451.0A CN106777240A (zh) 2016-12-27 2016-12-27 一种基于哈希计算的快速检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611225451.0A CN106777240A (zh) 2016-12-27 2016-12-27 一种基于哈希计算的快速检索方法及系统

Publications (1)

Publication Number Publication Date
CN106777240A true CN106777240A (zh) 2017-05-31

Family

ID=58921685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611225451.0A Pending CN106777240A (zh) 2016-12-27 2016-12-27 一种基于哈希计算的快速检索方法及系统

Country Status (1)

Country Link
CN (1) CN106777240A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832059A (zh) * 2020-09-16 2020-10-27 北京长隆讯飞科技有限公司 一种基于云服务的空间大数据管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692651A (zh) * 2009-09-27 2010-04-07 中兴通讯股份有限公司 一种哈希查找表的方法和装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统
CN104199827A (zh) * 2014-07-24 2014-12-10 北京大学 基于局部敏感哈希的大规模多媒体数据的高维索引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692651A (zh) * 2009-09-27 2010-04-07 中兴通讯股份有限公司 一种哈希查找表的方法和装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统
CN104199827A (zh) * 2014-07-24 2014-12-10 北京大学 基于局部敏感哈希的大规模多媒体数据的高维索引方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832059A (zh) * 2020-09-16 2020-10-27 北京长隆讯飞科技有限公司 一种基于云服务的空间大数据管理方法及系统

Similar Documents

Publication Publication Date Title
WO2020182019A1 (zh) 图像检索方法、装置、设备及计算机可读存储介质
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
CN108595517B (zh) 一种大规模文档相似性检测方法
CN104166651B (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN103345496B (zh) 多媒体信息检索方法和系统
CN102081655B (zh) 基于贝叶斯分类算法的信息检索方法
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN101404032B (zh) 一种基于内容的视频检索方法及系统
Zhao et al. ICFS clustering with multiple representatives for large data
CN103577418B (zh) 海量文档分布式检索排重系统和方法
CN103914506A (zh) 数据检索装置、数据存储方法和数据检索方法
CN101692651A (zh) 一种哈希查找表的方法和装置
JP2013509660A5 (zh)
CN108170650B (zh) 文本比较方法以及文本比较装置
CN106095951B (zh) 基于负载均衡和查询日志的数据空间多维索引方法
CN105359142A (zh) 哈希连接方法、装置和数据库管理系统
US9418155B2 (en) Disambiguation of entities
CN112487161A (zh) 一种面向企业需求的专家推荐方法、装置、介质及设备
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN103440292A (zh) 基于比特向量的多媒体信息检索方法和系统
CN106777240A (zh) 一种基于哈希计算的快速检索方法及系统
CN108959427A (zh) 基于经验拟合的局部敏感哈希图像检索参数优化方法
CN103455434B (zh) 一种建立缓存目录的方法及系统
CN106484782B (zh) 一种基于多核哈希学习的大规模医学图像检索方法
Kong et al. Robust convnet landmark-based visual place recognition by optimizing landmark matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531