CN110309146A - 一种支持双向索引的值域数据索引库建立方法 - Google Patents

一种支持双向索引的值域数据索引库建立方法 Download PDF

Info

Publication number
CN110309146A
CN110309146A CN201910384108.8A CN201910384108A CN110309146A CN 110309146 A CN110309146 A CN 110309146A CN 201910384108 A CN201910384108 A CN 201910384108A CN 110309146 A CN110309146 A CN 110309146A
Authority
CN
China
Prior art keywords
value
data
duplicate removal
index
full dose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910384108.8A
Other languages
English (en)
Inventor
陈世忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
All-Knowledgeable Science And Technology (hangzhou) Co Ltd
Original Assignee
All-Knowledgeable Science And Technology (hangzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by All-Knowledgeable Science And Technology (hangzhou) Co Ltd filed Critical All-Knowledgeable Science And Technology (hangzhou) Co Ltd
Priority to CN201910384108.8A priority Critical patent/CN110309146A/zh
Publication of CN110309146A publication Critical patent/CN110309146A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种支持双向索引的值域数据索引库建立方法,具体涉及数据安全技术领域,具体审计步骤如下:首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表。本发明提供一种将数据访问全路径关联起来的方法,供快速查询检索使用,可根据某数值直接查询到该值所出现的数据存储位置;用于海量数据分析场景,可快速建立对海量数据及其存储位置的查询与匹配索引,提供新的以及其他相关的业务分析。

Description

一种支持双向索引的值域数据索引库建立方法
技术领域
本发明涉及数据索引技术领域,更具体地说,本发明涉及一种支持双向索引的值域数据索引库建立方法。
背景技术
常见数据存储场景以正向存储为主要手段,缺乏以数据值为基础的快速索引和查询方法,缺乏对数据值所出现位置的统计与精确定位;并且存储场景的单值查询需耗费较多时间。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种支持双向索引的值域数据索引库建立方法,加快数据检索效率,相比常见数据库可节省30%-60%检索时间。
为实现上述目的,本发明提供如下技术方案:一种支持双向索引的值域数据索引库建立方法,具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”。
在一个优选地实施方式中,所述S1步骤中全量数据的编码格式为MD5或hash。
本发明的技术效果和优点:
本发明提供一种支持双向索引的值域数据索引库建立方法,在数据特征层面进行机器学习与分析,对数值及所在的数据存储位置进行加密转码存储,存储为key-value结构,key值为数值,value为该值所在的域,进行分析转储,并同步存储反向索引,建立索引库,供快速查询检索使用,可根据某数值直接查询到该值所出现的数据存储位置;用于海量数据分析场景,可快速建立对海量数据及其存储位置的查询与匹配索引,提供新的以及其他相关的业务分析。
附图说明
图1为本发明实施例的整体流程图;
图2为本发明实施例的全量字段列表;
图3为本发明实施例的数据表关联列表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
一种支持双向索引的值域数据索引库建立方法,如图1所示,具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础输入系统进行MD5或hash格式编码,采用MD5算法加密并保证全局唯一性,全量扫描系统,取得数据的加密编码,连同值所在的数据域,作为全量字段列表(见图2)存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”,可以通过某个数据值,查询到该值所出现的数据存储位置,出现次数等关键数据,见图3。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种支持双向索引的值域数据索引库建立方法,其特征在于:具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”。
2.根据权利要求1所述的一种支持双向索引的值域数据索引库建立方法,其特征在于:所述S1步骤中全量数据的编码格式为MD5或hash。
CN201910384108.8A 2019-05-09 2019-05-09 一种支持双向索引的值域数据索引库建立方法 Pending CN110309146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910384108.8A CN110309146A (zh) 2019-05-09 2019-05-09 一种支持双向索引的值域数据索引库建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910384108.8A CN110309146A (zh) 2019-05-09 2019-05-09 一种支持双向索引的值域数据索引库建立方法

Publications (1)

Publication Number Publication Date
CN110309146A true CN110309146A (zh) 2019-10-08

Family

ID=68074608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910384108.8A Pending CN110309146A (zh) 2019-05-09 2019-05-09 一种支持双向索引的值域数据索引库建立方法

Country Status (1)

Country Link
CN (1) CN110309146A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579649A (zh) * 2020-12-24 2021-03-30 成都中科大旗软件股份有限公司 一种基于索引技术实现k-v逆转检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN102521269A (zh) * 2011-11-22 2012-06-27 清华大学 一种基于索引的计算机连续数据保护方法
CN104408097A (zh) * 2014-11-17 2015-03-11 深圳市比一比网络科技有限公司 一种基于字符段热更新的混合索引方法及系统
CN106776772A (zh) * 2016-11-10 2017-05-31 北京锐安科技有限公司 一种数据检索的方法及装置
US9977807B1 (en) * 2017-02-13 2018-05-22 Sas Institute Inc. Distributed data set indexing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136014A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种支持全文检索系统同时检索数值类型数据域的方法
CN102521269A (zh) * 2011-11-22 2012-06-27 清华大学 一种基于索引的计算机连续数据保护方法
CN104408097A (zh) * 2014-11-17 2015-03-11 深圳市比一比网络科技有限公司 一种基于字符段热更新的混合索引方法及系统
CN106776772A (zh) * 2016-11-10 2017-05-31 北京锐安科技有限公司 一种数据检索的方法及装置
US9977807B1 (en) * 2017-02-13 2018-05-22 Sas Institute Inc. Distributed data set indexing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579649A (zh) * 2020-12-24 2021-03-30 成都中科大旗软件股份有限公司 一种基于索引技术实现k-v逆转检索方法

Similar Documents

Publication Publication Date Title
CN107943951B (zh) 一种区块链业务信息的检索方法及系统
US8140495B2 (en) Asynchronous database index maintenance
CN105528367B (zh) 基于开源大数据对时间敏感数据的存储和近实时查询方法
EP2587391B1 (en) System and method of combined database system
CN109033186A (zh) 数据一致性检测方法、装置、存储介质及电子设备
US20170011082A1 (en) Mechanisms for merging index structures in molap while preserving query consistency
US20240004881A1 (en) System And Method For Query Resource Caching
US20060195309A1 (en) Real-time threshold state analysis
US8935207B2 (en) Inspecting replicated data
Leno et al. Discovering process maps from event streams
Di Angelo et al. Mayflies, breeders, and busy bees in Ethereum: smart contracts over time
CN108228432A (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
XiaoJu et al. Ebtree: A b-plus tree based index for ethereum blockchain data
CN110309146A (zh) 一种支持双向索引的值域数据索引库建立方法
US10997171B2 (en) Database performance analysis based on a random archive
CN110795614A (zh) 一种索引自动优化方法及装置
Ng et al. Incremental mining for temporal association rules for crime pattern discoveries
CN106294401A (zh) 自动建立sql名单库的方法及装置
US10747438B1 (en) Reporting using archived data
US8041740B1 (en) Database system, method, and computer program product for recording entity state and type information for use during subsequent processing of data
CN105094986A (zh) 一种面向存储系统的突发访问行为的预测方法及装置
Cao et al. Embedding index maintenance in store routines to accelerate secondary index building in HBase
Kazman et al. Bridging the gaps between software engineering and human-computer interaction
Sukarsa et al. Change data capture on OLTP staging area for nearly real time data warehouse base on database trigger
Gupta et al. Pragamana: performance comparison and programming alpha-miner algorithm in relational database query language and NoSQL column-oriented using apache phoenix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191008

RJ01 Rejection of invention patent application after publication