CN110309146A - 一种支持双向索引的值域数据索引库建立方法 - Google Patents
一种支持双向索引的值域数据索引库建立方法 Download PDFInfo
- Publication number
- CN110309146A CN110309146A CN201910384108.8A CN201910384108A CN110309146A CN 110309146 A CN110309146 A CN 110309146A CN 201910384108 A CN201910384108 A CN 201910384108A CN 110309146 A CN110309146 A CN 110309146A
- Authority
- CN
- China
- Prior art keywords
- value
- data
- duplicate removal
- index
- full dose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持双向索引的值域数据索引库建立方法,具体涉及数据安全技术领域,具体审计步骤如下:首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表。本发明提供一种将数据访问全路径关联起来的方法,供快速查询检索使用,可根据某数值直接查询到该值所出现的数据存储位置;用于海量数据分析场景,可快速建立对海量数据及其存储位置的查询与匹配索引,提供新的以及其他相关的业务分析。
Description
技术领域
本发明涉及数据索引技术领域,更具体地说,本发明涉及一种支持双向索引的值域数据索引库建立方法。
背景技术
常见数据存储场景以正向存储为主要手段,缺乏以数据值为基础的快速索引和查询方法,缺乏对数据值所出现位置的统计与精确定位;并且存储场景的单值查询需耗费较多时间。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种支持双向索引的值域数据索引库建立方法,加快数据检索效率,相比常见数据库可节省30%-60%检索时间。
为实现上述目的,本发明提供如下技术方案:一种支持双向索引的值域数据索引库建立方法,具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”。
在一个优选地实施方式中,所述S1步骤中全量数据的编码格式为MD5或hash。
本发明的技术效果和优点:
本发明提供一种支持双向索引的值域数据索引库建立方法,在数据特征层面进行机器学习与分析,对数值及所在的数据存储位置进行加密转码存储,存储为key-value结构,key值为数值,value为该值所在的域,进行分析转储,并同步存储反向索引,建立索引库,供快速查询检索使用,可根据某数值直接查询到该值所出现的数据存储位置;用于海量数据分析场景,可快速建立对海量数据及其存储位置的查询与匹配索引,提供新的以及其他相关的业务分析。
附图说明
图1为本发明实施例的整体流程图;
图2为本发明实施例的全量字段列表;
图3为本发明实施例的数据表关联列表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
一种支持双向索引的值域数据索引库建立方法,如图1所示,具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础输入系统进行MD5或hash格式编码,采用MD5算法加密并保证全局唯一性,全量扫描系统,取得数据的加密编码,连同值所在的数据域,作为全量字段列表(见图2)存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”,可以通过某个数据值,查询到该值所出现的数据存储位置,出现次数等关键数据,见图3。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种支持双向索引的值域数据索引库建立方法,其特征在于:具体审计步骤如下:
S1、首轮计算存储:以全量数据为基础进行编码,采用MD5算法加密并保证全局唯一性,取得数据的加密编码,连同值所在的数据域,作为全量字段列表存入“值索引库”;
S2、次轮去重分析计算,根据“值索引库”所记录的全量数据的对应值,采用hash值去重算法,进行数据值去重,去重后的值存入去重值列表;
同时启动统计程序,统计合并存储后单个数据值所在的所有数据域,统计单个数据值的出现次数,并重新存入“值--域索引库”;
S3、第三轮分析计算,采用倒排索引算法,根据“值--域索引库”中的去重后的数据值,建立全量倒排索引,并采用缓存策略,将最近使用的数据索引到加载到内存中待用,
至此三轮分析计算完成后,获得该批海量数据的“值--域索引库”。
2.根据权利要求1所述的一种支持双向索引的值域数据索引库建立方法,其特征在于:所述S1步骤中全量数据的编码格式为MD5或hash。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384108.8A CN110309146A (zh) | 2019-05-09 | 2019-05-09 | 一种支持双向索引的值域数据索引库建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384108.8A CN110309146A (zh) | 2019-05-09 | 2019-05-09 | 一种支持双向索引的值域数据索引库建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309146A true CN110309146A (zh) | 2019-10-08 |
Family
ID=68074608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910384108.8A Pending CN110309146A (zh) | 2019-05-09 | 2019-05-09 | 一种支持双向索引的值域数据索引库建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579649A (zh) * | 2020-12-24 | 2021-03-30 | 成都中科大旗软件股份有限公司 | 一种基于索引技术实现k-v逆转检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN102521269A (zh) * | 2011-11-22 | 2012-06-27 | 清华大学 | 一种基于索引的计算机连续数据保护方法 |
CN104408097A (zh) * | 2014-11-17 | 2015-03-11 | 深圳市比一比网络科技有限公司 | 一种基于字符段热更新的混合索引方法及系统 |
CN106776772A (zh) * | 2016-11-10 | 2017-05-31 | 北京锐安科技有限公司 | 一种数据检索的方法及装置 |
US9977807B1 (en) * | 2017-02-13 | 2018-05-22 | Sas Institute Inc. | Distributed data set indexing |
-
2019
- 2019-05-09 CN CN201910384108.8A patent/CN110309146A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN102521269A (zh) * | 2011-11-22 | 2012-06-27 | 清华大学 | 一种基于索引的计算机连续数据保护方法 |
CN104408097A (zh) * | 2014-11-17 | 2015-03-11 | 深圳市比一比网络科技有限公司 | 一种基于字符段热更新的混合索引方法及系统 |
CN106776772A (zh) * | 2016-11-10 | 2017-05-31 | 北京锐安科技有限公司 | 一种数据检索的方法及装置 |
US9977807B1 (en) * | 2017-02-13 | 2018-05-22 | Sas Institute Inc. | Distributed data set indexing |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579649A (zh) * | 2020-12-24 | 2021-03-30 | 成都中科大旗软件股份有限公司 | 一种基于索引技术实现k-v逆转检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943951B (zh) | 一种区块链业务信息的检索方法及系统 | |
US8140495B2 (en) | Asynchronous database index maintenance | |
CN105528367B (zh) | 基于开源大数据对时间敏感数据的存储和近实时查询方法 | |
EP2587391B1 (en) | System and method of combined database system | |
CN109033186A (zh) | 数据一致性检测方法、装置、存储介质及电子设备 | |
US20170011082A1 (en) | Mechanisms for merging index structures in molap while preserving query consistency | |
US20240004881A1 (en) | System And Method For Query Resource Caching | |
US20060195309A1 (en) | Real-time threshold state analysis | |
US8935207B2 (en) | Inspecting replicated data | |
Leno et al. | Discovering process maps from event streams | |
Di Angelo et al. | Mayflies, breeders, and busy bees in Ethereum: smart contracts over time | |
CN108228432A (zh) | 一种分布式链路跟踪、分析方法及服务器、全局调度器 | |
XiaoJu et al. | Ebtree: A b-plus tree based index for ethereum blockchain data | |
CN110309146A (zh) | 一种支持双向索引的值域数据索引库建立方法 | |
US10997171B2 (en) | Database performance analysis based on a random archive | |
CN110795614A (zh) | 一种索引自动优化方法及装置 | |
Ng et al. | Incremental mining for temporal association rules for crime pattern discoveries | |
CN106294401A (zh) | 自动建立sql名单库的方法及装置 | |
US10747438B1 (en) | Reporting using archived data | |
US8041740B1 (en) | Database system, method, and computer program product for recording entity state and type information for use during subsequent processing of data | |
CN105094986A (zh) | 一种面向存储系统的突发访问行为的预测方法及装置 | |
Cao et al. | Embedding index maintenance in store routines to accelerate secondary index building in HBase | |
Kazman et al. | Bridging the gaps between software engineering and human-computer interaction | |
Sukarsa et al. | Change data capture on OLTP staging area for nearly real time data warehouse base on database trigger | |
Gupta et al. | Pragamana: performance comparison and programming alpha-miner algorithm in relational database query language and NoSQL column-oriented using apache phoenix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |
|
RJ01 | Rejection of invention patent application after publication |