CN113779043A - 一种数据分布式缓存自动加载与转换方法 - Google Patents

一种数据分布式缓存自动加载与转换方法 Download PDF

Info

Publication number
CN113779043A
CN113779043A CN202111303289.0A CN202111303289A CN113779043A CN 113779043 A CN113779043 A CN 113779043A CN 202111303289 A CN202111303289 A CN 202111303289A CN 113779043 A CN113779043 A CN 113779043A
Authority
CN
China
Prior art keywords
data
cache
distributed
database
automatic loading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111303289.0A
Other languages
English (en)
Inventor
陈忠国
李忱
周鑫
江何
门殿春
孟繁荣
姚志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Testor Technology Co ltd
Beijing Tongtech Co Ltd
Original Assignee
Beijing Testor Technology Co ltd
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Testor Technology Co ltd, Beijing Tongtech Co Ltd filed Critical Beijing Testor Technology Co ltd
Priority to CN202111303289.0A priority Critical patent/CN113779043A/zh
Publication of CN113779043A publication Critical patent/CN113779043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分布式缓存自动加载与转换方法,具体涉及数据库技术领域,通过采用一致性哈希均匀分布的缓存方式,实现基于现一致性哈希分布式数据的环状存储结构,同时采用存入数据的特征提取,使其数据实现向特征的转换,并针对于特征创立相应集合数据库,采用独立的搜索引擎对内容索引,使其分布式大数据实现统一集合索引,提高检索速度同时,依照数据节点的超链对应,形成数据的精准读取,同步的配合三层缓存的方式,针对于时效性的缓存数据而言,对于清除的缓存数据单独存储,实现高频率文件的集合,降低再次通过分布式存储数据调用,一定程度上减缓了分布式存储的数据压力,同时针对于缓存效果进一步增强。

Description

一种数据分布式缓存自动加载与转换方法
技术领域
本发明涉及数据库技术领域,更具体地说,本发明涉及一种数据分布式缓存自动加载与转换方法。
背景技术
Redis是Remote Dictionary Server(Redis) 的缩写,是一个由SalvatoreSanfilippo编写的key-value存储系统,是一个使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型的Key-Value数据库,并提供多种语言的API。在很多地方,Redis也被业内人士称为数据结构服务器,因为它允许缓存的值(value)可以是字符串(string)、哈希(hash)、列表(list)、集合(set)和有序集合(sorted set)等类型。此外,Redis还支持master-slave方式的数据备份。
作为Redis分布式缓存的方式而言,采用传统的数据索引方式,对其分布的数据而言,形成较大的数据索引压力,其数据的索引速度一定程度上的制约了缓存数据引入的响应速度,同时针对于缓存数据而言,目前的缓存数据在一定当量的存储量下,使其失去时效性的缓存数据将会被清理,作为清理后的数据仍旧有着极大的调用可能性,无形中进一步增加分布数据索引的压力,使其无法做到原始数据的高效缓存读取与应用。
发明内容
为了克服现有技术的上述缺陷,本发明提供了一种数据分布式缓存自动加载与转换方法,本发明所要解决的技术问题是:针对于缓存数据而言,目前的缓存数据在一定当量的存储量下,使其失去时效性的缓存数据将会被清理,作为清理后的数据仍旧有着极大的调用可能性,无形中进一步增加分布数据索引的压力,使其无法做到原始数据的高效缓存读取与应用的问题。
为实现上述目的,本发明提供如下技术方案:一种数据分布式缓存自动加载与转换方法,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布。
步骤二:原始数据存入所述分布式数据缓存下层的数据库中,并对数据进行特征提取处理。
步骤三:所述步骤二中提取的特征数据建立与对应原始数据的索引超链,并提取原始数据位于模拟环状结构的对应数据节点部署。
步骤四:依据所述分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载特征搜索引擎。
步骤五:在所述集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
作为本发明的进一步方案:所述特征搜索引擎组成为多个source searchingEngine的安装,其下层安装有元搜索引擎。
作为本发明的进一步方案:步骤五中提出的所述三层缓存数据依照读取频率分层,所述三层缓存呈金字塔式分布,高频读取缓存位于顶端,低频读取缓存位于底端,且高频读取缓存数据量维持较少数目。
作为本发明的进一步方案:所述缓存节点中设置有Master和Slave节点,通过Master与Slave节点实现节点互相切换。
作为本发明的进一步方案:所述中层集合数据库采用基于database的MySQL数据库,所述步骤二中特征提取采用递归特征消除法方式。
本发明的有益效果在于:
本发明通过采用一致性哈希均匀分布的缓存方式,实现基于现一致性哈希分布式数据的环状存储结构,同时采用存入数据的特征提取,使其数据实现向特征的转换,并针对于特征创立相应集合数据库,采用独立的搜索引擎对内容索引,使其分布式大数据实现统一集合索引,提高检索速度同时,依照数据节点的超链对应,形成数据的精准读取,同步的配合三层缓存的方式,针对于时效性的缓存数据而言,对于清除的缓存数据单独存储,并依照读取频率实现数据的金字塔式区分,实现高频率文件的集合,降低再次通过分布式存储数据调用,一定程度上减缓了分布式存储的数据压力,并降低脏数据的影响,同时针对于缓存效果进一步增强。
附图说明
图1为本发明整体框架原理示意图;
图2为本发明流程框图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供,一种数据分布式缓存自动加载与转换方法,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布。
步骤二:原始数据存入分布式数据缓存下层的数据库中,并对数据进行特征提取处理。
步骤三:步骤二中提取的特征数据建立与对应原始数据的索引超链,并提取原始数据位于模拟环状结构的对应数据节点部署。
步骤四:依据分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载特征搜索引擎。
步骤五:在集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
通过上述步骤,在运作时,其数据录入过程中,通过采用递归特征消除法方式对数据进行特征提取,随即原始数据存入到数据库中,特征数据通过超链与对应的原始数据建立索引,随即多个数据的特征数据均存储到集合数据库内,依据内部的特征搜索引擎实现数据的高速检索,同时在分布式数据缓存过程中,直接采用对集合数据库内部进行读取即可,随即依据内部数据的读取数量依次排列,其排列呈金字塔状分为三层缓存,使其除了分布式缓存内部的高频缓存的数据而言,其余数据能够依照频率实现分级,进一步提升其读取的速度,其分布式缓存内的数据在失去时效性清除前其缓存数据位于集合数据库内标记,使其实现删除数据在二次提取时速度更快,无需通过超链在此索引原始文件。
在其他实施例中,特征搜索引擎组成为多个source searching Engine的安装,其下层安装有元搜索引擎。通过采用多个source searching Engine之上与元搜索引擎的配合方式,使其能够实现多个引擎的同步检索,提升其数据提取的效率。
在其他实施例中,步骤五中提出的三层缓存数据依照读取频率分层,三层缓存呈金字塔式分布,高频读取缓存位于顶端,低频读取缓存位于底端,且高频读取缓存数据量维持较少数目。通过采用三层缓存的方式,使其数据实现优先级的分类,检索采用金字塔的自上而下检索,使其读取频率高的数据能够更快的检索,使其在长时间的使用中,一定程度上的提高数据的提取速度,优化其整体的数据提取结构,降低数据库内原始数据检索和传输的压力。
在其他实施例中,缓存节点中设置有Master和Slave节点,通过Master与Slave节点实现节点互相切换。通过采用Master和Slave节点配合的方式,使其能够在某一节点故障时,能够实现配合切换,保障缓存数据的可靠性,
在其他实施例中,中层集合数据库采用基于database的MySQL数据库,步骤二中特征提取采用递归特征消除法方式。通过采用中层集合数据库采用基于database的关系型MySQL数据库结合超链的方式,使其能够保持特征与原始数据的稳定索引,使其逻辑性与线性更为可靠。
实施例1:
一种数据分布式缓存自动加载与转换方法,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布。
步骤二:分布式数据缓存下层的数据库中原始数据存入。
步骤三:依据分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载数据搜索引擎。
步骤四:在集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
特征搜索引擎组成为多个source searching Engine的安装,其下层安装有元搜索引擎。
步骤五中提出的三层缓存数据依照读取频率分层,三层缓存呈金字塔式分布,高频读取缓存位于顶端,低频读取缓存位于底端,且高频读取缓存数据量维持较少数目。
缓存节点中设置有Master和Slave节点,通过Master与Slave节点实现节点互相切换。
中层集合数据库采用基于database的MySQL数据库。
实施例2:
一种数据分布式缓存自动加载与转换方法,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布。
步骤二:原始数据存入分布式数据缓存下层的数据库中,并对数据进行特征提取处理。
步骤三:步骤二中提取的特征数据建立与对应原始数据的索引超链,并提取原始数据位于模拟环状结构的对应数据节点部署。
步骤四:依据分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载特征搜索引擎。
步骤五:在集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
特征搜索引擎组成为多个source searching Engine的安装,其下层安装有元搜索引擎。
步骤五中提出的三层缓存数据依照读取频率分层,三层缓存呈金字塔式分布,高频读取缓存位于顶端,低频读取缓存位于底端,且高频读取缓存数据量维持较少数目。
缓存节点中设置有Master和Slave节点,通过Master与Slave节点实现节点互相切换。
中层集合数据库采用基于database的MySQL数据库,步骤二中特征提取采用递归特征消除法方式。
实施例3:
一种数据分布式缓存自动加载与转换方法,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布。
步骤二:分布式数据缓存下层的数据库中原始数据存入并对数据进行特征提取处理。
步骤三:步骤二中提取的特征数据建立与对应原始数据的索引超链,并提取原始数据位于模拟环状结构的对应数据节点部署。
步骤四:依据分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载特征搜索引擎。
步骤五:在集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
缓存节点通过加入Master和Slave节点,Master与Slave节点实现互相切换。
中层集合数据库采用基于database的MySQL数据库,步骤二中特征提取采用递归特征消除法方式。
综上可知,本发明:上述三个实施例作为本发明的三种实施方式,且三个实施例均能实现分布式缓存在一定程度上的的速度与性能提升,施例二通过原始数据的特征数据的提取,以及超链的索引方式,相对于实施例一和实施例三比较下优化效果最为显著。
最后应说明的几点是:虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明的基础上,以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种数据分布式缓存自动加载与转换方法,其特征在于,包括以下方法:
步骤一:建立分布式数据缓存,通过MurmurHash计算方式实现hash计算,通过java的TreeMap来模拟环状结构,实现数据一致性哈希缓存节点均匀分布;
步骤二:原始数据存入所述分布式数据缓存下层的数据库中,并对数据进行特征提取处理;
步骤三:所述步骤二中提取的特征数据建立与对应原始数据的索引超链,并提取原始数据位于模拟环状结构的对应数据节点部署;
步骤四:依据所述分布式数据缓存建立中层集合数据库,并基于中层集合数据库装载特征搜索引擎;
步骤五:在所述集合数据库中建立三层缓存,并对预清理缓存进行提前量读取,实现缓存数据垃圾桶整合策略。
2.根据权利要求1所述的一种数据分布式缓存自动加载与转换方法,其特征在于:所述特征搜索引擎组成为多个source searching Engine的安装,其下层安装有元搜索引擎。
3.根据权利要求1所述的一种数据分布式缓存自动加载与转换方法,其特征在于:步骤五中提出的所述三层缓存数据依照读取频率分层,所述三层缓存呈金字塔式分布,高频读取缓存位于顶端,低频读取缓存位于底端,且高频读取缓存数据量维持较少数目。
4.根据权利要求1所述的一种数据分布式缓存自动加载与转换方法,其特征在于:所述缓存节点中设置有Master和Slave节点,通过Master与Slave节点实现节点互相切换。
5.根据权利要求1所述的一种数据分布式缓存自动加载与转换方法,其特征在于:所述中层集合数据库采用基于database的MySQL数据库,所述步骤二中特征提取采用递归特征消除法方式。
CN202111303289.0A 2021-11-05 2021-11-05 一种数据分布式缓存自动加载与转换方法 Pending CN113779043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111303289.0A CN113779043A (zh) 2021-11-05 2021-11-05 一种数据分布式缓存自动加载与转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111303289.0A CN113779043A (zh) 2021-11-05 2021-11-05 一种数据分布式缓存自动加载与转换方法

Publications (1)

Publication Number Publication Date
CN113779043A true CN113779043A (zh) 2021-12-10

Family

ID=78873604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111303289.0A Pending CN113779043A (zh) 2021-11-05 2021-11-05 一种数据分布式缓存自动加载与转换方法

Country Status (1)

Country Link
CN (1) CN113779043A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115481158A (zh) * 2022-09-22 2022-12-16 北京泰策科技有限公司 一种数据分布式缓存自动加载与转换方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168657A (zh) * 2017-06-15 2017-09-15 深圳市云舒网络技术有限公司 一种基于分布式块存储的虚拟磁盘分层缓存设计方法
CN107346307A (zh) * 2016-05-04 2017-11-14 北京京东尚科信息技术有限公司 分布式缓存系统及方法
US20200073765A1 (en) * 2018-09-03 2020-03-05 Ashish Tanwer Distributed backup and precise recovery for consistent hashing systems
CN111274310A (zh) * 2018-12-05 2020-06-12 中国移动通信集团山东有限公司 一种分布式数据缓存方法及系统
CN111459945A (zh) * 2020-04-07 2020-07-28 中科曙光(南京)计算技术有限公司 一种基于HBase的分层式索引查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346307A (zh) * 2016-05-04 2017-11-14 北京京东尚科信息技术有限公司 分布式缓存系统及方法
CN107168657A (zh) * 2017-06-15 2017-09-15 深圳市云舒网络技术有限公司 一种基于分布式块存储的虚拟磁盘分层缓存设计方法
US20200073765A1 (en) * 2018-09-03 2020-03-05 Ashish Tanwer Distributed backup and precise recovery for consistent hashing systems
CN111274310A (zh) * 2018-12-05 2020-06-12 中国移动通信集团山东有限公司 一种分布式数据缓存方法及系统
CN111459945A (zh) * 2020-04-07 2020-07-28 中科曙光(南京)计算技术有限公司 一种基于HBase的分层式索引查询方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115481158A (zh) * 2022-09-22 2022-12-16 北京泰策科技有限公司 一种数据分布式缓存自动加载与转换方法

Similar Documents

Publication Publication Date Title
CN110362572B (zh) 一种基于列式存储的时序数据库系统
CN106874437A (zh) 面向数据库一体机的内存数据仓库行列存储转换实现方法
CN103853727B (zh) 提高大数据量查询性能的方法及系统
CN102129458B (zh) 关系型数据库的存储方法及装置
CN108600321A (zh) 一种基于分布式内存云的图数据存储方法和系统
CN105556519A (zh) 对oracle存储器中数据库的存储器中快照存储的多版本并行控制
CN105556520A (zh) 在存储器中镜像盘中的数据以提高查询性能
CN107491495B (zh) 空间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法
CN103473260A (zh) 一种面向并发olap的测试数据分层聚簇查询处理系统及方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN113779043A (zh) 一种数据分布式缓存自动加载与转换方法
CN112286941A (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
CN109446358A (zh) 一种基于id缓存技术的图数据库加速装置和方法
CN106874465A (zh) 一种基于数据版本的高效管理缓存的方法
CN105912696A (zh) 一种基于对数归并的dns索引创建方法及查询方法
CN105550180B (zh) 数据处理的方法、装置及系统
CN111897813A (zh) 针对数据库资源的流控方法及装置
CN116756253B (zh) 关系型数据库的数据存储、查询方法、装置、设备和介质
CN116541427B (zh) 数据查询方法、装置、设备及存储介质
CN117473021A (zh) 一种基于cdc方式的达梦数据库增量同步实现方法
CN105868365A (zh) 一种基于Hadoop的传统网管数据处理方法
CN111460012A (zh) 基于Spark的气象历史台站沿革数据可视化方法及系统
CN115098486A (zh) 基于海关业务大数据的实时数据采集方法
CN114461635A (zh) 一种MySQL数据库数据存储方法、装置和电子设备
CN114595286A (zh) 一种数据同步方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211210

RJ01 Rejection of invention patent application after publication