CN110716940B - 一种增量式数据存取系统 - Google Patents

一种增量式数据存取系统 Download PDF

Info

Publication number
CN110716940B
CN110716940B CN201910990641.9A CN201910990641A CN110716940B CN 110716940 B CN110716940 B CN 110716940B CN 201910990641 A CN201910990641 A CN 201910990641A CN 110716940 B CN110716940 B CN 110716940B
Authority
CN
China
Prior art keywords
data
buffer layer
layer
memory
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910990641.9A
Other languages
English (en)
Other versions
CN110716940A (zh
Inventor
彭韬
王毅峰
段江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu 9broad Technology Co ltd
Original Assignee
Chengdu 9broad Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu 9broad Technology Co ltd filed Critical Chengdu 9broad Technology Co ltd
Priority to CN201910990641.9A priority Critical patent/CN110716940B/zh
Publication of CN110716940A publication Critical patent/CN110716940A/zh
Application granted granted Critical
Publication of CN110716940B publication Critical patent/CN110716940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据库技术领域,公开了一种增量式数据存取系统,其包括缓冲层和物理层;所述缓冲层将输入数据存储到物理层,并根据缓冲层大小缓存全部或者部分数据在缓冲层,所述缓冲层还用于外部查询访问;所述物理层用于数据存储,所述物理层对已存入的数据按输入操作关系存储,保留数据输入的历史,已存入数据的历史不进行修改和删除操作,所存储的输入数据以及派生的结构化数据均为增量式数据。本申请采用多级分层的存取结构设计,使得系统可以根据自身业务情况选择合适的内存数据结构,在对整个历史数据保持高效率地索引读取的同时,对远超过设备内存容量的大规模增量式数据结构进行自适应的持久化存储,提高了整个数据存取系统的实际可持续性。

Description

一种增量式数据存取系统
技术领域
本发明涉及数据库技术领域,特别是一种增量式数据存取系统。
背景技术
当前在某些技术领域,例如区块链技术领域,其数据存取系统对于内存存储的管理提出了挑战。在这类系统中,计算机系统除了按时间顺序对数据输入进行记录外,还需要构建派生于这些数据输入的系统状态或历史状态数据以提供给外界快速的查询和索引操作。按时序记录的数据存储的是输入数据的原始信息,可以按照时间顺序存储,内存管理和数据存取的性能对于验证这些数据历史的完整性以及在系统所在计算机重启时根据逻辑规则重构整个数据结构的历史状态至关重要。
例如社交应用系统中用户账户的历史操作,账户历史操作记录包含系统中每个用户的所有操作状态,如帐户余额的变化、账户行为以及行为产生的结果等。为了对海量账户的历史操作数据进行存储和快速访问,直接的做法是将账户历史操作记录数据常驻内存中。但是,由于用户的某些操作会衍生出数量众多的关联操作,比如一个社交行为可以衍生出极其庞大的社交状态结果。当这样的社交应用构建在区块链技术之上时,由于区块链系统数据历史不可修改和不可删除的特性,账户历史操作记录数据便会只增不减,随着用户活跃数量的增加,账户的历史操作记录高速增长,因此提供所有数据访问的计算机系统将需要大量的内存来支持账户历史记录的快速存储和检索。针对不断增加的用户操作情况,系统扩容的方法只能靠不断增加内存来满足整个历史操作记录数据的存储和访问,但由于计算机硬件的瓶颈,这最终是不可持续的。
发明内容
本发明所要解决的技术问题是:针对在历史不可修改和删除的增量式数据存取系统中,计算机系统内存管理上不能同时满足高效率和可持续存储的问题;即为了解决大规模持续数据输入业务的数据存取系统存在数据访问效率低下和数据存储的不可持续问题,提供了一种增量式数据存取系统。
本发明采用的技术方案如下:一种增量式数据存取系统,包括缓冲层和物理层;所述缓冲层将输入数据存储到物理层,并根据缓冲层大小缓存全部或者部分数据在缓冲层,所述缓冲层还用于外部查询访问;所述物理层用于数据存储,所述物理层对已存入的数据按输入操作关系存储,保留数据输入的历史,已存入数据的历史不进行修改和删除操作,所存储的输入数据以及派生的结构化数据均为增量式数据。
进一步的,所述输入操作关系包括但不限于时间顺序。
进一步的,所述增量式数据存取系统还包括访问接口层,所述访问接口层包括业务输入API数据接口和业务查询API数据接口,所述业务输入API数据接口用于输入数据的输入操作,所述业务查询API数据接口用于查询数据的查询操作。
进一步的,所述缓冲层采用Key-Value形式的内存数据库结构,对整个业务应用的访问接口层表现为一致的数据输入、查询或索引方法,并且对访问接口层提供统一的包含整个业务数据的数据视图,并向访问接口层返回满足业务数据结构要求的结果。
进一步的,所述缓冲层缓存部分数据的方法为:查询数据的访问时间,如果该数据在T时间内查询过,则将该数据进行缓存在缓冲区,否则只存储在物理层。
进一步的,所述缓冲层缓存部分数据的方法中,当缓冲层缓存的业务历史数据的内存结构大小超过系统所在物理设备内存设置限制后,缓冲层将根据情况对部分存储时间较长的业务数据进行丢弃并清除该部分内存占用,缓冲层在内存中维护一个最近最常使用的小规模数据。
进一步的,所述缓冲层在内存中维护一个最近最常使用的小规模数据时,如果查询数据索引范围正好在缓冲层内存中,那么缓冲层直接返回结果;如果不在缓冲范围中,缓冲层数据库将对物理层进行寻址以返回该查询结果。
进一步的,所述物理层结构对缓冲层的任意输入数据均进行持久化存储,对任意历史数据的查询和索引操作均能返回正确的原始结果;物理层通过调用各种物理存储系统的输入输出接口来进行数据存取。
进一步的,所述物理存储系统包括但不限于纯内存、闪存、高速磁盘或分布式存储系统。
与现有技术相比,采用上述技术方案的有益效果为:本发明通过在整个数据管理技术架构中采用多级分层的存取结构设计,使得系统可根据自身业务情况选择合适的内存数据结构,在对整个输入历史数据保持高效率地索引读取的同时,对远超过内存容量的大规模增量式数据结构进行动态的持久化存储,提高了整个数据存取系统的实际可持续性。
附图说明
图1是本发明增量式数据存取系统的其中一种实施例的实施方法示意图。
具体实施方式
下面结合附图对本发明做进一步描述,但本发明并不限于这些实施例。还应当理解,此处所描述的具体实施例仅仅用于理解本发明,并不用于限定本发明。
在本申请实施例中,通过访问接口层的API逻辑来构建对业务服务器的业务查询结果数据结构,该数据结构不常驻内存,仅对当次API调用有效,这可以针对业务需求进行性能调优和格式转换。访问接口层对于本发明来说,不是必须部分,而是优选部分。缓冲层采用一种Key-Value形式的内存数据库结构,提供一个满足整个业务需要的完整数据视图,接口层可以随时读取或索引该数据库,且访问接口层对该缓冲层的数据存取采用统一的快速内存访问。缓冲层对接口层发来的数据输入操作,均通过物理层接口进行持久化存储;物理层支持各种配置,可以根据当前业务规模和性能需求在不同的生产环境(纯内存、闪存、高速硬盘或者分布式存储)中对底层存储机制进行调优以满足系统数据存储的可持续要求,支持不同的数据压缩算法、和生产环境debug的完善工具。物理层的主要设计点是在快存和高服务压力下性能表现优越,所以该层需要支持配置各种参数在高压力的随机读、随机写或者二者流量都很大时性能调优,具体方法这里不做赘述。
可见,本发明的技术方案采用了多级分层的存取结构设计,下面结合图1做详细说明如下:
以区块链下的大规模社交场景为例,由于用户的某些操作会衍生出数量众多的关联操作,比如设定对一个帖子点赞会影响(奖励)与该帖子交互的其他用户,那么一个帖子的点赞数为N,则衍生出的涉及其它用户的影响历史记录为N*(N+1)/2,如某个帖子点赞数为100条,则衍生的关联历史记录为5050条,如点赞数为1000条,则衍生的关联历史记录为500500条,并且由于区块链历史不可修改和删除的特性,账户历史操作记录数据具有只增不减的性质。随着用户活跃数量的增加,账户的历史操作记录为指数级别增长,因此提供所有历史内容访问的计算机系统将需要大量的设备内存来支持账户历史记录的快速存储和检索,并且每次计算机重启都需要利用区块链块历史数据输入记录在内存中重构衍生的关联账户历史操作记录和重新构建索引。
以对用户发帖点赞行为输入进行存储为例,数据在各层的写入处理逻辑如下:
在提供输入业务访问的业务输入API数据接口,点赞操作在业务输入API数据接口内存中临时构建点赞业务数据结构并填充数据内容,该内容仅针对这次行为输入操作,访问接口层通过调用缓冲层的统一数据存储接口进行数据写入。访问接口层完成输入操作返回执行结果后,访问接口层清除该操作临时分配的所有内存。
缓冲层处理写入数据操作,对该操作数据结构进行转换,以转换为缓冲层统一数据视图兼容的Key-Value结构,并且调用物理层存储接口以进行一次持久化存储。物理层接受本次写入立即返回结果,实际的持久化存储动作由物理层根据需要异步执行完成。
物理层对写入操作根据生产环境的内存设置和物理存储系统配置,动态异步对实际物理存储设备(纯内存、闪存、高速磁盘或者分布式数据存储)进行写入。
以对用户发帖点赞产生的奖励进行查询为例,数据在各层的读取处理逻辑如下:
在提供查询业务访问的API数据接口,该操作在内存中临时构建返回的业务数据结构并填充数据内容,该内容仅针对这次查询操作,操作结束结果返回后,接口调用内存中的数据即被清除以恢复内存空间。
上述查询操作中,访问接口层通过缓冲层提供的数据视图进行一次统一的全局数据库索引操作。
基于以下两个过程:(1)查询数据的访问时间,如果该数据在T(根据需要设定,例如30min)时间内查询过,则将该数据进行缓存在缓冲区,否则只存储在物理层;(2)当缓冲层缓存的业务历史数据的内存结构大小超过系统所在物理设备内存设置限制后,缓冲层将根据情况对部分存储时间较长的业务数据进行丢弃并清除该部分内存占用,该过程称为“缓冲层内存溢出”;缓冲层在内存中维护一个最近最常使用的小规模数据,如果查询数据索引范围正好在内存缓冲中,那么直接返回结果;如果不在缓冲范围中,缓冲层数据库将对物理层进行寻址以返回该查询结果。
物理层对缓冲层溢出的寻址操作进行分析,根据当前物理层配置,针对不同物理存储系统(纯内存、闪存、高速磁盘或者分布式数据存储)进行数据读取,将读取到的寻址结果返回给缓冲层。
随着技术的发展,产生新的物理层存储技术也可以适应于本申请的技术方案,也处于本申请保护的范围。
在本申请实施例中,所述Key-Value内存数据库可以为MangoDB、LevelDB或者RocksDB等现有内存数据库技术,这里不再赘述。
在本实施例中,通过在物理层中采用不同的可持久存储策略,将大规模数据存储和业务内存索引视图结构分离,使得各业务根据自身情况选择合适的内存逻辑数据结构,提高各业务的数据存取运行效率,进而提高整个大规模增量式数据存取系统的效率。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

Claims (1)

1.一种增量式数据存取系统,其特征在于,包括缓冲层和物理层;所述缓冲层将输入数据存储到物理层,并根据缓冲层大小缓存全部或者部分数据在缓冲层,所述缓冲层还用于外部查询访问;所述物理层用于数据存储,所述物理层对已存入的数据按输入操作关系存储,保留数据输入的历史,已存入数据的历史不进行修改和删除操作,所存储的输入数据以及派生的结构化数据均为增量式数据;其中,所述增量式数据指数据历史不可修改和不可删除的数据;
所述缓冲层缓存部分数据的方法为:查询数据的访问时间,如果该数据在T时间内查询过,则将该数据进行缓存在缓冲区,否则只存储在物理层;其中,T为预先设置的时间参量;
所述缓冲层缓存部分数据的方法中,当缓冲层缓存的业务历史数据的内存结构大小超过系统所在物理设备内存设置限制后,缓冲层将根据情况对部分存储时间较长的业务数据进行丢弃并清除该部分内存占用,缓冲层在内存中维护一个最近最常使用的小规模数据;
所述输入操作关系包括但不限于时间顺序;
所述增量式数据存取系统还包括访问接口层,所述访问接口层包括业务输入API数据接口和业务查询API数据接口,所述业务输入API数据接口用于输入数据的输入操作,所述业务查询API数据接口用于查询数据的查询操作;
所述缓冲层采用Key-Value形式的内存数据库结构,对整个业务应用的访问接口层表现为一致的数据输入、查询或索引方法,并且对访问接口层提供统一的包含整个业务数据的数据视图,并向访问接口层返回满足业务数据结构要求的结果;
所述缓冲层在内存中维护一个最近最常使用的小规模数据时,如果查询数据索引范围正好在缓冲层内存中,那么缓冲层直接返回结果;如果不在缓冲范围中,缓冲层数据库将对物理层进行寻址以返回该查询结果;
所述物理层结构对缓冲层的任意输入数据均进行持久化存储,对任意历史数据的查询和索引操作均能返回正确的原始结果;物理层通过调用各种物理存储系统的输入输出接口来进行数据存取;
所述物理存储系统包括但不限于纯内存、闪存、高速磁盘或分布式存储系统。
CN201910990641.9A 2019-10-18 2019-10-18 一种增量式数据存取系统 Active CN110716940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990641.9A CN110716940B (zh) 2019-10-18 2019-10-18 一种增量式数据存取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990641.9A CN110716940B (zh) 2019-10-18 2019-10-18 一种增量式数据存取系统

Publications (2)

Publication Number Publication Date
CN110716940A CN110716940A (zh) 2020-01-21
CN110716940B true CN110716940B (zh) 2022-04-12

Family

ID=69211871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990641.9A Active CN110716940B (zh) 2019-10-18 2019-10-18 一种增量式数据存取系统

Country Status (1)

Country Link
CN (1) CN110716940B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485427A (zh) * 2022-10-14 2023-07-25 南京贝特威信息技术有限公司 一种面向全球民航客票燃油附加费实时计算的预处理方法及系统
CN116645228A (zh) * 2022-12-28 2023-08-25 南京贝特威信息技术有限公司 一种面向全球民航客票机场税实时计算的预处理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155759A1 (en) * 2004-12-29 2006-07-13 Yahoo! Inc. Scalable cache layer for accessing blog content
US11003663B2 (en) * 2017-10-10 2021-05-11 Paypal, Inc. Configuration-aware micro-database caches
CN109446358A (zh) * 2018-08-27 2019-03-08 电子科技大学 一种基于id缓存技术的图数据库加速装置和方法
CN110109927A (zh) * 2019-04-25 2019-08-09 上海新炬网络技术有限公司 基于LSM树的Oracle数据库数据处理方法

Also Published As

Publication number Publication date
CN110716940A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN107888687B (zh) 一种基于分布式存储系统的代理客户端存储加速方法及系统
US11314689B2 (en) Method, apparatus, and computer program product for indexing a file
KR20090037705A (ko) 불휘발성 메모리 시스템 및 그것의 파일 데이터 관리 방법
CN110716940B (zh) 一种增量式数据存取系统
CN103345368B (zh) 一种在缓冲存储器中缓存数据的方法
CN107391544B (zh) 列式存储数据的处理方法、装置、设备及计算机储存介质
CN112346659B (zh) 一种分布式对象存储元数据的存储方法、设备及存储介质
CN112035528A (zh) 数据查询方法及装置
CN111159176A (zh) 一种海量流数据的存储和读取的方法和系统
US10515671B2 (en) Method and apparatus for reducing memory access latency
CN112051968B (zh) 基于Kafka的分布式数据流分级缓存自动迁移方法
CN113836162A (zh) 一种业务解耦并实现多级缓存的自动化更新的方法及装置
CN111427885A (zh) 基于查找表的数据库管理方法和装置
CN104158863A (zh) 基于事务级别全程高速缓冲的云存储机制
CN105915619A (zh) 顾及访问热度的网络空间信息服务高性能内存缓存方法
CN112732725B (zh) 基于nvm混合内存的自适应前缀树构建方法及其系统、介质
CN110704431A (zh) 一种海量数据的分级存储管理方法
CN114490443A (zh) 一种基于共享内存的golang进程内缓存方法
CN108280123B (zh) 一种HBase的列聚合方法
US20240020014A1 (en) Method for Writing Data to Solid-State Drive
CN117472285A (zh) 固态硬盘用智能运行加速方法、计算机设备及存储介质
WO2024108939A1 (zh) 一种多级映射框架、数据操作请求处理方法及系统
CN115774699B (zh) 数据库共享字典压缩方法、装置、电子设备及存储介质
CN108647157A (zh) 一种基于相变存储器的映射管理方法及固态硬盘
CN108664217A (zh) 一种降低固态盘存储系统写性能抖动的缓存方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant