CN115391609A - 一种数据处理方法、装置、存储介质及电子设备 - Google Patents

一种数据处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115391609A
CN115391609A CN202211014403.2A CN202211014403A CN115391609A CN 115391609 A CN115391609 A CN 115391609A CN 202211014403 A CN202211014403 A CN 202211014403A CN 115391609 A CN115391609 A CN 115391609A
Authority
CN
China
Prior art keywords
data
queue
linked list
target
written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211014403.2A
Other languages
English (en)
Inventor
方伯阳
徐泉清
聂铁铮
王国平
申德荣
杨传辉
寇月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Beijing Oceanbase Technology Co Ltd
Original Assignee
Northeastern University China
Beijing Oceanbase Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China, Beijing Oceanbase Technology Co Ltd filed Critical Northeastern University China
Priority to CN202211014403.2A priority Critical patent/CN115391609A/zh
Publication of CN115391609A publication Critical patent/CN115391609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供了一种数据处理方法、装置、存储介质及电子设备。在本说明书提供的数据处理方法中,会确定数据写入请求中包含的待写入数据的标识;随后判断目标链表中是否存在与所述待写入数据的标识相同的数据;若是,则删除目标链表中与所述待写入数据的标识相同的数据,并将所述待写入数据写入第一队列;若否,则直接将所述待写入数据写入第一队列;当第二队列满足压缩条件时,将第二队列的数据移动至外部存储器。在采用本说明书提供的数据处理方法处理采用日志结构合并树结构数据库的系统中的数据时,可通过删除重复标识的数据的方式,有效削减需要处理的数据量,避免了由于重复写入相同标识的数据而导致的系统吞吐量降低,性能受到影响。

Description

一种数据处理方法、装置、存储介质及电子设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
目前,用户对于隐私数据的重视度越来越高,日志结构合并树(Log-StructuredMerge-Tree,LSM树)这一数据结构在非关系型的数据库中被广泛使用。在向使用LSM树结构的数据库中写入数据时,数据首先会存储在位于内存中的内存表(Memory Table,MemTable)中,后续再进行持久化存储到外部存储器中。
如何保证数据处理效率也变成了数据库领域需要解决的问题之一。其中,如何提高写入时的效率成为需要解决的问题,对此本说明书提供一种数据处理方法。
发明内容
本说明书提供一种数据处理方法及数据处理装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种数据处理方法,所述方法应用于采用日志结构合并树的数据库的系统中,所述系统的内存的内存表中设置目标链表,所述目标链表由目标指针划分为第一队列和第二队列,所述方法包括:
接收数据写入请求,确定待写入数据的标识;
判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据;
若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
可选地,所述内存表中还包括:废弃链表;
删除所述历史数据,具体包括:
将所述历史数据从所述目标链表中移除,并将所述历史数据插入所述废弃链表中;
当所述第二队列满足压缩条件时,清空所述废弃链表。
可选地,所述方法还包括:
接收携带指定标识的回滚请求;
当所述废弃链表中存在标识与所述指定标识相同的指定数据时,将所述目标链表中标识与所述指定标识相同的数据从所述目标链表中移除,插入所述废弃链表中;
将所述指定数据从所述废弃链表中移除,并在所述第一队列插入所述指定数据。
可选地,所述转移条件包括:所述第一队列中存储的数据的数量不小于第一指定阈值;或,所述第一队列中存储的数据的大小不小于第二指定阈值。
可选地,所述第一队列尾与所述第二队列头相连;
调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中,具体包括:
调整所述目标指针在所述目标链表中的位置,使所述第一队列尾的数据在调整后被划分至所述第二队列头。
可选地,所述压缩条件包括:所述第二队列中存储的数据的数量不小于第三指定阈值;或,所述第二队列中存储的数据的大小不小于第四指定阈值。
可选地,将所述第二队列的数据移动至外部存储器存储,具体包括:
对所述第二队列中的数据进行压缩,生成包含所述第二队列中的数据的排序字符串表文件,其中,所述排序字符串表文件中数据的存储顺序与所述第二队列中数据的存储顺序相同;
清空所述第二队列;
将所述排序字符串表文件存储至外部存储器中。
本说明书提供了一种数据处理装置,所述装置应用于采用日志结构合并树的数据库的系统中,所述系统的内存的内存表中设置目标链表,所述目标链表由目标指针划分为第一队列和第二队列,所述装置包括:
接收模块,接收数据写入请求,确定待写入数据的标识;
判断模块,判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据;
删除模块,若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
默认模块,若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
转存模块,当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的数据处理方法中,会接收数据写入请求,并确定数据写入请求中包含的待写入数据的标识;随后判断目标链表中是否存在与所述待写入数据的标识相同的数据;若是,则删除目标链表中与所述待写入数据的标识相同的数据,并将所述待写入数据写入第一队列;若否,则直接将所述待写入数据写入第一队列;当第二队列满足压缩条件时,将第二队列的数据移动至外部存储器。在采用本说明书提供的数据处理方法处理采用日志结构合并树结构数据库的系统中的数据时,可通过删除重复标识的数据的方式,有效削减需要处理的数据量,避免了由于重复写入相同标识的数据而导致的系统吞吐量降低,性能受到影响。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种数据处理方法的流程示意图;
图2为本说明书提供的一种数据处理方法的应用示意图;
图3为本说明书提供的一种第一队列和第二队列在同一目标链表的结构示意图;
图4为本说明书提供的一种第一队列和第二队列分别为两个独立链表的结构示意图;
图5为本说明书提供的一种数据处理装置的示意图;
图6为本说明书提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种数据处理的方法的流程示意图,包括以下步骤:
S100:接收数据写入请求,确定待写入数据的标识。
在本说明书中,用于实现数据处理方法的执行主体,可以指任何具有能够采用日志结构合并树数据库的系统的设备,例如服务器等设置于业务平台的指定设备,为了便于描述,本说明书仅以服务器是执行主体为例,对本说明书提供的一种代码测试的方法进行说明。
本说明书提供的数据处理方法应用于采用日志结构合并树的数据库的系统中,所述方法应用于采用日志结构合并树的数据库的系统中,所述系统的内存的内存表中设置目标链表,所述目标链表由目标指针划分为第一队列和第二队列。本说明书提供的数据处理方法的应用示意图如图2所示,待写入数据首先进入内存表中,经过目标链表中的第一队列、第二队列后以SST文件的形式最终被保存在外部存储器中。
其中,第一队列和第二队列的具体结构可如图3所示。在如图3所示的目标链表中,数据A1的位置为目标链表的头,数据B6的位置为目标链表的尾;第一队列中包含数据A1-A4,其中,数据A1的位置为第一队列的头,数据A4的位置为第一队列的尾;相似的,第二队列中包含数据B1-B6,其中,数据B1的位置为第二队列的头,数据B6的位置为第二队列的尾;目标指针指向了第一队列的尾。
对于链表形式的队列,在插入数据时存在头插法和尾插法,为了方便表述并使说明更加清楚,在本说明书中,所有的插入数据均默认采用头插法。值得一提的是,队列的头尾设置与数据的插入方法并非只能够使用说明书中提供的这一种实施例,可以想到,将队列的头尾调换,并相对应地调整数据插入方法,同样可以实现本方法中的链表,本说明书在此不在进行赘述。
在LSM树结构下,系统的内存中会存在名为内存表的内存组件,当有新数据写入时,会优先将新数据存储在内存表中。在本说明书提供的数据处理方法中,内存表中存在两个队列:第一队列和第二队列。具体的,所述第一队列用于按照数据进入内存时的时刻从后到前的顺序,保存最新进入内存的若干个数据;所述第二队列用于按照数据被所述第一队列淘汰时的时刻从后到前的顺序,保存所述第一队列淘汰的若干个数据。其中,第一队列和第二队列的队列大小都可以根据需求进行设置,通常情况下,第二队列中保存的数据量可远大于第一队列。
在本说明书提供的数据处理方法中,数据的标识可以是数据的键。通常情况下,一个数据中可包含数据的键和值,即数据可以是键值对。例如,一个数据的键可以为“用户A的身高”,对应的值可以是“175”;或者一个数据的键可以为“用户B的体重”,对应的值可以是“60”。写入的每个数据中,都会包含标识和值两部分。
在此步骤中,当出现新的数据写入请求时,接收数据写入请求,并确定数据写入请求中包含的待写入数据的标识。
S102:判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据。
实际上,一个数据的标识表征了该数据所描述的对象,而该数据的值表征了该对象的具体信息。当两个不同数据的标识相同时,表明这两个不同的数据所描述的对象为同一对象。而从时间上考虑,获取到这两个标识相同的数据的时刻必然是不同的,那么对于先获取到的数据来说,后获取到的数据便是对先获取到的数据的一种更新;换句话说,新获取到的数据时效性更强,当新获取到的数据的标识与一个内存表中已有旧数据的标识相同时,那么这个旧数据所记录的便已经是无效数据了。
因此,在此步骤中,可判断目标链表中是否存储有与所述待写入数据的标识相同的数据,也就是第一队列或第二队列中是否出现了无效数据。
S104:若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
如果获取到的待写入数据的标识,与目标链表中已有的一个数据的标识相同,可将目标链表中标识与待写入数据的标识相同的数据作为重复标识的历史数据,并且,可以认为,目标链表中的该历史数据已经是过时的无效数据了,此时可将该历史数据从目标链表中删除。
值得一提的是,正常情况下,目标链表中只会存在不多于一个的重复标识的历史数据。若第一队列和第二队列中均不存在标识与待写入数据的标识相同的数据,那么此时便不存在历史数据;若第一队列中存在标识与待写入数据的标识相同的数据,那么历史数据便存在于第一队列中;同理,若第二队列中存在标识与待写入数据的标识相同的数据,那么历史数据便存在于第二队列中。由于每当一个新的数据进入内存表时,都会将内存表中标识与该数据相同的数据删除,因此,目标链表中最多同时存在一个标识与待写入数据的标识相同的数据,即历史数据。
在实际应用中,在将重复标识的历史数据删除时,并不会第一时间立刻将历史数据清除,而是会为了便于数据恢复,将历史数据继续保存一段时间。具体的,所述内存表中还包括:废弃队列;将所述历史数据从所述目标链表中移除,并将所述历史数据插入所述废弃链表中;当所述第二队列满足压缩条件时,清空所述废弃链表。
每当第二队列满足压缩条件时,就会将第二队列中的数据压缩并转移至外部存储器中,此时,便可以彻底舍弃废弃队列中的数据。
在废弃队列中存在数据时,可通过回滚将废弃队列中的数据恢复到第一队列中。具体的,可接收携带指定标识的回滚请求;当所述废弃链表中存在标识与所述指定标识相同的指定数据时,将所述目标链表中标识与所述指定标识相同的数据从所述目标链表中移除,插入所述废弃链表中;将所述指定数据从所述废弃链表中移除,并在所述第一队列插入所述指定数据。
值得一提的是,当废弃队列中存在多个标识与所述指定标识相同的数据时,通常会将进入废弃队列的时刻最早的一个数据进行回滚。
同时,可将待写入数据插入第一队列中。
S106:若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中。
如果目标链表中不存在标识与所述待写入数据的标识相同的数据,那么可直接将待写入数据写入第一队列。
在本说明书提供的数据处理方法中,第一队列的作用类似于“缓存”,相比于将数据保存下来,第一队列中的数据更偏向于临时储存在第一队列中,并不会参与LSM树的合并过程。由于获取待写入数据后,待写入数据首先会进入到第一队列中,因此第一队列中的数据全都是近期标识被访问过的数据,通常,近期标识被访问过的数据再次被访问的概率很高,也就是说,每当获取到待写入数据时,第一队列中存在标识与待写入数据的标识相同的数据的概率是很高的。而由于第一队列通常存储的数据量较少,因此很多情况下只需要在第一队列内完成对数据的操作,大大减少了需要处理的数据量。
可以想到的是,第一队列能够存放的数据量并不是无限的,因此,当第一队列满足转移更新条件时,可将第一队列中的第一指定数据移动到第二队列中。具体的,在本说明书中,转移条件可以与第一队列存储的数据相关。具体的,所述转移条件包括:所述第一队列中存储的数据的数量不小于第一指定阈值;或,所述第一队列中存储的数据的大小不小于第二指定阈值。其中,第一指定阈值和第二指定阈值都可以根据具体需求进行设定。
其中,第一指定阈值可以是具体的数,例如50、100、200等;第二指定阈值可以是具体的数据量,例如100兆字节(Megabytes,MB)、1吉字节(Gigabyte、GB)等。第一指定阈值和第二指定阈值都可根据实际需求进行设置。除此之外,还可将更新条件设置为第一队列中存储的数据量占第一队列可存放的数据总量的第一指定百分比,例如85%、100%等,同样的,第一指定百分比也可根据需求进行设置。
在第一队列中,是按照数据进入内存表时的时刻从后到前的顺序,对数据进行排序的,例如,数据A、数据B、数据C是在不同时刻连续进入内存表中的三个数据,进入内存表的顺序为数据B、数据C、数据A。那么此时,第一队列对这三个数据的排序可以为数据A、数据C、数据B,即按照数据进入内存表时的时刻从后到前的顺序进行排序,正好与数据进入内存的顺序相反。
同时,由于第一队列中保存的时最新进入内存中的若干各数据,因此,在需要将第一队列中的数据移动到第二队列中时,可将进入第一队列的时刻最早的数据移除出去。在上述排序方式下,可以看出,进入第一队列的时刻最早的数据,也就是最先写入第一队列的数据排在第一队列的最后,可将该数据从第一队列中移除,并写入第二队列中。
由于在本方法中,第一队列和第二队列是在同一链表中,由目标指针分开的相接的队列,因此,只需要改变目标指针的位置,便能够实现数据从第一队列到第二队列的转移。具体的,所述第一队列尾与所述第二队列头相连;可调整所述目标指针在所述目标链表中的位置,使所述第一队列尾的数据在调整后被划分至所述第二队列头。
以图2所示的目标链表为例,假设此时第一队列已经满足了转移条件,当有新数据A0需要进入时,则需要将第一队列中排在队尾的数据,也就是数据A4,移到第二队列中。A0在进入第一队列后,会排在第一队列头,也就是数据A1之前。由于目标指针指向第一队列的队尾,因此只需要将目标指针从指向数据A4改为指向数据A3,便完成了数据从第一队列到第二队列的转移。
S108:当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
在本说明书中,第二队列可用于帮助内存中的数据实现与外部存储器的交互。其中,外部存储器可以是硬盘、软盘、U盘等。第二队列按照数据被所述第一队列淘汰时的时刻从后到前的顺序,对数据进行排序。当第二队列满足压缩条件时,可将第二队列中的数据移动至外部存储器中进行保存。其中,所述压缩条件包括:所述第二队列中存储的数据的数量不小于第三指定阈值;或,所述第二队列中存储的数据的大小不小于第四指定阈值。
相似的,第三指定阈值可以是具体的数,第四指定阈值可以是具体的数据量;第三指定阈值和第四指定阈值也可根据具体需求进行设定。同样,压缩条件也可以是当第二队列中存储的数据的数据量达到第二队列能够存储的数据量的第二指定百分比,例如90%、100%等。
由于LSM树结构先将数据存储在内存中,后将数据存储到外部存储器中的这种异地存储的特点,当第二队列满足压缩条件时,就会触发LSM树的合并;LSM树的合并过程实际上可以是一个压缩的过程,将数据进行压缩并以SST文件的形式存储到硬盘中。具体的,可对所述第二队列中的数据进行压缩,生成包含所述第二队列中的数据的排序字符串表文件,其中,所述排序字符串表文件中数据的存储顺序与所述第二队列中数据的存储顺序相同;清空所述第二队列;将所述排序字符串表文件存储至外部存储器中。
当第二队列中的数据以SST文件的形式存放到外部存储器中后,就可以清空第二队列,也就是将第二队列中的所有数据清除。将第二队列变成空队列,并继续接收第一队列淘汰的数据。值得一提的是,当对第二队列中的数据进行压缩处理时,第一队列中的数据并不会同时被压缩,也不会发生任何变化,换句话说,第一队列并不会参与LSM树的合并。
在采用本说明书提供的数据处理方法处理采用LSM树结构的数据库的系统中的数据时,在每个新数据进入内存表中时,会对应地删除标识与新数据的标识相同的旧数据,以此防止了当出现大量写入时,频繁触发LSM树的合并过程,导致系统的吞吐量下降的情况,显著减少了系统需要处理的数据量,有效提高了系统的性能。
额外的,在本说明书中,无论是第一队列还是第二队列,实际上都只是把各数据在逻辑上连接起来,而并不会改变数据本身在外部存储器的存储地址。即,在对所述内存表中的数据进行操作时,所述数据的在外部存储器的存储地址不发生改变。其中,该外部存储器可为非易失性存储器,例如,硬盘、固态硬盘(Solid State Disk,SSD)等等。
同时,第一队列和第二队列也可以不存在于同一链表中,而是以两个单独的链表存在,如图4所示。在图4所示的结构下,在第一队列中的数据满足转移条件时,将第一队列尾结点的数据移出,再插入到第二队列中,同样可实现本说明书提供的数据处理方法;另外,也可将第一队列的尾结点与第二队列的头结点相连,也就是将两个链表拼接为一个链表,本说明书在此不再进行赘述。
以上为本说明书的一个或多个实施数据处理的方法,基于同样的思路,本说明书还提供了相应的数据处理装置,如图5所示。
图5为本说明书提供的一种数据处理装置的示意图,包括:
接收模块200,接收数据写入请求,确定待写入数据的标识;
判断模块202,判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据;
删除模块204,若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
默认模块206,若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
转存模块208,当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
可选地,所述内存表中还包括:废弃队列;
所述删除模块204,具体用于将所述历史数据从所述目标链表中移除,并将所述历史数据插入所述废弃链表中;当所述第二队列满足压缩条件时,清空所述废弃链表。
可选地,所述装置还包括,回滚模块210,具体用于接收携带指定标识的回滚请求;当所述废弃链表中存在标识与所述指定标识相同的指定数据时,将所述目标链表中标识与所述指定标识相同的数据从所述目标链表中移除,插入所述废弃链表中;将所述指定数据从所述废弃链表中移除,并在所述第一队列插入所述指定数据。
可选地,所述转移条件包括:所述第一队列中存储的数据的数量不小于第一指定阈值;或,所述第一队列中存储的数据的大小不小于第二指定阈值。
可选地,所述第一队列尾与所述第二队列头相连;
所述默认模块206,具体用于调整所述目标指针在所述目标链表中的位置,使所述第一队列尾的数据在调整后被划分至所述第二队列头。
可选地,所述压缩条件包括:所述第二队列中存储的数据的数量不小于第三指定阈值;或,所述第二队列中存储的数据的大小不小于第四指定阈值。
可选地,所述转移模块208,具体用于对所述第二队列中的数据进行压缩,生成包含所述第二队列中的数据的排序字符串表文件,其中,所述排序字符串表文件中数据的存储顺序与所述第二队列中数据的存储顺序相同;清空所述第二队列;将所述排序字符串表文件存储至外部存储器中。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种数据处理的方法。
本说明书还提供了图6所示的一种对应于图1的电子设备的示意结构图。如图6所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的数据处理的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种数据处理方法,所述方法应用于采用日志结构合并树的数据库的系统中,所述系统的内存的内存表中设置目标链表,所述目标链表由目标指针划分为第一队列和第二队列,所述方法包括:
接收数据写入请求,确定待写入数据的标识;
判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据;
若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
2.如权利要求1所述的方法,所述内存表中还包括:废弃链表;
删除所述历史数据,具体包括:
将所述历史数据从所述目标链表中移除,并将所述历史数据插入所述废弃链表中;
当所述第二队列满足压缩条件时,清空所述废弃链表。
3.如权利要求2所述的方法,所述方法还包括:
接收携带指定标识的回滚请求;
当所述废弃链表中存在标识与所述指定标识相同的指定数据时,将所述目标链表中标识与所述指定标识相同的数据从所述目标链表中移除,插入所述废弃链表中;
将所述指定数据从所述废弃链表中移除,并在所述第一队列插入所述指定数据。
4.如权利要求1所述的方法,所述转移条件包括:所述第一队列中存储的数据的数量不小于第一指定阈值;或,所述第一队列中存储的数据的大小不小于第二指定阈值。
5.如权利要求1所述的方法,所述第一队列尾与所述第二队列头相连;
调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中,具体包括:
调整所述目标指针在所述目标链表中的位置,使所述第一队列尾的数据在调整后被划分至所述第二队列头。
6.如权利要求1所述的方法,所述压缩条件包括:所述第二队列中存储的数据的数量不小于第三指定阈值;或,所述第二队列中存储的数据的大小不小于第四指定阈值。
7.如权利要求1所述的方法,将所述第二队列的数据移动至外部存储器存储,具体包括:
对所述第二队列中的数据进行压缩,生成包含所述第二队列中的数据的排序字符串表文件,其中,所述排序字符串表文件中数据的存储顺序与所述第二队列中数据的存储顺序相同;
清空所述第二队列;
将所述排序字符串表文件存储至外部存储器中。
8.一种数据处理装置,所述装置应用于采用日志结构合并树的数据库的系统中,所述系统的内存的内存表中设置目标链表,所述目标链表由目标指针划分为第一队列和第二队列,所述装置包括:
接收模块,接收数据写入请求,确定待写入数据的标识;
判断模块,判断所述目标链表中是否存储有与所述待写入数据的标识相同的历史数据;
删除模块,若是,则删除所述历史数据,并在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
默认模块,若否,则在所述第一队列插入所述待写入数据,当所述第一队列内的数据满足转移条件时,调整所述目标指针在所述目标链表中的位置,将所述第一队列尾的数据划分至所述目标链表的所述第二队列中;
转存模块,当所述第二队列满足压缩条件时,将所述第二队列的数据移动至外部存储器存储。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
CN202211014403.2A 2022-08-23 2022-08-23 一种数据处理方法、装置、存储介质及电子设备 Pending CN115391609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211014403.2A CN115391609A (zh) 2022-08-23 2022-08-23 一种数据处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014403.2A CN115391609A (zh) 2022-08-23 2022-08-23 一种数据处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115391609A true CN115391609A (zh) 2022-11-25

Family

ID=84120444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014403.2A Pending CN115391609A (zh) 2022-08-23 2022-08-23 一种数据处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115391609A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905266A (zh) * 2022-12-29 2023-04-04 支付宝(杭州)信息技术有限公司 图结构数据的处理方法和用于图结构数据的存储引擎
CN115964181A (zh) * 2023-03-10 2023-04-14 之江实验室 一种数据处理的方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905266A (zh) * 2022-12-29 2023-04-04 支付宝(杭州)信息技术有限公司 图结构数据的处理方法和用于图结构数据的存储引擎
CN115964181A (zh) * 2023-03-10 2023-04-14 之江实验室 一种数据处理的方法、装置、存储介质及电子设备
CN115964181B (zh) * 2023-03-10 2023-06-06 之江实验室 一种数据处理的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN107038206B (zh) Lsm树的建立方法、lsm树的数据读取方法和服务器
US11340812B2 (en) Efficient modification of storage system metadata
JP5732536B2 (ja) 重複排除に基づくストレージシステムにおけるスケーラブル参照管理のためのシステム、方法及び非一時的なコンピュータ可読ストレージ媒体
TWI719281B (zh) 用於串流選擇之系統、機器可讀媒體、及機器實施之方法
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
CN115391609A (zh) 一种数据处理方法、装置、存储介质及电子设备
US9965196B2 (en) Resource reservation for storage system metadata updates
CN110879800B (zh) 数据写入、压缩和读取方法、数据处理方法及装置
CN108829344A (zh) 数据存储方法、装置及存储介质
KR20170054299A (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
KR102264119B1 (ko) CaseDB: 엣지컴퓨팅을 위한 저비용 Put-Intensive 키-벨류 저장장치
US9307024B2 (en) Efficient storage of small random changes to data on disk
CN115328924B (zh) 一种创建表空间的方法、装置、存储介质及电子设备
CN112463058B (zh) 一种碎片数据整理方法、装置及存储节点
CN115168304B (zh) 一种数据处理方法、装置、存储介质及设备
EP3267329A1 (en) Data processing method having structure of cache index specified to transaction in mobile environment dbms
CN116089364B (zh) 一种存储文件管理方法、装置、ai平台和存储介质
CN112965939A (zh) 一种文件合并方法、装置和设备
CN110908429B (zh) 一种定时器操作方法及装置
CN108121514B (zh) 元信息更新方法、装置、计算设备及计算机存储介质
CN114297196B (zh) 元数据存储方法、装置、电子设备及存储介质
CN115563116A (zh) 一种数据库表扫描方法、装置以及设备
CN115904211A (zh) 一种存储系统、数据处理方法及相关设备
CN109614388B (zh) 一种预算扣减方法和装置
CN111625500A (zh) 文件快照方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination