CN112559383A - 一种crdt垃圾数据回收方法、装置、设备及存储介质 - Google Patents

一种crdt垃圾数据回收方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112559383A
CN112559383A CN202011465433.6A CN202011465433A CN112559383A CN 112559383 A CN112559383 A CN 112559383A CN 202011465433 A CN202011465433 A CN 202011465433A CN 112559383 A CN112559383 A CN 112559383A
Authority
CN
China
Prior art keywords
hash
operation information
timestamp
data
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011465433.6A
Other languages
English (en)
Inventor
刘明航
吴祖洋
吴桂宝
李彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202011465433.6A priority Critical patent/CN112559383A/zh
Publication of CN112559383A publication Critical patent/CN112559383A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0253Garbage collection, i.e. reclamation of unreferenced memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种CRDT垃圾数据回收方法、装置、设备及存储介质。本申请实施例提供的技术方案通过获取对应逻辑删除操作及未执行垃圾回收流程的哈希键对应的哈希字段,并根据这些哈希字段在所有集群中的操作时间戳和数据操作信息确定对应的比较时间戳和删除操作信息,同时,基于一致性算法对比较时间戳和删除操作信息达成一致并同步到每个区域的只读节点,再由状态机根据比较时间戳和删除操作信息判断是否需要物理删除对应的哈希字段,通过一致性算法和CRDT垃圾数据回收相结合,从而有效物理删除垃圾数据,降低存储成本,优化系统性能,保证数据的正常管理。

Description

一种CRDT垃圾数据回收方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种CRDT垃圾数据回收方法、装置、设备及存储介质。
背景技术
对于全球服务业务,大多数业务系统都有跨区域(Region)部署、以及各种一致性能力的需求。
为了满足这种全球服务业务,可基于Spider架构提供CRDT(Conflict-freeReplicated Data Type,免冲突的可复制的数据类型)数据管理能力,通过一致性算法在区域内的读写数据提供一致性的能力,并通过CRDT来支持多区域同时读写数据、提供一致性的能力。
但是CRDT的使用带来了垃圾数据的产生,导致了存储空间的占用,不利于数据的管理。
发明内容
本申请实施例提供一种CRDT垃圾数据回收方法、装置、设备及存储介质,以对垃圾数据进行清理,保证数据的正常管理。
在第一方面,本申请实施例提供了一种CRDT垃圾数据回收方法,包括:
确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;
根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;
向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;
由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
在第二方面,本申请实施例提供了一种CRDT垃圾数据回收装置,包括字段确定模块、信息处理模块、信息同步模块和数据回收模块,其中:
字段确定模块,用于确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;
信息处理模块,用于根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;
信息同步模块,用于向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;
数据回收模块,用于由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
在第三方面,本申请实施例提供了一种计算机设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的CRDT垃圾数据回收方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的CRDT垃圾数据回收方法。
本申请实施例通过获取对应逻辑删除操作及未执行垃圾回收流程的哈希键对应的哈希字段,并根据这些哈希字段在所有集群中的操作时间戳和数据操作信息确定对应的比较时间戳和删除操作信息,同时,基于一致性算法对比较时间戳和删除操作信息达成一致并同步到每个区域的只读节点,再由状态机根据比较时间戳和删除操作信息判断是否需要物理删除对应的哈希字段,通过一致性算法和CRDT垃圾数据回收相结合,从而有效物理删除垃圾数据,降低存储成本,优化系统性能,保证数据的正常管理。
附图说明
图1是本申请实施例提供的一种CRDT垃圾数据回收方法的流程图;
图2是本申请实施例提供的一种基于Spider的CRDT数据管理架构示意图;
图3是本申请实施例提供的另一种CRDT垃圾数据回收方法的流程图;
图4是本申请实施例提供的一种CRDT垃圾数据回收装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种CRDT垃圾数据回收方法的流程图,本申请实施例提供的CRDT垃圾数据回收方法可以由CRDT垃圾数据回收装置来执行,该CRDT垃圾数据回收装置可以通过硬件和/或软件的方式实现,并集成在计算机设备中。
图2为本申请实施例提供的一种基于Spider的CRDT数据管理架构示意图。如图2所示,示例性的,假设有多个区域(图2中区域1、区域2和区域3),每个区域均设置有多个集群(图2中集群1、集群2和集群3),本实施例以设置3个区域共9个集群为例进行描述,并且每个区域均设置有多个可读写节点和只读节点。
具体的,本实施例提供的每个区域均有三个可读写节点以及两个只读节点,一个区域的三个可读写节点配置于同一个集群中,另外两个只读节点配置于不同集群中。同一个集群的可读写节点之间基于Paxos算法实现的数据一致性,并且由可读写节点将数据同步到其他区域的对应集群的只读节点,实现跨区域的数据一致性管理。
示例性的,在其中一个区域发起写请求时,则在对应集群的可读写节点中通过Paxos算法对写请求达成一致,再将写请求同步到其他区域的只读节点中,可读写节点和只读节点将写请求输入状态机,由状态机根据写请求更新数据,其中一个区域对应一个状态机。例如,在t1时刻,在区域2调用hsetkfv1,则最终可读写节点2-1、2-2、2-3、只读节点2-1、2-2上存储了FieldData(timestamp=t1,del_op=false,value=v1,key=k,field=f)。在t3时刻,在区域2调用hsetkfv3,则最终可读写节点2-1、2-2、2-3、只读节点2-1、2-2上存储了FieldData(timestamp=t3,del_op=false,value=v3,key=k,field=f),t1时刻写入的数据信息已被覆盖。在t5时刻,在区域1调用hsetkfv5,则最终可读写节点1-1、1-2、1-3、只读节点1-1、1-2上存储了FieldData(timestamp=t5,del_op=false,value=v5,key=k,field=f)。在t7时刻,在区域3调用hdelallk,则最可读写节点3-1、3-2、3-3、只读节点3-1、3-2上存储了Meta(del_all_timestamp=t7,key=k)。等待跨区域的数据同步完成后,最终key=k,field=f的全部区域的数据信息如下:
等待跨Region的数据同步完成后,最终key=k,field=f的全球数据信息如下:
Figure BDA0002833988000000041
本实施例提供用于删除哈希字段(field)的hdel指令(具体为逻辑删除,例如将对应哈希字段的del_op设置为true)以及用于删除哈希键(key)的hdelall指令(具体为逻辑删除,例如将对应哈希键的del_all_timestamp设置为调用指令的逻辑时间),其中del_all_timestamp表示调用hdelall的逻辑时间,如果没有调用过hdelall,则del_all_timestamp为0,timestamp表示对应哈希字段最后一次操作对应的逻辑时间,del_op的值为false时表示一个更新操作,del_op的值为true时表示一个逻辑删除操作,value表示这个操作对应的值,如果是删除操作则value为空。
在其中一个区域发起读请求时,则在该区域的所有集群中读出数据信息,通过比较timestamp和del_all_timestamp返回最新数据。例如在t6时刻,假设之前所有写入都已经跨区域同步完成,在区域1上调用hgetkf,得到:
Figure BDA0002833988000000051
由于t5>t3,最终得到value=v5。
在t8时刻,假设之前所有写入都已经跨区同步完成,在区域2上调用hget kf,得到:
Figure BDA0002833988000000052
由于t7>t5、t7>t3,最终得到value=None。
进一步的,各节点利用存储引擎在磁盘中存储数据信息,本实施例以RocksDB存储引擎为例,RocksDB是一个key value引擎,利用哈希键+哈希字段作为一个键(key),操作时间戳+数据操作信息+值作为一个value写入RocksDB中,可以理解的是,根据哈希键和哈希字段即可准确定位到具体的数据信息。
下述以CRDT垃圾数据回收装置执行CRDT垃圾数据回收方法为例进行描述。参考图1,该CRDT垃圾数据回收方法包括:
S101:确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段。
其中,哈希键集合记录有对应逻辑删除操作(即调用过hdel、hdelall)及未执行垃圾回收流程的哈希键,并由可读写节点进行维护。例如在根据hdel指令执行逻辑删除操作时,在哈希键集合中记录对应的哈希键和哈希字段,在根据hdelall指令执行逻辑删除操作时,在哈希键集合中记录对应的哈希键。本实施例提供的哈希键集合由可读写节点保存在内存中,可读写节点在对哈希键执行垃圾回收流程后将对应哈希键删除。
示例性的,向每个可读写节点获取其哈希键集合中的全部哈希键,并进一步在其中一个区域中确定这些哈希键对应的所有哈希字段。可以理解的是,客户端一个写请求只发往一个可读写节点,这个可读写节点与同一集群的其他可读写节点达成Paxos共识,所以只需要收到写请求的这个可读写节点在内存里保留这个哈希键就好,一个区域的写入会通过同步到其他区域的只读节点,不同区域间对应的哈希字段是一致的,向其中一个区域的可读写节点和只读节点获取哈希键对应的所有哈希字段即可。
S102:根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息。
其中,比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群。
示例性的,对于上述确定的每一个哈希字段,依次确定哈希字段对应的操作时间戳(timestamp)和数据操作信息(del_op)。进一步的,确定上述操作时间戳所对应的区域,并确定每个区域中最大的操作时间戳。确定每个区域中最大的操作时间戳后,进一步确定这些最大的操作时间戳中最小的一个,并将该操作时间戳确定为对应哈希字段的比较时间戳。可以理解的是,在对应哈希字段中的操作时间戳小于该比较时间戳时,可理解为该哈希字段对应的数据信息为需要删除的信息或被覆盖的信息,需要进行物理删除。
进一步的,对于上述确定的每一个哈希字段,依次根据对应的比较时间戳和数据操作信息,确定哈希字段的对应的删除操作信息。例如在哈希字段对应的数据操作信息指示执行过逻辑删除操作并且不存在小于比较时间戳的操作时间戳时,删除操作信息指示该哈希字段对应的数据信息为需要删除的信息或被覆盖的信息,需要进行物理删除。
S103:向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点。
示例性的,在确定哈希键集合中每个哈希键对应哈希字段的比较时间戳和删除操作信息后,向所有区域发送这些比较时间戳和删除操作信息。
进一步的,每个区域的多个可读写节点基于一致性算法对比较时间戳和删除操作信息达成一致,并同步到每个区域的只读节点。
S104:由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
示例性的,所有的可读写节点和只读节点取出哈希键集合中每个哈希键对应的每个哈希字段的比较时间戳和所述删除操作信息,并将比较时间戳和所述删除操作信息输入到状态机中。
进一步的,状态机根据比较时间戳和所述删除操作信息判断是否需要物理删除哈希字段。例如在对应哈希字段的操作时间戳小于比较时间戳,或者是对应数据操作信息指示执行过逻辑删除操作并且不存在小于比较时间戳的操作时间戳时,任务需要物理删除哈希字段,并物理删除对应的哈希字段。
上述,通过获取对应逻辑删除操作及未执行垃圾回收流程的哈希键对应的哈希字段,并根据这些哈希字段在所有集群中的操作时间戳和数据操作信息确定对应的比较时间戳和删除操作信息,同时,基于一致性算法对比较时间戳和删除操作信息达成一致并同步到每个区域的只读节点,再由状态机根据比较时间戳和删除操作信息判断是否需要物理删除对应的哈希字段,通过一致性算法和CRDT垃圾数据回收相结合,从而有效物理删除垃圾数据,降低存储成本,优化系统性能,保证数据的正常管理。
在上述实施例的基础上,图3给出了本申请实施例提供的另一种CRDT垃圾数据回收方法的流程图,该CRDT垃圾数据回收方法是对上述CRDT垃圾数据回收方法的具体化。参考图3,该CRDT垃圾数据回收方法包括:
S201:由区域的多个可读写节点基于一致性算法对接收到的数据操作指令达成一致,并同步至其他区域的只读节点。
具体的,客户端向某个区域的一个可读写节点调用数据操作指令,这个区域同一集群中的所有可读写节点基于Paxos算法对这个数据操作指令达成一致,并将达成一致后的数据操作指令异步同步到其他区域对应集群的只读节点中。
其中,数据操作指令可以包括hset、hget、hscan、hdel、hdelall等,分别用于实现数据写入、数据获取、数据扫描、字段逻辑删除操作、键逻辑删除操作等。
示例性的,结合图2,假设客户端向区域1的可读写节点1-1调用数据操作指令(例如hset k f v1、hdel k f或hdelall k等指令),区域1的三个可读写节点1-1、1-2、1-3基于Paxos算法对调用数据操作指令达成一致,并向区域2和3的只读节点1-1、1-2异步同步该数据操作指令。
S202:响应于所述数据操作指令为字段逻辑删除操作或键逻辑删除操作,更新对应可读写节点的哈希键集合。
对哈希键集合的更新具体包括:由所述可读写节点响应所述数据操作指令,对所述数据操作指令指示的哈希键对应的哈希字段执行数据操作,并在所述数据操作分别为字段逻辑删除操作和键逻辑删除操作时,分别在哈希键集合中更新对应哈希键以及哈希字段和在哈希键集合中更新对应哈希键。
具体的,可读写节点和只读节点在完成数据操作指令的同步后,分别将数据操作指令输入到各自区域的状态机中,由状态机对数据操作指令指示的哈希键对应的哈希字段执行数据操作。
进一步的,可读写节点(具体为接收到数据操作指令的可读写节点)维护一个对应逻辑删除操作及未执行垃圾回收流程的哈希键集合,在上述数据操作为字段逻辑删除操作或键逻辑删除操作时,可读写节点根据字段逻辑删除操作在哈希键集合中添加字段逻辑删除操作对应的哈希键和哈希字段,或者根据键逻辑删除操作在哈希键集合中添加键逻辑删除操作对应的哈希键,实现对哈希键集合的更新。
在一个可能的实施例中,字段写入操作(对应hset指令)由于会对原有的数据进行覆盖更新,被覆盖的数据信息被标记为逻辑删除,则将该字段写入操作对应的哈希键和哈希字段保存到哈希键集合中。
S203:基于在集群外部运行的垃圾回收进程,定期向每个区域的可读写节点获取哈希键集合中的哈希键。
其中。所述垃圾回收进程与所述区域一一对应。具体的,每个区域在集群外部运行一个独立的垃圾回收进程(gc_worker),每个垃圾回收进程定期向对应区域的全部可读写节点获取其哈希键集合中的哈希键。
S204:向区域调用扫描命令,以得到每个所述哈希键对应的所有的哈希字段。
具体的,对于上述获取的每个哈希键,依次向其中一个区域调用hscan指令,得到对应哈希键的所有哈希字段。
S205:对于每一个哈希字段,获取所述哈希字段在所有集群中的操作时间戳和数据操作信息。
具体的,操作时间戳和数据操作信息的获取包括:向每个区域上的每个集群获取所述哈希字段的操作时间戳和数据操作信息,并在数据操作信息对应键逻辑删除操作时,所述集群返回的操作时间戳为键删除时间戳、数据操作信息为删除操作为真。
具体的,依次针对上述获取的每一个哈希字段,垃圾回收进程向每个区域的每个集群获取对应哈希字段的操作时间戳和数据操作信息(timestamp,del_op)。集群在向垃圾回收进程返回操作时间戳和数据操作信息前,先判断该集群中的数据操作信息是否对应键逻辑删除操作(即判断del_all_timestamp是否不为0),并在数据操作信息对应键逻辑删除操作时(此时del_all_timestamp不为0,即对哈希键调用过hdelall指令),该集群向垃圾回收进程返回的操作时间戳为键删除时间戳、数据操作信息为删除操作为真(即向垃圾回收进程返回timestamp=del_all_timestamp,del_op=true)。
S206:确定每个区域的最大的操作时间戳,在确定的每个所述区域的最大的操作时间戳中确定最小的操作时间戳,并作为对应哈希字段的比较时间戳。
具体的,对于每个哈希字段,设每个区域上最大的操作时间戳为max_timestamp-i,其中i为区域对应的编号,则每个区域的最大的操作时间戳中最小的操作时间戳为x=min(max_timestamp-i|i=1...Region_Num),并将该操作时间戳为x确定为对应哈希字段的比较时间戳。
在一个可能的实施例中,若某区域中不存在操作时间戳,则不将该区域加入比较时间戳的确认流程,以减少对比较时间戳的确认流程造成混淆的情况。
S207:基于所述比较时间戳和所述数据操作信息,确定对应哈希字段的删除操作信息。
对于每个哈希字段,依次基于比较时间戳和数据操作信息,确定对应哈希字段的删除操作信息。具体的,删除操作信息的确定包括步骤S2071-S2073:
S2071:判断对应比较时间戳是否对应删除操作为真、所述比较时间戳是否为键删除时间戳、所述哈希字段所有的操作时间戳是否均大于等于所述比较时间戳。
S2072:若均为是,则结束所述哈希字段的删除操作信息确定流程,否则,判断对应比较时间戳是否对应删除操作为真、所述哈希字段所有的操作时间戳是否均大于等于所述比较时间戳。
S2073:若均为是,则确定对应哈希字段的删除操作信息为真,否则确定对应哈希字段的删除操作信息为假。
具体的,对于每个哈希字段,先判断比较时间戳对应的数据操作信息是否为删除操作为真(即判断是否x对应的del_op=true)、比较时间戳是否为键删除时间戳(即判断是否x=del_all_timestamp)、哈希字段所有的操作时间戳是否均大于等于比较时间戳(即判断是否不存在小于x的timestamp)。若x对应的del_op=true,且x是一个del_all_timestamp,且没有小于x的timestamp,此时认为对应的哈希字段已被物理删除,结束对该哈希字段的删除操作信息确定流程,并继续下一个哈希字段的删除操作信息确定流程。
若不满足上述条件,则进一步对应比较时间戳是否对应删除操作为真(即判断是否x对应的del_op=true)、哈希字段所有的操作时间戳是否均大于等于所述比较时间戳(即判断是否不存在小于x的timestamp)。若x对应的del_op=true,且没有小于x的timestamp,则确定对应哈希字段的删除操作信息为真(last_del=true),若不满足上述条件,则确定对应哈希字段的删除操作信息为假(last_del=false)。
S208:向所有区域发送各哈希键以及各哈希字段对应的所述比较时间戳和所述删除操作信息。
具体的,垃圾回收进程向所有区域发送gc_hash_field(key,field,x,last_del)指令,以向所有区域发送各哈希键以及各哈希字段对应的比较时间戳和删除操作信息。
S209:每个区域中的多个可读写节点基于Paxos算法对所述比较时间戳和所述删除操作信息达成一致,并同步至其他区域的只读节点。
具体的,每个区域在接收到gc_hash_field(key,field,x,last_del)指令后,同一区域内的全部可读写节点基于Paxos算法对该指令达成一致以及确定gc_hash_field的在Paxos操作日志(Paxos op Log)中保存的日志序列,并通过Paxos操作日志同步至其他区域的只读节点中(本实施例提供的可读写节点和只读节点之间通过Paxos操作日志进行同步)。
S210:由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机。
在一个可能的实施例中,将比较时间戳和删除操作信息输入到状态机具体为:由可读写节点和只读节点按照日志序列从Paxos操作日志中取出各哈希键和各哈希字段对应的所述比较时间戳和所述删除操作信息,并输入到状态机。
其中,比较时间戳和删除操作信息对应的日志序列基于Paxos算法确定。所有的可读写节点和只读节点会记录当前所应用的Paxos操作日志的日志序列,在检测到新加入的Paxos操作日志时,可读写节点和只读节点将新加入的Paxos操作日志输入到状态机中。
具体的,所有的可读写节点和只读节点从新加入的Paxos操作日志中取出gc_hash_field(key,field,x,last_del)指令,并将该指令输入到对应区域的状态机中。
S211:由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
在一个可能的实施例中,状态机根据比较时间戳和删除操作信息判断是否物理删除哈希字段具体为:状态机判断对应哈希字段的操作时间戳是否小于所述对应比较时间戳,或者是所述删除操作信息为真并且对应哈希字段的操作时间戳为比较时间戳;若是,则状态机物理删除对应哈希字段。
具体的,状态机在接收到gc_hash_field(key,field,x,last_del)指令后,确定该指令对应的比较时间戳(x)、删除操作信息(last_del)以及对应哈希字段的操作时间戳(timestamp),并进一步判断该操作时间戳是否小于比较时间戳,或者是删除操作信息为真并且操作时间戳为比较时间戳,即状态机判断是否满足条件:timestamp<x||last_del==true&&timestamp==x。
若满足上述条件,则状态机物理删除该哈希字段,否则不对该哈希字段进行操作。
在一个可能的实施例中,在完成是否物理删除对应哈希字段的判断并执行后,从可读写节点的哈希键集合中删除对应哈希键。
上述,通过获取对应逻辑删除操作及未执行垃圾回收流程的哈希键对应的哈希字段,并根据这些哈希字段在所有集群中的操作时间戳和数据操作信息确定对应的比较时间戳和删除操作信息,同时,基于一致性算法对比较时间戳和删除操作信息达成一致并同步到每个区域的只读节点,再由状态机根据比较时间戳和删除操作信息判断是否需要物理删除对应的哈希字段,通过一致性算法和CRDT垃圾数据回收相结合,从而有效物理删除垃圾数据,降低存储成本,优化系统性能,保证数据的正常管理。同时,通过与Paxos算法相结合的CRDT垃圾回收算法实现跨区域的多点协作,可实现将全球部署的多逻辑集群组成一个业务集群,有效降低全球分布式存储系统存储成本,提升系统性能,并且Spider架构把CRDT的垃圾回收实现在Spider内部,达到对业务无感知的效果,有效提升了业务开发的效率,降低了业务开发的成本。
图4给出了本申请实施例提供的一种CRDT垃圾数据回收装置的结构示意图。如图4所示,该CRDT垃圾数据回收装置包括字段确定模块31、信息处理模块32、信息同步模块33和数据回收模块34。
其中,字段确定模块31,用于确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;信息处理模块32,用于根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;信息同步模块33,用于向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;数据回收模块34,用于由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
上述,通过获取对应逻辑删除操作及未执行垃圾回收流程的哈希键对应的哈希字段,并根据这些哈希字段在所有集群中的操作时间戳和数据操作信息确定对应的比较时间戳和删除操作信息,同时,基于一致性算法对比较时间戳和删除操作信息达成一致并同步到每个区域的只读节点,再由状态机根据比较时间戳和删除操作信息判断是否需要物理删除对应的哈希字段,通过一致性算法和CRDT垃圾数据回收相结合,从而有效物理删除垃圾数据,降低存储成本,优化系统性能,保证数据的正常管理。
本申请实施例还提供了一种计算机设备,该计算机设备可集成本申请实施例提供的CRDT垃圾数据回收装置。图5是本申请实施例提供的一种计算机设备的结构示意图。参考图5,该计算机设备包括:输入装置43、输出装置44、存储器42以及一个或多个处理器41;所述存储器42,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如上述实施例提供的CRDT垃圾数据回收方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器42作为一种计算设备可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的CRDT垃圾数据回收方法对应的程序指令/模块(例如,CRDT垃圾数据回收装置中的字段确定模块31、信息处理模块32、信息同步模块33和数据回收模块34)。输入装置43可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的CRDT垃圾数据回收方法。
上述提供的CRDT垃圾数据回收装置、设备和计算机可用于执行上述任意实施例提供的CRDT垃圾数据回收方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的CRDT垃圾数据回收方法,该CRDT垃圾数据回收方法包括:确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的CRDT垃圾数据回收方法,还可以执行本申请任意实施例所提供的CRDT垃圾数据回收方法中的相关操作。
上述实施例中提供的CRDT垃圾数据回收装置、设备及存储介质可执行本申请任意实施例所提供的CRDT垃圾数据回收方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的CRDT垃圾数据回收方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (13)

1.一种CRDT垃圾数据回收方法,其特征在于,包括:
确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;
根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;
向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;
由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
2.根据权利要求1所述的CRDT垃圾数据回收方法,其特征在于,所述确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,包括:
基于在集群外部运行的垃圾回收进程,定期向每个区域的可读写节点获取哈希键集合中的哈希键,所述垃圾回收进程与所述区域一一对应;
向区域调用扫描命令,以得到每个所述哈希键对应的所有的哈希字段。
3.根据权利要求1所述的CRDT垃圾数据回收方法,其特征在于,所述根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,包括:
对于每一个哈希字段,获取所述哈希字段在所有集群中的操作时间戳和数据操作信息;
确定每个区域的最大的操作时间戳,在确定的每个所述区域的最大的操作时间戳中确定最小的操作时间戳,并作为对应哈希字段的比较时间戳;
基于所述比较时间戳和所述数据操作信息,确定对应哈希字段的删除操作信息。
4.根据权利要求3所述的CRDT垃圾数据回收方法,其特征在于,所述获取所述哈希字段在所有集群中的操作时间戳和数据操作信息,包括:
向每个区域上的每个集群获取所述哈希字段的操作时间戳和数据操作信息,并在数据操作信息对应键逻辑删除操作时,所述集群返回的操作时间戳为键删除时间戳、数据操作信息为删除操作为真。
5.根据权利要求3所述的CRDT垃圾数据回收方法,其特征在于,所述基于所述比较时间戳和所述数据操作信息,确定对应哈希字段的删除操作信息,包括:
判断对应比较时间戳是否对应删除操作为真、所述比较时间戳是否为键删除时间戳、所述哈希字段所有的操作时间戳是否均大于等于所述比较时间戳;
若均为是,则结束所述哈希字段的删除操作信息确定流程,否则,判断对应比较时间戳是否对应删除操作为真、所述哈希字段所有的操作时间戳是否均大于等于所述比较时间戳;
若均为是,则确定对应哈希字段的删除操作信息为真,否则确定对应哈希字段的删除操作信息为假。
6.根据权利要求1所述的CRDT垃圾数据回收方法,其特征在于,所述向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点,包括:
向所有区域发送各哈希键以及各哈希字段对应的所述比较时间戳和所述删除操作信息;
每个区域中的多个可读写节点基于Paxos算法对所述比较时间戳和所述删除操作信息达成一致,并同步至其他区域的只读节点。
7.根据权利要求1所述的CRDT垃圾数据回收方法,其特征在于,所述由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,包括:
由可读写节点和只读节点按照日志序列从Paxos操作日志中取出各哈希键和各哈希字段对应的所述比较时间戳和所述删除操作信息,并输入到状态机,所述比较时间戳和所述删除操作信息对应的日志序列基于Paxos算法确定。
8.根据权利要求1所述的CRDT垃圾数据回收方法,其特征在于,所述状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除哈希字段,包括:
状态机判断对应哈希字段的操作时间戳是否小于所述对应比较时间戳,或者是所述删除操作信息为真并且对应哈希字段的操作时间戳为比较时间戳;若是,则状态机物理删除对应哈希字段。
9.根据权利要求1-8任一项所述的CRDT垃圾数据回收方法,其特征在于,所述确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段之前,还包括:
由区域的多个可读写节点基于一致性算法对接收到的数据操作指令达成一致,并同步至其他区域的只读节点;
响应于所述数据操作指令为字段逻辑删除操作或键逻辑删除操作,更新对应可读写节点的哈希键集合。
10.根据权利要求9所述的CRDT垃圾数据回收方法,其特征在于,所述响应于所述数据操作指令为字段逻辑删除操作或键逻辑删除操作,更新对应可读写节点的哈希键集合,包括:
由所述可读写节点响应所述数据操作指令,对所述数据操作指令指示的哈希键对应的哈希字段执行数据操作,并在所述数据操作分别为字段逻辑删除操作和键逻辑删除操作时,分别在哈希键集合中更新对应哈希键以及哈希字段和在哈希键集合中更新对应哈希键。
11.一种CRDT垃圾数据回收装置,其特征在于,包括字段确定模块、信息处理模块、信息同步模块和数据回收模块,其中:
字段确定模块,用于确定每个可读写节点对应哈希键集合中的哈希键以及所述哈希键对应的所有哈希字段,所述哈希键集合记录有对应逻辑删除操作及未执行垃圾回收流程的哈希键,并由可读写节点进行维护;
信息处理模块,用于根据每个哈希字段在所有集群中的操作时间戳和数据操作信息,确定每个哈希字段对应的比较时间戳和删除操作信息,所述比较时间戳为全部区域的最大操作时间戳中最小的一个,一个区域对应一个或多个集群;
信息同步模块,用于向所有区域发送所述比较时间戳和所述删除操作信息,以基于一致性算法同步至每个区域中可读写节点和只读节点;
数据回收模块,用于由可读写节点和只读节点将所述比较时间戳和所述删除操作信息输入到状态机,由状态机根据所述比较时间戳和所述删除操作信息判断是否物理删除对应哈希字段。
12.一种计算机设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10任一所述的CRDT垃圾数据回收方法。
13.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10任一所述的CRDT垃圾数据回收方法。
CN202011465433.6A 2020-12-14 2020-12-14 一种crdt垃圾数据回收方法、装置、设备及存储介质 Pending CN112559383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011465433.6A CN112559383A (zh) 2020-12-14 2020-12-14 一种crdt垃圾数据回收方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011465433.6A CN112559383A (zh) 2020-12-14 2020-12-14 一种crdt垃圾数据回收方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112559383A true CN112559383A (zh) 2021-03-26

Family

ID=75064406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011465433.6A Pending CN112559383A (zh) 2020-12-14 2020-12-14 一种crdt垃圾数据回收方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112559383A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266037A1 (en) * 2004-11-05 2007-11-15 Data Robotics Incorporated Filesystem-Aware Block Storage System, Apparatus, and Method
CN105183400A (zh) * 2015-10-23 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于内容寻址的对象存储方法和系统
US20160350392A1 (en) * 2015-05-29 2016-12-01 Nuodb, Inc. Table partitioning within distributed database systems
CN111240588A (zh) * 2019-12-31 2020-06-05 清华大学 一种持久性内存对象存储系统
WO2020220641A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 基于点对点网络的数据存储方法、装置、介质及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266037A1 (en) * 2004-11-05 2007-11-15 Data Robotics Incorporated Filesystem-Aware Block Storage System, Apparatus, and Method
US20160350392A1 (en) * 2015-05-29 2016-12-01 Nuodb, Inc. Table partitioning within distributed database systems
CN105183400A (zh) * 2015-10-23 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于内容寻址的对象存储方法和系统
WO2020220641A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 基于点对点网络的数据存储方法、装置、介质及服务器
CN111240588A (zh) * 2019-12-31 2020-06-05 清华大学 一种持久性内存对象存储系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何发智等: "支持操作意图一致性的实时协同编辑算法综述", 《计算机学报》, vol. 41, no. 4, 20 January 2017 (2017-01-20), pages 840 - 867 *
崔斌等: "新型数据管理系统研究进展与趋势", 《软件学报》, 23 November 2018 (2018-11-23), pages 164 - 193 *
魏青松: "大规模分布式存储技术研究", 《中国博士学位论文全文数据库》, 31 January 2005 (2005-01-31), pages 137 - 3 *

Similar Documents

Publication Publication Date Title
CN109739935B (zh) 数据读取方法、装置、电子设备以及存储介质
CN111143389B (zh) 事务执行方法、装置、计算机设备及存储介质
KR20210002574A (ko) 데이터 백업 방법, 저장 매체 및 컴퓨팅 기기
CN108509462B (zh) 一种同步活动事务表的方法及装置
US20150113218A1 (en) Distributed Data Processing Method and Apparatus
US7698319B2 (en) Database system management method, database system, database device, and backup program
CN110543386B (zh) 一种数据存储方法、装置、设备和存储介质
CN107451172B (zh) 用于版本管理系统的数据同步方法及设备
CN111399764B (zh) 数据存储方法、读取方法、装置、设备及存储介质
CN111797121A (zh) 读写分离架构业务系统的强一致性查询方法、装置及系统
JP2006268139A (ja) データ複製装置、方法及びプログラム並びに記憶システム
CN104346373A (zh) 分区日志队列同步管理方法及设备
US11748215B2 (en) Log management method, server, and database system
CN112612799A (zh) 一种数据同步方法及终端
CN111291062B (zh) 数据同步写入方法、装置、计算机设备及存储介质
CN113760847A (zh) 日志数据处理方法、装置、设备及存储介质
CN114661248A (zh) 数据处理方法及装置
CN115617571A (zh) 一种数据备份方法、装置、系统、设备及存储介质
US8812468B2 (en) Database management method
CN114020840A (zh) 一种数据处理方法、装置、服务器、存储介质及产品
CN113297159B (zh) 数据存储方法以及装置
WO2018010603A1 (zh) 基于视频云存储系统的存储模式升级方法、装置和系统
CN112000850A (zh) 进行数据处理的方法、装置、系统及设备
CN112559383A (zh) 一种crdt垃圾数据回收方法、装置、设备及存储介质
CN113297316A (zh) 一种实现数据同步的方法及装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination