CN113656496A - 数据处理方法及系统 - Google Patents

数据处理方法及系统 Download PDF

Info

Publication number
CN113656496A
CN113656496A CN202110874300.2A CN202110874300A CN113656496A CN 113656496 A CN113656496 A CN 113656496A CN 202110874300 A CN202110874300 A CN 202110874300A CN 113656496 A CN113656496 A CN 113656496A
Authority
CN
China
Prior art keywords
data
data center
synchronization
target
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110874300.2A
Other languages
English (en)
Inventor
卢行
周维
张旭明
王豪迈
胥昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xsky Beijing Data Technology Corp ltd
Original Assignee
Xsky Beijing Data Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xsky Beijing Data Technology Corp ltd filed Critical Xsky Beijing Data Technology Corp ltd
Priority to CN202110874300.2A priority Critical patent/CN113656496A/zh
Publication of CN113656496A publication Critical patent/CN113656496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法及系统。该方法包括:获取第一数据中心的同步任务中的待同步数据;根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心;更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息。通过本申请,解决了相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。

Description

数据处理方法及系统
技术领域
本申请涉及数据存储技术领域,具体而言,涉及一种数据处理方法及系统。
背景技术
随着互联网应用的高速度发展,需要对产生的海量非结构化数据进行存储,而对象存储能够提供海量存储的解决方案,支持百亿或者千亿不同规格的对象的存储。
在对象存储领域中,很多应用场景中需要对存储数据做容灾和多活,以提升集群的安全可靠性,并且需要在各个站点进行数据读取。
为了对存储数据做容灾和多活,需要进行数据的同步,由于各个站点相互独立,相关技术中是先在本地同步记录日志,然后异步地发起任务同步,以将数据同步至其他集群,由于同步过程存在一定的时延,无法做到双活,且同步的过程其他的节点无法感知,并且如果多个站点同时上传同名对象,会存在冲突的问题。
针对相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种数据处理方法及系统,以解决相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。
根据本申请的一个方面,提供了一种数据处理方法。该方法包括:获取第一数据中心的同步任务中的待同步数据;根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心;更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息。
可选地,在根据目标同步规则将待同步数据同步至第二数据中心之前,该方法还包括:从数据存储桶中匹配待同步数据对应的同步规则,得到目标同步规则,其中,数据存储桶内设置有不同数据的处理规则,处理规则中包括同步规则,目标同步规则中至少包含待同步至的数据中心的名称信息。
可选地,同步规则包括:数据中心之间的双向同步规则,或数据中心之间的单向同步规则。
可选地,元数据集群包括多个副本,在多个副本中大于半数的副本的元数据更新完成后,确定待同步数据的元数据更新成功。
可选地,待同步数据是从客户端上传至第一数据中心的数据,在获取第一数据中心的同步任务中的待同步数据之前,该方法还包括:根据客户端的访问地址从所有数据中心确定第一数据中心;根据可用存储空间从第一数据中心的多个存储后端中确定目标存储后端;将客户端中的数据上传至第一数据中心的目标存储后端中。
可选地,在将客户端中的数据上传至第一数据中心的目标存储后端中之后,该方法还包括:生成已上传数据对应的日志信息,其中,日志信息中至少包含已上传数据的名称信息。
可选地,从数据存储桶中匹配待同步数据对应的同步规则,得到目标同步规则包括:从日志信息中获取待同步数据的名称信息;根据待同步数据的名称信息从数据存储桶中匹配待同步数据对应的同步规则。
可选地,数据存储桶内的处理规则包括数据读取规则,该方法还包括:确定客户端的待读取数据;从数据存储桶中匹配待读取数据对应的读取规则,得到目标读取规则,其中,读取规则为以下之一:强一致性读取规则和弱一致性读取规则;根据目标读取规则从目标数据中心中将待读取数据读取至客户端。
可选地,在目标读取规则为弱一致性读取规则的情况下,根据读取规则从目标数据中心中读取待读取数据包括:基于元数据确定存储有待读取数据的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;在目标数据中心存在待读取数据的情况下,将待读取数据从目标数据中心读取至客户端。
可选地,在目标读取规则为强一致性读取规则的情况下,根据读取规则从目标数据中心中读取待读取数据包括:基于元数据确定待读取数据最新上传至的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;将待读取数据从目标数据中心读取至客户端。
根据本申请的另一方面,提供了一种数据处理系统。该系统包括:至少两个数据中心,用于存储客户端写入的数据,还用于在不同的数据中心之间进行数据同步;客户端,与数据中心通信连接,用于向数据中心写入数据,或从数据中心读取数据;数据存储桶,用于存储数据同步规则和数据读取规则,其中,数据中心和客户端分别与数据存储桶之间具有数据访问关系;元数据集群,用于记录各个数据中心存储的数据对应的元数据,其中,数据中心和客户端分别与元数据集群之间具有数据访问关系。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据处理方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据处理方法。
通过本申请,采用以下步骤:获取第一数据中心的同步任务中的待同步数据;根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心;更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息,解决了相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。通过元数据集群来存储元数据,实现了数据和元数据的存储解耦,进而达到了在各个数据中心之间进行数据同步时,减小时延和数据冲突的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的数据处理系统的示意图;
图2是根据本申请实施例提供的数据处理方法的流程图;
图3是根据本申请实施例提供的可选的数据处理系统的示意图;
图4是根据本申请实施例提供的数据处理方法中数据上传的流程图;
图5是根据本申请实施例提供的数据处理方法中数据写入存储后端的流程图;
图6是根据本申请实施例提供的数据处理方法中可选的数据存储桶的示意图;
图7是根据本申请实施例提供的数据处理方法中数据读取的流程图;
图8是根据本申请实施例提供的数据处理方法中可选的数据存储桶的示意图;
图9是根据本申请实施例提供的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种数据处理系统。
图1是根据本申请实施例的数据处理系统的示意图。如图1所示,该系统包括:数据中心10、客户端20、数据存储桶30和元数据集群40。
具体地,至少两个数据中心10,用于存储客户端20写入的数据,还用于在不同的数据中心10之间进行数据同步。
客户端20,与数据中心10通信连接,用于向数据中心10写入数据,或从数据中心10读取数据。
数据存储桶30,用于存储数据同步规则和数据读取规则,其中,数据中心10和客户端20分别与数据存储桶30之间具有数据访问关系。
元数据集群40,用于记录各个数据中心10存储的数据对应的元数据,其中,数据中心10和客户端20分别与元数据集群40之间具有数据访问关系。
具体地,客户端20向数据中心10写入数据,数据中心10对应的存储后端存储数据,同时,在元数据集群40中存储写入数据的过程中产生的元数据,从而实现了元数据和数据的存储解耦。元数据集群40中的元数据可以被各个数据中心10访问,在各个数据中心10之间进行数据同步的过程中,还可以对元数据集群40中的元数据进行更新。
同时,数据存储桶30中存储有数据同步规则和数据读取规则,在各个数据中心10进行数据同步的过程中,访问数据存储桶30,根据待同步对象的名称从中获取数据同步规则,根据数据同步规则发起同步任务,从而实现数据中心10之间的数据同步。在客户端20需要读取数据的情况下,访问数据存储桶30,根据待读取对象的名称从中获取数据读取规则,并基于数据读取规则从数据中心1中读取数据。本实施通过元数据和数据的存储解耦,以及配置不同的数据同步规则和数据读取规则的方式,达到了在对象存储领域中灵活满足用户生产过程中的容灾需求的目的。
本申请实施例提供的数据处理方法,通过至少两个数据中心10,用于存储客户端20写入的数据,还用于在不同的数据中心10之间进行数据同步;客户端20,与数据中心10通信连接,用于向数据中心10写入数据,或从数据中心10读取数据;数据存储桶30,用于存储数据同步规则和数据读取规则,其中,数据中心10和客户端20分别与数据存储桶30之间具有数据访问关系;元数据集群40,用于记录各个数据中心10存储的数据对应的元数据,其中,数据中心10和客户端20分别与元数据集群40之间具有数据访问关系,解决了相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。通过元数据集群来存储元数据,实现了数据和元数据的存储解耦,进而达到了在各个数据中心之间进行数据同步时,减小时延和数据冲突的效果。
图2是根据本申请实施例的数据处理方法的流程图。如图2所示,该方法包括以下步骤:
步骤S202,获取第一数据中心的同步任务中的待同步数据。
具体地,第一数据中心为发起同步任务的数据中心,待同步数据即为待同步至其他数据中心的数据。
步骤S204,根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心。
具体地,同步规则中包含待同步至的目的地,确定待同步数据对应的同步规则,得到目标同步规则,目标同步规则所指示的待同步至的目的地为第二数据中心,将待同步数据同步至第二数据中心。
步骤S206,更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息。
需要说明的是,在相关技术中,每个数据中心维护各自的元数据,在数据同步之前各个数据中心无法感知数据变化,也即,各个数据中心之间存储的数据是弱一致性的,本实施例通过创建跨数据中心的元数据集群,对元数据和数据的存储进行解耦,在数据同步的过程中,更新元数据集群中的元数据,保证各个数据中心都能通过元数据集群中的元数据感知到最新的数据存储情况。
为了保障元数据存储的可靠性,可选地,在本申请实施例提供的数据处理方法中,元数据集群包括多个副本,在多个副本中大于半数的副本的元数据更新完成后,确定待同步数据的元数据更新成功。
在一种可选的实施方式中,如图3所示,是根据本申请实施例提供的可选的数据处理系统的示意图,其中元数据集群副本为奇数个,分布于多个站点上,其中主站点上的元数据节点个数大于n/2(n为副本数),由于元数据节点是跨集群的,因此性能可能存在一定时延,为了满足其性能需求,增加了元数据更新超过半数副本数即为更新成功的配置。例如,北京站点上传数据2.txt之后,本地对应的元数据节点1、2、3更新后即为成功,避免了更新所有元数据节点后才返回成功而造成的时延。
需要说明的是,由于元数据集群是分布式的,任意一个站点上传数据,都会元数据的更新,其他站点能够立即感知到元数据的更新,元数据更新超过半数副本数即为成功的配置不影响各个站点获取元数据,也即,元数据的可靠性通过分布式数据库自身保障。例如,其他站点在元数据同步之前更新则依然能够去北京站点对应的副本上去读元数据。
本申请实施例提供的数据处理方法,通过获取第一数据中心的同步任务中的待同步数据;根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心;更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息,解决了相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。通过元数据集群来存储元数据,实现了数据和元数据的存储解耦,进而达到了在各个数据中心之间进行数据同步时,减小时延和数据冲突的效果。
在数据同步之前,需要将客户端的数据上传到数据中心,可选地,在本申请实施例提供的数据处理方法中,待同步数据是从客户端上传至第一数据中心的数据,在获取第一数据中心的同步任务中的待同步数据之前,该方法还包括:根据客户端的访问地址从所有数据中心确定第一数据中心;根据可用存储空间从第一数据中心的多个存储后端中确定目标存储后端;将客户端中的数据上传至第一数据中心的目标存储后端中。
具体地,在数据上传时,客户端访问网关服务,其中网关服务根据用户的实际访问ip计算选择对应的数据中心的信息,在一种可选的实施方式中,如图4所示,是根据本申请实施例提供的数据处理方法中数据上传的流程图,实际访问ip为183.220.113.XXX,为成都ip,上传数据时会自动写入成都的站点。
进一步的,需要说明的是,各个数据中心之间的数据存储相互隔离,每个数据中心支持多种类型的后端存储,如S3协议、POSIX和ceph rados存储类型,通过创建后端集合为数据中心提供数据存储服务,从而在数据写入的过程中,每个数据中心自适应计算选择对应的后端存储服务,以实现数据存储。
在一种可选的实施方式中,每次上传对象时选择剩余容量百分比最大的后端写入,例如,如图5所示,是根据本申请实施例提供的数据处理方法中数据写入存储后端的流程图,一个数据中心对应5个后端,其对应的剩余容量百分比分别为10%,100%,4%,92%,20%,可以选择最大百分比92%对应的POSIX2进行数据的写入。
为了数据上传行为进行记录,可选地,在本申请实施例提供的数据处理方法中,在将客户端中的数据上传至第一数据中心的目标存储后端中之后,该方法还包括:生成已上传数据对应的日志信息,其中,日志信息中至少包含已上传数据的名称信息。
具体地,日志信息中除了已上传数据的名称信息,还可以包括数据上传时间等信息,本实施例不限定日志信息的内容。
数据的处理规则提前存储在数据存储桶中,可选地,在本申请实施例提供的数据处理方法中,在根据目标同步规则将待同步数据同步至第二数据中心之前,该方法还包括:从数据存储桶中匹配待同步数据对应的同步规则,得到目标同步规则,其中,数据存储桶内设置有不同数据的处理规则,处理规则中包括同步规则,目标同步规则中至少包含待同步至的数据中心的名称信息。
具体地,数据的处理规则是在获知上传至数据中心的数据包括哪些之后进行创建的,数据的处理规则通过和数据名称信息关联的方式提前存储在数据存储桶中,在数据中心发起同步任务之后,根据待同步数据的名称信息从数据存储桶中匹配对应的同步规则。
由于在上传数据的过程中,数据的名称信息已存储在日志信息中,可选地,在本申请实施例提供的数据处理方法中,从数据存储桶中匹配待同步数据对应的同步规则,得到目标同步规则包括:从日志信息中获取待同步数据的名称信息;根据待同步数据的名称信息从数据存储桶中匹配待同步数据对应的同步规则。
通过灵活配置应用于数据存储桶的同步规则,可以满足业务的同步需求,可选地,在本申请实施例提供的数据处理方法中,同步规则包括:数据中心之间的双向同步规则,或数据中心之间的单向同步规则。
在一种可选的实施例中,如图6所示,是根据本申请实施例提供的数据处理方法中可选的数据存储桶的示意图,北京、上海、成都共3个数据中心对应两个数据存储桶,其中,对于桶A,创建两个规则:1、成都站点单向同步至北京站点,2、上海站点单项同步至北京站点,这种同步规则可以应用于边缘节点数据同步至数据中心的场景中;对于桶B,创建两个规则:1、成都站点双向同步至北京站点,2、上海站点双向同步至北京站点,边缘数据中心成都和上海的数据可以同步至北京,同样北京的数据也可以同步至成都和上海,这种同步规则可以应用在边缘节点和数据的双向数据同步场景,可以实现数据集中和数据下沉。
具体地,在数据同步时,每个数据中心通过列举本地上的同步任务,然后向需要同步的数据中心发起任务,例如,北京站点上传了一个对象3.txt,则在对象上传时,在本地记录日志信息,并访问元数据集群记录3.txt的存储位置包括北京站点,然后在数据同步时,读取日志获取待同步数据的名称,通过数据的名称中数据存储桶中匹配同步规则,同步规则为同步至成都站点,然后根据同步规则把数据同步至成都,在数据同步完成之后更新元数据集群中的元数据,记录3.txt的存储位置包括成都站点,在元数据更新完成后,三个站点都能通过访问元数据集群立即看到更新后的元数据。
在将数据上传至数据中心后,或同步至数据中心后,存在读取数据中心中的数据的需求,可选地,在本申请实施例提供的数据处理方法中,数据存储桶内的处理规则包括数据读取规则,该方法还包括:确定客户端的待读取数据;从数据存储桶中匹配待读取数据对应的读取规则,得到目标读取规则,其中,读取规则为以下之一:强一致性读取规则和弱一致性读取规则;根据目标读取规则从目标数据中心中将待读取数据读取至客户端。
具体地,数据的处理规则是在获知上传至数据中心的数据包括哪些之后进行创建的,数据的处理规则通过和数据名称信息关联的方式提前存储在数据存储桶中,在客户端发起读取任务之后,根据待读取数据的名称信息从数据存储桶中匹配对应的读取规则。
读取规则分为强一致性读取规则和弱一致性读取规则,强一致性读取规则用于指示从各个数据中心中读取最新的待读取数据,弱一致性读取规则用于指示从最近的数据中心读取待读取数据。
具体地,读取数据过程匹配对象校验是否进行一致性读取,然后根据规则读取相应的数据,在一种可选的实施方式中,如图7所示,是根据本申请实施例提供的数据处理方法中数据读取的流程图,先匹配数据存储桶读取规则,若匹配成功则判断是否是强一致性读,在是的情况下,根据一致性规则去存储最新数据的站点读取数据,若匹配失败或匹配到弱一致性读取规则,则去本地读取数据,若本地无数据则返回空。
可选地,在本申请实施例提供的数据处理方法中,在目标读取规则为弱一致性读取规则的情况下,根据读取规则从目标数据中心中读取待读取数据包括:基于元数据确定存储有待读取数据的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;在目标数据中心存在待读取数据的情况下,将待读取数据从目标数据中心读取至客户端。
可选地,在本申请实施例提供的数据处理方法中,在目标读取规则为强一致性读取规则的情况下,根据读取规则从目标数据中心中读取待读取数据包括:基于元数据确定待读取数据最新上传至的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;将待读取数据从目标数据中心读取至客户端。
在一种可选的实施方式中,如图8所示,是根据本申请实施例提供的数据处理方法中可选的数据存储桶的示意图,桶C中存储有用于指示强一致性读的读取规则1和读取规则2,名称前缀为“aa”的待读取数据可以匹配到读取规则1,名称前缀为“bb”的待读取数据可以匹配到读取规则1。桶D中存储有用于指示弱一致性读的读取规则1和读取规则2,名称前缀为“,”的待读取数据可以匹配到读取规则1,名称前缀为“11”的待读取数据可以匹配到读取规则2。
具体地,在读取数据的过程首先需要访问数据存储桶中的读取规则,然后匹配对象选择是否强一致读取,在一种可选的实施方式中,如图8所示,名称为“aaa.txt”的对象的前缀为“aa”,匹配到桶C中的读取规则1,选择强一致读,读取最新的数据,若本数据中心是最新数据则从本数据中心读取,否则去其他数据中心去读数据。
通过本实施例,灵活配置应用于数据存储桶的读取规则,可以满足业务的读取需求。
本申请实施例还提供了一种数据处理方法,首先,对存储元数据和数据进行解耦,创建跨站点统一元数据集群存储元数据,并创建多类型存储后端对应不同策略和规则,然后进行数据的上传、数据的同步以及数据的读取。
其中,上传数据过程根据客户端IP网关路由会计算选择站点就近写入,数据写入过程根据后端使用情况自适应计算,选择写入对应的存储后端,存储后端支持多种类型,数据写入过程自动负载均衡计算,并记录日志。
其中,站点同步过程中,通过配置数据同步规则应用于数据存储桶,每个站点异步通过读取日志与同步规则,根据同步规则发起同步任务,而进行数据同步完成后更新元数据,其他站点能立即感知数据变化。
其中,读取数据过程匹配对象校验是否进行一致性读,然后根据规则读取相应的数据对象。
通过本申请实施例,提供灵活的访问策略,实现按需同步数据,在数据访问上也可以灵活设置,进行强一致读和本地数据读取,满足业务对数据同步以及数据读取的不同需求。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种数据处理装置,需要说明的是,本申请实施例的数据处理装置可以用于执行本申请实施例所提供的用于数据处理方法。以下对本申请实施例提供的数据处理装置进行介绍。
图9是根据本申请实施例的数据处理装置的示意图。如图9所示,该装置包括:获取单元91、同步单元92和更新单元93。
具体地,获取单元91,用于获取第一数据中心的同步任务中的待同步数据。
同步单元92,用于根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心。
更新单元93,用于更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息。
本申请实施例提供的数据处理装置,通过获取单元91获取第一数据中心的同步任务中的待同步数据;同步单元92根据目标同步规则将待同步数据同步至第二数据中心,其中,第二数据中心为目标同步规则所指示的数据中心;更新单元93更新元数据集群中待同步数据的元数据,其中,元数据集群用于存储所有数据中心中已存储数据的元数据,元数据至少包括已存储数据所在的数据中心信息,解决了相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题,通过元数据集群来存储元数据,实现了数据和元数据的存储解耦,进而达到了在各个数据中心之间进行数据同步时,减小时延和数据冲突的效果。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第一匹配单元,用于在根据目标同步规则将待同步数据同步至第二数据中心之前,从数据存储桶中匹配待同步数据对应的同步规则,得到目标同步规则,其中,数据存储桶内设置有不同数据的处理规则,处理规则中包括同步规则,目标同步规则中至少包含待同步至的数据中心的名称信息。
可选地,在本申请实施例提供的数据处理装置中,同步规则包括:数据中心之间的双向同步规则,或数据中心之间的单向同步规则。
可选地,在本申请实施例提供的数据处理装置中,元数据集群包括多个副本,在多个副本中大于半数的副本的元数据更新完成后,确定待同步数据的元数据更新成功。
可选地,在本申请实施例提供的数据处理装置中,待同步数据是从客户端上传至第一数据中心的数据,该装置还包括:第一确定单元,用于在获取第一数据中心的同步任务中的待同步数据之前,根据客户端的访问地址从所有数据中心中确定第一数据中心;第二确定单元,用于根据可用存储空间从第一数据中心的多个存储后端中确定目标存储后端;上传单元,用于将客户端中的数据上传至第一数据中心的目标存储后端中。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:生成单元,在将客户端中的数据上传至第一数据中心的目标存储后端中之后,用于生成已上传数据对应的日志信息,其中,日志信息中至少包含已上传数据的名称信息。
可选地,在本申请实施例提供的数据处理装置中,第一匹配单元包括:第一获取模块,用于在从日志信息中获取待同步数据的名称信息;匹配模块,用于根据待同步数据的名称信息从数据存储桶中匹配待同步数据对应的同步规则。
可选地,在本申请实施例提供的数据处理装置中,数据存储桶内的处理规则包括数据读取规则,该装置还包括:第三确定单元,用于确定客户端的待读取数据;第二匹配单元,用于从数据存储桶中匹配待读取数据对应的读取规则,得到目标读取规则,其中,读取规则为以下之一:强一致性读取规则和弱一致性读取规则;读取单元,用于根据目标读取规则从目标数据中心中将待读取数据读取至客户端。
可选地,在本申请实施例提供的数据处理装置中,在目标读取规则为弱一致性读取规则的情况下,读取单元包括:第二获取模块,用于基于元数据确定存储有待读取数据的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;第一读取模块,用于在目标数据中心存在待读取数据的情况下,将待读取数据从目标数据中心读取至客户端。
可选地,在本申请实施例提供的数据处理装置中,在目标读取规则为强一致性读取规则的情况下,读取单元包括:第三获取模块,用于基于元数据确定待读取数据最新上传至的数据中心,得到至少一个候选数据中心;从候选数据中心中确定与客户端距离最近的数据中心,得到目标数据中心;第二读取模块,用于将待读取数据从目标数据中心读取至客户端。
所述数据处理装置包括处理器和存储器,上述获取单元91、同步单元92和更新单元93等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中采用先在本地记录日志、再根据日志发起任务同步的数据同步方式,在各个节点之间存在时延和数据冲突的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种数据处理方法。
本申请实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种数据处理方法。本文中的电子装置可以是服务器、PC、PAD、手机等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取第一数据中心的同步任务中的待同步数据;
根据目标同步规则将所述待同步数据同步至第二数据中心,其中,所述第二数据中心为所述目标同步规则所指示的数据中心;
更新元数据集群中所述待同步数据的元数据,其中,所述元数据集群用于存储所有数据中心中已存储数据的元数据,所述元数据至少包括所述已存储数据所在的数据中心信息。
2.根据权利要求1所述的方法,其特征在于,在所述根据目标同步规则将所述待同步数据同步至第二数据中心之前,所述方法还包括:
从数据存储桶中匹配所述待同步数据对应的同步规则,得到所述目标同步规则,其中,所述数据存储桶内设置有不同数据的处理规则,所述处理规则中包括同步规则,所述目标同步规则中至少包含待同步至的数据中心的名称信息。
3.根据权利要求1所述的方法,其特征在于,所述同步规则包括:所述数据中心之间的双向同步规则,或所述数据中心之间的单向同步规则。
4.根据权利要求1所述的方法,其特征在于,所述元数据集群包括多个副本,在所述多个副本中大于半数的副本的元数据更新完成后,确定所述待同步数据的元数据更新成功。
5.根据权利要求2所述的方法,其特征在于,所述待同步数据是从客户端上传至所述第一数据中心的数据,在所述获取第一数据中心的同步任务中的待同步数据之前,所述方法还包括:
根据所述客户端的访问地址从所有数据中心中确定所述第一数据中心;
根据可用存储空间从所述第一数据中心的多个存储后端中确定目标存储后端;
将所述客户端中的数据上传至所述第一数据中心的所述目标存储后端中。
6.根据权利要求5所述的方法,其特征在于,在所述将所述客户端中的数据上传至所述第一数据中心的所述目标存储后端中之后,所述方法还包括:
生成已上传数据对应的日志信息,其中,所述日志信息中至少包含所述已上传数据的名称信息。
7.根据权利要求6所述的方法,其特征在于,所述从所述数据存储桶中匹配所述待同步数据对应的同步规则,得到所述目标同步规则包括:
从所述日志信息中获取所述待同步数据的名称信息;
根据所述待同步数据的名称信息从所述数据存储桶中匹配所述待同步数据对应的同步规则。
8.根据权利要求2所述的方法,其特征在于,所述数据存储桶内的所述处理规则包括数据读取规则,所述方法还包括:
确定客户端的待读取数据;
从所述数据存储桶中匹配所述待读取数据对应的所述读取规则,得到目标读取规则,其中,所述读取规则为以下之一:强一致性读取规则和弱一致性读取规则;
根据所述目标读取规则从目标数据中心中将所述待读取数据读取至所述客户端。
9.根据权利要求8所述的方法,其特征在于,在所述目标读取规则为所述弱一致性读取规则的情况下,所述根据所述读取规则从目标数据中心中读取所述待读取数据包括:
基于所述元数据确定存储有所述待读取数据的数据中心,得到至少一个候选数据中心;
从所述候选数据中心中确定与所述客户端距离最近的数据中心,得到所述目标数据中心;
将所述待读取数据从所述目标数据中心读取至所述客户端。
10.根据权利要求8所述的方法,其特征在于,在所述目标读取规则为所述强一致性读取规则的情况下,所述根据所述读取规则从目标数据中心中读取所述待读取数据包括:
基于所述元数据确定所述待读取数据最新上传至的数据中心,得到至少一个候选数据中心;
从所述候选数据中心中确定与所述客户端距离最近的数据中心,得到所述目标数据中心;
将所述待读取数据从所述目标数据中心读取至所述客户端。
11.一种数据处理系统,其特征在于,包括:
至少两个数据中心,用于存储客户端写入的数据,还用于在不同的所述数据中心之间进行数据同步;
所述客户端,与所述数据中心通信连接,用于向所述数据中心写入数据,或从所述数据中心读取数据;
数据存储桶,用于存储数据同步规则和数据读取规则,其中,所述数据中心和所述客户端分别与所述数据存储桶之间具有数据访问关系;
元数据集群,用于记录各个数据中心存储的数据对应的元数据,其中,所述数据中心和所述客户端分别与所述元数据集群之间具有数据访问关系。
CN202110874300.2A 2021-07-30 2021-07-30 数据处理方法及系统 Pending CN113656496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110874300.2A CN113656496A (zh) 2021-07-30 2021-07-30 数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110874300.2A CN113656496A (zh) 2021-07-30 2021-07-30 数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN113656496A true CN113656496A (zh) 2021-11-16

Family

ID=78478168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110874300.2A Pending CN113656496A (zh) 2021-07-30 2021-07-30 数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113656496A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780293A (zh) * 2022-04-26 2022-07-22 北京科杰科技有限公司 基于hadoop的异地双活容灾方法、装置、设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217571A (zh) * 2008-01-18 2008-07-09 清华大学 用于多副本数据网格系统中的写/读文件操作的方法
CN104408086A (zh) * 2014-11-07 2015-03-11 北京奇虎科技有限公司 数据全局处理系统和方法
US20160139841A1 (en) * 2013-09-06 2016-05-19 Hitachi, Ltd. Distributed storage system, and data-access method therefor
CN110022338A (zh) * 2018-01-09 2019-07-16 阿里巴巴集团控股有限公司 文件读取方法、系统、元数据服务器和用户设备
CN110502575A (zh) * 2019-08-02 2019-11-26 阿里巴巴集团控股有限公司 一种数据同步的方法、装置以及设备
CN110633046A (zh) * 2018-06-22 2019-12-31 北京东土科技股份有限公司 一种分布式系统的存储方法、装置、存储设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217571A (zh) * 2008-01-18 2008-07-09 清华大学 用于多副本数据网格系统中的写/读文件操作的方法
US20160139841A1 (en) * 2013-09-06 2016-05-19 Hitachi, Ltd. Distributed storage system, and data-access method therefor
CN104408086A (zh) * 2014-11-07 2015-03-11 北京奇虎科技有限公司 数据全局处理系统和方法
CN110022338A (zh) * 2018-01-09 2019-07-16 阿里巴巴集团控股有限公司 文件读取方法、系统、元数据服务器和用户设备
CN110633046A (zh) * 2018-06-22 2019-12-31 北京东土科技股份有限公司 一种分布式系统的存储方法、装置、存储设备及存储介质
CN110502575A (zh) * 2019-08-02 2019-11-26 阿里巴巴集团控股有限公司 一种数据同步的方法、装置以及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780293A (zh) * 2022-04-26 2022-07-22 北京科杰科技有限公司 基于hadoop的异地双活容灾方法、装置、设备和可读存储介质

Similar Documents

Publication Publication Date Title
EP3474516B1 (en) Data processing method and device
CN105138571B (zh) 分布式文件系统及其存储海量小文件的方法
CN111182067B (zh) 一种基于星际文件系统ipfs的数据写入方法及设备
JP6492123B2 (ja) 分散キャッシングおよびキャッシュ分析
CN107153644B (zh) 一种数据同步方法及装置
EP3786802A1 (en) Method and device for failover in hbase system
CN105205182A (zh) 多机房部署系统及跨机房的业务数据处理方法
CN107657027B (zh) 数据存储方法及装置
CN111209090B (zh) 一种云平台中虚拟机的创建方法、组件及服务器
CN111797172B (zh) 数据迁移方法、装置、设备、分布式系统及存储介质
CN107580032B (zh) 数据处理方法、装置及设备
CN107391033B (zh) 数据迁移方法及装置、计算设备、计算机存储介质
CN114594914B (zh) 用于分布式存储系统的控制方法及系统
CN107015876B (zh) 一种业务请求处理方法及装置
CN106873902B (zh) 一种文件存储系统、数据调度方法及数据节点
US10545667B1 (en) Dynamic data partitioning for stateless request routing
CN106341485A (zh) 一种云存储的方法及装置
CN113656496A (zh) 数据处理方法及系统
CN113885797A (zh) 一种数据存储方法、装置、设备及存储介质
US11334456B1 (en) Space efficient data protection
CN115525618A (zh) 存储集群、数据存储方法、系统及存储介质
CN110515907B (zh) 一种分布式存储节点的数据同步方法及相关装置
CN115706727A (zh) 云桌面数据的迁移方法、节点和服务器
CN112131191A (zh) 一种namenode文件系统的管理方法、装置及设备
CN111880895A (zh) 基于Kubernetes平台的数据读写方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100094 101, floors 1-5, building 7, courtyard 3, fengxiu Middle Road, Haidian District, Beijing

Applicant after: Beijing Xingchen Tianhe Technology Co.,Ltd.

Address before: 100097 office building 805-806, area B, Jinyuan times business center, lantianchang Road, Haidian District, Beijing

Applicant before: XSKY BEIJING DATA TECHNOLOGY Corp.,Ltd.

CB02 Change of applicant information