CN116069764A - 数据校验方法、装置、电子设备和存储介质 - Google Patents

数据校验方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116069764A
CN116069764A CN202310179386.6A CN202310179386A CN116069764A CN 116069764 A CN116069764 A CN 116069764A CN 202310179386 A CN202310179386 A CN 202310179386A CN 116069764 A CN116069764 A CN 116069764A
Authority
CN
China
Prior art keywords
task
data
server
verification
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310179386.6A
Other languages
English (en)
Inventor
顾鹏
肖勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310179386.6A priority Critical patent/CN116069764A/zh
Publication of CN116069764A publication Critical patent/CN116069764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了数据校验方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及云计算、云存储和云数据库技术,可应用在智能云场景下。具体实现方案为:向调度服务器发送工作任务获取请求;获取调度服务器发送的工作任务;对工作任务对应的待处理配置文件进行解析,以获取解析结果;根据解析结果,生成工作任务对应的第一数据校验任务;将第一数据校验任务发送给任务执行服务器,以使任务执行服务器执行第一数据校验任务。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。

Description

数据校验方法、装置、电子设备和存储介质
技术领域
本申请涉及人工智能领域,具体涉及云计算、云存储和云数据库技术,可应用在智能云场景下,尤其涉及一种数据校验方法、装置、电子设备和存储介质。
背景技术
在实际应用中,可能会将大量数据迁移到性能更好的数据库。为了保证数据安全性,在迁移完成或新增数据写入后需要对数据进行校验。由于待校验数据通常比较多,如何提高数据校验效率是亟待解决的问题。
发明内容
本申请提供了一种数据校验方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种数据校验方法,由服务器集群中的任务生成服务器执行,所述服务器集群还包括调度服务器和任务执行服务器,该方法包括:
向所述调度服务器发送工作任务获取请求;
获取所述调度服务器发送的工作任务;
对所述工作任务对应的待处理配置文件进行解析,以获取解析结果;
根据所述解析结果,生成所述工作任务对应的第一数据校验任务;
将所述第一数据校验任务发送给任务执行服务器,以使所述任务执行服务器执行所述第一数据校验任务。
根据本申请的另一方面,提供了一种数据校验方法,由服务器集群中的任务执行服务器执行,所述服务器集群还包括调度服务器和任务生成服务器,该方法包括:
获取所述任务生成服务器发送的第一数据校验任务,其中,所述第一数据校验任务是所述任务生成服务器基于从所述调度服务器获取的工作任务生成的;
根据所述第一数据校验任务,从所述第一数据库中获取第一数据,并从第二数据库中获取所述第一数据对应的第二数据,其中,所述第一数据库是所述第二数据库中的数据迁移至的数据库;
利用所述第二数据对所述第一数据进行校验,以获取所述第一数据校验任务对应的校验结果。
根据本申请的另一方面,提供了一种数据校验方法,由服务器集群中的调度服务器执行,所述服务器集群中还包括任务生成服务器和任务执行服务器,该方法包括:
获取待处理配置文件;
根据所述待处理配置文件,生成工作任务;
获取任务生成服务器发送的工作任务获取请求;
将所述工作任务发送给所述任务生成服务器,以使所述任务生成服务器基于所述工作任务生成第一数据校验任务并发送给所述任务执行服务器。
根据本申请的另一方面,提供了一种数据校验装置,设置于服务器集群中的任务生成服务器中,所述服务器集群还包括调度服务器和任务执行服务器,所述装置包括:
发送模块,用于向所述调度服务器发送工作任务获取请求;
获取模块,用于获取所述调度服务器发送的工作任务;
解析模块,用于对所述工作任务对应的待处理配置文件进行解析,以获取解析结果;
生成模块,用于根据所述解析结果,生成所述工作任务对应的第一数据校验任务;
所述发送模块,还用于将所述第一数据校验任务发送给任务执行服务器,以使所述任务执行服务器执行所述第一数据校验任务。
根据本申请的另一方面,提供了一种数据校验装置,设置于服务器集群中的任务执行服务器中,所述服务器集群还包括调度服务器和任务生成服务器,该装置包括:
第一获取模块,用于获取所述任务生成服务器发送的第一数据校验任务,其中,所述第一数据校验任务是所述任务生成服务器基于从所述调度服务器获取的工作任务生成的;
第二获取模块,用于根据所述第一数据校验任务,从所述第一数据库中获取第一数据,并从第二数据库中获取所述第一数据对应的第二数据,其中,所述第一数据库是所述第二数据库中的数据迁移至的数据库;
校验模块,用于利用所述第二数据对所述第一数据进行校验,以获取所述第一数据校验任务对应的校验结果。
根据本申请的另一方面,提供了一种数据校验装置,设置于服务器集群中的调度服务器中,所述服务器集群中还包括任务生成服务器和任务执行服务器,所述装置包括:
第一获取模块,用于获取待处理配置文件;
生成模块,用于根据所述待处理配置文件,生成工作任务;
第二获取模块,用于获取任务生成服务器发送的工作任务获取请求;
发送模块,用于将所述工作任务发送给所述任务生成服务器,以使所述任务生成服务器基于所述工作任务生成第一数据校验任务并发送给所述任务执行服务器。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请一实施例提供的服务器集群的示意图;
图2为本申请一实施例提供的数据校验方法的流程示意图;
图3为本申请另一实施例提供的数据校验方法的流程示意图;
图4为本申请另一实施例提供的数据校验方法的流程示意图;
图5为本申请另一实施例提供的数据校验方法的流程示意图;
图6为本申请另一实施例提供的数据校验方法的流程示意图;
图7为本申请另一实施例提供的数据校验方法的流程示意图;
图8为本申请实施例提供的一种数据校验的过程示意图一;
图9为本申请另一实施例提供的数据校验方法的流程示意图;
图10为本申请另一实施例提供的数据校验方法的流程示意图;
图11为本申请实施例提供的一种数据校验的过程示意图二;
图12为本申请一实施例提供的数据校验装置的结构示意图;
图13为本申请另一实施例提供的数据校验装置的结构示意图;
图14为本申请另一实施例提供的数据校验装置的结构示意图;
图15是用来实现本申请实施例的数据校验方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的数据校验方法、装置、电子设备和存储介质。
图1为本申请一实施例提供的服务器集群的示意图。如图1所示,服务器集群100可以包括调度服务器110、任务生成服务器120及任务执行服务器130。
本申请中,调度服务器110可以根据待处理配置文件生成工作任务,并将工作任务发送给任务生成服务器120,任务生成服务器120可以获取调度服务器110发送的工作任务,根据工作任务对应的待处理配置文件,生成数据校验任务并发送给任务执行服务器130,由任务执行服务器130执行数据校验任务。
本申请中,服务器集群100中调度服务器110的数量可以是一个或多个,任务生成服务器120的数量也可以是一个或多个,任务执行服务器130的数量也可以是一个或多个,本申请对此不作限定。
可选的,服务器集群100中任务执行服务器130的数量可以大于任务生成服务器120的数量,任务生成服务器120的数量可以大于调度服务器110的数量。
需要说明的是,调度服务器110、任务生成服务器120及任务执行服务器130可以是硬件,也可以是软件。当调度服务器110、任务生成服务器120及任务执行服务器130为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。
图2为本申请一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务生成服务器执行,该服务器集群还可以包括调度服务器和任务执行服务器。
如图2所示,该数据校验方法包括:
步骤201,向调度服务器发送工作任务获取请求。
本申请中,任务生成服务器可以向调度服务器发送工作任务获取请求,其中,工作任务获取请求用于向调度服务器请求获取工作任务。其中,工作任务可以是调度服务器基于待处理配置文件生成的,比如对于待处理配置文件,调度服务器可以注册并生成相应的工作任务。
本申请中,工作任务中可以包括待处理配置文件的标识、工作任务的标识、工作任务的类型、工作任务的状态、工作任务的名字、待校验数据桶标识等信息。其中,数据桶(bucket)是对象存储的单位;工作任务的类型比如可以是校验;工作任务的状态可以包括准备状态、已发送状态、完成状态等,准备状态可以用于指示工作任务未发送给任务生成服务器,刚生成的工作任务的状态为准备状态,已发送状态可以用于指示工作任务已经发送给任务生成服务器,完成状态可以认为工作任务对应的数据校验已完成。
步骤202,获取调度服务器发送的工作任务。
本申请中,任务生成服务器可以获取调度服务器发送的工作任务。
若服务器集群中任务生成服务器的数量是多个,多个任务生成服务器可以从存放工作任务的队列中依次获取工作任务。
步骤203,对工作任务对应的待处理配置文件进行解析,以获取解析结果。
本申请中,任务生成服务器可以根据工作任务中待处理文件的标识,获取相应的待处理文件,并对待处理文件进行解析,获取解析结果。
本申请中,待处理配置文件中可以包括地理区域的标识、待校验数据桶标识、待校验数据桶包含的数据分片数量、校验模式、起止时间范围。
其中,待校验数据桶标识可以是一个也可以是多个;校验模式可以包括全量模式、部分模式等,其中,全量模式可以是指对某数据库的所有数据都进行校验,部分模式可以是指对部分数据进行校验;起止时间范围可以是指待校验数据所处的时间范围,比如将mola数据库中的数据迁移至meta数据库,可以对meta数据库中修改时间处于起止范围内的数据进行校验。
步骤204,根据解析结果,生成工作任务对应的第一数据校验任务。
本申请中,可以根据解析结果中包含的待校验数据桶标识,生成工作任务对应的第一数据校验任务。比如,解析结果中包含n个待校验数据桶标识,也即待校验数据桶的数量为n,可以根据每个待检验数据桶标识生成一个第一数据校验任务,n为正整数。
本申请中,第一数据校验任务中可以包括待校验数据桶标识、数据分片标识、校验位置、校验数量等。其中,校验位置可以用于指示待校验数据桶或数据分片中已经校验完成的数据的位置,可以理解的是任务生成服务器第一次基于解析结果生成的第一数据校验任务中的校验位置可以为初始位置;校验数量可以是指第一数据校验任务要校验的数据量,校验数量可以根据实际需要设置和调整,本申请对此不作限定。
本申请中,一个工作任务对应的第一数据校验任务可以是一个也可以是多个,本申请对此不作限定。
步骤205,将第一数据校验任务发送给任务执行服务器,以使任务执行服务器执行第一数据校验任务。
本申请中,若一个工作任务对应多个第一数据校验任务,多个第一数据校验任务可以发送给不同的任务执行服务器执行,从而可以提高数据校验效率。
本申请实施例中,任务生成服务器可以通过向调度服务器发送工作任务获取请求,并获取调度服务器发送的工作任务,对工作任务对应的待处理配置文件进行解析,以获取解析结果,基于解析结果生成工作任务对应的第一数据校验任务,并发送给任务执行服务器执行。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
图3为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务生成服务器执行,该服务器集群还可以包括调度服务器和任务执行服务器。
如图3所示,该数据校验方法可以包括:
步骤301,向调度服务器发送工作任务获取请求。
步骤302,获取调度服务器发送的工作任务。
步骤303,对工作任务对应的待处理配置文件进行解析,以获取解析结果。
本申请中,步骤301-步骤303可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
步骤304,根据解析结果中包含的待校验数据桶标识及待校验数据桶包含的数据分片数量,生成第一数据校验任务,其中,每个数据分片对应一个第一数据校验任务。
本申请中,待处理配置文件的解析结果中可以包含待校验数据桶标识、待校验数据桶包含的数据分片数量等,任务生成服务器可以根据待校验数据桶标识及待校验数据桶包含的数据分片数量,对待校验数据桶进行划分,生成第一数据校验任务,其中,每个数据分片可以对应一个第一数据校验任务。
比如,解析结果中包含一个待校验数据桶标识,该待校验数据桶包含10个数据分片,针对每个数据分片可以生成一个第一数据校验任务,也即生成10个第一数据校验任务。
又如,解析结果中包含两个待校验数据桶A和B,其中,待校验数据桶A包含10个数据分片,针对待校验数据桶A的每个数据分片生成一个第一数据校验任务,待校验数据桶B包含20个数据分片,针对待校验数据桶B的每个数据分片生成一个第一数据校验任务,那么该工作任务对应的第一数据校验任务为30个。
本申请中,每个数据分片对应的第一数据校验任务中可以包括待校验数据桶标识、数据分片标识、校验位置、校验数量等。其中,校验位置可以用于指示数据分片中已经校验完成的数据的位置,可以理解的是任务生成服务器第一次基于解析结果生成的第一数据校验任务中的校验位置可以为初始位置;校验数量可以是指第一数据校验任务要校验的数据量,校验数量可以根据实际需要设置,本申请对此不作限定。
步骤305,将第一数据校验任务发送给任务执行服务器,以使任务执行服务器执行第一数据校验任务。
本申请中,步骤305可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
可选的,任务生成服务器可以每隔预设时间向调度服务器发送心跳信息,以便于调度服务器根据心跳信息确定是否调整工作任务的状态,从而实现对工作任务的调度管理,比如若预设时长内未收到任务生成服务器发送的心跳信息,可以将工作任务状态由准备状态调整为已发送状态。
可选的,针对每个数据分片对应的第一数据校验任务,任务执行服务器执行完可以将校验结果发送给任务生成服务器,任务生成服务器可以获取任务执行服务器发送的每个数据分片对应的校验结果,根据校验结果中完成校验的数据的信息,确定该数据分片的校验位置,若根据校验位置确定任一数据分片未校验完成,可以根据该数据分片的校验位置,对该数据分片对应的第一数据校验任务进行更新,并将更新后的第一数据校验任务发送给任务执行服务器。由此,在对数据分片进行校验时,根据校验位置不断更新数据分片对应的校验任务,从而任务执行服务器对数据分片分批次校验,提高了校验效率和可靠性。
比如,任务生成服务器ps1生成某数据分片对应的第一数据校验任务task1,并将task1发送给任务执行服务器es1,shard1包含10000条数据,task1中校验位置marker为0,校验数量为2000,任务生成服务器ps1获取任务执行服务器es1发送的task1的校验结果,根据task1的校验结果,确定已经校验完前2000条数据,从而可以确定shard1的校验位置为2000,由于shard1中的数据未校验完成,可以将task1中的marker由0更新为2000得到更新后的task1,并将更新后的task1发送给任务执行服务器es2,由任务执行服务器es2对shard1中第2001条到第4000条的数据进行校验,并将校验结果发送给任务生成服务器ps1,若shard1未校验完成可以继续更新task1,直至shard1校验完成。其中,任务执行服务器es1与任务执行服务器es2可以相同,也可以不同。
本申请中,任务生成服务器可以将生成的第一数据校验任务放入校验任务队列中,当某任务执行服务器执行完一个第一个数据校验任务后,可以向任务生成服务器发送校验任务获取请求,任务生成服务器可以从校验任务队列中取出一个第一数据校验任务发送给任务执行服务器。
本申请实施例中,在根据解析结果,生成工作任务对应的第一数据校验任务时,可以根据解析结果中包含的待校验数据桶标识及待校验数据桶包含的数据分片数量,生成第一数据校验任务,其中,每个数据分片对应一个第一数据校验任务,并将生成的第一数据校验任务发送给任务执行服务器,由任务执行服务器执行。由此,针对待校验数据桶中的每个数据分片生成对应的第一数据校验任务,可以提高数据校验效率。
图4为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务生成服务器执行,该服务器集群还可以包括调度服务器和任务执行服务器。
如图4所示,该数据校验方法可以包括:
步骤401,向调度服务器发送工作任务获取请求。
步骤402,获取调度服务器发送的工作任务。
步骤403,对工作任务对应的待处理配置文件进行解析,以获取解析结果。
步骤404,根据解析结果,生成工作任务对应的第一数据校验任务。
步骤405,将第一数据校验任务发送给任务执行服务器,以使任务执行服务器执行第一数据校验任务。
本申请中,步骤401-步骤405可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
步骤406,获取任务执行服务器发送的第一数据校验任务对应的校验结果。
本申请中,第一数据校验任务对应的校验结果中可以包括一条或多条数据的校验结果、已校验完成的数据的信息比如校验完成了第1条到第1000条之间的数据等。
步骤407,根据校验结果,更新工作任务对应的任务执行进度信息。
本申请中,任务生成服务器可以根据校验结果中已校验完成的数据的信息,更新工作任务对应的任务执行进度信息。其中,任务执行进度信息可以用于指示工作任务的执行进度,任务执行进度信息可以包括但不限于已完成校验的数据桶标识、待校验数据桶的校验位置、待校验数据桶中各数据分片的校验位置等。
步骤408,将任务执行进度信息发送给调度服务器。
本申请中,任务生成服务器可以每隔预设时间间隔将工作任务对应的任务执行进度信息发送给调度服务器,从而调度服务器可以保存工作任务对应的任务执行进度信息。
本申请实施例中,任务生成服务器还可以获取任务执行服务器发送的第一数据校验任务对应的校验结果,并根据校验结果更新工作任务对应的任务执行进度信息,并将任务执行进度信息发送给调度服务器,从而调度服务器可以保存工作任务对应的任务执行进度信息,便于对工作任务进行管理。
图5为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务生成服务器执行,该服务器集群还可以包括调度服务器和任务执行服务器。
如图5所示,该数据校验方法还可以包括:
步骤501,任务生成服务器重新启动,在工作任务对应的第一数据校验任务未完成的情况下,向调度服务器发送工作任务对应的任务执行进度请求。
本申请中,任务生成服务器可能会发生异常或故障,可以重新启动任务生成服务器,在任务生成服务器重新启动后,若某工作任务对应的第一数据校验任务未完成,可以向调度服务器发送工作任务对应的任务执行进度请求,以获取该工作任务的任务执行进度信息。
步骤502,获取调度服务器发送的工作任务对应的任务执行进度信息。
本申请中,任务执行进度请求中可以包括工作任务的标识,调度服务器获取任务生成服务器发送的任务执行进度请求后,可以将保存的该工作任务对应的任务执行进度信息发送给任务生成服务器,由此任务生成服务器可以获取调度服务器发送的工作任务对应的任务执行进度信息。
步骤503,根据任务执行进度信息,生成工作任务对应的第二数据校验任务。
本申请中,任务生成服务器根据任务执行进度信息,可以确定工作任务对应的校验位置,可以根据校验位置,生成工作任务对应的第二数据校验任务。其中,第二数据校验任务中可以包括待校验数据桶标识、数据分片标识、校验位置、校验数量等。
比如,某工作任务对应的第一数据校验任务包括3个数据分片分别对应的数据校验任务,校验数量为1000,任务生成服务器根据任务执行进度信息,确定还有一个数据分片未校验完成,该数据分片一共有8000条数据,该数据分片的校验位置marker为3000,那么可以根据数据分片的校验位置marker=3000,生成该数据分片对应的第二数据校验任务,其中,第二数据校验任务的marker为3000,任务执行服务器可以从第3001条数据开始对第3001条到第4000条数据进行校验。
步骤504,将第二数据校验任务发送给任务执行服务器,以使任务执行服务器执行第二数据校验任务。
本申请中,将第二数据校验任务发送给任务执行服务器,与上述将第一数据校验任务发送给任务服务器执行类似,故在此不再赘述。
需要说明的是,获取第一数据校验任务的任务执行服务器与获取第二数据校验任务的任务执行服务器,可能相同,也可能不同,本申请对此不作限定。
本申请实施例中,任务生成服务器重新启动,若工作任务对应的第一数据校验任务未完成,向调度服务器发送工作任务对应的任务执行进度请求,以获取工作任务对应的任务执行进度信息,并根据从调度服务器获取的任务执行进度信息,生成工作任务对应的第二数据校验任务,并将第二数据校验任务发送给任务执行服务器。由此,若工作任务未完成,在任务生成服务器重启后,可以基于任务执行进度信息,生成数据校验任务,使任务执行服务器继续对工作任务处理中未校验的数据继续校验,从而可以保证数据校验的完整性和连续性。
图6为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务执行服务器执行,该服务器集群还可以包括调度服务器和任务生成服务器。
如图6所示,该数据校验方法包括:
步骤601,获取任务生成服务器发送的第一数据校验任务,其中,第一数据校验任务是任务生成服务器基于从调度服务器获取的工作任务生成的。
本申请中,任务执行服务器可以向任务生成服务器发送校验任务获取请求,任务生成服务器可以根据校验任务获取请求,向任务执行服务器发送数据校验任务,由此,任务执行服务器可以获取任务生成服务器发送的第一数据校验任务。其中,第一数据校验任务可以是任务生成服务器基于从调度服务器获取的工作任务生成的,比如对工作任务对应的待处理配置文件进行解析,获取解析结果,并基于解析结果生成第一数据校验任务。
本申请中,第一数据校验任务中可以包括待校验数据桶标识、数据分片标识、校验位置、校验数量等。其中,校验位置可以用于指示待校验数据桶或数据分片中已经校验完成的数据的位置,可以理解的是任务生成服务器第一次基于解析结果生成的第一数据校验任务中的校验位置可以为初始位置;校验数量可以是指第一数据校验任务要校验的数据量,校验数量可以根据实际需要设置,本申请对此不作限定。
步骤602,根据第一数据校验任务,从第一数据库中获取第一数据,并从第二数据库中获取第一数据对应的第二数据。
本申请中,第一数据库是第二数据库中的数据迁移至的数据库,也就是说,第一数据库中的部分数据或全部数据是从第二数据库中迁移过来的。比如,第一数据库为meta数据,第二数据库为meta数据库,由于meta数据库的性能比mola数据库快,那么可以将mola数据库中的数据迁移至meta数据库,之后的新增数据可以分别写入mola数据库和meta数据库,。
为了保证数据迁移前后的一致性,本申请中,可以根据第一数据校验任务包含的校验位置、校验数量等信息,从校验位置开始,从第一数据库中获取校验数量的第一数据,然后再根据第一数据中包含的对象名称,从第二数据库中获取与第一数据的对象名称匹配的第二数据。
比如,数据校验任务中待校验数据桶标识为C、校验位置为4000、校验数量为2000,可以从第一数据库的待校验数据桶C中第4001条数据开始,获取第4001条到第6000条的第一数据,再根据获取的2000条第一数据的对象名称,从第二数据库中获取与第一数据的对象名称匹配的第二数据。
步骤603,利用第二数据对第一数据进行校验,以获取第一数据校验任务对应的校验结果。
本申请中,可以将第一数据中包含的各属性项的属性值,与第二数据中相同属性项的属性值进行比对,若任一属性项的属性值不相同,说明第一数据与第二数据不同,若各属性项的属性值均相同,说明第一数据与第二数据相同。
为了提高校验的准确性,本申请中,可以获取第一数据对应的第一修改时间及第二数据对应的第二修改时间,并将第一修改数据与第二修改时间进行比较,其中,修改时间可以理解为数据最近的更新时间。若第一修改时间与所第二修改时间之间的差值小于预设阈值且第一修改时间大于第二修改时间,说明第一数据库中的数据是新数据,将第一数据与第二数据进行比对,以获取校验结果。若第一修改时间与第二修改时间之间的差值大于预设阈值,可以确定第一数据或第二数据异常。由此,基于第一数据和第二数据的修改时间进行校验,可以提高数据校验的准确性。
可以理解的是,若基于第一数据校验对象获取多对第一数据和第二数据,那么针对每对第一数据和第二数据进行比对,从而得到每对第一数据和第二数据的校验结果,进而可以得到第一数据校验任务对应的校验结果。
可选的,可以将校验结果发送给调度服务器,从而调度服务器可以根据校验结果更新任务执行进度信息。
为了满足校验需求,还可以根据需要设置校验的第一数据所处的起止时间范围,本申请中,第一数据校验任务中还可以在第一数据库中待校验数据的修改时间所处的起止时间范围,因此,在对第一数据和第二数据进行校验时,可以将修改时间未处于起止时间范围内的第一数据筛除,或者也可以只获取修改时间处于起止时间范围内的第一数据,从而对修改时间处于起止时间范围内的第一数据进行校验。
本申请实施例中,任务执行服务器可以获取任务生成服务器发送的第一数据校验任务,其中,第一数据校验任务是任务生成服务器基于从调度服务器获取的工作任务生成的,并根据第一数据校验任务,从第一数据库中获取第一数据及从第二数据库中获取第一数据对应的第二数据,利用第二数据对第一数据进行校验。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
图7为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的任务执行服务器执行,该服务器集群还可以包括调度服务器和任务生成服务器。
如图7所示,该数据校验方法包括:
步骤701,获取任务生成服务器发送的第一数据校验任务,其中,第一数据校验任务是任务生成服务器基于从调度服务器获取的工作任务生成的。
步骤702,根据第一数据校验任务,从第一数据库中获取第一数据,并从第二数据库中获取第一数据对应的第二数据。
本申请中,步骤701-步骤702可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
步骤703,根据第一数据校验任务,从第一数据库中获取待校验对象标识。
本申请中,任务执行服务器可以根据第一数据校验任务包含的校验位置、校验数量等信息,从校验位置开始,从第一数据库中获取校验数量的待校验对象标识比如对象名称,第一数据库中每条数据的对象名称不同。
在实际应用中,若第三数据库与第二数据库中的数据基本相同,也可以从第三数据库中获取待校验对象标识。比如,第一数据库为meta数据,第二数据库为mola数据库,第三数据库为mysql数据库,其中,mola数据库与mysql数据库的数据基于相同,在进行数据校验时,可以从mysql数据库或meta数据库获取待校验对象标识。
为了提高校验效率,可以对第一数据库中待校验数据桶中的数据按照数据分片进行校验,本申请中,第一数据校验任务可以包含校验数量、数据分片标识、校验位置等,其中,校验位置是指数据分片标识对应的数据分片的校验位置。在根据第一数据校验任务,从第一数据库中获取待校验对象标识时,可以在数据分片标识对应的数据分片中,从校验位置开始获取校验数据量的待校验对象标识,其中,数据分片标识对应的数据分片是第一数据库中待校数据桶包含的数据分片。
比如,某第一数据校验任务中校验数量为3000,数据分片标识为shard2,校验位置为6000,那么从shard2中第6001条数据开始,获取第6001条到第9000条数据的待校验对象标识,也即获取3000个待校验对象标识。
步骤704,从第一数据库获取待校验对象标识对应的第一数据及从第二数据库获取待校验对象标识对应的第二数据。
本申请中,任务执行服务器可以根据待校验对象标识,从第一数据库获取待校验对象标识对应的第一数据及从第二数据库获取待校验对象标识对应的第二数据。
若待校验对象标识是从第三数据库中获取的,在从第一数据库中获取数据时,未获取到待校验对象标识对应的第一数据,说明未写入成功,可以过一段时间再进行校验。
步骤705,利用第二数据对第一数据进行校验,以获取第一数据校验任务对应的校验结果。
本申请中,步骤705可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
可选的,本申请中,获取的待校验标识可能为多个,为了提高校验效率,可以根据每个待校验对象标识,生成子校验任务,也即每个待校验对象标识对应一个子校验任务,然后将子校验任务推送至子任务队列中,任务执行服务器可以通过多个线程并行从子任务队列中获取子校验任务,从第一数据库中获取子校验任务中待校验对象标识对应的第一数据,从第二数据库中获取子校验任务中待校验对象标识对应的第二数据。由此,对第一数据校验任务通过多个线程进行校验,提高了校验效率。
为了进一步提高校验效率和系统稳定性,本申请,获取待校验对象标识并生成子校验任务,与执行子校验任务可以由不同的任务执行服务器执行。为了便于理解下面,结合图8进行说明,图8为本申请实施例提供的一种数据校验的过程示意图一。
如图8所示,调度服务器将生成的工作任务发送给任务生成服务器,任务生成服务器基于工作任务生成数据校验任务,并将数据校验任务推送至校验任务队列。任务执行服务器a可以从校验任务队列中获取数据校验任务,并根据数据校验任务获取待校验对象标识,并根据每个待校验对象标识,生成子校验任务,并将子校验任务推送给子任务队列。任务执行服务器b可以通过多个线程并行从子任务队列中获取子校验任务,并根据子校验任务中待校验对象标识,获取第一数据和第二数据进行比较,得到校验结果,直至整个数据校验任务执行完,汇总一个响应信息发送给任务生成服务器,其中,响应信息中可以包括每个待校验对象标识对应的校验结果。由此,通过两个任务执行服务器a和b分别执行获取待校验对象标识和校验工作,可以提高校验效率。
本申请实施例中,任务执行服务器可以根据第一数据校验任务,从第一数据库中获取待校验对象标识,并从第一数据库获取待校验对象标识对应的第一数据及从第二数据库获取待校验对象标识对应的第二数据,再对第一数据和第二数据进行校验。由此,任务执行服务器可以先获取待校验对象标识,再获取待校验对象标识对应的第一数据和第二数据然后进行校验,可以提高校验效率。
图9为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的调度服务器执行,该服务器集群还可以包括任务生成服务器和任务执行服务器。
如图9所示,该数据校验方法包括:
步骤901,获取待处理配置文件。
本申请中,待处理配置文件中可以包括但不限于地理区域的标识、待校验数据桶标识、待校验数据桶包含的数据分片数量、校验模式、起止时间范围。
步骤902,根据待处理配置文件,生成工作任务。
本申请中,调度服务器可以对待处理配置文件进行解析,获取解析结果,根据解析结果,生成工作任务。
本申请中,工作任务中可以包括待处理配置文件的标识、工作任务的标识、工作任务的类型、工作任务的状态、工作任务的名字、待校验数据桶标识等信息。其中,工作任务的类型比如可以是校验;工作任务的状态可以包括准备状态、已发送状态、完成状态等,准备状态可以用于指示工作任务未发送给任务生成服务器,刚生成的工作任务的状态为准备状态,已发送状态可以用于指示工作任务已经发送给任务生成服务器,完成状态可以认为工作任务对应的数据校验已完成。
本申请中,调度服务器可以根据解析结果中包含的待校验数据桶的数量,生成工作任务,从而可以提高校验效率。
比如,待校验数据桶的数量为一个,可以生成一个工作任务,若待校验数据桶的数量为m个,可以生成k个工作任务,其中,m为大于1的正整数,k为小于或等于m的正整数。
也就是说,针对一个待处理配置文件,调度服务器可以生成一个或多个工作任务,本申请对此不作限定。
本申请中,若生成多个工作任务,可以将多个工作任务依次推送至工作任务队列。
步骤903,获取任务生成服务器发送的工作任务获取请求。
本申请中,任务生成服务器可以向调度服务器发送工作任务获取请求,以获取工作任务,由此调度服务器可以获取任务生成服务器发送的工作任务获取请求。
步骤904,将工作任务发送给任务生成服务器,以使任务生成服务器基于工作任务生成第一数据校验任务并发送给任务执行服务器。
本申请中,调度服务器在获取到工作任务获取请求时,将生成的工作任务发送给任务生成服务器。若生成的多个工作任务放在了工作任务队列中,可以从工作任务队列中取出工作任务发送给任务生成服务器。任务生成服务器,可以基于工作任务生成第一数据校验任务并发送给任务执行服务器。
本申请中,若调度服务器生成多个工作任务,可以将工作任务发送给不同的任务生成服务器,从而可以提高校验效率。
本申请实施例中,调度服务器可以获取待处理配置文件,并根待处理配置文件,生成工作任务,在获取到任务生成服务器发送的工作任务获取请求时,将工作任务发送给任务生成服务器,以使任务生成服务器基于工作任务生成第一数据校验任务并发送给任务执行服务器。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
图10为本申请另一实施例提供的数据校验方法的流程示意图。
本申请实施例的数据校验方法,可以由服务器集群中的调度服务器执行,该服务器集群还可以包括任务生成服务器和任务执行服务器。
如图10所示,该数据校验方法包括:
步骤1001,获取待处理配置文件。
步骤1002,获取待处理配置文件。
步骤1003,获取任务生成服务器发送的工作任务获取请求。
步骤1004,将工作任务发送给任务生成服务器,以使任务生成服务器基于工作任务生成第一数据校验任务并发送给任务执行服务器。
本申请中,步骤1001-步骤1004可以分别采用本申请各实施例中任一种方式实现方式,本申请对此不作限定,也不再赘述。
步骤1005,获取任务生成服务器发送的工作任务对应的任务执行进度信息,并保存任务执行进度信息。
本申请中,任务执行进度信息可以用于指示工作任务的执行进度,任务执行进度信息可以包括但不限于已完成校验的数据桶标识、待校验数据桶的校验位置、待校验数据桶中各数据分片的校验位置等。
本申请中,调度服务器可以保存各个时刻的任务执行进度信息,也可以利用最新获取的任务执行进度信息更新之前保存的任务执行进度信息,从而仅保存最新的任务执行进度信息。从而,便于对工作任务进行管理。
可选的,任务生成服务器可能会发生异常或故障,可以重新启动任务生成服务器,在任务生成服务器重新启动后,若某工作任务对应的第一数据校验任务未完成,可以向调度服务器发送工作任务对应的任务执行进度请求,任务执行进度请求中可以包括工作任务的标识。由此,调度服务器可以获取任务生成服务器发送的工作任务对应的任务执行进度请求,并根据工作任务的标识,获取工作任务当前的任务执行进度信息,并发送给任务生成服务器,以便于对未校验的数据继续校验,从而可以保证数据校验的完整性和连续性。
可选的,调度服务器在将工作任务发送给任务生成服务器之后,可以将工作任务的状态由准备状态更新为已发送状态。那么当其他任务生成服务器获取工作任务时,从而可以避免将同一工作任务发送给多个任务生成服务器,进而可以避免同一工作任务被重复执行,浪费资源。
若在预设时长内未收到任务生成服务器发送的心跳信息,可以认为任务生成服务器发生了故障,在任务生成服务器发生故障且工作任务未执行完成的情况下,可以将工作任务的状态由已发送状态更新为准备状态,从而在发生故障的任务生成服务器重启后,可以将工作任务发送给任务生成服务器继续处理,保证了数据校验的完整性和连续性。
为了便于理解本申请的数据校验方法,下面结合图11进行说明,图11为本申请实施例提供的一种数据校验的过程示意图二。
如图11所示,该数据校验过程如下:
步骤1101,调度服务器向任务生成服务器发送工作任务。
本申请中,调度服务器可以根据待处理配置文件,生成工作任务,并发送给任务生成服务器,具体过程可以参见上述实施例,故在此不再赘述。
步骤1102,任务生成服务器向任务执行服务器发送数据校验任务。
本申请中,任务生成服务器可以获取调度服务器发送的工作任务,并根据工作任务对应的待处理配置文件,生成数据校验任务,并发送给任务执行服务器。
步骤1103,从第一数据库获取待校验对象标识。
本申请中,任务执行服务器可以根据数据校验任务,从第一数据库获取待校验对象标识。
步骤1104,任务执行服务器获取从第一数据库获取第一数据。
本申请中,任务执行服务器可以从第一数据库获取待校验对象标识对应的第一数据。
步骤1105,任务执行服务器获取从第二数据库获取第二数据。
本申请中,任务执行服务器可以从第二数据库获取待校验对象标识对应的第二数据。
在获取第一数据和第二数据后,可以对第一数据和第二数据进行校验,校验过程可以参见上述实施例,故在此不再赘述。
需要说明的是,可以先执行步骤1104再执行步骤1105,也可以先执行步骤1105再执行步骤1104,也可以同时执行步骤1104和步骤1105,本申请对此不作限定。
步骤1106,任务执行服务器向任务生成服务器发送校验结果。
本申请中,任务生成服务器可以获取任务执行服务器返回的校验结果,并根据校验结果,更新工作任务对应的任务执行进度信息。
步骤1107,任务执行服务器可以向调度服务器发送任务执行进度信息。
本申请中,任务执行服务器可以通过快照,获取工作任务当前的任务执行进度信息,并发送调度服务器,从而调度服务器可以保存工作任务的任务执行进度信息。
另外,本申请中,调度服务器还可以具有限流的作用,比如,可以设置同时执行任务数据校验任务的任务执行服务器的数量的阈值,调度服务器可以将该阈值同步给任务生成服务器,当执行任务数据校验任务的任务执行服务器的数量超过阈值时,可以暂时停止数据校验任务的分配。
为了实现上述实施例,本申请实施例还提出一种数据校验装置,该数据校验装置可以设置于服务器集群中的任务生成服务器中,所述服务器集群还包括调度服务器和任务执行服务器。图12为本申请一实施例提供的数据校验装置的结构示意图。
如图12所示,该数据校验装置1200包括:
发送模块1210,用于向调度服务器发送工作任务获取请求;
获取模块1220,用于获取调度服务器发送的工作任务;
解析模块1230,用于对工作任务对应的待处理配置文件进行解析,以获取解析结果;
生成模块1240,用于根据解析结果,生成工作任务对应的第一数据校验任务;
发送模块1210,还用于将第一数据校验任务发送给任务执行服务器,以使任务执行服务器执行第一数据校验任务。
在本申请实施例一种可能的实现方式中,生成模块1240,用于:
根据解析结果中包含的待校验数据桶标识及待校验数据桶包含的数据分片数量,生成第一数据校验任务,其中,每个数据分片对应一个第一数据校验任务。
在本申请实施例一种可能的实现方式中,获取模块1220,还用于获取任务执行服务器发送的每个数据分片对应的校验结果;
该装置还可以包括:
确定模块,用于根据校验结果,确定任一数据分片对应的校验位置;
第一更新模块,用于在根据校验位置确定任一数据分片未校验完成的情况下,根据任一数据分片对应的校验位置,对任一数据分片对应的第一数据校验任务进行更新,并将更新后的第一数据校验任务发送给任务执行服务器。
在本申请实施例一种可能的实现方式中,获取模块1220,还用于获取任务执行服务器发送的第一数据校验任务对应的校验结果;
装置还包括:第二更新模块,用于根据校验结果,更新工作任务对应的任务执行进度信息;
发送模块1210,还用于将任务执行进度信息发送给调度服务器。
在本申请实施例一种可能的实现方式中,发送模块1210,还用于任务生成服务器重新启动,在工作任务对应的第一数据校验任务未完成的情况下,向调度服务器发送工作任务对应的任务执行进度请求;
获取模块1220,还用于获取调度服务器发送的工作任务对应的任务执行进度信息;
生成模块1240,还用于根据任务执行进度信息,生成工作任务对应的第二数据校验任务;
发送模块1210,还用于将第二数据校验任务发送给任务执行服务器,以使任务执行服务器执行第二数据校验任务。
在本申请实施例一种可能的实现方式中,发送模块1210,还用于:
每隔预设时间向调度服务器发送心跳信息,其中,心跳信息用于确定是否调整工作任务的状态。
需要说明的是,前述任务生成服务器侧的数据校验方法实施例的解释说明,也适用于该实施例的数据校验装置,故在此不再赘述。
本申请实施例中,任务生成服务器可以通过向调度服务器发送工作任务获取请求,并获取调度服务器发送的工作任务,对工作任务对应的待处理配置文件进行解析,以获取解析结果,基于解析结果生成工作任务对应的第一数据校验任务,并发送给任务执行服务器执行。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
为了实现上述实施例,本申请实施例还提出一种数据校验装置,该数据校验装置可以设置于服务器集群中的任务执行服务器中,所述服务器集群还包括调度服务器和任务生成服务器。图13为本申请另一实施例提供的数据校验装置的结构示意图。
如图13所示,该数据校验装置1300包括:
第一获取模块1310,用于获取任务生成服务器发送的第一数据校验任务,其中,第一数据校验任务是任务生成服务器基于从调度服务器获取的工作任务生成的;
第二获取模块1320,用于根据第一数据校验任务,从第一数据库中获取第一数据,并从第二数据库中获取第一数据对应的第二数据,其中,第一数据库是第二数据库中的数据迁移至的数据库;
校验模块1330,用于利用第二数据对第一数据进行校验,以获取第一数据校验任务对应的校验结果。
在本申请实施例一种可能的实现方式中,第二获取模块1320,用于:
根据第一数据校验任务,从第一数据库中获取待校验对象标识;
从第一数据库获取待校验对象标识对应的第一数据及从第二数据库获取待校验对象标识对应的第二数据。
在本申请实施例一种可能的实现方式中,数据校验任务中包含校验数量、数据分片标识及校验位置,第二获取模块1320,用于:
在数据分片标识对应的数据分片中,从校验位置开始获取校验数量的待校验对象标识,其中,数据分片为第一数据库中待校数据桶包含的数据分片。
在本申请实施例一种可能的实现方式中,校验模块1330,用于:
获取第一数据对应的第一修改时间及第二数据对应的第二修改时间;
在第一修改时间与第二修改时间之间的差值小于预设阈值且第一修改时间大于第二修改时间的情况下,将第一数据与第二数据进行比对,以获取校验结果;
在第一修改时间与第二修改时间之间的差值大于预设阈值的情况下,确定第一数据或第二数据异常。
在本申请实施例一种可能的实现方式中,该装置还包括:
发送模块,用于将校验结果发送给任务生成服务器。
需要说明的是,前述任务执行服务器侧的数据校验方法实施例的解释说明,也适用于该实施例的数据校验装置,故在此不再赘述。
本申请实施例中,任务执行服务器可以获取任务生成服务器发送的第一数据校验任务,其中,第一数据校验任务是任务生成服务器基于从调度服务器获取的工作任务生成的,并根据第一数据校验任务,从第一数据库中获取第一数据及从第二数据库中获取第一数据对应的第二数据,利用第二数据对第一数据进行校验。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
为了实现上述实施例,本申请实施例还提出一种数据校验装置,该数据校验装置可以设置于服务器集群中的调度服务器中,所述服务器集群还包括任务生成服务器和任务执行服务器。图14为本申请另一实施例提供的数据校验装置的结构示意图。
如图14所示,该数据校验装置1400包括:
第一获取模块1410,用于获取待处理配置文件;
生成模块1420,用于根据待处理配置文件,生成工作任务;
第二获取模块1430,用于获取任务生成服务器发送的工作任务获取请求;
发送模块1440,用于将工作任务发送给任务生成服务器,以使任务生成服务器基于工作任务生成第一数据校验任务并发送给任务执行服务器。
在本申请实施例一种可能的实现方式中,生成模块1420,用于:
对待处理配置文件进行解析,以获取解析结果;
根据解析结果中包含的待校验数据桶的数量,生成工作任务。
在本申请实施例一种可能的实现方式中,第二获取模块1430,还用于:
获取任务生成服务器发送的工作任务对应的任务执行进度信息,并保存任务执行进度信息。
在本申请实施例一种可能的实现方式中,第二获取模块1430,还用于获取任务生成服务器发送的工作任务对应的任务执行进度请求;
发送模块1440,还用于将工作任务当前的任务执行进度信息发送给任务生成服务器。
在本申请实施例一种可能的实现方式中,该装置还可以包括:
更新模块,用于将工作任务的状态由准备状态更新为已发送状态;
更新模块,还用于在预设时长内未收到任务生成服务器发送的心跳信息且工作任务未执行完成的情况下,将工作任务的状态由已发送状态更新为准备状态。
需要说明的是,前述调度服务器侧的数据校验方法实施例的解释说明,也适用于该实施例的数据校验装置,故在此不再赘述。
本申请实施例中,调度服务器可以获取待处理配置文件,并根待处理配置文件,生成工作任务,在获取到任务生成服务器发送的工作任务获取请求时,将工作任务发送给任务生成服务器,以使任务生成服务器基于工作任务生成第一数据校验任务并发送给任务执行服务器。由此,基于调度服务器、任务生成服务器及任务执行服务器的三层架构进行数据校验,可以提高数据校验效率,并且可以根据需要扩展集群中服务器的数量,提高了整体系统的稳定性和可靠性。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图15示出了可以用来实施本申请的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图15所示,设备1500包括计算单元1501,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1502中的计算机程序或者从存储单元1508加载到RAM(Random AccessMemory,随机访问/存取存储器)1503中的计算机程序,来执行各种适当的动作和处理。在RAM 1503中,还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。I/O(Input/Output,输入/输出)接口1505也连接至总线1504。
设备1500中的多个部件连接至I/O接口1505,包括:输入单元1506,例如键盘、鼠标等;输出单元1507,例如各种类型的显示器、扬声器等;存储单元1508,例如磁盘、光盘等;以及通信单元1509,例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理,例如数据校验方法。例如,在一些实施例中,数据校验方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM1503并由计算单元1501执行时,可以执行上文描述的数据校验方法的一个或多个步骤。备选地,在其他实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据校验方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请的实施例,本申请还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本申请上述实施例提出的数据校验方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种数据校验方法,由服务器集群中的任务生成服务器执行,所述服务器集群还包括调度服务器和任务执行服务器,所述方法包括:
向所述调度服务器发送工作任务获取请求;
获取所述调度服务器发送的工作任务;
对所述工作任务对应的待处理配置文件进行解析,以获取解析结果;
根据所述解析结果,生成所述工作任务对应的第一数据校验任务;
将所述第一数据校验任务发送给任务执行服务器,以使所述任务执行服务器执行所述第一数据校验任务。
2.如权利要求1所述的方法,其中,所述根据所述解析结果,生成所述工作任务对应的第一数据校验任务,包括:
根据所述解析结果中包含的待校验数据桶标识及所述待校验数据桶包含的数据分片数量,生成所述第一数据校验任务,其中,每个数据分片对应一个第一数据校验任务。
3.如权利要求2所述的方法,还包括:
获取所述任务执行服务器发送的每个所述数据分片对应的校验结果;
根据所述校验结果,确定所述任一数据分片对应的校验位置;
在根据所述校验位置确定任一数据分片未校验完成的情况下,根据所述任一数据分片对应的校验位置,对所述任一数据分片对应的第一数据校验任务进行更新,并将更新后的第一数据校验任务发送给所述任务执行服务器。
4.如权利要求1所述的方法,还包括:
获取所述任务执行服务器发送的所述第一数据校验任务对应的校验结果;
根据所述校验结果,更新所述工作任务对应的任务执行进度信息;
将所述任务执行进度信息发送给所述调度服务器。
5.如权利要求4所述的方法,还包括:
所述任务生成服务器重新启动,在所述工作任务对应的第一数据校验任务未完成的情况下,向所述调度服务器发送所述工作任务对应的任务执行进度请求;
获取所述调度服务器发送的所述工作任务对应的任务执行进度信息;
根据所述任务执行进度信息,生成所述工作任务对应的第二数据校验任务;
将所述第二数据校验任务发送给所述任务执行服务器,以使所述任务执行服务器执行所述第二数据校验任务。
6.如权利要求1所述的方法,还包括:
每隔预设时间向所述调度服务器发送心跳信息,其中,所述心跳信息用于确定是否调整所述工作任务的状态。
7.一种数据校验方法,由服务器集群中的任务执行服务器执行,所述服务器集群还包括调度服务器和任务生成服务器,所述方法包括:
获取所述任务生成服务器发送的第一数据校验任务,其中,所述第一数据校验任务是所述任务生成服务器基于从所述调度服务器获取的工作任务生成的;
根据所述第一数据校验任务,从所述第一数据库中获取第一数据,并从第二数据库中获取所述第一数据对应的第二数据,其中,所述第一数据库是所述第二数据库中的数据迁移至的数据库;
利用所述第二数据对所述第一数据进行校验,以获取所述第一数据校验任务对应的校验结果。
8.如权利要求7所述的方法,其中,所述根据所述第一数据校验任务,从所述第一数据库中获取第一数据,并从第二数据库中获取所述第一数据对应的第二数据,包括:
根据所述第一数据校验任务,从所述第一数据库中获取待校验对象标识;
从所述第一数据库获取所述待校验对象标识对应的所述第一数据及从所述第二数据库获取所述待校验对象标识对应的第二数据。
9.如权利要求8所述的方法,其中,所述数据校验任务中包含校验数量、数据分片标识及校验位置,所述根据所述第一数据校验任务,从所述第一数据库中获取待校验对象标识,包括:
在所述数据分片标识对应的数据分片中,从所述校验位置开始获取所述校验数量的待校验对象标识,其中,所述数据分片为所述第一数据库中待校数据桶包含的数据分片。
10.如权利要求7所述的方法,其中,所述利用第二数据对所述第一数据进行校验,以获取校验结果,包括:
获取所述第一数据对应的第一修改时间及所述第二数据对应的第二修改时间;
在所述第一修改时间与所述第二修改时间之间的差值小于预设阈值且所述第一修改时间大于所述第二修改时间的情况下,将所述第一数据与所述第二数据进行比对,以获取所述校验结果;
在所述第一修改时间与所述第二修改时间之间的差值大于所述预设阈值的情况下,确定所述第一数据或所述第二数据异常。
11.如权利要求7所述的方法,还包括:
将所述校验结果发送给所述任务生成服务器。
12.一种数据校验方法,由服务器集群中的调度服务器执行,所述服务器集群中还包括任务生成服务器和任务执行服务器,所述方法包括:
获取待处理配置文件;
根据所述待处理配置文件,生成工作任务;
获取任务生成服务器发送的工作任务获取请求;
将所述工作任务发送给所述任务生成服务器,以使所述任务生成服务器基于所述工作任务生成第一数据校验任务并发送给所述任务执行服务器。
13.如权利要求12所述的方法,其中,所述根据所述待处理配置文件,生成工作任务,包括;
对所述待处理配置文件进行解析,以获取解析结果;
根据解析结果中包含的待校验数据桶的数量,生成所述工作任务。
14.如权利要求12所述的方法,其中,还包括:
获取所述任务生成服务器发送的所述工作任务对应的任务执行进度信息,并保存所述任务执行进度信息。
15.如权利要求14所述的方法,还包括:
获取所述任务生成服务器发送的所述工作任务对应的任务执行进度请求;
将所述工作任务当前的任务执行进度信息发送给所述任务生成服务器。
16.如权利要求12所述的方法,在所述将所述工作任务发送给所述任务生成服务器之后,还包括:
将所述工作任务的状态由准备状态更新为已发送状态;
在预设时长内未收到所述任务生成服务器发送的心跳信息且所述工作任务未执行完成的情况下,将所述工作任务的状态由所述已发送状态更新为所述准备状态。
17.一种数据校验装置,设置于服务器集群中的任务生成服务器中,所述服务器集群还包括调度服务器和任务执行服务器,所述装置包括:
发送模块,用于向所述调度服务器发送工作任务获取请求;
获取模块,用于获取所述调度服务器发送的工作任务;
解析模块,用于对所述工作任务对应的待处理配置文件进行解析,以获取解析结果;
生成模块,用于根据所述解析结果,生成所述工作任务对应的第一数据校验任务;
所述发送模块,还用于将所述第一数据校验任务发送给任务执行服务器,以使所述任务执行服务器执行所述第一数据校验任务。
18.一种数据校验装置,设置于服务器集群中的任务执行服务器中,所述服务器集群还包括调度服务器和任务生成服务器,所述装置包括:
第一获取模块,用于获取所述任务生成服务器发送的第一数据校验任务,其中,所述第一数据校验任务是所述任务生成服务器基于从所述调度服务器获取的工作任务生成的;
第二获取模块,用于根据所述第一数据校验任务,从所述第一数据库中获取第一数据,并从第二数据库中获取所述第一数据对应的第二数据,其中,所述第一数据库是所述第二数据库中的数据迁移至的数据库;
校验模块,用于利用所述第二数据对所述第一数据进行校验,以获取所述第一数据校验任务对应的校验结果。
19.一种数据校验装置,设置于服务器集群中的调度服务器中,所述服务器集群中还包括任务生成服务器和任务执行服务器,所述装置包括:
第一获取模块,用于获取待处理配置文件;
生成模块,用于根据所述待处理配置文件,生成工作任务;
第二获取模块,用于获取任务生成服务器发送的工作任务获取请求;
发送模块,用于将所述工作任务发送给所述任务生成服务器,以使所述任务生成服务器基于所述工作任务生成第一数据校验任务并发送给所述任务执行服务器。
20.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法,或者能够执行权利要求7-11中任一项所述的方法,或者能够执行权利要求12-16中任一项所述的方法。
21.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法,或者根据权利要求7-11中任一项所述的方法,或者根据权利要求12-16中任一项所述的方法。
22.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述方法的步骤,或者实现权利要求7-11中任一项所述方法的步骤,或者实现权利要求12-16中任一项所述方法的步骤。
CN202310179386.6A 2023-02-24 2023-02-24 数据校验方法、装置、电子设备和存储介质 Pending CN116069764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310179386.6A CN116069764A (zh) 2023-02-24 2023-02-24 数据校验方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310179386.6A CN116069764A (zh) 2023-02-24 2023-02-24 数据校验方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116069764A true CN116069764A (zh) 2023-05-05

Family

ID=86181991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310179386.6A Pending CN116069764A (zh) 2023-02-24 2023-02-24 数据校验方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116069764A (zh)

Similar Documents

Publication Publication Date Title
KR20230006033A (ko) 연합 계산 처리 방법, 장치, 전자 기기 및 저장 매체
CN114861039B (zh) 一种搜索引擎的参数配置方法、装置、设备及存储介质
CN115631273A (zh) 一种大数据的去重方法、装置、设备及介质
CN115237566A (zh) 批量任务执行方法、装置、设备、介质及产品
CN115242731A (zh) 一种报文处理方法、装置、设备及存储介质
CN112925811B (zh) 数据处理的方法、装置、设备、存储介质及程序产品
CN113703946A (zh) 应用恢复方法及其装置、电子设备、计算机可读存储介质
CN116301997A (zh) 一种控制器的升级方法、装置、设备和介质
CN116319758A (zh) 数据迁移方法、装置、电子设备及可读存储介质
CN115495151A (zh) 规则引擎的迁移方法、装置、设备、存储介质及程序产品
CN114327819B (zh) 一种任务管理方法、装置、设备及存储介质
CN116126719A (zh) 接口测试方法、装置、电子设备及存储介质
CN116069764A (zh) 数据校验方法、装置、电子设备和存储介质
CN115510036A (zh) 数据迁移方法、装置、设备以及存储介质
CN112559547B (zh) 确定多存储对象副本之间一致性的方法及装置
CN114185641A (zh) 虚拟机冷迁移方法、装置、电子设备及存储介质
CN116244324B (zh) 任务数据关系挖掘方法、装置、电子设备及存储介质
CN114816758B (zh) 资源分配方法和装置
CN114546705B (zh) 操作响应方法、操作响应装置、电子设备以及存储介质
CN115757275A (zh) 一种资产信息管理方法、装置、电子设备及存储介质
CN115237561A (zh) 一种作业获取方法、装置、设备及介质
CN116483732A (zh) 一种基于多数据源的测试方法、装置及设备
CN113220230A (zh) 数据导出方法及其装置、电子设备以及存储介质
CN116755744A (zh) 一种补丁包生成方法、装置、电子设备及存储介质
CN115408195A (zh) 一种异构平台的批量任务管理方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination