CN109635256B - 用于校验数据的方法和装置 - Google Patents

用于校验数据的方法和装置 Download PDF

Info

Publication number
CN109635256B
CN109635256B CN201811562212.3A CN201811562212A CN109635256B CN 109635256 B CN109635256 B CN 109635256B CN 201811562212 A CN201811562212 A CN 201811562212A CN 109635256 B CN109635256 B CN 109635256B
Authority
CN
China
Prior art keywords
data
character string
data set
string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811562212.3A
Other languages
English (en)
Other versions
CN109635256A (zh
Inventor
徐飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shanghai Zhangmen Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhangmen Science and Technology Co Ltd filed Critical Shanghai Zhangmen Science and Technology Co Ltd
Priority to CN201811562212.3A priority Critical patent/CN109635256B/zh
Publication of CN109635256A publication Critical patent/CN109635256A/zh
Application granted granted Critical
Publication of CN109635256B publication Critical patent/CN109635256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了用于校验数据的。该方法的一具体实施方式包括:获取待校验的第一数据集和第二数据集,第一数据集中的数据和第二数据集中的数据一一对应;根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的对应的字符串包含的数据一一对应且排列顺序一致;基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,输出用于表示第一数据集和第二数据集是否相同的校验结果信息。该实施方式实现了对两个数据集的校验。

Description

用于校验数据的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于校验数据的方法和装置。
背景技术
随着互联网技术的快速发展,每刻都会产生大量的数据,也会涉及大量数据的传输、存储等。而在数据的产生、传输和存储等过程中,会有各种各样的影响,有的影响会导致数据出现差错。因此,数据校验是常见的一种用于保证数据的完整性、一致性等的方法。
在很多情况下,同一份数据会对应有多份存储。例如,服务端的一接口返回的数据集会同时同步到多个客户端。又例如,对于同一数据集,有时需要按照不同的存储方式、或使用不同的数据存储工具等分别进行存储。这些情况下,都会出现在不同位置存储有同一数据集。此时,如何校验这些不同位置处存储的数据集中的数据是否相同是需要考虑的一个问题。
目前,常用的可以用于校验不同存储位置的多个数据集的一致性的校验方法包括直接校验和校验和。其中,直接校验就是将多个数据集直接进行一一比较。校验和是利用消息摘要算法等算法对多个数据集分别进行处理,并通过判断多个数据集分别对应的散列值是否相同来校验多个数据集的一致性。
发明内容
本申请实施例提出了用于校验数据的方法和装置。
第一方面,本申请实施例提供了一种用于校验数据的方法,该方法包括:获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息。
第二方面,本申请实施例提供了一种用于校验数据的装置,该装置包括:获取单元,被配置成获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;生成单元,被配置成根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;确定单元,被配置成基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于校验数据的方法和装置,通过获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息,从而实现了根据两个数据集中的数据按照对应的顺序排列而生成的多个字符串来完成对两个数据集的校验。一方面,较大概率的避免了对两个数据集中的数据一一对应比较校验的情况,有助于提升校验速度。另一方面,根据每个数据集,生成多个字符串,从而之后可以分别对对应的两个字符串进行校验,也可以根据每个数据集对应的多个字符串整体进行校验,有助于提升校验方式的灵活性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于校验数据的方法的一个实施例的流程图;
图3是根据本申请的用于校验数据的方法的又一个实施例的流程图;
图4是根据本申请实施例的用于校验数据的方法的一个应用场景的示意图;
图5是根据本申请的用于校验数据的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于校验数据的方法或用于校验数据的装置的实施例的示例性架构100。
如图1所示,系统架构100可以包括服务器101和与服务器101通信连接的数据库102、103。服务器101上可以安装有数据库管理软件,用于控制数据库102、103。
数据库102、103中可以用于存储同一份数据。数据库102、103中的数据的存储方式(如存储格式、存储顺序等)可以不同。
服务器101可以是提供各种服务的服务器。例如,为数据库102、103存储的数据进行校验的数据处理服务器。数据处理服务器可以分别从数据库102、103中获取对应的数据集,并对两个数据集进行一致性校验,以及向用户显示校验结果。
需要说明的是,服务器101上也可以直接安装数据库102、103。此时,服务器101可以直接从本地的两个数据库获取对应的数据集并进行一致性校验。
服务器101也可以是为不同的两个客户端所接收并存储的同一份数据进行校验的数据处理服务器。数据处理服务器可以分别从两个客户端中获取的对应的数据集,并对两个数据集进行一致性校验。此时,可以不存在数据库102、103。
需要说明的是,数据库102、103可以分别安装于两个客户端中。此时,服务器可以分别从两个客户端上安装的数据库中获取对应的数据集,并进行一致性校验。
需要说明的是,服务器101可以是硬件,也可以是软件。当服务器101为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器101为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,上述客户端可以是硬件,也可以是软件。当终端设备为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于校验数据的方法一般由服务器101执行,相应地,用于校验数据的装置一般设置于服务器101中。
应该理解,图1中的服务器、数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的服务器、数据库。
继续参考图2,其示出了根据本申请的用于校验数据的方法的一个实施例的流程200。该用于校验数据的方法包括以下步骤:
步骤201,获取待校验的第一数据集和第二数据集。
在本实施例中,用于校验数据的方法的执行主体(如图1所示的服务器101)可以先利用有线连接或无线连接的方式从本地或其它存储设备获取待校验的第一数据集和第二数据集。其中,数据可以指计算机可存储的各种数据。数据可以是数字、文字、字符串等等。
其中,第一数据集中的数据和第二数据集中的数据一一对应。这里的对应关系可以指校验关系的对应。应当可以理解,在第一数据集和第二数据集中的数据相同时,第一数据集和第二数据集中的数据一一对应相同。因此,校验第一数据集和第二数据集是否相同,实质上也是在校验第一数据集和第二数据集中对应的两个数据是否相同。
在本实施例的一些可选的实现方式中,第一数据集和第二数据集中的数据可以是从数据库中获取的数据记录。此时,第一数据集和第二数据集可以通过如下步骤确定:
步骤一,根据预设的查询条件,在第一目标数据库中进行查询,得到返回的第一记录集,以及根据查询条件,在第二目标数据库中进行查询,得到返回的第二记录集。
在本步骤中,查询条件可以由技术人员预先根据具体的应用场景设置。例如,想要校验从当前时间开始的前三天的数据记录,那么可以设置查询条件为日期在当前时间开始的前三天之内的数据记录。其中,第一目标数据库和第二目标数据库可以是由技术人员预先根据具体的应用场景指定。
可选地,查询条件还可以限定所要校验的字段。对于每条数据记录,可以只选择所需部分的字段进行校验,从而提升校验方式的灵活性,同时也有助于提升校验速度。
步骤二,响应于确定第一记录集包含的记录的数目和第二记录集包含的记录的数目相同,确定第一记录集作为第一数据集,以及确定第二记录集作为第二数据集。
在第一数据集和第二数据集相同时,第一数据集包含的数据的数目和第二数据集包含的数据的数目应当也相同。因此,若根据相同的查询条件在第一目标数据库和第二目标数据库中分别查询到的第一记录集和第二记录集分别包含的数据记录的数目不一致,则第一记录集和第二记录集肯定不同。因此,可以先过滤掉这种情况。
步骤202,根据第一数据集和第二数据集,生成第一字符串集和第二字符串集。
在本步骤中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致。
通过这种方式可以将校验第一数据集和第二数据集是否相同转化为校验第一字符串集和第二字符串集是否相同。而校验第一字符串集和第二字符串集是否相同即是校验第一字符串集和第二字符串集中对应的字符串是否相同。
应当可以理解,只有对应的两个字符串中的数据的排列顺序一致,校验才有意义。否则,若对应的两个字符串中的数据的排列顺序不一致,那这两个字符串较大概率的不同,也就较大概率的出现错误校验的情况。
两个字符串包含的数据的排列顺序一致可以指对应的数据在字符串的对应位置处。作为示例,第一字符串为:“A1B1”。其中,第一字符串包含数据“A1”和“B1”。第二字符串为“A2B2”。其中,第二字符串包含数据“A2”和“B2”。其中,数据“A1”和数据“A2”对应,数据“B1”和数据“B2”对应。那么,第一字符串中数据的排列顺序是数据“A1”在数据“B1”之前。由于第二字符串中和数据“A1”对应的数据“A2”也是在和数据“B1”对应的数据“B2”之前。因此,第一字符串中的数据和第二字符串中的数据的排列顺序一致。若第三字符串为“B2A2”,则第一字符串中的数据和第三字符串中的数据的排列顺序不一致。
在本实施例中,可以将第一数据集中的数据按照预设的排列顺序依次拼接得到第一字符串,以及确定第一字符串作为第一字符串集;将第二数据集中的数据按照与排列顺序对应的排列顺序依次拼接得到第二字符串,以及确定第二字符串作为第二字符串集。其中,数据的排列顺序可以由技术人员指定。
可选地,可以将第一数据集中的数据按照预设的排列顺序依次拼接得到第一字符串,以及将第二数据集中的数据按照与排列顺序对应的排列顺序依次拼接得到第二字符串。之后,可以在第一字符串包含的每两个数据之间插入预设字符,以及将得到的新的第一字符串确定为第一字符串集,以及在第二字符串包含的每两个数据之间插入预设字符,以及将得到的新的第二字符串确定为第二字符串集。
其中,预设字符可以是由技术人员预先指定的字符。作为示例,预先字符包括但不限于:“-”、“、”、“,”、“*”、“+”等等。预设字符可以作为相邻拼接的两个数据之间的分隔符。
作为示例,任一字符串“AB2B2C”。在该字符串中包括数据“A”、“B2”、“B”、“2C”。在该字符串包含的每两个数据之间插入预设字符“-”之后,得到新的该字符串为“A-B2-B-2C”。
通过在每两个相邻拼接的数据之间插入预设字符,可以很好的分割各个数据,从而避免出现两个相邻拼接的数据拼接后的字符串中包含数据集中的某数据的情况。
以上述包括数据“A”、“B2”、“B”、“2C”的字符串“AB2B2C”为示例,在不加预设字符时,数据“B”和“2C”拼接后形成的字符串“B2C”中包括“B2”,容易和原本包含的数据“B2”混淆,因此,这种情况下很容易造成错误校验。而加了预设字符之后,可以将预设字符作为数据之间的分隔符,以减少错误校验的情况,从而提升校验准确率。
步骤203,基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息。
在本实施例中,由于在第一数据集和第二数据集相同时,第一字符串集和第二字符串集也相同。因此,可以通过校验第一字符串集和第二字符串集是否相同来判断第一数据集和第二数据集是否相同。
在第一字符串集和第二字符串集中均只包含一个字符串时,可以利用的现有的各种字符串校验方法(如循环冗余校验方法、哈希校验等等)对第一字符串集和第二字符串集进行校验,以确定第一字符串集和第二字符串集是否相同,进而确定第一数据集和第二数据集是否相同。
其中,校验结果信息可以是任意形式的信息。校验结果信息可以是数字、字符、文字、图像、视频、信号等等。
需要说明的是,在本申请中,为了便于描述待校验的两个数据集,将两个数据集分别命名为第一数据集和第二数据集,本领域技术人员应当理解,其中的第一和第二并不构成对数据集的特殊限定。同样地,上文或下文中的第一字符串集、第二字符串集、第一目标数据库、第二目标数据库、第一记录集、第二记录集、第一字符串、第二字符串、第一散列值集、第二散列值集中的第一和第二也并不构成特殊限定。
本申请的上述实施例提供的方法通过两个数据集分别对应的字符串集来校验两个数据集是否相同。和一一校验两个数据集中的数据相比,有助于提升校验速度。另外,通过保证两个数据集分别对应的字符串集中的字符串包含的数据的排列顺序的一致性,来减少由于数据不对应而造成的错误校验的情况,从而有助于提升校验准确度。
进一步参考图3,其示出了用于校验数据的方法的又一个实施例的流程300。该用于校验数据的方法的流程300,包括以下步骤:
步骤301,获取待校验的第一数据集和第二数据集。
本步骤301的具体的执行过程可参考图2对应实施例中的步骤201的相关说明,在此不再赘述。
步骤302,将第一数据集和第二数据集分别拆分为至少两个数据子集。
在本步骤中,第一数据集的至少两个数据子集中的数据子集与第二数据集的至少两个数据子集中的数据子集一一对应,且对应的两个数据子集包含的数据一一对应。换言之,将第一数据集和第二数据集按照对应的拆分方式分别拆分为至少两个数据子集,以保证对应的数据分别属于对应的数据子集。具体的拆分方式可以有技术人员预先设置,也可以根据实际的应用需求而确定。
可选地,在第一数据集为第一目标数据库中的数据,第二数据集为第二目标数据库中的数据时,第一数据集的至少两个数据子集中的数据子集中的数据属于第一目标数据库的同一条记录,以及第二数据集的至少两个数据子集中的数据子集中的数据属于第二目标数据库的同一条记录。
换言之,按照数据所属的记录拆分第一数据集和第二数据集。在第一数据集和第二数据集中的数据均为从数据库中获取的数据记录时,可以将数据库中的每条数据记录作为一个数据子集。
步骤303,对于第一数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第一字符串;对于第二数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第二字符串。
在本实施例中,对于第一数据集的至少两个数据子集中的数据子集,可以将该数据子集中的数据按照预设的排列顺序依次拼接得到该数据子集的第一字符串。对于第二数据集的至少两个数据子集中的数据子集,可以将该数据子集中的数据按照与预设的排列顺序对应的排列顺序依次拼接得到该数据子集的第二字符串。
排列顺序可以由技术人员指定。应当可以理解,在数据集中的数据为从数据库中获取的数据记录时,排列顺序包括每条数据记录对应的各个字段的排列顺序,从而确保后续校验的对应数据是有意义的,进一步避免由于字段顺序不一致而造成的错误校验的情况。
可选地,对于第一数据集的至少两个数据子集中的数据子集,可以将该数据子集中的数据按照预设的排列顺序依次拼接得到该数据子集的初始第一字符串,然后在初始第一字符串包含的每两个数据之间插入预设字符,以及将得到的新的初始第一字符串确定为该数据子集的第一字符串。以及对于第二数据集的至少两个数据子集中的数据子集,可以将该数据子集中的数据按照与预设的排列顺序对应的排列顺序依次拼接得到该数据子集的第二初始字符串,以及在第二初始字符串包含的每两个数据之间插入预设字符,以及将得到的新的初始第二字符串确定为该数据子集的第二字符串。
与图2对应实施例中的步骤202类似地,通过在每两个相邻拼接的数据之间插入预设字符,可以很好的分割各个数据,从而避免出现两个相邻拼接的数据拼接后的字符串中包含数据集中的某数据的情况。
步骤304,利用第一数据集的至少两个数据子集中的数据子集分别对应的第一字符串,组成第一字符串集,以及利用第二数据集的至少两个数据子集中的数据子集分别对应的第二字符串,组成第二字符串集。
步骤305,基于预设的哈希算法,对第一字符串集中的字符串分别进行处理,得到第一字符串集对应的第一散列值集,以及基于哈希算法,对第二字符串集中的字符串分别进行处理,得到第二字符串集对应的第二散列值集。
在本步骤中,可以由技术人员指定哈希算法,并对第一字符串集和第二字符串集中的每个字符串进行处理,以得到第一字符串集和第二字符串集中的每个字符串对应的散列值。
步骤306,基于第一散列值集和第二散列值集,确定第一数据集和第二数据集是否相同。
在本实施例中,由于第一字符串集和第二字符串集中的字符串一一对应,因此,得到的第一散列值集合第二散列值集中的散列值也是一一对应。因此,可以分别比较具有对应关系的散列值是否相同来确定第一数据集和第二数据集是否相同。在第一数据集和第二数据集相同时,具有对应关系的两个散列值也应该相同。
可选地,可以先分别确定第一散列值集中的散列值和第二散列值集中的散列值的总和或总乘积;响应于确定第一散列值集对应的总和与第二散列值集对应的总和相同,或响应于确定第一散列值集对应的总乘积与第二散列值集对应的总乘积相同,确定第一数据集和第二数据集相同。
其中,由于在第一数据集和第二数据集相同时,第一散列值集中的各个散列值和第二散列值集中的各个散列值一一对应相同。因此,第一散列值集中的各个散列值的总和应该等于第二散列值集中的各个散列值的总和。第一散列值集中的各个散列值的总乘积应该等于第二散列值集中的各个散列值的总乘积。因此,可以通过第一散列值集中的各个散列值的总和或总乘积和第二散列值集中的各个散列值的总和或总乘积来确定第一数据集和第二数据集是否相同。
这种计算总和的方式和一一比对两个散列值集中的对应散列值的方法相比,计算总和的方式则不需要再花费时间成本确定散列值的对应关系。因为即使两个散列值中的散列值的排列顺序是不对应的,但是总和是确定的,从而进一步地提升校验速度。
继续参见图4,图4是根据本实施例的用于校验数据的方法的应用场景的一个示意图400。在图4的应用场景中,可以先从第一数据库401中获取待校验的第一数据集402。如图中所示,数据库401中的每条数据记录对应有关键字和字段1。第一数据集402包括关键字为“K11”,字段1的取值为“F11”,以及关键字为“K12”,字段1的取值为“F12”的两条数据记录。
同样地,可以从第二数据库403中获取待校验的第二数据集404。如图中所示,数据库403中的每条数据记录同样对应关键字和字段1。第二数据集404包括关键字为“K21”,字段1的取值为“F21”,以及关键字为“K22”,字段1的取值为“F22”的两条数据记录。
之后,如图中标号405所示,可以将第一数据集402拆分为两个数据子集。具体地,将每个数据记录作为一个数据子集。如图中所示,一个数据子集为{(K11,F11)},第二个数据子集为{(K12,F12)}。
类似地,如图中标号406所示,可以将第二数据集404拆分为两个数据子集。具体地,将每个数据记录作为一个数据子集。如图中所示,一个数据子集为{(K21,F21)},第二个数据子集为{(K22,F22)}。
之后,对于数据子集{(K11,F11)},可以生成该数据子集中的关键字和字段1的取值通过字符“-”进行连接,从而得到对应的第一字符串“K11-F11”407。同样地,对于数据子集{(K12,F12)},可以生成该数据子集中的关键字和字段1的取值通过字符“-”进行连接,从而得到对应的第一字符串“K12-F12”408。
类似地,对于数据子集{(K21,F21)},可以生成该数据子集中的关键字和字段1的取值通过字符“-”进行连接,从而得到对应的第二字符串“K21-F21”409。同样地,对于数据子集{(K22,F22)},可以生成该数据子集中的关键字和字段1的取值通过字符“-”进行连接,从而得到对应的第二字符串“K22-F22”410。
其中,第一字符串“K11-F11”407和第一字符串“K12-F12”408可以组成第一字符串集。第二字符串“K21-F21”409和第二字符串“K22-F22”410可以组成第二字符串集。
之后,可以利用哈希算法,分别得到第一字符串“K11-F11”407对应的散列值H11和第一字符串“K12-F12”408对应的散列值H12(如图中标号411和412所示)。利用同样的哈希算法,分别得到第二字符串“K21-F21”409对应的散列值H21和第二字符串“K22-F22”410对应的散列值H22(如图中标号413和414所示)。
之后,可以计算第一字符串“K11-F11”407和第一字符串“K12-F12”408分别对应的散列值H11和H12的总和为H1(如图中标号415所示)。同样计算第二字符串“K21-F21”409和第二字符串“K22-F22”410分别对应的散列值H21和H22的总和H2(如图中标号416所示)。
之后,就可以通过比较得到的两个总和H1和H2是否相同,以得到校验结果信息417。若H1和H2相同,则校验结果信息417可以表示第一数据集和第二数据集相同。若H1和H2不相同,则校验结果信息417可以表示第一数据集和第二数据集不相同。
本申请的上述实施例提供的方法通过将待校验的两个数据集分别拆分为对应的至少两个数据子集,以及根据每个数据子集,生成对应的字符串,以得到两个数据集分别对应的字符串集。然后计算每个字符串集中的各个字符串对应的散列值,并根据两个数据集分别对应的散列值集,来完成对两个数据集的校验。将对两个数据集进行校验的问题转化为对两个数据集分别对应的至少两个字符串对应的散列值的校验,和将数据集整体作为校验对象相比,有助于减轻校验过程中排序所带来的时间成本和空间成本,同时有助于提升校验准确度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了用于校验数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例提供的用于校验数据的装置500包括获取单元501、生成单元502和确定单元503。其中,获取单元501,被配置成获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;生成单元502,被配置成根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;确定单元503,被配置成基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息。
在本实施例中,用于校验数据的装置500中:获取单元501、生成单元502和确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203相关说明,在此不再赘述。
本申请的上述实施例提供的装置,通过获取单元获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;生成单元根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;确定单元基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息,从而实现了根据两个数据集中的数据按照对应的顺序排列而生成的多个字符串来完成对两个数据集的校验。一方面,较大概率的避免了对两个数据集中的数据一一对应比较校验的情况,有助于提升校验速度。另一方面,根据每个数据集,生成多个字符串,从而之后可以分别对对应的两个字符串进行校验,也可以根据每个数据集对应的多个字符串整体进行校验,有助于提升校验方式的灵活性。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、生成单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待校验的第一数据集和第二数据集的单元,其中,第一数据集中的数据和第二数据集中的数据一一对应”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待校验的第一数据集和第二数据集,其中,第一数据集中的数据和第二数据集中的数据一一对应;根据第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,第一字符串集中的字符串包含第一数据集中的数据,第二字符串集中的字符串包含第二数据集中的数据,且第一字符串集中的字符串与第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;基于第一字符串集和第二字符串集,确定第一数据集和第二数据集是否相同,以及输出用于表示第一数据集和第二数据集是否相同的校验结果信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种用于校验数据的方法,包括:
获取待校验的第一数据集和第二数据集,其中,所述第一数据集中的数据和所述第二数据集中的数据一一对应;
根据所述第一数据集和第二数据集,生成第一字符串集和第二字符串集,其中,所述第一字符串集中的字符串包含所述第一数据集中的数据,所述第二字符串集中的字符串包含所述第二数据集中的数据,且所述第一字符串集中的字符串与所述第二字符串集中的字符串一一对应,且对应的两个字符串包含的数据一一对应且排列顺序一致;
基于所述第一字符串集和所述第二字符串集,确定所述第一数据集和所述第二数据集是否相同,以及输出用于表示所述第一数据集和所述第二数据集是否相同的校验结果信息;
其中,所述第一数据集和第二数据集通过如下步骤确定:根据预设的查询条件,在第一目标数据库中进行查询,得到返回的第一记录集,以及根据所述查询条件,在第二目标数据库中进行查询,得到返回的第二记录集;响应于确定所述第一记录集包含的记录的数目和所述第二记录集包含的记录的数目相同,确定所述第一记录集作为所述第一数据集,以及确定所述第二记录集作为所述第二数据集,其中,所述查询条件用于限定待校验的字段;以及
所述方法还包括:响应于确定所述第一记录集包含的记录的数目和所述第二记录集包含的记录的数目不同,确定所述第一记录集和第二记录集不同;
所述基于所述第一字符串集和所述第二字符串集,确定所述第一数据集和所述第二数据集是否相同,包括:基于预设的哈希算法,对所述第一字符串集中的字符串分别进行处理,得到第一字符串集对应的第一散列值集,以及基于所述哈希算法,对所述第二字符串集中的字符串分别进行处理,得到第二字符串集对应的第二散列值集;分别确定所述第一散列值集中的散列值和所述第二散列值集中的散列值的总和或总乘积;响应于确定所述第一散列值集对应的总和与所述第二散列值集对应的总和相同,或响应于确定所述第一散列值集对应的总乘积与所述第二散列值集对应的总乘积相同,确定所述第一数据集和所述第二数据集相同;响应于确定所述第一散列值集对应的总和与所述第二散列值集对应的总和不同,或响应于确定所述第一散列值集对应的总乘积与所述第二散列值集对应的总乘积不同,确定所述第一数据集和所述第二数据集不同;
其中,所述第一字符串集和第二字符串集中的每个字符串所包含的每两个数据之间使用预设字符作为分隔符。
2.根据权利要求1所述的方法,其中,所述根据所述第一数据集和第二数据集,生成第一字符串集和第二字符串集,包括:
将所述第一数据集中的数据按照预设的排列顺序依次拼接得到第一字符串,以及确定所述第一字符串作为所述第一字符串集;
将所述第二数据集中的数据按照与所述排列顺序对应的排列顺序依次拼接得到第二字符串,以及确定所述第二字符串作为所述第二字符串集。
3.根据权利要求1所述的方法,其中,所述根据所述第一数据集和第二数据集,生成第一字符串集和第二字符串集,包括:
将所述第一数据集中的数据按照预设的排列顺序依次拼接得到第一字符串,以及将所述第二数据集中的数据按照与所述排列顺序对应的排列顺序依次拼接得到第二字符串;
在所述第一字符串包含的每两个数据之间插入预设字符,以及将得到的新的第一字符串确定为所述第一字符串集;
在所述第二字符串包含的每两个数据之间插入所述预设字符,以及将得到的新的第二字符串确定为所述第二字符串集。
4.根据权利要求1所述的方法,其中,所述根据所述第一数据集和第二数据集,生成第一字符串集和第二字符串集,包括:
将所述第一数据集和所述第二数据集分别拆分为至少两个数据子集,其中,所述第一数据集的至少两个数据子集中的数据子集与所述第二数据集的至少两个数据子集中的数据子集一一对应,且对应的两个数据子集包含的数据一一对应;
对于所述第一数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第一字符串;
对于所述第二数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第二字符串;
利用所述第一数据集的至少两个数据子集中的数据子集分别对应的第一字符串,组成所述第一字符串集,以及利用所述第二数据集的至少两个数据子集中的数据子集分别对应的第二字符串,组成所述第二字符串集。
5.根据权利要求4所述的方法,其中,所述第一数据集为第一目标数据库中的数据,所述第二数据集为第二目标数据库中的数据;以及
所述第一数据集的至少两个数据子集中的数据子集中的数据属于所述第一目标数据库的同一条记录,以及所述第二数据集的至少两个数据子集中的数据子集中的数据属于所述第二目标数据库的同一条记录。
6.根据权利要求4所述的方法,其中,所述对于所述第一数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第一字符串,包括:
将该数据子集中的数据按照预设的排列顺序依次拼接得到该数据子集的第一字符串;以及
所述对于所述第二数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第二字符串,包括;
将该数据子集中的数据按照与预设的排列顺序对应的排列顺序依次拼接得到该数据子集的第二字符串。
7.根据权利要求4所述的方法,其中,所述对于所述第一数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第一字符串,包括:
将该数据子集中的数据按照预设的排列顺序依次拼接得到该数据子集的初始第一字符串,以及在所述初始第一字符串包含的每两个数据之间插入预设字符,以及将得到的新的初始第一字符串确定为该数据子集的第一字符串;以及
所述对于所述第二数据集的至少两个数据子集中的数据子集,根据该数据子集,生成该数据子集的第二字符串,包括:
将该数据子集中的数据按照与预设的排列顺序对应的排列顺序依次拼接得到该数据子集的第二初始字符串,以及在所述第二初始字符串包含的每两个数据之间插入预设字符,以及将得到的新的初始第二字符串确定为该数据子集的第二字符串。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201811562212.3A 2018-12-20 2018-12-20 用于校验数据的方法和装置 Active CN109635256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811562212.3A CN109635256B (zh) 2018-12-20 2018-12-20 用于校验数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811562212.3A CN109635256B (zh) 2018-12-20 2018-12-20 用于校验数据的方法和装置

Publications (2)

Publication Number Publication Date
CN109635256A CN109635256A (zh) 2019-04-16
CN109635256B true CN109635256B (zh) 2023-07-11

Family

ID=66075699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811562212.3A Active CN109635256B (zh) 2018-12-20 2018-12-20 用于校验数据的方法和装置

Country Status (1)

Country Link
CN (1) CN109635256B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956863A (zh) * 2019-06-04 2023-10-27 苏州智贸捷通科技有限公司 基于大数据的一种深加工数据校验方法
CN116628283A (zh) * 2019-06-04 2023-08-22 苏州智贸捷通科技有限公司 基于大数据的一种手册数据校验方法
CN110459098B (zh) * 2019-08-14 2021-09-21 毕莘教育咨询(深圳)有限公司 用于上机编程题相同判定的方法、标识生成方法和系统
CN111064697B (zh) * 2019-10-21 2023-04-28 上海百事通信息技术股份有限公司 一种数据传输方法、装置、存储介质和终端
CN112307489B (zh) * 2020-06-24 2024-03-22 神州融安科技(北京)有限公司 字符显示方法、装置、电子设备及计算机可读存储介质
CN112182120A (zh) * 2020-10-14 2021-01-05 瀚高基础软件股份有限公司 一种数据表处理方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786911B (zh) * 2014-12-25 2019-08-16 阿里巴巴集团控股有限公司 应用数据的校验方法及装置
CN106899411B (zh) * 2016-12-08 2021-09-21 创新先进技术有限公司 一种基于验证码的校验方法及装置

Also Published As

Publication number Publication date
CN109635256A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635256B (zh) 用于校验数据的方法和装置
CN108933695B (zh) 用于处理信息的方法和装置
CN109829164B (zh) 用于生成文本的方法和装置
CN109614327B (zh) 用于输出信息的方法和装置
CN114528044B (zh) 一种接口调用方法、装置、设备及介质
CN111400760B (zh) web应用访问数据库的方法、装置、服务器和存储介质
CN111629063A (zh) 基于区块链的分布式文件下载的方法和电子设备
CN109858285B (zh) 区块链数据的处理方法、装置、设备和介质
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN112559024A (zh) 一种生成交易码变更列表的方法和装置
CN109597819B (zh) 用于更新数据库的方法和装置
CN110020040B (zh) 查询数据的方法、装置和系统
CN114817024A (zh) 用例生成方法及装置、设备、存储介质
CN114428815A (zh) 数据存储方法、装置、电子设备和计算机可读介质
CN113393288A (zh) 订单处理信息生成方法、装置、设备和计算机可读介质
CN109308299B (zh) 用于搜索信息的方法和装置
CN112084114A (zh) 用于测试接口的方法和装置
CN108287792B (zh) 用于输出信息的方法和装置
CN112256855A (zh) 用户意图的识别方法和装置
CN111949738A (zh) 基于区块链的数据存储去重方法、终端设备和存储介质
CN111552715A (zh) 用户查询方法和装置
CN109376023B (zh) 用于生成调用信息、发布返回码组的方法和设备
CN112966752B (zh) 图像匹配方法和装置
CN113626873B (zh) 鉴权方法、装置、电子设备和计算机可读介质
CN111831531B (zh) 测试方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant