CN113763166A

CN113763166A - 一种数据核对的方法及装置

Info

Publication number: CN113763166A
Application number: CN202110906712.XA
Authority: CN
Inventors: 陈超; 王炫召; 马永松; 张飞; 沈敏
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-07
Anticipated expiration: 2041-08-09
Also published as: CN113763166B

Abstract

本发明公开了一种数据核对的方法及装置，包括：从不同数据源获取N个待核对数据集；其中，N个待核对数据集之间具有唯一关联主键；针对任一待核对数据集，对待核对数据集进行分片，得到多个数据集分片，并将多个数据集分片进行分布式存储；针对N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片，得到核对记录；核对记录包括关联主键值以及关联主键值在所述N个待核对数据集中的各数据明细；核对记录中数据明细的数量不大于N；根据各核对记录确定核对结果，从而提升了数据明细核对的效率，节省了在待核对数据集中确定数据明细的计算资源。

Description

一种数据核对的方法及装置

技术领域

本发明涉及金融科技(Fintech)领域，尤其涉及一种数据核对的方法及装置。

背景技术

现有技术中，针对同一交易，可能存在多个系统记录有该交易的数据明细，为了验证交易是否记录有误，需要将多个系统记录的数据明细进行核对，以此确定出平账的交易和非平账的交易。

目前，在数据明细核对时，一般是通过逐条数据明细进行核对，以两个系统进行举例，分别确定两个系统对应的数据集合A和数据集合B，数据集合A和数据集合B具有唯一关联主键，在核对数据集合A中的数据明细时，基于关联主键，针对数据集合A中任一关联主键值的数据明细a1，遍历数据集合B，确定数据集合B中是否记录有该关联主键值的数据明细b1，若有，则确定数据明细a1为平账交易，然后逐条核对数据集合A中的数据明细，直至数据集合A中的数据明细全部核对完成，确定核对结果。在核对数据集合B时，需要根据同样的技术方案，遍历数据集合A，来核对数据集合B。

由上述可知，目前数据明细核对的方法需要逐条进行核对，无法短时间内对大量的数据明细进行核对，影响了数据明细核对的效率，因此，现需要一种数据核对的方法，来提升数据明细核对的效率。

发明内容

本发明实施例提供一种数据核对的方法及装置，用于提升数据明细核对的效率。

第一方面，本发明实施例提供一种数据核对的方法，包括：

从不同数据源获取N个待核对数据集；N为正整数；所述N个待核对数据集之间具有唯一关联主键；

针对任一待核对数据集，对所述待核对数据集进行分片，得到多个数据集分片，并将所述多个数据集分片进行分布式存储；

针对所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片，得到核对记录；所述核对记录包括关联主键值以及所述关联主键值在所述N个待核对数据集中的各数据明细；所述核对记录中数据明细的数量不大于N；

根据所述各核对记录确定核对结果。

上述技术方案中，通过对待核对数据集进行分片，并将待核对数据集分片后进行分布式存储，因此，可以并发的遍历数据集分片确定关联主键值对应的数据明细，进而确定出各核对记录，以此提升数据明细查询的效率，因为核对记录中包括了各待核对数据集中的数据明细，因此，在待核对数据集为多个时，不需要重复遍历待核对数据集进行核对数据明细，从而提升了数据明细核对的效率，节省了在待核对数据集中确定数据明细的计算资源。

可选的，对所述待核对数据集进行分片，包括：

确定分布式存储的M个数据库；

按照所述M个数据库均匀存储数据集分片的原则，对所述待核对数据集进行分片。

上述技术方案中，通过确定M个数据库，将待核对数据集分为M个数据集分片，从而实现并发遍历数据集分片确定关联主键值对应的数据明细，以此提升数据明细查询的效率。

可选的，针对所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片，包括：

获取所述N个待核对数据集中的各关联关键值；

对所述关联主键值进行去重处理；

针对去重后的所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片。

上述技术方案中，通过对各关联关键值进行去重处理，从而在核对多个待核对数据集的数据明细时，不需要重复的遍历待核对数据集，以此提升数据明细核对的效率，节省在待核对数据集中确定数据明细的计算资源。

可选的，根据所述各核对记录确定核对结果，包括：

将各核对记录分组至各计算主机，并接收所述各计算主机发送的各核对记录的记录结果；所述记录结果包括平账记录和非平账记录；

所述平账记录是计算主机在判断核对记录中数据明细的数量为N时确定的；所述非平账记录是计算主机在判断核对记录中数据明细的数量不为N时确定的；

将各记录结果进行汇总，确定所述核对结果。

上述技术方案中，通过将各核对记录分组至各计算主机，进而通过各计算主机并发的确定记录结果，从而提升数据明细核对的效率。

可选的，将各核对记录分组至各计算主机，包括：

针对任一核对记录，根据所述核对记录的关联主键值确定分组值；

将具有相同分组值的各核对记录确定为同一分组；

为每个分组确定对应的计算主机，并将每个分组对应的各核对记录发送至对应的计算主机。

上述技术方案中，通过关联主键值确定分组值，从而将各核对记录分组至各计算主机，进而通过各计算主机并发的确定记录结果，从而提升数据明细核对的效率。

可选的，所述平账记录是计算主机在判断核对记录中数据明细的数量为N，且各数据明细的信息一致时确定的；所述非平账记录是计算主机在判断核对记录中数据明细的数量不为N，或各数据明细的信息不一致时确定的。

上述技术方案中，在确定记录结果时，还可以针对数据明细中的具体信息确定记录结果，从而保证了数据明细的准确性。

可选的，所述方法还包括：

各计算主机将各自的各核对记录的记录结果存储于同一目录下。

上述技术方案中，通过将各自的各核对记录的记录结果存储于同一目录下，以便于在对记录结果进行汇总，从而提升确定核对结果的效率。

第二方面，本发明实施例提供一种数据核对的装置，包括：

获取模块，用于从不同数据源获取N个待核对数据集；N为正整数；所述N个待核对数据集之间具有唯一关联主键；

处理模块，用于针对任一待核对数据集，对所述待核对数据集进行分片，得到多个数据集分片，并将所述多个数据集分片进行分布式存储；

根据所述各核对记录确定核对结果。

可选的，所述处理模块具体用于：

确定分布式存储的M个数据库；

可选的，所述处理模块具体用于：

控制获取模块获取所述N个待核对数据集中的各关联关键值；

对所述关联主键值进行去重处理；

可选的，所述处理模块具体用于：

将各记录结果进行汇总，确定所述核对结果。

可选的，所述处理模块具体用于：

将具有相同分组值的各核对记录确定为同一分组；

第三方面，本发明实施例还提供一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述数据核对的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述数据核对的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构示意图；

图2为本发明实施例提供的一种数据核对的方法的流程示意图；

图3为本发明实施例提供的一种数据集分片的示意图；

图4为本发明实施例提供的一种核对记录分组的示意图；

图5为本发明实施例提供的一种数据核对的方法的流程示意图；

图6为本发明实施例提供的一种数据核对的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了更好的描述本发明，下面将对本发明实施例中出现的名词进行解释。

平账，指的是把各个分类账户的金额与其汇总账户的金额互相核算原本不相等的情况，经过合理合法的调整，变为相等的行为，即“使各数据集中对应的交易账单相符”。

现有技术方案中，根据不同的数据源(或系统)以及周期，可以生成多个数据集，然后针对任意数据集，通过其他数据集对该数据集进行数据明细核对。

举例来说，周期为某一天的24小时，则数据集包括该24小时内的数据明细，假设数据集为3个，分别为数据集A、数据集B和数据集C，针对数据集A进行数据明细核对的步骤如下：

1、从数据集中不重复的选取一笔未核对的数据明细，该数据明细具有唯一关联主键值K，然后根据关联主键值K遍历数据集B和数据集C，从数据集B和数据集C中确定关联主键值K对应的数据明细。

2、若数据集B和数据集C中存在关联主键值K的数据明细，则表明关联主键值K对应的数据明细在数据集A、数据集B和数据集C均存在，确定关联主键值K对应的数据明细为平账交易。

3、若数据集B或数据集C中不存在关联主键值K的数据明细，则确定关联主键值K对应的数据明细为未平账交易。

4、重复上述步骤，直至数据集A中所有关联主键值对应的数据明细核对完成。

根据上述数据明细的核对步骤，核对数据集B时，需要遍历数据集A和数据集C，在核对数据集C时，需要遍历数据集A和数据集B，由此可见，在核对多个数据集时，遍历数据集的次数是重复的(数据集A、数据集B和数据集C均遍历了两次)，浪费了遍历时所需要的计算资源，且在遍历数据集时，只能通过一个进程去遍历数据集，导致数据明细的核对效率低，无法在短时间内完成海量明细数据的核对。

目前，为了提高数据明细核对的效率，一般只能通过提升计算设备的性能(如CPU性能)等方式，但该方法成本费用过高。因此，现需要一种数据核对的方法，在不增加高额费用的前提下，来提升数据明细核对的效率。

图1示例性的示出了本发明实施例所适用的一种系统架构，该系统架构包括服务器100，该服务器100可以包括处理器110、通信接口120和存储器130。

其中，通信接口120用于从不同数据源获取N个待核对数据集。

处理器110是服务器100的控制中心，利用各种接口和路线连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种数据核对的方法的流程示意图，该流程可由数据核对的装置执行。

如图2所示，该流程具体包括：

步骤210，从不同数据源获取N个待核对数据集。

本发明实施例中，N为正整数；所述N个待核对数据集之间具有唯一关联主键；例如，唯一关联主键为银行账号、身份证号码等。

步骤220，针对任一待核对数据集，对所述待核对数据集进行分片，得到多个数据集分片，并将所述多个数据集分片进行分布式存储。

本发明实施例中，根据分布式存储的数据库数量，将待核对数据集进行分片，得到数据集分片，并存储至对应的数据库中，从而实现并发遍历数据明细。

步骤230，针对所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片，得到核对记录。

本发明实施例中，所述核对记录包括关联主键值以及所述关联主键值在所述N个待核对数据集中的各数据明细；所述核对记录中数据明细的数量不大于N。

步骤240，根据所述各核对记录确定核对结果。

本发明实施例中，根据核对记录中的数据明细数量和/数据明细的信息来确定记录结果，然后根据各记录结果确定核对结果。

在步骤210中，不同数据源可以举例为银行、第三方(支付宝、微信等)、商户、用户等，在此不做具体限定。

在步骤220中，根据确定的分布式数据库数量，对待核对数据集进行分片，具体的，确定分布式存储的M个数据库；按照所述M个数据库均匀存储数据集分片的原则，对所述待核对数据集进行分片。

以M＝3，待核对数据集包括待核对数据集A、待核对数据集B和待核对数据集C为例，图3示例性的示出了一种数据集分片的示意图，如图3所示，数据库包括数据库1、数据库2和数据库3，将待核对数据集A、待核对数据集B和待核对数据集C分别进行分片，然后对应的存储至数据库1、数据库2和数据库3。

在一种可实施的方式中，对待核对数据集进行分片时，可以按照随机分片的方式进行，例如，待核对数据集中有7条数据明细，分别为r1、r2、r3、r4、r5、r6和r7，则随机分成3个数据集分片1、数据集分片2和数据集分片3。其中，数据集分片1包括数据明细r1和r5，数据集分片2包括数据明细r3和r6，数据集分片3包括数据明细r2、r4和r7。

在另一种可实施的方式中，根据待核对数据集中数据明细的排序进行分片，例如，将待核对数据集中前1/3的数据明细确定为数据集分片1，将待核对数据集中后1/3的数据明细确定为数据集分片2，将待核对数据集中剩余的数据明细确定为数据集分片3。

需要说明的是，本发明实施例中待核对数据集的分片方式仅是示例，并不做具体限定。

在步骤230中，在确定核对记录之前，需要先确定出各待核对数据集包括的所有关联主键值，在确定关联主键值时，根据分布式存储的数据库中各数据集分片，并发的在数据集分片中进行确定。

进一步地，获取所述N个待核对数据集中的各关联关键值；对所述关联主键值进行去重处理；针对去重后的所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片。

本发明实施例中，通过对关联主键值进行去重处理，避免重复遍历待核对数据集，以此减少遍历时所需要的计算资源，例如，待核对数据集A包括关联主键值A1、A2和A3，待核对数据集B包括关联主键值B1、B2和B3，待核对数据集C包括关联主键值C1、C2和C3，其中，A2、A3、B2、B3、C2和C3是对应相同的关联主键值，则去重后的关联主键值包括A1、A2、A3、B1和C1。

在确定出不重复的关联主键值之后，根据关联主键值遍历各待核对数据集，从而确定核对记录。

以上述图3、待核对数据集A、待核对数据集B和待核对数据集C为例，通过对关联主键值去重处理，得到待核对数据集A、待核对数据集B和待核对数据集C包括的关联主键值分别为K1、K2、K3、K4和K5，例如针对关联主键值K1，遍历各数据集分片，确定核对数据集A、待核对数据集B和待核对数据集C均记录有关联主键值K1对应的数据明细，则关联主键值K1的核对记录为“K1-(数据明细A1+数据明细B1+数据明细C1)”，其中，数据明细A1为待核对数据集A的数据明细，数据明细B1为待核对数据集B的数据明细，数据明细C1为待核对数据集C的数据明细。

同理，针对关联主键值K2，遍历各数据集分片，确定核对数据集A、待核对数据集B记录有关联主键值K2对应的数据明细，待核对数据集C未记录有关联主键值K1对应的数据明细，则关联主键值K2的核对记录为“K2-(数据明细A2+数据明细B2)”，以此类推，确定出各关联主键值对应的核对记录，在此不做赘述。

在一种可实施的方式中，根据一个计算主机和各核对记录确定核对结果。

在步骤240，通过将各核对记录分组至多个计算主机，由多个计算主机确定核对结果，以此提升数据核对的效率。

进一步地，将各核对记录分组至各计算主机，并接收所述各计算主机发送的各核对记录的记录结果；所述记录结果包括平账记录和非平账记录；其中，所述平账记录是计算主机在判断核对记录中数据明细的数量为N时确定的；所述非平账记录是计算主机在判断核对记录中数据明细的数量不为N时确定的；将各记录结果进行汇总，确定所述核对结果。

例如，关联主键值K1的核对记录为“K1-(数据明细A1+数据明细B1+数据明细C1)”，则确定关联主键值K1的核对记录为平账记录，关联主键值K2的核对记录为“K2-(数据明细A2+数据明细B2)”，则确定关联主键值K2的核对记录为非平账记录。

在对各核对记录进行分组时，可以根据各关联主键值进行分组，具体的，针对任一核对记录，根据所述核对记录的关联主键值确定分组值；

将具有相同分组值的各核对记录确定为同一分组；为每个分组确定对应的计算主机，并将每个分组对应的各核对记录发送至对应的计算主机。

在一种可实施的方式中，根据关联主键值的尾数确定分组值，从而确定出各核对记录对应的计算主机。

在另一种可实施的方式中，通过对关联主键值进行哈希散列，确定出对应的哈希值，再通过求余计算，确定出各哈希值的余数，根据余数确定各核对记录对应的计算主机。

图4示例性的示出了一种核对记录分组的示意图，如图4所示，通过将关联主键值K1、K2、……、Kn进行哈希散列，得到对应的哈希值，然后根据计算主机的数量(图4中i表示计算主机的数量)，确定出哈希值对应的余数，从而将各核对记录分组至计算主机，如关联主键K1对应的核对记录分组至计算主机s1，关联主键K2、K4对应的核对记录分组至计算主机s2，关联主键K3、K5对应的核对记录分组至计算主机s3等。

在一种确定核对结果的方式中，还可以根据数据明细中的具体信息来确定核对记录的核对结果，具体的，所述平账记录是计算主机在判断核对记录中数据明细的数量为N，且各数据明细的信息一致时确定的；所述非平账记录是计算主机在判断核对记录中数据明细的数量不为N，或各数据明细的信息不一致时确定的。

例如，关联主键值K1的核对记录为“K1-(数据明细A1+数据明细B1+数据明细C1)”，虽然核对记录中的数据明细数量与待核对数据集的数量(N＝3)相同，但若是数据明细A1和数据明细B1中包括的信息(如金额字段、金额字段的值等)不一致，则确定关联主键值K1的核对记录为非平账记录。

示例性的，在各计算主机确定出记录结果之后，各计算主机将各自的各核对记录的记录结果存储于同一目录下。其中，同一目录包括平账目录和非平账目录，也就是说，针对任一计算主机，将确定出的平账记录存储至平账目录，将非平账记录存储至非平账目录。

为了更好的解释上述技术方案，图5示例性的示出了一种数据核对的方法的流程示意图，如图5所示，流程包括：

步骤510，获取关联主键值。

在各待核对数据集中确定各关联主键值，并进行去重处理，得到去重后的各关联主键值。

步骤520，确定各核对记录。

针对任一去重后的关联主键值，遍历各数据集分片，确定出核对记录。

步骤530，分组至各计算主机。

根据去重后的各关联主键值，对关联主键值进行哈希散列，得到哈希值，再对哈希值进行求余计算，确定出各核对记录对应的计算主机，然后进行分组。

步骤540，确定核对记录是否平账，若是，则执行步骤550，否则执行步骤560。

步骤550，存储平账记录。

步骤560，存储非平账记录。

基于相同的技术构思，图6示例性的示出了本发明实施例提供的一种数据核对的装置的结构示意图，该装置可以执行数据核对的方法。

如图6所示，该装置具体包括：

获取模块610，用于从不同数据源获取N个待核对数据集；N为正整数；所述N个待核对数据集之间具有唯一关联主键；

处理模块620，用于针对任一待核对数据集，对所述待核对数据集进行分片，得到多个数据集分片，并将所述多个数据集分片进行分布式存储；

根据所述各核对记录确定核对结果。

可选的，所述处理模块620具体用于：

确定分布式存储的M个数据库；

可选的，所述处理模块620具体用于：

控制获取模块610获取所述N个待核对数据集中的各关联关键值；

对所述关联主键值进行去重处理；

可选的，所述处理模块620具体用于：

将各记录结果进行汇总，确定所述核对结果。

可选的，所述处理模块620具体用于：

将具有相同分组值的各核对记录确定为同一分组；

基于相同的技术构思，本发明实施例还提供一种计算机设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述数据核对的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据核对的方法，其特征在于，包括：

根据所述各核对记录确定核对结果。

2.如权利要求1所述的方法，其特征在于，对所述待核对数据集进行分片，包括：

确定分布式存储的M个数据库；

3.如权利要求1所述的方法，其特征在于，针对所述N个待核对数据集中的任一关联主键值，并发遍历分布式存储的各数据集分片，包括：

获取所述N个待核对数据集中的各关联关键值；

对所述关联主键值进行去重处理；

4.如权利要求1所述的方法，其特征在于，根据所述各核对记录确定核对结果，包括：

将各记录结果进行汇总，确定所述核对结果。

5.如权利要求4所述的方法，其特征在于，将各核对记录分组至各计算主机，包括：

将具有相同分组值的各核对记录确定为同一分组；

6.如权利要求4所述的方法，其特征在于，所述平账记录是计算主机在判断核对记录中数据明细的数量为N，且各数据明细的信息一致时确定的；所述非平账记录是计算主机在判断核对记录中数据明细的数量不为N，或各数据明细的信息不一致时确定的。

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种数据核对的装置，其特征在于，包括：

根据所述各核对记录确定核对结果。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至7任一项所述的方法。