CN108961029A

CN108961029A - 一种分布式对账处理方法、系统及终端设备

Info

Publication number: CN108961029A
Application number: CN201810836477.1A
Authority: CN
Inventors: 富铁楠
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2018-12-07
Anticipated expiration: 2038-07-26
Also published as: CN108961029B

Abstract

本说明书实施例提供一种分布式对账处理方法、系统及终端设备，以解决现有技术中对账处理方法使得数据库无法满足对大事务需求比较强烈的对账业务的对账需求的问题。该分布式对账处理方法包括：提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据；基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中；在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理；基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

Description

一种分布式对账处理方法、系统及终端设备

技术领域

本说明书实施例涉及数据处理技术领域，尤其涉及一种分布式对账处理方法、系统及终端设备。

背景技术

无论是单向对账(如第三方支付机构和银行间对账)，还是双向对账(如订单与财务系统对账)，均存在数据量较大、高并发、大事务等特点。无论执行主体是数据库还是服务器均存在很大压力，甚至会导致数据库宕机，影响业务系统主链路运行，导致资金资损等各种问题发生。

而传统的对账处理方法，会采用分库分表的方式，也就是，将相同的业务维度落入相同的数据库中；在对账时，采用三层分发的方式进行业务拆分，以分散到多台机器上进行执行；再在一个数据库中采用JOIN+UPDATE的方式分别对两侧流水数据进行比对和比对结果更新；在两侧流水数据均比对结束后，该传统的对账处理任务完成。

由于对账属于联机分析处理OLAP型应用，避免不开大数据量的INSERT、DEL、UPDATE等操作，又由于使用大事务处理任务容易导致数据库回滚，致使数据库抖动，影响数据库的稳定性。因此，在传统的对账处理方法下，对于大事务需求比较强烈的对账业务，数据库无法满足该对账业务的对账需求。

发明内容

本说明书实施例提供一种分布式对账处理方法、系统及终端设备，以解决现有技术中对账处理方法使得数据库无法满足对大事务需求比较强烈的对账业务的对账需求的问题。

本说明书实施例采用下述技术方案：

第一方面，提供了一种分布式对账处理方法，包括：

提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据；

基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中；

在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理；

基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

第二方面，提供了一种分布式对账处理系统，包括：

提取模块，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据；

封装模块，基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中；

处理模块，在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理；

更新模块，基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

第三方面，提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下步骤：

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中，在Spark应用中分别基于多个弹性分布式数据集建立分布式任务，以对多个弹性分布式数据集分别进行对账处理，使得第一对账数据和第二对账数据封装的弹性分布式数据集通过多个分布式任务执行对账处理，对于大事务需求比较强烈的对账业务，存储第一对账数据和/或第二对账数据的数据库能够满足对该对账业务的对账需求。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书的一个实施例提供的分布式对账处理方法的流程图；

图2为本说明书的一个实施例提供的分布式对账处理方法的实际应用场景实现流程示意图之一；

图3为本说明书的一个实施例提供的分布式对账处理方法的实际应用场景实现流程示意图之二；

图4为本说明书的一个实施例提供的分布式对账处理系统的结构框；

图5为本说明书的一个实施例提供的终端设备的结构框图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

本说明书实施例提供一种分布式对账处理方法、系统及终端设备，以解决现有技术中对账处理方法使得数据库无法满足对大事务需求比较强烈的对账业务的对账需求的问题。本说明书实施例提供一种分布式对账处理方法，该方法的执行主体，可以但不限于数据库、服务器或能够被配置为执行本说明书实施例提供的该方法的装置或系统。

为便于描述，下文以该方法的执行主体为能够执行该方法的服务器为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为服务器只是一种示例性的说明，并不应理解为对该方法的限定。

图1为本说明书实施例提供的分布式对账处理方法的流程图，图1的方法可以由服务器执行，如图1所示，该方法可以包括：

步骤110、提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据。

该提取第一对账数据和第二对账数据的实现方式可以为：

第一，通过读取数据库的日志操作文件binlog，提取第一对账方在第一对账表的第一对账数据和第二对账方在第二对账表的第二对账数据；其中，日志操作文件binlog的相关内容可详见下文的详细描述。

第二，通过数据复制拷贝(data replicate copy，DRC)的方式，提取第一对账方在第一对账表的第一对账数据和第二对账方在第二对账表的第二对账数据。其中，对于DRC的具体描述可见下文中的相关内容。

当然，还可以采用其他方式实现，本说明书实施例不再一一列举。

步骤120、基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中。

该预设的数据分布策略可以为表征目标业务含义的数据合并分布的策略。

该Spark为一种安全的、经正式定义的编程语言。Spark围绕的核心概念，是弹性分布式数据集(RDD)，该弹性分布式数据集是一个有容错机制，可以被并行操作的集合。

目前存在两种类型的RDD：第一种，并行集合(Parrallelized Collections)，其接收一个已经存在的Scala集合，在并行集合上可运行各种并发计算；第二种，Hadoop数据集(Hadoop DataSets)，其在一个文件的每条记录上，运行各种函数。

其中，并行集合是通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合(只要是seq对象就可以)上创建而来。集合的对象将会被拷贝来创建一个分布式数据集，可以被并行操作。

步骤130、在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理。

Spark应用创建并行集合的一个重要参数，是slices的数目，slices的数目指定了将该弹性分布式数据集切分为几份，即建立几个分布式任务。然后，再对每个分布式任务分别进行对账处理。

步骤140、基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

该对账处理的结果至少包括对账成功或对账失败。

该更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据，具体实现可以为将对账成功的对账数据写入第一对账数据和第二对账数据所属的数据库中，以更新第一对账数据和第二对账数据。

可选的，作为一个实施例，步骤110具体可实现为：

基于数据库的日志操作文件，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据。

该数据库的日志操作文件可以为数据库的binlog日志文件，该binlog日志文件为二进制格式的文件，其用于记录所有更新的数据或者已经潜在更新的数据(例如，没有匹配任何行的一个DELETE)的所有语句，可以用于实时备份。

本说明书实施例中，基于数据库的日志操作文件记录所有更新的数据或潜在更新的数据，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据。因此，本说明书实施例是基于数据库的存量数据进行增加或减少，并不会对数据库中的数据进行全量提取，提升了数据提取性能，降低了数据库的压力。

可选的，作为一个实施例，步骤110具体可实现为：

通过数据复制拷贝DRC的方式，从数据库日志操作文件读取所述第一对账数据和所述第二对账数据。

该从数据库日志操作文件读取所述第一对账数据和所述第二对账数据，具体可实现为从所述数据库日志操作文件中按数据块block读取所述第一对账数据和所述第二对账数据，并在block读取完毕后设置检查点checkpoint，后续将基于该checkpoint传输读取到的第一对账数据和第二对账数据即可。

如果读取过程中所述数据库发生crash重启，则在数据库重启之后从最后一个checkpoint之后重新读取所述第一对账数据和所述第二对账数据，并进行数据校验。

也就是说，如果读取过程中所述数据库发生crash重启，则在数据库重启之后找到最后一个checkpoint，重新读取所述第一对账数据和所述第二对账数据，并将读取到的第一对账数据和第二对账数据传输即可。在进行数据传输时，进行数据的MD5校验，以确定该数据是否已传输。

本说明书实施例通过数据复制拷贝DRC的方式，从数据库日志操作文件读取所述第一对账数据和所述第二对账数据，可以有效保证数据的一致性及唯一性。

可选的，作为一个实施例，所述预设的数据分布策略为表征目标业务含义的数据合并分布的策略，步骤120具体可实现为：

将表征目标业务含义的第一对账数据合并封装到所述Spark应用的弹性分布式数据集中所述目标业务含义对应的目标弹性分布式数据集；

将表征所述目标业务含义的第二对账数据合并封装到所述Spark应用的所述目标弹性分布式数据集中。

应理解为，将提取的第一对账数据和第二对账数据封装到弹性分布式数据集中。若表征目标业务含义的数据，则合并封装到目标业务含义对应的目标弹性分布式数据集；否则，封装在不同的数据集中。也就是，将表征目标业务含义的第一对账数据合并封装到目标弹性分布式数据集中，将表征该目标业务含义的第二对账数据也合并封装到目标弹性分布式数据集中，以便进行对账处理。

可选的，作为一个实施例，步骤130具体可实现为：

基于弹性分布式数据集的混乱(shuffle)属性确定所述弹性分布式数据集中进行对账处理的阶段(Stage)数，其中，每个阶段被分成多个任务并分布到不同的服务器执行，每个阶段的任务执行完毕后的中间数据存储到所述弹性分布式数据集所在的服务器；

在通过调度器(Driver)执行所述弹性分布式数据集的阶段任务时，将前一个阶段的任务执行完毕后的中间数据作为后一个阶段的输入值，直至阶段执行完毕，其中，最后一个阶段的任务执行完毕后的数据为所述弹性分布式数据集的对账处理后的结果数据。

应理解，弹性分布式数据集的shuffle属性，例如，可以是slices的数目，等等。

应理解，数据对账时，可包括单边对账和双边对账。当然，应理解，基于对账方式的不同，在数据对账处理时执行的任务会存在差异。即基于第一对账数据对第二对账数据进行对账，或者基于第二对账数据对第一对账数据进行对账，或者基于第一对账数据对第二对账数据进行对账，并基于第二对账数据对第一对账数据进行对账。

同时，应理解，在进行数据对账时，可能是1:1的对账、1:N的对账、N：1的对账，等等，具体可参考对账规则，本说明书实施例对此不作限制。

本说明书实施例基于Spark应用。该Spark应用支持多种编程语言以及高阶SQL-API，可以降低开发难度。另外，基于Spark应用的弹性分布式数据集的shuffle属性确定stage阶段数，将每个stage阶段被分成多个分布式任务task且分布到不同的服务器server执行，以执行分布式数据对账处理，有效的将大数据量进行拆分，提升并发度、大数据处理能力，满足对大事务需求比较强烈的对账业务的对账需求。

可选的，作为一个实施例，步骤140具体可实现为：

基于分库分表中间件(ZDAL)的规则引擎提供的参数列表，返回拆分字段；

基于所述拆分字段的拆分字段值，确定所述对账处理的结果所属的数据库；

通过Java数据库连接(Java Data Base Connectivity,JDBC)调用结构化查询语言(Structured Query Language，SQL)命令，对所述数据库进行操作，以更新第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

应理解，数据对账时，可包括单边对账和双边对账。如果是单边对账，则只对进行对账的一方更新对账数据，例如更新第一对账表的第一对账数据，或更新第二对账方在第二对账表的第二对账数据；如果是双边对账，则更新第一对账表的第一对账数据，并更新第二对账方在第二对账表的第二对账数据。

该ZDAL是支付宝自主研发的数据中间件产品，采用标准的JDBC规范，可以在分布式环境下看上去像传统数据库一样提供海量数据服务，是一种通用的分库分表数据库访问框架。

该ZDAL用于在数据访问压力过大时，解决单库单表数据库访问压力，Zdal主要提供分库分表，分散压力，结果集合并，sql解析，数据库failover动态切换等功能。

该ZDAL组件主要有5部分组成：

Zdal-client：开发编程接口，实现jdbc的Datasource，Connection，Statement，PreparedStatement，ResultSet等接口，实现通用的jdbc-sql访问，内部还实现读库重试，group数据源的选择器，表名替换，sql执行器等功能。

Zdal-parser：支持oracle/mysql/db2等数据库的sql语句解析，并且缓存。根据规则引擎提供的参数列表，在指定的sql中查找到需要的参数，然后返回拆分字段。

Zdal-rule：根据zdal-parser解析后的拆分字段值来确定逻辑库和物理表名。

Zdal-datasource：数据库连接的管理，支持mysql，oracle，db2数据库的连接管理。

Zdal-common：zdal组件所使用的一些公共组件类。

该JDBC(Java DataBase Connectivity，java数据库连接)是一种用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，由一组用Java语言编写的类和接口组成。

可选的，作为一个实施例，在执行步骤110之前，本说明书实施例提供的分布式对账处理方法还包括：

按照数据维度，将目标业务的流水数据分别落入所述第一对账表和所述第二对账表对应的数据库中；

基于所述流水数据中尚未对账的对账数据的数据量的可适配度，对所述流水数据进行切割以得到所述第一对账数据和所述第二对账数据。

示例性的，该数据维度可以包括订单号、支付机构、支付日期、支付方式，等等。

本说明书实施例中，所述流水数据中尚未对账的对账数据的数据量的可适配度的确定，具体实现可以为：

第一种，可以基于用户指定的落库规则，确定流水数据中尚未对账的对账数据的数据量的切割粒度，以确定对账数据的数据量的可适配度；或者，

第二种，可以基于数据库的负载情况，自动调节目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度，以确定对账数据的数据量的可适配度。

本说明书实施例按照数据维度，将目标业务的流水数据分别落入第一对账表和第二对账表对应的数据库中，规避了按照业务维度进行落库所导致的不同数据库之间数据容量不同使得数据库中的数据分布不均的问题，使得对账时不同数据库能够做到压力平衡。另外，可以使得数据库进行高效的横向扩展，避免数据库空间不足导致频繁报警的现象发生。

可选的，作为一个实施例，在基于所述流水数据中尚未对账的对账数据的数据量的可适配度，对所述流水数据进行切割以得到所述第一对账数据和所述第二对账数据之前，包括：

基于所述数据库的负载情况，确定所述数据库的健康度；

若所述数据库的健康度大于阈值，则自动调节所述目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度。

该阈值用于表征数据库的健康指数。

示例性的，以该阈值为60为例：若数据库的负载较低，则确定该数据库的健康度为40，该数据库的健康度小于该阈值，则将目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度调大；若数据库的负载较高，则确定该数据库的健康度为70，该数据库的健康度大于该阈值，则将目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度调小。

本说明书实施例基于数据库的负载情况，确定数据库的健康度。若数据库的健康度大于阈值，则自动调节目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度，使得对账数据可以根据数据库的负载情况进行自由切割，对于大事务需求比较强烈的对账业务，在对账时可以有效缓解服务器的负载情况，防止数据库抖动以负载不均等问题。

下面将结合具体的实施例，对本发明实施例的方法做进一步的描述。

图2示出了本发明实施例提供的业务的多维度数据的处理方法在实际应用场景下的流程图之一；

具体地说，如图2所示：

在210，按照数据维度，将目标业务的流水数据分别落入所述第一对账表和所述第二对账表对应的数据库中。其中，如图2所示，第一对账表对应第一对账方，即流水生产者A端；第二对账表对应第二对账方，即流水生产者B端。

在220，基于所述数据库的负载情况，确定所述数据库的健康度；若所述数据库的健康度大于阈值，则自动调节所述目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度(如图2所示)；或者，基于用户指定的落库规则，确定流水数据中尚未对账的对账数据的数据量的切割粒度。

在230，基于所述流水数据中尚未对账的对账数据的数据量的可适配度，对所述流水数据进行切割以得到所述第一对账数据和所述第二对账数据。

图3示出了本发明实施例提供的业务的多维度数据的处理方法在实际应用场景下的流程图之二；

具体地说，如图3所示：

在310，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据。

该提取第一对账数据和第二对账数据的实现方式可以为：

第一，通过读取数据库的日志操作文件binlog，提取第一对账方在第一对账表的第一对账数据和第二对账方在第二对账表的第二对账数据；具体实现详见上述说明书实施例中的相关内容，本说明书实施例不再赘述。

第二，通过数据复制拷贝(data replicate copy，DRC)的方式，提取第一对账方在第一对账表的第一对账数据和第二对账方在第二对账表的第二对账数据。具体实现详见上述说明书实施例中的相关内容，本说明书实施例不再赘述。

在320，基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中。

在330，在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理。

本步骤具体实现可以为：基于弹性分布式数据集的shuffle属性确定stage阶段数，其中，每个stage阶段被分成多个任务且分布到不同的服务器执行，并将处理的中间数据存储到弹性分布式数据集所在的服务器；通过Driver调度器执行下一个stage时，将所述中间数据作为所述下一个stage的输入值。

在340，基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

本步骤具体可实现为：基于ZDAL的规则引擎提供的参数列表，返回拆分字段；基于所述拆分字段的拆分字段值，确定所述对账处理的结果所属的数据库；通过JDBC调用SQL命令，对所述数据库进行操作，以更新第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

本说明书实施例中的各个步骤的具体实现方式及产生的有益效果，可详见上述说明书实施例中的相关内容，在此不再赘述。

以上，结合图1至图3详细说明了本说明书实施例的分布式对账处理方法，下面，结合图4，详细说明本说明书实施例的分布式对账处理系统。

图4示出了本说明书实施例提供的分布式对账处理系统的结构示意图，如图4所示，该分布式对账处理系统400可以包括：

提取模块401，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据；

封装模块403，基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中；

处理模块405，在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理；

更新模块407，基于对账处理的结果，更新第一对账方在第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

在一种实施例中，所述提取模块401包括：

提取单元，基于数据库的日志操作文件，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据。

在一种实施例中，所述提取模块401包括：

读取单元，通过数据复制拷贝DRC的方式，从数据库日志操作文件读取所述第一对账数据和所述第二对账数据。

在一种实施例中，所述读取单元包括：

第一读取子单元，从所述数据库日志操作文件中按block读取所述第一对账数据和所述第二对账数据，并在block读取完毕后设置检查点checkpoint。

在一种实施例中，所述读取单元还包括：

第二读取子单元，如果读取过程中所述数据库发生crash重启，则在数据库重启之后从最后一个checkpoint之后重新读取所述第一对账数据和所述第二对账数据，并进行数据校验。

在一种实施例中，所述预设的数据分布策略为表征目标业务含义的数据合并分布的策略，所述封装模块403包括：

第一封装单元，将表征目标业务含义的第一对账数据合并封装到所述Spark应用的弹性分布式数据集中所述目标业务含义对应的目标弹性分布式数据集；

第二封装单元，将表征所述目标业务含义的第二对账数据合并封装到所述Spark应用的所述目标弹性分布式数据集中。

在一种实施例中，所述处理模块405具体用于：

基于弹性分布式数据集的混乱属性确定所述弹性分布式数据集中进行对账处理的阶段数，其中，每个阶段被分成多个任务并分布到不同的服务器执行，每个阶段的任务执行完毕后的中间数据存储到所述弹性分布式数据集所在的服务器；

在通过调度器执行所述弹性分布式数据集的阶段任务时，将前一个阶段的任务执行完毕后的中间数据作为后一个阶段的输入值，直至阶段执行完毕，其中，最后一个阶段的任务执行完毕后的数据为所述弹性分布式数据集的对账处理后的结果数据。

在一种实施例中，所述更新模块407包括：

返回单元，基于ZDAL的规则引擎提供的参数列表，返回拆分字段；

第二确定单元，基于所述拆分字段的拆分字段值，确定所述对账处理的结果所属的数据库；

操作单元，通过JDBC调用SQL命令，对所述数据库进行操作，以更新第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

在一种实施例中，所述分布式对账处理系统400还包括：

落库模块409，按照数据维度，将目标业务的流水数据分别落入所述第一对账表和所述第二对账表对应的数据库中；

切割模块411，基于所述流水数据中尚未对账的对账数据的数据量的可适配度，对所述流水数据进行切割以得到所述第一对账数据和所述第二对账数据。

在一种实施例中，所述分布式对账处理系统400还包括：

确定模块，基于所述数据库的负载情况，确定所述数据库的健康度；

调节模块，若所述数据库的健康度大于阈值，则自动调节所述目标业务的流水数据中尚未对账的对账数据的数据量的切割粒度。

图5是本说明书的一个实施例提供的终端设备的结构示意图。请参考图5，在硬件层面，该终端设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该终端设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成资源增值对象与资源对象的关联装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本说明书图1所示实施例揭示的分布式对账处理方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该终端设备还可执行图4的分布式对账处理系统所执行图1的分布式对账处理方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的终端设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各个方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

上述对说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种分布式对账处理方法，包括：

2.如权利要求1所述的方法，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据，包括：

3.如权利要求2所述的方法，提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据，包括：

4.如权利要求3所述的方法，还包括：

从所述数据库日志操作文件中按block读取所述第一对账数据和所述第二对账数据，并在block读取完毕后设置检查点checkpoint。

5.如权利要求4所述的方法，还包括：

6.如权利要求1所述的方法，所述预设的数据分布策略为表征目标业务含义的数据合并分布的策略；

基于预设的数据分布策略，将提取的第一对账数据和第二对账数据封装到Spark应用的多个弹性分布式数据集中，包括：

7.如权利要求6所述的方法，在Spark应用中分别基于所述多个弹性分布式数据集建立分布式任务，以对所述多个弹性分布式数据集分别进行对账处理，包括：

8.如权利要求1所述的方法，基于对账处理的结果，更新第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据，包括：

基于分库分表中间件ZDAL的规则引擎提供的参数列表，返回拆分字段；

通过Java数据库连接JDBC调用结构化查询语言SQL命令，对所述数据库进行操作，以更新第一对账表的第一对账数据和/或第二对账方在第二对账表的第二对账数据。

9.如权利要求1所述的方法，在提取第一对账方在第一对账表的第一对账数据，并提取第二对账方在第二对账表的第二对账数据之前，还包括：

10.如权利要求9所述的方法，

在基于所述流水数据中尚未对账的对账数据的数据量的可适配度，对所述流水数据进行切割以得到所述第一对账数据和所述第二对账数据之前，包括：

基于所述数据库的负载情况，确定所述数据库的健康度；

11.一种分布式对账处理系统，包括：

12.一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下步骤：

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：