CN111753016B

CN111753016B - 数据处理方法、装置、系统及计算机可读存储介质

Info

Publication number: CN111753016B
Application number: CN202010602153.9A
Authority: CN
Inventors: 黄俏龙; 杨杨; 李斌; 王磊; 江旻; 陈镇涌; 彭春燕
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-06-04
Anticipated expiration: 2040-06-28
Also published as: CN111753016A

Abstract

本发明涉及金融科技技术领域，公开了一种数据处理方法、装置、设备及计算机可读存储介质。该数据处理方法包括：通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；在进行数据处理时，从所述预设分布式数据库中获取目标业务中间数据；通过预设主键生成算法生成所述目标业务中间数据的分布式主键，并对所述目标业务中间数据进行处理，得到处理后的数据；根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中。本发明能够解决现有技术中无法实现各DCN内业务数据均衡的问题。

Description

数据处理方法、装置、系统及计算机可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种数据处理方法、装置、系统及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

大多数业务处理系统分为对外业务处理系统和对内业务批处理系统，其中，对外业务处理系统是针对于客户的，部署于不同DCN(data center node，数据中心节点)节点内，会先对客户数据进行一次加工处理，进而将加工处理后的数据同步至对内业务处理系统；而对内业务批处理系统是针对企业内部的，也部署于不同DCN内，用于对接收到的数据进行二次加工处理。

目前，一个DCN是跟客户数据挂钩的，存在上限值和对应的告警阀值，一旦DCN内的数据达到告警阀值时，则需要采购新的机器搭建另一套DCN节点，新的数据将会存储于新DCN节点上。这样长期下来会出现客户数据不均匀的情况，也就是老DCN的业务数据在一段时间内比新DCN业务数据多。然而，现有技术中无法实现业务数据的自动均衡。

发明内容

本发明的主要目的在于提供一种数据处理方法、装置、设备、系统及计算机可读存储介质，旨在解决现有技术中无法实现各DCN内业务数据均衡的问题。

为实现上述目的，本发明提供一种数据处理方法，所述数据处理方法包括：

通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；

在进行数据处理时，从所述预设分布式数据库中获取目标业务中间数据；

通过预设主键生成算法生成所述目标业务中间数据的分布式主键，并对所述目标业务中间数据进行处理，得到处理后的数据；

根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中。

可选地，所述通过预设主键生成算法生成所述目标业务中间数据的分布式主键的步骤包括：

获取所述目标业务中间数据对应的存储机器的机器编号，对所述机器编号进行二进制运算，得到工作位编号；

获取当前毫秒级时间戳，并对所述当前毫秒级时间戳进行二进制运算，得到时间戳位；

通过自增序列获取当前序列号，并对所述当前序列号进行二进制运算，得到序列号位；

按预设顺序对所述工作位编号、所述时间戳位、所述序列号位和预设固定位进行拼接，生成所述目标业务中间数据的分布式主键。

可选地，所述根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中的步骤包括：

获取所述预设分布式数据库中的存储机器的数量，并获取分区范围；

根据所述存储机器的数量，对所述分区范围进行划分，并根据划分结果将划分得到的分区子范围映射至各存储机器上；

根据所述分布式主键所处的分区子范围确定目标存储机器，并将所述处理后的数据写入至所述目标存储机器中。

可选地，所述获取分区范围的步骤包括：

获取所述分布式主键中的最小值，并将所述分布式主键中的最小值作为分区下限值；

获取目标数据处理信息，将所述目标数据处理信息输入至预设预测模型，得到分区预估上限值；

基于所述分区下限值和所述分区预估上限值构建得到分区范围。

可选地，所述通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中的步骤之后，还包括：

获取所述业务中间数据中携带的校验值，记为第一校验值；

通过预设校验算法计算得到所述业务中间数据对应的校验值，记为第二校验值；

检测所述第一校验值与所述第二校验值是否一致，以验证所述业务中间数据是否被完整复制。

在数据同步完成时，获取业务中间数据的发送量，并对接收到的业务中间数据的数量进行统计，得到接收量；

检测所述发送量与所述接收量是否一致，以验证业务中间数据同步的正确性。

可选地，所述数据处理方法还包括：

在接收到数据读取请求时，根据所述数据读取请求确定初始数据集对应的第一键key集；

从所述预设分布式数据库中读取得到所述第一key集对应的第一值value集，并将所述第一value集作为目标value集；

检测所述目标value集对应的数据集是否为最终数据集；

若目标value集对应的数据集不为最终数据集，则对所述目标value集进行处理，得到下一数据集对应的下一key集，并从所述预设分布式数据库中读取得到所述下一key集对应的下一value集；

将所述下一value集作为目标value集，返回执行步骤：检测所述目标value集对应的数据集是否为最终数据集，直至目标value集对应的数据集为最终数据集。

此外，为实现上述目的，本发明还提供一种数据处理装置，所述数据处理装置包括：

数据同步模块，用于通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；

第一获取模块，用于在进行数据处理时，从所述预设分布式数据库中获取目标业务中间数据；

数据处理模块，用于通过预设主键生成算法生成所述目标业务中间数据的分布式主键，并对所述目标业务中间数据进行处理，得到处理后的数据；

数据写入模块，用于根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中。

此外，为实现上述目的，本发明还提供一种数据处理设备，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。

本发明提供一种数据处理方法、装置、设备及计算机可读存储介质，通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；在进行数据处理时，从预设分布式数据库中获取目标业务中间数据；然后，通过预设主键生成算法生成目标业务中间数据的分布式主键，并对目标业务中间数据进行处理，得到处理后的数据；根据分布式主键将处理后的数据写入至预设分布式数据库中。通过上述方式，通过对现有的多个对内业务批处理系统进行整合，将数据从DCN离散式变为ADM集中式处理，同时借助分布式数据库的批处理模式，实现了数据库的无限横向扩展。在写入数据时，通过生成随机离散的、无序的分布式主键的方式，将处理后的数据均匀写入至分布式数据库中，实现负载均衡，避免DCN数据分布不均匀的问题，同时，还可以有效解决分布式数据库的写入热点问题。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明数据处理方法第一实施例的流程示意图；

图3为本发明数据处理方法涉及的现有的核心账务会计账系统的系统示意图；

图4为本发明数据处理方法涉及的改进后的核心账务会计账系统的系统示意图；

图5为本发明数据处理装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例数据处理设备可以是PC(Personal Computer，个人计算机)、服务器等终端设备。

如图1所示，该数据处理设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据处理设备结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及数据处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据处理程序，并执行以下数据处理方法的各个步骤。

基于上述硬件结构，提出本发明数据处理方法的各实施例。

本发明提供一种数据处理方法。

参照图2，图2为本发明数据处理方法第一实施例的流程示意图。

在本实施例中，该数据处理方法包括：

步骤S10，通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；

现有技术中，对外业务批处理系统和对内业务批处理系统均部署于各DCN节点内，DNC是跟客户数据挂钩的，存在上限值和对应的告警阀值，一旦DCN内的数据达到告警阀值时，则需要采购新的机器搭建另一套DCN节点，新的数据将会存储于新DCN节点上。这样长期下来会出现客户数据不均匀的情况，也就是老DCN的业务数据在一段时间内比新DCN业务数据多，而现有技术中无法实现业务数据的自动均衡。本实施例中通过对原多个对内业务批处理系统进行整合，将数据从DCN离散式变为ADM集中式处理，同时基于spring-batch的批处理框架使用分布式数据库TiDB的批处理模式，可实现应用和数据库的无限横向扩展，将数据均匀分散至分布式数据库中，可避免现有技术中DCN数据分布不均匀的问题。

本实施例的数据处理方法应用于数据处理系统，该数据处理系统包括一个对内业务处理系统和多个对外业务批处理系统。其中，对外业务批处理系统为针对客户端的业务处理系统，包括多个，分散在各DCN(data center node数据中心节点)内的各应用机器中，具体的，在一个DCN节点内部署若干台等价的应用机器，每台机器部署等价的应用——对外业务批处理系统，连接同一个set(集合容器)的数据库(后续以TDSQL为例进行说明)。对内业务处理系统为针对工作人员端的业务处理系统，整合了多个对内业务批处理系统的功能，原对内业务批处理系统全部迁移至该对内业务处理系统实现跑批。

本实施例的数据处理方法是由数据处理设备实现的，该设备可以为服务器，该数据处理设备搭载有对内业务处理系统，且部署有预设分布式数据库，该预设分布式数据库可选地为TiDB数据库(一种新型分布式关系型数据库)。TiDB是一个分布式NewSQL(对各种新的可扩展/高性能数据库的简称)数据库，它支持水平弹性扩展，水平扩展包括两方面：计算能力和存储能力。TiDB主要包括三个核心组件:TiDB Server、PD Server和TiKV Server，其中，TiDB Server负责处理SQL请求，处理SQL相关的逻辑，并通过PD找到存储计算所需数据的TiKV地址，与TiKV交互获取数据，最终返回结果。TiDB Server是无状态的，其本身并不存储数据，只负责计算，可以无限水平扩展，随着业务的增长，可以简单的添加TiDB Server节点，提高整体的处理能力，提供更高的吞吐。TiKV(分布式键-值Key-Value存储引擎)负责存储数据，存储数据的基本单位是egion，随着数据量的增长，可以部署更多的TiKV Server节点解决数据范围的问题。PD(Placement Driver，是整个集群的管理模块)会在TiKV节点之间以Region为单位做调度，将部分数据迁移到新加的节点上。在业务的早期，可以只部署少量的服务实例(推荐至少部署3个TiKV、3个PD、2个TiDB)，随着业务量的增长，再按照需求添加TiKV或者TiDB实例。

进一步地，对外业务批处理系统会对客户数据进行处理加工，每一加工处理步骤中均会产生业务中间数据，以图3中所示的现有的核心账务会计账系统为例进行说明，CPS-BATCH-DCN(C&C accounting batch system，信用卡客户入账批量处理系统)，会先进行交易入客户账、记息记费、账户状态变更等业务处理，在处理过程中，会产生各种业务中间数据，进而在各步骤处理完成后，统一将所有的业务中间数据导出并打包好，然后上传至NAS(Network Attached Storage：网络附属存储，一种专用数据存储服务器)盘，对GLP-BATCH-DCN(C&C general ledger batch process system，贷款总帐批量处理系统)会从NAS盘进行文件同步并导出至其对应的数据库，进行进一步的加工处理。随着业务量的增长，需导出的文件数据量越来越大，在并发导出过程中，出现会出现硬盘磁盘IO占用率达到100％的情况，影响了其他使用了同一个磁盘机器的进程。为了解决磁盘IO使用率问题，只能通过降频措施来解决，此时，则无法满足高时效的数据同步。

本实施例中，先通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中。其中，预设工具可选地为DM(Data Migration，数据迁移)工具，DM是一体化的数据同步任务管理平台，支持从MySQL或MariaDB到TiDB的全量数据迁移和增量数据同步。具体的，可将DM工具挂载到对内业务批处理系统对应数据库(如TDSQL)的后端，就可以把TDSQL业务中间数据自动增量地同步到预设分布式数据库TiDB中，无需在加工处理完成时再全部导出同步，从而可达到数据的无缝衔接，既能满足时效要求，也能解决磁盘IO的性能瓶颈问题。如图4所示，通过DM工具将CPS系统对应数据库CPSDB中的数据同步至TiDB数据库中，进而便于后续整合得到的GLP-CLUSTER-ADM(GLP CLUSTER SYSTEM，贷款总账集群式批量处理系统)从TiDB数据调取数据进行二次加工，进而在将加工后的数据存储至TiDB数据库中。

此外，需要说明的是，为保证业务中间数据写入的均匀性，避免写入热点问题，对外业务批处理系统可生成业务中间数据的主键，主键的生成方式可与对内业务处理系统的生成目标业务中间数据的分布式主键的方式相似，此次不作赘述。

步骤S20，在进行数据处理时，从所述预设分布式数据库中获取目标业务中间数据；

在进行数据处理时，即对同步的业务中间数据进行二次加工时，先从预设分布式数据库中获取目标业务中间数据。其中，预设分布式数据库可选地为TiDB数据库，可便于横向无限扩展，不会受数据分布不均匀问题导致的短板性能问题。

步骤S30，通过预设主键生成算法生成所述目标业务中间数据的分布式主键，并对所述目标业务中间数据进行处理，得到处理后的数据；

现有技术中通常是通过自增主键的方式生成主键，主键是有序的，因此，在写入TiDB时，会按主键顺序分配至同一TiKV节点中，而不会随机分配，从而会产生热点问题。为避免数据写入TiDB时的写热点问题，可通过预设主键生成算法生成分布式主键，分布式主键是随机离散的，从而可避免上述情况，有效解决TiDB的写入热点问题。

通过预设主键生成算法生成目标业务中间数据的分布式主键，并对目标业务中间数据进行处理，得到处理后的数据。其中，预设主键生成算法可选地为改进后的雪花算法。对目标业务中间数据进行处理的方式可根据实际系统类型和需要进行设定。例如，对于财务转账系统而言，对外业务批处理系统可对客户数据进行加工，得到交易流水数据，对内业务处理系统进行二次加工处理时，可对交易流水数据进行转化，例如，目标业务中间数据为“A向B转账100”，则在此处加工时，转化为“A转出100，B转出100”的形式。

具体的，步骤“通过预设主键生成算法生成所述目标业务中间数据的分布式主键”包括：

步骤a31，获取所述目标业务中间数据对应的存储机器的机器编号，对所述机器编号进行二进制运算，得到工作位编号；

步骤a32，获取当前毫秒级时间戳，并对所述当前毫秒级时间戳进行二进制运算，得到时间戳位；

步骤a33，通过自增序列获取当前序列号，并对所述当前序列号进行二进制运算，得到序列号位；

步骤a34，按预设顺序对所述工作位编号、所述时间戳位、所述序列号位和预设固定位进行拼接，生成所述目标业务中间数据的分布式主键。

本实施例中，分布式主键的生成过程如下：

获取目标业务中间数据对应的存储机器的机器编号，对机器编号进行二进制运算，得到工作位编号(workerId)，其中，存储机器即为目标业务中间数据所存储的TiKV。具体的，可以先确定目标业务中间数据所对应的目标存储机器，然后根据预先设定的存储机器的机器编号列表，获取到该目标存储机器对应的机器编号，通过预先设定存储机器的机器编号列表，可保证机器编号的唯一性，从而保证分布式主键的唯一性。其中，该工作位编号为10位(bit)。

在获取工作位编号的同时，获取当前毫秒级时间戳，并对当前毫秒级时间戳进行二进制运算，得到时间戳位，该时间戳位为41位，用来记录时间戳(毫秒)。

在获取工作位编号的同时，通过自增序列获取当前序列号，并对当前序列号进行二进制运算，得到序列号位。序列号位为12位，用来记录同毫秒内产生的不同id。

然后，按预设顺序对工作位编号、时间戳位、序列号位和预设固定位进行拼接，生成目标业务中间数据的分布式主键。其中，预设固定位可以固定设为0，预设顺序可选地按预设固定位、工作位编号、序列号位、时间戳位的顺序，最终得到的分布式主键是一个64bit大小的整数。

需要说明的是，步骤a31-a33的执行顺序不分先后。

步骤S40，根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中。

最后，根据分布式主键将处理后的数据写入至预设分布式数据库中。具体的，先获取预设分布式数据库中的存储机器的数量，并获取分区范围；然后，根据存储机器的数量，对分区范围进行划分，并根据划分结果将划分得到的分区子范围映射至各存储机器上；进而根据分布式主键所处的分区子范围确定目标存储机器，并将处理后的数据写入至目标存储机器中。具体的写入过程可参照下述第二实施例，此处不作赘述。基于随机生成的分布式主键可将处理后的数据均匀写入到TiDB上，从而避免TiDB数据库插入热点的问题。

本发明实施例提供一种数据处理方法，通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；在进行数据处理时，从预设分布式数据库中获取目标业务中间数据；然后，通过预设主键生成算法生成目标业务中间数据的分布式主键，并对目标业务中间数据进行处理，得到处理后的数据；根据分布式主键将处理后的数据写入至预设分布式数据库中。通过上述方式，通过对现有的多个对内业务批处理系统进行整合，将数据从DCN离散式变为ADM集中式处理，同时借助分布式数据库的批处理模式，实现了数据库的无限横向扩展。在写入数据时，通过生成随机离散的、无序的分布式主键的方式，将处理后的数据均匀写入至分布式数据库中，实现负载均衡，避免DCN数据分布不均匀的问题，同时，还可以有效解决分布式数据库的写入热点问题。

进一步地，基于上述第一实施例，提出本发明数据处理方法的第二实施例。

在本实施例中，步骤S40包括：

步骤a41，获取所述预设分布式数据库中的存储机器的数量，并获取分区范围；

在本实施例中，获取预设分布式数据库中的存储机器的数量，并获取分区范围。其中，预设分布式数据库可选地为TiDB数据库，对应的存储机器则为TiKV。TiKV是一个分布式的提供事务的Key-Value存储引擎，用来存储真正的数据，其存储数据的基本单位是Region(分区)，每个Region负责存储一个分区范围的数据，每个TiKV节点会负责一个或多个Region。

其中，步骤“获取分区范围”包括：

步骤a411，获取所述分布式主键中的最小值，并将所述分布式主键中的最小值作为分区下限值；

步骤a412，获取目标数据处理信息，将所述目标数据处理信息输入至预设预测模型，得到分区预估上限值；

步骤a413，基于所述分区下限值和所述分区预估上限值构建得到分区范围。

分区范围的获取过程如下：

获取分布式主键中的最小值，并将分布式主键中的最小值作为分区下限值。其中，由于分布式主键的生成结果是按照无序增长的，即生成的第一个值为最小值，因此，可将生成的第一个分布式主键作为分区下限值。

同时，获取目标数据处理信息，将目标数据处理信息输入至预设预测模型，得到分区预估上限值。其中，预设预测模型可以为一预设计算公式，也可以为随机森林、SVM(Support Vector Machine，支持向量机)、逻辑回归模型等预测模型。目标数据处理信息可以包括存储机器i步骤的多线程处理能力(G_i)、存储机器i的要求处理时效时间(T_i)、增加存储机器i后处理单个步骤每条数据的时间(P_i)、每日数据量总量(f(D))、存储机器i跑批的CPU平均占用率情况(CPU_iavg)、存储机器i跑批的CPU占用率的上限指标(CPU_imax)、存储机器i跑批的IO(Input/Output，输入/输出)平均占用率情况(IO_iavg)、存储机器i跑批的IO占用率的上限指标(IO_imax)、存储机器i跑批的Mermory(内存)平均占用率情况(MER_iavg)、存储机器i跑批的Mermory占用率情况的上限指标(MER_imax)、存储机器i昨日数据下限指标(YD_imin)、存储机器i昨日数据上限指标(YD_imax)、机器的总数量n等。当然，在具体实施时，也可以通过模型参数选择方法(如Grid Search网格搜索)筛选出影响分区预估上限值的其他类型的数据处理信息，进而选用其他类型的数据处理信息进行预估。

需要说明的是，G_i用于表征应用端的处理能力；T_i/P_i表示机器i每小时的数据处理量，用于表征TiDB的处理能力；而CPU、IO、Mermory和YD四个参数是跑批过程中的几个重要影响参数，记为影响因子。

作为其中一种实施方式，可将上述目标数据处理信息代入至预设预测公式中，得到分区预估上限值f(s)，其中，预设预测公式如下：

其中，a、b、c和d分别为影响因子的CPU、IO、Mermory和YD的权重系数，可基于实际需要灵活调整设定，用于调节各影响因子的占比，最终使得和/>对应的值在1-3的范围内，以避免分区预估上限值过大，导致实际应用过程中部分存储机器空闲、资源利用率较低。

需要说明的是，上述预测过程中，实质上是分别对各台机器的上限值进行了预测，进而累加得到最终的分区预估上限值。在具体实施时，也可以直接根据分区范围最大的机器(假设为机器n)的目标数据处理信息进行预测，即，可获取机器n的各目标数据处理信息，代入下述公式计算得到分区预估上限值。但是，相比而言，上述预设预测公式，是对各个机器的预测，进而累加得到分区预估上限值，基于上述方式预测得到的分区预估上限值进行范围的划分，可彻底避免划分得到的各分区子范围不足以涵盖实际生成的分布式主键的问题。

在获取到分区下限值和分区预估上限值之后，基于分区下限值和分区预估上限值构建得到分区范围，即分区范围为[分区下限值，分区预估上限值)。

步骤a42，根据所述存储机器的数量，对所述分区范围进行划分，并根据划分结果将划分得到的分区子范围映射至各存储机器上；

然后，根据存储机器的数量，对分区范围进行划分，并根据划分结果将划分得到的分区子范围映射至各存储机器上。

其中，划分和映射方式可以包括但不限于：1)将分区范围划分成与存储机器数量相同的分区数，然后，将划分得到的分区子范围随机映射至各存储机器上，对应的，每个存储机器映射有1个分区Region。例如，若分区范围为[1000000,9999999)、存储机器的数量为10时，则可以划分为[1000000,1999999)、[2000000,2999999)、……、[9000000,9999999)10个分区。然后将10个分区范围随机映射至10个存储机器上；2)将分区范围划分成与存储机器数量的预设倍数n相同的分区数，然后将划分得到的分区子范围映射至各存储机器上，最终每个存储机器映射有n个分区Region。例如，预设倍数为2，存储机器的数量为10时，则将分区范围平均划分为20个分区，最终每个存储机器映射有2个分区Region。在映射时，可根据各存储机器的编号进行映射，可选地，可将划分得到的分区子范围按从小到大的顺序依次映射至编号由小到大的存储机器上，以便于后续进行分区上限值的预测。

步骤a43，根据所述分布式主键所处的分区子范围确定目标存储机器，并将所述处理后的数据写入至所述目标存储机器中。

在写入数据时，根据分布式主键所处的分区子范围确定目标存储机器，并将处理后的数据写入至目标存储机器中。

本实施例中，通过对分区上限值进行预测得到分区预估上限值，同时确定分区下限值，以得到分区范围，然后基于存储机器的数量对分区范围进行平均划分，并将划分得到的分区子范围映射至各存储机器上，进而基于分布式主键确定写入的目标存储机器。通过上述方式，可使得处理后的数据被均匀写入到各存储机器TiKV上，从而避免TiDB数据库插入热点的问题。

进一步地，基于上述第一和第二实施例，提出本发明数据处理方法的第三实施例。

在本实施例中，在上述步骤S10之后，该数据处理方法还包括：

步骤A，获取所述业务中间数据中携带的校验值，记为第一校验值；

在本实施例中，在获取到业务中间数据之后，需要数据的完整性进行校验，以避免出现复制不完整的情况，造成后续数据处理错误等问题。尤其对于金融场景而言，数据复制完整性的校验具有十分重要的意义。

具体的，先获取业务中间数据中携带的校验值，记为第一校验值。其中，第一校验值是由对外业务批处理系统通过预设校验算法对发送的业务中间数据进行计算得到的。

此处，需要说明的是，为便于对内业务处理系统进行校验，对外业务批处理系统在发送业务中间数据时，会通过校验算法对业务中间数据进行计算，得到一个检验值。例如，以业务中间数据为一数据表进行举例说明，可获取每列的数据类型，然后把类型转化为字符串，利用concat_wa()函数(用于以指定分隔符拼接字符串)进行连接，使用预设校验算法(如CRC32算法，循环冗余校验算法)对连接得到的字符串进行计算，获得一个32位的无符号整形数据，作为校验值，进而附加到该数据表末位的隐含列。对内业务处理系统可从该隐含列获取到校验值，记为第一校验值。

步骤B，通过预设校验算法计算得到所述业务中间数据对应的校验值，记为第二校验值；

然后，通过预设校验算法计算得到所述业务中间数据对应的校验值，记为第二校验值。即，第二校验值是由对内业务处理系统通过预设校验算法对发送的业务中间数据进行计算得到的。其中，预设校验算法可选地为CRC算法(Cyclic Redundancy Check，循环冗余校验算法)，具体的可以选用CRC32算法、CRC16等。

对应的，可获取接收到的业务中间数据中每列的数据类型，然后把类型转化为字符串，利用concat_wa()函数进行连接，使用预设校验算法对连接得到的字符串进行计算，获得一个32位的无符号整形数据，作为第二校验值。

步骤C，检测所述第一校验值与所述第二校验值是否一致，以验证所述业务中间数据是否被完整复制。

检测第一校验值与第二校验值是否一致，以验证业务中间数据是否被完整复制。若第一校验值与第二校验值一致，则说明业务中间数据被完整复制；若第一校验值与第二校验值不一致，则说明业务中间数据未被完整复制，此时，可生成告警提醒信息，以通知工作人员及时处理。

本实施例中，通过计算接收到的业务中间数据的校验值，然后检测其与业务中间数据中携带的校验值(发送前计算得的)是否一致，来验证数据同步的完整性，以及时发现数据复制不完整的问题，避免后续造成数据处理错误等问题。

进一步地，基于上述第一和第二实施例，提出本发明数据处理方法的第四实施例。

步骤D，在数据同步完成时，获取业务中间数据的发送量，并对接收到的业务中间数据的数量进行统计，得到接收量；

在本实施例中，在数据同步完成时，获取业务中间数据的发送量。具体的，在数据同步的过程中，可通过预设工具DM记录同步的数据信息，得到业务中间数据的发送量，并传输至对内业务处理系统。或，各对外业务批处理系统在同步时进行记录，进而在同步完成时，分别将记录结果发送至对内业务处理系统，从而对内业务处理系统对各记录结果进行加和得到发送量。

在获取业务中间数据的发送量的同时，对接收到的业务中间数据的数量进行统计，得到接收量。

步骤E，检测所述发送量与所述接收量是否一致，以验证业务中间数据同步的正确性。

然后，检测发送量与接收量是否一致，以验证业务中间数据同步的正确性。若发送量与接收量一致，则说明业务中间数据同步无误；若发送量与接收量不一致，则说明业务中间数据同步有误，此时，可生成告警提醒信息，以通知工作人员及时处理。

本实施例中，通过检测业务中间数据的发送量与接收量是否一致，来验证数据同步的正确性，以及时发现数据不一致的问题，避免后续造成数据处理错误等问题。

进一步地，基于上述第一和第二实施例，提出本发明数据处理方法的第五实施例。

步骤F，在接收到数据读取请求时，根据所述数据读取请求确定初始数据集对应的第一键key集；

现有技术中，在读取业务数据时，通常是通过key(键)读的方式，即，先根据key找到数据表A中的一条记录，进而循环查找得到一系列A的记录，进而基于查找到的记录查询关联表B中的记录，类似地，再基于关联表B中的记录继续查询下一关联表C中的业务数据。假设，数据表A中与key相关的有1000条记录，B和C对应的也有1000条记录，则需访问TiDB数据库3000次方可完成数据读取，显然，其性能较差，且效率较低，且频繁读取数据库数据，会使得TiDB产生读热点问题。

为解决上述问题，本实施例中，在进行数据读写的过程中，将key读模式改为“块读”模式，即，先找到一系列A的数据(简称数据集A)，再根据数据集A找到对应数据集B，然后再找到数据集C，此时，则仅需访问3次即可完成数据读取，从而可大大降低数据库的读取次数，避免读热点问题，同时大大提高读取效率。

本实施例中，“快读”模式的具体执行过程如下：

在接收到数据读取请求时，根据数据读取请求确定初始数据集对应的第一键key集。具体的，可根据数据读取请求的类型和预设的请求类型与数据集的映射关系确定初始数据集，进而获取初始数据集对应的key集，为便于与后续的其他key集进行区分，将初始数据集的key集记为第一key集。

步骤G，从所述预设分布式数据库中读取得到所述第一key集对应的第一值value集，并将所述第一value集作为目标value集；

然后，从预设分布式数据库中读取得到第一key集对应的第一value(值)集，并将第一value集作为目标value集。

步骤H，检测所述目标value集对应的数据集是否为最终数据集；

检测目标value集对应的数据集是否为最终数据集，具体的，可以根据数据读取请求获取到所需获取到的数据集及其获取顺序，从而可确定出初始数据集、中间数据集和最终数据集。例如，对于交易查询，可确定需要依次获取的数据集为：客户—账户—交易，对应的，初始数据集为客户，中间数据集为账户，最终数据集为交易。

然后，检测目标value集对应的数据集与最终数据集是否一致，若一致，则判定为最终数据集；若不一致，则判定不为最终数据集。

步骤I，若目标value集对应的数据集不为最终数据集，则对所述目标value集进行处理，得到下一数据集对应的下一key集，并从所述预设分布式数据库中读取得到所述下一key集对应的下一value集；

若目标value集对应的数据集不为最终数据集，则对目标value集进行处理，得到下一数据集对应的下一key集，并从预设分布式数据库中读取得到下一key集对应的下一value集，其中，具体的处理方式可基于value集及其对应的数据集类型来确定，处理规则可预先灵活设定，此处不作具体限定。

步骤J，将所述下一value集作为目标value集，返回执行步骤：检测所述目标value集对应的数据集是否为最终数据集，直至目标value集对应的数据集为最终数据集。

将下一value集作为目标value集，返回执行步骤：检测目标value集对应的数据集是否为最终数据集，直至目标value集对应的数据集为最终数据集。

也就是说，先从预设分布式数据库中读取得到第一key集对应的第一value集，然后对第一value集进行处理，得到第二数据集对应的第二key集，并从预设分布式数据库中读取得到第二key集对应的第二value集；进而对第二value集进行处理，得到第三数据集对应的第三key集，并从预设分布式数据库中读取得到第三key集对应的第三value集，依此循环，直至获取到的第n value集对应的第n数据集为最终数据集，则读取完成。

本实施例中，通过采取每次获取一个数据集对应的value集的方式，来进行数据读取，实现了“块读”模式，相比于现有技术中，基于单个key值进行循环读取，可大大降低数据库的读取次数，避免读热点问题，同时大大提高读取效率。

本发明还提供一种数据处理装置。

参照图5，图5为本发明数据处理装置第一实施例的功能模块示意图。

如图5所示，所述数据处理装置包括：

数据同步模块10，用于通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中；

第一获取模块20，用于在进行数据处理时，从所述预设分布式数据库中获取目标业务中间数据；

数据处理模块30，用于通过预设主键生成算法生成所述目标业务中间数据的分布式主键，并对所述目标业务中间数据进行处理，得到处理后的数据；

数据写入模块40，用于根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中。

进一步地，所述数据处理模块30包括：

第一获取单元，用于获取所述目标业务中间数据对应的存储机器的机器编号，对所述机器编号进行二进制运算，得到工作位编号；

第二获取单元，用于获取当前毫秒级时间戳，并对所述当前毫秒级时间戳进行二进制运算，得到时间戳位；

第三获取单元，用于通过自增序列获取当前序列号，并对所述当前序列号进行二进制运算，得到序列号位；

主键生成单元，用于按预设顺序对所述工作位编号、所述时间戳位、所述序列号位和预设固定位进行拼接，生成所述目标业务中间数据的分布式主键。

进一步地，所述数据写入模块40包括：

第四获取单元，用于获取所述预设分布式数据库中的存储机器的数量，并获取分区范围；

分区映射单元，用于根据所述存储机器的数量，对所述分区范围进行划分，并根据划分结果将划分得到的分区子范围映射至各存储机器上；

输入写入单元，用于根据所述分布式主键所处的分区子范围确定目标存储机器，并将所述处理后的数据写入至所述目标存储机器中。

进一步地，所述第四获取单元具体用于：

进一步地，所述数据处理装置还包括：

第二获取模块，用于获取所述业务中间数据中携带的校验值，记为第一校验值；

校验值计算模块，用于通过预设校验算法计算得到所述业务中间数据对应的校验值，记为第二校验值；

第一检测模块，用于检测所述第一校验值与所述第二校验值是否一致，以验证所述业务中间数据是否被完整复制。

进一步地，所述数据处理装置还包括：

数量统计模块，用于在数据同步完成时，获取业务中间数据的发送量，并对接收到的业务中间数据的数量进行统计，得到接收量；

第二检测模块，用于检测所述发送量与所述接收量是否一致，以验证业务中间数据同步的正确性。

进一步地，所述数据处理装置还包括：

第一确定模块，用于在接收到数据读取请求时，根据所述数据读取请求确定初始数据集对应的第一键key集；

第一读取模块，用于从所述预设分布式数据库中读取得到所述第一key集对应的第一值value集，并将所述第一value集作为目标value集；

第三检测模块，用于检测所述目标value集对应的数据集是否为最终数据集；

第二读取模块，用于若目标value集对应的数据集不为最终数据集，则对所述目标value集进行处理，得到下一数据集对应的下一key集，并从所述预设分布式数据库中读取得到所述下一key集对应的下一value集；

返回执行模块，用于将所述下一value集作为目标value集，返回执行步骤：检测所述目标value集对应的数据集是否为最终数据集，直至目标value集对应的数据集为最终数据集。

其中，上述数据处理装置中各个模块的功能实现与上述数据处理方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如以上任一项实施例所述的数据处理方法的步骤。

本发明计算机可读存储介质的具体实施例与上述数据处理方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

2.如权利要求1所述的数据处理方法，其特征在于，所述通过预设主键生成算法生成所述目标业务中间数据的分布式主键的步骤包括：

3.如权利要求1所述的数据处理方法，其特征在于，所述根据所述分布式主键将所述处理后的数据写入至所述预设分布式数据库中的步骤包括：

4.如权利要求3所述的数据处理方法，其特征在于，所述获取分区范围的步骤包括：

5.如权利要求1至4中任一项所述的数据处理方法，其特征在于，所述通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中的步骤之后，还包括：

获取所述业务中间数据中携带的校验值，记为第一校验值；

6.如权利要求1至4中任一项所述的数据处理方法，其特征在于，所述通过预设工具将各对外业务批处理系统的业务中间数据同步至预设分布式数据库中的步骤之后，还包括：

7.如权利要求1至4中任一项所述的数据处理方法，其特征在于，所述数据处理方法还包括：

在接收到数据读取请求时，根据所述数据读取请求确定初始数据集对应的第一key集；

从所述预设分布式数据库中读取得到所述第一key集对应的第一value集，并将所述第一value集作为目标value集；

检测所述目标value集对应的数据集是否为最终数据集；

8.一种数据处理装置，其特征在于，所述数据处理装置包括：

9.一种数据处理设备，其特征在于，所述数据处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。