CN113626510A

CN113626510A - 交易核对方法、装置、电子设备及存储介质

Info

Publication number: CN113626510A
Application number: CN202110919547.1A
Authority: CN
Inventors: 王党团; 张宇; 盛沛; 郭慧杰; 钱丽雯; 肖相如
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-09
Anticipated expiration: 2041-08-11
Also published as: CN113626510B

Abstract

本发明提供一种交易核对方法、装置、电子设备及存储介质，首先配置交易信息核对表；然后加载第一系统的第一交易数据，对于其中的一条第一交易记录，在交易信息核对表中产生相应的第一核对记录、且第一核对记录被插入第一交易记录的主键、第一系统标记和第一记录压缩文件；进而加载第二系统的第二交易数据，对于其中一条第二交易记录，在交易信息核对表中产生相应的第二核对记录、且第二核对记录被插入第二交易记录的主键、第二系统标记和第二记录压缩文件。由于主键相同的第一核对记录和第二核对记录被归并为一条，因此未被归并的核对记录即可被认定异常，就此导出异常文件。

Description

交易核对方法、装置、电子设备及存储介质

技术领域

本发明涉及软件技术领域，更具体地说，涉及一种交易核对方法、装置、电子设备及存储介质。

背景技术

作为跨系统之间交易安全的最后一道屏障，核对双方交易信息的一致性，输出差错文件作为调账和补录的重要凭证，保护了银行和客户的资金安全。

传统的交易核对方式，分别加载两个系统的交易数据到两张数据表中，再创建两张数据表的主键和索引。然后，根据主键排序先远程获取第一张数据表的一批记录，然后再远程获取第二张表的一批记录，核对主键和其它辅助字段，如果不一致，则输出到异常表中。循环处理完两张表的所有记录，最后输出异常的记录到文件中。

显然面对大规模数据处理时，加载、建索引、记录批量处理、记录批量核对和记录批量输出的各环节效率都极其低下。

发明内容

有鉴于此，为解决上述问题，本发明提供一种交易核对方法、装置、电子设备及存储介质，技术方案如下：

本发明一方面提供一种交易核对方法，所述方法包括：

获取已配置的交易信息核对表，所述交易信息核对表中的多列分别对应主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件；

加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中，所述第一交易数据的第一交易记录与所述交易信息核对表的第一核对记录一一对应，所述第一核对记录被插入相应第一交易记录的主键、第一系统标记和第一记录压缩文件；

加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中，所述第二交易数据的第二交易记录与所述交易信息核对表的第二核对记录一一对应，所述第二核对记录被插入相应第二交易记录的主键、第二系统标记和第二记录压缩文件，主键相同的一组第一核对记录和第二核对记录被归并为一条核对记录；

根据所述交易信息核对表中未被归并的核对记录导出异常文件，所述异常文件中能够指示所述未被归并的核对记录对应的交易记录。

优选的，所述加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中，包括：

生成多个第一加载作业，所述多个第一加载作业分布式并行处理以实现：

多任务分块读取所述第一交易数据；

对于当前在所述第一交易数据中读取到的目标第一交易记录，解析所述目标第一交易记录的关键字段拼接为主键；

设置所述目标第一交易记录的第一系统标记；

通过对所述目标第一交易记录进行压缩得到第一记录压缩文件；

在所述交易信息核对表中为所述目标第一交易记录分配相应的目标第一核对记录，将所述目标第一交易记录的主键、第一系统标记和第一记录压缩文件插入所述目标第一核对记录中。

优选的，所述加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中，包括：

生成多个第二加载作业，所述多个第二加载作业分布式并行处理以实现：

多任务分块读取所述第二交易数据；

对于当前在所述第二交易数据中读取到的目标第二交易记录，解析所述目标第二交易记录的关键字段拼接为主键；

设置所述目标第二交易记录的第二系统标记；

通过对所述目标第二交易记录进行压缩得到第二记录压缩文件；

在所述交易信息核对表中为所述目标第二交易记录分配目标第二核对记录，将所述目标第二交易记录的主键、第二系统标记和第二记录压缩文件插入所述目标第二核对记录中。

优选的，所述根据所述交易信息核对表中未被归并的核对记录导出异常文件，包括：

生成多个导出作业，所述多个导出作业分布式并行处理以实现：

多任务读取所述交易信息核对表；

对于当前在所述交易信息核对表中读取到的目标核对记录，判断所述目标核对记录中是否同时被插入第一系统标记和第二系统标记；

若否，则确定所述目标核对记录为异常核对记录，解压所述目标核对记录被插入的第一/第二记录压缩文件，将解压结果和所述目标核对记录被插入的第一/第二系统标记写入所述异常文件。

本发明另一方面提供一种交易核对装置，所述装置包括：

配置模块，用于获取已配置的交易信息核对表，所述交易信息核对表中的多列分别对应主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件；

加载模块，用于加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中，所述第一交易数据的第一交易记录与所述交易信息核对表的第一核对记录一一对应，所述第一核对记录被插入相应第一交易记录的主键、第一系统标记和第一记录压缩文件；加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中，所述第二交易数据的第二交易记录与所述交易信息核对表的第二核对记录一一对应，所述第二核对记录被插入相应第二交易记录的主键、第二系统标记和第二记录压缩文件，主键相同的一组第一核对记录和第二核对记录被归并为一条核对记录；

导出模块，用于根据所述交易信息核对表中未被归并的核对记录导出异常文件，所述异常文件中能够指示所述未被归并的核对记录对应的交易记录。

优选的，用于加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中的所述加载模块，具体用于：

多任务分块读取所述第一交易数据；对于当前在所述第一交易数据中读取到的目标第一交易记录，解析所述目标第一交易记录的关键字段拼接为主键；设置所述目标第一交易记录的第一系统标记；通过对所述目标第一交易记录进行压缩得到第一记录压缩文件；在所述交易信息核对表中为所述目标第一交易记录分配相应的目标第一核对记录，将所述目标第一交易记录的主键、第一系统标记和第一记录压缩文件插入所述目标第一核对记录中。

优选的，用于加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中的所述加载模块，具体用于：

多任务分块读取所述第二交易数据；对于当前在所述第二交易数据中读取到的目标第二交易记录，解析所述目标第二交易记录的关键字段拼接为主键；设置所述目标第二交易记录的第二系统标记；通过对所述目标第二交易记录进行压缩得到第二记录压缩文件；在所述交易信息核对表中为所述目标第二交易记录分配目标第二核对记录，将所述目标第二交易记录的主键、第二系统标记和第二记录压缩文件插入所述目标第二核对记录中。

优选的，用于根据所述交易信息核对表中未被归并的核对记录导出异常文件的所述导出模块，具体用于：

多任务读取所述交易信息核对表；对于当前在所述交易信息核对表中读取到的目标核对记录，判断所述目标核对记录中是否同时被插入第一系统标记和第二系统标记；若否，则确定所述目标核对记录为异常核对记录，解压所述目标核对记录被插入的第一/第二记录压缩文件，将解压结果和所述目标核对记录被插入的第一/第二系统标记写入所述异常文件。

本发明另一方面提供一种电子设备，所述电子设备包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现所述的交易核对方法。

本发明另一方面提供一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行所述的交易核对方法。

相较于现有技术，本发明实现的有益效果为：

本发明设计主键的单表(交易信息核对表)装双数(交易数据)，数据高效加载的同时自动完成交易记录核对，避免传统方式中将数据加载到数据表后再单独创建主键和索引，数据表列和行的增删改查都统一简化为插入操作，由此可以避免传统数据库更新行列导致的大批量处理缓慢或行迁移。此外，全记录数据存储压缩设计，整体数据量大小极大程度减少，在数据的传输、存储和访问中，只有最小集的有效数据在流动和处理，有效解决了海量数据与生俱来的磁盘性能瓶颈和网络带宽瓶颈，整体性能大幅提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的大数据云计算整体架构图；

图2为本发明实施例提供的交易核对方法的方法流程图；

图3为本发明实施例提供的交易信息核对表的配置示意图；

图4为本发明实施例提供的主键的数据结构配置示例；

图5为本发明实施例提供的全流程作业示意图；

图6为本发明实施例提供的A作业分布式并行处理流程图；

图7为本发明实施例提供的B作业分布式并行处理流程图；

图8为本发明实施例提供的C作业分布式并行处理流程图；

图9为本发明实施例提供的交易核对装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前交易核对系统采用的实现方案为传统的关系数据库和单一结构化流程处理程序，无法作到大规模数据的海量存储和应用程序的动态并行计算，处理性能和扩展性能受限，继而影响未来的业务发展。

本发明可以采用大数据云平台作为运行基础环境，x86服务器替换ibm小型机，linux操作系统替换aix系统，hbase数据库替换oracle数据库，hadoop/spark计算框架替换现有手工过程化应用，使用面向对象语言java替换面向过程语言c，使用新的数据模型和业务处理流程，覆盖现有系统的交易核对功能。通过数据上云、计算上云，跨越式提高系统的业务处理能力和扩展能力，保障业务持续的高速发展。

针对交易核对系统的核心业务场景，本发明从海量业务数据核对的实际情况出发分析问题所在，结合应用场景，在系统层和应用层两个方面选择和设计出系统与应用互相配合、互相融合的解决方案，具体如下：

1)系统层：

针对交易核对系统面对的全行联机业务当日海量数据和海量计算，在操作系统方面摒弃传统臃肿的AIX系统，采用轻快开放的LINUX系统，x86平台的操作系统，拥有最广泛的公开免费技术资源，精简的轻量级操作系统运行的更轻快，可以做到秒级启动容器应用，相比封闭传统的AIX系统，技术资源和性能大幅提高。

在物理主机方面本发明摒弃传统昂贵双机互备的IBM780主机，采用诸多节点廉价的X86服务器。多节点互相热备份运行，相比传统的双机热备，系统的安全性大幅提高。7台PC总成本不过万元，远低于千万级的IBM服务器,设备成本大大降低。

在数据库方面本发明摒弃传统双节点关系数据ORACLE，采用NoSql分布式数据库HBASE，基于以列为模式的BIGTABLE，支持万亿行百亿列的海量数据和节点动态扩展，并仅支持以ROWKEY为唯一索引的高速增删改查操作，有效针对交易核对场景，解决了传统关系数据库，主键大小限制，索引大小个数限制，行列大小限制，无法支持海量数据的存储访问。

在数据计算方面本发明摒弃传统的操作系统级计算能力，采用分布式云计算框架MAPREDUCE/SPARK，基于容器技术和内存技术的弹性伸缩式协同计算技术，整合了多台机器的计算能力为一体，按需动态分配计算资源，满足了海量数据下的超级计算能力要求和节点动态扩展，解决了传统单机计算能力的限制。

在文件存储方面本发明摒弃传统的依赖操作系统的文件存储管理能力，采用分布式云存储框架HADOOP进行文件存储管理，数据文件多节点分片存储，支持PB级海量数据文件的高速存储访问和节点动态扩展，解决了传统文件系统大小和容量的限制。

参见图1所示的大数据云计算整体架构图。基于对系统层的设计，本发明将整体架构划分出第一层的数据传输层、第二层的数据存储层、第三层的数据管理层、第四层的计算框架层、以及第六层的服务调度层。此外，还可以设置第七层的辅助工具层(图1中未示出)。各层的设计如下：

数据传输层，通过服务端或者客户端方式，获取多个联机业务系统每日的交易数据文件，同时上传至云存储平台HDFS。实现此功能，有四种方案选择：

1、保留旧有接口不变，仍然采用系统提供的FTP SERVER服务，接收外部联机系统交易数据文件，然后以脚本命令上传文件到云存储平台。

2、采用开源的HDFS-OVER-FTP，此组件把FTP SERVER功能和上传云存储平台功能进行了封装，外部联机系统可以直接ftp put上传交易数据文件到云存储平台，是第一个方案的合并。

3、采用开源的DATA-X，此组件把FTP CLIENT功能和上传云存储平台功能进行了封装，组件主动从外部联机系统Get交易数据文件，然后上传到云存储平台。此方案需要改变现有模式，由被动接收文件变为主动获取，服务方变为客服方。

4、采用自主研发的FTP-TO-HDFS，改造FTP源码，增加数据流不落地，直接上传到云存储平台的功能，和第二个方案的功能相似。

数据存储层，采用主流的开源分布式大数据云存储组件HDFS，支持海量数据的高速存储和访问，并支持热机在线节点的动态扩展和版本升级。

数据管理层，采用主流的开源分布式大数据NoSql数据库组件HBASE和传统的ORACLE组合。HBASE组件为列式数据库，支持数据记录的列和行的无限扩展，提供海量数据的实时高速插入和查询，并支持热机在线节点的动态扩展和版本升级。ORACLE为传统关系数据库，保留为兼容现有必要功能。

计算框架层，采用主流的开源分布式云计算框架MAPREDUCE和SPARK组件。两个组件都是基于主从模式的分布式框架，可以根据系统资源和任务情况，动态开启诸多机器节点的计算能力，多机高效协同处理完成任务。MAPREDUCE为稳定的分布式计算框架，SPARK为趋于内存模式的高效分布式计算框架，为应用程序提供简单高效的多任务并行处理能力，并支持热机在线节点的动态扩展和版本升级。

服务调度层，主要功能为按时间、文件、参数等条件，根据构建的有向无环图的依赖关系，准确高效调起批量作业。实现此功能，有两种方案选择：

1、采用大数据平台主流的作业调度组件OOZIE，提供基于XML的配置项，驱动作业在大数据平台按预设关系顺序运行。

2、采用现有系统自研的调度应用程序，完成作业调度，迁移成本低，技术转换成本低。

辅助工具层，主要包括云计算调度工具YARN和协调管理器ZOOKEEPER。YARN对MAPREDUCE和SPARK的计算资源根据CPU和MEMERY进行动态的调度。ZOOKEEPER协调管理多个主备节点，防止单点故障。

2)应用层：

应用的核心是数据模型，简单的数据模型，面对海量的业务数据和计算场景，即使拥有强大的云计算和云存储能力也不能发挥作用，导致处理性能低下，实效性不能得到满足。数据模型和围绕数据模型的处理流程就为设计关键之重。

分析交易核对场景涉及的对象、业务规则和输出物。业务对象为两个系统和它们产生传送来的当日业务交易数据，业务规则为根据交易的关键字段，互相查找、匹配两个系统的交易记录，核对交易要素是否一致。输出物为两个系统各自独有的单边交易数据，或者两边都有但数据不一致的交易记录。因此，交易核对场景的三个核心关键字：“两个对象”、“互相查找匹配”、“输出异常”。

对此，本发明中数据模型被设计为一张单表(即交易信息核对表)，同时装入核对双方系统的交易数据(即两个对象)，主键采用业务规定的关键字段拼接(即互相查找匹配)。此外，本发明中交易信息核对表的“系统标记”字段只有一个取值“1”，“记录压缩文件”字段存放当前系统交易数据压缩后的ZIP包。而围绕数据模型的处理流程即本发明的交易核对方案，后续将详细描述。

继续参见图1所示的大数据云计算整体架构图。基于对应用层的涉及，本发明继续将整体架构划分出第五层的应用服务层，该层的设计如下：

应用服务层，采用JAVA开发的业务应用程序，调用分布式计算框架，访问云存储文件和云数据库文件的作业程序等。在发明中为数据文件加载的MAPREDUCE作业和异常交易输出的SPARK作业，满足现有和未来业务功能。

参见图2所示的方法流程图，本发明实施例提供一种交易核对方法，该方法应用于应用服务层，包括如下步骤：

S10，获取已配置的交易信息核对表，交易信息核对表中的多列分别对应主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件。

本发明实施例中，对于核对双方系统的关键字段配置交易信息核对表，该交易信息核对表中被配置为五列，五列的字段依次为主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件。其中，主键采用业务规定的关键字段拼接，第一系统标记和第一记录压缩文件是作为核对一方的第一系统的系统标记和记录压缩文件，第二系统标记和第二记录压缩文件是作为核对另一方的第二系统的系统标记和记录压缩文件，第一系统标记和第二系统标记的取值为“1”，第一记录压缩文件和第二记录压缩文件则是相应系统下某条交易记录压缩后的ZIP包。

参见图3所示的交易信息核对表的配置示意图。其中“SEQUNCE”表示序号、“NAME”表示名称、“TYPE”表示类型、“NULLABLE”表示取值是否可以为空，“COMMENTS”表示备注。以序号0为例来说明，表中该条记录是对第一列“主键”的配置，主键的名称是“ROWKEY”、类型为“byte”、长度为“100”字节、取值可以为空。

参见图4所示的主键的数据结构配置示例。业务规定的关键字段被配置为“流水号”、“卡号”、“金额”、“终端号”和“交易码”，就此主键的数据结构为“ROWKEY＝流水号+卡号+金额+终端号+交易码”，即主键为“流水号”、“卡号”、“金额”、“终端号”和“交易码”这几个关键字段的拼接结构。以序号0为例来说明，表中该条记录是对“流水号”的配置，流水号的名称是“TZFREN”、类型为“byte”、长度为“12”字节、取值不可以为空。

S20，加载第一系统的第一交易数据，将第一交易数据插入交易信息核对表中，第一交易数据的第一交易记录与交易信息核对表的第一核对记录一一对应，第一核对记录被插入相应第一交易记录的主键、第一系统标记和第一记录压缩文件。

本发明实施例中，就第一系统的交易数据(即第一交易数据)，逐条加载其交易记录，每条交易记录被插入交易信息核对表中即产生一条核对记录(即第一核对记录)。第一核对记录中被插入相应交易记录对应的主键、第一系统标记和第一记录压缩文件，继续以图4所示的主键为例，则第一核对记录中所插入的主键为该条交易记录中“流水号”、“卡号”、“金额”、“终端号”和“交易码”这几个关键字段的交易要素的拼接结果，第一核对记录中所插入的第一系统标记为“1”、第一核对记录中所插入的“第一记录压缩文件”为该条交易记录压缩后的ZIP包。

具体实现过程中，在对核对双方系统的交易数据加载时，可以直接使用MapReduce分布式计算框架，每读取一条交易记录，即从大量字段中解析出需要的少数几个关键字段的交易要素，拼接为主键，然后压缩整条交易记录为ZIP包插入交易信息核对表中，由此产生一条核对记录，相应的系统标记赋值为“1”。

由此，本发明实施例步骤S20“加载第一系统的第一交易数据，将第一交易数据插入交易信息核对表中”可以采用如下步骤：

生成多个第一加载作业，多个第一加载作业分布式并行处理以实现：

多任务分块读取第一交易数据；对于当前在第一交易数据中读取到的目标第一交易记录，解析目标第一交易记录的关键字段拼接为主键；设置目标第一交易记录的第一系统标记；通过对目标第一交易记录进行压缩得到第一记录压缩文件；在交易信息核对表中为目标第一交易记录分配相应的目标第一核对记录，将目标第一交易记录的主键、第一系统标记和第一记录压缩文件插入目标第一核对记录中。

参见图5所示的全流程作业示意图。第一系统为A系统、第二系统为B系统，对于整个交易核对流程的处理，交易核对系统提交三个批量作业，包括两个批量的加载作业和一个批量的导出作业。具体的，在A-B交易核对场景开始后，A系统的批量加载作业，即A作业完成A系统的交易数据加载；进而，B系统的批量加载作业，即B作业完成B系统的交易数据加载；最后，批量的导出作业，即C作业完成A系统和B系统异常文件输出。

参见图6所示的A作业分布式并行处理流程图。继续以第一系统为A系统来说明，在加载A系统的交易数据插入交易信息核对表中的过程中，生成批量的A作业，批量的A作业分布式并行处理以实现：

多任务分块读取A系统的交易数据；对于当前读取到的一条交易记录，解析其关键字段，将关键字段的交易要素拼接为主键；对该条交易记录的A系统标记赋值为“1”；压缩该条交易记录得到ZIP格式数据包；为该条交易记录分配一条核对记录，将该条交易记录的主键、A系统标记和ZIP格式数据包插入该条核对记录中。

也就是说，一个A作业对应一个任务，而该任务则对应A系统的交易数据的一个分块，该分块由多条交易记录组成，因此一个A作业需要依次读取相应分块下的多条交易记录，对于A作业当前读取到的交易记录，则将该交易记录的主键、A系统标记和ZIP格式数据包插入一条核对记录中。

S30，加载第二系统的第二交易数据，将第二交易数据插入交易信息核对表中，第二交易数据的第二交易记录与交易信息核对表的第二核对记录一一对应，第二核对记录被插入相应第二交易记录的主键、第二系统标记和第二记录压缩文件，主键相同的一组第一核对记录和第二核对记录被归并为一条核对记录。

本发明实施例中，就第二系统的交易数据(即第二交易数据)，逐条加载其交易记录，每条交易记录被插入交易信息核对表中即产生一条核对记录(即第二核对记录)。第二核对记录中被插入相应交易记录对应的主键、第二系统标记和第二记录压缩文件，继续以图4所示的主键为例，则第二核对记录中所插入的主键为该条交易记录中“流水号”、“卡号”、“金额”、“终端号”和“交易码”这几个关键字段的交易要素的拼接结果，第二核对记录中所插入的第二系统标记为“1”、第二核对记录中所插入的“第二记录压缩文件”为该条交易记录压缩后的ZIP包。而对于已在交易核对表中插入的第一核对记录，将主键相同的一条第一核对记录和一条第二核对记录进行归并，即归并后的核对记录被插入主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件。

由此，本发明实施例步骤S30“加载第二系统的第二交易数据，将第二交易数据插入交易信息核对表中”可以采用如下步骤：

生成多个第二加载作业，多个第二加载作业分布式并行处理以实现：

多任务分块读取第二交易数据；对于当前在第二交易数据中读取到的目标第二交易记录，解析目标第二交易记录的关键字段拼接为主键；设置目标第二交易记录的第二系统标记；通过对目标第二交易记录进行压缩得到第二记录压缩文件；在交易信息核对表中为目标第二交易记录分配目标第二核对记录，将目标第二交易记录的主键、第二系统标记和第二记录压缩文件插入目标第二核对记录中。

如图5所示，第一系统为A系统，第二系统为B系统，由批量的B作业完成B系统的交易数据加载。参见图7所示的B作业分布式并行处理流程图。在加载B系统的交易数据插入交易信息核对表中的过程中，生成批量的B作业，批量的B作业分布式并行处理以实现：

多任务分块读取B系统的交易数据；对于当前读取到的一条交易记录，解析其关键字段，将关键字段的交易要素拼接为主键；对该条交易记录的B系统标记赋值为“1”；压缩该条交易记录得到ZIP格式数据包；为该条交易记录分配一条核对记录，将该条交易记录的主键、B系统标记和ZIP格式数据包插入该条核对记录中。

也就是说，一个B作业对应一个任务，而该任务则对应B系统的交易数据的一个分块，该分块由多条交易记录组成，因此一个B作业需要依次读取相应分块下的多条交易记录，对于B作业当前读取到的交易记录，则将该交易记录的主键、B系统标记和ZIP格式数据包插入一条核对记录中。

此外，在为B系统的交易记录分配核对记录时，需要确定交易核对表是否已有与该条交易记录的主键相同的、为A系统的交易记录所分配的核对记录；如果有，则将B系统的交易记录的B系统标记和ZIP格式数据包插入已有的该条核对记录中；如果没有，则为B系统的交易记录分配一个新的核对记录，进而将B系统的交易记录的主键、B系统标记和ZIP格式数据包插入新分配的该条核对记录中。

S40，根据交易信息核对表中未被归并的核对记录导出异常文件，异常文件中能够指示未被归并的核对记录对应的交易记录。

本发明实施例中，对于同一交易，第一系统和第二系统在相同关键字段下的交易要素相同，此时主键相同，交易信息核对表中相关核对记录会被归并，五个字段都不为空。

反之，如果交易信息核对表中某个核对记录的第一系统标记和第一记录压缩文件不为空、而第二系统标记和第二记录压缩文件为空，则说明第二记录压缩文件所对应的交易记录是第一系统独有的单边交易数据；同理，如果交易信息核对表中某个核对记录的第一系统标记和第一记录压缩文件为空、而第二系统标记和第二记录压缩文件不为空，则说明第二记录压缩文件所对应的交易记录是第二系统独有的单边交易数据。此时需要输出异常文件。

具体实现过程中，交易核对异常文件输出时，可以使用Spark分布式计算框架，并行读取交易信息核对表中的核对记录，每读取一条核对记录，即判定该条核对记录在5个字段下的内容是否都有值。如果是，则表示核对记录正常，交易正常，跳过不处理；反之，如果不是，则表示该笔核对记录异常，读取该条核对记录，对被插入的第一/第二记录压缩文件进行解压操作，恢复出原始的第一/第二交易记录，将被插入的第一/第二系统标记和第一/第二交易记录写入异常文件中。

由此，步骤S30“根据交易信息核对表中未被归并的核对记录导出异常文件”可以采用如下步骤：

生成多个导出作业，多个导出作业分布式并行处理以实现：

多任务读取交易信息核对表；对于当前在交易信息核对表中读取到的目标核对记录，判断目标核对记录中是否同时被插入第一系统标记和第二系统标记；若否，则确定目标核对记录为异常核对记录，解压目标核对记录被插入的第一/第二记录压缩文件，将解压结果和目标核对记录被插入的第一/第二系统标记写入异常文件。

如图5所示，第一系统为A系统、第二系统为B系统，由批量的C作业完成A系统和B系统异常文件输出。参见图8所示的C作业分布式并行处理流程图。在导出异常文件的过程中，生成批量的C作业，批量的C作业分布式并行处理以实现：

多任务读取交易信息核对表；对于当前读取到的一条核对记录，判断其中是否同时被插入A系统标记和B系统标记；如果是，则确定该条核对记录为正常核对记录，并跳过，继续执行读取操作；如果否，则确定该条核对记录为异常核对记录，解压该条核对记录被插入的记录压缩文件(其为A系统的记录压缩文件或者B系统的记录压缩文件)，恢复为原始格式的交易记录(A系统的交易记录或B系统的交易记录)，将该条核对记录被插入的系统标记(A系统标记或B系统标记)和原始格式的交易记录写入异常文件中。

需要说明的是，基于上述步骤S20和S30的描述，异常核对记录中被插入的记录压缩文件和系统标记是同属一个系统的，要么为A系统、要么为B系统。

综上，本发明具有如下优势：

1)云存储迁移：数据存储由原有的小机开放平台操作系统文件管理迁移到大数据云存储平台，数据由单机扩展到多机，避免了单机数据文件的大小限制，完全支持海量业务数据的存储，有效解决了存储瓶颈。

2)云计算迁移：数据计算由原有单节点处理迁移到分布式云计算平台，计算资源由单机扩展到多机并行计算，避免了单节点计算资源的限制，支持动态的计算资源扩展与收缩，有效解决了计算瓶颈。

3)双表合一设计：充分利用NoSql数据库的特性，ROWKEY天然为主键和索引，不需要像传统数据一样，数据加载到数据表后单独再创建主键和索引，数据表列和行的增删改查都统一化简归一为插入增加操作，不需要像传统数据库一样更新行列方式一样，大批量处理缓慢或者引起行迁移。

充分研究和利用以上特性，颠覆传统的双表独立设计的数据模型，使用关键字段拼接为主键的单表装双数设计，数据高效加载的同时，系统自动完成交易记录信息核对，避免了传统数据库加载过程复杂性能缓慢和应用程序手工逐笔查询核对工作的低效执行。独特的模型和精简的流程，处理性能大幅提高。

4)模型精简设计：针对目标为导向的创新性的五字段数据模型设计，只包含必须的关键字段，非实时使用字段进行隐藏，极简的数据模型，使得数据文件的解析字段大幅减少，加载、访问、计算和输出速度大幅提高。

5)数据压缩设计：创新性的全记录数据存储压缩设计，整体数据量大小减少了80％以上，在数据的传输、存储和访问中，只有最小集的有效数据在流动和处理，有效解决了海量数据与生俱来的磁盘性能瓶颈和网络带宽瓶颈，整体性能大幅提高。

6)全新编程框架：全部使用java语言编写的MapReduce作业和Spark批量分布式作业，简单的上百行代码完成相同的功能点，相比传统的C语言过程化程序，程序的代码量大幅减少，同时开发的难度大幅降低。

7)原型验证结果：通过原型实验验证，证明了此传统产品完全可以迁移到大数据云计算平台，并且比小机平台具有更大的开发优势、性能优势和价格优势。

基于上述实施例提供的交易核对方法，本发明实施例则对应提供执行上述交易核对方法的装置，该装置的结构示意图如图9所示，包括：

配置模块10，用于获取已配置的交易信息核对表，交易信息核对表中的多列分别对应主键、第一系统标记、第一记录压缩文件、第二系统标记和第二记录压缩文件；

加载模块20，用于加载第一系统的第一交易数据，将第一交易数据插入交易信息核对表中，第一交易数据的第一交易记录与交易信息核对表的第一核对记录一一对应，第一核对记录被插入相应第一交易记录的主键、第一系统标记和第一记录压缩文件；加载第二系统的第二交易数据，将第二交易数据插入交易信息核对表中，第二交易数据的第二交易记录与交易信息核对表的第二核对记录一一对应，第二核对记录被插入相应第二交易记录的主键、第二系统标记和第二记录压缩文件，主键相同的一组第一核对记录和第二核对记录被归并为一条核对记录；

导出模块30，用于根据交易信息核对表中未被归并的核对记录导出异常文件，异常文件中能够指示未被归并的核对记录对应的交易记录。

可选的，用于加载第一系统的第一交易数据，将第一交易数据插入交易信息核对表中的加载模块20，具体用于：

可选的，用于加载第二系统的第二交易数据，将第二交易数据插入交易信息核对表中的加载模块20，具体用于：

可选的，用于根据交易信息核对表中未被归并的核对记录导出异常文件的导出模块30，具体用于：

生成多个导出作业，多个导出作业分布式并行处理以实现：

需要说明的是，本发明实施例中各模块的细化功能可以参见上述交易核对方法实施例对应公开部分，在此不再赘述。

基于上述实施例提供的交易核对方法，本发明实施例则对应提供一种电子设备，电子设备包括：至少一个存储器和至少一个处理器；存储器存储有程序，处理器调用存储器存储的程序，程序用于实现交易核对方法。

基于上述实施例提供的交易核对方法，本发明实施例则对应提供一种存储介质，存储介质中存储有计算机可执行指令，计算机可执行指令用于交易核对方法。

以上对本发明所提供的一种交易核对方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交易核对方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中，包括：

多任务分块读取所述第一交易数据；

设置所述目标第一交易记录的第一系统标记；

3.根据权利要求1所述的方法，其特征在于，所述加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中，包括：

多任务分块读取所述第二交易数据；

设置所述目标第二交易记录的第二系统标记；

4.根据权利要求1所述的方法，其特征在于，所述根据所述交易信息核对表中未被归并的核对记录导出异常文件，包括：

多任务读取所述交易信息核对表；

5.一种交易核对装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，用于加载第一系统的第一交易数据，将所述第一交易数据插入所述交易信息核对表中的所述加载模块，具体用于：

7.根据权利要求5所述的装置，其特征在于，用于加载第二系统的第二交易数据，将所述第二交易数据插入所述交易信息核对表中的所述加载模块，具体用于：

8.根据权利要求5所述的装置，其特征在于，用于根据所述交易信息核对表中未被归并的核对记录导出异常文件的所述导出模块，具体用于：

9.一种电子设备，其特征在于，所述电子设备包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现权利要求1-4任意一项所述的交易核对方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-4任意一项所述的交易核对方法。