CN116701406A

CN116701406A - 数据比对方法和装置、计算机设备及存储介质

Info

Publication number: CN116701406A
Application number: CN202310838141.XA
Authority: CN
Inventors: 王婧嫣; 邹小华
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-09-05

Abstract

本申请实施例提供了一种数据比对方法和装置、计算机设备及存储介质，属于金融科技技术领域。该方法包括：获取源数据表和目标数据表；根据预设的比对范围分别从源数据表、目标数据表筛选出源数据子表、目标数据子表；对源数据子表和目标数据子表进行数据量比对得到表数据量比对结果；对源数据子表和目标数据子表进行结构比对得到表结构比对结果；对源数据子表和目标数据子表进行字段比对得到表字段比对结果；根据字段比对结果在源数据子表和目标数据子表之间进行差异数据提取得到目标差异数据；根据表数据量比对结果、表结构比对结果、表字段比对结果和目标差异数据构建比对结果表。本申请实施例能够节省金融数据比对人力，提高金融数据对比效率。

Description

数据比对方法和装置、计算机设备及存储介质

技术领域

本申请涉及金融科技(Fintech)技术领域，尤其涉及一种数据比对方法和装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(例如，大数据、云计算或区块链)应用在金融领域。大数据是一种规模大到获取、存储、管理、分析方面大大超出了金融传统数据库软件工具能力范围的数据集合。因此，面对海量的数据，如何实现大数据的高效测试也成为金融行业一个重要难题。

相关技术中，大数据测试过程中涉及到数据比对，而传统数据比对是由人工对表格中所有的数据逐个进行比对，但是随着数据量的增多，人工逐个数据量比对不仅耗费大量的时间，还影响数据测试效率。因此，如何提高数据比对的效率，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种数据比对方法和装置、计算机设备及存储介质，旨在自动对源数据表和目标数据表进行数据比对，并自动生成比对结果展示表，节省了金融数据比对的人力且提高金融数据比对的效率。

为实现上述目的，本申请实施例的第一方面提出了一种数据比对方法，所述方法包括：

获取源数据表和目标数据表；其中，所述目标数据表由根据所述源数据表生成得到；

根据预设的比对范围从所述源数据表筛选出源数据子表，根据所述比对范围从所述目标数据表筛选出目标数据子表；

对所述源数据子表和所述目标数据子表进行数据量比对，得到表数据量比对结果；

对所述源数据子表和所述目标数据子表进行结构比对，得到表结构比对结果；

对所述源数据子表和所述目标数据子表进行字段比对，得到表字段比对结果；

根据所述字段比对结果在所述源数据子表和所述目标数据子表之间进行差异数据提取，得到目标差异数据；

根据所述表数据量比对结果、所述表结构比对结果、所述表字段比对结果和所述目标差异数据构建比对结果表。

在一些实施例，所述对所述源数据子表和所述目标数据子表进行数据量比对，得到表数据量比对结果，包括：

对所述源数据子表进行数据量计算，得到第一数据量；

对所述目标数据子表进行数据量计算，得到第二数据量；

将所述第一数据量和所述第二数据量进行差值计算，得到数据量差值；

将所述数据量差值和预设的差值阈值进行比较，得到所述表数据量比对结果。

在一些实施例，所述对所述源数据子表和所述目标数据子表进行结构比对，得到表结构比对结果，包括：

获取所述源数据子表的源表结构信息；其中，所述源表结构信息包括：第一行数和第一列数；

获取所述目标数据子表的目标表结构信息；其中，所述目标表结构信息包括：第二行数和第二列数；

将所述第一行数和所述第二行数进行比较，将所述第一列数和所述第二列数进行比较，得到所述表结构比对结果。

在一些实施例，所述对所述源数据子表和所述目标数据子表进行字段比对，得到表字段比对结果，包括：

获取所述源数据子表的第一行参考值和第一列名称；所述第一行参考值表征所述源数据子表中每行数据的参考值；

获取所述目标数据子表的第二行参考值和第二列名称；其中，所述第二行参考值表征所述目标数据子表中每行数据的参考值；

将所述第一行参考值和所述第二行参考值进行比较，将所述第一列名称和所述第二列名称进行比较，得到所述表字段比对结果。

在一些实施例，所述目标差异数据包括第一异常数据和第二异常数据；所述表字段比对结果包括：差异行和差异列；所述根据所述字段比对结果在所述源数据子表和所述目标数据子表之间进行差异数据提取，得到目标差异数据，包括：

根据所述差异行和所述差异列构建差异位置信息；

根据所述差异位置信息从所述源数据子表中筛选出所述第一异常数据；

根据所述差异位置信息从所述目标数据子表中筛选出所述第二异常数据。

在一些实施例，所述比对结果表包括：总览结果表和差异详情表；所述根据所述表数据量比对结果、所述表结构比对结果、所述表字段比对结果和所述目标差异数据构建比对结果表，包括：

根据所述表数据量比对结果、所述表结构比对结果和所述表字段比对结果构建所述总览结果表；

根据所述差异位置信息、所述第一异常数据和所述第二异常数据构建所述差异详情表。

在一些实施例，所述获取源数据表和目标数据表，包括：

获取所述源数据表和所述源数据表的源表信息；

根据所述源表信息和预设的表对应关系进行信息查找，得到目标表信息；

根据所述目标表信息对预设的候选数据表进行筛选处理，得到所述目标数据表。

为实现上述目的，本申请实施例的第二方面提出了一种数据比对装置，所述装置包括：

表获取模块，用于获取源数据表和目标数据表；其中，所述目标数据表由根据所述源数据表生成得到；

子表筛选模块，用于根据预设的比对范围从所述源数据表筛选出源数据子表，根据所述比对范围从所述目标数据表筛选出目标数据子表；

数据量比对模块，用于对所述源数据子表和所述目标数据子表进行数据量比对，得到表数据量比对结果；

结构比对模块，用于对所述源数据子表和所述目标数据子表进行结构比对，得到表结构比对结果；

字段比对模块，用于对所述源数据子表和所述目标数据子表进行字段比对，得到表字段比对结果；

数据提取模块，用于根据所述字段比对结果在所述源数据子表和所述目标数据子表之间进行差异数据提取，得到目标差异数据；

结构表构建模块，用于根据所述表数据量比对结果、所述表结构比对结果、所述表字段比对结果和所述目标差异数据构建比对结果表。

为实现上述目的，本申请实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的数据比对方法和装置、计算机设备及存储介质,其通过先对源数据子表和目标数据子表进行数据量比对、结构比对和字段比对，以自动完成两个数据表以各种方式比对，使得两个数据表之间的比对更加全面；同时根据字段比对结果从源数据子表和目标数据子表提取目标差异数据，最后将比对结果和目标差异数据构建成比对结果表，以实现两个数据表自动比对，且用户可以直接通过比对结果表知晓两个数据表之间的比对情况，不仅提高数据比对效率、节省人力，还便于用户查看数据比对结果。因此，实现金融数据表的自动比对，并将金融数据表的比对结果显示出来，以便于金融业务人员根据比对结果调整金融业务程序。

附图说明

图1是本申请实施例提供的数据比对方法的流程图；

图2是图1中的步骤S101的流程图；

图3是图1中的步骤S103的流程图；

图4是图1中的步骤S104的流程图；

图5是图1中的步骤S105的流程图；

图6是图1中的步骤S106的流程图；

图7是图1中的步骤S107的流程图；

图8是本申请实施例提供的数据比对方法的详细流程图；

图9是本申请实施例提供的数据比对装置的结构示意图；

图10是本申请实施例提供的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

大数据测试：大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。数据测试主要关注数据的完整性、准确性和一致性等。

脚本(Script)：脚本是一种纯文本保存的程序，是批处理文件的延伸，一个脚本通常是解释运行而非编译。为缩短传统的“编写、编译、链接、运行”过程而创建的计算机编程语言是脚本语言。脚本语言通常都有简单、易学、易用的特性，目的是希望能让程序员快速完成编写程序。

数据表结构：数据表是由表名、表中的字段和表的记录三个部分组成的。设计数据表结构就是定义数据表文件名，确定数据表包含哪些字段，各字段的字段名、字段类型、及宽度，并将这些数据输入到计算机当中。

表字段：表字段是表中组成记录的一条条独立的信息。可以通过在表“设计”视图的“字段属性”节中设置字段属性，来控制数据的显示、指定默认值及加速搜索和排序。

随着科技和信息时代的发展，大数据成为高科技时代的产物。大数据则是一种规模大到获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度四大特征。例如，在金融行业所产生的海量数据，也需要进行数据测试，面对海量数据，对于测试工具也提出了更高的挑战。

在金融行业大数据的测试过程中，由于会涉及到大量的金融数据，在大数据测试过程中需要对金融数据进行比对以找出差异的数据，通过分析差异的金融数据判断出异常数据。但是传统数据比对主要通过人力逐个分析，所以耗费人力巨大，且金融数据比对效率低下。

基于此，本申请实施例提供了一种数据比对方法和装置、计算机设备及存储介质，通过先对源数据子表和目标数据子表进行数据量比对、结构比对和字段比对，以自动完成两个数据表以各种方式比对，使得两个数据表之间的比对更加全面；同时然后根据字段比对结果从源数据子表和目标数据子表提取目标差异数据，最后将比对结果和目标差异数据构建成比对结果表，以实现两个数据表自动比对，且用户可以直接通过比对结果表知晓两个数据表之间的比对情况，不仅提高数据比对效率、节省人力，还便于用户查看数据比对结果。因此，通过自动比对经过金融业务程序前后的金融数据表，并输出金融数据比对结果，以实现金融数据的自动核对，节省人力，同时金融业务人员可以基于金融数据的比对结果完善金融业务程序。

本申请实施例提供的数据比对方法和装置、计算机设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的数据比对方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的数据比对方法，涉及人工智能和金融科技技术领域。本申请实施例提供的数据比对方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现数据比对方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的数据比对方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S107。

步骤S101，获取源数据表和目标数据表；其中，目标数据表由根据源数据表生成得到；

步骤S102，根据预设的比对范围从源数据表筛选出源数据子表，根据比对范围从目标数据表筛选出目标数据子表；

步骤S103，对源数据子表和目标数据子表进行数据量比对，得到表数据量比对结果；

步骤S104，对源数据子表和目标数据子表进行结构比对，得到表结构比对结果；

步骤S105，对源数据子表和目标数据子表进行字段比对，得到表字段比对结果；

步骤S106，根据字段比对结果在源数据子表和目标数据子表之间进行差异数据提取，得到目标差异数据；

步骤S107，根据表数据量比对结果、表结构比对结果、表字段比对结果和所述目标差异数据构建比对结果表。

本申请实施例所示意的步骤S101至步骤S107，通过获取源数据表和目标数据表，并根据预设的比对范围从源数据表筛选出源数据子表，根据比对范围从目标数据表筛选出目标数据子表，以确定需要进行数据比对的源数据子表和目标数据子表。通过对源数据子表和目标数据子表进行数据量比对得到表数据量比对结果，对源数据子表和目标数据子表进行结构比对得到表结构比对结果，对源数据子表和目标数据子表进行字段比对得到表字段比对结果，所以对源数据子表和目标数据子表进行数据量比对、表结构比对和表字段比对，使得源数据子表和目标数据子表之间的比对更加全面，且全自动比对无需人工干预，节省了人力成本，且提高数据比对效率。最后，根据字段比对结果在源数据子表和目标数据子表之间提取差异数据得到目标差异数据，再根据表数据量比对结果、表结构比对结果、表字段比对结果和目标差异数据生成比对结果表，则测试人员可以直接查看比对结果可以全面地知晓源数据子表和目标数据子表之间比对结果，以确定源数据子表和目标数据子表之间是否存在数据量不同、结构不同、字段不同和具体哪些数据不同。

在一些实施例的步骤S101中，可以根据预设触发事件获取源数据表和目标数据表。也可以通过预设的时间间隔周期采集源数据表和目标数据表，且对源数据表和目标数据表的获取方式不做限制。在本实施例中，所应用领域为保险行业，获取保险软件中的源数据包和目标数据表，且每一源数据表和目标数据表可以包括以下至少一种：客户识别报表、星级计算报表、活动量报表、统计经营报表、G项目报表，且对于源数据表和目标数据表的具体类型不做具体限制。

请参阅图2，在一些实施例中，步骤S101可以包括但不限于包括步骤S201至步骤S203：

步骤S201，获取源数据表和源数据表的源表信息；

步骤S202，根据源表信息和预设的表对应关系进行信息查找，得到目标表信息；

步骤S203，根据目标表信息对预设的候选数据表进行筛选处理，得到目标数据表。

在一些实施例的步骤S201中，通过自动化脚本自动获取源数据表和源数据表的源表信息，源表信息包括源数据表的源表名称、源表类别、源表创建时间。源数据表创建后会直接存储到预设的备份库以进行备份，且源数据表备份后输入至预设的目标业务程序处理后生成候选数据表，且候选数据表存储于预设的候选表库。由于源数据表按照存储时间存储于备份库中，当触发事件生成直接从备份库提取出源数据表和源数据表的源表信息。

具体地，在获取源数据表之前，测试人员通过U哉工具上传比对配置表，通过将比对配置表进行解析得到比对表信息、比对范围和比对项目，以根据比对表信息从备份库中提取源数据表，以确定需要进行比对的源数据表。其中，比对配置表根据测试人员上传确定，且比对配置表可以根据比对需求自定义，以增加比对范围、比对项目选择的灵活性。

在一些实施例的步骤S202中，预设的表对应关系包括源表信息和目标表信息之间的对应关系，则根据源表信息在预设的表对应关系进行信息查找，以确定源表信息对应的目标表信息。其中，源表信息包括：源表名称、源表类别、源表创建时间，若表对象关系存在源表名称一个，则直接通过源表名称即可确定对应的目标表信息；若源表名称存在多个，则根据源表类别和源表创建时间进一步从表对应关系中查找出对应的目标表信息，使得目标表信息获取更加准确。

在一些实施例的步骤S203中，由于候选数据表存储于候选表库中，所以候选表库存储多个候选数据表，则根据目标表信息从多个候选数据表筛选出目标数据表，以确定源数据表对应的目标数据表，且目标数据表也是源数据表经过目标业务程序后得到的数据表。在本实施例中，候选数据表的类型包括以下任意一种：客户识别报表、星级计算报表、活动量报表、统计经营报表、G项目报表，且对于源数据表和目标数据表。若当前数据比对是分析经营统计报表，那么候选数据表为不同时期内的经营统计报表，源数据表也为源经营统计报表，且选出的目标数据表是源经营统计报表经过目标业务程序后的目标经营统计表。

在本申请实施例所示意的步骤S201至步骤S203，通过获取源数据表和源数据表的源表信息，并根据源表信息从预设的表对应关系中查找出源表信息对应的目标表信息，以根据目标表信息对候选数据表进行筛选处理得到目标数据表。因此，通过获取源数据表和源数据表对应的目标数据表，以便于对源数据表和目标数据表进行数据比对，以分析出源数据表经过目标业务程度改变了哪些数据。

在一些实施例的步骤S102中，为了减少源数据表和目标数据表之间数据比对的工作量，以节省数据比对所占用的运行资源。通过比对配置表进行解析得到比对范围，且比对范围表征进行数据比对的选择范围。因此，根据比对范围从源数据表筛选出源数据子表，且源数据子表的数据为源数据表中的部分表数据。根据比对范围在目标数据表筛选出目标数据子表，且目标数据子表中的数据为目标数据表的部分表数据。因此，通过根据比对范围筛选出源数据子表和目标数据子表，减少直接比对源数据表和目标数据表的工作量，既能够保证源数据表和目标数据表比对要求又提高数据比对效率。

例如，若应用的金融场景为保险行业，源数据表为定期寿险金融统计A表，目标数据表为定期寿险金融统计B表，且源数据表包括三个源数据子表，且三个源数据子表分别为定期寿险A1表、定期寿险A2表和定期寿险A3表，目标数据表包括两个目标数据子表，且两个目标数据子表分别为定期寿险B1表和定期寿险B2表，根据比对范围从源数据表筛选出源数据子表为定期寿险A2表，根据比对范围从目标数据表中筛选出目标数据子表为定期寿险B2表。通过根据比对范围筛选出源数据子表和目标数据子表，使得数据比对范围缩小，减少数据比对的工作量。

需要说明的是，根据比对项目确定是否对源数据子表和目标数据子表进行数据量比对、结构比对、字段比对。其中，比对项目包括以下至少一种：数据量比对、结构比对和字段比对。根据比对项目是否对源数据子表和目标数据子表之间进行哪一种比对操作，以得到表数据量比对结果、表结构比对结果和表字段比对结果中的至少一种比对结果，所以生成的比对结果表包括表数据量比对结果、表结构比对结果和表字段比对结果中的至少一种，以便于根据用户需求确定源数据子表和目标数据子表之间的比对操作，提高源数据子表和目标数据子表之间的比对效率。

请参阅图3，在一些实施例中，步骤S103可以包括但不限于包括步骤S301至步骤S304：

步骤S301，对源数据子表进行数据量计算，得到第一数据量；

步骤S302，对目标数据子表进行数据量计算，得到第二数据量；

步骤S303，将第一数据量和第二数据量进行差值计算，得到数据量差值；

步骤S304，将数据量差值和预设的差值阈值进行比较，得到表数据量比对结果。

在一些实施例的步骤S301中，对源数据子表进行数据量计算，也即计算源数据子表的占用内存，以根据源数据子表的占用内存确定第一数据量。

在一些实施例的步骤S302中，对目标数据子表进行数据量计算，也即计算目标数据子表的占用内存，以根据目标数据子表的占用内存确定第二数据量。

在一些实施例的步骤S303中，将第一数据量和第二数据量进行差值计算得到数据量差值，以根据数据量差值确定源数据子表和目标数据子表之间的数据量差异情况。

在一些实施例的步骤S304中，通过将数据量差值和预设的差值阈值进行比较确定表数据量比对结果。其中，预设的差值阈值根据源数据子表和目标数据子表允许的数据量差值确定，表数据量比对结果包括：表数据量异常和表数据量正常；若数据量差值大于预设的差值阈值，则表示源数据子表和目标数据子表之间的数据量差距过大，表数据量比对结果为表数据量异常，则表示源数据表经过目标业务程序后数据量发生改动，表征源数据子表中的数据内容改动过大；若数据量差值小于预设的差值阈值，则表示源数据子表和目标数据子表之间的数据量差距合理，则表数据量比对结果为表数据量正常。

例如，若源数据子表为定期寿险A2表和目标数据子表为定期寿险B2表之间的数据量差值为10KB，预设的差值阈值为5KB，则数据量差值大于差值阈值，则表示表数据量比对结果为表数据量异常。

在本申请实施例所示意的步骤S301至步骤S304，通过对源数据子表计算数据量得到第一数据量，再对目标数据子表计算数据量得到第二数据量，将第一数据量和第二数据量进行差值计算得到数据量差值，以将数据量差值和预设的差值阈值比较，若数据量差值大于差值阈值确定表数据量比对结果为表数据量异常，表征目标数据子表中数据改动内容过大。若数据量差值小于差值阈值则确定表数据量比对结果为表数据量正常。因此，通过比较源数据子表和目标数据子表之间的数据量变化程度，以确定源数据表经过目标业务程序后改动的程度，以初步确定源数据表的改动程度。

请参阅图4，在一些实施例中，步骤S104可以包括但不限于包括步骤S401至步骤S403：

步骤S401，获取源数据子表的源表结构信息；其中，源表结构信息包括：第一行数和第一列数；

步骤S402，获取目标数据子表的目标表结构信息；其中，目标表结构信息包括：第二行数和第二列数；

步骤S403，将第一行数和第二行数进行比较，将第一列数和第二列数进行比较，得到表结构比对结果。

在一些实施例的步骤S401中，完成源数据子表和目标数据子表的数据量比对之后，若比对项目包括结构比对，则获取源数据子表的源表结构信息。源表结构信息包括第一行数和第一列数，且第一行数表示源数据子表中有几行数据，第一列数表示源数据子表中有几列数据，以根据第一行数和第一列数确定源数据子表的表结构。

在一些实施例的步骤S402中，获取源数据子表的源表结构信息之后，获取目标数据子表的目标表结构信息，且目标表结构信息包括第二行数和第二列数，第二行数表示目标数据子表有几行数据，第二列数表示目标数据子表有几列数据，以根据第二行数和第二列数确定目标数据子表的表结构。

在一些实施例的步骤S403中，通过将第一行数和第二行数进行比较，第一列数和第二列数比较，所以仅将四个数值进行比较以确定表结构比对结果，使得表结构比对操作更加快速，无需直接对源数据子表和目标数据子表进行具体数据比对，以实现源数据子表和目标数据子表的逐步比对，能够提高源数据子表和目标数据子表的比对效率。

需要说明的是，若第一行数、第二行数不同和/或第一列数、第二列数不同，则表结构比对结果为表结构异常，若第一行数和第二行数相同，且第一列数和第二列数相同，则表结构比对结果为表结构正常。因此，若表结构比对结果为表结构异常，则可以进一步确定源数据表经过目标业务程序后结构发生改变，也即确定源数据子表是新增、删除行或列，以在数据量发生改变后进一步判断源数据子表是否结构发生变化，以进一步确定源数据子表发生哪些改动。

在本申请实施例所示意的步骤S401至步骤S403，通过获取源数据子表的第一行数和第一列数，再获取目标数据子表的第二行数和第二列数，将第一行数和第二行数进行比较，第一列数和第二列数进行比较；若第一行数、第二行数不同和/或第一列数、第二列数不同，则确定表结构比对结果为表结构异常；反之，若第一行数、第二行数相同且第一列数、第二列数相同，则确定表结构比对结果为表结构正常。因此，通过直接第一行数和第二行数比较，第一列数和第二列数比较确定表结构比对结果，以进一步判断源数据表经过目标业务程序后是否发生表结构改变，以逐步确定源数据表发生哪些改动，而对于数据量都没有改动的源数据子表，则无需进行表结构比对，节省源数据表比对的工作量和占用内存。

请参阅图5，在一些实施例中，步骤S105可以包括但不限于包括步骤S501至步骤S503：

步骤S501，获取源数据子表的第一行参考值和第一列名称；第一行参考值表征源数据子表中每行数据的参考值；

步骤S502，获取目标数据子表的第二行参考值和第二列名称；其中，第二行参考值表征目标数据子表中每行数据的参考值；

步骤S503，将第一行参考值和第二行参考值进行比较，将第一列名称和第二列名称进行比较，得到表字段比对结果。

在一些实施例的步骤S501中，完成源数据子表和目标数据子表之间的表结构比对后，若表结构比对结果为表结构正常，则无需进行源数据子表和目标数据子表的表字段比对，以对于没有发生改动的源数据子表无需浪费资源进一步进行字段比对。若表结构比对结果为表结构异常，则进一步对源数据子表和目标数据子表进行字段比对，以确定哪一个字段的数据发生异常。通过获取源数据子表的第一行参考值和第一列名称，第一行参考值用于串联每一行数据，若改行的数据发生改变则第一行参考值也会发生变化。其中，第一行参考值为K值，根据在源数据子表每一行设置一个K值以串联上该行的数据，且K值表征对应行数据的值。

在一些实施例的步骤S502中，获取源数据子表的第一行参考值和第一列名称后，获取目标数据子表中每一行的第二行参考值，再获取目标数据子表中每一列的第二列名称。第二行参考值串联对应行上的数据，若对应行的数据发生改变对应的第二行参考值也发生改变。其中，第二行参考值为K值，根据目标数据子表每一行设置一个K值以串联上该行的数据，且K值表征对应行数据的值。

在一些实施例的步骤S503中，通过将第一行参考值和第二行参考值进行比较，以进一步确定哪一行的数据发生变化。将第一列名称和第二列名称比较，以确定哪一列的数据发生变化，得到表字段比对结果。其中，根据第一行数和第二行数逐行将第一行参考值和第二行参考值进行比较，再根据第一列数和第二列数逐列将第一列名称和第二列名称进行比较。因此，完成表结构比对后，若源数据子表和目标数据子表的表结构比对结果为表结构异常，进一步对源数据子表和目标数据子表进行字段比对，以确定哪一字段处的数据发生改变，使得源数据子表和目标数据子表比对逐步进行，以逐步确定源数据子表和目标数据子表之间的差异程度。

需要说明的是，若第一行参考值和第二行参考值不同，且第一列名称和第二列名称不同，则确定表字段比对结果为表字段异常；若第一行参考值和第二行参考值相同，且第一列名称和第二列名称相同，则确定表字段比对结果为表字段正常。因此，当表字段比对结果为表字段异常，则可以根据不同第一行参考值和第二行参考值，且不同的第一列名称和第二列名称不同时确定异常位置，以便于找出哪一字段处的数据发生改变。

在本申请实施例所示意的步骤S501至步骤S503，通过获取源数据子表的第一行参考值和第一列名称，再获取目标数据子表的第二行参考值和第二列名称，将第一行参考值和第二行参考值逐个比对，再将第一列名称和第二列名称逐个比对以确定表字段比对结果。因此，当需要进行源数据子表和目标数据子表之间的表字段比对时，通过第一行参考值和第二行参考值比对，第一列名称和第二列名称逐个比对，以能够确定哪一个字段处的数据存在差异，以进一步确定源数据表经过目标业务程序后哪一数据发生改变，以进一步确定那个位置新增、删除或修改数据。同时，对于表结构没有差异的源数据子表和目标数据子表则无需再进行表字段比对，而对于存在表结构异常的源数据子表和目标数据子表才进行字段比对，以实现源数据子表和目标数据子表之间的逐级比对，减少不必要的比对工作量。

请参阅图6，在一些实施例，目标差异数据包括第一异常数据和第二异常数据；表字段比对结果包括：差异行和差异列；步骤S106包括但不限于包括步骤S601至步骤S603：

步骤S601，根据差异行和差异列构建差异位置信息；

步骤S602，根据差异位置信息从源数据子表中筛选出第一异常数据；

步骤S603，根据差异位置信息从目标数据子表中筛选出第二异常数据。

在一些实施例的步骤S601中，表字段比对结果包括：差异行和差异列，通过差异行和差异列可以确定源数据子表和目标数据子表哪一个位置的数据存在差异，所以根据差异行和差异列构建差异位置信息，通过差异位置信息可以知晓源数据子表和目标数据子表哪一位置存在数据差异。因此，对于保险数据为例，通过差异位置信息以确定保险数据表经过目标业务程序后哪个位置的保险数据发生改变，以实现保险数据自动查找数据变动位置。

在一些实施例的步骤S602中，为了确定哪些数据存在差异，根据差异位置信息从源数据子表筛选出第一异常数据，第一异常数据表征源数据子表中存在差异的数据。例如，若差异位置信息为(L3,D2)，则将源数据子表中第三行第二列的数据提取出来作为第一异常数据。

在一些实施例的步骤S603中，从源数据子表筛选出第一异常数据后，根据差异位置信息从目标数据子表中确定对应差异位置，再将差异位置的数据提取出来作为第二异常数据。例如，若差异位置信息为(L3,D2)，则将目标数据子表中第三行第二列的数据提取出来作为第二异常数据。

在本申请实施例所示意的步骤S601至步骤S603，通过根据差异行和差异列确定差异位置信息，以根据差异位置信息知晓对应位置的数据存在差异，所以直接根据差异位置信息从源数据子表的对应位置提取出数据作为第一异常数据，再根据差异位置信息从目标数据子表对应位置提取出数据作为第二异常数据。因此，通过分别提取出存在差异的第一异常数据和第二异常数据，以根据第一异常数据和第二异常数据知晓增添、删除或修改了哪些数据。因此，完成了源数据子表和目标数据子表从大框架到细节的比对操作，以节省数据比对过程损耗的资源和内存，并提高了两个数据子表之间的数据比对效率。

请参阅图7，在一些实施例中，比对结果表包括：总览结果表和差异详情表；步骤S106可以包括但不限于包括步骤S701至步骤S702：

步骤S701，根据表数据量比对结果、表结构比对结果和表字段比对结果生成总览结果表；

步骤S702，根据差异位置信息、第一异常数据和第二异常数据构建差异详情表。

在一些实施例的步骤S701中，通过根据表数据量比对结果、表结构比对结果和表字段比对结果构建总览结果表，也即按照预设的布局规则确定表数据量比对结果、表结构比对结果和表字段比对结果存储在总览结果表的位置。通过生成总览结果表，则测试人员可以直接观看总览结果表知晓源数据子表和目标数据子表的数据量是否一致、结构是否一致、字段是否一致，以便于测试人员根据总览结果表对目标业务程序进行维护。

在一些实施例的步骤S702中，将差异位置信息、第一异常数据和第二异常数据构建成差异详情表，则测试人员根据差异详情表知晓差异位置信息对应的哪些数据存在差异，也即能够知晓源数据子表和目标数据子表具体的差异，例如删除、新增或修改哪些数据。

在本申请实施例所示意的步骤S701至步骤S702，通过根据表数据量比对结果、表结构比对结果和表字段比对结果构建总览结果表，测试人员可以观看总览结果表知晓源数据子表和目标数据子表之间的数据量是否一致、结构是否一致和字段是否一致。同时根据差异位置信息、第一异常数据和第二异常数据构建差异详情表，以便于测试人员根据差异详情表进一步判断哪些数据存在差异，以判断新增、删除或修改了哪些数据。同时，若基于保险行业而言，由于保险行业的数据量巨大，通过自动生成差异详情表，以清楚每一保险报表经过目标业务程序后的数据变动位置、数据修改类型和数据内容，以帮助保险企业修改目标业务程序以改善目标业务程序进行数据处理的质量，稳定保险业务运营，提高客户满意度。

需要说明的是，步骤S101至步骤S107通过比对工具实现，且比对工具根据触发条件执行步骤S101至步骤S107，且触发条件可以为测试人员发送的比对请求或者预设的时间间隔，若根据时间间隔周期执行步骤S101至步骤S107，以实现周期进行源数据表和目标数据表之间的比对。其中，配置定时任务，以根据定时任务定时对源数据表和目标数据表之间进行数据比对，且定时任务的定时为晚间，以不占用白天大数据测试调用源数据表，保证源数据表测试又能够完成源数据表和目标数据表的比对任务。

请参照图8，本申请实施例识别比对场景，然后构建源数据表并将源数据表进行备份，再通过自动化脚本自动获取源数据表和源数据表的源表信息，根据源表信息从预设的表对应关系中查找出源表信息对应的目标表信息，以根据目标表信息对候选数据表进行筛选处理得到目标数据表。通过U哉上传比对配置表，将比对配置表进行解析得到比对范围，根据比对范围从源数据表筛选出源数据子表，根据比对范围在目标数据表筛选出目标数据子表。对源数据子表计算数据量得到第一数据量，再对目标数据子表计算数据量得到第二数据量，将第一数据量和第二数据量进行差值计算得到数据量差值，以将数据量差值和预设的差值阈值比较，若数据量差值大于差值阈值确定表数据量比对结果为表数据量异常，若数据量差值小于差值阈值则确定表数据量比对结果为表数据量正常。获取源数据子表的第一行数和第一列数，再获取目标数据子表的第二行数和第二列数，将第一行数和第二行数进行比较，第一列数和第二列数进行比较；若第一行数、第二行数不同和/或第一列数、第二列数不同，则确定表结构比对结果为表结构异常；反之，若第一行数、第二行数相同且第一列数、第二列数相同，则确定表结构比对结果为表结构正常。获取源数据子表的第一行参考值和第一列名称，再获取目标数据子表的第二行参考值和第二列名称，将第一行参考值和第二行参考值逐个比对，再将第一列名称和第二列名称逐个比对得到差异行和差异列。因此，通过逐级完成源数据子表和目标数据子表的数据量、结构和字段比对，既能够对于没有差异的表不再进行比对，节省数据比对占用的资源和内存，且对于存在差异的数据逐级比对以准确找出差异的数据。然后根据差异行和差异列确定差异位置信息，将源数据子表中差异位置信息对应位置的数据提取得到第一异常数据，再将目标数据子表中差异位置信息对应位置的数据提取得到第二异常数据，以根据第一异常数据和第二异常数据知晓增添、删除或修改了哪些数据。根据表数据量比对结果、表结构比对结果和表字段比对结果构建总览结果表，同时根据差异位置信息、第一异常数据和第二异常数据构建差异详情表。因此，测试人员可以通过总览结果表和差异详情表知晓数据量是否一致、结构是否一致、字段是否一致，并确定源数据子表和目标数据子表增加、删除和修改了哪些数据。

需要说明的是，经过本申请的数据比对方法，以在保险应用领域为例说明，取得了明显数据比对效率提升的成果。对于传统保险软件中5亿数据需要一个小时才能够完成比对结果，通过本申请的数据比对方法，仅需要29分钟即可完成数据对此，同时输出差异详情表帮助保险软件的测试人员识别目标业务程序的错误和精准判断，使得回归效率提升了200％。因此，通过本申请自动化数据比对方法，降低保险数据测试工作量，提高报表数据比对效率，有助于改善保险业务程序进行保险数据处理质量，稳定保险业务运营，提高客户对于保险业务的满意度。

请参阅图9，本申请实施例还提供一种数据比对装置，可以实现上述数据比对方法，该装置包括：

表获取模块901，用于获取源数据表和目标数据表；其中，目标数据表由根据源数据表生成得到；

子表筛选模块902，用于根据预设的比对范围从源数据表筛选出源数据子表，根据比对范围从目标数据表筛选出目标数据子表；

数据量比对模块903，用于对源数据子表和目标数据子表进行数据量比对，得到表数据量比对结果；

结构比对模块904，用于对源数据子表和目标数据子表进行结构比对，得到表结构比对结果；

字段比对模块905，用于对源数据子表和目标数据子表进行字段比对，得到表字段比对结果；

数据提取模块906，用于根据字段比对结果在源数据子表和目标数据子表之间进行差异数据提取，得到目标差异数据；

结构表构建模块907，用于根据表数据量比对结果、表结构比对结果、表字段比对结果和目标差异数据构建比对结果表。

该数据比对装置的具体实施方式与上述数据比对方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述数据比对方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图10，图10示意了另一实施例的计算机设备的硬件结构，计算机设备包括：

处理器1001，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器1002，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器1002可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本申请实施例的数据比对方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述数据比对方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的数据比对方法和装置、计算机设备及存储介质，其通过根据比对范围从源数据表选出源数据子表，再根据比对范围从目标数据表筛选出目标数据子表，以节省数据比对的工作量且不影响数据比对需求，然后对源数据子表和目标数据子表进行数据量比对、结构比对和字段比对，以实现源数据子表和目标数据子表的逐级比对，既能够准确找出存在数据差异的字段，对于没有差异的源数据子表和目标数据子表则无需再进行比对，节省数据比对的运行资源的占用内存，再根据字段比对结果从源数据子表和目标数据子表之间选出目标差异数据，并根据表数据量比对结果、表结构比对结果和表字段比对结果和目标差异数据构建比对结果表，则测试人员可以直接通过比对结果表知晓源数据子表和目标数据子表之间的差异问题和差异详情。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种数据比对方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述源数据子表和所述目标数据子表进行数据量比对，得到表数据量比对结果，包括：

对所述源数据子表进行数据量计算，得到第一数据量；

对所述目标数据子表进行数据量计算，得到第二数据量；

3.根据权利要求1所述的方法，其特征在于，所述对所述源数据子表和所述目标数据子表进行结构比对，得到表结构比对结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述源数据子表和所述目标数据子表进行字段比对，得到表字段比对结果，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述目标差异数据包括第一异常数据和第二异常数据；所述表字段比对结果包括：差异行和差异列；所述根据所述字段比对结果在所述源数据子表和所述目标数据子表之间进行差异数据提取，得到目标差异数据，包括：

根据所述差异行和所述差异列构建差异位置信息；

6.根据权利要求5所述的方法，其特征在于，所述比对结果表包括：总览结果表和差异详情表；所述根据所述表数据量比对结果、所述表结构比对结果、所述表字段比对结果和所述目标差异数据构建比对结果表，包括：

7.根据权利要求1至4任一项所述的方法，其特征在于，所述获取源数据表和目标数据表，包括：

获取所述源数据表和所述源数据表的源表信息；

8.一种数据比对装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据比对方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据比对方法。