CN111881128B

CN111881128B - 大数据回归验证方法及大数据回归验证装置

Info

Publication number: CN111881128B
Application number: CN202011031896.1A
Authority: CN
Inventors: 顾凌云; 郭志攀; 王伟; 郑俊红; 谢杰
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-15
Anticipated expiration: 2040-09-27
Also published as: CN111881128A; US11347722B2; US20220100732A1

Abstract

本发明提供的大数据回归验证方法及大数据回归验证装置，首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中，其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道，然后基于数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算，并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较，从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此，无需编写并反复修改结构化查询语言便能够实现数据验证，从而减少验证时间。

Description

大数据回归验证方法及大数据回归验证装置

技术领域

本发明涉及大数据处理技术领域，具体而言，涉及一种大数据回归验证方法及大数据回归验证装置。

背景技术

随着大数据的发展，数据库作为存储数据、共享数据和管理数据的仓库，在数据分析和数据挖掘中扮演着重要的角色。因此，对数据库中的数据进行数据加工的验证以确保数据库中的数据在业务执行逻辑上的正确性是非常重要的。然而现有的对数据库中的数据进行数据加工验证的方法大多是基于人工编写的结构化查询语言（Structured QueryLanguage，SQL）进行的，但是这种验证方法需要反复修改SQL。

发明内容

为了改善上述问题，本发明提供了一种大数据回归验证方法及大数据回归验证装置，能够基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算，并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较，从而实现对业务系统数据库和大数据系统数据库中的数据的验证，无需编写并反复修改结构化查询语言。

本发明实施例的第一方面，提供了一种大数据回归验证方法，应用于计算机设备，所述方法包括：

获取第一数据源信息以及第二数据源信息，将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中；

在所述预设配置文件中添加数据特征信息；

检测是否接收到脚本运行指令，若检测到所述脚本运行指令，运行预设的python自动化脚本，以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道；

根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算，得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件；

判断所述第一结果文件和所述第二结果文件是否一致；

若一致，则判定所述业务系统数据库与所述大数据系统数据库通过数据验证；

若不一致，则提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。

可选地，提取所述第一结果文件和所述第二结果文件之间的差异数据，包括：

获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据；其中，所述第一结果数据和所述第二结果数据分别具有信息标识；

计算具有相同信息标识的第一结果数据和第二结果数据的相似度；

将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据；

根据所述目标结果数据得到所述差异数据。

可选地，根据所述差异数据对所述预设配置文件进行修复，包括：

获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识；

确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点；

在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时，对所述预设配置文件中的数据特征信息进行修改。

若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致，则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表；

在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时，在所述逻辑信息列表中添加第一列表单元；其中，所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全；

在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时，在所述逻辑信息列表中添加第二列表单元；其中，所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。

可选地，在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后，所述方法还包括：

将所述第一结果文件和所述第二结果文件进行打包存储。

本发明实施例的第二方面，提供了一种大数据回归验证装置，应用于计算机设备，所述装置包括：

信息添加模块，用于获取第一数据源信息以及第二数据源信息，将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中；在所述预设配置文件中添加数据特征信息；

通道建立模块，用于检测是否接收到脚本运行指令，若检测到所述脚本运行指令，运行预设的python自动化脚本，以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道；

数据加工模块，用于根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算，得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件；

结果判断模块，用于判断所述第一结果文件和所述第二结果文件是否一致；若一致，则判定所述业务系统数据库与所述大数据系统数据库通过数据验证；若不一致，则提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。

可选地，所述结果判断模块，具体用于：

根据所述目标结果数据得到所述差异数据。

可选地，所述结果判断模块，进一步用于：

可选地，所述结果判断模块，具体用于：

可选地，所述结果判断模块在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后，还用于：

将所述第一结果文件和所述第二结果文件进行打包存储。

本发明实施例提供的大数据回归验证方法及装置，首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中，其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道，然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算，并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较，从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此，无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证，能够减少验证时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种大数据回归验证系统的通信框架示意图。

图2为本发明实施例所提供的一种大数据回归验证方法的流程图。

图3为本发明实施例所提供的一种大数据回归验证装置的模块框图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

请参阅图1，提供了一种大数据回归验证系统100的通信架构示意图，所述大数据回归验证系统100包括计算机设备200、业务系统数据库300以及大数据系统数据库400。进一步地，图2所示的大数据回归验证方法可以应用于图1中的计算机设备200，具体可以包括以下步骤S21-步骤S27所描述的内容。

步骤S21，获取第一数据源信息以及第二数据源信息，将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中。

在本实施例中，第一数据源信息为业务系统（如个人评分系统）的数据源信息，第二数据源信息为大数据系统的数据源信息。数据源信息可以包括URL、用户名、密码和数据库名称等，在此不做限定。

步骤S22，在预设配置文件中添加数据特征信息。

在本实施例中，数据特征信息可以是待验证数据的抽样和统计数据特征，可以包括数据库表名、过滤条件、计算方法（min、max、count等）以及返回结果字段等。

步骤S23，检测是否接收到脚本运行指令，若检测到所述脚本运行指令，运行预设的python自动化脚本，以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道。

可以理解，通过建立第一数据访问通道和第二数据访问通道，能够实现计算机设备200分别与业务系统数据库300以及大数据系统数据库400的通信连接，并且能够使得计算机设备200获取业务系统数据库300和大数据系统数据库400的数据访问权限。

步骤S24，根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算，得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件。

在本实施例中，数据加工计算包括但不限于对所述业务系统数据库和所述大数据系统数据库中的数据的数据查询、数据清晰和数据重构等逻辑层面的加工计算，在此不作限定。

第一结果文件可以为result_business_yyyyMMddHHmmss.data，第二结果文件可以为result_bigdata_yyyyMMddHHmmss.data。

步骤S25，判断所述第一结果文件和所述第二结果文件是否一致；若一致，则转向步骤S26；若不一致，则转向步骤S27。

步骤S26，判定所述业务系统数据库与所述大数据系统数据库通过数据验证。

步骤S27，提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。

可以理解，如果第一结果文件和第二结果文件的比较结果不一致，则表征针对业务系统数据库和大数据系统数据库中的数据的回归验证失败，在这种情况下，需要对预设配置文件进行修复，然后继续对业务系统数据库和大数据系统数据库中的数据进行数据加工计算以实现对数据的回归验证。如此，通过对预设配置文件进行修复方式能够快速地进行多次数据加工计算，无需编写并反复修改结构化查询语言，从而减少回归验证的耗时。

在执行上述步骤S21-步骤S27所描述的内容时，首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中，其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道，然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算，并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较，从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此，无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证，能够减少验证时间。

在一种可替换的实施方式中，步骤S27所描述的提取所述第一结果文件和所述第二结果文件之间的差异数据，具体可以包括以下步骤所描述的内容：获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据；其中，所述第一结果数据和所述第二结果数据分别具有信息标识；计算具有相同信息标识的第一结果数据和第二结果数据的相似度；将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据；根据所述目标结果数据得到所述差异数据。

可以理解，差异数据可以为0、‘’、“”、null等目标结果数据，可以是计算错误的其他值。

在上述基础上，步骤S27所描述的根据所述差异数据对所述预设配置文件进行修复，具体包括：获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识；确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点；在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时，对所述预设配置文件中的数据特征信息进行修改。

可以理解，通过对数据特征信息的修改，能够消除第一结果文件和第二结果文件比对不一致的因素，继续实现对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算和回归验证。

在一个可替换的实施方式中，步骤S27所描述的根据所述差异数据对所述预设配置文件进行修复，还可以通过以下步骤S271-步骤S273所描述的内容实现。

步骤S271，若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致，则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表。

步骤S272，在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时，在所述逻辑信息列表中添加第一列表单元；其中，所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全。

步骤S273，在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时，在所述逻辑信息列表中添加第二列表单元；其中，所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。

可以理解，通过上述步骤S271-步骤S273所描述的内容，能够对逻辑进行列表进行修改，从而实现对数据加工计算的逻辑修复，确保后续进行数据加工计算时获取到的第一结果文件和第二结果文件的一致性。在具体实施时，通过对逻辑进行列表进行修改相较于反复修改SQL能够节省时间，提高回归验证的效率。

可选地，在步骤S26的基础上，若第一结果文件和第二结果文件一致，则可以将第一结果文件和第二结果文件进行打包存储并将“验证通过”的字段写入打包存储得到的文件中。

可以理解，通过上述内容，能够基于第一结果文件和第二结果文件的一致性比较结果自动化执行大数据的回归验证，并缩短回归验证的时间，提高验证的准确率。同时，能够在第一结果文件和第二结果文件不一致时及时进行相关信息的修改并再次进行验证，这样能够提高大数据开发的迭代效率。

基于上述同样的发明构思，请结合参阅图3，提供了一种大数据回归验证装置210，所述装置包括：

信息添加模块211，用于获取第一数据源信息以及第二数据源信息，将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中；在所述预设配置文件中添加数据特征信息；

通道建立模块212，用于检测是否接收到脚本运行指令，若检测到所述脚本运行指令，运行预设的python自动化脚本，以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道；

数据加工模块213，用于根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算，得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件；

结果判断模块214，用于判断所述第一结果文件和所述第二结果文件是否一致；若一致，则判定所述业务系统数据库与所述大数据系统数据库通过数据验证；若不一致，则提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。

可选地，所述结果判断模块214，具体用于：

根据所述目标结果数据得到所述差异数据。

可选地，所述结果判断模块214，进一步用于：

可选地，所述结果判断模块214，具体用于：

可选地，所述结果判断模块214在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后，还用于：

将所述第一结果文件和所述第二结果文件进行打包存储。

综上，本发明提供的大数据回归验证方法及大数据回归验证装置，首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中，其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道，然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算，并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较，从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此，无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证，能够减少验证时间。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大数据回归验证方法，其特征在于，应用于计算机设备，所述方法包括：

在所述预设配置文件中添加数据特征信息；

判断所述第一结果文件和所述第二结果文件是否一致；

若不一致，则提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤；

其中，提取所述第一结果文件和所述第二结果文件之间的差异数据，包括：

根据所述目标结果数据得到所述差异数据。

2.根据权利要求1所述的方法，其特征在于，根据所述差异数据对所述预设配置文件进行修复，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述差异数据对所述预设配置文件进行修复，包括：

4.根据权利要求1所述的方法，其特征在于，在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后，所述方法还包括：

将所述第一结果文件和所述第二结果文件进行打包存储。

5.一种大数据回归验证装置，其特征在于，应用于计算机设备，所述装置包括：

结果判断模块，用于判断所述第一结果文件和所述第二结果文件是否一致；若一致，则判定所述业务系统数据库与所述大数据系统数据库通过数据验证；若不一致，则提取所述第一结果文件和所述第二结果文件之间的差异数据，根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤；

其中，所述结果判断模块，具体用于：

根据所述目标结果数据得到所述差异数据。

6.根据权利要求5所述的装置，其特征在于，所述结果判断模块，进一步用于：

7.根据权利要求5所述的装置，其特征在于，所述结果判断模块，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述结果判断模块在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后，还用于：

将所述第一结果文件和所述第二结果文件进行打包存储。