CN111881128B - 大数据回归验证方法及大数据回归验证装置 - Google Patents
大数据回归验证方法及大数据回归验证装置 Download PDFInfo
- Publication number
- CN111881128B CN111881128B CN202011031896.1A CN202011031896A CN111881128B CN 111881128 B CN111881128 B CN 111881128B CN 202011031896 A CN202011031896 A CN 202011031896A CN 111881128 B CN111881128 B CN 111881128B
- Authority
- CN
- China
- Prior art keywords
- data
- result
- system database
- file
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45504—Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
- G06F9/45508—Runtime interpretation or emulation, e g. emulator loops, bytecode interpretation
- G06F9/45512—Command shells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的大数据回归验证方法及大数据回归验证装置,首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中,其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道,然后基于数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算,并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较,从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此,无需编写并反复修改结构化查询语言便能够实现数据验证,从而减少验证时间。
Description
技术领域
本发明涉及大数据处理技术领域,具体而言,涉及一种大数据回归验证方法及大数据回归验证装置。
背景技术
随着大数据的发展,数据库作为存储数据、共享数据和管理数据的仓库,在数据分析和数据挖掘中扮演着重要的角色。因此,对数据库中的数据进行数据加工的验证以确保数据库中的数据在业务执行逻辑上的正确性是非常重要的。然而现有的对数据库中的数据进行数据加工验证的方法大多是基于人工编写的结构化查询语言(Structured QueryLanguage,SQL)进行的,但是这种验证方法需要反复修改SQL。
发明内容
为了改善上述问题,本发明提供了一种大数据回归验证方法及大数据回归验证装置,能够基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算,并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较,从而实现对业务系统数据库和大数据系统数据库中的数据的验证,无需编写并反复修改结构化查询语言。
本发明实施例的第一方面,提供了一种大数据回归验证方法,应用于计算机设备,所述方法包括:
获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中;
在所述预设配置文件中添加数据特征信息;
检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道;
根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件;
判断所述第一结果文件和所述第二结果文件是否一致;
若一致,则判定所述业务系统数据库与所述大数据系统数据库通过数据验证;
若不一致,则提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。
可选地,提取所述第一结果文件和所述第二结果文件之间的差异数据,包括:
获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;
计算具有相同信息标识的第一结果数据和第二结果数据的相似度;
将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;
根据所述目标结果数据得到所述差异数据。
可选地,根据所述差异数据对所述预设配置文件进行修复,包括:
获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;
确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;
在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
可选地,根据所述差异数据对所述预设配置文件进行修复,包括:
若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表;
在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全;
在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
可选地,在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后,所述方法还包括:
将所述第一结果文件和所述第二结果文件进行打包存储。
本发明实施例的第二方面,提供了一种大数据回归验证装置,应用于计算机设备,所述装置包括:
信息添加模块,用于获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中;在所述预设配置文件中添加数据特征信息;
通道建立模块,用于检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道;
数据加工模块,用于根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件;
结果判断模块,用于判断所述第一结果文件和所述第二结果文件是否一致;若一致,则判定所述业务系统数据库与所述大数据系统数据库通过数据验证;若不一致,则提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。
可选地,所述结果判断模块,具体用于:
获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;
计算具有相同信息标识的第一结果数据和第二结果数据的相似度;
将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;
根据所述目标结果数据得到所述差异数据。
可选地,所述结果判断模块,进一步用于:
获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;
确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;
在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
可选地,所述结果判断模块,具体用于:
若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表;
在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全;
在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
可选地,所述结果判断模块在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后,还用于:
将所述第一结果文件和所述第二结果文件进行打包存储。
本发明实施例提供的大数据回归验证方法及装置,首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中,其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道,然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算,并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较,从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此,无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证,能够减少验证时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种大数据回归验证系统的通信框架示意图。
图2为本发明实施例所提供的一种大数据回归验证方法的流程图。
图3为本发明实施例所提供的一种大数据回归验证装置的模块框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
请参阅图1,提供了一种大数据回归验证系统100的通信架构示意图,所述大数据回归验证系统100包括计算机设备200、业务系统数据库300以及大数据系统数据库400。进一步地,图2所示的大数据回归验证方法可以应用于图1中的计算机设备200,具体可以包括以下步骤S21-步骤S27所描述的内容。
步骤S21,获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中。
在本实施例中,第一数据源信息为业务系统(如个人评分系统)的数据源信息,第二数据源信息为大数据系统的数据源信息。数据源信息可以包括URL、用户名、密码和数据库名称等,在此不做限定。
步骤S22,在预设配置文件中添加数据特征信息。
在本实施例中,数据特征信息可以是待验证数据的抽样和统计数据特征,可以包括数据库表名、过滤条件、计算方法(min、max、count等)以及返回结果字段等。
步骤S23,检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道。
可以理解,通过建立第一数据访问通道和第二数据访问通道,能够实现计算机设备200分别与业务系统数据库300以及大数据系统数据库400的通信连接,并且能够使得计算机设备200获取业务系统数据库300和大数据系统数据库400的数据访问权限。
步骤S24,根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件。
在本实施例中,数据加工计算包括但不限于对所述业务系统数据库和所述大数据系统数据库中的数据的数据查询、数据清晰和数据重构等逻辑层面的加工计算,在此不作限定。
第一结果文件可以为result_business_yyyyMMddHHmmss.data,第二结果文件可以为result_bigdata_yyyyMMddHHmmss.data。
步骤S25,判断所述第一结果文件和所述第二结果文件是否一致;若一致,则转向步骤S26;若不一致,则转向步骤S27。
步骤S26,判定所述业务系统数据库与所述大数据系统数据库通过数据验证。
步骤S27,提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。
可以理解,如果第一结果文件和第二结果文件的比较结果不一致,则表征针对业务系统数据库和大数据系统数据库中的数据的回归验证失败,在这种情况下,需要对预设配置文件进行修复,然后继续对业务系统数据库和大数据系统数据库中的数据进行数据加工计算以实现对数据的回归验证。如此,通过对预设配置文件进行修复方式能够快速地进行多次数据加工计算,无需编写并反复修改结构化查询语言,从而减少回归验证的耗时。
在执行上述步骤S21-步骤S27所描述的内容时,首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中,其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道,然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算,并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较,从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此,无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证,能够减少验证时间。
在一种可替换的实施方式中,步骤S27所描述的提取所述第一结果文件和所述第二结果文件之间的差异数据,具体可以包括以下步骤所描述的内容:获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;计算具有相同信息标识的第一结果数据和第二结果数据的相似度;将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;根据所述目标结果数据得到所述差异数据。
可以理解,差异数据可以为0、‘’、“”、null等目标结果数据,可以是计算错误的其他值。
在上述基础上,步骤S27所描述的根据所述差异数据对所述预设配置文件进行修复,具体包括:获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
可以理解,通过对数据特征信息的修改,能够消除第一结果文件和第二结果文件比对不一致的因素,继续实现对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算和回归验证。
在一个可替换的实施方式中,步骤S27所描述的根据所述差异数据对所述预设配置文件进行修复,还可以通过以下步骤S271-步骤S273所描述的内容实现。
步骤S271,若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表。
步骤S272,在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全。
步骤S273,在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
可以理解,通过上述步骤S271-步骤S273所描述的内容,能够对逻辑进行列表进行修改,从而实现对数据加工计算的逻辑修复,确保后续进行数据加工计算时获取到的第一结果文件和第二结果文件的一致性。在具体实施时,通过对逻辑进行列表进行修改相较于反复修改SQL能够节省时间,提高回归验证的效率。
可选地,在步骤S26的基础上,若第一结果文件和第二结果文件一致,则可以将第一结果文件和第二结果文件进行打包存储并将“验证通过”的字段写入打包存储得到的文件中。
可以理解,通过上述内容,能够基于第一结果文件和第二结果文件的一致性比较结果自动化执行大数据的回归验证,并缩短回归验证的时间,提高验证的准确率。同时,能够在第一结果文件和第二结果文件不一致时及时进行相关信息的修改并再次进行验证,这样能够提高大数据开发的迭代效率。
基于上述同样的发明构思,请结合参阅图3,提供了一种大数据回归验证装置210,所述装置包括:
信息添加模块211,用于获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中;在所述预设配置文件中添加数据特征信息;
通道建立模块212,用于检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道;
数据加工模块213,用于根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件;
结果判断模块214,用于判断所述第一结果文件和所述第二结果文件是否一致;若一致,则判定所述业务系统数据库与所述大数据系统数据库通过数据验证;若不一致,则提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤。
可选地,所述结果判断模块214,具体用于:
获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;
计算具有相同信息标识的第一结果数据和第二结果数据的相似度;
将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;
根据所述目标结果数据得到所述差异数据。
可选地,所述结果判断模块214,进一步用于:
获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;
确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;
在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
可选地,所述结果判断模块214,具体用于:
若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表;
在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全;
在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
可选地,所述结果判断模块214在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后,还用于:
将所述第一结果文件和所述第二结果文件进行打包存储。
综上,本发明提供的大数据回归验证方法及大数据回归验证装置,首先将第一数据源信息、第二数据源信息以及数据特征信息添加到预设配置文件中,其次在检测到脚本运行指令时运行python自动化脚本以根据第一数据源信息和第二数据源信息建立业务系统数据库的第一数据访问通道以及大数据系统数据库的第二数据访问通道,然后基于添加在预设配置文件中的数据特征信息对业务系统数据库和大数据系统数据进行数据加工计算,并对计算得到的业务系统数据库对应的第一结果文件以及大数据系统数据库对应的第二结果文件进行一致性比较,从而实现对业务系统数据库和大数据系统数据库中的数据的验证。如此,无需编写并反复修改结构化查询语言便能够实现对数据库中的数据的验证,能够减少验证时间。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种大数据回归验证方法,其特征在于,应用于计算机设备,所述方法包括:
获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中;
在所述预设配置文件中添加数据特征信息;
检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道;
根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件;
判断所述第一结果文件和所述第二结果文件是否一致;
若一致,则判定所述业务系统数据库与所述大数据系统数据库通过数据验证;
若不一致,则提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤;
其中,提取所述第一结果文件和所述第二结果文件之间的差异数据,包括:
获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;
计算具有相同信息标识的第一结果数据和第二结果数据的相似度;
将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;
根据所述目标结果数据得到所述差异数据。
2.根据权利要求1所述的方法,其特征在于,根据所述差异数据对所述预设配置文件进行修复,包括:
获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;
确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;
在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
3.根据权利要求1所述的方法,其特征在于,根据所述差异数据对所述预设配置文件进行修复,包括:
若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表;
在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全;
在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
4.根据权利要求1所述的方法,其特征在于,在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后,所述方法还包括:
将所述第一结果文件和所述第二结果文件进行打包存储。
5.一种大数据回归验证装置,其特征在于,应用于计算机设备,所述装置包括:
信息添加模块,用于获取第一数据源信息以及第二数据源信息,将所述第一数据源信息和所述第二数据源信息添加到预设配置文件中;在所述预设配置文件中添加数据特征信息;
通道建立模块,用于检测是否接收到脚本运行指令,若检测到所述脚本运行指令,运行预设的python自动化脚本,以基于所述预设配置文件中的第一数据源信息和第二数据源信息建立与业务系统数据库的第一数据访问通道以及与大数据系统数据库的第二数据访问通道;
数据加工模块,用于根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算,得到与所述业务系统数据库对应的第一结果文件以及与所述大数据系统数据库对应的第二结果文件;
结果判断模块,用于判断所述第一结果文件和所述第二结果文件是否一致;若一致,则判定所述业务系统数据库与所述大数据系统数据库通过数据验证;若不一致,则提取所述第一结果文件和所述第二结果文件之间的差异数据,根据所述差异数据对所述预设配置文件进行修复并返回根据所述数据特征信息分别通过所述第一数据访问通道和所述第二数据访问通道对业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的步骤;
其中,所述结果判断模块,具体用于:
获取所述第一结果文件中的多条第一结果数据以及所述第二结果文件中的多条第二结果数据;其中,所述第一结果数据和所述第二结果数据分别具有信息标识;
计算具有相同信息标识的第一结果数据和第二结果数据的相似度;
将相似度小于设定值的第一结果数据和第二结果数据进行打包得到目标结果数据;
根据所述目标结果数据得到所述差异数据。
6.根据权利要求5所述的装置,其特征在于,所述结果判断模块,进一步用于:
获取所述差异数据中的第一目标结果数据对应的第一结果数据或者第二结果数据的目标信息标识;
确定所述目标信息标识的传递路径并提取所述传递路径中的数据加工逻辑节点;
在确定出所述数据加工逻辑节点对应的指向信息与所述数据特征信息存在关联关系时,对所述预设配置文件中的数据特征信息进行修改。
7.根据权利要求5所述的装置,其特征在于,所述结果判断模块,具体用于:
若所述差异数据表征所述第一结果文件的第一结果数据的数量与所述第二结果文件的第二结果数据的数量不一致,则从所述预设配置文件中获取对所述业务系统数据库和所述大数据系统数据库中的数据进行数据加工计算的逻辑信息列表;
在所述第一结果文件的第一结果数据的数量小于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第一列表单元;其中,所述第一列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行补全;
在所述第一结果文件的第一结果数据的数量大于所述第二结果文件的第二结果数据的数量时,在所述逻辑信息列表中添加第二列表单元;其中,所述第二列表单元中的逻辑信息用于指示所述计算机设备对所述第一结果文件的第一结果数据进行过滤。
8.根据权利要求5所述的装置,其特征在于,所述结果判断模块在判定所述业务系统数据库与所述大数据系统数据库通过数据验证之后,还用于:
将所述第一结果文件和所述第二结果文件进行打包存储。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011031896.1A CN111881128B (zh) | 2020-09-27 | 2020-09-27 | 大数据回归验证方法及大数据回归验证装置 |
US17/388,014 US11347722B2 (en) | 2020-09-27 | 2021-07-29 | Big data regression verification method and big data regression verification apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011031896.1A CN111881128B (zh) | 2020-09-27 | 2020-09-27 | 大数据回归验证方法及大数据回归验证装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881128A CN111881128A (zh) | 2020-11-03 |
CN111881128B true CN111881128B (zh) | 2020-12-15 |
Family
ID=73200008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011031896.1A Active CN111881128B (zh) | 2020-09-27 | 2020-09-27 | 大数据回归验证方法及大数据回归验证装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11347722B2 (zh) |
CN (1) | CN111881128B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10043037B1 (en) * | 2014-09-25 | 2018-08-07 | State Farm Mutual Automobile Insurance Company | Systems and methods for scrubbing confidential data |
CN110008979A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常数据预测方法、装置、电子设备及计算机存储介质 |
CN111062486A (zh) * | 2019-11-27 | 2020-04-24 | 北京国腾联信科技有限公司 | 一种评价数据的特征分布和置信度的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8516504B1 (en) * | 2003-01-28 | 2013-08-20 | Altera Corporation | Method for adding device information by extending an application programming interface |
US9390112B1 (en) * | 2013-11-22 | 2016-07-12 | Groupon, Inc. | Automated dynamic data quality assessment |
-
2020
- 2020-09-27 CN CN202011031896.1A patent/CN111881128B/zh active Active
-
2021
- 2021-07-29 US US17/388,014 patent/US11347722B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10043037B1 (en) * | 2014-09-25 | 2018-08-07 | State Farm Mutual Automobile Insurance Company | Systems and methods for scrubbing confidential data |
CN110008979A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 异常数据预测方法、装置、电子设备及计算机存储介质 |
CN111062486A (zh) * | 2019-11-27 | 2020-04-24 | 北京国腾联信科技有限公司 | 一种评价数据的特征分布和置信度的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111881128A (zh) | 2020-11-03 |
US11347722B2 (en) | 2022-05-31 |
US20220100732A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9442821B2 (en) | System and method to classify automated code inspection services defect output for defect analysis | |
CN109800258B (zh) | 数据文件部署方法、装置、计算机设备及存储介质 | |
CN109871319A (zh) | 项目代码扫描方法、装置、计算机设备及存储介质 | |
CN110764760B (zh) | 用于绘制程序流程图的方法、装置、计算机系统和介质 | |
CN113535773B (zh) | 数据库优化方法、数据库优化装置、电子设备和存储介质 | |
CN114218568B (zh) | 一种应用于云服务的大数据攻击处理方法及系统 | |
CN110780879A (zh) | 一种基于智能编译技术的决策执行方法、装置、设备及介质 | |
US11663113B2 (en) | Real time fault localization using combinatorial test design techniques and test case priority selection | |
CN112783867A (zh) | 为满足实时大数据业务需求的数据库优化方法及云服务器 | |
CN113051171A (zh) | 接口测试方法、装置、设备及存储介质 | |
US10839124B1 (en) | Interactive compilation of software to a hardware language to satisfy formal verification constraints | |
US6853963B1 (en) | Analyzing an extended finite state machine system model | |
CN113032256B (zh) | 自动化测试方法、装置、计算机系统和可读存储介质 | |
CN111522881B (zh) | 业务数据处理方法、装置、服务器及存储介质 | |
CN111881128B (zh) | 大数据回归验证方法及大数据回归验证装置 | |
CN116340172A (zh) | 基于测试场景的数据收集方法、装置及测试用例检测方法 | |
CN117009972A (zh) | 漏洞检测方法、装置、计算机设备和存储介质 | |
CN115033434A (zh) | 一种内核性能理论值计算方法、装置及存储介质 | |
Liu et al. | Drift: Fine-Grained Prediction of the Co-Evolution of Production and Test Code via Machine Learning | |
CN111324757B (zh) | 地图数据的问题处理方法及装置 | |
CN117950671A (zh) | 代码生成方法、装置、电子设备及存储介质 | |
CN114510404A (zh) | 信息处理方法及装置、电子设备和计算机可读存储介质 | |
CN116795700A (zh) | 一种接口程序的异常故障的前置定位方法和装置 | |
CN114490291A (zh) | 信息处理方法及装置、电子设备和计算机可读存储介质 | |
CN118535361A (zh) | 代码处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |