CN110019566A - 基于数据仓库的数据检查方法、装置、计算机设备和存储介质 - Google Patents

基于数据仓库的数据检查方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110019566A
CN110019566A CN201910188575.3A CN201910188575A CN110019566A CN 110019566 A CN110019566 A CN 110019566A CN 201910188575 A CN201910188575 A CN 201910188575A CN 110019566 A CN110019566 A CN 110019566A
Authority
CN
China
Prior art keywords
data
checked
test
field
field level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910188575.3A
Other languages
English (en)
Inventor
程辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201910188575.3A priority Critical patent/CN110019566A/zh
Publication of CN110019566A publication Critical patent/CN110019566A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2443Stored procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于计算机技术领域的基于数据仓库的数据检查方法、装置、计算机设备和存储介质。所述方法包括:将预设时间段内的生产数据同步至测试环境,得到待检查测数据;对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动;根据所述检查任务对第一字典表进行扫描,将所述待检查测数据存储于对应的数据表中;根据预设敏感字段对所述数据表中的待检查测数据进行敏感处理;通过扫描第二字典表对敏感处理后的待查数据进行边界构造,得到字段级数据;对所述字段级数据进行质量检查,得到有效的测试数据。采用本方法能够提高了数据仓库中数据的检查效率,从而提高了数据仓库的检查效率。

Description

基于数据仓库的数据检查方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于数据仓库的数据检查方法、装置、计算机设备和存储介质。
背景技术
数据仓库是一个面向主题的、集成的、相对稳定的反应历史变化的数据集合,用于支持决策。在数据仓库中存储有大量的历史数据,并定期更新。在进行软件测试的过程中,需要调用数据仓库中的数据,在调用之前,需要对数据仓库中的数据进行检查。在传统方式中,是通过手工对数据仓库中的数据进行检查,由于数据仓库涉及到数据量很大,导致数据检查效率较低。因此,如何提高对数据仓库中的数据检查效率,从而提高数据仓库的检查效率成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据仓库中数据的检查效率,从而提高数据仓库的检查效率的基于数据仓库的数据检查方法、装置、计算机设备和存储介质。
一种基于数据仓库的数据检查方法,所述方法包括:
将预设时间段内的生产数据同步至测试环境,得到待检查测数据;
对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动;
根据所述检查任务对第一字典表进行扫描,将所述待检查测数据存储于对应的数据表中;
根据预设敏感字段对所述数据表中的待检查测数据进行敏感处理;
通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
对所述字段级数据进行质量检查,得到有效的测试数据。
在其中一个实施例中,所述通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据包括:
通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;
根据所述构造因子对所述敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
将所述字段级数据中所有字段的最大长度数据填充于所述数据表中。
在其中一个实施例中,所述对所述字段级数据进行质量检查包括:
通过对第三字典表进行解析,获取预设关键字;
根据所述预设关键字查找所述字段级数据的多个存储过程;
对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将所述依赖关系分析结果存储于相应的结果表中。
在其中一个实施例中,所述对所述字段级数据进行质量检查包括:
在所述字段级数据对应的数据表中,查找数据日期对应的整体数据量以及所述数据日期对应的每个字段的空值数据量;
根据所述数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算所述数据日期对应的每个字段的空值率;
根据数据日期对应的多个字段的空值率得到数据表的空值率。
在其中一个实施例中,所述对所述字段级数据进行质量检查包括:
在所述测试环境中读取测试对象控制表以及检查规则配置表;
根据所述测试对象控制表提取与测试对象对应的字段级数据;
根据所述检查规则配置表中的检查规则对所述测试对象对应的字段级数据进行检查。
一种基于数据仓库的数据检查装置,所述装置包括:
通信模块,用于将预设时间段内的生产数据同步至测试环境,得到待检查测试数据;
监听模块,用于对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动;
构造模块,用于根据所述检查任务对第一字典表进行扫描,将所述待检查测数据存储于对应的数据表中;根据预设敏感字段对所述数据表中的待检查测数据进行敏感处理;通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
检查模块,用于对所述字段级数据进行质量检查,得到有效的测试数据。
在其中一个实施例中,所述构造模块,还用于通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;根据所述构造因子对所述敏感处理后的待检查测试数据进行边界构造,得到字段级数据;将所述字段级数据中所有字段的最大长度数据填充于所述数据表中。
在其中一个实施例中,所述构造模块还用于通过对第三字典表进行解析,获取预设关键字;根据所述预设关键字查找所述字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将所述依赖关系分析结果存储于相应的结果表中。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法实施例中的步骤。
上述基于数据仓库的数据检查方法、装置、计算机设备和存储介质,通过将生产数据同步至测试环境,对待检查测试数据进行敏感处理以及边界构造,并对边界构造后得到的字段级数据进行质量检查,形成集任务自动运行、数据自动构建、数据自动检查为一体的基于数据仓库的数据自动化检查体系,提高了数据仓库中数据的检查效率,从而提高数据仓库的检查效率。
附图说明
图1为一个实施例中基于数据仓库的数据检查方法的应用环境图;
图2为一个实施例中基于数据仓库的数据检查方法的流程示意图;
图3为一个实施例中通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据步骤的流程示意图;
图4为一个实施例中基于数据仓库的数据检查装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于数据仓库的数据检查方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102将生产数据上传至服务器104,服务器104将预设时间段内的生产数据同步至测试环境,得到待检查测试数据。可以将待检查测试数据简称为待查数据。服务器104对生产数据同步过程进行监听,当同步过程完成时,服务器104触发测试任务启动。服务器104根据检查任务对第一字典表进行扫描,将待查数据存储于对应的数据表中。服务器104根据预设敏感字段对该数据表中的待查数据进行敏感处理。服务器104通过扫描第二字典表对敏感处理后的待查数据进行边界构造,得到字段级数据。服务器104对字段级数据进行质量检查,得到有效的测试数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于数据仓库的数据检查方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,将预设时间段内的生产数据同步至测试环境,得到待检查测试数据。
服务器接收终端上传的生产数据,将预设时间段内的生产数据同步至测试环境,得到待检查测试数据。可以将待检查测试数据简称为待查数据。具体地,服务器通过将预设时间段内的生产数据同步至测试环境,将测试环境中的数据进行更新,得到动态变化的数据。其中,预设时间段可以是一个固定的数据日期,例如,11月8日。还可以是一个数据日期区间,例如从11月1日到11月20日。服务器在该数据日期区间内对测试环境中的数据进行每日更新,将更新后的数据存储于相应的数据表中。
步骤204,对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动。
服务器将预设时间段内的生产数据同步至测试环境,得到待查数据后,可对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动。服务器通过检查任务对待查数据进行检查,得到有效的测试数据。
步骤206,根据检查任务对第一字典表进行扫描,将待检查测试数据存储于对应的数据表中。
服务器触发检查任务启动,通过运行脚本,来执行相应任务。测试环境中预先存储有多个字典表,字典表包括第一字典表、第二字典表及第三字典表等。不同的字典表中可以记录不同的信息。例如,第一字典表中记录有所有表中的字段信息,可命名为DBA_TAB_COLUMNS。可以将待检查测试数据简称为待查数据。服务器根据检查任务对第一字典表进行扫描,可以得到该待查数据的存储位置,并将该待查数据存储与对应的数据表中。
步骤208,根据预设敏感字段对数据表中的待检查测试数据进行敏感处理。
服务器在将待查数据存储于对应的数据表后,可根据预设敏感字段对数据表中的待检查测试数据进行敏感处理。其中,预设敏感字段包括字段类型,例如,姓名、身份证号码、手机号码。服务器可以调用自定义的动态SQL(Structured Query Language,结构化查询语言)来对数据表中的相应敏感字段进行敏感处理,自定义的动态SQL可以是替换函数,通过替换函数的替换规则实现敏感处理,可以利用数字、字母、符号等多种字符进行替换。例如,当敏感字段为身份证号码时,原始身份证号码为360521198012255423,可以通过替换函数将原始身份证号码替换为3605210000000000。
步骤210,通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据。
服务器在根据检查任务获取预设敏感字段,利用预设敏感字段对待检查测数据进行敏感处理后,可通过扫描第二字典表对敏感处理后的待查数据进行边界构造,得到字段级数据。可以将待检查测试数据简称为待查数据。具体地,服务器通过扫描第二字典表获取敏感处理后的待查数据对应的构造因子。其中,第二字典表中记录有当前可访问的表的字段信息,例如,第二字典表可以命名为ALL_TAB_COLUMNS。服务器根据构造因子对敏感处理后的待查数据进行边界构造,得到字段级数据。将字段级数据中所有字段的最大长度字段值填充于字段级数据对应的数据表中。
步骤212,对字段级数据进行质量检查,得到有效的测试数据。
服务器在通过扫描字典表对敏感处理后的待查数据进行边界构造,得到字段级数据后,可对字段级数据进行质量检查,得到有效的测试数据。其中,对字段级数据进行质量检查包括依赖关系分析、脚本运行情况检查、表空值率统计以及数据规则配置检查。其中,对依赖关系进行分析可以检查来源表记录数和目标表记录数,从而判断字段级数据的流向是否一致,将流向不一致的测试数据进行记录。对脚本运行情况进行检查可以将造成任务失败的字段级数据进行记录,通过检查目标表的数据量可以验证检查任务是否达到预期目标。通过统计表的字段空值率可以得到字段中测试数据的完整程度,通过与预设空值率进行比较,来判断测试数据数量是否符合质量检查的最低要求。通过检查数据规则配置可以将问题数据进行记录。通过以上检查过程,可以得到有效的测试数据。
在本实施例中,服务器通过将生产数据同步至测试环境,对待查数据进行敏感处理以及边界构造,并对边界构造后得到的字段级数据进行质量检查,形成集任务自动运行、数据自动构建、数据自动检查为一体的基于数据仓库的数据自动化检查体系,提高了数据仓库中数据的检查效率,从而提高数据仓库的检查效率。
在一个实施例中,该方法还包括:通过扫描第二字典表对敏感处理后的待查数据进行边界构造,得到字段级数据的步骤。如图3所示,该步骤具体包括:
步骤302,通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子。
步骤304,根据构造因子对敏感处理后的检查测试数据进行边界构造,得到字段级数据。
步骤306,将字段级数据中所有字段的最大长度数据填充于数据表中。
服务器通过对第二字典表进行扫描,获取敏感数据处理后的待检查测试数据的构造因子。可以将待检查测试数据简称为待查数据。其中,第二字典表中记录有当前可访问的表的字段信息。字段信息包括数据构造因子。数据构造因子包括数据类型、数据长度等。服务器在获取敏感数据处理后的待查数据的构造因子后,可根据构造因子对敏感处理后的待查数据进行边界构造,得到字段级数据。其中,可以使用lpad函数对测试数据进行字段级构造。服务器在得到字段级数据后,可调用自定义的SQL将字段级数据中所有字段的最大长度数据进行填充于数据表中。
在本实施例中,服务器在对字段级数据进行质量检查的过程中,通过构造因子将待查数据进行边界构造,能够得到合理的数据类型以及数据长度,避免程序运行报错。
在一个实施例中,对字段级数据进行质量检查包括:通过对第三字典表进行解析,获取预设关键字;根据预设关键字查找字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将依赖关系分析结果存储于相应的结果表中。
服务器通过对第三字典表进行解析,其中,第三字典表记录有当前用户可访问的函数、存储过程等内容,例如,第三字典表可以命名为ALL_SOURCE。服务器根据关键字进行匹配,将第三字典表中的中的文本源拆分为多个存储过程。其中,存储过程可以定义关键字。该存储过程可以调用多个SQL语句。该存储过程在经过第一次编译后,调用时不需要再次编译,用户可通过指定存储过程的名字以及参数来执行该存储过程。
服务器可以通过正则表达式对每个存储过程进行逐行解析,并通过组装查询语句查找每个存储过程中存在的表,并对表的类型进行记录,得到多个表之间的依赖关系,将依赖关系存储于依赖关系结果表中。其中,表包括来源表以及目标表。来源表为字段级数据的来源,目标表为字段级数据的去向。目标表可以对应一个来源表,也可以对应多个来源表。将目标表与来源表之间存在的血缘关系记录于依赖关系结果表中。用户可通过查询结果表获取多个表之间的依赖关系。
在本实施例中,服务器通过获取预设关键字,根据预设关键字对表之间的依赖关系进行分析,通过查询来源表记录数和目标表记录数,来判断数据仓库中数据的流向是否一致,将流向不一致的无效数据进行记录,实现有效地对数据进行质量检查。
在一个实施例中,对字段级数据进行质量检查包括:在字段级数据对应的数据表中,查找数据日期对应的整体数据量以及数据日期对应的每个字段的空值数据量;根据数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算数据日期对应的每个字段的空值率;根据数据日期对应的多个字段的空值率得到数据表的空值率。
服务器通过判断语句获取数据表的数据日期,其次通过查询语句在数据表中查找数据日期对应的整体数据量以及数据日期对应的每个字段的空值数据量,可以将空值数据量与整体数据量通过除法计算数据日期对应的每个字段的空值率,通过循环计算得到数据表中所有字段的空值率。该空值率统计结果存储在空值率结果表中。可以通过查询空值率结果表获取对应的检查结果。
在本实施例中,服务器根据数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算数据日期对应的每个字段的空值率,进而得到数据表的空值率,当空值率小于等于预设空值率时,说明字段中的测试数据数量满足质量检查的最低要求。当空值率大于预设空值率时,说明字段的记录出现问题,导致测试数据缺失,并将问题字段进行记录。
在一个实施例中,对字段级数据进行质量检查包括:在测试环境中读取测试对象控制表以及检查规则配置表;根据测试对象控制表提取字段级数据中与测试对象对应的数据;根据检查规则配置表中的检查规则对测试对象对应的字段级数据进行检查。
服务器在测试环境中读取测试对象控制表,可以对测试对象进行圈定。其中,测试对象为表。通过圈定测试对象可以提取字段级数据中与测试对象对应的数据。服务器在测试环境中读取版本控制表,根据版本控制表获取预设参数。服务器通过关联规则配置表,根据该规则配置表中的检查规则以及预设参数对字段级数据中该表对应的数据进行质量检查。将检查到的问题数据存储于问题数据表中,将检查结果存储与相应的结果表中。
在本实施例中,服务器根据检查规则配置表中的检查规则对测试对象对应的字段级数据进行检查,可以将问题数据记录在相应的结果表中,比如,重复数据、转码失败的数据,关键字段为空的数据、枚举值范围外的数据、不符合条件的金额等。实现全面检查测试数据的质量。
进一步地,服务器还可以通过解析日志对脚本运行情况进行分析。具体地,服务器通过日志获取脚本运行过程中的任务列表及任务运行情况。服务器根据任务列表统计数据日期的关键信息。其中,关键信息包括数据日期对应的数据格式、数据日期字段以及数据日期对应的数据字段类型。可以通过判断SQL语句来对上述关键信息进行统计。服务器根据数据日期的关键信息统计任务列表中任务对应的目标表的数据量。将目标表的数据量以及任务运行情况存储在运行结果表中。
在本实施例中,服务器通过对脚本运行情况进行分析,可以将造成任务失败的字段级数据进行记录,通过检查目标表的数据量可以验证检查任务是否达到预期目标。能够更好地监控对数据质量检查过程,实现数据检查的全面性。
应该理解的是,虽然图2至3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于数据仓库的数据检查装置,包括:通信模块402、监听模块404、构造模块406及检查模块408,其中:
通信模块402,用于将预设时间段内的生产数据同步至测试环境,得到待检查测试数据。
监听模块404,用于对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动。
构造模块406,用于根据检查任务对第一字典表进行扫描,将待检查测试数据存储于对应的数据表中;利用预设敏感字段对待检查测试数据进行敏感处理;通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据。
检查模块408,用于对字段级数据进行质量检查,得到有效的测试数据。
在一个实施例中,上述构造模块406,还用于通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;根据构造因子对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;将字段级数据中所有字段的最大长度数据填充于数据表中。
在一个实施例中,上述构造模块406还用于通过对第三字典表进行解析,获取预设关键字;根据预设关键字查找字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将依赖关系分析结果存储于相应的结果表中。
在一个实施例中,上述构造模块406还用于在字段级数据对应的数据表中,查找数据日期对应的整体数据量以及数据日期对应的每个字段的空值数据量;根据数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算数据日期对应的每个字段的空值率;根据数据日期对应的多个字段的空值率得到数据表的空值率。
在一个实施例中,上述构造模块406还用于在测试环境中读取测试对象控制表以及检查规则配置表;根据测试对象控制表提取与测试对象对应的字段级数据;根据检查规则配置表中的检查规则对测试对象对应的字段级数据进行检查。
关于基于数据仓库的数据检查装置的具体限定可以参见上文中对于基于数据仓库的数据检查方法的限定,在此不再赘述。上述基于数据仓库的数据检查装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据仓库的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据仓库的数据检查方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将预设时间段内的生产数据同步至测试环境,得到待查数据;
对生产数据同步过程进行监听,当同步过程完成时,触发检查任务运行;
根据检查任务第一字典表进行扫描,将待检查测试数据存储于对应的数据表中;
根据预设敏感字段对待检查测试数据进行敏感处理;
通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
对字段级数据进行质量检查,得到有效的测试数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;根据构造因子对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;将字段级数据中所有字段的最大长度数据填充于数据表中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过对第三字典表进行解析,获取预设关键字;根据预设关键字查找字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将依赖关系分析结果存储于相应的结果表中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在字段级数据对应的数据表中,查找数据日期对应的整体数据量以及数据日期对应的每个字段的空值数据量;根据数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算数据日期对应的每个字段的空值率;根据数据日期对应的多个字段的空值率得到数据表的空值率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在测试环境中读取测试对象控制表以及检查规则配置表;根据测试对象控制表提取与测试对象对应的字段级数据;根据检查规则配置表中的检查规则对测试对象对应的字段级数据进行检查。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将预设时间段内的生产数据同步至测试环境,得到待检查测试数据;
对生产数据同步过程进行监听,当同步过程完成时,触发检查任务运行;
根据检查任务第一字典表进行扫描,将待检查测试数据存储于对应的数据表中;
根据预设敏感字段对待查数据进行敏感处理;
通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
对字段级数据进行质量检查,得到有效的测试数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;根据构造因子对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;将字段级数据中所有字段的最大长度数据填充于数据表中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过对第三字典表进行解析,获取预设关键字;根据预设关键字查找字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将依赖关系分析结果存储于相应的结果表中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在字段级数据对应的数据表中,查找数据日期对应的整体数据量以及数据日期对应的每个字段的空值数据量;根据数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算数据日期对应的每个字段的空值率;根据数据日期对应的多个字段的空值率得到数据表的空值率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在测试环境中读取测试对象控制表以及检查规则配置表;根据测试对象控制表提取与测试对象对应的字段级数据;根据检查规则配置表中的检查规则对测试对象对应的字段级数据进行检查。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于数据仓库的数据检查方法,所述方法包括:
将预设时间段内的生产数据同步至测试环境,得到待检查测试数据;
对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动;
根据所述检查任务对第一字典表进行扫描,将所述待检查测数据存储于对应的数据表中;
根据预设敏感字段对所述数据表中的待检查测数据进行敏感处理;
通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
对所述字段级数据进行质量检查,得到有效的测试数据。
2.根据权利要求1所述的方法,其特征在于,所述通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据包括:
通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;
根据所述构造因子对所述敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
将所述字段级数据中所有字段的最大长度数据填充于所述数据表中。
3.根据权利要求1所述的方法,其特征在于,所述对所述字段级数据进行质量检查包括:
通过对第三字典表进行解析,获取预设关键字;
根据所述预设关键字查找所述字段级数据的多个存储过程;
对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将所述依赖关系分析结果存储于相应的结果表中。
4.根据权利要求1所述的方法,其特征在于,所述对所述字段级数据进行质量检查包括:
在所述字段级数据对应的数据表中,查找数据日期对应的整体数据量以及所述数据日期对应的每个字段的空值数据量;
根据所述数据日期对应的整体数据量、数据日期对应的每个字段的空值数据量以及预设关系,计算所述数据日期对应的每个字段的空值率;
根据数据日期对应的多个字段的空值率得到所述数据表的空值率。
5.根据权利要求1所述的方法,其特征在于,所述对所述字段级数据进行质量检查包括:
在所述测试环境中读取测试对象控制表以及检查规则配置表;
根据所述测试对象控制表提取与测试对象对应的字段级数据;
根据所述检查规则配置表中的检查规则对所述测试对象对应的字段级数据进行检查。
6.一种基于数据仓库的数据检查装置,其特征在于,所述装置包括:
通信模块,用于将预设时间段内的生产数据同步至测试环境,得到待检查测试数据;
监听模块,用于对生产数据同步过程进行监听,当同步过程完成时,触发检查任务启动;
构造模块,用于根据所述检查任务对第一字典表进行扫描,将所述待检查测数据存储于对应的数据表中;根据预设敏感字段对所述数据表中的待检查测数据进行敏感处理;通过扫描第二字典表对敏感处理后的待检查测试数据进行边界构造,得到字段级数据;
检查模块,用于对所述字段级数据进行质量检查,得到有效的测试数据。
7.根据权利要求6所述的装置,其特征在于,所述构造模块,还用于通过扫描第二字典表,获取敏感处理后的待检查测试数据对应的构造因子;根据所述构造因子对所述敏感处理后的待检查测试数据进行边界构造,得到字段级数据;将所述字段级数据中所有字段的最大长度数据填充于所述数据表中。
8.根据权利要求6所述的装置,其特征在于,所述构造模块还用于通过对第三字典表进行解析,获取预设关键字;根据所述预设关键字查找所述字段级数据的多个存储过程;对每个存储过程中多个表之间的依赖关系进行分析,得到依赖关系分析结果,将所述依赖关系分析结果存储于相应的结果表中。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN201910188575.3A 2019-03-13 2019-03-13 基于数据仓库的数据检查方法、装置、计算机设备和存储介质 Pending CN110019566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910188575.3A CN110019566A (zh) 2019-03-13 2019-03-13 基于数据仓库的数据检查方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910188575.3A CN110019566A (zh) 2019-03-13 2019-03-13 基于数据仓库的数据检查方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110019566A true CN110019566A (zh) 2019-07-16

Family

ID=67189545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910188575.3A Pending CN110019566A (zh) 2019-03-13 2019-03-13 基于数据仓库的数据检查方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110019566A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647452A (zh) * 2019-08-30 2020-01-03 深圳壹账通智能科技有限公司 测试方法、装置、计算机设备和存储介质
CN110781520A (zh) * 2019-10-30 2020-02-11 上海观安信息技术股份有限公司 一种敏感表群体发现方法及系统
CN110837496A (zh) * 2019-11-08 2020-02-25 浪潮云信息技术有限公司 一种基于动态sql实现的数据质量管理方法及系统
CN111258989A (zh) * 2020-02-14 2020-06-09 腾讯科技(深圳)有限公司 数据库迁移评估方法、装置、存储介质和计算机设备
CN111626662A (zh) * 2020-04-24 2020-09-04 宏图智能物流股份有限公司 一种仓库网络监控信息的提取方法
CN111737244A (zh) * 2020-06-22 2020-10-02 平安医疗健康管理股份有限公司 数据质量检查方法、装置、计算机系统及存储介质
CN112417841A (zh) * 2020-11-20 2021-02-26 浪潮卓数大数据产业发展有限公司 一种数据校验方法
CN112463829A (zh) * 2020-11-20 2021-03-09 中国建设银行股份有限公司 一种数据检查方法、装置、设备及存储介质
CN112486957A (zh) * 2020-12-16 2021-03-12 平安普惠企业管理有限公司 数据库迁移检测方法、装置、设备及存储介质
CN112632169A (zh) * 2020-12-29 2021-04-09 永辉云金科技有限公司 一种金融数据自动上报方法、装置及计算机设备
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN107844515A (zh) * 2017-09-26 2018-03-27 北京安博通科技股份有限公司 数据合规检查方法及装置
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置
CN109308258A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 测试数据的构造方法、装置、计算机设备和存储介质
CN109446493A (zh) * 2018-10-17 2019-03-08 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN107844515A (zh) * 2017-09-26 2018-03-27 北京安博通科技股份有限公司 数据合规检查方法及装置
CN108595563A (zh) * 2018-04-13 2018-09-28 林秀丽 一种数据质量管理方法及装置
CN109308258A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 测试数据的构造方法、装置、计算机设备和存储介质
CN109446493A (zh) * 2018-10-17 2019-03-08 网易(杭州)网络有限公司 数据处理方法、装置、存储介质和电子装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647452B (zh) * 2019-08-30 2023-02-07 深圳壹账通智能科技有限公司 测试方法、装置、计算机设备和存储介质
CN110647452A (zh) * 2019-08-30 2020-01-03 深圳壹账通智能科技有限公司 测试方法、装置、计算机设备和存储介质
CN110781520A (zh) * 2019-10-30 2020-02-11 上海观安信息技术股份有限公司 一种敏感表群体发现方法及系统
CN110837496A (zh) * 2019-11-08 2020-02-25 浪潮云信息技术有限公司 一种基于动态sql实现的数据质量管理方法及系统
CN111258989A (zh) * 2020-02-14 2020-06-09 腾讯科技(深圳)有限公司 数据库迁移评估方法、装置、存储介质和计算机设备
CN111258989B (zh) * 2020-02-14 2023-04-07 腾讯云计算(长沙)有限责任公司 数据库迁移评估方法、装置、存储介质和计算机设备
CN111626662A (zh) * 2020-04-24 2020-09-04 宏图智能物流股份有限公司 一种仓库网络监控信息的提取方法
CN111626662B (zh) * 2020-04-24 2022-06-03 宏图智能物流股份有限公司 一种仓库网络监控信息的提取方法
CN111737244A (zh) * 2020-06-22 2020-10-02 平安医疗健康管理股份有限公司 数据质量检查方法、装置、计算机系统及存储介质
CN112463829A (zh) * 2020-11-20 2021-03-09 中国建设银行股份有限公司 一种数据检查方法、装置、设备及存储介质
CN112417841A (zh) * 2020-11-20 2021-02-26 浪潮卓数大数据产业发展有限公司 一种数据校验方法
CN112417841B (zh) * 2020-11-20 2023-09-05 浪潮卓数大数据产业发展有限公司 一种数据校验方法
CN112486957A (zh) * 2020-12-16 2021-03-12 平安普惠企业管理有限公司 数据库迁移检测方法、装置、设备及存储介质
CN112486957B (zh) * 2020-12-16 2023-08-25 李运涛 数据库迁移检测方法、装置、设备及存储介质
CN112632169A (zh) * 2020-12-29 2021-04-09 永辉云金科技有限公司 一种金融数据自动上报方法、装置及计算机设备
CN112632169B (zh) * 2020-12-29 2023-03-28 永辉云金科技有限公司 一种金融数据自动上报方法、装置及计算机设备
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110019566A (zh) 基于数据仓库的数据检查方法、装置、计算机设备和存储介质
CN108874644B (zh) 数据监控方法、装置、计算机设备及存储介质
CN109474578B (zh) 报文消息校验方法、装置、计算机设备和存储介质
CN110751550B (zh) 对账方法、装置、计算机设备和存储介质
CN110941546A (zh) Web页面用例的自动化测试方法、装置、设备及存储介质
CN108804159B (zh) javascript模块加载方法及其预处理方法、装置和计算机设备
CN110109897A (zh) 数据库脚本生成方法、装置、计算机设备和存储介质
CN109032631B (zh) 应用程序补丁包获取方法、装置、计算机设备及存储介质
CN110851159B (zh) 业务规则更新方法、装置、计算机设备和存储介质
US11809406B2 (en) Event records in a log file
CN113127347A (zh) 一种接口测试方法、装置、设备及可读存储介质
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN109325058B (zh) 规则批量比对方法、装置、计算机设备和存储介质
CN114610635A (zh) 接口测试用例生成方法、装置、计算机设备及存储介质
CN109992506A (zh) 调度测试方法、装置、计算机设备和存储介质
CN110275703B (zh) 键值对数据的赋值方法、装置、计算机设备和存储介质
CN111324375A (zh) 代码管理方法、装置、计算机设备和存储介质
CN113837584B (zh) 业务处理系统和基于业务处理系统的异常数据处理方法
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN113505059A (zh) 页面监控方法、装置、计算机设备及存储介质
CN109492144B (zh) 软件系统的关联关系分析方法、装置和存储介质
CN114090462B (zh) 软件重复缺陷识别方法、装置、计算机设备及存储介质
CN115757172A (zh) 测试执行方法、装置、存储介质及计算机设备
CN109783377A (zh) 测试数据获取方法、工具、计算机设备和存储介质
CN115705297A (zh) 代码调用检测方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination