CN112463785B - 一种数据质量监控方法、装置、电子设备及存储介质 - Google Patents

一种数据质量监控方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112463785B
CN112463785B CN202011446513.7A CN202011446513A CN112463785B CN 112463785 B CN112463785 B CN 112463785B CN 202011446513 A CN202011446513 A CN 202011446513A CN 112463785 B CN112463785 B CN 112463785B
Authority
CN
China
Prior art keywords
data
quality monitoring
error
comparison
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011446513.7A
Other languages
English (en)
Other versions
CN112463785A (zh
Inventor
马德民
范铮
曹飞
曲明钰
赵星光
陆智卿
赵振邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Co ltd
Original Assignee
China Life Insurance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Co ltd filed Critical China Life Insurance Co ltd
Priority to CN202011446513.7A priority Critical patent/CN112463785B/zh
Publication of CN112463785A publication Critical patent/CN112463785A/zh
Application granted granted Critical
Publication of CN112463785B publication Critical patent/CN112463785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请中一个或多个实施例提供一种数据质量监控方法、装置、电子设备及存储介质,包括:获取业务数据表;对比业务数据表以确定错误数据表;根据预设时间定期扫描错误数据表以生成数据质量监控报告。本申请采用由宽表的数据和指标表的数据组成的业务数据表进行数据对比的方式,来确定比对结果不一致的错误数据表,定期在集群中自动运行调度并扫描错误数据表,从而生成数据质量监控报告,实现对业务数据表中的海量数据进行数据质量监控的目的,在解决了海量数据质量问题的同时,还能够提升数据对比的效率,在数据量达到一定级别后,依然有足够快的处理速度,对服务器的性能要求较低,满足更广泛的应用场景。

Description

一种数据质量监控方法、装置、电子设备及存储介质
技术领域
本申请中一个或多个实施例涉及数据监控技术领域,尤其涉及一种数据质量监控方法、装置、电子设备及存储介质。
背景技术
现有技术中,实现数据质量监控的方案,主要采用传统关系型数据库方式,例如Oracle和MySql的架构,虽然能够解决海量数据的存储,但在海量数据的质量监控以及汇总方面支持有限,基于传统数据库数据质量监控的架构,倾向于数据存储以及复杂的查询,传统数据库虽然能够搭建集群,但是当数据量达到一定的级别之后,会造成查询和处理速度慢,且对服务器的性能要求过高的问题。
发明内容
有鉴于此,本申请中一个或多个实施例的目的在于提出一种数据质量监控方法、装置、电子设备及存储介质,以解决现有技术存在的上述至少一个问题。
基于上述目的,本申请中一个或多个实施例提供了一种数据质量监控方法,包括:
获取业务数据表;
对比所述业务数据表以确定错误数据表;
根据预设时间定期扫描所述错误数据表以生成数据质量监控报告。
可选的,所述业务数据表,包括:宽表和指标表;所述指标表是利用业务规则对所述宽表进行计算确定的;
所述对比所述业务数据表以确定错误数据表,具体包括:
对比所述宽表中的数据和所述指标表中的数据以确定差异数据;
根据所述差异数据确定所述错误数据表。
可选的,所述差异数据,包括:第一差异数据;
所述对比所述宽表中的数据和所述指标表中的数据以确定差异数据,具体包括:
获取业务等级;
根据所述业务等级分别从所述宽表和所述指标表中获取第一比较字段的基础信息和第二比较字段的基础信息;
比较所述第一比较字段的基础信息和所述第二比较字段的基础信息以确定所述第一差异数据。
可选的,所述差异数据,包括:第二差异数据;
利用标识分别关联所述宽表和所述指标表;
根据所述标识分别从所述宽表和所述指标表中获取第一无逻辑加工数据和第二无逻辑加工数据;
比较所述第一无逻辑加工数据和所述第二无逻辑加工数据以确定所述第二差异数据。
可选的,所述差异数据,包括:第三差异数据;
利用所述业务规则加工所述宽表以获取验证表;
比较所述验证表和所述指标表以确定所述第三差异数据。
可选的,所述根据预设时间定期扫描所述错误数据表以生成数据质量监控报告,具体包括:
根据所述预设时间定期扫描所述错误数据表以确定所述错误数据表中错误数据的数量;
判断所述错误数据的数量是否达到预设阈值;
若是,则生成所述数据质量监控报告。
可选的,所述第一比较字段的基础信息,至少包括:所述第一比较字段的条数和所述第一比较字段的长度;所述第二比较字段的基础信息,至少包括:所述第二比较字段的条数和所述第二比较字段的长度。
基于同一发明构思,本申请中一个或多个实施例还提出了一种数据质量监控装置,包括:
获取模块,被配置为获取业务数据表;
对比模块,被配置为对比所述业务数据表以确定错误数据表;
生成模块,被配置为根据预设时间定期扫描所述错误数据表以生成数据质量监控报告。
基于同一发明构思,本申请中一个或多个实施例还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述的数据质量监控方法。
基于同一发明构思,本申请中一个或多个实施例还提出了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任意一项所述的数据质量监控方法。
从上面所述可以看出,本申请中一个或多个实施例提供的一种数据质量监控方法,包括:获取业务数据表;对比业务数据表以确定错误数据表;根据预设时间定期扫描错误数据表以生成数据质量监控报告。本申请采用由宽表的数据和指标表的数据组成的业务数据表进行数据对比的方式,来确定比对结果不一致的错误数据表,定期在集群中自动运行调度并扫描错误数据表,从而生成数据质量监控报告,实现对业务数据表中的海量数据进行数据质量监控的目的,在解决了海量数据质量问题的同时,还能够提升数据对比的效率,和现有技术不同,本申请提供的方法不倾向于数据存储以及复杂的查询,从而在数据量达到一定级别后,依然有足够快的处理速度,对服务器的性能要求较低,满足更广泛的应用场景。
附图说明
为了更清楚地说明本申请中一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请中一个或多个实施例中一种数据质量监控方法的流程图;
图2为本申请中一个或多个实施例中一种数据质量监控装置的结构示意图;
图3为本申请中一个或多个实施例中一种电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本申请中一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本申请中一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,申请人通过研究发现现有技术中,实现数据质量监控的方案,主要采用传统关系型数据库方式,例如Oracle和MySql的架构,虽然能够解决海量数据的存储,但在海量数据的质量监控以及汇总方面支持有限,基于传统数据库数据质量监控的架构,倾向于数据存储以及复杂的查询,传统数据库虽然能够搭建集群,但是当数据量达到一定的级别之后,会造成查询和处理速度慢,且对服务器的性能要求过高的问题。正因如此,本申请提供的方法采用由宽表的数据和指标表的数据组成的业务数据表进行数据对比的方式,来确定比对结果不一致的错误数据表,定期在集群中自动运行调度并扫描错误数据表,从而生成数据质量监控报告,实现对业务数据表中的海量数据进行数据质量监控的目的,在解决了海量数据质量问题的同时,还能够提升数据对比的效率,和现有技术不同,本申请提供的方法不倾向于数据存储以及复杂的查询,从而在数据量达到一定级别后,依然有足够快的处理速度,对服务器的性能要求较低,满足更广泛的应用场景。
以下,通过具体的实施例进一步详细说明本公开的技术方案。
参考图1,因此本申请中一个或多个实施例提供的一种数据质量监控方法,具体包括以下步骤:
S101:获取业务数据表。
本实施例中,需要获取根据用户信息等信息确定的业务数据表,业务数据表,包括:宽表和指标表,其中,指标表是利用业务规则对宽表进行计算确定的。具体地,可以通过开发的数据迁移MapReduce(也可称为面向大数据并行处理的编程模型)程序分别将HBase(也可称为分布式的、面向列的开源数据库)集群中的宽表的数据和指标表的数据导入到hive(也可称为数据仓库工具)中,HBase也可以利用任意能够存储宽表的数据和指标表的数据的存储数据库替代,Hive也可以利用任意能够对宽表的数据和指标表的数据进行分析的分析数据库替代。
需要说明的是,指标表中的数据来自于宽表,具体地,将宽表中的数据复制并利用不同的业务规则或算法进行计算,从而得到指标表的数据,其中,宽表中的数据通过不同的业务规则或算法可能得到与宽表中原有数据完全一致的数据,并不影响数值;也可能得到经过逻辑加工后的数据,且数值与宽表中原有数据的数值不同的数据;还有可能得到不经过逻辑加工的数据。
S102:对比所述业务数据表以确定错误数据表。
本实施例中,对比业务数据表中的数据从而确定保存差异数据的错误数据表,具体地,对比宽表中的数据和指标表中的数据以确定差异数据,根据得到的差异数据确定错误数据表,上述步骤可以通过编写HQL脚本对比hive中的宽表的数据和指标表的数据。
在一些可选的实施方式中,差异数据,包括:第一差异数据,具体地,对比宽表中的数据和指标表中的数据以确定差异数据,首先获取业务等级,业务等级分为A级业务、B级业务和C级业务,业务等级根据业务重要性进行分类,其中A级业务为重要性最高的业务,优先比对宽表的数据和指标表的数据中的A级业务,根据业务等级从宽表中获取第一比较字段的基础信息,从指标表中获取第二比较字段的基础信息,其中第一比较字段和第二比较字段是宽表的数据和指标表的数据中A级业务对应的比较字段。其中,第一比较字段的基础信息,至少包括:第一比较字段的条数、第一比较字段的类型和第一比较字段的长度;第二比较字段的基础信息,至少包括:第二比较字段的条数、第二比较字段的类型和第二比较字段的长度。在得到第一比较字段的基础信息和第二比较字段的基础信息后,比较第一比较字段的基础信息和第二比较字段的基础信息,第一比较字段的基础信息和第二比较字段的基础信息是在hive中通过把第一比较字段和第二比较字段的逻辑抽象出来进行比较的,通过hive可以直接输出比较结果,因为宽表和指标表中的基础信息相同,所以将两者不一致的数据确定为第一差异数据。
在一些可选的实施方式中,差异数据,包括:第二差异数据,具体地,对比宽表中的数据和指标表中的数据以确定差异数据,具体地,利用标识分别关联宽表和指标表,例如利用Rowkey(也可称为行键)或主键对宽表和指标表进行关联。然后根据标识从宽表中获取第一无逻辑加工数据,从指标表中获取第二无逻辑加工数据,如果利用Rowkey对宽表和指标表进行关联,则通过识别宽表中的行标识以及指标表中的行标识来获取第一无逻辑加工数据和第二无逻辑加工数据,例如在宽表中通过第一行来获取第一无逻辑加工数据,则需要在指标表中通过第一行来获取第二无逻辑加工数据,;如果利用主键对宽表和指标表进行关联,因为主键主要起到标识作用,则可以直接利用不同的主键依次标记宽表中的所有无逻辑加工数据,并用与宽表中对应的主键依次标记指标表中的所有无逻辑加工数据,通过读取相同的主键标记,分别从宽表和指标表中获取第一无逻辑加工数据和第二无逻辑加工数据;之后,通过比较第一无逻辑加工数据和第二无逻辑加工数据,例如,利用hive通过把第一无逻辑加工数据和第二无逻辑加工数据的逻辑抽象出来进行比较,由于宽表和指标表中的无逻辑加工数据在数值上相同,所以将两者不一致的数据确定为第二差异数据。
在一些可选的实施方式中,差异数据,包括:第三差异数据,具体地,对比宽表中的数据和指标表中的数据以确定差异数据,具体地,利用业务规则加工宽表以获取验证表,其中,业务规则可以理解为具体数据项的加工逻辑,例如A指标是有B指标+C指标运算得出的;指标表中的数据是通过复制宽表中的数据,并对其进行逻辑加工得到的,但是通过数据传输等流程后,指标表中的数据可能发生了变化,例如数据丢失,所以需要利用相同的业务规则,对宽表中的数据进行逻辑加工,从而得到验证表,验证表中的数据是对宽表中的数据进行逻辑加工后的理论值;然后比较验证表和指标表,通过比对验证表中的数据与指标表中的数据,例如,利用hive将验证表中的数据与指标表中的数据的逻辑抽象出来进行比较,找到二者不一致的数据,将该数据确定为第三差异数据。
可以理解的是,逻辑加工可以包括:结构化语言、制定表和制定树等。
需要说明的是,将第一差异数据、第二差异数据和第三差异数据存为错误数据表,其中,错误数据表可以在hive中建立。
S103:根据预设时间定期扫描所述错误数据表以生成数据质量监控报告。
本实施例中,根据预定时间定期对错误数据表进行扫描,并根据扫描结果生成数据质量监控报告,具体地,根据预设时间定期扫描错误数据表以确定错误数据表中错误数据的数量,例如,预设时间为一天或一周;可以通过Oozie调度管理定期对错误数据表进行扫描,判断错误数据的数量是否达到预设阈值,例如预设阈值可以为100;如果错误数据的数量到达了预设阈值,则生成数据质量监控报告,其中数据质量监控报告可以根据错误数据的数量达到预设阈值的时间对数据质量进行分级,达到预设阈值越慢的数据的数据质量越高。
可以理解的是,当数据质量监控报告生成后,可以通过邮件的方式通知处理人员对错误数据进行处理。
从上面所述可以看出,本申请中一个或多个实施例提供的一种数据质量监控方法,包括:获取业务数据表;对比业务数据表以确定错误数据表;根据预设时间定期扫描错误数据表以生成数据质量监控报告。本申请采用由宽表的数据和指标表的数据组成的业务数据表进行数据对比的方式,来确定比对结果不一致的错误数据表,定期在集群中自动运行调度并扫描错误数据表,从而生成数据质量监控报告,实现对业务数据表中的海量数据进行数据质量监控的目的,在解决了海量数据质量问题的同时,还能够提升数据对比的效率,和现有技术不同,本申请提供的方法不倾向于数据存储以及复杂的查询,从而在数据量达到一定级别后,依然有足够快的处理速度,对服务器的性能要求较低,满足更广泛的应用场景。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,本申请中一个或多个实施例还提出了一种数据质量监控装置,参考图2,所述数据质量监控装置包括:
获取模块,被配置为获取业务数据表;
对比模块,被配置为对比所述业务数据表以确定错误数据表;
生成模块,被配置为根据预设时间定期扫描所述错误数据表以生成数据质量监控报告。
在一些可选的实施方式中,所述业务数据表,包括:宽表和指标表;所述指标表是利用业务规则对所述宽表进行计算确定;
所述对比所述业务数据表以确定错误数据表,具体包括:
对比所述宽表中的数据和所述指标表中的数据以确定差异数据;
根据所述差异数据确定所述错误数据表。
在一些可选的实施方式中,所述差异数据,包括:第一差异数据;
所述对比所述宽表中的数据和所述指标表中的数据以确定差异数据,具体包括:
获取业务等级;
根据所述业务等级分别从所述宽表和所述指标表中获取第一比较字段的基础信息和第二比较字段的基础信息;
比较所述第一比较字段的基础信息和所述第二比较字段的基础信息以确定所述第一差异数据。
在一些可选的实施方式中,所述差异数据,包括:第二差异数据;
利用标识分别关联所述宽表和所述指标表;
根据所述标识分别从所述宽表和所述指标表中获取第一无逻辑加工数据和第二无逻辑加工数据;
比较所述第一无逻辑加工数据和所述第二无逻辑加工数据以确定所述第二差异数据。
在一些可选的实施方式中,所述差异数据,包括:第三差异数据;
利用所述业务规则加工所述宽表以获取验证表;
比较所述验证表和所述指标表以确定所述第三差异数据。
在一些可选的实施方式中,所述根据预设时间定期扫描所述错误数据表以生成数据质量监控报告,具体包括:
根据所述预设时间定期扫描所述错误数据表以确定所述错误数据表中错误数据的数量;
判断所述错误数据的数量是否达到预设阈值;
若是,则生成所述数据质量监控报告。
在一些可选的实施方式中,所述第一比较字段的基础信息,至少包括:所述第一比较字段的条数和所述第一比较字段的长度;所述第二比较字段的基础信息,至少包括:所述第二比较字段的条数和所述第二比较字段的长度。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的数据质量监控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的数据质量监控方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器310、存储器320、输入/输出接口330、通信接口340和总线350。其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。
处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口330用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触控屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口340用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线350包括一通路,在设备的各个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器310、存储器320、输入/输出接口330、通信接口340以及总线350,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的数据质量监控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的数据质量监控方法。
本实施例的非暂态计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的数据质量监控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请中一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请中一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请中一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (5)

1.一种数据质量监控方法,其特征在于,包括:
获取业务数据表;
对比所述业务数据表以确定错误数据表;
根据预设时间定期扫描所述错误数据表以生成数据质量监控报告;
所述业务数据表,包括:宽表和指标表;所述指标表是利用业务规则对所述宽表进行计算确定的;
所述对比所述业务数据表以确定错误数据表,具体包括:
对比所述宽表中的数据和所述指标表中的数据以确定差异数据;
根据所述差异数据确定所述错误数据表;
所述根据预设时间定期扫描所述错误数据表以生成数据质量监控报告,具体包括:
根据所述预设时间定期扫描所述错误数据表以确定所述错误数据表中错误数据的数量;
判断所述错误数据的数量是否达到预设阈值;
若是,则生成所述数据质量监控报告;
所述差异数据,包括:第一差异数据;
所述对比所述宽表中的数据和所述指标表中的数据以确定差异数据,具体包括:
获取业务等级;
根据所述业务等级分别从所述宽表和所述指标表中获取第一比较字段的基础信息和第二比较字段的基础信息;
比较所述第一比较字段的基础信息和所述第二比较字段的基础信息以确定所述第一差异数据;
所述差异数据,包括:第二差异数据;
利用标识分别关联所述宽表和所述指标表;
根据所述标识分别从所述宽表和所述指标表中获取第一无逻辑加工数据和第二无逻辑加工数据;
比较所述第一无逻辑加工数据和所述第二无逻辑加工数据以确定所述第二差异数据;
所述差异数据,包括:第三差异数据;
利用所述业务规则加工所述宽表以获取验证表;
比较所述验证表和所述指标表以确定所述第三差异数据。
2.根据权利要求1所述的数据质量监控方法,其特征在于,所述第一比较字段的基础信息,至少包括:所述第一比较字段的条数和所述第一比较字段的长度;所述第二比较字段的基础信息,至少包括:所述第二比较字段的条数和所述第二比较字段的长度。
3.一种数据质量监控装置,其特征在于,包括:
获取模块,被配置为获取业务数据表;
对比模块,被配置为对比所述业务数据表以确定错误数据表;
生成模块,被配置为根据预设时间定期扫描所述错误数据表以生成数据质量监控报告;
所述业务数据表,包括:宽表和指标表;所述指标表是利用业务规则对所述宽表进行计算确定的;
所述对比所述业务数据表以确定错误数据表,具体包括:
对比所述宽表中的数据和所述指标表中的数据以确定差异数据;
根据所述差异数据确定所述错误数据表;
所述根据预设时间定期扫描所述错误数据表以生成数据质量监控报告,具体包括:
根据所述预设时间定期扫描所述错误数据表以确定所述错误数据表中错误数据的数量;
判断所述错误数据的数量是否达到预设阈值;
若是,则生成所述数据质量监控报告;
所述差异数据,包括:第一差异数据;
所述对比所述宽表中的数据和所述指标表中的数据以确定差异数据,具体包括:
获取业务等级;
根据所述业务等级分别从所述宽表和所述指标表中获取第一比较字段的基础信息和第二比较字段的基础信息;
比较所述第一比较字段的基础信息和所述第二比较字段的基础信息以确定所述第一差异数据;
所述差异数据,包括:第二差异数据;
利用标识分别关联所述宽表和所述指标表;
根据所述标识分别从所述宽表和所述指标表中获取第一无逻辑加工数据和第二无逻辑加工数据;
比较所述第一无逻辑加工数据和所述第二无逻辑加工数据以确定所述第二差异数据;
所述差异数据,包括:第三差异数据;
利用所述业务规则加工所述宽表以获取验证表;
比较所述验证表和所述指标表以确定所述第三差异数据。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任意一项所述的数据质量监控方法。
5.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至2任意一项所述的数据质量监控方法。
CN202011446513.7A 2020-12-08 2020-12-08 一种数据质量监控方法、装置、电子设备及存储介质 Active CN112463785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011446513.7A CN112463785B (zh) 2020-12-08 2020-12-08 一种数据质量监控方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011446513.7A CN112463785B (zh) 2020-12-08 2020-12-08 一种数据质量监控方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112463785A CN112463785A (zh) 2021-03-09
CN112463785B true CN112463785B (zh) 2024-04-16

Family

ID=74801427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011446513.7A Active CN112463785B (zh) 2020-12-08 2020-12-08 一种数据质量监控方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112463785B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641557B (zh) * 2021-08-30 2024-05-03 平安证券股份有限公司 数据监控处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020551A (ja) * 2008-07-10 2010-01-28 Hitachi Ltd 情報処理システム、情報処理方法、およびプログラム
CN107741903A (zh) * 2017-09-11 2018-02-27 平安科技(深圳)有限公司 应用程序兼容性测试方法、装置、计算机设备和存储介质
CN107885609A (zh) * 2017-11-08 2018-04-06 泰康保险集团股份有限公司 业务冲突处理方法及装置、存储介质和电子设备
CN109377393A (zh) * 2018-10-18 2019-02-22 阳光人寿保险股份有限公司 规则校验方法及装置
CN110704426A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 数据校验方法、电子装置及计算机可读存储介质
CN111367754A (zh) * 2020-02-14 2020-07-03 中国平安人寿保险股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN111428095A (zh) * 2020-06-11 2020-07-17 上海冰鉴信息科技有限公司 图数据质量验证方法及图数据质量验证装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020551A (ja) * 2008-07-10 2010-01-28 Hitachi Ltd 情報処理システム、情報処理方法、およびプログラム
CN107741903A (zh) * 2017-09-11 2018-02-27 平安科技(深圳)有限公司 应用程序兼容性测试方法、装置、计算机设备和存储介质
CN107885609A (zh) * 2017-11-08 2018-04-06 泰康保险集团股份有限公司 业务冲突处理方法及装置、存储介质和电子设备
CN109377393A (zh) * 2018-10-18 2019-02-22 阳光人寿保险股份有限公司 规则校验方法及装置
CN110704426A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 数据校验方法、电子装置及计算机可读存储介质
CN111367754A (zh) * 2020-02-14 2020-07-03 中国平安人寿保险股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN111428095A (zh) * 2020-06-11 2020-07-17 上海冰鉴信息科技有限公司 图数据质量验证方法及图数据质量验证装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A web-based system for supporting global land cover data production;Gang Han 等;《ISPRS Journal of Photogrammetry and Remote Sensing》;第103卷;66-80 *
Location of contaminant emission source in atmosphere based on optimal correlated matching of concentration distribution;Ma, DL 等;《PROCESS SAFETY AND ENVIRONMENTAL PROTECTION》;498-510 *
保险公司风险量化体系建设研究;于忠义;;金融电子化(09);88-89 *
基于分布式结构的企业办公平台设计与实现;佟天明;;办公自动化(215);11-14, 22 *

Also Published As

Publication number Publication date
CN112463785A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
TWI748175B (zh) 資料的處理方法、裝置及設備
US9053386B2 (en) Method and apparatus of identifying similar images
CN106557486A (zh) 一种数据的存储方法和装置
CN108959279B (zh) 数据处理方法、数据处理装置、可读介质及电子设备
TWI709049B (zh) 隨機漫步、基於叢集的隨機漫步方法、裝置以及設備
US10394907B2 (en) Filtering data objects
CN106897342B (zh) 一种数据校验方法和设备
CN112214472B (zh) 气象格点数据的存储及查询方法、装置及存储介质
CN111061758B (zh) 数据存储方法、装置及存储介质
CN110019298B (zh) 数据处理方法和装置
CN112434087B (zh) 一种跨系统数据比对方法、装置、电子设备及存储介质
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN110795464B (zh) 对象标记数据的字段校验方法、装置、终端及存储介质
CN112463785B (zh) 一种数据质量监控方法、装置、电子设备及存储介质
CN107463578B (zh) 应用下载量统计数据去重方法、装置和终端设备
CN110889424B (zh) 向量索引建立方法及装置和向量检索方法及装置
CN110019357B (zh) 数据库查询脚本生成方法及装置
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN111159192B (zh) 基于大数据的数据入库方法、装置、存储介质和处理器
CN112836924B (zh) 一种资源分配审计的方法、装置、电子设备及存储介质
CN108062329B (zh) 一种数据导入方法及装置
CN104915352A (zh) 一种验证MapReduce环境下处理数据正确性的方法和装置
CN113282624B (zh) 规则匹配方法、装置、电子设备及存储介质
CN116881112A (zh) 模拟数据的生成方法、装置、电子设备及存储介质
CN118012938A (zh) 一种数据处理方法、装置及电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant