CN108829534B - 数据问题修复方法、装置、计算机设备和存储介质 - Google Patents

数据问题修复方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108829534B
CN108829534B CN201810549737.7A CN201810549737A CN108829534B CN 108829534 B CN108829534 B CN 108829534B CN 201810549737 A CN201810549737 A CN 201810549737A CN 108829534 B CN108829534 B CN 108829534B
Authority
CN
China
Prior art keywords
data
task
data quality
scheduling
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810549737.7A
Other languages
English (en)
Other versions
CN108829534A (zh
Inventor
王小亮
王玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN201810549737.7A priority Critical patent/CN108829534B/zh
Publication of CN108829534A publication Critical patent/CN108829534A/zh
Application granted granted Critical
Publication of CN108829534B publication Critical patent/CN108829534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Abstract

本申请涉及一种数据问题修复方法、装置、计算机设备和存储介质。所述方法包括:在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识;根据该任务标识,从规则集合中选取子规则;使用选取的子规则进行数据校验,得到数据质量实例;统计预设时间段内的数据质量实例,得到数据质量;根据该数据质量对数据问题进行数据修复。采用本方法能够提高查找数据问题的效率,进而提高修复数据问题的效率。

Description

数据问题修复方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据质量监控技术领域,特别是涉及一种数据问题修复方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,存在于互联网上的数据也越来越多,单纯通过人工进行分析,很难分析出这些数据的数据质量,因此需要计算机工具进行辅助分析。传统的数据质量监控,会对报表层的数据进行定时监控,用于分析报表数据。
然而,发明人发现在数据写入报表层时,这些数据相应的调度任务都已经结束了,单纯对报表层进行数据质量监控,在发现数据的问题时只能够重新运行底层的调度任务,这需要花费大量的时间才能找到准确的数据问题。使得通过传统数据质量监控的方法来查找数据问题的时间很长,修复数据问题的效率很低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高修复数据问题的效率的数据问题修复方法、装置、计算机设备和存储介质。
一种数据问题修复方法,该方法包括:
在监测到自动调度平台运行调度任务时,则
确定该调度任务的任务标识;
根据该任务标识,从规则集合中选取子规则;
使用选取的子规则进行数据校验,得到数据质量实例;
统计预设时间段内的数据质量实例,得到数据质量;
根据该数据质量对数据问题进行数据修复。
在其在一个实施例中,该方法还包括:
监测数据仓库中数据表的调度状态;
根据监测到的调度状态识别相应的调度任务;
通过识别出的调度任务,确定该调度任务的任务标识。
在其在一个实施例中,该方法还包括:
监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据;
当监测到该数据接口接收到数据源发送的数据时,则
检测接收到的数据写入数据表后相应的数据表编号;
从该规则集合中选取与该数据表编号相应的子规则。
在其在一个实施例中,该方法还包括:
当监测该自动调度平台再次运行调度任务时,则
重新确认再次运行的调度任务的任务标识;
根据重新确认的任务标识,重新从规则集合中选取子规则;
使用重新选取的子规则进行数据校验,得到数据质量实例。
在其在一个实施例中,该方法还包括:
从该数据质量实例中选取极值;
确定该数据质量实例的组距;
根据该组距和该极值计算出组数;
按照该组数对该数据质量实例进行分组;
从分组后的数据质量实例中获取数据质量。
在其在一个实施例中,该方法还包括:
对数据质量实例进行非对称加密,得到实例密文;
将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;
获取该区块中的实例密文;
将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
在其在一个实施例中,该预设时间段是一天。
一种数据问题修复装置,该装置包括:
标识确定模块,用于在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识;
子规则选取模块,用于根据该任务标识,从规则集合中选取子规则;
数据校验模块,用于使用选取的子规则进行数据校验,得到数据质量实例;
数据质量统计模块,用于统计预设时间段内的数据质量实例,得到数据质量;
数据修复模块,用于根据该数据质量对数据问题进行数据修复。
一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
在监测到自动调度平台运行调度任务时,则
确定该调度任务的任务标识;
根据该任务标识,从规则集合中选取子规则;
使用选取的子规则进行数据校验,得到数据质量实例;
统计预设时间段内的数据质量实例,得到数据质量;
根据该数据质量对数据问题进行数据修复。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
在监测到自动调度平台运行调度任务时,则
确定该调度任务的任务标识;
根据该任务标识,从规则集合中选取子规则;
使用选取的子规则进行数据校验,得到数据质量实例;
统计预设时间段内的数据质量实例,得到数据质量;
根据该数据质量对数据问题进行数据修复。
上述数据问题修复方法、装置、计算机设备和存储介质,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
附图说明
图1为一个实施例中数据问题修复方法的应用场景图;
图2为一个实施例中数据问题修复方法的流程示意图;
图3为一个实施例中数据问题修复方法的步骤的流程示意图;
图4为另一个实施例中数据问题修复方法的流程示意图;
图5为一个实施例中数据问题修复装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据问题修复方法,可以应用于如图1所示的应用环境中。其中,外部数据源110与数据仓库120通过网络进行通信,数据仓库120、数据质量监控模块130与自动调度平台140通过网络或线缆进行通信。在数据质量监控模块130检测到自动调度平台140运行调度任务时,则确认调度任务的任务标识。数据质量监控模块130根据任务标识,从规则集合中选取子规则,使用选取的子规则进行数据校验,得到数据质量实例,统计预设时间段内的数据质量实例,得到数据质量,根据该数据质量对数据问题进行数据修复。
其中,外部数据源110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,数据仓库120、数据质量监控模块130和自动调度平台140可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据问题修复方法,以该方法应用于图1中的数据质量监控模块130为例进行说明,包括以下步骤:
S202,在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识。
其中,自动调度平台是自动运行调度任务的计算机设备或虚拟模块。自动调度平台具体可以是zues分布式工作流调度作业平台。调度任务具体可以是执行时对数据仓库中的数据表进行操作的任务。调度任务可以是hadoop任务、hadoop mapreduce任务、hive任务和shell任务等中的至少一种。监测到自动调度平台运行调度任务,具体可以是数据质量监控模块监测自动调度平台的进程数量,在监测到进程数量变化时,就确定自动调度平台运行调度任务。任务标识是调度任务在自动调度平台的标识。任务标识具体可以用文字、数字和符号等表示。
S204,根据该任务标识,从规则集合中选取子规则。
其中,规则集合是一个或多个子规则构成的整体。子规则是进行数据校验时所遵循的法则。子规则具体可以是字段类型规则和自定义sql(StructuredQuery Language,结构化查询语言)规则,字段类型规则可以包括规则名、字段名、计算方式、配置符、阀值、告警方式和告警接受人标识等中的至少一种,自定义sql规则可以包括规则名、自定义sql、配置符、阀值、告警方式和告警接受人等中的至少一种。具体的,从规则集合中选取子规则,可以是数据质量监控模块根据预设的规则选取策略从规则集合中选取子规则。
在一个实施例中,数据质量监控模块识别任务标识,获取到任务标识相应的子规则标识,根据子规则标识从规则集合中选取子规则,将选取的子规则写入数据校验表中。在对数据表进行数据校验时,从数据校验表中依次选取子规则对数据表进行数据校验,得到数据表的数据质量实例。
S206,使用选取的子规则进行数据校验,得到数据质量实例。
其中,数据校验可以是为保证数据的完整性进行的一种验证操作。数据校验具体可以包括数据特征分析、定量数据的分布分析、对比分析、异常值分析、周期性分析、贡献度分析和相关性分析等中的至少一种。数据质量实例是对数据表进行一次数据校验的结果。数据质量实例具体可以包括表名、实例名、开始时间、结束时间、数据质量和质量详情等中的至少一种。
在一个实施例中,其中一个子规则为指定字段的总和不超过预设值。举例说明,子规则id为123,子规则名为“总和不超过800”,根据“sum”公式计算“amount”字段的总和。当计算出的总和大于800时,得到的数据质量实例显示为红灯。红灯表示数据质量差。
在一个实施例中,其中一个子规则为指定的SQL字段大于预设值。举例说明,子规则id为321,子规则名为“xx大于100”,SQL字段为“select”,当比较出select大于100时,得到的数据质量实例显示为绿灯。绿灯表示数据质量好。
在一个实施例中,数据质量监控模块在接收到前端发送的表级质量查询时,则根据接收到的日期和/或表名和/或责任人标识和/或状态标识进行查询,并将查询到的表名和/或实例名和/或开始时间和/或结束时间和/或数据质量和/或质量详情反馈给前端。
S208,统计预设时间段内的数据质量实例,得到数据质量。
其中,预设时间段是生成数据质量的时间段。数据质量包括数据的准确性、精度、空间分辨率、比例尺、误差和不确定性等中的至少一种。数据质量可以是预设时间段内的数据质量实例的集合。
在一个实施例中,数据质量监控模块使用选取的子规则进行数据校验,在得到数据质量实例后,在得到的数据质量实例中添加时间戳,并按照时间戳排列数据质量实例。数据质量监控模块根据添加的时间戳,将与预设时间段匹配的数据质量实例选取出来,生成数据质量。
S210,根据该数据质量对数据问题进行数据修复。
其中,数据修复是对数据仓库中的问题数据进行修复。数据修复具体可以是删除数据、添加数据、修改数据和覆盖数据等中的至少一种。
在一个实施例中,数据质量监控模块在对数据仓库中的数据进行数据修复后,将修复后的数据导入到mysql报表中。
上述数据问题修复方法中,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
在其在一个实施例中,该方法还包括:监测数据仓库中数据表的调度状态;根据监测到的调度状态识别相应的调度任务;通过识别出的调度任务,确定该调度任务的任务标识。
其中,数据表是数据仓库中存储数据的对象。数据表具体可以由表名、表中的字段和表的记录三个部分组成。调度状态是调度任务调用数据表的状态。调度状态具体可以包括运行状态、就绪状态、阻塞状态、挂起状态、创建状态和终止状态等中的至少一种。具体的,根据监测到的调度状态识别相应的调度任务,可以是数据质量监控模块监测到数据表的调度状态为运行状态或就绪状态时,则识别调用该数据表的调度任务。
在一个实施例中,数据质量监控模块监测到数据表的调度状态为终止状态,且未监测到该数据表存在就绪状态、阻塞状态或挂起状态时,则暂停对该数据表进行监控。
本实施例中,通过监测数据表的调度状态来确定相应的调用任务,从而快速地获取到调度任务的任务标识,这样可以提高获取数据表的数据质量实例的速度,进而提高整个数据质量监控流程的效率。
在其在一个实施例中,该方法还包括:监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据;当监测到该数据接口接收到数据源发送的数据时,则检测接收到的数据写入数据表后相应的数据表编号;从该规则集合中选取与该数据表编号相应的子规则。
其中,数据接口是进行数据传输时访问接口。数据仓库的数据接口具体可以是数据库接口,数据库接口包括ODBC(Open Database Connectivity,开放数据库连接)接口和JDBC(Java DataBase Connectivity,java数据库连接)接口等中的至少一种。外部数据源是与数据仓库进行数据交互的外部计算机设备,外部数据源具体可以是用户终端,也可以是服务器。数据表编号是对数据表的标识。数据表编号可以是数据表的表名。
在一个实施例中,数据质量监控模块监测数据仓库的ODBC接口,在监测到外部数据源通过ODBC接口向t_user_info数据表写入数据时,则根据数据表的表名“t_user_info”从规则集合中选取三个子规则。
本实施例中,通过监测数据仓库的数据接口来获取数据仓库接收到的数据,从而确认被写入数据的数据表,根据数据表的数据表编号选取子规则可以快速地选取子规则,这样可以提高获取数据表的数据质量实例的速度,进而提高整个数据质量监控流程的效率。
在其在一个实施例中,该方法还包括:当监测该自动调度平台再次运行调度任务时,则重新确认再次运行的调度任务的任务标识;根据重新确认的任务标识,重新从规则集合中选取子规则;使用重新选取的子规则进行数据校验,得到数据质量实例。
本实施例中,通过在监测到自动调度平台再次运行调度任务后,重新确认任务标识,并重新选取子规则,可以保证选取的子规则与调度任务相匹配,从而可以保证根据子规则进行的数据校验能够真实反映数据表的数据质量,进而可以保证数据质量的有效性。
在其在一个实施例中,该方法还包括:从该数据质量实例中选取极值;确定该数据质量实例的组距;根据该组距和该极值计算出组数;按照该组数对该数据质量实例进行分组;从分组后的数据质量实例中获取数据质量。
其中,极值是最大值和最小值。数据质量实例的极值具体可以是数据质量实例中参数的最大值和最小值。组距是最大值和最小值之间的距离。数据质量实例的组距具体可以是数据质量实例中参数的最大值和最小值之间的距离。组数是分组的个数。数据质量实例的组数具体可以是数据质量实例的参数的分组个数,(最大值-最小值)/组距=组数。
在一个实施例中,数据质量监控模块从t_user_info数据表和t_admin_info数据表各自的数据质量实例中选取最大值和最小值,在定义组距为5后,计算出各自的组数为3和4。将数据质量实例进行分组,根据分组后的数据质量实例绘制频率分布表和频率分布直方图。
本实施例中,通过根据数据质量实例的极值、组距和组数进行计算,得到数据质量实例相应的数据质量,从而可以从单个数据表的数据质量实例获取到整个数据仓库的数据质量,进而可以根据数据质量解决数据问题。
如图3所示,在其在一个实施例中,该方法还包括:S302,对数据质量实例进行非对称加密,得到实例密文;S304,将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;S306,获取该区块中的实例密文;S308,将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
其中,非对称加密是加密时和解密时使用不同密钥的加密方法。非对称加密具体可以包括RSA algorithm(R·S·A加密算法)、DSA(Digital Signature Algorithm,数字信号运算算法)、背包算法、D-H(Diffie-Hellman密钥交换协议)、ECC(Error CorrectingCode,椭圆曲线加密算法)等中的至少一种。实例密文是数据质量实例根据非对称加密算法进行加密后的密文。将区块中的实例密文进行解密,具体可以是将实例密文按照公钥进行解密。
区块链网络是区块链运行和存在的网络。区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。区块是区块链中存储数据的节点。验证节点是区块链网络中验证写入区块中数据的真实性和将数据写入区块的节点。
在一个实施例中,数据质量监控模块将数据质量实例按照私钥进行非对称加密,得到的实例密文在区块链网络中进行广播。在区块链网络中接收到实例密文的验证节点根据实例密文相应的公钥对实例密文进行解密,在验证解密后的数据质量实例通过后,将在预设时间段内获取到的实例密文写入区块中。在数据质量监控模块对数据质量进行重复审核时,从区块链网络中查找该数据质量相应时间段的区块,并从区块中获取实例密文,根据获取的实例密文对数据质量进行校验。
本实施例中,通过将数据质量实例非对称加密后的实例密文写入区块链网络中,基于区块链中的数据难以被篡改的特性,可以保证数据质量实例的安全性。而在根据数据质量实例生成数据质量之前,从区块中获取实例密文对数据质量实例进行校验,可以基于非对称加密的特性,保证生成数据质量的数据质量实例是真实的,进一步保证了数据质量的有效性和安全性。
在其在一个实施例中,该预设时间段是一天。
在一个实施例中,数据质量监控模块根据一周内生成数据质量的频率分布表对预设时间段进行动态调整,将预设时间段分配为9:00-15:00、15:00-21:00、21:00-9:00(第二天)。
本实施例中,通过设置预设时间段为一天,可以更加细分地、明确地根据根据数据质量实例生成数据质量,以及可以控制写入区块中实例密文的数量,从而保证数据质量的有效性,进而使得根据数据质量对数据问题进行数据修复的效率提高。
如图4所示,在其在一个实施例中,还提供了一种数据问题修复方法,
S402,监测数据仓库中数据表的调度状态。
S404,根据监测到的调度状态识别相应的调度任务。
S406,通过识别出的调度任务,确定该调度任务的任务标识。
S408,根据该任务标识,从规则集合中选取子规则。
S410,监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据。
S412,当监测到该数据接口接收到数据时,则检测接收到的数据写入的数据表相应的数据表编号。
S414,从该规则集合中选取与该数据表编号相应的子规则。
在步骤S408或S414之后,执行步骤S416。
S416,使用选取的子规则进行数据校验,得到数据质量实例。
在步骤S416之后,执行步骤S418或S426。
S418,对数据质量实例进行非对称加密,得到实例密文。
S420,将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中。
S422,获取该区块中的实例密文。
S424,将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
S426,从该数据质量实例中选取极值。
S428,确定该数据质量实例的组距。
S430,根据该组距和该极值计算出组数。
S432,按照该组数对该数据质量实例进行分组。
S434,从分组后的数据质量实例中获取数据质量。
S436,根据该数据质量进行数据修复。
上述数据问题修复方法,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据问题修复装置500,包括:标识确定模块502、子规则选取模块504、数据校验模块506、数据质量统计模块508和数据修复模块510,其中:标识确定模块502,用于在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识;子规则选取模块504,用于根据该任务标识,从规则集合中选取子规则;数据校验模块506,用于使用选取的子规则进行数据校验,得到数据质量实例;数据质量统计模块508,用于统计预设时间段内的数据质量实例,得到数据质量;数据修复模块510,用于根据该数据质量对数据问题进行数据修复。
上述数据问题修复装置500,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
在其中一个实施例中,该装置还包括:状态监测模块,用于监测数据仓库中数据表的调度状态;任务识别模块,用于根据监测到的调度状态识别相应的调度任务;该标识确定模块502,还用于通过识别出的调度任务,确定该调度任务的任务标识。
在一个实施例中,该装置还包括:接口监测模块,用于监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据;编号检测模块,用于当监测到该数据接口接收到数据源发送的数据时,则检测接收到的数据写入数据表后相应的数据表编号;该子规则选取模块504,还用于从该规则集合中选取与该数据表编号相应的子规则。
在一个实施例中,该标识确定模块502,还用于当监测该自动调度平台再次运行调度任务时,则重新确认再次运行的调度任务的任务标识;该子规则选取模块504,还用于根据重新确认的任务标识,重新从规则集合中选取子规则;该数据校验模块506,还用于使用重新选取的子规则进行数据校验,得到数据质量实例。
在一个实施例中,该装置还包括:极值选取模块,用于从该数据质量实例中选取极值;组距确定模块,用于确定该数据质量实例的组距;组数计算模块,用于根据该组距和该极值计算出组数;分组模块,用于按照该组数对该数据质量实例进行分组;该数据质量统计模块508,还用于从分组后的数据质量实例中获取数据质量。
在一个实施例中,该装置还包括:加密模块,用于对数据质量实例进行非对称加密,得到实例密文;广播模块,用于将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;密文获取模块,用于获取该区块中的实例密文;解密模块,用于将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
在其在一个实施例中,该预设时间段是一天。
关于数据问题修复装置的具体限定可以参见上文中对于数据问题修复方法的限定,在此不再赘述。上述数据问题修复装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储子规则、任务标识、数据表编号和数据质量等数据中的至少一种。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据问题修复方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识;根据该任务标识,从规则集合中选取子规则;使用选取的子规则进行数据校验,得到数据质量实例;统计预设时间段内的数据质量实例,得到数据质量;根据该数据质量对数据问题进行数据修复。
上述计算机设备,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:监测数据仓库中数据表的调度状态;根据监测到的调度状态识别相应的调度任务;通过识别出的调度任务,确定该调度任务的任务标识。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据;当监测到该数据接口接收到数据源发送的数据时,则检测接收到的数据写入数据表后相应的数据表编号;从该规则集合中选取与该数据表编号相应的子规则。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当监测该自动调度平台再次运行调度任务时,则重新确认再次运行的调度任务的任务标识;根据重新确认的任务标识,重新从规则集合中选取子规则;使用重新选取的子规则进行数据校验,得到数据质量实例。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从该数据质量实例中选取极值;确定该数据质量实例的组距;根据该组距和该极值计算出组数;按照该组数对该数据质量实例进行分组;从分组后的数据质量实例中获取数据质量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对数据质量实例进行非对称加密,得到实例密文;将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;获取该区块中的实例密文;将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
在其在一个实施例中,该预设时间段是一天。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在监测到自动调度平台运行调度任务时,则确定该调度任务的任务标识;根据该任务标识,从规则集合中选取子规则;使用选取的子规则进行数据校验,得到数据质量实例;统计预设时间段内的数据质量实例,得到数据质量;根据该数据质量对数据问题进行数据修复。
上述计算机可读存储介质,根据任务标识,从规则集合中选取子规则,可以通过任务标识快速地选取出子规则,提高数据质量监控的效率。而从规则集合中选取子规则也可以使得子规则的组合更加多样化,进一步提高数据质量监控的准确性。在监测到自动调度平台运行调度任务时,就确认调度任务的任务标识,则可以在调度任务运行时就进行数据质量监控,可以保证最终获取的数据质量的时效性,也可以避免发现数据问题时需要重新运行底层的调度任务,减少查找数据问题所花费的时间,从而提高查找数据问题的效率,进而提高修复数据问题的效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:监测数据仓库中数据表的调度状态;根据监测到的调度状态识别相应的调度任务;通过识别出的调度任务,确定该调度任务的任务标识。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:监测数据仓库的数据接口,该数据接口用于接收外部数据源发送的数据;当监测到该数据接口接收到数据源发送的数据时,则检测接收到的数据写入数据表后相应的数据表编号;从该规则集合中选取与该数据表编号相应的子规则。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当监测该自动调度平台再次运行调度任务时,则重新确认再次运行的调度任务的任务标识;根据重新确认的任务标识,重新从规则集合中选取子规则;使用重新选取的子规则进行数据校验,得到数据质量实例。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从该数据质量实例中选取极值;确定该数据质量实例的组距;根据该组距和该极值计算出组数;按照该组数对该数据质量实例进行分组;从分组后的数据质量实例中获取数据质量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对数据质量实例进行非对称加密,得到实例密文;将该实例密文在区块链网络中广播,该实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;获取该区块中的实例密文;将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
在其在一个实施例中,该预设时间段是一天。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据问题修复方法,所述方法包括:
在监测到自动调度平台运行调度任务时,则
确定所述调度任务的任务标识,所述调度任务是对数据仓库中的数据表进行操作的任务;
根据所述任务标识,从规则集合中选取子规则;
使用选取的子规则进行数据校验,得到数据质量实例;
统计预设时间段内的数据质量实例,得到数据质量;
根据所述数据质量对所述数据仓库中的问题数据进行数据修复;
其中,所述确定所述调度任务的任务标识,包括:
监测所述数据仓库中数据表的调度状态;
监测到所述数据表的调度状态为运行状态或就绪状态时,则识别调用所述数据表的调度任务;
通过识别出的调度任务,确定所述调度任务的任务标识。
2.根据权利要求1所述的方法,其特征在于,所述从规则集合中选取子规则的步骤之前且在所述确定所述调度任务的任务标识的步骤之后,所述方法还包括:
监测数据仓库的数据接口,所述数据接口用于接收外部数据源发送的数据;
当监测到所述数据接口接收到数据源发送的数据时,则
检测接收到的数据写入数据表后相应的数据表编号;
所述从规则集合中选取子规则,包括:
从所述规则集合中选取与所述数据表编号相应的子规则。
3.根据权利要求1所述的方法,其特征在于,所述使用选取的子规则进行数据校验,得到数据质量实例之后,所述方法还包括:
当监测所述自动调度平台再次运行调度任务时,则
重新确认再次运行的调度任务的任务标识;
根据重新确认的任务标识,重新从规则集合中选取子规则;
使用重新选取的子规则进行数据校验,得到数据质量实例。
4.根据权利要求1所述的方法,其特征在于,所述统计预设时间段内的数据质量实例,得到数据质量,包括:
从所述数据质量实例中选取极值;
确定所述数据质量实例的组距;
根据所述组距和所述极值计算出组数;
按照所述组数对所述数据质量实例进行分组;
从分组后的数据质量实例中获取数据质量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对数据质量实例进行非对称加密,得到实例密文;
将所述实例密文在区块链网络中广播,所述实例密文用于指示验证节点将预设时间段内的实例密文写入区块中;
获取所述区块中的实例密文;
将区块中的实例密文进行解密,并通过解密后的数据质量实例校验相应的数据质量。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述预设时间段是一天。
7.一种数据问题修复装置,其特征在于,所述装置包括:
标识确定模块,用于在监测到自动调度平台运行调度任务时,则监测数据仓库中数据表的调度状态,监测到所述数据表的调度状态为运行状态或就绪状态时,则识别调用所述数据表的调度任务;通过识别出的调度任务,确定所述调度任务的任务标识,所述调度任务是对所述数据仓库中的数据表进行操作的任务;
子规则选取模块,用于根据所述任务标识,从规则集合中选取子规则;
数据校验模块,用于使用选取的子规则进行数据校验,得到数据质量实例;
数据质量统计模块,用于统计预设时间段内的数据质量实例,得到数据质量;
数据修复模块,用于根据所述数据质量对所述数据仓库中的问题数据进行数据修复。
8.根据权利要求7的装置,其特征在于,所述装置还包括:
极值选取模块,用于从该数据质量实例中选取极值;
组距确定模块,用于确定所述数据质量实例的组距;
组数计算模块,用于根据所述组距和所述极值计算出组数;
分组模块,用于按照所述组数对所述数据质量实例进行分组;
该数据质量统计模块,还用于从分组后的数据质量实例中获取数据质量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201810549737.7A 2018-05-31 2018-05-31 数据问题修复方法、装置、计算机设备和存储介质 Active CN108829534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810549737.7A CN108829534B (zh) 2018-05-31 2018-05-31 数据问题修复方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810549737.7A CN108829534B (zh) 2018-05-31 2018-05-31 数据问题修复方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108829534A CN108829534A (zh) 2018-11-16
CN108829534B true CN108829534B (zh) 2024-04-05

Family

ID=64146600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810549737.7A Active CN108829534B (zh) 2018-05-31 2018-05-31 数据问题修复方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108829534B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112748990A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 基于Quartz的数据质量任务执行方法、装置和计算机设备
CN110851464B (zh) * 2019-11-11 2023-10-27 广州及包子信息技术咨询服务有限公司 数据质量治理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719237A (zh) * 2009-12-09 2010-06-02 南京联创科技集团股份有限公司 基于全业务指标规则配置的数据质量监控方法
CN103246574A (zh) * 2012-02-10 2013-08-14 阿里巴巴集团控股有限公司 数据准确性的校验方法及装置
CN107644077A (zh) * 2017-09-19 2018-01-30 杭州贝购科技有限公司 数据一致性监控方法、计算机设备和存储介质
CN107729541A (zh) * 2017-10-31 2018-02-23 咪咕数字传媒有限公司 一种数据处理方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719237A (zh) * 2009-12-09 2010-06-02 南京联创科技集团股份有限公司 基于全业务指标规则配置的数据质量监控方法
CN103246574A (zh) * 2012-02-10 2013-08-14 阿里巴巴集团控股有限公司 数据准确性的校验方法及装置
CN107644077A (zh) * 2017-09-19 2018-01-30 杭州贝购科技有限公司 数据一致性监控方法、计算机设备和存储介质
CN107729541A (zh) * 2017-10-31 2018-02-23 咪咕数字传媒有限公司 一种数据处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN108829534A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN109474578B (zh) 报文消息校验方法、装置、计算机设备和存储介质
WO2021027137A1 (zh) 时序数据存储方法、装置、计算机设备和存储介质
US9781109B2 (en) Method, terminal device, and network device for improving information security
CN110602455B (zh) 视频存储系统、视频处理方法、装置、设备及存储介质
CN112100679B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN110830242A (zh) 一种密钥生成、管理方法和服务器
CN108829534B (zh) 数据问题修复方法、装置、计算机设备和存储介质
CN109145651B (zh) 一种数据处理方法及装置
CN111404892B (zh) 数据监管方法、装置和服务器
CN111488277A (zh) 一种节点匹配方法、装置、设备及系统
CN110717190A (zh) 一种分布式数据存储方法、装置及数据存储设备
CN103559438A (zh) 进程识别方法及系统
CN108924185A (zh) 接口生成方法及装置
CN114386058A (zh) 一种模型文件加密与解密方法及装置
CN112132574A (zh) 区块链数据校验方法、数据处理方法、装置及设备
CN112052954A (zh) 梯度提升树建模方法、装置以及终端
CN113326523A (zh) 一种隐私计算方法、装置及电子设备
CN112597525A (zh) 基于隐私保护的数据处理方法、装置和服务器
CN110381114B (zh) 接口请求参数的处理方法、装置、终端设备及介质
CN116800535A (zh) 多台服务器之间相互免密方法及装置
CN108882230B (zh) 通话记录管理方法、装置及系统
CN116910820A (zh) 数据报表处理方法、装置、计算机设备以及存储介质
CN115795509A (zh) 弱口令事件的处理方法和装置、处理器及电子设备
CN115237617A (zh) 接口组件的确定方法、装置、设备、存储介质和程序产品
CN114896635A (zh) 一种数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant