CN115994194B - 政务大数据的数据质量检查方法、系统、设备及介质 - Google Patents

政务大数据的数据质量检查方法、系统、设备及介质 Download PDF

Info

Publication number
CN115994194B
CN115994194B CN202310286916.7A CN202310286916A CN115994194B CN 115994194 B CN115994194 B CN 115994194B CN 202310286916 A CN202310286916 A CN 202310286916A CN 115994194 B CN115994194 B CN 115994194B
Authority
CN
China
Prior art keywords
data
rule
inspection
node
data quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310286916.7A
Other languages
English (en)
Other versions
CN115994194A (zh
Inventor
任伟
陈垚
袁大勇
刘奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Neusoft Software Co ltd
Original Assignee
Hebei Neusoft Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Neusoft Software Co ltd filed Critical Hebei Neusoft Software Co ltd
Priority to CN202310286916.7A priority Critical patent/CN115994194B/zh
Publication of CN115994194A publication Critical patent/CN115994194A/zh
Application granted granted Critical
Publication of CN115994194B publication Critical patent/CN115994194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种政务大数据的数据质量检查方法、系统、设备及介质,所述方法包括以下步骤:建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;获取用户反馈的待检查政务数据的类别和指标;获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果。本申请无需分布式部署节点进行处理,仅仅在一台设备即可实现数据质量检查,因而成本更低,同时数据质量检查的实时性也更好。

Description

政务大数据的数据质量检查方法、系统、设备及介质
技术领域
本申请涉及数据质量检查技术领域,尤其是涉及一种政务大数据的数据质量检查方法、系统、设备及介质 。
背景技术
当前政府信息化建设已经到了一个新的阶段,政务数据也越来越多,政务数据已经成为国家重要的基础性战略资源。
具体的说,政务数据是指政府机构在实现自我管理和社会管理的过程中生成、收集、维护、管理和拥有的数据,包括政府机构在进行自我管理时产生的行政记录数据、对外提供服务时产生的业务数据、专门采集的社会管理数据、通过购买或委托等方式获得的研究数据,以及互联网上公开的数据等。政务数据本身呈现出一些新的特性,如数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value),因此如何从海量的、快速变化的、来源丰富的大数据中提取出高质量且真实的数据成为政府处理大数据过程中亟待解决的问题。
随着大数据时代的来临,“数据即资产”的概念得到了人们的广泛认同。然而,不是所有的数据都能成为资产,数据的价值与数据质量密切相关。政务数据质量是政府机构所拥有的数据满足其使用者需求的程度。政务数据质量在实践中越来越受到关注,不仅成为制约政务数据发展的关键问题,也是政务数据应用中绕不开的问题。近年来,我国政务数据质量不断提升,但仍然存在较多问题,数据值缺失、数据不全面、数据重复,对于数据质量的担忧甚至成为阻碍政务数据进一步开放共享的风险因素。
现有的常规数据质量检查方法,需要依赖Spark、Spark Streaming 、Hadoop等分布式软件技术,要求进行分布式部署节点来进行数据处理,因而软硬件成本较高;另外,现有技术中,需要先对数据进行预处理,然后再将数据及规则分发到多个节点,各个节点异步计算,最后进行汇总,因而数据处理的实时性比较低。另外,常规的数据质量检查方法,大多针对具体单一业务场景,无法通过灵活配置检查规则来完成多场景的数据质量检查任务,综合适用性较低。
发明内容
为了提高政务数据处理的实时性,降低数据处理成本,同时适配更多的场景,本申请提供一种政务大数据的数据质量检查方法、系统、设备及介质。
第一方面,本申请提供的一种政务大数据的数据质量检查方法采用如下的技术方案:
一种政务大数据的数据质量检查方法,包括以下步骤:
建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;
获取用户反馈的待检查政务数据的类别和指标;
获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果。
通过采用上述技术方案,获取用户反馈的待检查政务数据的类别和指标,根据所述指标和元数据中的关键数据所配置的相应的数据质量检查规则,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果,本申请无需分布式部署节点进行处理,仅仅在一台设备即可实现数据质量检查,因而成本更低,同时数据质量检查的实时性也更好,另外本技术方案能实现灵活的类别、指标、数据质量检查规则配置,业务适用性更好。
优选的,所述的规则层所包含的质量检查规则均采用相同的结构进行存储,其结构包含三个组成部分:规则属性、判定逻辑单元、真判定动作单元、伪判定动作单元;其中,规则属性用于记录该质量检查规则的基础信息包括规则名称、规则编号、业务分类、检查指标、检查方式;判断逻辑单元用于解释所述质量检查规则触发真判定动作单元或伪判定动作单元的条件;真判定动作单元用于记录所述质量检查规则成立时系统处理的后续动作;伪判定动作单元用于记录所述质量检查规则不成立时系统处理的后续动作。
通过采用相同结构进行存储,从而便于实际执行质量检查时,模式匹配器可以将质量检查规则以同样的模式进行解析,形成检查规则的二维点阵,再通过真判定动作单元和伪判定动作单元将这些二维点阵进行连接形成一个二维网状结构,待检数据可以通过点阵间的连接通路在每一个规则间流动。这样可以高效的让待检数据流过每一个必要的检查规则节点,实现高效数据质检。
优选的,所述的结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果,包括:
规则加载:依据检查计划中的数据集的元数据中数据字段与数据质量检查规则之间的关系,将数据集所对应的检查规则加载至模式匹配器,模式匹配器将检查规则以同样的模式进行解析,形成检查规则的二维点阵,再根据先后顺序和业务要求,通过真判定动作单元和伪判定动作单元将所述二维点阵进行连接形成一个二维网络结构;
数据检查:将待检数据集加载至工作内存,然后进入检查规则二维网络,数据集中的每一条数据依据数据字段与检查规则的关系依次进入网络进行流转,流经每一个检查节点时,依据判定逻辑单元进行真伪判断,当结果为真时,执行真判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,当结果为伪时,执行伪定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,直至数据集中的全部数据流转至输出节点;
结果生成;将每一个检查节点的真判定动作单元和伪判定动作单元的执行内容进行汇总,形成质量检查结果。
通过采用上述技术方案,模式匹配器将数据质量检查规则解析成二维点阵并在数据检查的过程中形成检查规则二维网络,且若多个数据项对应的数据质量检查规则的功能相同,则将所述多个数据项对应的数据质量检查规则解析为同一个二维坐标点(因为很多规则可能存在部分相同的模式),因此通过节点的共享可以实现对内存中的节点数量进行压缩,提高了规则引擎的性能,即提高了数据质量检查的效率和时效性,同时降低了部署的软硬件成本以及系统CPU、内存的开销;此外,多数数据集均存在内容相同的数据,采用二维点阵的网状结构进行真伪判定内存数据不会同一时间产生大量变化,避免了大量的重复计算与存储I/O,提高了数据质量检查效率;另外,上述方法建立的系统具有普适性,用户可根据自己的需求设置检查类别和对应的检查指标,最终都可以获得相应的数据质量检查结果。
优选的,所述的模式匹配器采用Drools模式匹配器, 相对于其他匹配器,所述的Drools模式匹配器对接更友好,同时匹配速度更快。
优选的,所述的数据质量检查指标包括完整性、准确性、唯一性、一致性和时效性;进行规则加载形成检查规则二维网络时,优先对完整性和准确性指标对应的检查规则节点进行加载,然后再对唯一性、一致性和时效性指标对应的检查规则节点进行加载,最终形成检查规则二维点阵网络;其中,同一数据质量检查指标对应的多个检查规则节点之间相邻。从而可以减少不必要的资源消耗,即当数据质量检查时,不满足完整性和准确性指标对应的检查规则时,则可以无需继续对唯一性、一致性和时效性指标对应的检查规则进行匹配。
优选的,采用igraph技术实现检查规则二维点阵网络的生成和/或待检数据流向的可视化。
本申请在大规模网络上可视化解析的速度明显优于常规方式,并且采用igraph技术仅需要用少量编程计算就能实现很好的网络可视化效果,因而可以进一步提高数据质量检查的实时性。
优选的,具体通过以下方法生成检查规则二维点阵网络:
进行数据初始化:包括节点初始化和节点关系初始化;
画布初始化:创建igraph对象,设定画布属性、节点属性以及边属性;
数据加载:循环JsonArray依次调用igraph对象的api在画布上添加顶点、顶点延伸的边、二级节点、二级节点的边,以此类推,直至全部JsonArray的数据循环完毕;所述的顶点和节点即对应数据质量检查规则,所述的边即对应数据质量检查规则之间的关系;
图像生成:调用igraph对象的print方法在画布生成检查规则二维点阵图像。
通过采用上述技术方案,相对于常规的可视化实现方式比如RaphaelJS、Canvas、SVG等,本申请的整体方法流程可以实现用更少的编码量、更简单快速的实现二维点阵网络图像的展示,从而进一步提高了政务数据质量检查的实时性。另外,本申请中通过调用igraph对象的print方法在画布生成检查规则二维点阵图像,在二维点阵网络展示场景下,相对于现有技术,解析数据并生成网页元素的速度更快,因而也进一步提高了政务数据质量检查的实时性。
优选的,所述的进行数据初始化包括:
利用python中的DB-API接口将描述节点的数据和描述节点间关系的数据分别通过实体映射逻辑从数据库中取出并形成相应的两个实体List,分别是节点实体List和节点关系实体List,即完成节点数据初始化;
设定两层嵌套循环,其中,外层循环节点关系实体,内层循环节点实体;获取节点关系实体List中的顶点对应的实体关系,通过希尔排序算法进行插入排序,使数据形成从顶点依次向下连接的格式,最后按照标准JsonArray格式进行格式化操作,即完成节点关系初始化。
通过采用上述技术方案,相对于常规的可视化实现方式比如RaphaelJS、Canvas、SVG等(需要将待显示的数据进行特殊编排,才能解析成二维点阵网络),本申请无需将待显示的数据即数据质量检查规则和规则之间的关系进行特殊编排,即可快速的解析成二维点阵网络,因而提高了数据处理的速度,进一步提高了数据质量检查的实时性。
第二方面,本申请提供的一种政务大数据的数据质量检查系统采用如下技术方案:
一种政务大数据的数据质量检查系统,包括:
政务数据质量检查规则库建立模块,用于建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;
待检查政务数据的类别和指标获取模块,用于获取用户反馈的待检查政务数据的类别和指标;
元数据获取及数据质量检查规则获取模块,用于获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
数据检查模块,用于建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果。
第三方面,本申请提供的一种电子设备采用如下技术方案:
一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行实现前述任一种方法的计算机程序。
第四方面,本申请提供的一种计算机可读存储介质采用如下技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行实现前述任一种方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
1、本申请通过获取用户反馈的待检查政务数据的类别和指标,以及根据所述指标和元数据中的关键数据所配置的相应的数据质量检查规则,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果,本申请无需分布式部署节点进行处理,仅仅在一台设备即可实现数据质量检查,因而成本更低,同时数据质量检查的实时性也更好。
2、模式匹配器将数据质量检查规则解析成二维点阵并在数据检查的过程中形成检查规则二维网络,且若多个数据项对应的数据质量检查规则的功能相同,则将所述多个数据项对应的数据质量检查规则解析为同一个二维坐标点(因为很多规则可能存在部分相同的模式),因此通过节点的共享可以实现对内存中的节点数量进行压缩,提高了规则引擎的性能;此外,多数数据集均存在内容相同的数据,采用二维点阵的网状结构进行真伪判定内存数据不会同一时间产生大量变化,避免了大量的重复计算与存储I/O,提高了数据质量检查效率;另外,上述方法建立的系统具有普适性,用户可根据自己的需求设置检查类别和对应的检查指标,最终都可以获得相应的数据质量检查结果。
3、本申请采用igraph技术实现检查规则二维点阵网络的生成和/或待检数据流向的可视化。在大规模网络上可视化解析的速度明显优于常规方式,并且采用igraph技术仅需要用少量编程计算就能实现很好的网络可视化效果,因而可以进一步提高数据质量检查的实时性。
附图说明
图1是本申请的一种实施例中的政务大数据的数据质量检查方法流程图。
图2是本申请的一种实施例中的政务数据质量检查规则库的示意图。
图3是本申请的一种实施例中进行模式匹配生成数据质量检查结果的方法流程示意框图。
具体实施方式
以下结合附图1-图3对本申请作进一步详细说明。
本申请实施例公开一种政务大数据的数据质量检查方法。参照图1,一种政务大数据的数据质量检查方法,包括以下步骤:
一种政务大数据的数据质量检查方法,包括以下步骤:
S1,建立政务数据质量检查规则库;如图2所示,所述的规则库由上至下依次包括类别层、指标层和规则层;其中,图2中,所述的Tn表示第n个类别,Rn.n表示与第n个类别所对应的第n个指标,In.n.n表示与第n个类别的第n个指标所对应的第n个规则;
所述的规则层所包含的质量检查规则均采用相同的结构进行存储,其结构包含三个组成部分:规则属性、判定逻辑单元、真判定动作单元、伪判定动作单元;其中,规则属性用于记录该质量检查规则的基础信息包括规则名称、规则编号、业务分类、检查指标、检查方式;判断逻辑单元用于解释所述质量检查规则触发真判定动作单元或伪判定动作单元的条件;真判定动作单元用于记录所述质量检查规则成立时系统处理的后续动作;伪判定动作单元用于记录所述质量检查规则不成立时系统处理的后续动作。
所述的类别层,用于依据业务属性对政务数据集进行分类,具体实施时,比如可分为三大类、九小类;其中,三大类是:基础信息类、政务服务类、监督管理类;基础信息类包括:自然人、法人、空间地理、电子证照、投资项目;政务服务类包括:政务服务事项、办件过程、服务评价;监督管理类包括:监督管理。
所述的指标层,用于基于数据质量检查类别建立数据质量检查指标,数据质量检查指标分为:完整性、准确性、唯一性、一致性和时效性;完整性:按照数据规则要求,数据元素被赋予数值的程度。准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。一致性:数据与其他特定上下文中使用的数据无矛盾的程度。时效性:数据在时间变化中的正确程度。还可包括可访问性:数据能被访问的程度。
所述的规则层,用于根据政务数据本身的属性,在数据质量检查指标下建立数据质量检查规则,并识别检查方式;所述的检查方式包括:数据字段方式、数据集方式、数据集间关联方式,其中,
数据字段:对某一个数据字段进行检查;可以采用常规方式或正则表达式方式;可用于对数据的完整性、准确性和时效性进行检查;
数据集:对目标数据集进行整体检查,通常在数据唯一性检查方面采用;
数据集间关联:通过目标数据集与关联数据集之间的关系对数据进行检查,通常在数据一致性检查方面采用。
具体如表1所示:
表1 各指标对应的规则和检查方式
Figure SMS_1
以下表2是结合政务数据本身属性的规则实例化,并不限于这些数据质量检查规则,可基于规则库扩展更多数据质量检查规则。
表2 各指标对应的规则和检查方式以及检查方式的实现逻辑
Figure SMS_2
/>
Figure SMS_3
/>
Figure SMS_4
S2,获取用户反馈的待检查政务数据的类别和指标;
具体实施时,还可以同时获取用户反馈的数据质量检查达标率,用于后续返回修改并继续检查的循环操作,直至满足达标率要。
S3,获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
具体的,可通过LinkedIn DataHub元数据管理工具等自动获取并存储数据集的元数据。所述政务数据集的元数据包括:数据集、数据字段、类型、长度、数据字段描述、创建时间。
所述的配置的相应的数据质量检查规则,即建立的数据集的元数据中数据项与数据质量检查规则之间的关系,可以重点建立元数据中的关键数据与数据质量检查规则之间的关系;其中,数据质量检查规则关系包括:数据集、数据字段、数据质量检查指标、数据质量检查规则、改进优先级、创建时间。
其中,改进优先级分为三种:高优先级(H)、中优先级(M)和低优先级(L),根据改进优先级的高低,优先对改进优先级高的关键数据进行质量检查。具体的优先级高低可根据出现问题的频率来确定。
S4,如图3所示,建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果。所述的结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果,包括:
S41,规则加载:依据检查计划中的数据集的元数据中数据字段与数据质量检查规则之间的关系,将数据集所对应的检查规则加载至模式匹配器,模式匹配器将检查规则以同样的模式进行解析,形成检查规则的二维点阵,再根据先后顺序和业务要求,通过真判定动作单元和伪判定动作单元将所述二维点阵进行连接形成一个二维网络结构(即每一个检查节点依据真判定和伪判定两个分支与其后的检查点进行连接,最终汇聚到输出节点);其中,若多个元数据中的数据项对应的数据质量检查规则的功能相同,则将所述多个数据项对应的数据质量检查规则解析为同一个二维坐标点;
本实施例中,所述的模式匹配器采用Drools模式匹配器;在其他实施例中,所述的模式匹配器还可以采用QLExpresss、Aviator引擎或LFA,TREAI,LEAPS等算法。
具体的说,drools技术采用RETE算法,常规用于企业内部财务决策、封控管理、促销平台等需要规则灵活配置的业务系统的规则制定与执行,在此类系统中,规则制定往往基于drools的drl文件来存储规则的定义内容,以此类方式规则的灵活性仅能支撑特定业务,对于多业务场景下的规则,灵活性还是有很大限制。本申请中将规则部分与drools 引擎的执行部分剥离(即本申请中,可以先获取用户根据场景需求所配置的相应的数据质量检查规则;然后建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果),采用了灵活的配置方式来满足多业务场景的适用需求。
所述的数据质量检查指标包括完整性、准确性、唯一性、一致性和时效性;进行规则加载形成检查规则二维网络时,优先对完整性和准确性指标对应的检查规则节点进行加载,然后再对唯一性、一致性和时效性指标对应的检查规则节点进行加载,最终形成检查规则二维点阵网络;其中,同一数据质量检查指标对应的多个检查规则节点之间相邻。
本实施例中,可采用igraph技术实现检查规则二维点阵网络的生成和/或待检数据流向的可视化;在其他实施例中,也可以采用RaphaelJS、Canvas、SVG等技术通过硬编码实现二维点阵网络和待检数据流向的可视化。
具体的,可通过以下方法生成检查规则二维点阵网络:
Step1,进行数据初始化:包括节点初始化和节点关系初始化;
具体包括:利用python中的DB-API接口将描述节点的数据和描述节点间关系的数据分别通过实体映射逻辑从数据库中取出并形成相应的两个实体List,分别是节点实体List和节点关系实体List,即完成节点数据初始化;
设定两层嵌套循环,其中,外层循环节点关系实体,内层循环节点实体;获取节点关系实体List中的顶点对应的实体关系(也就是二维点阵的数据进入节点),通过希尔排序算法进行插入排序,使数据形成从顶点依次向下连接的格式,最后按照标准JsonArray格式进行格式化操作,即完成节点关系初始化。
Step2,画布初始化:创建igraph对象,设定画布属性、节点属性以及边属性,包括设定画布大小、节点形状、节点颜色、节点密度、边颜色、边粗细度等属性;
Step3,数据加载:循环JsonArray依次调用igraph对象的api在画布上添加顶点、顶点延伸的边、二级节点、二级节点的边,以此类推,直至全部JsonArray的数据循环完毕;所述的顶点和节点即对应数据质量检查规则,所述的边即对应数据质量检查规则之间的关系;
Step4,图像生成:调用igraph对象的print方法在画布生成检查规则二维点阵图像。
为了实现数据流向展示,可利用python中的DB-API接口将数据质检日志从数据库中取出并形成List,循环List,取出数据流经节点信息,将igraph画布中相应节点及节点关联的边进行高亮处理。
S42,数据检查:数据检查:将待检数据集加载至工作内存,然后进入检查规则二维网络,数据集中的每一条数据依据数据字段与检查规则的关系依次进入网络进行流转,流经每一个检查节点时,依据判定逻辑单元进行真伪判断,当结果为真时,执行真判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,当结果为伪时,执行伪定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,直至数据集中的全部数据流转至输出节点;
S43,结果生成;将每一个检查节点的真判定动作单元和伪判定动作单元的执行内容进行汇总,形成质量检查结果。
所述的数据质量检查结果可以包括:作业编号、数据集、数据字段、业务编号、规则编号、规则名称、规则说明、检查时间。
所述的建立自动调度作业还包括:
生成检查计划;所述的检查计划包括:计划编号(是检查计划的唯一标识)、检查数据集(可以是单个数据集,也可以是多个检查数据集)、触发表达式、计划状态、最后执行时间;其中,通过编号生成规则DQ-CP-[YYYYMMDD-HH24MISS- 3FF]生成所述的计划编号;所述的检查计划基于CronTrigger触发器实现(CronTrigger触发器更适合复杂场景的调度控制),触发表达式采用Cron表达式规则(定义检查计划的状态,包括:启动、暂停、停止)。
执行检查计划;所述的执行检查计划包括:生成检查作业、获取待检查数据集,通过模式匹配器执行检查并生成检查结果、依据检查结果反写检查作业。
一个检查计划可以多次执行,检查计划与检查作业是1:N的关系。
其中,触发器执行时生成检查作业,所述的检查作业包括:计划编号、作业编号、作业开始时间、作业结束时间、检查总数、通过数、异常数、作业状态、失败描述;其中,通过编号生成规则DQ-LOG-[YYYYMMDD-HH24MISS-3FF]生成作业编号。作业状态:定义检查作业的状态,包括:待执行、执行中、成功、失败。
本申请实施例还公开了一种政务大数据的数据质量检查系统。一种政务大数据的数据质量检查系统,包括:
政务数据质量检查规则库建立模块,用于建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;
待检查政务数据的类别和指标获取模块,用于获取用户反馈的待检查政务数据的类别和指标;
元数据获取及数据质量检查规则获取模块,用于获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
数据检查模块,用于建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本申请实施例还公开了一种电子设备。一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行实现上述任一种方法的计算机程序。
其中,电子设备可以采用台式电脑、笔记本电脑或者云端服务器等电子设备,并且,电子设备包括但不限于处理器以及存储器,例如,电子设备还可以包括输入输出设备、网络接入设备以及总线等。
本申请中的处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集,调用存储在存储器内的数据,执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
其中,存储器可以为电子设备的内部存储单元,例如,电子设备的硬盘或者内存,也可以为电子设备的外部存储设备,例如,电子设备上配备的插接式硬盘、智能存储卡(SMC)、安全数字卡(SD)或者闪存卡(FC)等,并且,存储器还可以为电子设备的内部存储单元与外部存储设备的组合,存储器用于存储计算机程序以及电子设备所需的其他程序和数据,存储器还可以用于暂时地存储已经输出或者将要输出的数据,本申请对此不做限制。
本申请实施例还公开了一种计算机可读存储介质。一种计算机可读存储介质,存储有能够被处理器加载并执行实现上述任一种方法的计算机程序。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的方法、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (7)

1.一种政务大数据的数据质量检查方法,其特征在于,包括以下步骤:
建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;
获取用户反馈的待检查政务数据的类别和指标;
获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果;
其中,所述的结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果,包括:
规则加载:依据检查计划中的数据集的元数据中数据字段与数据质量检查规则之间的关系,将数据集所对应的检查规则加载至模式匹配器,模式匹配器将检查规则以同样的模式进行解析,形成检查规则的二维点阵,再根据先后顺序和业务要求,通过真判定动作单元和伪判定动作单元将所述二维点阵进行连接形成一个二维网络结构;
数据检查:将待检数据集加载至工作内存,然后进入检查规则二维网络,数据集中的每一条数据依据数据字段与检查规则的关系依次进入网络进行流转,流经每一个检查节点时,依据判定逻辑单元进行真伪判断,当结果为真时,执行真判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,当结果为伪时,执行伪判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,直至数据集中的全部数据流转至输出节点;
结果生成;将每一个检查节点的真判定动作单元和伪判定动作单元的执行内容进行汇总,形成质量检查结果;
其中,采用igraph技术实现检查规则二维点阵网络的生成和/或待检数据流向的可视化;具体通过以下方法生成检查规则二维点阵网络:
进行数据初始化:包括节点初始化和节点关系初始化;
画布初始化:创建igraph对象,设定画布属性、节点属性以及边属性;
数据加载:循环JsonArray依次调用igraph对象的api在画布上添加顶点、顶点延伸的边、二级节点、二级节点的边,以此类推,直至全部JsonArray的数据循环完毕;所述的顶点和节点即对应数据质量检查规则,所述的边即对应数据质量检查规则之间的关系;
图像生成:调用igraph对象的print方法在画布生成检查规则二维点阵图像。
2.根据权利要求1所述的政务大数据的数据质量检查方法,其特征在于,所述的规则层所包含的质量检查规则均采用相同的结构进行存储,其结构包含三个组成部分:规则属性、判定逻辑单元、真判定动作单元、伪判定动作单元;其中,规则属性用于记录该质量检查规则的基础信息包括规则名称、规则编号、业务分类、检查指标、检查方式;判断逻辑单元用于解释所述质量检查规则触发真判定动作单元或伪判定动作单元的条件;真判定动作单元用于记录所述质量检查规则成立时系统处理的后续动作;伪判定动作单元用于记录所述质量检查规则不成立时系统处理的后续动作。
3.根据权利要求1所述的政务大数据的数据质量检查方法,其特征在于,所述的数据质量检查指标包括完整性、准确性、唯一性、一致性和时效性;进行规则加载形成检查规则二维网络时,优先对完整性和准确性指标对应的检查规则节点进行加载,然后再对唯一性、一致性和时效性指标对应的检查规则节点进行加载,最终形成检查规则二维点阵网络;其中,同一数据质量检查指标对应的多个检查规则节点之间相邻。
4.根据权利要求1所述的政务大数据的数据质量检查方法,其特征在于,所述的进行数据初始化包括:
利用python中的DB-API接口将描述节点的数据和描述节点间关系的数据分别通过实体映射逻辑从数据库中取出并形成相应的两个实体List,分别是节点实体List和节点关系实体List,即完成节点数据初始化;
设定两层嵌套循环,其中,外层循环节点关系实体,内层循环节点实体;获取节点关系实体List中的顶点对应的实体关系,通过希尔排序算法进行插入排序,使数据形成从顶点依次向下连接的格式,最后按照标准JsonArray格式进行格式化操作,即完成节点关系初始化。
5.一种政务大数据的数据质量检查系统,其特征在于,包括:
政务数据质量检查规则库建立模块,用于建立政务数据质量检查规则库;所述的规则库由上至下依次包括类别层、指标层和规则层;
待检查政务数据的类别和指标获取模块,用于获取用户反馈的待检查政务数据的类别和指标;
元数据获取及数据质量检查规则获取模块,用于获取相应类别待检查政务数据集的元数据,并根据所述指标以及所述元数据中的关键数据获取所配置的相应的数据质量检查规则;
数据检查模块,用于建立自动调度作业,自动获取待检查数据集,结合所述数据质量检查规则进行模式匹配,生成数据质量检查结果;
其中,所述的数据检查模块包括:
规则加载子模块:用于依据检查计划中的数据集的元数据中数据字段与数据质量检查规则之间的关系,将数据集所对应的检查规则加载至模式匹配器,模式匹配器将检查规则以同样的模式进行解析,形成检查规则的二维点阵,再根据先后顺序和业务要求,通过真判定动作单元和伪判定动作单元将所述二维点阵进行连接形成一个二维网络结构;
数据检查子模块:用于将待检数据集加载至工作内存,然后进入检查规则二维网络,数据集中的每一条数据依据数据字段与检查规则的关系依次进入网络进行流转,流经每一个检查节点时,依据判定逻辑单元进行真伪判断,当结果为真时,执行真判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,当结果为伪时,执行伪判定动作单元中的预设逻辑,并沿网络流转至下一个检查节点,直至数据集中的全部数据流转至输出节点;
结果生成子模块;用于将每一个检查节点的真判定动作单元和伪判定动作单元的执行内容进行汇总,形成质量检查结果;
还包括:
可视化子模块,用于采用igraph技术实现检查规则二维点阵网络的生成和/或待检数据流向的可视化;
所述的可视化子模块包括:
进行数据初始化单元:用于进行节点初始化和节点关系初始化;
画布初始化单元:用于创建igraph对象,设定画布属性、节点属性以及边属性;
数据加载单元:用于循环JsonArray依次调用igraph对象的api在画布上添加顶点、顶点延伸的边、二级节点、二级节点的边,以此类推,直至全部JsonArray的数据循环完毕;所述的顶点和节点即对应数据质量检查规则,所述的边即对应数据质量检查规则之间的关系;
图像生成单元:用于调用igraph对象的print方法在画布生成检查规则二维点阵图像。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行实现权利要求1至4中任一种方法的计算机程序。
7.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行实现权利要求1至4中任一种方法的计算机程序。
CN202310286916.7A 2023-03-23 2023-03-23 政务大数据的数据质量检查方法、系统、设备及介质 Active CN115994194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310286916.7A CN115994194B (zh) 2023-03-23 2023-03-23 政务大数据的数据质量检查方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310286916.7A CN115994194B (zh) 2023-03-23 2023-03-23 政务大数据的数据质量检查方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN115994194A CN115994194A (zh) 2023-04-21
CN115994194B true CN115994194B (zh) 2023-06-02

Family

ID=85992423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310286916.7A Active CN115994194B (zh) 2023-03-23 2023-03-23 政务大数据的数据质量检查方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115994194B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183824A (zh) * 2015-08-28 2015-12-23 重庆简悉大数据科技有限公司 数据整合方法及装置
CN109542901A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN110140118A (zh) * 2016-11-09 2019-08-16 起元技术有限责任公司 用于确定数据元素之间的关系的系统和方法
CN110825788A (zh) * 2019-11-07 2020-02-21 成都康赛信息技术有限公司 基于数据质量检测规则挖掘结果的规则约简方法
CN111400288A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 数据质量检查方法及系统
CN114428882A (zh) * 2020-10-29 2022-05-03 国际商业机器公司 测量图形数据库中的数据的数据质量
CN114691662A (zh) * 2022-03-31 2022-07-01 云南电网有限责任公司信息中心 一种数据质量检查规则自适应方法、存储介质及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183824A (zh) * 2015-08-28 2015-12-23 重庆简悉大数据科技有限公司 数据整合方法及装置
CN110140118A (zh) * 2016-11-09 2019-08-16 起元技术有限责任公司 用于确定数据元素之间的关系的系统和方法
CN109542901A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
CN111400288A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 数据质量检查方法及系统
CN110825788A (zh) * 2019-11-07 2020-02-21 成都康赛信息技术有限公司 基于数据质量检测规则挖掘结果的规则约简方法
CN114428882A (zh) * 2020-10-29 2022-05-03 国际商业机器公司 测量图形数据库中的数据的数据质量
CN114691662A (zh) * 2022-03-31 2022-07-01 云南电网有限责任公司信息中心 一种数据质量检查规则自适应方法、存储介质及系统

Also Published As

Publication number Publication date
CN115994194A (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
US11163670B2 (en) Data records selection
US10725981B1 (en) Analyzing big data
US9361320B1 (en) Modeling big data
CN110674360B (zh) 一种用于数据的溯源方法和系统
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
CN107679937B (zh) 定制服务功能的方法、系统、存储介质及设备
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
CN113888299A (zh) 风控决策方法、装置、计算机设备和存储介质
CN113052696B (zh) 金融业务任务处理方法、装置、计算机设备和存储介质
CN114187449A (zh) 车辆信息处理方法、装置、计算机设备和存储介质
CN113591934A (zh) 业务分析模型的编排方法、装置和设备及存储介质
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN115994194B (zh) 政务大数据的数据质量检查方法、系统、设备及介质
CN112800371A (zh) 一种处理web网页内电子表格数据的方法及装置
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN109544348B (zh) 资产证券筛选方法、设备及计算机可读存储介质
CN115880703A (zh) 表单数据处理方法、装置、电子设备和存储介质
CN110659981A (zh) 企业依存关系识别方法、装置及电子设备
CN115759742A (zh) 企业风险评估方法、装置、计算机设备和存储介质
CN102171684A (zh) 商业文档处理器
CN117217172B (zh) 表格信息获取方法、装置、计算机设备、存储介质
CN113177002B (zh) 基于测试点的测试设计方法、装置、电子设备和介质
US20230237080A1 (en) Prediction of table column items in unstructured documents using a hybrid model
CN116012123B (zh) 一种基于Rete算法的风控规则引擎方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant