CN116703228B - 一种大数据质量评价方法及系统 - Google Patents
一种大数据质量评价方法及系统 Download PDFInfo
- Publication number
- CN116703228B CN116703228B CN202310703000.7A CN202310703000A CN116703228B CN 116703228 B CN116703228 B CN 116703228B CN 202310703000 A CN202310703000 A CN 202310703000A CN 116703228 B CN116703228 B CN 116703228B
- Authority
- CN
- China
- Prior art keywords
- data
- constraint
- quality evaluation
- dimension
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 25
- 230000002776 aggregation Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000007726 management method Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000010223 real-time analysis Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000012854 evaluation process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000013515 script Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明公开了一种大数据质量评价方法及系统,方法包括,构建细粒度的质量评价指标模型,构建常用质量约束规则描述模板,构建基本质量评价对象模型,构建基本质量评价对象指标模型,构建多任务的指标计算机制,构建多策略的任务调度执行机制,构建指标计算任务执行结果维度模型,构建数据质量报告自动聚合机制。优点是:利用大数据技术构建涵盖数据质量评价方案动态配置、评价过程自动执行、评价报告自动生成等为一体的系统方案,提升企业数据质量管理工作的效率。能够高效解决海量多源异构数据质量评价的技术问题。
Description
技术领域
本发明涉及计算机数据治理技术领域,尤其涉及一种大数据质量评价方法及系统。
背景技术
企业数据资源存在多种来源,包括历史信息系统、智能感知设备、第三方供应商等,这些数据存在着产生源点多、频率高、数据量大、数据结构复杂等特点,为数据质量的准确评价带来新的技术挑战。现阶段企业主要通过质量检测辅助工具定期执行脚本(如:数据库存储过程、SQL语句、正则表达式等)的方式来实现对指定数据集中异常数据的识别及质量的评价,该方法存在以下几个方面的问题:一是数据质量分析过程大量依赖于业务数据库来执行脚本,对数据库资源消耗较大,影响现有系统的稳定性;二是传统关系型数据库技术无法满足海量异构数据质量分析的需要,定期执行方式也无法满足高时效性质量评价的需要;三是数据质量评价结果仅局限在单个数据表中某一时间段内的数据,无法对数据表整体质量进行快速评价,也无法从全局层面进行多维的统计分析;四是对数据质量评价还停留异常数据识别的阶段,无法对数据整体的质量情况进行精确的量化评价;五是数据质量检测逻辑固化在脚本中,非专业技术人员无法快速响应业务变化的需要,也无法简单快速的配置、管理和复用。
因此,在数据治理领域内,迫切需要解决一个技术问题:针对企业历史、增量、实时感知等海量多源异构数据,提出一种高时效、精准化、多维度的数据质量评价方法,构建一套可灵活配置、具备高效数据处理性能及高可扩展性的数据质量评价系统解决方案。
发明内容
本发明的目的在于提供一种大数据质量评价方法及系统,能够高效解决海量多源异构数据质量评价的问题,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种大数据质量评价方法,包括如下步骤,
S1、构建细粒度的质量评价指标模型:
针对组织内部每一个质量关注点分别定义质量评价指标;
S2、构建常用质量约束规则描述模板:
针对各种业务质量约束快速配置生成质量约束规则;
S3、构建基本质量评价对象模型:
将质量评价过程中独立计算的数据体定义为一个基本质量评价对象,描述其在质量评价过程中所需的信息;
S4、构建基本质量评价对象指标模型:
根据不同数据体对质量的关注点不同分别配置一个或多个指标、指标的参数配置和质量约束规则;
S5、构建多任务的指标计算机制:
按照基本质量评价对象中指标的计算方式、涉及的数据范围,将指标集划分为一个或多个子集,分配给不同的任务,高并发调度执行;
S6、构建多策略的任务调度执行机制:
针对不同数据来源、不同数据结构、不同应用场景计算的需要分类构建多个质量评价服务,根据任务配置的服务名,将任务提交给相应的质量评价服务执行;
S7、构建指标计算任务执行结果维度模型:
按照生成多维数据质量报告的需要,在指标计算任务执行过程中,自动构建指标计算任务执行结果维度模型,以记录任务执行过程中所涉及数据的相关信息;
S8、构建数据质量报告自动聚合机制:
按照数据质量报告的统计维度和指标配置多维聚合任务,通过预聚合的方式将数据质量报告所需的所有维度组合及相应的指标值计算出来并持久化保存。
优选的,所述质量评价指标模型中包含的质量评价指标如下,
数据缺失率:数据项中存在违反空值约束的记录数占总记录数的比率;
数据误差率:数据项中存在违反取值约束及规范的记录数占总记录数的比率;
数据重复率:违反唯一性约束记录数占总记录数的比率;
数据迟到率:违反时效性约束记录数占总记录数的比率;
数据间断率:违反时间连续性约束的记录数占总记录数的比率。
优选的,所述常用质量约束规则描述模板中包含的质量约束规则如下:
数据唯一性约束规则,即针对数据集中的单条记录描述应遵守的约束:仅在约束的时间范围内检查数据的唯一性;
数据规范性约束规则,即针对数据集中的指定项描述应遵守的约束:包括数据类型约束、小数位数约束、日期时间字符格式约束以及扩展数据格式约束;
数据空值约束规则,即针对数据集中的多个项描述应遵守的约束:非空值约束;能够根据业务需要自定义空值;
数据值域约束规则,即针对数据集中指定项描述应遵守的约束:包括常用值域约束、行数据约束和参照表数据约束;所述常用值域约束描述固定的取值空间;所述行数据约束描述在同一条记录内多个项值的算术表达式结果与当前列值之间应遵守的逻辑关系;参照表数据约束描述参照表数据集中某一项的聚合结果与当前列值之间应遵守的逻辑关系;
数据值集成约束规则,即针对数据集中单条记录描述取值应遵守的约束:根据数据生产的时间顺序,当前数据记录中多个项值的算术表达式与上一条数据记录多个项值的算术表达式之间应遵守的逻辑关系;
数据联系性约束规则,即针对数据集中指定项描述取值应遵守的约束:根据数据生产的时间顺序,当前记录与上一条记录中的指定项的取值应遵守的单调性约束以及值最大变化的幅度约束;
数据时效性约束规则:仅针对实时分析场景,描述数据生产时间与实际上报时间之间可接受的最大延迟时间;
自定义质量约束规则:描述自定义插件部署调用所需的信息,包括包文件名、存放路径、元类型、调用函数名和入参信息。
优选的,步骤S3中的描述包括技术属性和管理属性;
所述技术属性描述质量评价指标计算过程中所需的信息,包括连接访问信息、数据结构信息以及扩展技术信息;所述扩展技术信息进一步描述数据存储格式、数据分区和数据分桶;
所述管理属性描述质量评价过程中所需的各种维度信息,包括数据分类维度、归口单位维度和扩展维度。
优选的,步骤S4中,指标的参数配置包括异常阈值和汇总权重;
所述异常阈值设置指标值可接受最大值,超出则触发异常处理机制;
汇总权重用于计算对象质量评分,质量评分由该对象下所配置的各个指标值加权计算获取。
优选的,步骤S5中,当单个对象中数据体量大于设定阈值时,在任务模型中配置数据分组列,预先将待评价的数据体进行分组,为每个分组分别建立子过程,进一步提升并发度。
优选的,步骤S6中,任务按照调度策略分为流式任务、固定周期批式任务、自动触发批式任务;
流式任务初始由任务调度器创建任务实例提交执行,后续不间断的按照预定义的时间窗口自动执行,每次仅计算当前时间窗口内的数据;
固定周期批式任务由任务调度器预生成今日任务执行计划表,按计划依次创建任务实例提交执行;
自动触发批式任务由任务调度器监测数据对象的数据更新消息,即时创建任务实例提交执行。
优选的,步骤S7中,维度模型包括事实表和维度表;
事实表记录任务处理的基本数据对象标识、数据体信息、执行结果、关联维度标识;所述数据体信息包括分组标签、起止时间位置和总记录数;所述执行结果包括异常数据记录数和评价状态,评价状态标记记录是否有效,当数据起止时间位置区间内的数据重新执行后,原有记录的评价状态置为无效;
维度表中的数据根据来自于基本质量评价对象模型中预设的维度,按照分类存储到多张维度表中,包含时间维度、分类管理维度、归口管理维度和扩展维度。
优选的,步骤S8中,聚合过程中首先获取各个维度的取值空间,进而计算各维度值组合的取值空间,通过并行计算方式分别计算取值空间的指标值;
当维度个数大于预设个数阈值或维度取值空间大于预设取值空间阈值时,采用构建数据立方体的方式进行优化;
本发明的目的还在于提供一种大数据质量评价系统,系统用于实现上述任一所述方法,系统包括,
第一模块:用于构建细粒度的质量评价指标模型;
第二模块:用于构建常用质量约束规则描述模板;
第三模块:用于构建基本质量评价对象模型;
第四模块:用于构建基本质量评价对象指标模型;
第五模块:用于构建多任务的指标计算机制;
第六模块:用于构建多策略的任务调度执行机制;
第七模块:用于构建指标计算任务执行结果维度模型;
第八模块:用于构建数据质量报告自动聚合机制。
本发明的有益效果是:1、利用大数据技术构建涵盖数据质量评价方案动态配置、评价过程自动执行、评价报告自动生成等为一体的系统方案,提升企业数据质量管理工作的效率。2、能够高效解决海量多源异构数据质量评价的技术问题。
附图说明
图1是本发明中质量评价方法的流程图;
图2是本发明中基本质量评价对象模型逻辑结构图;
图3是本发明中基本质量评价对象指标模型逻辑结构图;
图4是本发明中指标计算任务模型逻辑结构图;
图5是本发明中指标计算流式任务执行过程示意图;
图6是本发明中指标计算批式任务执行过程示意图;
图7是本发明中指标计算任务执行结果维度模型逻辑结构图;
图8是本发明中数据质量报告多维聚合任务模型逻辑结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中,提供了一种大数据质量评价方法,包括八部分内容,具体如下:
一、构建细粒度的质量评价指标模型:
针对组织内部每一个质量关注点分别定义质量评价指标,解决业内常用的质量评价指标模型(如:数据一致性、完整性、准确性、可操作性、安全性等)存在的单个指标内容涵盖面较大难以定量分析的问题。
为了简化质量评价指标分析,指标仅关注数据体中异常数据,通过存在异常数据的记录与总记录数的占比来计算具体的指标值。系统提供常用的指标项定义,具体包括:
1、数据缺失率:数据项中存在违反空值约束的记录数占总记录数的比率;
2、数据误差率:数据项中存在违反取值约束及规范的记录数占总记录数的比率;
3、数据重复率:违反唯一性约束记录数占总记录数的比率;
4、数据迟到率:违反时效性约束记录数占总记录数的比率;
5、数据间断率:违反时间连续性约束的记录数占总记录数的比率。
二、构建常用质量约束规则描述模板:
针对各种业务质量约束快速配置生成质量约束规则,避免编写大量的外部脚本来计算质量评价指标。具体包括:
1、数据唯一性约束规则,即针对数据集中的单条记录描述应遵守的约束:为了避免在海量数据计算量过大的问题,仅在约束的时间范围内检查数据的唯一性。
2、数据规范性约束规则,即针对数据集中的指定项描述应遵守的约束:包括数据类型约束、小数位数约束、日期时间字符格式约束以及扩展数据格式约束;
其中扩展数据格式中为固定的数据格式规范,如电话、身份证号、邮箱等,可根据需要进行扩展。
3、数据空值约束规则,即针对数据集中的多个项描述应遵守的约束:非空值约束;能够根据业务需要自定义空值,如空值、NAN、0等;
4、数据值域约束规则,即针对数据集中指定项描述应遵守的约束:包括常用值域约束、行数据约束和参照表数据约束;所述常用值域约束描述固定的取值空间;所述行数据约束描述在同一条记录内多个项值的算术表达式结果与当前列值之间应遵守的逻辑关系;参照表数据约束描述参照表数据集中某一项的聚合结果与当前列值之间应遵守的逻辑关系;聚合所使用到的聚合函数包括Max、Min、Sum、Avg、Count等常用函数,也可自定义函数。
5、数据值集成约束规则,即针对数据集中单条记录描述取值应遵守的约束:根据数据生产的时间顺序,当前数据记录中多个项值的算术表达式与上一条数据记录多个项值的算术表达式之间应遵守的逻辑关系;可按照指定数据分组列对数据集进行分组,在组内质量约束检查。
6、数据联系性约束规则,即针对数据集中指定项描述取值应遵守的约束:根据数据生产的时间顺序,当前记录与上一条记录中的指定项的取值应遵守的单调性约束以及值最大变化的幅度约束;针对日期时间类型,可以指定变化的时间单位,如年、月、日、时、分、秒等。
7、数据时效性约束规则:仅针对实时分析场景,描述数据生产时间与实际上报时间之间可接受的最大延迟时间;
8、自定义质量约束规则:描述自定义插件部署调用所需的信息,包括包文件名、存放路径、元类型、调用函数名和入参信息。
需要说明的是,常用的质量约束规则由系统自动解析计算,对于特殊复杂的业务,可自定义异常数据识别算法插件,由系统反射调用计算。
三、构建基本质量评价对象模型:
如图2所示,将质量评价过程中独立计算的数据体定义为一个基本质量评价对象,描述其在质量评价过程中所需的信息。描述包括技术属性和管理属性;
所述技术属性描述质量评价指标计算过程中所需的信息,包括连接访问信息、数据结构信息以及扩展技术信息;所述扩展技术信息进一步描述数据存储格式、数据分区和数据分桶等高级信息;
所述管理属性描述质量评价过程中所需的各种维度信息,包括数据分类维度、归口单位维度和扩展维度等,可根据企业内部数据管理体系和采用的数据库技术,进一步扩展技术属性和管理属性模型。
四、构建基本质量评价对象指标模型:
如图3所示,根据不同数据体对质量的关注点不同分别配置一个或多个指标、指标的参数配置和质量约束规则等,从而提高质量评价的灵活性。
针对不同组织对指标计算口径不一致的问题,基本质量评价对象中的每个指标可独立配置一个或多个质量约束规则,实现灵活多变的计算方法。
系统通过执行规则来识别数据体中的异常数据记录,当数据记录中存在数据违反规则时标记为异常数据记录。指标值的计算方法为该指标下所配置的规则识别出的质量异常记录数与总记录数中的比率。
指标的参数配置包括异常阈值和汇总权重;所述异常阈值设置指标值可接受最大值,超出则触发异常处理机制;汇总权重用于计算对象质量评分,质量评分由该对象下所配置的各个指标值加权计算获取。
评分取值空间为[0,100]。设数据对象指标1的值为I1,权重为W1,指标2的值为I2,权重为W2,……,指标n的值为In,权重为Wn,则数据对象质量评分Score计算公式为:Score=(1-I1W1-I2W2-……-InWn)×100。
五、构建多任务的指标计算机制(提升系统的计算性能):
如图4所示,按照基本质量评价对象中指标的计算方式、涉及的数据范围等,将指标集划分为一个或多个子集,分配给不同的任务,由系统高并发调度执行。
当单个对象中数据体量大于设定阈值时,在任务模型中配置数据分组列,预先将待评价的数据体进行分组,为每个分组分别建立子过程,进一步提升并发度。其中并发度选项控制创建子过程的最大个数,防止任务执行过程中的阻塞。
为了提升海量数据质量评价的效率,优化系统资源配置,根据任务的计算量、优先级等配置执行节点数、节点最大CPU核数、节点内存等资源,防止多个任务执行过程中抢占资源,导致任务执行超时、失败等现象。
六、构建多策略的任务调度执行机制(以满足多场景下的质量评价需要):
质量评价服务是任务执行的主体,针对不同数据来源、不同数据结构、不同应用场景计算的需要分类构建多个质量评价服务,由系统微服务框架统一注册管理。系统根据任务配置的服务名,将任务提交给相应的质量评价服务执行,实现对多源异构数据的统一处理。
如图5和图6所示,任务按照调度策略分为流式任务、固定周期批式任务、自动触发批式任务;
流式任务初始由任务调度器创建任务实例(单例模式)提交执行,后续不间断的按照预定义的时间窗口自动执行,每次仅计算当前时间窗口内的数据;
固定周期批式任务由任务调度器预生成今日任务执行计划表,按计划依次创建任务实例提交执行;
自动触发批式任务由任务调度器监测数据对象的数据更新消息,即时创建任务实例提交执行。
其中,按照计算的数据范围批式任务的计算模式,任务执行策略又细分为全量、增量两种。全量模式一次性计算数据实体的全部数据,增量模式要求数据实体中包含标记数据产生时间的有序数据。增量模式具体执行如下:
固定周期任务仅计算当前调度周期内的新增数据。
自动触发任务计算从上次记录的结束时间位置到当前时间位置区间内的数据,并更新结束时间位置。
七:构建指标计算任务执行结果维度模型:
如图7所示,按照生成多维数据质量报告的需要,在指标计算任务执行过程中,自动构建指标计算任务执行结果维度模型,以记录任务执行过程中所涉及数据的相关信息。
维度模型中的事实表主要记录任务处理的基本数据对象标识、数据体信息(如:分组标签、起止时间位置、总记录数)、执行结果(异常数据记录数、评价状态)、关联维度标识等信息。其中评价状态标记当前记录是否有效,当数据起止时间位置区间内的被数据重新执行后,需将原有记录的评价状态置为无效。
维度模型中维度表的数据根据主要来自于基本质量评价对象模型中预设的维度集,按照分类存储到多张维度表中,包含时间维度、分类管理维度、归口管理维度、扩展维度等,后期可根据自身实际需求增减维度表或维度表中的字段。
八、构建数据质量报告自动聚合机制(通过预计算方式自动生成数据质量报告,解决数据量较大时用户查询响应速度较慢的技术问题):
如图8所示,按照数据质量报告的统计维度和指标配置多维聚合任务,任务配置信息包括调度策略、执行服务、聚合使用的维度集、指标集以及聚合函数等。其中维度集和指标集分别来源于任务执行结果维度模型中的维度表和事实表。
系统通过预聚合的方式将数据质量报告所需的所有维度组合及相应的指标值计算出来并持久化保存,对维度建立的快速查询索引,以实现秒级的多维分析查询,避免系统大量重复计算数据质量报告中的指标。
聚合过程中首先获取各个维度的取值空间,进而计算各维度值组合的取值空间,通过并行计算方式分别计算取值空间的指标值;
当维度个数大于预设个数阈值或维度取值空间大于预设取值空间阈值时,维度值组合的取值空间会变的十分庞大,为了减少计算工作量,采用构建数据立方体的方式(cube)进行优化。
本实施例中,还提供了一种大数据质量评价系统,系统用于实现上述所述方法,系统包括,
第一模块:用于构建细粒度的质量评价指标模型;
第二模块:用于构建常用质量约束规则描述模板;
第三模块:用于构建基本质量评价对象模型;
第四模块:用于构建基本质量评价对象指标模型;
第五模块:用于构建多任务的指标计算机制;
第六模块:用于构建多策略的任务调度执行机制;
第七模块:用于构建指标计算任务执行结果维度模型;
第八模块:用于构建数据质量报告自动聚合机制。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种大数据质量评价方法及系统,利用大数据技术构建涵盖数据质量评价方案动态配置、评价过程自动执行、评价报告自动生成等为一体的系统方案,提升企业数据质量管理工作的效率。能够高效解决海量多源异构数据质量评价的技术问题。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (10)
1.一种大数据质量评价方法,其特征在于:包括如下步骤,
S1、构建细粒度的质量评价指标模型:
针对组织内部每一个质量关注点分别定义质量评价指标;
S2、构建常用质量约束规则描述模板:
针对各种业务质量约束快速配置生成质量约束规则;
S3、构建基本质量评价对象模型:
将质量评价过程中独立计算的数据体定义为一个基本质量评价对象,描述其在质量评价过程中所需的信息;
S4、构建基本质量评价对象指标模型:
根据不同数据体对质量的关注点不同分别配置一个或多个指标、指标的参数配置和质量约束规则;
S5、构建多任务的指标计算机制:
按照基本质量评价对象中指标的计算方式、涉及的数据范围,将指标集划分为一个或多个子集,分配给不同的任务,高并发调度执行;
S6、构建多策略的任务调度执行机制:
针对不同数据来源、不同数据结构、不同应用场景计算的需要分类构建多个质量评价服务,根据任务配置的服务名,将任务提交给相应的质量评价服务执行;
S7、构建指标计算任务执行结果维度模型:
按照生成多维数据质量报告的需要,在指标计算任务执行过程中,自动构建指标计算任务执行结果维度模型,以记录任务执行过程中所涉及数据的相关信息;
S8、构建数据质量报告自动聚合机制:
按照数据质量报告的统计维度和指标配置多维聚合任务,通过预聚合的方式将数据质量报告所需的所有维度组合及相应的指标值计算出来并持久化保存。
2.根据权利要求1所述的大数据质量评价方法,其特征在于:所述质量评价指标模型中包含的质量评价指标如下,
数据缺失率:数据项中存在违反空值约束的记录数占总记录数的比率;
数据误差率:数据项中存在违反取值约束及规范的记录数占总记录数的比率;
数据重复率:违反唯一性约束记录数占总记录数的比率;
数据迟到率:违反时效性约束记录数占总记录数的比率;
数据间断率:违反时间连续性约束的记录数占总记录数的比率。
3.根据权利要求1所述的大数据质量评价方法,其特征在于:所述常用质量约束规则描述模板中包含的质量约束规则如下:
数据唯一性约束规则,即针对数据集中的单条记录描述应遵守的约束:仅在约束的时间范围内检查数据的唯一性;
数据规范性约束规则,即针对数据集中的指定项描述应遵守的约束:包括数据类型约束、小数位数约束、日期时间字符格式约束以及扩展数据格式约束;
数据空值约束规则,即针对数据集中的多个项描述应遵守的约束:非空值约束;能够根据业务需要自定义空值;
数据值域约束规则,即针对数据集中指定项描述应遵守的约束:包括常用值域约束、行数据约束和参照表数据约束;所述常用值域约束描述固定的取值空间;所述行数据约束描述在同一条记录内多个项值的算术表达式结果与当前列值之间应遵守的逻辑关系;参照表数据约束描述参照表数据集中某一项的聚合结果与当前列值之间应遵守的逻辑关系;
数据值集成约束规则,即针对数据集中单条记录描述取值应遵守的约束:根据数据生产的时间顺序,当前数据记录中多个项值的算术表达式与上一条数据记录多个项值的算术表达式之间应遵守的逻辑关系;
数据联系性约束规则,即针对数据集中指定项描述取值应遵守的约束:根据数据生产的时间顺序,当前记录与上一条记录中的指定项的取值应遵守的单调性约束以及值最大变化的幅度约束;
数据时效性约束规则:仅针对实时分析场景,描述数据生产时间与实际上报时间之间可接受的最大延迟时间;
自定义质量约束规则:描述自定义插件部署调用所需的信息,包括包文件名、存放路径、元类型、调用函数名和入参信息。
4.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S3中的描述包括技术属性和管理属性;
所述技术属性描述质量评价指标计算过程中所需的信息,包括连接访问信息、数据结构信息以及扩展技术信息;所述扩展技术信息进一步描述数据存储格式、数据分区和数据分桶;
所述管理属性描述质量评价过程中所需的各种维度信息,包括数据分类维度、归口单位维度和扩展维度。
5.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S4中,指标的参数配置包括异常阈值和汇总权重;
所述异常阈值设置指标值可接受最大值,超出则触发异常处理机制;
汇总权重用于计算对象质量评分,质量评分由该对象下所配置的各个指标值加权计算获取。
6.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S5中,当单个对象中数据体量大于设定阈值时,在任务模型中配置数据分组列,预先将待评价的数据体进行分组,为每个分组分别建立子过程,进一步提升并发度。
7.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S6中,任务按照调度策略分为流式任务、固定周期批式任务、自动触发批式任务;
流式任务初始由任务调度器创建任务实例提交执行,后续不间断的按照预定义的时间窗口自动执行,每次仅计算当前时间窗口内的数据;
固定周期批式任务由任务调度器预生成今日任务执行计划表,按计划依次创建任务实例提交执行;
自动触发批式任务由任务调度器监测数据对象的数据更新消息,即时创建任务实例提交执行。
8.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S7中,维度模型包括事实表和维度表;
事实表记录任务处理的基本数据对象标识、数据体信息、执行结果、关联维度标识;所述数据体信息包括分组标签、起止时间位置和总记录数;所述执行结果包括异常数据记录数和评价状态,评价状态标记记录是否有效,当数据起止时间位置区间内的数据重新执行后,原有记录的评价状态置为无效;
维度表中的数据根据来自于基本质量评价对象模型中预设的维度,按照分类存储到多张维度表中,包含时间维度、分类管理维度、归口管理维度和扩展维度。
9.根据权利要求1所述的大数据质量评价方法,其特征在于:步骤S8中,聚合过程中首先获取各个维度的取值空间,进而计算各维度值组合的取值空间,通过并行计算方式分别计算取值空间的指标值;
当维度个数大于预设个数阈值或维度取值空间大于预设取值空间阈值时,采用构建数据立方体的方式进行优化。
10.一种大数据质量评价系统,其特征在于:系统用于实现上述权利要求1至9任一所述方法,系统包括,
第一模块:用于构建细粒度的质量评价指标模型;
第二模块:用于构建常用质量约束规则描述模板;
第三模块:用于构建基本质量评价对象模型;
第四模块:用于构建基本质量评价对象指标模型;
第五模块:用于构建多任务的指标计算机制;
第六模块:用于构建多策略的任务调度执行机制;
第七模块:用于构建指标计算任务执行结果维度模型;
第八模块:用于构建数据质量报告自动聚合机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703000.7A CN116703228B (zh) | 2023-06-14 | 2023-06-14 | 一种大数据质量评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310703000.7A CN116703228B (zh) | 2023-06-14 | 2023-06-14 | 一种大数据质量评价方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116703228A CN116703228A (zh) | 2023-09-05 |
CN116703228B true CN116703228B (zh) | 2024-01-16 |
Family
ID=87823474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310703000.7A Active CN116703228B (zh) | 2023-06-14 | 2023-06-14 | 一种大数据质量评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116703228B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273552B (zh) * | 2023-11-22 | 2024-02-13 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN112348695A (zh) * | 2020-09-16 | 2021-02-09 | 贵州电网有限责任公司 | 一种基于层次分析法的电力数据质量评价模型构建方法 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115713404A (zh) * | 2022-11-21 | 2023-02-24 | 星际空间(天津)科技发展有限公司 | 一种面向建筑业企业的信用评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6965886B2 (en) * | 2001-11-01 | 2005-11-15 | Actimize Ltd. | System and method for analyzing and utilizing data, by executing complex analytical models in real time |
-
2023
- 2023-06-14 CN CN202310703000.7A patent/CN116703228B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN112348695A (zh) * | 2020-09-16 | 2021-02-09 | 贵州电网有限责任公司 | 一种基于层次分析法的电力数据质量评价模型构建方法 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115713404A (zh) * | 2022-11-21 | 2023-02-24 | 星际空间(天津)科技发展有限公司 | 一种面向建筑业企业的信用评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116703228A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11693912B2 (en) | Adapting database queries for data virtualization over combined database stores | |
US20110022581A1 (en) | Derived statistics for query optimization | |
CN107870949B (zh) | 数据分析作业依赖关系生成方法和系统 | |
CN116703228B (zh) | 一种大数据质量评价方法及系统 | |
CN105069134A (zh) | 一种Oracle统计信息自动收集方法 | |
CN103176974A (zh) | 优化数据库中访问路径的方法和装置 | |
US9569722B2 (en) | Optimal persistence of a business process | |
CN110110108B (zh) | 一种图数据库的数据导入方法及装置 | |
CN110442602A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN112667612A (zh) | 一种数据质量检核方法、装置、电子设备及存储介质 | |
CN107102995A (zh) | 一种sql执行计划的确定方法及装置 | |
CN114238463A (zh) | 一种用于分布式指标计算的计算引擎控制方法和装置 | |
CN115270419B (zh) | 一种实时事件当前状态的孪生方法、订阅方法及系统 | |
CN111522918A (zh) | 数据汇聚方法、装置、电子设备及计算机可读存储介质 | |
CN116010380A (zh) | 一种基于可视化建模的数据仓库自动化管理方法 | |
CN113722141B (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
US9158815B2 (en) | Estimating a number of unique values in a list | |
CN101271550A (zh) | 一种应用系统中的数据分配方法及装置 | |
Jing et al. | An efficient complex event processing system having the ability of parallel processing and multi event pattern sharing | |
CN113868138A (zh) | 测试数据的获取方法、系统、设备及存储介质 | |
CN112015742A (zh) | 基于行列共存的htap数据库的数据处理方法及装置 | |
CN114528270A (zh) | 云环境下实时流数据与业务维度信息自动关联系统及方法 | |
CN111259062A (zh) | 一种能够保证分布式数据库全表查询语句结果集顺序的方法和装置 | |
CN105335489B (zh) | 一种事故报警查询优化方法 | |
US8751205B2 (en) | Generating discrete event simulation data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |