CN114298550A - 一种对水泥生产经营数据的治理方法 - Google Patents
一种对水泥生产经营数据的治理方法 Download PDFInfo
- Publication number
- CN114298550A CN114298550A CN202111630275.XA CN202111630275A CN114298550A CN 114298550 A CN114298550 A CN 114298550A CN 202111630275 A CN202111630275 A CN 202111630275A CN 114298550 A CN114298550 A CN 114298550A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- model
- treatment
- health
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 29
- 239000004568 cement Substances 0.000 title claims abstract description 19
- 230000036541 health Effects 0.000 claims abstract description 45
- 238000007726 management method Methods 0.000 claims abstract description 39
- 238000013499 data model Methods 0.000 claims abstract description 28
- 230000000694 effects Effects 0.000 claims abstract description 26
- 230000010354 integration Effects 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000011161 development Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000011068 loading method Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008520 organization Effects 0.000 claims description 10
- 238000012827 research and development Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 9
- 238000013523 data management Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000005265 energy consumption Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000005067 remediation Methods 0.000 claims 2
- 238000012795 verification Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000009472 formulation Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013068 supply chain management Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种水泥生产经营数据的治理方法,包括:一、数据集成,在整体的业务系统和应用的基础之上建立建立一个数据模型,按照数据模型将业务系统的数据或文件数据通过全量、增量的方式加载到中台数据库;二、数据标准化,实现数据的要素维度的梳理、关联关系的构筑及关系与维度的汇总形成全面的资源库数据集;三、数据开发,制定数据开发规范,对存在的数据相关问题针对性地提供相应解决方案,实现全流程数据处理;四、数据质量管理,根据质量问题对数据质量进行预测评分,设置预警阈值预警,并通过治理评估报告和健康分指标体现治理成效。本发明解决了数据集成程度差、数据的统一管理困难以及无法监控数据质量的问题。
Description
技术领域
本发明属于应用于水泥生产的新一代信息技术领域,具体涉及一种对水泥生产经营数据的治理方法。
背景技术
随着其规模的不断扩大,公司应用了财务系统、协同办公平台、海螺水泥云化销售系统、海螺水泥供应链管理平台、能源管理系统、数字化矿山以及生产制造执行系统(MES)等多套业务系统进行经营管理,同时不断升级优化集散控制系统(DCS)等工业控制系统以加强自动化程度,降本增效,形成可持续竞争的优势。
但是上述这些系统分属于销售、供应、财务、生产等各个领域,分管各领域的基础数据、业务流程、过程管控等相关内容,大量数据散落于各个业务系统之中,未进行集中管理和有效利用数据资产。各业务领域的数据只负责支撑各自的业务系统,在数据集成、数据清洗、主数据管理、数据标准、数据统计分析方面有一定的缺失。
现有技术的技术问题主要体现在以下三点:一是数据集成问题,目前数据散落在各个系统,业务系统之间的数据未全部打通,未进行集中的管理;二是缺少对数据的统一管理,数据模型开发规范、数据标准不尽相同,未进行数据中台层面的统一梳理,分层建模,统一规范和统一标准;三是由于前期数据资产不充足,不完善,导致部分数据的质量存在问题,但现有技术缺乏相应监控预警的能力。
发明内容
本发明的目的是提供一种对水泥生产经营数据的治理方法,用于解决现有技术中存在数据集成程度差、数据的统一管理困难以及无法监控数据质量的问题。
所述的一种水泥生产经营数据的治理方法,包括:
一、数据集成,在整体的业务系统和应用的基础之上建立建立一个数据模型,识别了企业内部跨功能、跨部门、跨组织的共享或冗余数据,按照数据模型将业务系统的数据或文件数据通过全量、增量的方式加载到中台数据库;
二、数据标准化,对数据进行全面标准化,实现数据的要素维度的梳理、关联关系的构筑及关系与维度的汇总形成全面的资源库数据集;
三、数据开发,制定数据开发规范,对存在的数据相关问题针对性地提供相应解决方案,实现全流程数据处理;
四、数据质量管理,针对数据在生命周期的每个阶段的各类数据质量问题,进行识别、度量、监控、预警一系列管理活动,根据质量问题对数据质量进行预测评分,设置预警阈值预警,并通过治理评估报告和健康分指标体现治理成效。
优选的,数据集成中建立的数据模型主要划分成主题域模型和概念性模型,在两者之间逐级扩展;主题域模型在数据模型中处于第一层次,基本原则就是按照需求来划分,对某个主题进行分析后确定的主题边界;概念性模型在数据模型中处于第二层次,将每个主题域进一步细分为“概念”,概念模型是一种高阶数据模型,以实体—关系理论为基础,通过主题域形式描述概念化的结构。
优选的,数据集成中建立的数据模型按照实体链路整理数据,收集所有相关的数据,按照各实体ID作为唯一记录标识,构建整体明细数据,形成以实体ID为基础的销售信息大宽表;按照实体链路中的实体在业务系统中的存放方式,获取描述各个实体的维度,进行维度表的整体设计,涉及的实体依据实体链路相关联。
优选的,数据集成中,将组织管理体系、供应商信息、物料信息、各工序生产数据、能源消耗数据进行批量离线抽取,即批量数据离线同步迁移;而对销量等数据进行增量数据实时采集。
优选的,数据标准化包括:1)接入数据在原始库中实现标准化,原始库分为数据准备区和数据标准层,数据准备区对平台汇聚的数据资源提供数据的临时存储,数据标准层提供对数据的转换、加载、清洗、字段统一、数据去重及数据归一化等操作,实现数据资源的全面标准化;
2)标准化完成后的数据,在资源库中实现要素维度的梳理、关联关系的构筑及关系与维度的汇总,数据资源在数据明细层阶段,根据主题方向构建主题明细,利用元数据及数据血缘关系提供数据溯源及查询能力;完成数据明细层的工作,在数据汇总层对事实明细数据按照特定维度进行汇总,再去重、合并后形成全面的资源库数据集。
优选的,数据标准化构建统一、规范、可共享的全域数据体系,具体方法包括:
(1)确定主数据标准,在集成的数据上进行主数据标准的制定,单个系统进行维护系统的数据以对应系统中的数据标准为准,对于多个系统都有进行维护的且存在差异的信息,通过梳理建立映射表进行关联;
(2)制定命名模型规范,通过规范相关业务描述的事实表、字典表,将字段名称统一归并、设定业务模型表命名统一规范,实现数据释义统一、相同业务字段表述描述统一、业务模型表名与注释直观反映相关数据域与业务过程;在此基础上构建数据公共层,建立数据标准管理规范,数据表的命名规则如:ods_{单位简称}_{业务库简写标识}_{业务库原始表名}[_分区标识]。
优选的,数据开发对全流程产生的数据相关问题针对性地提供相应解决方案,形成相应的治理项;治理时通过触发治理项检测,实现从触发治理项检测、生成治理项问题、查看并处理治理项问题的一系列流程以解决问题,完成数据治理。
优选的,数据质量管理的监控过程如下:
事前:定义数据质量类型、数据质量等级,并明确质量分析步骤。
事中:对应配置各类型数据的数据质量标准,对数据进行数据质量稽核,发现异常数据时发出异常数据结果告警。
事后:对数据质量产生和变化进行原因分析、影响分析,再根据分析结果进行数据质量流程优化以提高数据质量。
优选的,对数据质量进行预测评分是基于治理项,按照定义的健康分模型进行量化评估,最终通过治理评估报告及治理排行榜中的健康分来体现当前所取得的治理成效,健康分是依据在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质这些元数据,使用数据处理及机器学习技术,对各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合分值;治理评估报告能选择从不同视角查看整体的治理成效,或从不同子维度查看各维度的治理成效,便于发现并分析治理项问题较多的维度,进一步开展后续的集中治理工作。
优选的,健康分体系依托不同元数据,建设了“存储、计算、研发、质量和安全”五大健康度领域,并构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标;上述健康度领域对应分别针对数据存储、数据计算、任务研发、质量监控和数据安全方面出现的问题进行统计分析,对各种问题设定相应权重进行评分。
本发明具有以下优点:本发明在数据集成方面打通了各个业务系统,通过离线同步迁移和增量数据实时采集两种方法将数据统一汇聚于数据中心,整合散落的数据资产,数据被有机的组织起来,实际记录了历史上所有的数据库切片信息,并按照实体关系对每一个切片进行了数据组织,这样之后在实际分析过程中,除了支撑常规的策略-销量-利润的实体链路分析,还可以实现按照区域,客户,订单等多维度的灵活分析,从而得到更为精确的分析结果。
本发明通过数据标准化和数据开发实现了对数据的统一管理,其中数据标准化保障数据的内外部使用以及交换的一致性和准确性的规范性约束,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性等问题。数据开发则提供分析、设计、实施、部署及维护一站式数据解决方案,完成数据加工、转换和质量提升等效果,一站式满足从数据集成、数据清洗/转换、数据质量管理等全流程的数据处理。
本发明通过数据开发,针对数据资产不充足,不完善导致部分数据的质量存在问题,制定方案进行解决治理,对生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平,使数据质量获得进一步提高。建立的质量监控体系,在上述过程中持续进行事前、事中、事后的监控预警,并通过合理划分健康度领域进行针对性的多维度数据质量评分,让使用者能选择从不同视角查看整体的治理成效,或从不同子维度查看各维度的治理成效,便于发现并分析治理项问题较多的维度,进一步开展后续的集中治理工作。
附图说明
图1为本发明的一种对水泥生产经营数据的治理方法的数据治理框架图。
图2为本发明按主题、维度分析指标的示例图。
图3为本发明中示例的实体链路的流程图。
图4为本发明中数据标准管理体系的流程图。
图5为本发明中数据质量管理过程的流程图。
图6为本发明汇总数据治理整体逻辑图。
图7为本发明中五大健康度领域的健康分示意图。
图8为本发明中治理评估报告的界面图。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。
如图1所示,本发明提供一种对水泥生产经营数据的治理方法,包括:
一、数据集成。
本方法基于海螺数据中心,利用JDBC数据库连接,采用批量数据离线同步迁移和增量数据实时采集两种链路方式针对云化销售系统、供应链系统、财务系统、制造执行系统(MES)、能源管理系统、协同办公平台进行数据集成。其中,将组织管理体系、供应商信息、物料信息、各工序生产数据、能源消耗数据进行批量离线抽取,即批量数据离线同步迁移;而对销量等数据进行增量数据实时采集;通过这两种方法将数据统一汇聚于数据中心。
数据集成是用来完成数据导入的第一步,将业务系统的数据或文件数据通过全量、增量的方式加载到中台数据库,但是数据集成不是简单的数据搬家,而是按照一定的方法论来操作,需要建立一个数据模型,数据模型是一种建设蓝图,它识别了企业内部跨功能、跨部门、跨组织的共享或冗余数据,为系统的规划、设计和实施提供一种可视化方式和支撑框架,是企业内部所有应用系统数据模型设计的起点,如ODS、CDM等系统的设计开发,有助于消除数据孤岛、促进数据整合。数据模型是一个数据集成定义,它不依赖于企业内部某个具体的业务系统或应用,是在整体的业务系统和应用的基础之上建立的模型,数据模型主要划分成主题域模型和概念性(逻辑)模型,在两者之间逐级扩展。
■主题域模型在数据模型中处于第一层次,基本原则就是按照需求来划分,如财务板块可以按照销售、成本效益、费用效益主题来划分建立主题域模型。主题域模型是对某个主题进行分析后确定的主题边界,是针对企业关键业务领域、业务概念的分类方法和框架。
■概念性模型在数据模型中处于第二层次,将每个主题域进一步细分为“概念”,概念模型是一种高阶数据模型,以实体—关系(Entity-Relationship,简称E-R)理论为基础,通过主题域形式描述概念化的结构。
下面的例子为销售折扣的影响分析:
在销售经营的过程中,业务侧需要对销售策略对销量和利润的影响进行多维度分析,以确定各类销售策略的有效性,具体示例如图2所示。传统的分析方式往往不能有效的应对本分析需求。究其原因,与销售相关的数据主要分散在云销系统,销发系统中,数据整合困难,难以形成销售策略制定、销售活动执行、销售结果分析的数据闭环。这导致财务侧对于结果是无法预测的,如销售策略是否真的对销量和销价产生了正向影响、是否还有更优化的优惠方案增加利润等。
销售过程的主要实体包含合同,订单,发货单和结算单。如图3所示,其整体流程如下。
●销售策略制定:根据分析结果制定相应的销售策略。主要考虑区域,客户类型,时间段因素。有针对单个客户的专门销售策略,但是占比非常小。销售策略适用于多个合同,与合同实体是一对多关系。
●合同签署:拟定销售的具体细节。产生合同实体,包含客户信息,产品信息,适用的价格策略。一个合同会根据APP下单的时机生成不同的订单。合同实体与订单是一对多关系。
●APP下单:客户根据合同和预付款情况在APP进行下单。下单后将生成具体订单,按照挂牌价进行费用预估。订单与后续的发货单是一对多关系。发货单是基于客户的进厂车辆进行组织的。
●客户车出厂:客户按照下单明细,自行组织车辆进厂进行装货运输。车辆进厂,出厂会产生空载、重载的磅单信息,用于计算发货量。每辆车都产生对应的发货单,包含车辆信息,产品信息,重量信息等。发货单与结算单明细是一一对应关系。
●月末结算:月末按照客户实际的下单量,进行结算。结算依赖的结算单记录每一量车的明细。根据单客户销售的总量,确定优惠策略,并根据优惠策略确定最终的付款信息。
模型设计可以按照销售策略-合同-订单-发货单-结算单的实体链路整理数据,收集所有相关的数据进入大数据平台,按照各实体ID作为唯一记录标识,构建整体明细数据,形成以实体ID为基础的销售信息大宽表。
维表设计方面,按照这几个实体在业务系统中的存放方式,获取描述各个实体的维度,比如车牌号,优惠策略编号,进行维度表的整体设计。通过几个实体的关联,数据被有机的组织起来,方便在展示层进行整体的分析,查看不同的销售策略,对历史的销售产生的具体影响。
在这种数据组织模式下,系统实际记录了历史上所有的数据库切片信息,并按照实体关系对每一个切片进行了数据组织。在实际分析过程中,除了支撑常规的策略-销量-利润分析,还可以实现按照区域,客户,订单等多维度的灵活分析,从而得到更为精确的分析结果。
二、数据标准化。
数据治理关键在于对汇聚的数据进行标准化处理,根据数据处理标准要求对数据进行重新整合,以数据应用为导向,提升数据价值密度,为数据智能应用实现数据抽象、数据准备、数据增值。其主要过程如下:
■接入数据在原始库中实现标准化。原始库分为数据准备区和数据标准层,数据准备区对平台汇聚的数据资源提供数据的临时存储,作为源数据层,实现对数据源的一次性获取,减少数据生产环节的压力,同时确保在标准化过程中进行数据运算错误后的“回溯”;数据标准层作为统一的、规范化的、可共享使用的标准化数据层,提供对数据的转换、加载、清洗、字段统一、数据去重及数据归一化等操作,实现数据资源的全面标准化。
■标准化完成后的数据,在资源库中实现要素维度的梳理、关联关系的构筑及关系与维度的汇总。数据资源在数据明细层阶段,根据主题方向构建主题明细,利用元数据及数据血缘关系提供数据溯源及查询能力;完成数据明细层的工作,在数据汇总层对事实明细数据按照特定维度进行汇总,再去重、合并后形成全面的资源库数据集。
■利用数据标准(DataStandards)是保障数据的内外部使用以及交换的一致性和准确性的规范性约束。数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一,对于企业提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。
由于各系统数据模型开发规范,数据标准不相同,如供应商新的数据打通建立了统一,但是历史数据的供应商未统一。因此本方法借助数据标准管理体系,可以构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性等问题。具体方法如下。
(1)确定主数据标准。
在集成的数据上进行主数据标准的制定,统一客户信息、供应商信息、组织机构信息、工序信息、物料编码信息、产品信息、会计科目基本信息等数据。其中,客户信息、产品信息以云销系统为准,供应商信息、物料信息、工序信息以供应链系统为准,组织机构信息以OA系统为准,会计科目信息以财务系统为准。对于多个系统都有进行维护的且存在差异的信息,通过梳理建立映射表进行关联。
(2)制定命名模型规范。
这些数据通过规范相关业务描述的事实表、字典表,将字段名称统一归并、设定业务模型表命名统一规范,实现数据释义统一、相同业务字段表述描述统一、业务模型表名与注释直观反映相关数据域与业务过程。在此基础上构建数据公共层,数据公共层包括数据明细层(ODS)、数据汇总层(DWD)和数据应用层(ADS),建立清晰有序的数据标准管理规范,实现对上层数据应用的标准化支撑;数据表的命名规则如:
ods_{单位简称}_{业务库简写标识}_{业务库原始表名}[_分区标识],
ods_faw_info_project_year_df(项目明细年表)。
如图4所示,对应的数据标准管理规范具体包括如下内容:
●业务板块:业务板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。可依据独立的运营体系进行划分。
●数据域:数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。为保障整个体系的生命力,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。
●业务过程:业务过程可以概括为一个个不可拆分的行为事件。指企业的业务活动事件,如下单、支付、退款都是业务过程,业务过程就是企业活动中的事件。
●维度实体:维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间周期(其中包括年、季、月、周、日等级别的内容)。
●指标模型:原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词,如支付金额。派生指标是用户在业务需求中真正需要的指标,一个派生指标由:一个或多个原子指标在不同的指标条件、不同的计算公式组合而成。
三、数据开发。
数据开发是编排、调度和运维的中心,数据开发是一个提供分析、设计、实施、部署及维护一站式数据解决方案,完成数据加工、转换和质量提升等。数据开发屏蔽了各种数据存储的差异,需要制定详细的数据开发规范。一站式满足从数据集成、数据清洗/转换、数据质量管理等全流程的数据处理,是数据治理实施的主战场。
例如:业务系统中存在下列问题:①数据有空值或者不完整;②主键未标识,数据关联不对应;上述原因导致数据质量不高,影响指标数据,无法为上层应用提供有效支撑。
解决方案从数据的源头控制好数据质量,制定数据过滤条件,对于空值、不完整或其他形式的脏数据,在数据治理时进行过滤。①通过制定规范的唯一性校验规则、空值校验规则、完整性校验规则及一致性校验规则来校验数据的唯一性、完整性和一致性,对系统表中的一个或多个联合字段进行检查校验。②通过规范的主外键校验规则来检测系统中数据关联不对应的问题。通过对系统中主表定义主外键校验规则并关联对应外键字段的附表及字段,得到系统关系中不对应的问题数量及主表中的问题记录显示字段明细。
如图5所示,对上述实际存在的数据相关问题针对性地提供相应解决方案,形成相应的治理项。治理时通过触发治理项检测,实现从触发治理项检测、生成治理项问题、查看并处理治理项问题的一系列流程以解决问题,完成数据治理。
四、数据质量管理。
数据质量管理的目标在于保证数据满足使用的要求。数据质量要求各业务部门对相应数据领域的数据质量全权负责,按业务需求设计数据质量标准,制定数据质量管控目标,并遵循企业数据治理要求进行数据质量度量,制定符合各自业务情况的数据质量政策及数据质量相关的改进计划,持续进行数据质量管控。
建立数据质量的流程化监控体系,对数据的新建、变更、采集、加工、装载、应用等各个环节进行流程化监控。数据质量管理过程中,通过针对数据从计划、获取、存储、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平,使数据质量获得进一步提高。如图6所示,具体过程如下。
事前:定义数据质量类型、数据质量等级,并明确质量分析步骤。
事中:对应配置各类型数据的数据质量标准,对数据进行数据质量稽核,发现异常数据时发出异常数据结果告警。
事后:对数据质量产生和变化进行原因分析、影响分析,再根据分析结果进行数据质量流程优化以提高数据质量。
上述过程步骤参照了质量管理的一般流程,符合PDCA循环。
质量监控及预警。平台通过数据检测、数据可视化的模块对已检测到的数据进行可视化展示及邮件、短信告警,并在系统后台配置相关责任人员,使问题能够得到及时解决。同时,建立数据模型算法,设置预警阈值,对数据质量进行预测评分。
其中,数据治理结果评估是基于治理项,按照定义的健康分模型进行量化评估,最终通过治理评估报告及治理排行榜中的健康分来体现当前所取得的治理成效,健康分越高,治理成效越好。其中,健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据,使用数据处理及机器学习等技术,对各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合分值。在数据治理中,健康分体系依托不同元数据,建设了“存储、计算、研发、质量和安全”等五大健康度领域,并构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标,如图7所示。上述健康度领域对应分别针对数据存储、数据计算、任务研发、质量监控和数据安全方面出现的问题进行统计分析,对各种问题设定相应权重进行评分。
健康度领域对应包含的部分相关问题如下:
存储:未管理的表、空表最近90天未访问表、产出表未被读取。
计算:数据倾斜、暴力扫描。
研发:冲突任务、导入为空、持续导入一致、同源导入、OSS同步优化、任务运行时间超长、任务运行时间同期对比超长、连续出错节点、暂停节点、空跑节点。
质量:未配置质量监控的表、质量告警未处理的表。
安全:数据下载控制、数据保护控制、数据存储加密、安全访问控制、数据源访问控制、生产与开发数据源隔离、计算引擎生产开发环境隔离、合理指定工作空间管理员数量、合理分配工作空间成员角色。
如图8所示,治理评估报告主要通过健康分的方式体现治理成效,可选择从不同视角查看整体的治理成效,或从不同子维度查看各维度的治理成效,便于发现并分析治理项问题较多的维度,进一步开展后续的集中治理工作。
待治理问题处理完成后,技术人员可以进入治理评估页面,通过治理评估报告或治理排行榜,从不同视角查看已执行的治理操作所取得的治理成效。可以通过分析治理结果,快速识别治理项问题较多的维度及问题类别,推动治理工作的解决落地,达成治理目标。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。
Claims (10)
1.一种水泥生产经营数据的治理方法,其特征在于:包括:
一、数据集成,在整体的业务系统和应用的基础之上建立建立一个数据模型,识别了企业内部跨功能、跨部门、跨组织的共享或冗余数据,按照数据模型将业务系统的数据或文件数据通过全量、增量的方式加载到中台数据库;
二、数据标准化,对数据进行全面标准化,实现数据的要素维度的梳理、关联关系的构筑及关系与维度的汇总形成全面的资源库数据集;
三、数据开发,制定数据开发规范,对存在的数据相关问题针对性地提供相应解决方案,实现全流程数据处理;
四、数据质量管理,针对数据在生命周期的每个阶段的各类数据质量问题,进行识别、度量、监控、预警一系列管理活动,根据质量问题对数据质量进行预测评分,设置预警阈值预警,并通过治理评估报告和健康分指标体现治理成效。
2.根据权利要求1所述的一种水泥生产经营数据的治理方法,其特征在于:数据集成中建立的数据模型主要划分成主题域模型和概念性模型,在两者之间逐级扩展;主题域模型在数据模型中处于第一层次,基本原则就是按照需求来划分,对某个主题进行分析后确定的主题边界;概念性模型在数据模型中处于第二层次,将每个主题域进一步细分为“概念”,概念模型是一种高阶数据模型,以实体—关系理论为基础,通过主题域形式描述概念化的结构。
3.根据权利要求1或2所述的一种水泥生产经营数据的治理方法,其特征在于:数据集成中建立的数据模型按照实体链路整理数据,收集所有相关的数据,按照各实体ID作为唯一记录标识,构建整体明细数据,形成以实体ID为基础的销售信息大宽表;按照实体链路中的实体在业务系统中的存放方式,获取描述各个实体的维度,进行维度表的整体设计,涉及的实体依据实体链路相关联。
4.根据权利要求1所述的一种水泥生产经营数据的治理方法,其特征在于:数据集成中,将组织管理体系、供应商信息、物料信息、各工序生产数据、能源消耗数据进行批量离线抽取,即批量数据离线同步迁移;而对销量等数据进行增量数据实时采集。
5.根据权利要求1所述的一种水泥生产经营数据的治理方法,其特征在于:数据标准化包括:1)接入数据在原始库中实现标准化,原始库分为数据准备区和数据标准层,数据准备区对平台汇聚的数据资源提供数据的临时存储,数据标准层提供对数据的转换、加载、清洗、字段统一、数据去重及数据归一化等操作,实现数据资源的全面标准化;
2)标准化完成后的数据,在资源库中实现要素维度的梳理、关联关系的构筑及关系与维度的汇总,数据资源在数据明细层阶段,根据主题方向构建主题明细,利用元数据及数据血缘关系提供数据溯源及查询能力;完成数据明细层的工作,在数据汇总层对事实明细数据按照特定维度进行汇总,再去重、合并后形成全面的资源库数据集。
6.根据权利要求1或5所述的一种水泥生产经营数据的治理方法,其特征在于:数据标准化构建统一、规范、可共享的全域数据体系,具体方法包括:
(1)确定主数据标准,在集成的数据上进行主数据标准的制定,单个系统进行维护系统的数据以对应系统中的数据标准为准,对于多个系统都有进行维护的且存在差异的信息,通过梳理建立映射表进行关联;
(2)制定命名模型规范,通过规范相关业务描述的事实表、字典表,将字段名称统一归并、设定业务模型表命名统一规范,实现数据释义统一、相同业务字段表述描述统一、业务模型表名与注释直观反映相关数据域与业务过程;在此基础上构建数据公共层,建立数据标准管理规范,数据表的命名规则如:ods_{单位简称}_{业务库简写标识}_{业务库原始表名}[_分区标识]。
7.根据权利要求6所述的一种水泥生产经营数据的治理方法,其特征在于:数据开发对全流程产生的数据相关问题针对性地提供相应解决方案,形成相应的治理项;治理时通过触发治理项检测,实现从触发治理项检测、生成治理项问题、查看并处理治理项问题的一系列流程以解决问题,完成数据治理。
8.根据权利要求1或7所述的一种水泥生产经营数据的治理方法,其特征在于:数据质量管理的监控过程如下:
事前:定义数据质量类型、数据质量等级,并明确质量分析步骤。
事中:对应配置各类型数据的数据质量标准,对数据进行数据质量稽核,发现异常数据时发出异常数据结果告警。
事后:对数据质量产生和变化进行原因分析、影响分析,再根据分析结果进行数据质量流程优化以提高数据质量。
9.根据权利要求8所述的一种水泥生产经营数据的治理方法,其特征在于:对数据质量进行预测评分是基于治理项,按照定义的健康分模型进行量化评估,最终通过治理评估报告及治理排行榜中的健康分来体现当前所取得的治理成效,健康分是依据在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质这些元数据,使用数据处理及机器学习技术,对各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合分值;治理评估报告能选择从不同视角查看整体的治理成效,或从不同子维度查看各维度的治理成效,便于发现并分析治理项问题较多的维度,进一步开展后续的集中治理工作。
10.根据权利要求9所述的一种水泥生产经营数据的治理方法,其特征在于:健康分体系依托不同元数据,建设了“存储、计算、研发、质量和安全”五大健康度领域,并构建“存储健康分、计算健康分、研发健康分、质量健康分和安全健康分”五大健康分指标;上述健康度领域对应分别针对数据存储、数据计算、任务研发、质量监控和数据安全方面出现的问题进行统计分析,对各种问题设定相应权重进行评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630275.XA CN114298550A (zh) | 2021-12-28 | 2021-12-28 | 一种对水泥生产经营数据的治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630275.XA CN114298550A (zh) | 2021-12-28 | 2021-12-28 | 一种对水泥生产经营数据的治理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114298550A true CN114298550A (zh) | 2022-04-08 |
Family
ID=80971428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111630275.XA Pending CN114298550A (zh) | 2021-12-28 | 2021-12-28 | 一种对水泥生产经营数据的治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298550A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522095A (zh) * | 2023-06-30 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于数据中台的主数据治理方法 |
CN116932515A (zh) * | 2023-08-01 | 2023-10-24 | 北京健康在线技术开发有限公司 | 实现生产系统数据解耦的数据治理方法、装置、设备及介质 |
CN118277372A (zh) * | 2024-06-04 | 2024-07-02 | 烟台海颐软件股份有限公司 | 一种电力客户数据清洗治理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126030A1 (en) * | 2006-11-29 | 2008-05-29 | American Express Travel Related Services Company, Inc. | System and method for managing simulation models |
KR20120082290A (ko) * | 2011-01-13 | 2012-07-23 | 재단법인 한국데이터베이스진흥원 | 데이터 품질관리 방법 및 프레임워크 |
US20160217419A1 (en) * | 2015-01-27 | 2016-07-28 | Tata Consultancy Services Limited | Data analysis system and method to enable integrated view of customer information |
US20180137148A1 (en) * | 2016-11-11 | 2018-05-17 | International Business Machines Corporation | Computing the need for standardization of a set of values |
CN110019176A (zh) * | 2019-04-11 | 2019-07-16 | 普元信息技术股份有限公司 | 提高数据治理服务成功率的数据治理控制系统 |
US20190332294A1 (en) * | 2018-04-30 | 2019-10-31 | EMC IP Holding Company LLC | Automated data quality servicing framework for efficient utilization of information technology resources |
CN110706063A (zh) * | 2019-09-20 | 2020-01-17 | 深圳市昂捷信息技术股份有限公司 | 一种全渠道营销经营的后台系统 |
CN112231315A (zh) * | 2020-12-16 | 2021-01-15 | 武汉凡松科技有限公司 | 一种基于大数据的数据治理方法 |
CN112256782A (zh) * | 2020-10-30 | 2021-01-22 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 基于Hadoop的电力大数据处理系统 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
CN113111046A (zh) * | 2020-01-10 | 2021-07-13 | 联洋国融(北京)科技有限公司 | 一种基于主数据驱动的数据治理系统 |
CN113762735A (zh) * | 2021-08-18 | 2021-12-07 | 江苏电力信息技术有限公司 | 一种基于规则库的数据质量治理系统及方法 |
-
2021
- 2021-12-28 CN CN202111630275.XA patent/CN114298550A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126030A1 (en) * | 2006-11-29 | 2008-05-29 | American Express Travel Related Services Company, Inc. | System and method for managing simulation models |
KR20120082290A (ko) * | 2011-01-13 | 2012-07-23 | 재단법인 한국데이터베이스진흥원 | 데이터 품질관리 방법 및 프레임워크 |
US20160217419A1 (en) * | 2015-01-27 | 2016-07-28 | Tata Consultancy Services Limited | Data analysis system and method to enable integrated view of customer information |
US20180137148A1 (en) * | 2016-11-11 | 2018-05-17 | International Business Machines Corporation | Computing the need for standardization of a set of values |
US20190332294A1 (en) * | 2018-04-30 | 2019-10-31 | EMC IP Holding Company LLC | Automated data quality servicing framework for efficient utilization of information technology resources |
CN110019176A (zh) * | 2019-04-11 | 2019-07-16 | 普元信息技术股份有限公司 | 提高数据治理服务成功率的数据治理控制系统 |
CN110706063A (zh) * | 2019-09-20 | 2020-01-17 | 深圳市昂捷信息技术股份有限公司 | 一种全渠道营销经营的后台系统 |
CN113111046A (zh) * | 2020-01-10 | 2021-07-13 | 联洋国融(北京)科技有限公司 | 一种基于主数据驱动的数据治理系统 |
CN112256782A (zh) * | 2020-10-30 | 2021-01-22 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 基于Hadoop的电力大数据处理系统 |
CN112231315A (zh) * | 2020-12-16 | 2021-01-15 | 武汉凡松科技有限公司 | 一种基于大数据的数据治理方法 |
CN112699175A (zh) * | 2021-01-15 | 2021-04-23 | 广州汇智通信技术有限公司 | 一种数据治理系统及其方法 |
CN113762735A (zh) * | 2021-08-18 | 2021-12-07 | 江苏电力信息技术有限公司 | 一种基于规则库的数据质量治理系统及方法 |
Non-Patent Citations (1)
Title |
---|
苏博;陈溯;唐成功;: "ERP数据质量评估与数据治理方法研究", 信息系统工程, no. 08, 20 August 2012 (2012-08-20), pages 142 - 146 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522095A (zh) * | 2023-06-30 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于数据中台的主数据治理方法 |
CN116522095B (zh) * | 2023-06-30 | 2023-09-08 | 中交第四航务工程勘察设计院有限公司 | 一种基于数据中台的主数据治理方法 |
CN116932515A (zh) * | 2023-08-01 | 2023-10-24 | 北京健康在线技术开发有限公司 | 实现生产系统数据解耦的数据治理方法、装置、设备及介质 |
CN118277372A (zh) * | 2024-06-04 | 2024-07-02 | 烟台海颐软件股份有限公司 | 一种电力客户数据清洗治理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
González López de Murillas et al. | Connecting databases with process mining: a meta model and toolset | |
Naqvi et al. | Time series databases and influxdb | |
CN111008197A (zh) | 一种电力营销服务系统数据中台设计方法 | |
CN114298550A (zh) | 一种对水泥生产经营数据的治理方法 | |
CN107256443A (zh) | 基于业务和数据集成的线损实时计算方法 | |
CN112926858A (zh) | 电力营销业务运营指标设计方法及装置 | |
Löfstrand et al. | A model for predicting and monitoring industrial system availability | |
CN113723822A (zh) | 供电服务数据管理系统 | |
CN114756563A (zh) | 一种互联网多种复杂业务线并存的数据治理系统 | |
Tundys et al. | Sustainable supply chain management-Key Performance Indicators (KPI) as an element for measuring of processes | |
Aljumaili | Data quality assessment: Applied in maintenance | |
CN115577883A (zh) | 碳资产管理方法及系统、电子设备及存储介质 | |
Martinviita | Time series database in Industrial IoT and its testing tool | |
CN116701358B (zh) | 一种数据处理方法及系统 | |
CN116151632A (zh) | 一种数据架构方法 | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model | |
CN111427936B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
Liu et al. | Application of requirement-oriented data quality evaluation method | |
Varga | Challenges of Data Management in Always-On Enterprise Information Systems | |
CN112396349A (zh) | 一种基于业务实体的数据质量监控方法 | |
Valencia Parra | Analysis of big data architectures and pipelines: Challenges and opportunities | |
Sahin et al. | Control limit policies for warranty, maintenance and upgrade of software systems | |
Mahanti | Application of Quality Tools to Data Warehousing Projects. | |
Tyrychtr et al. | EM-OLAP Framework: Econometric Model Transformation Method for OLAP Design in Intelligence Systems | |
Li et al. | Tractor manufacturing quality data acquisition, analysis and utilization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |