CN113127459B - 一种数据治理的实现方法、装置、可读介质及电子设备 - Google Patents
一种数据治理的实现方法、装置、可读介质及电子设备 Download PDFInfo
- Publication number
- CN113127459B CN113127459B CN201911406157.3A CN201911406157A CN113127459B CN 113127459 B CN113127459 B CN 113127459B CN 201911406157 A CN201911406157 A CN 201911406157A CN 113127459 B CN113127459 B CN 113127459B
- Authority
- CN
- China
- Prior art keywords
- quality
- data
- preset
- treated
- production system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013523 data management Methods 0.000 title claims abstract description 30
- 238000003908 quality control method Methods 0.000 claims abstract description 66
- 238000004519 manufacturing process Methods 0.000 claims abstract description 54
- 238000012795 verification Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013441 quality evaluation Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 17
- 238000007405 data analysis Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 6
- 238000013506 data mapping Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种数据治理的实现方法、装置、可读介质及电子设备,该方法包括:获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;基于预设质量控制规则,确定所述待治理数据的质量问题;基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;基于更新后的所述预设生产系统,更新所述原始数据。本发明提供的技术方案通过预设质量控制规则确定待治理数据的质量问题,再根据质量问题更新预设生产系统及预设质量控制规则,使得根据更新后的预设生产系统更新的原始数据的质量不断改进,从而有效的对数据质量进行控制。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据治理的实现方法、装置、可读介质及电子设备。
背景技术
数据是大数据分析和人工智能等技术的原始材料,数据的质量会直接对大数据分析和人工智能的结果产生影响,因此为了获取到干净的、结构清晰的优质数据,通常会对数据进行治理,数据治理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。
而目前的数据治理的实现方法常常是基于传统数据库技术,对采集到的原始数据库中的数据进行字段的质量排查,而这种数据治理的实现方式,因只能对简单的数据质量问题进行排查而常常不能有效对数据质量进行控制。
发明内容
本发明提供了一种数据治理的实现方法、装置、可读介质及电子设备,通过预设质量控制规则确定待治理数据的质量问题,再根据质量问题更新预设生产系统及预设质量控制规则,使得根据更新后的预设生产系统更新的原始数据的质量不断改进,从而有效的对数据质量进行控制。
第一方面,本发明提供了一种数据治理的实现方法,包括:
获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;
基于预设质量控制规则,确定所述待治理数据的质量问题;
基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;
基于更新后的所述预设生产系统,更新所述原始数据。
第二方面,本发明提供了一种数据治理的实现装置,包括:
数据获取模块,用于获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;
质量问题确定模块,用于基于预设质量控制规则,确定所述待治理数据的质量问题;
第一更新处理模块,用于基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;
第二更新处理模块,用于基于更新后的所述预设生产系统,更新所述原始数据。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面所述的方法。
本发明提供了一种数据治理的实现方法、装置、可读介质及电子设备;该方法通过对预设生产系统产生的原始数据进行质量验证,对未通过质量验证的待治理数据通过预设质量控制规则进行进一步判断,确定待治理数据的质量问题,进一步对确定出的质量问题进行分析,以更新预设生产系统及预设质量控制规则,从而利用更新后的预设生产系统对原始数据进行更新,对更新后的原始数据再次进行质量验证,如此进行循环管理,直至确定出的原始数据通过质量验证,即随着预设生产系统和预设质量控制规则的不断更新,会不断的提高原始数据的质量,从而实现了对数据质量的有效控制。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的数据治理的实现方法的流程示意图;
图2为本发明另一实施例提供的数据治理的实现方法的流程示意图;
图3为本发明又一实施例提供的数据治理的实现方法的流程示意图;
图4为本发明又一实施例提供的数据治理的实现方法中数据质量评分模型的示意图;
图5为本发明一实施例提供的数据治理的实现装置的结构示意图;
图6为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
前述已知,目前的数据治理的实现方法常常是基于传统数据库技术,通过对采集到原始数据库中的数据进行字段的质量排查,常常不能有效的对数据质量进行控制。因此,本发明提供的技术方案通过预设质量控制规则确定待治理数据的质量问题,再根据质量问题更新预设生产系统及预设质量控制规则,从而可以不断的改进原始数据的数据质量,有效的对数据质量进行控制。
参照图1所示,为本发明提供的数据治理的实现方法的一个具体实施例。本实施例中所述方法包括以下步骤:
步骤101,获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据。
在本实施例中,获取预设生产系统产生的原始数据,对原始数据进行质量验证,将未通过质量验证的数据确定为待治理数据。具体的生产系统可以为医院的生产系统,则原始数据可以为医疗数据。
步骤102,基于预设质量控制规则,确定所述待治理数据的质量问题。
在本实施例中,预先制定预设质量控制规范,根据制定的质量控制规范对质量控制规则进行配置,并利用该预设质量控制规则对待治理数据进行判断,以确定出待治理数据的质量问题。
步骤103,基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则。
在本实施例中,在确定待治理数据的质量问题后,对质量问题进行分析,根据质量问题的分析结果,对预设生产系统及预设质量控制规则进行更新。具体的,在对预设生产系统进行更新时,可以对预设生产系统的功能和流程等进行更新。
步骤104,基于更新后的所述预设生产系统,更新所述原始数据。
在本实施例中,利用更新后的预设生产系统对原始数据进行更新,获取到更新的原始数据后,再次对原始数据进行质量验证,若还未通过验证,则不断的循环更新预设生产系统及预设质量控制规则,在不断的更新过程中,原始数据的质量不断的进行提高,直至通过数据验证为止。
上述实施例中,通过对预设生产系统产生的原始数据进行质量验证,对未通过质量验证的待治理数据通过预设质量控制规则进行进一步判断,确定待治理数据的质量问题,进一步对确定出的质量问题进行分析,以更新预设生产系统及预设质量控制规则,从而利用更新后的预设生产系统对原始数据进行更新,对更新后的原始数据再次进行质量验证,如此进行循环管理,直至确定出的原始数据通过质量验证,即随着预设生产系统和预设质量控制规则的不断更新,会不断的提高原始数据的质量,从而实现了对数据质量的有效控制。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明提供的数据治理的实现方法的另一个具体实施例。本实施例中,所述数据治理的实现方法包括以下步骤:
步骤201,获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据。
步骤202,确定所述待治理数据对应的数据采集信息是否符合预设数据采集规则,若否,则进行预警处理。
在本实施例中,事先制定数据采集规范,并根据制定的数据采集规范配置数据采集规则,用预设数据采集规则对待治理数据对应的数据采集信息进行判断,以确定待治理数据对应的数据采集信息的准确性,避免因数据采集信息错误而造成的数据质量问题,当确定出待治理数据对应的数据采集信息不符合预设数据采集规则时,进行预警处理,以提醒相关工作人员对数据采集过程存在问题,可以及时进行纠正。若待治理数据对应的数据采集信息符合预设数据采集规则,则执行步骤203。
步骤203,基于所述预设质量控制规则,依次对所述待治理数据在数据备份、数据映射、数据清洗和数据分析过程中进行质量控制,生成原生数据报告和衍生数据报告。
在本实施例中,为了有效的对数据进行质量控制,需要在数据治理的实现过程中,不仅可以确定出数据的原始质量问题,还可以确定出数据的次生质量问题,因此需要利用预设质量控制规则对数据备份、数据映射、数据清洗和数据分析过程中进行质量控制,以生成原生数据报告和衍生数据报告。需要说明的是,在各个数据环节均可以生产数据报告,例如数据备份过程的数据传输报告、数据映射过程的数据映射报告,数据清洗过程的数据清洗报告,数据分析过程的数据趋势异常报告,其中,数据备份过程与数据映射过程对应的数据为未经过加工处理的原生数据,因此可以共同生成原生数据报告,数据清洗和数据分析过程对应的是经过加工处理的衍生数据,因此可以共同生成衍生数据报告。
具体的,在制定预设质量控制规范时,可以参考以下材料进行制定,如GB/T36344-2018信息技术数据质量评价指标、电子病历系统功能应用水平分级评价方法及标准及ISO/IEC 25024:2015信息技术系统和软件工程,系统和软件的质量要求和评定(SQuaRE)。在一种可能的实现方式中,依据国家数据质量评价标准GB/T 36344-2018,对数据的完整性、准确性、一致性和时效性制定指标时,可以按照下面所述进行制定:
完整性评价指标:
准确性评价指标:
一致性评价指标:
时效性评价指标:
在针对不同的数据应用场景,需要启用的质量控制规则略有差异,例如在数据信息涉及患者、看诊、费用级别时,配置的质量控制规则通常会对数据完整性及一致性进行控制;在数据信息涉及医疗机构、科室、人员、服务项目、收费项目时,配置的质量控制规则通常会对数据的准确性及时效性进行控制。
步骤204,基于所述原生数据报告和所述衍生数据报告,确定所述待治理数据的质量问题。
在本实施例中,对生成的原生数据报告和衍生数据报告进行分析,确定出待治理数据的质量问题,确定出的质量问题不仅包括原始质量问题还包括次生数据质量。具体的,质量问题包括数据不可用、数据部分可用和数据分布异常等,可以导致数据不可用问题的有数据传输失败、数据传输量损失、关键数据项目空值、单项数据值域异常;可以导致数据部分可用的有数据关联性缺失、主数据值域违规、数据时序混乱、数据格式违规等;可以导致数据分布异常的有前端业务异常或数据采集、传输、处理中发生的系统性偏差造成的,例如医疗机构工作量的时序周期性背离、医疗服务上下游之间相关性的偏离(例如:妇科产检人数与超声检查量)等等。
步骤205,对所述质量问题进行分析,确定并分发优化任务。
本实施例中,对质量问题分析,确定可能产生该质量问题的原因,从而为了避免该质量问题的再次发生,需要根据该质量问题确定优化任务,并将优化任务分发给相应的工作人员。例如为了对医院生成系统进行优化,则发送优化任务至医院端。具体的,在对质量问题进行分析时,从质量问题中筛选出高频发生、对业务影响显著、高优先级的事件做分析处理确定优化任务。
步骤206,接收完成所述优化任务的优化配置信息,基于所述优化配置信息更新所述预设生产系统及所述预设质量控制规则。
本实施例中,在接收到优化任务后,相关工作人员会从系统调整、数据更新、业务优化、预防改进等方向对数据质量进行改善,在确定出优化配置信息后,提交该优化配置信息,则在接收到优化配置信息后,即可根据优化配置对预设生产系统和预设质量控制规则进行更新。具体的,医院端在接收到优化任务后,会进行任务领取、处理进度跟踪和提交优化配置信息等操作。在涉及预设质量控制规则更新时,需要说明的是由于部分原生数据质量问题可以通过数据后期的清洗-转换加工完成,所以质量事件会引发对数据清洗-转换-质量控制规则的持续配置更新。
步骤207,基于更新后的所述预设生产系统,更新所述原始数据。
在上述实施例中,通过预先确定预设数据采集规则对数据采集信息进行控制,以避免因数据采集问题引起的数据质量问题,然后在数据备份、数据映射、数据清洗和数据分析过程进行质量控制,会生成原生数据报告和衍生数据报告,并依据原生数据报告和衍生数据报告确定待治理数据的质量问题,从而避免仅在原生数据的基础层面确定质量问题,实现了发现更深层次的次生质量问题,使得在根据确定的质量问题进行预设生产系统及预设质量控制规则更新后,可以有效的提供原始数据的数据质量。
如图3所示,为本发明提供的数据治理的实现方法的另一个具体实施例。本实施例中,所述数据治理的实现方法包括以下步骤:
步骤301,建立数据质量评分模型。
在本实施例中,预先建立数据质量评分模型,以原始数据为医疗数据为例,可以以字段为评分最小单元,针对结果影响程度设置字段及规则对应的权重,依据问题发生率逐层计算质量得分,如图4所示,该数据质量评分模型支持按字段、主题以及质量评价指标等维度的分类统计。
具体的,单个字段单个质量指标的问题发生率Cj根据随机抽样原理,针对预设质量控制规则引擎执行后发现的所有疑似问题数Q,按照1:N的比例进行抽样排查,排查问题数目为E,通过人工核查,经确认归属医院数据问题的数量为TQ,假设执行的规则总例数为T,则单个字段单个质量指标的质量评分为:
rj=(1-Cj)×100%=(1-(TQ/E)×Q/T)×100%,其中Cj=(TQ/E)×Q/T。
根据单个字段单个质量指标得分,单个字段的质量得分可由此字段各质量指标依据指标权重占比加权计算得出,即:
其中,Dj代表字段,M代表当前字段关联的质量指标数量,Wj代表各质量指标的权重。
由此可进一步按照字段权重加权计算业务主题的质量评分,即:
其中,gj代表字段权重,N代表当前业务主题拆分后的字段数量。
同时可以实现按照业务主题对不同字段的同一质量指标按照字段权重加权计算,以统计该业务主题不同质量指标维度下的质量评分,即:
其中,代表当前业务主题下Dj字段第i项质量指标的问题发生率。
步骤302,获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据。
步骤303,基于预设质量控制规则及所述数据质量评分模型,确定所述待治理数据的质量问题。
在本实施例中,在建立数据质量评分模型后,在确定待治理数据的质量问题时根据预设质量控制规则和数据质量评分模型一同确认。具体的,基于所述预设质量控制规则对所述待治理数据进行质量控制,确定所述待治理数据的质量控制报告;基于所述数据质量评分模型对所述待治理数据进行评分,确定所述待治理数据的评分结果;基于所述质量控制报告和所述评分结果,确定所述待治理数据的质量问题。其中,在利用数据质量评分模型对待治理数据进行评分时,获取到的评分结果可以一同记载在质量控制报告中。
步骤304,基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则。
步骤305,基于更新后的所述预设生产系统,更新所述原始数据。
在上述实施例中,通过建立数据质量评分模型对待治理数据进行评分,以进一步实现对待治理数据的质量控制,更准确的确定出质量问题,使得根据质量问题进行预设生产系统及预设质量控制规则更新后,根据更新后的预设生产系统获取到的更新的原始数据的数据质量越好。
需要说明的是,上述任一实施例提供的数据治理的实现方法尤其适用于区域健康医疗大数据平台,在经过多次循环,大数据平台会逐步暴露原生数据问题,上述实施例提供的数据治理的实现方法在改进原生数据质量的同时,丰富本身的数据清洗和质量控制规则建立区域数据质量控制基线,积累前端数据问题分析能力,最终形成良性的数据质量改进闭环支持数据应用层的高质量应用。
如图5所示,为本发明提供的数据治理的实现装置的一个具体实施例。本实施例所述装置,即用于执行图1~3所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
数据获取模块51,用于获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;
质量问题确定模块52,用于基于预设质量控制规则,确定所述待治理数据的质量问题;
第一更新处理模块53,用于基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;
第二更新处理模块54,用于基于更新后的所述预设生产系统,更新所述原始数据。
图6是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成数据治理的实现装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的数据治理的实现方法。
上述如本发明图5所示实施例提供的数据治理的实现装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的数据治理的实现方法,并具体用于执行如图1至图3所示的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (8)
1.一种数据治理的实现方法,其特征在于,包括:
建立数据质量评分模型;其中,所述数据质量评分模型支持按字段、主题以及质量评价指标维度的分类统计,以字段为评分最小单元,针对结果影响程度设置字段及规则对应的权重,依据问题发生率逐层计算质量得分;
获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;
基于预设质量控制规则及所述数据质量评分模型,确定所述待治理数据的质量问题;
基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;
基于更新后的所述预设生产系统,更新所述原始数据;
其中,所述数据质量评分模型通过如下方式建立:
单个字段单个质量指标的质量评分为:
rj=(1-Cj)×100%=(1-(TQ/E)×Q/T)×100%,其中Cj=(TQ/E)×Q/T;
其中,rj代表单个字段单个质量指标的质量评分;单个字段单个质量指标的问题发生率Cj根据随机抽样原理,针对预设质量控制规则引擎执行后发现的所有疑似问题数Q,按照预设比例进行抽样排查,排查问题数目为E,通过人工核查,经确认归属医院数据问题的数量为TQ,执行的规则总例数为T;
单个字段的质量评分为:
其中,Dj代表单个字段的质量评分,M代表当前字段关联的质量指标数量,Wj代表各质量指标的权重;
业务主题的质量评分为:
其中,QA代表业务主题的质量评分,gj代表字段权重,N代表当前业务主题拆分后的字段数量;
所述业务主题不同质量指标维度下的质量评分:
其中,代表当前业务主题下Dj字段第i项质量指标的问题发生率。
2.根据权利要求1所述的方法,其特征在于,所述基于预设质量控制规则及所述数据质量评分模型,确定所述待治理数据的质量问题,包括:
基于所述预设质量控制规则对所述待治理数据进行质量控制,确定所述待治理数据的质量控制报告;
基于所述数据质量评分模型对所述待治理数据进行评分,确定所述待治理数据的评分结果;
基于所述质量控制报告和所述评分结果,确定所述待治理数据的质量问题。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述待治理数据对应的数据采集信息是否符合预设数据采集规则,若否,则进行预警处理。
4.根据权利要求1所述的方法,其特征在于,所述基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则,包括:
对所述质量问题进行分析,确定并分发优化任务;
接收完成所述优化任务的优化配置信息,基于所述优化配置信息更新所述预设生产系统及所述预设质量控制规则。
5.根据权利要求1至4任一权项所述的方法,其特征在于,所述质量问题包括数据不可用、数据部分可用和数据分布异常。
6.一种数据治理的实现装置,其特征在于,包括:
数据获取模块,用于获取预设生产系统产生的待治理数据,所述待治理数据为未通过质量验证的原始数据;
质量问题确定模块,用于建立数据质量评分模型,基于预设质量控制规则及所述数据质量评分模型,确定所述待治理数据的质量问题;所述数据质量评分模型支持按字段、主题以及质量评价指标维度的分类统计,以字段为评分最小单元,针对结果影响程度设置字段及规则对应的权重,依据问题发生率逐层计算质量得分;其中,所述数据质量评分模型通过如下方式建立:
单个字段单个质量指标的质量评分为:
rj=(1-Cj)×100%=(1-(TQ/E)×Q/T)×100%,其中Cj=(TQ/E)×Q/T;
其中,rj代表单个字段单个质量指标的质量评分;单个字段单个质量指标的问题发生率Cj根据随机抽样原理,针对预设质量控制规则引擎执行后发现的所有疑似问题数Q,按照预设比例进行抽样排查,排查问题数目为E,通过人工核查,经确认归属医院数据问题的数量为TQ,执行的规则总例数为T;
单个字段的质量评分为:
其中,Dj代表单个字段的质量评分,M代表当前字段关联的质量指标数量,Wj代表各质量指标的权重;
业务主题的质量评分为:
其中,QA代表业务主题的质量评分,gj代表字段权重,N代表当前业务主题拆分后的字段数量;
所述业务主题不同质量指标维度下的质量评分:
其中,代表当前业务主题下Dj字段第i项质量指标的问题发生率;
第一更新处理模块,用于基于所述质量问题,更新所述预设生产系统及所述预设质量控制规则;
第二更新处理模块,用于基于更新后的所述预设生产系统,更新所述原始数据。
7.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至5中任一权项所述的数据治理的实现方法。
8.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至5中任一权项所述的数据治理的实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406157.3A CN113127459B (zh) | 2019-12-31 | 2019-12-31 | 一种数据治理的实现方法、装置、可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406157.3A CN113127459B (zh) | 2019-12-31 | 2019-12-31 | 一种数据治理的实现方法、装置、可读介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127459A CN113127459A (zh) | 2021-07-16 |
CN113127459B true CN113127459B (zh) | 2023-08-29 |
Family
ID=76768658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911406157.3A Active CN113127459B (zh) | 2019-12-31 | 2019-12-31 | 一种数据治理的实现方法、装置、可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127459B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273552B (zh) * | 2023-11-22 | 2024-02-13 | 山东顺国电子科技有限公司 | 一种基于机器学习的大数据智能治理决策方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477653A (zh) * | 2008-12-29 | 2009-07-08 | 大唐软件技术股份有限公司 | 数据质量的处理方法及系统 |
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和系统 |
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN109101539A (zh) * | 2018-06-29 | 2018-12-28 | 东软集团股份有限公司 | 业务数据质量评价方法、装置、存储介质及电子设备 |
CN109359277A (zh) * | 2018-10-22 | 2019-02-19 | 众安在线财产保险股份有限公司 | 数据监控方法、设备及计算机存储介质 |
CN109508874A (zh) * | 2018-10-30 | 2019-03-22 | 平安医疗健康管理股份有限公司 | 系统质量分析方法、装置、服务器及存储介质 |
CN109542962A (zh) * | 2018-10-26 | 2019-03-29 | 北京海数宝科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN109801692A (zh) * | 2018-12-14 | 2019-05-24 | 平安医疗健康管理股份有限公司 | 一种病案首页数据质量评估方法和装置 |
CN109844785A (zh) * | 2016-07-25 | 2019-06-04 | 安客诚有限责任公司 | 识别质量管理 |
CN110098961A (zh) * | 2019-04-25 | 2019-08-06 | 北京天融信网络安全技术有限公司 | 一种数据质量评估方法、装置及存储介质 |
CN110109768A (zh) * | 2019-03-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种数据质量巡检方法及装置 |
CN110309131A (zh) * | 2019-04-12 | 2019-10-08 | 北京星网锐捷网络技术有限公司 | 海量结构化数据的质量评估方法及装置 |
CN110399363A (zh) * | 2019-06-25 | 2019-11-01 | 云南电网有限责任公司玉溪供电局 | 一种问题数据全生命周期数据质量管理方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003524259A (ja) * | 2000-02-22 | 2003-08-12 | メタカルタ インコーポレイテッド | 情報の空間符号化及び表示 |
US20170091697A1 (en) * | 2015-09-01 | 2017-03-30 | Go Daddy Operating Company, LLC | Predictive model of task quality for crowd worker tasks |
-
2019
- 2019-12-31 CN CN201911406157.3A patent/CN113127459B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477653A (zh) * | 2008-12-29 | 2009-07-08 | 大唐软件技术股份有限公司 | 数据质量的处理方法及系统 |
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和系统 |
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN109844785A (zh) * | 2016-07-25 | 2019-06-04 | 安客诚有限责任公司 | 识别质量管理 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN109101539A (zh) * | 2018-06-29 | 2018-12-28 | 东软集团股份有限公司 | 业务数据质量评价方法、装置、存储介质及电子设备 |
CN109359277A (zh) * | 2018-10-22 | 2019-02-19 | 众安在线财产保险股份有限公司 | 数据监控方法、设备及计算机存储介质 |
CN109542962A (zh) * | 2018-10-26 | 2019-03-29 | 北京海数宝科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN109508874A (zh) * | 2018-10-30 | 2019-03-22 | 平安医疗健康管理股份有限公司 | 系统质量分析方法、装置、服务器及存储介质 |
CN109801692A (zh) * | 2018-12-14 | 2019-05-24 | 平安医疗健康管理股份有限公司 | 一种病案首页数据质量评估方法和装置 |
CN110109768A (zh) * | 2019-03-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种数据质量巡检方法及装置 |
CN110309131A (zh) * | 2019-04-12 | 2019-10-08 | 北京星网锐捷网络技术有限公司 | 海量结构化数据的质量评估方法及装置 |
CN110098961A (zh) * | 2019-04-25 | 2019-08-06 | 北京天融信网络安全技术有限公司 | 一种数据质量评估方法、装置及存储介质 |
CN110399363A (zh) * | 2019-06-25 | 2019-11-01 | 云南电网有限责任公司玉溪供电局 | 一种问题数据全生命周期数据质量管理方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于评价模型的基金数据质量管理平台的设计和实现;杨康;《中国优秀硕士学位论文全文数据库 信息科技》;I138-869 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127459A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Alternative measures of between‐study heterogeneity in meta‐analysis: reducing the impact of outlying studies | |
WO2021179630A1 (zh) | 一种并发症风险预测系统、方法、装置、设备及介质 | |
US20190051405A1 (en) | Data generation apparatus, data generation method and storage medium | |
Tan et al. | Data quality audit of a clinical quality registry: a generic framework and case study of the Australian and New Zealand Hip Fracture Registry | |
CN110704583A (zh) | 一种病案分析方法、装置、服务器及存储介质 | |
CN111095424A (zh) | 临床试验支援系统、临床试验支援程序以及临床试验支援方法 | |
Ernst et al. | Arch-comp 2022 category report: Falsification with ubounded resources | |
CN111767277A (zh) | 数据处理方法和装置 | |
CN113127459B (zh) | 一种数据治理的实现方法、装置、可读介质及电子设备 | |
CN114203306A (zh) | 医疗事件预测模型训练方法、医疗事件预测方法及装置 | |
US20100131497A1 (en) | Method for determining which of a number of test cases should be run during testing | |
Stausberg et al. | Concordance and robustness of quality indicator sets for hospitals: an analysis of routine data | |
CN116719926B (zh) | 基于智慧医疗的先天性心脏病报告数据筛选方法及系统 | |
CN109493958A (zh) | 一种随访计划制定方法、装置、服务器及介质 | |
CN113130021B (zh) | 一种临床数据的分析方法、装置、可读介质及电子设备 | |
Bodina et al. | Resource allocation criteria in a hospital | |
Tesema et al. | Assessing the effects of duration of birth interval on adverse pregnancy outcomes in sub-Saharan Africa: a propensity score-matched analysis | |
CN108564237A (zh) | 一种容量评估模型建立方法、容量评估方法及装置 | |
JP2001337846A (ja) | ソフトウエア品質検査支援システム及び方法 | |
CN105786885A (zh) | 消息通知的生成方法和系统、及电子设备 | |
EP3588513A1 (en) | Apparatus and method for statistical processing of patient s test results | |
CN115564410A (zh) | 一种继电保护设备的状态监测方法及装置 | |
CN114595216A (zh) | 数据校验方法、装置、存储介质及电子设备 | |
Hsieh et al. | Simplified radius, ulna, and short bone‐age assessment procedure using grouped‐Tanner‐Whitehouse method | |
CN113487440A (zh) | 模型生成、健康险理赔的确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |