CN105975616A - 基于公共卫生精细化管理的数据质量控制系统 - Google Patents
基于公共卫生精细化管理的数据质量控制系统 Download PDFInfo
- Publication number
- CN105975616A CN105975616A CN201610334102.6A CN201610334102A CN105975616A CN 105975616 A CN105975616 A CN 105975616A CN 201610334102 A CN201610334102 A CN 201610334102A CN 105975616 A CN105975616 A CN 105975616A
- Authority
- CN
- China
- Prior art keywords
- data
- verification
- quality control
- public health
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 60
- 230000005180 public health Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012795 verification Methods 0.000 claims description 127
- 238000012937 correction Methods 0.000 claims description 16
- 238000007689 inspection Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 abstract description 11
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 208000027418 Wounds and injury Diseases 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011976 chest X-ray Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000011081 inoculation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G06F19/324—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Child & Adolescent Psychology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种基于公共卫生精细化管理的数据质量控制系统及方法,其中系统包括数据共享交换区和校验模块,数据共享交换区包括数据缓冲区、校验规则区和数据回退区,其中:数据缓冲区存放从源平台接收到的原始数据;校验规则区存放数据校验规则;数据回退区存放因校验不通过而需要退回源平台的数据;校验模块调用所述的数据校验规则对从源平台接收到的原始数据进行校验,所述的校验包括纵向表间均衡校验。采用该种结构的基于公共卫生精细化管理的数据质量控制系统及方法,能够对接入区域卫生信息平台的各类公共卫生业务系统数据的有效监控、并从横向、纵向以及小概率的各个维度对数据进行综合评估、形成对数据的自动化、智能化管理。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及公共卫生精细化管理的数据校验技术领域,具体是指一种基于公共卫生精细化管理的数据质量控制系统。
背景技术
随着社会经济和科学技术水平不断提高,公共卫生业务管理理念和方式发生根本性的改变,业务活动由粗放式转向精细化,管理模式从定性转向定量,数据采集的需求越来越多,共享的范围越来越广,独立的信息系统暴露出流程孤立、数据孤岛等问题,已难以适应业务发展。与之相对应,针对数据的质量控制也是针对各系统,由各业务部门分别进行质控,近几年正逐步由原有的人工抽样质控方式转为信息化形式。
人工抽样模式针对数据处理的能力不强,多人协同时质控标准难以统一,具有很强的局限性。不少业务系统也因此考虑在加强自动化的数据质控能力,在数据采集阶段就对数据质量进行控制,通过部署在中心端系统服务器上的规则校验程序,对采集过程中的录入数据进行规则检查。然而近年来,以区域卫生平台为核心,重组集成各公共卫生条线的信息系统,以平台所提供的服务为纽带,打通各业务系统的流程,真正做到平台互通、系统互联、数据共享,已被公认为是未来卫生信息化的发展方向。在此背景下,原有数据质量控制的方式充分暴露了其所存在的局限性:
-多用户共同录入数据,每人所了解的信息并不全面,可能导致录入数据是互相矛盾的;
-必填项要求难以控制,尤其是针对不能一次性完成采集的数据,在系统设计过程中,只能放弃部分必填校验;
-数据采集校验影响效率,为保证日常业务运行,降低系统负载,往往不可能做太复杂的数据校验质控
因此需要建立一套基于区域卫生信息平台,能满足公共卫生精细化管理需要的数据交换的数据质量控制体系,引入基于规则库的自动化、智能化质量控制理念,形成对接入平台的各类业务系统的管理,提升平台数据的有效性及可用性。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够对接入区域卫生信息平台的各类公共卫生业务系统数据的有效监控、并从横向、纵向以及小概率的各个维度对数据进行综合评估、形成对数据的自动化、智能化管理的基于公共卫生精细化管理的数据质量控制系统。
为了实现上述目的,本发明具有如下构成:
该基于公共卫生精细化管理的数据质量控制系统,其主要特点是,所述的系统包括
数据共享交换区和校验模块,所述的数据共享交换区包括数据缓冲区、校验规则区和数据回退区,其中:
所述的数据缓冲区存放从源平台接收到的原始数据;
所述的校验规则区存放数据校验规则;
所述的数据回退区存放因校验不通过而需要退回源平台的数据;
所述的校验模块调用所述的数据校验规则对从源平台接收到的原始数据进行校验,并将校验不通过的数据退回至源平台,所述的校验包括纵向表间均衡校验。
较佳地,所述的数据共享交换区还包括:
数据备份区,用以备份从源平台接收到的原始数据;
日志记录区,用以记录数据校验信息。
较佳地,所述的纵向表间均衡校验包括:
尾数均匀分布校验,校验各个采集字段尾数的分布是否均匀;
数据正态分布校验,校验各个采集字段的数值是否符合正态分布;
选项比例校验,校验选项型字段的值是否符合合理的比例。
较佳地,所述的校验还包括:
单表单字段规则校验,校验单个表格中各个采集字段是否符合要求;
单表多字段规则校验,校验单个表格中数个采集字段之间的相互关系是否符合逻辑要求。
较佳地,所述的校验还包括多表关联性校验和多表多字段逻辑校验,所述的多表多字段逻辑校验为数个表格中数个采集字段之间的相互关系是否符合逻辑要求,所述的多表关联性校验包括:
父子表的关系校验,校验各个子表的父表是否存在且唯一;
并列表的关系校验,校验并列表之间的对应关系是否为一一对应。
较佳地,所述的校验还包括小概率事件校验,所述的校验规则区中还包括小概率事件的逻辑规则,所述的小概率事件校验为判断被校验数据是否符合所述的校验规则区中的小概率事件的逻辑规则。
本发明还涉及一种基于公共卫生精细化管理的数据质量控制方法,其特征在于,所述的方法包括以下步骤:
(1)所述的数据缓冲区接收源平台的原始数据并存储;
(2)所述的校验模块调用所述的数据校验规则对所述的原始数据进行校验并判断是否校验通过,如果是,则继续步骤(3),否则继续步骤(4);
(3)所述的校验模块将校验后的数据传输到目标平台;
(4)所述的校验模块通过所述的数据回退区将校验后的数据退回源平台。
较佳地,所述的数据共享交换区还包括数据备份区和日志记录区,所述的步骤(1)和(2)之间,还包括以下步骤:
(1-1)所述的数据备份区备份从源平台接收到的原始数据‘
所述的步骤(3)之后,还包括以下步骤:
(3-1)所述的日志记录区记录数据校验信息,然后结束退出;
所述的步骤(4)之后,还包括以下步骤:
(4-1)所述的日志记录区记录数据校验信息,然后结束退出。
较佳地,所述的步骤(2),包括以下步骤:
(2-1)所述的校验模块对调用所述的数据校验规则对所述的原始数据进行常规校验并判断是否校验通过,如果是,则继续步骤(3),否则继续步骤(2-2);
(2-2)所述的校验模块判断被校验数据是否符合所述的校验规则区中的小概率事件的逻辑规则,如果是,则继续步骤(2-3),否则继续步骤(4);
(2-3)所述的校验模块将被校验数据提交人工检查,然后结束退出。
更佳地,所述的常规校验包括纵向表间均衡校验和横向校验,所述的横向校验包括单表单字段规则校验、单表多字段规则校验、多表关联性校验和多表多字段逻辑校验。
采用了该发明中的基于公共卫生精细化管理的数据质量控制系统,具有如下有益效果:
(1)大数据要求变更校验模式
原先的数据校验是基于统计学抽样方式的校验,本质上是对样本的人工检查,但是随着医疗卫生领域信息化的发展,所涉及的数据量越来越大,以上海为例,每年新增新生儿10万个,全市高血压患者500万,糖尿病患者280万,每年公立医院门急诊记录过亿,由这些数据派生出的随访,免疫接种、体格检查、用药、诊疗等数据规模是海量级的,按原先的校验方式,需要样本量至少达到百万级,而对百万级的样本做人工检查是不切实际的,因此信息量向大数据的发展必然要求改变传统的校验模式,向基于规则库的自动化、智能化的校验模式转变;
基于公共卫生精细化管理的数据质量控制系统在区域卫生信息平台的支持下,满足对大数据批量处理的需求,及时发现数据中所存在的共性问题,并对小概率事件进行个案分析。
(2)平台间的数据校验
目前为了打破信息孤岛,使数据共享互通,医疗卫生行业的信息化发展方向正在向基于多级平台的方式转变,平台间、系统间的数据交换,造成数据使用者不是数据原始采集人,数据从初次采集到最终使用需要跨越多个平台和系统,原有的数据校验质控模式只注重在采集源头控制数据质量,而忽视了在平台间的数据校验,这样是不能满足数据最终使用者对数据质量要求的,因此必须在多级平台的基础上考虑数据校验问题,在任何两个平台之间都要求部署独立的数据校验质控模块;
基于公共卫生精细化管理的数据质量控制系统可作为平台组件进行部署,在接入端和中心端形成对数据的立体式评估。在接入端对问题数据进行初步校验,在满足数据交换效率的前提下,对来源系统中比较明显的数据质量问题进行筛查;在中心端通过多维度数据评估模式对数据进行二次校验,形成对数据质量的深度分析,包括针对跨平台、跨系统的数据质量分析。
(3)在流动环节进行数据校验
在当前基于多级平台的医疗卫生信息化建设模式中,为了满足业务协同的要求,数据不是固化在平台中不变的,而是在平台间循环往复的流转,既有自下而上的流向、又有自上而下的流向,而且在流转过程中数据也是会产生变化的;
基于公共卫生精细化管理的数据质量控制系统强调数据通过任意两个平台之间时都要做数据校验质控,通过对流转过程中数据的一次次校验质控,使数据质量越来越高,使数据能准确的反映业务信息。
(4)精准的数据才能被共享利用
当前医疗卫生信息化建设的最重要目标之一就是使数据能共享利用,减少数据的重复采集,做到一次采集多次利用。数据的使用者既有行业范围内的医疗机构、卫计委、疾控、卫监等机构部门,又有行业外的公安、民政、教委等。数据从孤立向共享互通的过程中,增加了数据的附加值,扩大了数据的价值,但是同时,其负面影响也会扩大。在原先信息孤岛的环境中,质量低下的数据最多只是影响本部门的业务,不会暴露出去,但是随着目前平台化的建设,互联互通的发展,数据会沿着系统和平台向整个行业甚至行业外扩散,而且一旦扩散后,数据将很难再修正。这就要求数据被共享利用前,必须做好数据的校验质控,使最终发布出去的数据是精准的高质量数据;
基于公共卫生精细化管理的数据质量控制系统以客观的形式反映数据的准确性、真实性和唯一性情况,促进数据质量的整体提升。
附图说明
图1为本发明的基于公共卫生精细化管理的数据质量控制系统的数据共享交换区的结构示意图。
图2为本发明的小概率事件处理的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明涉及在异构数据进行交换过程中,结合公共卫生精细化管理的数据标准及业务规则,设立校验规则库,通过横向的单表单字段规则校验、单表多字段规则校验、多表关联性校验、多表多字段逻辑校验,以及以数据分析模型为基础的纵向表间均衡校验的综合性手段,形成五维的数据评价及质控体系,对数据的准确性、真实性和唯一性进行综合评价,并形成面向源系统的反馈机制,以促进数据质量的共同提升;同时创新性引入针对小概率事件的过滤机制,形成对规则外数据的管理,提高数据质控的精准度。本发明是对基于区域卫生信息平台的公共卫生子平台的重要组成部分,可适应各类公共卫生业务系统的复杂、异构的应用环境,并可根据管理需求实现对新增业务系统的接入,形成对数据的自动化、智能化管理,为基于数据的业务操作和分析利用奠定良好的基础。
本发明重点针对在公共卫生信息系统区域化、集成化管理以及由此带来的数据爆炸式增长的趋势下,原有数据质控方式效率低下、质控范围有限、质控标准难以严格执行的问题,通过信息化途径,将公共卫生精细化管理的数据标准及业务规则转化为数据校验规则库,实现对接入区域卫生信息平台的各类公共卫生业务系统数据的有效监控,并从横向、纵向以及小概率的各个维度对数据进行综合评估,形成对数据的自动化、智能化管理。本发明最大限度的降低了业务及管理人员对数据质量控制的人力投入,并以客观的形式反映数据的准确性、真实性和唯一性情况,协助解决交换数据中所存在的共性问题,并对个性化的小概率事件进行个案分析,促进数据质量的整体提升。
基于公共卫生精细化管理的数据质量控制系统基于区域平台进行部署,其数据校验模式是将业务工作中的各个活动封装形成一个个功能模块或一个个小系统,这些小的功能模块或系统部署在一个或多个平台上,数据通过平台进行交换,由平台对交换的数据进行校验,符合校验规则的数据传给目标系统,不符合校验规则的数据回退给源系统。以子系统在不同平台间交换数据为例,各个平台均设置共享交换区进行数据交换、传输和校验工作。
2.1共享交换区结构
数据共享交换区由数据缓冲区、数据备份区、校验规则区、日志记录区和数据回退区构成,如图1所示,其中:
数据缓冲区:存放从源平台接收到的原始数据,包括各种类型的数据,如结构化数据(以Oracle、MS SQL Server、Excel、Access等管理数据)、非结构化数据(文件等)。
数据备份区:备份每次数据交换的原始数据。
校验规则区:存放各类校验规则,因公共卫生业务条线众多,针对数据校验的规则分为共有规则和业务专有规则,共有规则是指针对各条线业务数据均有效的校验规则,而业务专有规则则按照业务分裂,基于业务条线的特点,形成对数据的分析评估规则。校验规则的设立,是本发明的核心。
数据回退区:存放因校验不通过而需要退回源平台的数据。
日志记录区:记录每次数据交换校验信息。
基于公共卫生精细化管理的数据质量控制系统部署于平台的共享交换区,对所交换的数据进行质控。当数据交换时,首先源平台的数据会进入数据缓冲区,然后对缓冲区中的数据进行备份存入备份区,再调用校验规则区的规则对缓冲区的数据逐条进行校验,当校验通过后就将数据传输到目标平台,当校验不通过则将原数据及相应错误提示信息存入数据回退区退回源平台,同时无论是校验通过与否,都向日志记录区写入校验情况。
与此相类似,在平台中心端同样需基于公共卫生精细化管理的数据质量控制系统,对整合后的数据进行评估,并将评估校验结果按原路径返回源系统。
2.2五维数据校验
为了保障交换数据的质量,确保业务数据的准确性、真实性和唯一性,整个校验模式定义了五个层次的校验,即单表单字段规则校验、单表多字段规则校验、多表关联性校验、多表多字段逻辑校验和纵向表间均衡校验,任何一笔业务数据的校验都可能涉及其中一个或全部层次。
横向校验的四个层次是对所有交换数据进行逐条校验,是依据既定规则对所接收数据内容的综合分析,是针对数据质量控制的常用手段,校验不合格的数据将直接退回源系统;纵向校验是采用数学模型对平台中的批量数据分析,建立以规则为主、人工为辅的积极干预手段,校验不合格的数据将有专人进行分析,其是本发明的突破点。
2.2.1单表单字段规则校验
这是一种最常见的校验方式,主要对字段的值域范围,是否必填等情况进行校验。
2.2.2单表多字段规则校验
这种方式是对单张表中的多个字段之间的相互关系进行逻辑校验。
2.2.3多表关联性校验
多表的关联性校验分成两种情况:
父子表的关系校验:父子表的关系校验要求系统中每一个子表存在的前提是其父表必须存在且唯一。
并列表的关系校验:并列表的关系校验指在系统中要求A表存在的时候,必须有且只有一个B表与其对应。
2.2.4多表多字段逻辑校验
这种方式与上述单表多字段的逻辑校验很类似,不同点在于所要校验的字段是分布在多表中的。
2.2.5纵向表间均衡校验
之前的校验,我们都可以概括的称为横向校验,而纵向表间均衡校验是纵向校验。它的含义是一次性的大批量抽取数据库中某张表的某个字段,审核该字段的采集值是否在批量数据中达到了一定的均衡状态。这类校验的目的不是发现单条数据的错误,而是为了发现系统性错误数据,因此需要引入数据模型。主要有以下几种校验:
尾数均匀分布校验
尾数均匀分布校验是指校验某个采集字段尾数的分布是否均匀。例如对血压值的尾数校验,是校验多人多次的血压测定值的最后一位数字,判断其是否均匀的分布在了0至9这10个数字之中。
数据正态分布校验
数据正态分布校验是指校验某个采集字段的数值是否符合正态分布。例如对身高值的正态分布校验,是校验大人群的身高值,判断是否正态分布在了人群平均身高值的两侧。
选项比例校验
选型比例校验是指校验选项型字段的值是否符合合理的比例。例如对结核病业务中胸部X线检查的选项比例校验,是校验批量数据中胸部X线检查字段中选项“1、异常;2、未见异常;3、未查”的比例关系,判断是否属于正常比例关系。
2.4质控过程中的小概率事件
基于公共卫生精细化管理的数据质量控制的模式对数据质量的筛查颗粒度很细致,但某些情况下这种细致也会引起质控过度的问题。以伤害报告卡进行单表多字段规则校验为例,如果某种伤害报告卡中的“伤害发生原因”为“01机动车车祸”,“伤害发生地点”为“家中”,通常系统会将该报告卡检出,作为未通过单表多字段规则校验的数据退回,但实际生活中这种情况的发生虽然概率极小,但确实存在。例如家住别墅,在自家车库中倒车撞伤。对于这类情况,如果取消这条校验规则,则大量的数据得不到有效控制,如果保留这条校验规则,则会对这类概率极少的数据“误杀”。为了解决这个问题,我们引入了小概率事件处理机制。
2.4.1小概率事件清单的定义
在校验规则区,专门对于个别特异性事件(即有可能会发生,但发生的概率很小)所涉及的字段填写逻辑规则,形成相关逻辑规则清单。
2.4.2小概率事件的处理
小概率事件是一种特殊的事件,对这类事件的处理也有一个特定的流程,一般放在常规校验后,校验流程如图2所示。
当发生数据交换时,从校验规则区读取小概率事件清单,并调用目标平台数据校验是否发生小概率事件,若发现小概率事件则将事件相关信息插入专表并提交人工判断,若人工确认是小概率事件则将数据存入目标平台,否则退回源平台。
2.4.3小概率事件清单的调整
小概率事件的清单可随时调整,根据业务实际发展,以前不可能出现的事件,现在有很小可能出现了,这时就要新增清单,也有可能以前很少发生的事件,随着越来越多的发生,可能变成常态事件,这种事件就要从清单中剔除,而且小概率事件的判定规则也有可能发生变化。系统支持对小概率规则的灵活配合和维护。
基于公共卫生精细化管理的数据质量控制系统部署于平台的共享交换区,对所交换的数据进行质控。当数据交换时,首先源平台的数据会进入数据缓冲区,然后对缓冲区中的数据进行备份存入备份区,再调用校验规则区的规则对缓冲区的数据逐条进行校验,当校验通过后就将数据传输到目标平台,当校验不通过则将原数据及相应错误提示信息存入数据回退区退回源平台,同时无论是校验通过与否,都向日志记录区写入校验情况。
采用了该发明中的基于公共卫生精细化管理的数据质量控制系统,具有如下有益效果:
(1)大数据要求变更校验模式
基于公共卫生精细化管理的数据质量控制系统在区域卫生信息平台的支持下,满足对大数据批量处理的需求,及时发现数据中所存在的共性问题,并对小概率事件进行个案分析。
(2)平台间的数据校验
基于公共卫生精细化管理的数据质量控制系统可作为平台组件进行部署,在接入端和中心端形成对数据的立体式评估。在接入端对问题数据进行初步校验,在满足数据交换效率的前提下,对来源系统中比较明显的数据质量问题进行筛查;在中心端通过多维度数据评估模式对数据进行二次校验,形成对数据质量的深度分析,包括针对跨平台、跨系统的数据质量分析。
(3)在流动环节进行数据校验
基于公共卫生精细化管理的数据质量控制系统强调数据通过任意两个平台之间时都要做数据校验质控,通过对流转过程中数据的一次次校验质控,使数据质量越来越高,使数据能准确的反映业务信息。
(4)精准的数据才能被共享利用
基于公共卫生精细化管理的数据质量控制系统以客观的形式反映数据的准确性、真实性和唯一性情况,促进数据质量的整体提升。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (10)
1.一种基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的系统包括数据共享交换区和校验模块,所述的数据共享交换区包括数据缓冲区、校验规则区和数据回退区,其中:
所述的数据缓冲区存放从源平台接收到的原始数据;
所述的校验规则区存放数据校验规则;
所述的数据回退区存放因校验不通过而需要退回源平台的数据;
所述的校验模块调用所述的数据校验规则对从源平台接收到的原始数据进行校验,并将校验不通过的数据退回至源平台,所述的校验包括纵向表间均衡校验。
2.根据权利要求1所述的基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的数据共享交换区还包括:
数据备份区,用以备份从源平台接收到的原始数据;
日志记录区,用以记录数据校验信息。
3.根据权利要求1所述的基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的纵向表间均衡校验包括:
尾数均匀分布校验,校验各个采集字段尾数的分布是否均匀;
数据正态分布校验,校验各个采集字段的数值是否符合正态分布;
选项比例校验,校验选项型字段的值是否符合合理的比例。
4.根据权利要求1所述的基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的校验还包括:
单表单字段规则校验,校验单个表格中各个采集字段是否符合要求;
单表多字段规则校验,校验单个表格中数个采集字段之间的相互关系是否符合逻辑要求。
5.根据权利要求1所述的基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的校验还包括多表关联性校验和多表多字段逻辑校验,所述的多表多字段逻辑校验为数个表格中数个采集字段之间的相互关系是否符合逻辑要求,所述的多表关联性校验包括:
父子表的关系校验,校验各个子表的父表是否存在且唯一;
并列表的关系校验,校验并列表之间的对应关系是否为一一对应。
6.根据权利要求1所述的基于公共卫生精细化管理的数据质量控制系统,其特征在于,所述的校验还包括小概率事件校验,所述的校验规则区中还包括小概率事件的逻辑规则,所述的小概率事件校验为判断被校验数据是否符合所述的校验规则区中的小概率事件的逻辑规则。
7.一种根据权利要求1至6中任一项所述的系统基于公共卫生精细化管理的数据质量控制方法,其特征在于,所述的方法包括以下步骤:
(1)所述的数据缓冲区接收源平台的原始数据并存储;
(2)所述的校验模块调用所述的数据校验规则对所述的原始数据进行校验并判断是否校验通过,如果是,则继续步骤(3),否则继续步骤(4);
(3)所述的校验模块将校验后的数据传输到目标平台;
(4)所述的校验模块通过所述的数据回退区将校验后的数据退回源平台。
8.根据权利要求7所述的基于公共卫生精细化管理的数据质量控制方法,其特征在于,所述的数据共享交换区还包括数据备份区和日志记录区,所述的步骤(1)和(2)之间,还包括以下步骤:
(1-1)所述的数据备份区备份从源平台接收到的原始数据‘
所述的步骤(3)之后,还包括以下步骤:
(3-1)所述的日志记录区记录数据校验信息,然后结束退出;
所述的步骤(4)之后,还包括以下步骤:
(4-1)所述的日志记录区记录数据校验信息,然后结束退出。
9.根据权利要求7所述的基于公共卫生精细化管理的数据质量控制方法,其特征在于,所述的步骤(2),包括以下步骤:
(2-1)所述的校验模块对调用所述的数据校验规则对所述的原始数据进行常规校验并判断是否校验通过,如果是,则继续步骤(3),否则继续步骤(2-2);
(2-2)所述的校验模块判断被校验数据是否符合所述的校验规则区中的小概率事件的逻辑规则,如果是,则继续步骤(2-3),否则继续步骤(4);
(2-3)所述的校验模块将被校验数据提交人工检查,然后结束退出。
10.根据权利要求9所述的基于公共卫生精细化管理的数据质量控制方法,其特征在于,所述的常规校验包括纵向表间均衡校验和横向校验,所述的横向校验包括单表单字段规则校验、单表多字段规则校验、多表关联性校验和多表多字段逻辑校验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610334102.6A CN105975616A (zh) | 2016-05-19 | 2016-05-19 | 基于公共卫生精细化管理的数据质量控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610334102.6A CN105975616A (zh) | 2016-05-19 | 2016-05-19 | 基于公共卫生精细化管理的数据质量控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975616A true CN105975616A (zh) | 2016-09-28 |
Family
ID=56955339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610334102.6A Pending CN105975616A (zh) | 2016-05-19 | 2016-05-19 | 基于公共卫生精细化管理的数据质量控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975616A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325030A (zh) * | 2018-09-03 | 2019-02-12 | 平安国际融资租赁有限公司 | 报文处理方法、装置、计算机设备和存储介质 |
CN109346173A (zh) * | 2018-10-23 | 2019-02-15 | 上海市疾病预防控制中心 | 基于卫生医疗大数据的实现健康期望寿命运算分析功能的系统及方法 |
CN110400213A (zh) * | 2019-07-26 | 2019-11-01 | 中国工商银行股份有限公司 | 数据处理方法和装置、以及电子设备和可读介质 |
CN112734281A (zh) * | 2021-01-21 | 2021-04-30 | 山东健康医疗大数据有限公司 | 一种医疗数据治理中质控和任务调度的解耦处理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104753721A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮通信信息系统有限公司 | 一种通用可配置的表格数据的自动核查的方法 |
CN105426677A (zh) * | 2015-11-19 | 2016-03-23 | 中国人民解放军第306医院 | Hrp数据中心及其数据质量保证体系设计方法 |
-
2016
- 2016-05-19 CN CN201610334102.6A patent/CN105975616A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104753721A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮通信信息系统有限公司 | 一种通用可配置的表格数据的自动核查的方法 |
CN105426677A (zh) * | 2015-11-19 | 2016-03-23 | 中国人民解放军第306医院 | Hrp数据中心及其数据质量保证体系设计方法 |
Non-Patent Citations (1)
Title |
---|
姚华彦: "市级医院共享数据质量监管系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325030A (zh) * | 2018-09-03 | 2019-02-12 | 平安国际融资租赁有限公司 | 报文处理方法、装置、计算机设备和存储介质 |
CN109325030B (zh) * | 2018-09-03 | 2023-08-18 | 平安国际融资租赁有限公司 | 报文处理方法、装置、计算机设备和存储介质 |
CN109346173A (zh) * | 2018-10-23 | 2019-02-15 | 上海市疾病预防控制中心 | 基于卫生医疗大数据的实现健康期望寿命运算分析功能的系统及方法 |
CN110400213A (zh) * | 2019-07-26 | 2019-11-01 | 中国工商银行股份有限公司 | 数据处理方法和装置、以及电子设备和可读介质 |
CN112734281A (zh) * | 2021-01-21 | 2021-04-30 | 山东健康医疗大数据有限公司 | 一种医疗数据治理中质控和任务调度的解耦处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415831B (zh) | 一种医疗大数据云服务分析平台 | |
CN110349639A (zh) | 一种基于通用医疗术语库的多中心医疗术语标准化系统 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
CN105975616A (zh) | 基于公共卫生精细化管理的数据质量控制系统 | |
US8943059B2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
CN106777970A (zh) | 一种医疗信息系统数据模板化的集成系统及方法 | |
US20070005154A1 (en) | System and method for multidimensional extension of database information using inferred groupings | |
US20230031792A1 (en) | Design Method of Oncological Computerized Physician Order Entry System with Intelligent Clinical Decision Recommendation Function | |
CN111695834B (zh) | 临床试验质量实时管控优化方法和系统 | |
CN102246174A (zh) | 用于在采用异构信任模型的分布式和自治保健环境中改进记录链接的自动决断再利用 | |
CN109859815A (zh) | 一种辅助用药决策方法及智能辅助用药系统 | |
CN102663008B (zh) | 政府综合业务平台业务库和基础库的构建方法 | |
CN102932195A (zh) | 一种基于网络协议分析的业务分析监控方法及系统 | |
CN112199425A (zh) | 基于混合数据库结构的医疗大数据中心及其建设方法 | |
CN111383762A (zh) | 一种全民健康数据监管平台 | |
CN111737335B (zh) | 产品信息集成处理方法、装置、计算机设备和存储介质 | |
Thao et al. | The prevalence of type 2 diabetes mellitus in a Wisconsin Hmong patient population | |
US20230289363A1 (en) | Concept agnostic reconcilation and prioritization based on deterministic and conservative weight methods | |
CN113961549B (zh) | 基于数据仓库的医疗数据整合方法及系统 | |
CN109243592A (zh) | 基于人工智能的医疗项目使用异常检测方法及相关装置 | |
CN108228787A (zh) | 按照多级类目处理信息的方法和装置 | |
Zhang et al. | [Retracted] Design of Multimedia Vocal Music Education Data Integration System Based on Adaptive Genetic Algorithm | |
CN108122005B (zh) | 一种临床药物层次分类的方法 | |
Ashoori et al. | A model to predict the sequential behavior of healthy blood donors using data mining | |
CN106503457B (zh) | 基于转化医学分析平台的临床数据集成技术数据导入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160928 |
|
RJ01 | Rejection of invention patent application after publication |