CN117524388B - 一种健康医疗数据实时采集与质量控制方法 - Google Patents

一种健康医疗数据实时采集与质量控制方法 Download PDF

Info

Publication number
CN117524388B
CN117524388B CN202311592034.XA CN202311592034A CN117524388B CN 117524388 B CN117524388 B CN 117524388B CN 202311592034 A CN202311592034 A CN 202311592034A CN 117524388 B CN117524388 B CN 117524388B
Authority
CN
China
Prior art keywords
data
quality
medical
health
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311592034.XA
Other languages
English (en)
Other versions
CN117524388A (zh
Inventor
郭一
胡盈盈
张润
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Provincial Health Information Center
Original Assignee
Zhejiang Provincial Health Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Provincial Health Information Center filed Critical Zhejiang Provincial Health Information Center
Priority to CN202311592034.XA priority Critical patent/CN117524388B/zh
Publication of CN117524388A publication Critical patent/CN117524388A/zh
Application granted granted Critical
Publication of CN117524388B publication Critical patent/CN117524388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种健康医疗数据实时采集与质量控制方法,涉及医疗信息化技术领域;本发明在数据采集时,使用基于日志的变更数据捕获技术,代替基于查询的ETL数据抽取技术,使用系统文件I/O代替数据查询,将数据采集对医疗机构数据库的影响降至最低,从而在医疗机构信息系统与数据中心之间建立可稳定运行的实时数据交换通道;本发明将质量评价规则与计算系数结合,可以获得指定数据集、医疗机构和区域的质量分数;有助于了解数据的质量状况,帮助医疗机构和区域识别数据质量问题,并采取相应的措施进行改进,从而提高整体的数据质量和数据应用效果。

Description

一种健康医疗数据实时采集与质量控制方法
技术领域
本发明涉及医疗信息化技术领域,特别是涉及一种健康医疗数据实时采集与质量控制方法。
背景技术
医疗领域的业务类目繁多,不同医疗机构和不同信息系统的系统构架、数据模型和信息化程度参差不齐,区域医疗健康数据中心在数据采集过程中需要针对不同医疗机构和不同信息系统进行数据转换;为了尽可能避免对医疗机构现有业务的运行产生影响,通常选择在医疗机构的业务低峰时间,采用定时批量抽取数据的方式采集健康医疗数据,降低与医疗机构信息系统之间的交易频率;此外,区域医疗健康数据中心还会对归集的健康医疗数据进行质量评价,检测每条明细数据是否达到质量控制要求,并以医疗机构为单位计算全部数据的整体质量评分,提供数据质控系统供各个医疗机构自助查询数据质量;
存在以下技术问题:
1、由于健康医疗数据的业务广度和异构信息系统的差异程度,将数据采集到数据中心后再进行数据转换不仅效率低下,而且容易因为业务逻辑理解偏差产生转换错误,导致数据质量存在系统偏差;
2、现有的数据采集采用基于查询的ETL数据抽取技术,这种技术需要占用数据库连接线程,并执行数据库查询事务,对医疗机构信息系统的性能压力较大;由于这种影响的存在,数据中心无法与医疗机构信息系统建立高频、实时的数据交换通道;
3、现有的数据质控系统,虽然能让医疗机构自助查询数据质量评分和不达标的异常数据,但缺少主动提醒和异常数据追溯功能,一方面系统检测到数据质量评分低于阈值时,医疗机构难以及时得知,另一方面异常数据经过整改后是否达标,医疗机构也无从追溯,导致数据质量存在机会偏差。
发明内容
基于此,有必要针对上述背景技术提到的问题,提供一种健康医疗数据实时采集与质量控制方法。
本发明的目的可以通过以下技术方案实现:一种健康医疗数据实时采集与质量控制方法,包括以下步骤:
S1:通过分析医疗机构规格具体部署前置机,采集医疗健康数据并转化存储至前置机,以实现异构数据标准化;
S2:通过创建数据队列并利用主从复制协议,将数据队列伪装成从数据库,以建立实时数据交换通道;当医疗机构产生新数据或发生数据变更时,数据将实时同步到数据中心;同时还将对医疗健康数据进行校验,对校验不通过的医疗健康数据进行异常处理;其中校验步骤为:
S21:将接收到的数据进行解析以得到健康医疗数据字段,提取健康医疗数据字段的字段长度和字符类型;
S22:将字段长度与设定的字段长度区间进行比较分析,当字段长度不属于设定的字段长度区间之内时,则将字段长度减去设定的字段长度区间中的最大值或最小值并取绝对值以得到字段差值;
S23:设定每种类型的健康医疗数据字段均对应一种或一种以上的字符类型,提取健康医疗数据字段的类型并将其与所有设定的健康医疗数据字段的类型进行匹配以得到对应的字符类型,遍历健康医疗数据字段中所有字符并将其与对应的字符类型进行匹配,当存在与对应的字符类型不匹配的字符类型时,则将不匹配的字符类型记为异位字符,并统计健康医疗数据字段中异位字符的数量记为异位数量;
S24:将字段差值G1与异位数量G2通过设定的公式GS=g1×G1+g2×G2计算以得到校验值GS,其中g1和g2分别为设定的校正因子;将校验值与设定的校验标准阈值进行比较分析,当校验值大于设定的校验标准阈值时,则将该健康医疗数据字段记为不合格字段;当校验值小于或等于设定的校验标准阈值时,则将该健康医疗数据字段记为合格字段;
S25:遍历健康医疗数据中所有健康医疗数据字段的判断结果,其中判断结果为合格字段和不合格字段;当健康医疗数据中存在任一一个或多个健康医疗数据字段不合格时,则健康医疗数据的校验不通过,并返回步骤一重新进行校验;当健康医疗数据所有健康医疗数据字段均为合格字段时,则健康医疗数据校验通过;
S26:提取校验结果为不通过的健康医疗数据的校验不通过的次数,当检验不通过的次数大于设定的次数阈值时,则将健康医疗数据记为异常数据;
S3:通过分析健康医疗数据的数据量以及数据量变以得到校验参数,依据检验参数对数据进行周期性的自运行数据质量评估;
S4:通过依据用户输入告警配置参数以建立数据质量告警规则,并对存在质量问题的数据进行告警和创建运维工单。
在一些实施例中,实现异构数据标准化的步骤如下:
S101,采集区域内医疗机构的医疗健康数据应用需求以生成数据采集标准;
S102,向医疗机构发送数据采集标准并接收医疗机构的反馈意见,根据医疗机构的反馈意见进行修订数据采集标准,以完善数据采集标准;
S103,基于修订后的数据采集标准,创建统一的数据采集前置机镜像;
S104,使用数据采集前置机镜像,将各个医疗机构部署前置机与医疗机构信息系统进行网络连接;
S105,按照数据采集标准对健康医疗数据进行标准化转换以得到统一标准的健康医疗数据;
S106,将标准化的健康医疗数据推送至前置机,前置机接收并存储医疗机构的健康医疗数据。
在一些实施例中,建立实时数据交换通道和实时同步数据的具体步骤为:
S201,统计前置机的数量,并创建与前置机数量相同个数的数据列队,使之与前置机一一对应,数据列队用于接收和存储来自前置机的健康医疗数据;
S202,通过使用数据库主从复制(master-slave)协议,将数据队列伪装成slave数据库;
S203,通过使用前置机数据库的信息,在数据队列的协议配置中绑定master数据库,使得数据队列与前置机数据库进行通信,并获取数据的变更信息;
S204,通过前置机数据库启动logdump线程,在数据发生变更时通知数据队列;logdump线程负责将数据的变更信息记录到二进制日志中,并通知数据队列进行相应的处理;
S205,通过数据队列启动I/O线程,在收到通知后向前置机数据库的log dump线程请求变更数据的二进制日志文件副本;
S206,数据队列将请求回来的二进制日志文件副本存储到本地的中继单元中;
S207,通过数据队列启动SQL线程,解析和执行二进制日志中的事务命令,将日志还原为结构化数据;
S208,通过流计算单元对医疗机构的健康医疗数据进行校验以得到校验结果并依据校验结果得到异常数据;
S209,当校验结果为校验通过时,使用机构唯一标识进行标记,并将其存储到数据中心;
S210,将异常数据进行拦截并溯源调取异常数据的源医疗机构,并将其发送至源医疗机构的前置机进行修改;当接收到来自源医疗机构修改后的异常信息时,则将修改后的异常信息替换对应的标记的异常数据,并返回S208,直至校验结果为校验通过。
在一些实施例中,通过分析健康医疗数据的数据量以及数据量变以得到校验参数,依据检验参数对数据进行周期性的自运行数据质量评估,具体为:
S301,通过接收用户输入的配置参数以创建数据质量评价规则,其中数据质量评价规则具体包括若干个检测规则组合,每个检测规则组合分别对应一种或几种检测规则;设定每种数据类型均对应一个检测规则组合;
S302,设定存在一个数据分析间隔时长,提取上一次数据分析时刻并将其与当前时间进行差值计算以得到实际分析间隔时长,当实际分析间隔时长等于设定的数据分析间隔时长时,则进行数据分析以生成检验参数;依据校验参数进行数据质量计算;其中校验参数包括抽取间隔时长和抽取数据量;
S303,提取上一次数据抽取时刻,并将其与当前时刻进行差值计算以得到实际间隔时长,当实际间隔时长等于抽取间隔时长时,则依据抽取数据量批量抽取数据,并将抽取数据记为待质控数据;
S304,提取数据单元抽取的待质控数据类型,并将其与所有数据类型进行匹配以得到对应的检测规则组合以及检测规则组合内的检测规则;
S305,依据规则加载单元匹配的检测规则组合对待质控数据依次进行检测以得到存在质量问题的数据以及质量原因;
S306,质量计算模块,取质量问题数据以及质量原因;统计每条数据存在的质量问题以得到每条数据的质量问题种类以及每种质量问题的数量;设定每种质量问题均对应一个质量系数,将质量问题种类与设定的所有质量问题种类进行匹配以得到对应的质量系数;将每种质量问题的数量和对应的质量系数进行数值化分析以得到质量分值;以此类推得到每条问题数据的质量分数;
S307,调取数据集,其中数据集包括若干条数据,统计其中存在质量问题的数据条数,并将其记为i,i=1,3,4……n1,n取值为正整数,n1表示的是存在质量问题的数据总条数;将每条问题数据的质量分数记为Fi;利用设定的公式计算以得到数据集的质量分数Fj,其中b1和b2分别为设定的校正因子;
S308,调取医疗机构的数据集,提取存在质量问题的数据集Fj,其中j=1,2,3……n2,n2取值为正整数,n2表示的是存在质量问题的数据集的总数量;利用设定的公式计算得到医疗机构质量分数YFk,其中b3和b4分别为设定的权重因子;
S309,提取区域内医疗机构,其中一个区域内包括一个或多个医疗机构;提取每个医疗机构的质量分数YFk,其中k=1,2,3……n3,n3取值为正整数,n3表示的是医疗机构的总数,通过设定的公式计算得到区域质量分数QYF,其中b5和b6分别为设定的权重因子。
在一些实施例中,校验参数的计算步骤具体如下:
调取健康医疗数据的数据量,并将其与设定的标准区间进行比较分析以得到堆积数据量,并将堆积数据量对应的时刻记为堆积时刻;统计堆积时刻的数量;将堆积数据量进行均值计算以得到平均堆积量;将堆积时刻的数量和平均堆积量进行数值化分析以得到数据堆积系数;设定每个堆积系数均对应一个数据抽取量和数据抽取间隔时长,将求得的堆积系数与设定的所有堆积系数进行匹配以得到对应的抽取间隔时长和抽取数据量;
取单位时间接收到健康医疗数据的数据量,以时间为横坐标,数据量为纵坐标建立数据量随时间变化关系图;利用最小二乘法计算两个相邻时间的数据点组成线段的斜率记为数据斜率;当数据斜率大于零时,则数据斜率记为增数据斜率;当数据斜率小于零时,则将数据斜率记为降数据斜率;
将增加数据斜率进行求和机计算得到的和值除以降斜率的绝对值的和值以得到增降比记为;将增降比通过设定的公式TS=t1×(Zb-1)^2+T1计算以得到数据分析间隔时长TS,t1为设定的时长转换系数,T1为设定的基础间隔时长;
将抽取间隔时长和抽取数据量记为校验参数。
在一些实施例中,通过依据用户输入告警配置参数以建立数据质量告警规则,并对存在质量问题的数据进行告警和创建运维工单,具体为:
S401,通过接收用户输入的配置参数,创建数据质量告警规则;
S402,通过监听每个医疗机构的数据质量,对于结果符合告警规则的医疗机构记为告警医疗机构并生成告警报告单、创建运维工单;
S403,通过接收用户输入的配置参数,创建关于数据质量的告警消息模板;
S404,通过告警消息模板读取告警报告单并组装告警消息,向对应的告警医疗机构发送告警消息。
S405,当工单的处理状态变更为已处理时,则将处理的数据返回S3以再次计算该数据的数据质量;若新的结果符合告警规则,将再次触发告警,创建新的运维工单直至告警解除。
与现有技术相比,本发明的有益效果是:
(1)本发明通过对在数据采集时,使用基于日志的变更数据捕获技术,代替基于查询的ETL数据抽取技术,使用系统文件I/O代替数据查询,将数据采集对医疗机构数据库的影响降至最低,从而在医疗机构信息系统与数据中心之间建立可稳定运行的实时数据交换通道,实现有效提升数据中心归集数据的时效性、完整性、准确性和一致性,从而使医疗机构信息系统产生的数据能实时流转,且提供有效的信息,提升医疗服务质量;
(2)本发明通过将质量评价规则与计算系数结合,可以获得指定数据集、医疗机构和区域的质量分数;这有助于了解数据的质量状况,帮助医疗机构和区域识别数据质量问题,并采取相应的措施进行改进,从而提高整体的数据质量和数据应用效果;
(3)本发明通过数据质量告警和处理的自定义规则、实时监控、消息通知和运维工单管理等功能,能够更加灵活、及时、全面地监测和处理数据质量问题,提高医疗机构对数据质量的管理能力,保障数据的准确性和可靠性;
综上所述,本发明一种健康医疗数据实时采集与质量控制方法,实现了健康医疗数据的实时采集、质量控制和有效利用,为医疗领域提供准确、可靠的数据基础,促进医疗服务的改进和科学研究的发展。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图;
图2为本发明的异构数据标准化方法的流程图;
图3为本发明的实时数据同步方法的流程图;
图4为本发明的数据质量评价程序的流程图;
图5为本发明的数据整改闭环程序的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
如图1所示,一种健康医疗数据实时采集与质量控制方法,包括以下步骤:
S1:如图2所示,通过分析医疗机构规格部署采集前置机以采集医疗健康数据并将其转化存储至前置机,以实现不同医疗机构、不同信息机构的异构数据标准化;具体步骤为:
S101,制定数据采集标准:依据区域医疗健康数据应用需求,制定数据采集标准;数据采集定义了医疗健康数据的格式、字段、编码规范等,以确保数据的一致性和可用性;
S102,征求医疗机构反馈意见:向医疗机构发送数据采集标准,并征求反馈意见,根据医疗机构的反馈意见,进行修订数据采集标准或补充解释性说明,以便更好地适应医疗机构的实际情况和需求;
S103,创建采集前置机镜像:基于修订后的数据采集标准,创建统一的数据采集前置机镜像,数据采集前置机镜像是一个预先配置好的软件环境,包含数据采集和转换所需的工具和组件;
S104,部署医疗机构前置机:使用数据采集前置机镜像,在各个医疗机构部署前置机;部署前置机后,将其与医疗机构信息系统进行网络连接,以确保数据的安全传输和可靠性;
S105,医疗机构数据标准化:医疗机构按照数据采集标准,对健康医疗数据进行标准化转换;其中包括将数据格式进行转换、字段进行映射、编码进行统一等操作,以便符合数据采集标准的要求;
S106,数据写入前置机:医疗机构将标准化的健康医疗数据推送至前置机,前置机接收并存储医疗机构的健康医疗数据,以便进行后续的数据质量控制、分析和应用。
S2:如图3所示,通过创建数据队列并利用主从复制协议,将数据队列伪装成从数据库,使用基于日志的变更数据捕获技术和系统文件I/O代替数据查询,将数据采集对医疗机构数据库的影响降至最低,从而在医疗机构信息系统与数据中心之间建立可稳定运行的实时数据交换通道;当医疗机构产生新数据或发生数据变更时,数据将实时同步到数据中心,以实现实时同步数据和数据校验,保障数据的准确性;具体步骤如下:
S201,创建数据队列:对于每个前置机,创建一个数据队列,并确保前置机和数据队列之间的网络连接畅通;数据队列用于接收和存储来自前置机的健康医疗数据;
S202,伪装数据队列为slave数据库:使用数据库主从复制(master-slave)协议,将数据队列伪装成slave数据库;由此前置机可以将数据发送给数据队列,而数据队列则可以模拟slave数据库的行为;
S203,绑定master数据库:使用前置机数据库的信息,在数据队列的协议配置中绑定master数据库,使得数据队列与前置机数据库进行通信,并获取数据的变更信息;
S204,启动logdump线程:前置机数据库启动logdump线程,在数据发生变更时通知数据队列;logdump线程负责将数据的变更信息记录到二进制日志中,并通知数据队列进行相应的处理;
S205,启动I/O线程:数据队列启动I/O线程,在收到通知后向前置机数据库的logdump线程请求变更数据的二进制日志文件副本,使得数据队列可以获取前置机数据库的变更数据;
S206,存储二进制日志文件副本至中继单元:数据队列将请求回来的二进制日志文件副本存储到本地的中继单元中;中继单元用于临时存储二进制日志文件副本,以便后续的解析和执行;
S207,启动SQL线程解析和执行二进制日志:数据队列启动SQL线程,解析和执行二进制日志中的事务命令,将日志还原为结构化数据,使得数据队列可以将前置机数据库的变更数据转化为可读的数据格式;
S208,使用流计算单元校验医疗机构的健康医疗数据:数据中心使用流计算单元,对医疗机构的健康医疗数据进行校验;流计算单元对数据进行实时的校验,以确保数据的准确性和完整性;其中校验步骤具体为:
步骤一:将接收到的数据进行解析以得到健康医疗数据字段,提取健康医疗数据字段的字段长度和字符类型;需要说明的是字符的类型是指健康医疗数据字段中所有字符的类型,其中字符类型包括字母、数据或特定的字符等等;
步骤二:将字段长度与设定的字段长度区间进行比较分析,当字段长度大于设定的字段长度区间中的最大值或字段长度小于设定的字段长度区间中的最小值时,说明此时字段长度过长或者字段长度过短存在信息缺失,均不符合字段长度的格式要求,则将字段长度减去设定的字段长度区间中的最大值或最小值并取绝对值以得到字段差值;
步骤三:设定每种类型的健康医疗数据字段均对应一种或一种以上的字符类型,提取健康医疗数据字段的类型并将其与所有设定的健康医疗数据字段的类型进行匹配以得到对应的字符类型,遍历健康医疗数据字段中所有字符并将其与对应的字符类型进行匹配,当存在与对应的字符类型不匹配的字符类型时,则将不匹配的字符类型记为异位字符,并统计健康医疗数据字段中异位字符的数量记为异位数量;
步骤四:将字段差值G1与异位数量G2通过设定的公式GS=g1×G1+g2×G2计算以得到校验值GS,其中g1和g2分别为设定的校正因子;将校验值与设定的校验标准阈值进行比较分析,当校验值大于设定的校验标准阈值时,说明该健康医疗数据字段不符合要求,则将该健康医疗数据字段记为不合格字段;当校验值小于或等于设定的校验标准阈值时,说明该健康医疗数据字段符合要求,则将该健康医疗数据字段记为合格字段;
步骤五:遍历健康医疗数据中所有健康医疗数据字段的判断结果,其中判断结果为合格字段和不合格字段;当健康医疗数据中存在任一一个或多个健康医疗数据字段不合格时,则健康医疗数据的校验不通过,并返回步骤一重新进行校验;当健康医疗数据所有健康医疗数据字段均为合格字段时,则健康医疗数据校验通过;其中将校验通过和校验通过记为校验结果;
步骤六:提取校验结果为不通过的健康医疗数据的校验不通过的次数,当检验不通过的次数大于设定的次数阈值时,则将健康医疗数据记为异常数据;通过流计算单元对实时数据流持续进行监控和校验,确保健康医疗数据的准确性和完整性;
S209,当校验结果为校验通过时:将校验通过的数据,使用机构唯一标识进行标记,并将其存储到数据中心,使得数据中心能够根据机构唯一标识对数据进行分类和管理;
S210,异常数据处理:将异常数据进行拦截并溯源调取异常数据的源医疗机构,并将其发送至源医疗机构的前置机进行修改,以便及时发现和解决数据质量问题标记并存储数据;当接收到来自源医疗机构修改后的异常信息时,则将修改后的异常信息替换对应的标记的异常数据,并返回S208,直至校验结果为校验通过。
S3:如图4所示,对健康医疗数据进行周期性的自运行数据质量评估,基于质控规则模块、任务调度模块和质量计算模块实现,其中任务调度模块包括数据抽取单元、规则加载单元和数据校验单元;其中质量计算模块包括数据质量计算单元、机构质量计算单元和区域质量计算单元;具体步骤为:
S301,质控规则模块,接收用户输入的配置参数并创建数据质量评价规则,其中数据质量评价规则具体包括若干个检测规则组合,每个检测规则组合分别对应一种或几种检测规则;检测规则具体为缺失值检测、异常值检测、数据一致性检测、唯一性检测、关联规则检测和值域范围检测等等;设定每种数据类型均对应一个检测规则组合;
S302,任务调度模块,用于所有周期性数据质量计算任务的自动化运行控制,任务调度模块将向数据抽取单元、规则加载单元和数据校验单元输入校验参数,控制单元任务的执行;其中校验参数的生成步骤具体为:
步骤一:设定存在一个数据分析间隔时长,提取上一次数据分析时刻并将其与当前时间进行差值计算以得到实际分析间隔时长,当实际分析间隔时长等于设定的数据分析间隔时长时,则进行数据分析以生成检验参数;具体为:调取健康医疗数据的数据量,并将其与设定的标准区间进行比较分析,当数据量大于设定标准区间中的最大值时,说明此时数量较大,数据校验不及时容易造成数据堆积,则将该数据量记为堆积数据量,并将堆积数据量对应的时刻记为堆积时刻;统计堆积时刻的数量记为D1;将堆积数据量进行均值计算以得到平均堆积量记为D2;通过设定的公式DS=d1×D1+d2×D2计算得到数据堆积系数DS,其中d1和d2分别为设定的校正因子;设定每个堆积系数均对应一个数据抽取量和数据抽取间隔时长,将求得的堆积系数与设定的所有堆积系数进行匹配以得到对应的抽取间隔时长和抽取数据量;
步骤二:调取单位时间接收到健康医疗数据的数据量,以时间为横坐标,数据量为纵坐标,将数据量按照时间顺序依次排列输入坐标中以得到数据量随时间变化关系图;其中数据量的点记为数据点,利用最小二乘法计算两个相邻时间的数据点组成线段的斜率记为数据斜率;当数据斜率大于零时,说明两个相邻数据量之间呈增加趋势,则数据斜率记为增数据斜率;当数据斜率小于零时,说明两个相邻数据量之间呈降低趋势,则将数据斜率记为降数据斜率;再将增加数据斜率进行求和计算得到的和值除以降斜率的绝对值的和值以得到增降比记为Zb;当增降比大于一时,说明数据量随时间变化整体呈现增加趋势;当增降比等于一时,说明数据量随时间变化整体呈现平稳趋势;当增降比大于一时,说明数据量随时间变化整体呈现降低趋势;将增降比通过设定的公式TS=t1×(Zb-1)^2+T1计算以得到数据分析间隔时长TS,t1为设定的时长转换系数,T1为设定的基础间隔时长;
步骤三:将抽取间隔时长和抽取数据量记为校验参数;
S303,数据抽取单元,接收到抽取间隔时长和抽取数据量时,提取上一次数据抽取时刻,并将其与当前时刻进行差值计算以得到实际间隔时长,当实际间隔时长等于抽取间隔时长时,则依据抽取数据量批量抽取数据,并将抽取数据记为待质控数据;
S304,规则加载单元,提取数据单元抽取的待质控数据类型,并将其与所有数据类型进行匹配以得到对应的检测规则组合以及检测规则组合内的检测规则;
S305,数据校验单元,依据规则加载单元匹配的检测规则组合对待质控数据依次进行检测以得到存在质量问题的数据以及质量原因;具体为:存在A类数据,A类数据对应A类检测规则组合,其中A类检测规则组合包括缺失值检测、异常值检测和唯一性检测;将A类数据依次进行缺失值检测、异常值检测和唯一性检测以得到缺失值、异常值和不唯一值,则对应的数据为质量问题数据,缺失值、异常值和不唯一值为质量原因;
S306,质量计算模块,取质量问题数据以及质量原因;统计每条数据存在的质量问题,依据每条数据存在的质量问题进行统计以得到每条数据的质量问题种类以及每种质量问题的数量;设定每种质量问题均对应一个质量系数,将质量问题种类与设定的所有质量问题种类进行匹配以得到对应的质量系数;将每种质量问题的数量乘以对应的质量系数以得到该种质量问题数据的种类质量值,并将该数据中每种质量问题数据的种类质量值进行求和计算以得到质量分值;以此类推得到每条问题数据的质量分数;
S307,数据集质量计算单元,对于一个医疗机构的数据集,其中数据集包括若干条数据,统计其中存在质量问题的数据条数,并将其记为i,i=1,3,4……n1,n取值为正整数,n1表示的是存在质量问题的数据总条数;将每条问题数据的质量分数记为Fi;利用设定的公式计算以得到数据集的质量分数Fj,其中b1和b2分别为设定的校正因子;
S308,机构质量计算单元,对于一个医疗机构,提取存在质量问题的数据集Fj,其中j=1,2,3……n2,n2取值为正整数,n2表示的是存在质量问题的数据集的总数量;利用设定的公式计算得到医疗机构质量分数YFk,其中b3和b4分别为设定的权重因子;
S309,区域质量计算单元,对于一个区域,其中一个区域内包括一个或多个医疗机构;提取每个医疗机构的质量分数YFk,其中k=1,2,3……n3,n3取值为正整数,n3表示的是医疗机构的总数,通过设定的公式计算得到区域质量分数QYF,其中b5和b6分别为设定的权重因子;
S4:如图5所示,通过依据用户输入告警配置参数以建立数据质量告警规则,并对存在质量问题的数据进行告警和创建运维工单,具体为:
S401,告警规则模块,接收用户输入的配置参数,创建数据质量告警规则;用户可以定义告警规则,例如设置阈值、规则逻辑等来确定哪些质量问题需要触发告警;
S402,数据监听模块,监听每个医疗机构的数据质量,对于结果符合告警规则的医疗机构记为告警医疗机构并生成告警报告单、创建运维工单;告警报告单包括医疗机构质量分数、数据集质量分数、数据集中存在质量问题的数据条以及质量原因;
S403,消息模板模块,接收用户输入的配置参数,创建数据质量告警消息模板;用户可以定义消息模板的内容和格式,包括告警的标题、正文等。
S404,消息通知模块,根据消息模板读取告警报告单并组装告警消息,向对应的告警医疗机构发送告警消息。
S405,运维工单模块,判断运维工单的处理状态,当医疗机构将工单的处理状态变更为已处理时,则将处理的数据返回S3以再次计算该数据的数据质量;若新的结果符合告警规则,将再次触发告警,创建新的运维工单直至告警解除。
通过将不同的模块和流程结合起来,实现了数据质量的监控和告警功能,用户可以根据自身需求配置告警规则和消息模板,根据规则自动触发告警,并通知医疗机构处理;同时,通过运维工单模块的处理状态判断和再次计算数据质量,系统能够持续监控数据质量,并及时反馈给告警医疗机构。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种健康医疗数据实时采集与质量控制方法,其特征在于,包括以下步骤:
S1:通过分析医疗机构规格部署前置机,采集医疗健康数据并转化存储至前置机,以实现异构数据标准化;
S2:通过创建数据队列并利用主从复制协议,将数据队列伪装成从数据库,以建立实时数据交换通道;当医疗机构产生新数据或发生数据变更时,数据将实时同步到数据中心;同时还将对医疗健康数据进行校验,对校验不通过的医疗健康数据进行异常处理;其中校验步骤为:
S21:将接收到的数据进行解析以得到健康医疗数据字段,提取健康医疗数据字段的字段长度和字符类型;
S22:将字段长度与设定的字段长度区间进行比较分析,当字段长度不属于设定的字段长度区间之内时,则将字段长度减去设定的字段长度区间中的最大值或最小值并取绝对值以得到字段差值;
S23:设定每种类型的健康医疗数据字段均对应一种或一种以上的字符类型,提取健康医疗数据字段的类型并将其与所有设定的健康医疗数据字段的类型进行匹配以得到对应的字符类型,遍历健康医疗数据字段中所有字符并将其与对应的字符类型进行匹配,当存在与对应的字符类型不匹配的字符类型时,则将不匹配的字符类型记为异位字符,并统计健康医疗数据字段中异位字符的数量记为异位数量;
S24:将字段差值与异位数量进行归一化处理并取其数值,对数值分析以得到校验值;将校验值与设定的校验标准阈值进行比较分析,当校验值大于设定的校验标准阈值时,则将该健康医疗数据字段记为不合格字段;当校验值小于或等于设定的校验标准阈值时,则将该健康医疗数据字段记为合格字段;
S25:遍历健康医疗数据中所有健康医疗数据字段的判断结果,其中判断结果为合格字段和不合格字段;当健康医疗数据中存在任一一个或多个健康医疗数据字段不合格时,则健康医疗数据的校验不通过,并返回步骤一重新进行校验;当健康医疗数据所有健康医疗数据字段均为合格字段时,则健康医疗数据校验通过;
S26:提取校验结果为不通过的健康医疗数据的校验不通过的次数,当检验不通过的次数大于设定的次数阈值时,则将健康医疗数据记为异常数据;
S3:通过分析健康医疗数据的数据量以及数据量变以得到校验参数,依据检验参数对数据进行周期性的自运行数据质量评估;
S4:通过依据用户输入告警配置参数以建立数据质量告警规则,并对存在质量问题的数据进行告警和创建运维工单。
2.根据权利要求1所述的一种健康医疗数据实时采集与质量控制方法,其特征在于,实现异构数据标准化的步骤如下:
S101,采集区域内医疗机构的医疗健康数据应用需求以生成数据采集标准;
S102,向医疗机构发送数据采集标准并接收医疗机构的反馈意见,根据医疗机构的反馈意见进行修订数据采集标准,以完善数据采集标准;
S103,基于修订后的数据采集标准,创建统一的数据采集前置机镜像;
S104,使用数据采集前置机镜像,将各个医疗机构部署前置机与医疗机构信息系统进行网络连接;
S105,按照数据采集标准对健康医疗数据进行标准化转换以得到统一标准的健康医疗数据;
S106,将标准化的健康医疗数据推送至前置机,前置机接收并存储医疗机构的健康医疗数据。
3.根据权利要求1所述的一种健康医疗数据实时采集与质量控制方法,其特征在于,建立实时数据交换通道和实时同步数据的具体步骤为:
S201,统计前置机的数量,并创建与前置机数量相同个数的数据列队,使之与前置机一一对应,数据列队用于接收和存储来自前置机的健康医疗数据;
S202,通过使用数据库主从复制协议,将数据队列伪装成slave数据库;
S203,通过使用前置机数据库的信息,在数据队列的协议配置中绑定master数据库,使得数据队列与前置机数据库进行通信,并获取数据的变更信息;
S204,通过前置机数据库启动log dump线程,在数据发生变更时通知数据队列;logdump线程负责将数据的变更信息记录到二进制日志中,并通知数据队列进行相应的处理;
S205,通过数据队列启动I/O线程,在收到通知后向前置机数据库的log dump线程请求变更数据的二进制日志文件副本;
S206,数据队列将请求回来的二进制日志文件副本存储到本地的中继单元中;
S207,通过数据队列启动SQL线程,解析和执行二进制日志中的事务命令,将日志还原为结构化数据;
S208,通过流计算单元对医疗机构的健康医疗数据进行校验以得到校验结果并依据校验结果得到异常数据;
S209,当校验结果为校验通过时,使用机构唯一标识进行标记,并将其存储到数据中心;
S210,将异常数据进行拦截并溯源调取异常数据的源医疗机构,并将其发送至源医疗机构的前置机进行修改;当接收到来自源医疗机构修改后的异常信息时,则将修改后的异常信息替换对应的标记的异常数据,并返回S208,直至校验结果为校验通过。
4.根据权利要求1所述的一种健康医疗数据实时采集与质量控制方法,其特征在于,通过分析健康医疗数据的数据量以及数据量变以得到校验参数,依据检验参数对数据进行周期性的自运行数据质量评估,具体为:
S301,通过接收用户输入的配置参数以创建数据质量评价规则,其中数据质量评价规则具体包括若干个检测规则组合,每个检测规则组合分别对应一种或几种检测规则;设定每种数据类型均对应一个检测规则组合;
S302,设定存在一个数据分析间隔时长,提取上一次数据分析时刻并将其与当前时间进行差值计算以得到实际分析间隔时长,当实际分析间隔时长等于设定的数据分析间隔时长时,则进行数据分析以生成检验参数;依据校验参数进行数据质量计算;其中校验参数包括抽取间隔时长和抽取数据量;
S303,提取上一次数据抽取时刻,并将其与当前时刻进行差值计算以得到实际间隔时长,当实际间隔时长等于抽取间隔时长时,则依据抽取数据量批量抽取数据,并将抽取数据记为待质控数据;
S304,提取数据单元抽取的待质控数据类型,并将其与所有数据类型进行匹配以得到对应的检测规则组合以及检测规则组合内的检测规则;
S305,依据规则加载单元匹配的检测规则组合对待质控数据依次进行检测以得到存在质量问题数据以及质量原因;
S306,提取质量问题数据以及质量原因;统计每条数据存在的质量问题以得到每条数据的质量问题种类以及每种质量问题的数量;设定每种质量问题均对应一个质量系数,将质量问题种类与设定的所有质量问题种类进行匹配以得到对应的质量系数;将每种质量问题的数量和对应的质量系数进行数值化分析以得到质量分值;以此类推得到每条问题数据的质量分数;
S307,调取数据集,其中数据集包括若干条数据,统计其中存在质量问题的数据条数,并将其记为i,i=1,3,4……n1,n1取值为正整数,n1表示的是存在质量问题的数据总条数;将每条问题数据的质量分数记为Fi;利用设定的公式计算以得到数据集的质量分数Fj,其中b1和b2分别为设定的校正因子;
S308,调取医疗机构的数据集,提取存在质量问题的数据集Fj,其中j=1,2,3……n2,n2取值为正整数,n2表示的是存在质量问题的数据集的总数量;利用设定的公式计算得到医疗机构质量分数YFk,其中b3和b4分别为设定的权重因子;
S309,提取区域内医疗机构,其中一个区域内包括一个或多个医疗机构;提取每个医疗机构的质量分数YFk,其中k=1,2,3……n3,n3取值为正整数,n3表示的是医疗机构的总数,通过设定的公式计算得到区域质量分数QYF,其中b5和b6分别为设定的权重因子。
5.根据权利要求4所述的一种健康医疗数据实时采集与质量控制方法,其特征在于,校验参数的计算步骤具体如下:
调取健康医疗数据的数据量,并将其与设定的标准区间进行比较分析以得到堆积数据量,并将堆积数据量对应的时刻记为堆积时刻;统计堆积时刻的数量;将堆积数据量进行均值计算以得到平均堆积量;将堆积时刻的数量和平均堆积量进行数值化分析以得到数据堆积系数;设定每个堆积系数均对应一个数据抽取量和数据抽取间隔时长,将求得的堆积系数与设定的所有堆积系数进行匹配以得到对应的抽取间隔时长和抽取数据量;
取单位时间接收到健康医疗数据的数据量,以时间为横坐标,数据量为纵坐标建立数据量随时间变化关系图;利用最小二乘法计算两个相邻时间的数据点组成线段的斜率记为数据斜率;当数据斜率大于零时,则数据斜率记为增数据斜率;当数据斜率小于零时,则将数据斜率记为降数据斜率;
将增加数据斜率进行求和机计算得到的和值除以降斜率的绝对值的和值以得到增降比记为;将增降比进行公式化计算分析以得到数据分析间隔时长;
将抽取间隔时长和抽取数据量记为校验参数。
6.根据权利要求1所述的一种健康医疗数据实时采集与质量控制方法,其特征在于,通过依据用户输入告警配置参数以建立数据质量告警规则,并对存在质量问题的数据进行告警和创建运维工单,具体为:
S401,通过接收用户输入的配置参数,创建数据质量告警规则;
S402,通过监听每个医疗机构的数据质量,对于结果符合告警规则的医疗机构记为告警医疗机构并生成告警报告单、创建运维工单;
S403,通过接收用户输入的配置参数,创建关于数据质量的告警消息模板;
S404,通过告警消息模板读取告警报告单并组装告警消息,向对应的告警医疗机构发送告警消息;
S405,当工单的处理状态变更为已处理时,则将处理的数据返回S3以再次计算该数据的数据质量;若新的结果符合告警规则,将再次触发告警,创建新的运维工单直至告警解除。
CN202311592034.XA 2023-11-27 2023-11-27 一种健康医疗数据实时采集与质量控制方法 Active CN117524388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311592034.XA CN117524388B (zh) 2023-11-27 2023-11-27 一种健康医疗数据实时采集与质量控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311592034.XA CN117524388B (zh) 2023-11-27 2023-11-27 一种健康医疗数据实时采集与质量控制方法

Publications (2)

Publication Number Publication Date
CN117524388A CN117524388A (zh) 2024-02-06
CN117524388B true CN117524388B (zh) 2024-04-16

Family

ID=89758466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311592034.XA Active CN117524388B (zh) 2023-11-27 2023-11-27 一种健康医疗数据实时采集与质量控制方法

Country Status (1)

Country Link
CN (1) CN117524388B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN110427361A (zh) * 2019-08-01 2019-11-08 万达信息股份有限公司 一种针对医疗数据的质量控制方法及系统
CN112559491A (zh) * 2020-12-17 2021-03-26 山东健康医疗大数据有限公司 基于医疗行业内数据模型适配管理实现方法及系统
CN115274121A (zh) * 2022-07-04 2022-11-01 中国信息通信研究院 健康医疗数据的管理方法、系统、电子设备及存储介质
CN115757626A (zh) * 2022-11-22 2023-03-07 京东城市(北京)数字科技有限公司 一种数据质量检测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775206B2 (en) * 2012-06-26 2014-07-08 Amit Kulkarni Healthcare privacy violation detection and investigation system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN110427361A (zh) * 2019-08-01 2019-11-08 万达信息股份有限公司 一种针对医疗数据的质量控制方法及系统
CN112559491A (zh) * 2020-12-17 2021-03-26 山东健康医疗大数据有限公司 基于医疗行业内数据模型适配管理实现方法及系统
CN115274121A (zh) * 2022-07-04 2022-11-01 中国信息通信研究院 健康医疗数据的管理方法、系统、电子设备及存储介质
CN115757626A (zh) * 2022-11-22 2023-03-07 京东城市(北京)数字科技有限公司 一种数据质量检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN117524388A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN109255523B (zh) 基于kks编码规则和大数据架构的分析指标计算平台
CN109388537B (zh) 运行信息跟踪方法、装置及计算机可读存储介质
CN110750377A (zh) 一种故障定位方法及装置
US20140172371A1 (en) Adaptive fault diagnosis
CN102713861A (zh) 操作管理装置、操作管理方法以及程序存储介质
CN111353911A (zh) 电力设备运维方法、系统、设备和存储介质
CN112395177A (zh) 业务数据的交互处理方法、装置、设备及存储介质
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN110929896A (zh) 一种系统设备的安全分析方法及装置
CN113298486A (zh) 一种基于大数据的政务监察督查方法及系统
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN115965237A (zh) 一种电力市场风险防控方法、装置及存储介质
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN113506096B (zh) 一种基于工业互联网标识解析体系的系统间接口方法
CN113157521B (zh) 用于区块链全生命周期的监控方法和监控系统
CN117524388B (zh) 一种健康医疗数据实时采集与质量控制方法
CN112686773A (zh) 一种基于融合业务拓扑的电力计量全链路关键业务异常定位模型构建方法
CN112087320A (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN112541011A (zh) 基于rpa和ai的电网终端故障处理方法及装置
US20150073878A1 (en) Device to perform service contract analysis
CN106304122A (zh) 一种业务数据分析方法及系统
CN110781232A (zh) 数据处理方法、装置、计算机设备和存储介质
ZHANG et al. Approach to anomaly detection in microservice system with multi-source data streams
CN112965793B (zh) 一种面向标识解析数据的数据仓库任务调度方法和系统
US20230336409A1 (en) Combination rules creation device, method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant