CN111681727A - Covid-19数据采集分析系统 - Google Patents

Covid-19数据采集分析系统 Download PDF

Info

Publication number
CN111681727A
CN111681727A CN202010517157.7A CN202010517157A CN111681727A CN 111681727 A CN111681727 A CN 111681727A CN 202010517157 A CN202010517157 A CN 202010517157A CN 111681727 A CN111681727 A CN 111681727A
Authority
CN
China
Prior art keywords
data
covid
module
analysis system
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010517157.7A
Other languages
English (en)
Inventor
陈翔
陈先来
王科
黄志军
沈敏学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010517157.7A priority Critical patent/CN111681727A/zh
Publication of CN111681727A publication Critical patent/CN111681727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种COVID‑19数据采集分析系统,属于数据采集分析领域,本发明系统充分利用包括治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等在内的各种信息,为医务人员、政府决策者提供服务和协助,并为新型冠状病毒科学研究提供重要支撑。本发明是根据COVID‑19新型冠状病毒肺炎特点而构建的,具有很强专业性,在数据采集分析过程中,根据病人标识号或身份证号码,把流行病学数据与患者的治疗方案、检验数据、检查数据、用药数据、影像数据进行连接,实现公共卫生数据与医院内部信息系统数据融合,有利于全面了解COVID‑19新型冠状病毒肺炎。

Description

COVID-19数据采集分析系统
技术领域
本发明属于数据采集分析领域,涉及一种COVID-19数据采集分析系统,特别涉及一种COVID-19新型冠状病毒肺炎相关数据的标准化采集分析系统。
背景技术
COVID-19新型冠状病毒是一种单链RNA病毒,单链RNA病毒的特点就是变异性能特别强。冠状病毒是一个大型病毒家族,已知可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等较严重疾病,人感染了冠状病毒后常见体征有呼吸道症状、发热、咳嗽、气促和呼吸困难等。在较严重病例中,感染可导致肺炎,严重急性呼吸综合征,肾衰竭,甚至死亡。目前,数据采集分析系统通过疫情报告卡采集确诊患者的姓名、身份证、住址、时间、是否有疫区史等公共卫生数据,很少有涉及病人的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,不利于对COVID-19新型冠状病毒肺炎进行全面了解[1]
发明内容
针对现有技术中数据采集系统无法采集分析病人的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据的技术问题,本发明的目的在于提供一种COVID-19数据采集分析系统。
为了达到上述目的,本发明提供以下技术方案:
本发明提供的这种COVID-19数据采集分析系统,包括数据采集系统和数据分析系统;
所述数据采集系统用于从医院信息系统(HIS)、检验科信息系统(LIS)、医学影像信息系统(PACS)和疾病预防控制系统中采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,采集的数据根据患者身份证号码或病人标识号进行关联;
所述数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化,形成高效率的分析系统。
进一步的方案,所述COVID-19数据采集分析系统还包括结果显示模块,结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
进一步的方案,所述数据采集系统通过VPN(Virtual Private Network)网络,从HIS系统采集患者的治疗方案、用药数据,从LIS系统采集患者的检验数据、检查数据,从PACS系统采集患者的影像数据,从疾病预防控制系统采集患者的流行病学数据。
在本发明中,采用VPN网络进行数据传输,为COVID-19数据采集分析系统搭建了一个稳定、安全的数据传输通道,从而保证数据安全。
进一步的方案,所述数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元;
所述模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据、 PACS数据和疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,即治疗方案模型、用药数据模型、检验数据模型、检查数据模型、影像数据模型和流行病学数据模型,并生成针对每个数据模型的数据采集SQL脚本;
所述数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL、登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;
所述数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;
所述手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。
在本发明中,数据映射模板中存在的数据项,如航班号,是否有疫区旅行史等,无法从HIS系统、LIS系统、PACS系统和疾病预防控制系统中获取,需通过电话等方式获取患者这方面信息,由数据录入人员使用VPN网络,在Web 页面上完成上述数据录入。
进一步的方案,所述数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化,形成高效率的COVID-19数据分析系统,提高多种类多维度医疗数据的利用率,满足研究人员不同的课题研究需求。
更进一步,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行数据特征补全。
更进一步,所述机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数,机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe 格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
本发明所述COVID-19数据采集分析系统,该系统充分利用包括治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等在内的各种信息,为医务人员、政府决策者提供服务和协助,并为新型冠状病毒科学研究提供重要支撑。
与其它采集系统相比,本发明的优势在于:
1)本发明是根据COVID-19新型冠状病毒肺炎特点而构建的,具有很强专业性,在数据采集分析过程中,根据病人标识号或身份证号码,把流行病学数据与患者的治疗方案、检验数据、检查数据、用药数据、影像数据进行连接,实现公共卫生数据与医院内部信息系统数据融合,有利于全面了解COVID-19 新型冠状病毒肺炎。
2)将预处理以后的数据转换成dataframe格式数据,结合本发明预设多个机器学习算法,形成高效COVID-19数据分析系统,可满足研究人员不同的课题研究需求。
附图说明
图1为COVID-19数据采集分析系统的功能模块图。
图2为COVID-19数据采集系统的结构框图。
具体实施方式
下面结合实施例和附图对本发明的实施方式作进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供一种COVID-19数据采集分析系统,如图1所示,该系统包括:
(1)数据采集系统
数据采集系统用于从HIS系统、LIS系统、PACS系统、疾病预防控制系统采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等信息,采集的数据根据患者身份证号码或病人标识号进行关联;
数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元,如图2所示;
模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建 COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据和PACS 数据、疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,并生成针对每个数据模型的数据采集SQL脚本。
上述的规范化映射处理,是针对抽取出来数据存在数据类型、量纲不同等问题,为了数据分析方便,把数据映射到同一数据类型和量纲上。
由于数据映射模板中数据项来源不同系统,如治疗方案、用药目的、用药方案来源于HIS系统;白细胞数、活化的部分凝血活酶时间、D二聚体数值来源于LIS系统;影像学特征、影像文件来源于PACS系统;COVID-19流行病学数据来源于疾病预防控制系统。根据数据项所属业务关系,把数据映射模板中数据项拆分为用药方案模型、治疗数据模型、检验数据模型、检查数据模型和流行病学数据模型,便于从HIS系统、LIS系统、PACS系统、疾病预防控制系统采集数据;
数据模型是指具有相同业务关系的数据项组合在一起,形成数据模型。例如,抽取白细胞数、活化的部分凝血活酶时间等检验项目形成检验数据模型;抽取用药目的、用药方案等数据项形成用药方案模型;抽取重症评估、治疗相关不良反应等数据项形成治疗数据模型;抽取影像学特征、影像检查类别等数据项形成检查数据模型;抽取近期是否接触过新型冠状病毒肺炎确诊病例、是否有呼吸道症状等数据项形成流行病学数据模型。依据数据模型,采集与 COVID-19相关数据项,剔除无关数据项,减少了数据采集时间,有利于标准化采集。
数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL和登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;数据源自不同医院,为了方便下次采集数据,对数据源访问过程和配置信息进行记录和保存;
数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;根据数据模型中数据项,编写SQL语句,运行SQL脚本,完成该模型数据采集,在此过程中,对不符合标准数据进行异常提示;
手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。数据映射模板中存在的某些数据项,如航班号,是否有疫区旅行史等流行病学数据,无法从HIS系统、LIS系统、PACS系统、疾病预防控制系统中获取,需通过电话等方式获取患者这方面信息,由数据录入人员使用VPN网络,在 Web页面上完成上述数据录入,同时,可以对手工录入的数据进行修改。
(2)数据分析系统
数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化,形成高效率的分析系统;
数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化,形成高效率的COVID-19数据分析系统,提高多种类多维度医疗数据的利用率,满足研究人员不同的课题研究需求;
数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行补全。
数据特征补全过程中,引入下述数据特征补全算法,具体如下:
令X=(x(1),x(2),...,x(p)),X是一个n×p阶矩阵,对于给定的变量x(s),其缺失指标集为
Figure RE-GDA0002556810980000061
将数据分成
Figure RE-GDA0002556810980000062
四部分:
其中,
Figure RE-GDA0002556810980000063
代表x(s)的观测值,
Figure RE-GDA0002556810980000064
代表x(s)的缺失值,
Figure RE-GDA0002556810980000065
代表其余p-1个变量对应的行在
Figure RE-GDA0002556810980000066
(即n×p矩阵中不属于
Figure RE-GDA0002556810980000067
的行)的数据,
Figure RE-GDA0002556810980000068
代表其余p-1个变量对应行在
Figure RE-GDA0002556810980000069
的数据;
由于数据缺失的随机性,
Figure RE-GDA00025568109800000610
并非完全已知,
Figure RE-GDA00025568109800000611
也并非完全缺失,具体填补过程如下:
(a)利用均值填补或其他简单填补法对X进行初始填补;
(b)X中缺失的列的指标集记作M,并将变量(列)按照缺失率由小到大排列;
(c)当不满足停止准则γ时,存储现有的填补矩阵,记作
Figure RE-GDA00025568109800000612
对于s∈M,利用
Figure RE-GDA00025568109800000613
Figure RE-GDA00025568109800000614
使用随机森林方法,建立y与x模型,当建立好模型以后,使用
Figure RE-GDA00025568109800000615
预测
Figure RE-GDA00025568109800000616
利用得到的预测值
Figure RE-GDA00025568109800000617
更新填补矩阵,记作
Figure RE-GDA00025568109800000618
对于s中其余缺失变量继续填补,直到满足停止准则γ;
(d)得到最终填补矩阵,记作Ximp
上述的停止准则γ为:如果新的填补矩阵与之前的填补矩阵的差别增加,那么循环停止,其中连续变量的差别为:
Figure RE-GDA00025568109800000619
其中,xij new表示填补后的值;xij old表示填补前的值;
离散变量的差别为:
Figure RE-GDA00025568109800000620
这里*NA是离散变量缺失数据的数量。
机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数;所述机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
(3)结果显示模块
结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
在一个具体的实施方式中,数据采集系统通过VPN(Virtual Private Network)网络,从HIS系统采集患者的治疗方案、用药数据,从LIS系统采集患者的检验数据、检查数据,从PACS系统采集患者的影像数据,从疾病预防控制系统采集患者的流行病学数据。采用VPN网络进行数据传输,为COVID-19数据采集分析系统搭建了一个稳定、安全的数据传输通道,从而保证数据安全。
在一个具体的实施方式中,机器学习算法模块采用线性回归、逻辑回归、支持向量机、随机森林等机器学习算法中的任意一种[2-3],将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数;接收融合与预处理输出的数据表,将数据表转换为dataframe格式数据,和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,并以图表形式对分析结果进行可视化展示。
在一个具体的实施方式中,疾病预防控制系统中存储COVID-19新型冠状病毒肺炎流行病学数据,但没有治疗方案、用药数据、检验数据、检查数据和影像数据等综合信息,根据病人身份证号或者病人标识号,数据融合与预处理模块把流行病学数据与治疗方案、用药数据、检验数据、检查数据和影像数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行补全。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。对于本技术领域的技术人员来说,在不脱离本发明技术构思前提下所得到的改进和变换也应视为本发明的保护范围。
参考文献
[1]一种医疗数据采集分析系统[P].CN105718732B.
[2]叶雷.机器学习算法在医疗数据分析中的应用[D].2017.
[3]王远旭.基于机器学习算法的医疗数据处理与分析[D].2018.

Claims (10)

1.一种COVID-19数据采集分析系统,其特征在于,该系统包括数据采集系统和数据分析系统;
所述数据采集系统用于从医院信息系统(HIS)、检验科信息系统(LIS)、医学影像信息系统(PACS)和疾病预防控制系统中采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,采集的数据根据患者身份证号码或病人标识号进行关联;
所述数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化。
2.根据权利要求1所述的COVID-19数据采集分析系统,其特征在于,所述COVID-19数据采集分析系统还包括结果显示模块,结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
3.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据采集系统通过VPN网络,从HIS系统采集患者的治疗方案、用药数据;从LIS系统采集患者的检验数据、检查数据;从PACS系统采集患者的影像数据;从疾病预防控制系统采集患者的流行病学数据。
4.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元;
所述模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据、PACS数据和疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,即治疗方案模型、用药数据模型、检验数据模型、检查数据模型、影像数据模型和流行病学数据模型,并生成针对每个数据模型的数据采集SQL脚本;
所述数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL和登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;
所述数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;
所述手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。
5.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化。
6.根据权利要求5所述的COVID-19数据采集分析系统,其特征在于,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行数据特征补全。
7.根据权利要求5所述的COVID-19数据采集分析系统,其特征在于,所述机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数,机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
8.根据权利要求6所述的COVID-19数据采集分析系统,其特征在于,所述数据特征补全过程中,引入下述数据特征补全算法,具体如下:
令X=(x(1),x(2),...,x(p)),X是一个n×p阶矩阵,对于给定的变量x(s),其缺失指标集为
Figure FDA0002530535650000021
将数据分成
Figure FDA0002530535650000022
四部分:
Figure FDA0002530535650000023
代表x(s)的观测值,
Figure FDA0002530535650000024
代表x(s)的缺失值,
Figure FDA0002530535650000025
代表其余p-1个变量对应的行在
Figure FDA0002530535650000026
的数据,
Figure FDA0002530535650000027
代表其余p-1个变量对应行在
Figure FDA0002530535650000028
的数据;
其中,
Figure FDA0002530535650000029
表示n×p矩阵中不属于
Figure FDA00025305356500000210
的行;
由于数据缺失的随机性,
Figure FDA00025305356500000211
并非完全已知,
Figure FDA00025305356500000212
也并非完全缺失,具体填补过程如下:
(a)利用均值填补或其他简单填补法对X进行初始填补;
(b)X中缺失的列的指标集记作M,并将变量(列)按照缺失率由小到大排列;
(c)当不满足停止准则γ时,存储现有的填补矩阵,记作
Figure FDA0002530535650000031
对于s∈M,利用
Figure FDA0002530535650000032
Figure FDA0002530535650000033
使用随机森林方法,建立y与x模型,当建立好模型以后,使用
Figure FDA0002530535650000034
预测
Figure FDA0002530535650000035
利用得到的预测值
Figure FDA0002530535650000036
更新填补矩阵,记作
Figure FDA0002530535650000037
对于s中其余缺失变量继续填补,直到满足停止准则γ;
(d)得到最终填补矩阵,记作Ximp
上述的停止准则γ为:如果新的填补矩阵与之前的填补矩阵的差别增加,那么循环停止,其中连续变量的差别为:
Figure FDA0002530535650000038
其中,xij new表示填补后的值;xij old表示填补前的值;
离散变量的差别为:
Figure FDA0002530535650000039
其中,*NA表示离散变量缺失数据的数量。
9.根据权利要求6所述的COVID-19数据采集分析系统,其特征在于,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把流行病学数据与治疗方案、用药数据、检验数据、检查数据、影像数据进行连接融合。
10.根据权利要求7所述的COVID-19数据采集分析系统,其特征在于,所述机器学习算法模块采用线性回归、逻辑回归、支持向量机、随机森林机器学习算法中的任意一种,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数。
CN202010517157.7A 2020-06-09 2020-06-09 Covid-19数据采集分析系统 Pending CN111681727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010517157.7A CN111681727A (zh) 2020-06-09 2020-06-09 Covid-19数据采集分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010517157.7A CN111681727A (zh) 2020-06-09 2020-06-09 Covid-19数据采集分析系统

Publications (1)

Publication Number Publication Date
CN111681727A true CN111681727A (zh) 2020-09-18

Family

ID=72435640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010517157.7A Pending CN111681727A (zh) 2020-06-09 2020-06-09 Covid-19数据采集分析系统

Country Status (1)

Country Link
CN (1) CN111681727A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991190B1 (en) 2020-07-20 2021-04-27 Abbott Laboratories Digital pass verification systems and methods
CN113782212A (zh) * 2021-04-19 2021-12-10 东华医为科技有限公司 一种数据处理系统
CN117954057A (zh) * 2024-01-29 2024-04-30 东莞市厚街医院 一种基于安卓智能模组的医学影像安全处理装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106178A1 (en) * 2007-10-23 2009-04-23 Sas Institute Inc. Computer-Implemented Systems And Methods For Updating Predictive Models
CN104361221A (zh) * 2014-10-31 2015-02-18 沈阳锐易特软件技术有限公司 基于异构系统数据映射模板的医疗数据采集系统及方法
CN106709252A (zh) * 2016-12-26 2017-05-24 重庆星空云医疗科技有限公司 预测、诊断、治疗和控制医院感染的智能决策辅助系统
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106178A1 (en) * 2007-10-23 2009-04-23 Sas Institute Inc. Computer-Implemented Systems And Methods For Updating Predictive Models
CN104361221A (zh) * 2014-10-31 2015-02-18 沈阳锐易特软件技术有限公司 基于异构系统数据映射模板的医疗数据采集系统及方法
CN106709252A (zh) * 2016-12-26 2017-05-24 重庆星空云医疗科技有限公司 预测、诊断、治疗和控制医院感染的智能决策辅助系统
CN106874663A (zh) * 2017-01-26 2017-06-20 中电科软件信息服务有限公司 心脑血管疾病风险预测方法及系统
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓琴,程誉莹: "基于随机森林模型的成分数据缺失值填补法" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991190B1 (en) 2020-07-20 2021-04-27 Abbott Laboratories Digital pass verification systems and methods
US10991185B1 (en) 2020-07-20 2021-04-27 Abbott Laboratories Digital pass verification systems and methods
US11514737B2 (en) 2020-07-20 2022-11-29 Abbott Laboratories Digital pass verification systems and methods
US11514738B2 (en) 2020-07-20 2022-11-29 Abbott Laboratories Digital pass verification systems and methods
US11574514B2 (en) 2020-07-20 2023-02-07 Abbott Laboratories Digital pass verification systems and methods
CN113782212A (zh) * 2021-04-19 2021-12-10 东华医为科技有限公司 一种数据处理系统
CN117954057A (zh) * 2024-01-29 2024-04-30 东莞市厚街医院 一种基于安卓智能模组的医学影像安全处理装置及方法
CN117954057B (zh) * 2024-01-29 2024-06-11 东莞市厚街医院 一种基于安卓智能模组的医学影像安全处理装置及方法

Similar Documents

Publication Publication Date Title
CN113643821B (zh) 一种多中心知识图谱联合决策支持方法与系统
CN111681727A (zh) Covid-19数据采集分析系统
Saeed et al. Multiparameter Intelligent Monitoring in Intensive Care II: a public-access intensive care unit database
US8670997B2 (en) Quality metric extraction and editing for medical data
CN108648786A (zh) 一种基于第三方业务的医疗云平台数据共享系统及方法
US9015191B2 (en) Methods and apparatus to enhance queries in an affinity domain
WO2021032055A1 (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
CN103690240A (zh) 一种医疗系统
US11361020B2 (en) Systems and methods for storing and selectively retrieving de-identified medical images from a database
CN106415532A (zh) 诊疗数据检索系统
JPWO2019244949A1 (ja) 生体情報処理方法、生体情報処理装置、および生体情報処理システム
CN111317464A (zh) 心电图分析方法和装置
KR101320572B1 (ko) 전자건강기록기반 진료패턴의 표준화 시스템 및 방법
CN114048343A (zh) 一种涵盖患者全病程医学影像信息的分类平台
JP5553578B2 (ja) 医用診断レポートシステム、当該システムとして機能させるためのプログラム、および医用診断レポートの作成支援方法
CN110070929A (zh) 一种针对房颤单病种数据的采集和清洗方法
CN115171830A (zh) 基于病患数据的服务包生成方法、装置、设备及存储介质
CN115512820A (zh) 一种云智医智慧医疗平台
JP2012198846A (ja) 類似症例閲覧システム、類似症例閲覧方法
de Vries et al. Towards process mining of EMR data-case study for sepsis management
US20080147444A1 (en) Blood product utilization system and methods
Kumar et al. Review paper on Big Data in healthcare informatics
CN112133444A (zh) 应用于突发卫生事件的信息处理方法、装置、设备及介质
CN115831298A (zh) 基于医院管理信息系统的临床试验患者招募方法及装置
US20230317278A1 (en) System for Aggregating, Analyzing, and Reporting Medical Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918