CN111681727A - Covid-19数据采集分析系统 - Google Patents
Covid-19数据采集分析系统 Download PDFInfo
- Publication number
- CN111681727A CN111681727A CN202010517157.7A CN202010517157A CN111681727A CN 111681727 A CN111681727 A CN 111681727A CN 202010517157 A CN202010517157 A CN 202010517157A CN 111681727 A CN111681727 A CN 111681727A
- Authority
- CN
- China
- Prior art keywords
- data
- covid
- module
- analysis system
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000025721 COVID-19 Diseases 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 229940079593 drug Drugs 0.000 claims abstract description 23
- 239000003814 drug Substances 0.000 claims abstract description 23
- 238000007689 inspection Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000011282 treatment Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 41
- 238000007405 data analysis Methods 0.000 claims description 40
- 238000013499 data model Methods 0.000 claims description 34
- 238000010801 machine learning Methods 0.000 claims description 30
- 230000006806 disease prevention Effects 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims description 17
- 238000013506 data mapping Methods 0.000 claims description 16
- 238000007499 fusion processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000013480 data collection Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 6
- 238000013524 data verification Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 238000005429 filling process Methods 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 238000011269 treatment regimen Methods 0.000 claims description 2
- 241000711573 Coronaviridae Species 0.000 abstract description 13
- 206010035664 Pneumonia Diseases 0.000 abstract description 9
- 238000011160 research Methods 0.000 abstract description 5
- 230000005180 public health Effects 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013479 data entry Methods 0.000 description 4
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 3
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 description 2
- 208000001528 Coronaviridae Infections Diseases 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 208000025370 Middle East respiratory syndrome Diseases 0.000 description 2
- 102000002262 Thromboplastin Human genes 0.000 description 2
- 108010000499 Thromboplastin Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241001493065 dsRNA viruses Species 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 239000003154 D dimer Substances 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000001647 Renal Insufficiency Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 201000006370 kidney failure Diseases 0.000 description 1
- 238000002536 laser-induced breakdown spectroscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种COVID‑19数据采集分析系统,属于数据采集分析领域,本发明系统充分利用包括治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等在内的各种信息,为医务人员、政府决策者提供服务和协助,并为新型冠状病毒科学研究提供重要支撑。本发明是根据COVID‑19新型冠状病毒肺炎特点而构建的,具有很强专业性,在数据采集分析过程中,根据病人标识号或身份证号码,把流行病学数据与患者的治疗方案、检验数据、检查数据、用药数据、影像数据进行连接,实现公共卫生数据与医院内部信息系统数据融合,有利于全面了解COVID‑19新型冠状病毒肺炎。
Description
技术领域
本发明属于数据采集分析领域,涉及一种COVID-19数据采集分析系统,特别涉及一种COVID-19新型冠状病毒肺炎相关数据的标准化采集分析系统。
背景技术
COVID-19新型冠状病毒是一种单链RNA病毒,单链RNA病毒的特点就是变异性能特别强。冠状病毒是一个大型病毒家族,已知可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等较严重疾病,人感染了冠状病毒后常见体征有呼吸道症状、发热、咳嗽、气促和呼吸困难等。在较严重病例中,感染可导致肺炎,严重急性呼吸综合征,肾衰竭,甚至死亡。目前,数据采集分析系统通过疫情报告卡采集确诊患者的姓名、身份证、住址、时间、是否有疫区史等公共卫生数据,很少有涉及病人的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,不利于对COVID-19新型冠状病毒肺炎进行全面了解[1]。
发明内容
针对现有技术中数据采集系统无法采集分析病人的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据的技术问题,本发明的目的在于提供一种COVID-19数据采集分析系统。
为了达到上述目的,本发明提供以下技术方案:
本发明提供的这种COVID-19数据采集分析系统,包括数据采集系统和数据分析系统;
所述数据采集系统用于从医院信息系统(HIS)、检验科信息系统(LIS)、医学影像信息系统(PACS)和疾病预防控制系统中采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,采集的数据根据患者身份证号码或病人标识号进行关联;
所述数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化,形成高效率的分析系统。
进一步的方案,所述COVID-19数据采集分析系统还包括结果显示模块,结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
进一步的方案,所述数据采集系统通过VPN(Virtual Private Network)网络,从HIS系统采集患者的治疗方案、用药数据,从LIS系统采集患者的检验数据、检查数据,从PACS系统采集患者的影像数据,从疾病预防控制系统采集患者的流行病学数据。
在本发明中,采用VPN网络进行数据传输,为COVID-19数据采集分析系统搭建了一个稳定、安全的数据传输通道,从而保证数据安全。
进一步的方案,所述数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元;
所述模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据、 PACS数据和疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,即治疗方案模型、用药数据模型、检验数据模型、检查数据模型、影像数据模型和流行病学数据模型,并生成针对每个数据模型的数据采集SQL脚本;
所述数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL、登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;
所述数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;
所述手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。
在本发明中,数据映射模板中存在的数据项,如航班号,是否有疫区旅行史等,无法从HIS系统、LIS系统、PACS系统和疾病预防控制系统中获取,需通过电话等方式获取患者这方面信息,由数据录入人员使用VPN网络,在Web 页面上完成上述数据录入。
进一步的方案,所述数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化,形成高效率的COVID-19数据分析系统,提高多种类多维度医疗数据的利用率,满足研究人员不同的课题研究需求。
更进一步,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行数据特征补全。
更进一步,所述机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数,机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe 格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
本发明所述COVID-19数据采集分析系统,该系统充分利用包括治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等在内的各种信息,为医务人员、政府决策者提供服务和协助,并为新型冠状病毒科学研究提供重要支撑。
与其它采集系统相比,本发明的优势在于:
1)本发明是根据COVID-19新型冠状病毒肺炎特点而构建的,具有很强专业性,在数据采集分析过程中,根据病人标识号或身份证号码,把流行病学数据与患者的治疗方案、检验数据、检查数据、用药数据、影像数据进行连接,实现公共卫生数据与医院内部信息系统数据融合,有利于全面了解COVID-19 新型冠状病毒肺炎。
2)将预处理以后的数据转换成dataframe格式数据,结合本发明预设多个机器学习算法,形成高效COVID-19数据分析系统,可满足研究人员不同的课题研究需求。
附图说明
图1为COVID-19数据采集分析系统的功能模块图。
图2为COVID-19数据采集系统的结构框图。
具体实施方式
下面结合实施例和附图对本发明的实施方式作进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供一种COVID-19数据采集分析系统,如图1所示,该系统包括:
(1)数据采集系统
数据采集系统用于从HIS系统、LIS系统、PACS系统、疾病预防控制系统采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据等信息,采集的数据根据患者身份证号码或病人标识号进行关联;
数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元,如图2所示;
模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建 COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据和PACS 数据、疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,并生成针对每个数据模型的数据采集SQL脚本。
上述的规范化映射处理,是针对抽取出来数据存在数据类型、量纲不同等问题,为了数据分析方便,把数据映射到同一数据类型和量纲上。
由于数据映射模板中数据项来源不同系统,如治疗方案、用药目的、用药方案来源于HIS系统;白细胞数、活化的部分凝血活酶时间、D二聚体数值来源于LIS系统;影像学特征、影像文件来源于PACS系统;COVID-19流行病学数据来源于疾病预防控制系统。根据数据项所属业务关系,把数据映射模板中数据项拆分为用药方案模型、治疗数据模型、检验数据模型、检查数据模型和流行病学数据模型,便于从HIS系统、LIS系统、PACS系统、疾病预防控制系统采集数据;
数据模型是指具有相同业务关系的数据项组合在一起,形成数据模型。例如,抽取白细胞数、活化的部分凝血活酶时间等检验项目形成检验数据模型;抽取用药目的、用药方案等数据项形成用药方案模型;抽取重症评估、治疗相关不良反应等数据项形成治疗数据模型;抽取影像学特征、影像检查类别等数据项形成检查数据模型;抽取近期是否接触过新型冠状病毒肺炎确诊病例、是否有呼吸道症状等数据项形成流行病学数据模型。依据数据模型,采集与 COVID-19相关数据项,剔除无关数据项,减少了数据采集时间,有利于标准化采集。
数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL和登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;数据源自不同医院,为了方便下次采集数据,对数据源访问过程和配置信息进行记录和保存;
数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;根据数据模型中数据项,编写SQL语句,运行SQL脚本,完成该模型数据采集,在此过程中,对不符合标准数据进行异常提示;
手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。数据映射模板中存在的某些数据项,如航班号,是否有疫区旅行史等流行病学数据,无法从HIS系统、LIS系统、PACS系统、疾病预防控制系统中获取,需通过电话等方式获取患者这方面信息,由数据录入人员使用VPN网络,在 Web页面上完成上述数据录入,同时,可以对手工录入的数据进行修改。
(2)数据分析系统
数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化,形成高效率的分析系统;
数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化,形成高效率的COVID-19数据分析系统,提高多种类多维度医疗数据的利用率,满足研究人员不同的课题研究需求;
数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行补全。
数据特征补全过程中,引入下述数据特征补全算法,具体如下:
(a)利用均值填补或其他简单填补法对X进行初始填补;
(b)X中缺失的列的指标集记作M,并将变量(列)按照缺失率由小到大排列;
(c)当不满足停止准则γ时,存储现有的填补矩阵,记作对于s∈M,利用与使用随机森林方法,建立y与x模型,当建立好模型以后,使用预测利用得到的预测值更新填补矩阵,记作对于s中其余缺失变量继续填补,直到满足停止准则γ;
(d)得到最终填补矩阵,记作Ximp;
上述的停止准则γ为:如果新的填补矩阵与之前的填补矩阵的差别增加,那么循环停止,其中连续变量的差别为:
其中,xij new表示填补后的值;xij old表示填补前的值;
离散变量的差别为:
这里*NA是离散变量缺失数据的数量。
机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数;所述机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
(3)结果显示模块
结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
在一个具体的实施方式中,数据采集系统通过VPN(Virtual Private Network)网络,从HIS系统采集患者的治疗方案、用药数据,从LIS系统采集患者的检验数据、检查数据,从PACS系统采集患者的影像数据,从疾病预防控制系统采集患者的流行病学数据。采用VPN网络进行数据传输,为COVID-19数据采集分析系统搭建了一个稳定、安全的数据传输通道,从而保证数据安全。
在一个具体的实施方式中,机器学习算法模块采用线性回归、逻辑回归、支持向量机、随机森林等机器学习算法中的任意一种[2-3],将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数;接收融合与预处理输出的数据表,将数据表转换为dataframe格式数据,和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,并以图表形式对分析结果进行可视化展示。
在一个具体的实施方式中,疾病预防控制系统中存储COVID-19新型冠状病毒肺炎流行病学数据,但没有治疗方案、用药数据、检验数据、检查数据和影像数据等综合信息,根据病人身份证号或者病人标识号,数据融合与预处理模块把流行病学数据与治疗方案、用药数据、检验数据、检查数据和影像数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行补全。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。对于本技术领域的技术人员来说,在不脱离本发明技术构思前提下所得到的改进和变换也应视为本发明的保护范围。
参考文献
[1]一种医疗数据采集分析系统[P].CN105718732B.
[2]叶雷.机器学习算法在医疗数据分析中的应用[D].2017.
[3]王远旭.基于机器学习算法的医疗数据处理与分析[D].2018.
Claims (10)
1.一种COVID-19数据采集分析系统,其特征在于,该系统包括数据采集系统和数据分析系统;
所述数据采集系统用于从医院信息系统(HIS)、检验科信息系统(LIS)、医学影像信息系统(PACS)和疾病预防控制系统中采集患者的治疗方案、用药数据、检验数据、检查数据、影像数据和流行病学数据,采集的数据根据患者身份证号码或病人标识号进行关联;
所述数据分析系统与数据采集系统连接,数据分析系统用于对采集的数据进行缺失值处理和分类型转化,并进行数据分析和结果可视化。
2.根据权利要求1所述的COVID-19数据采集分析系统,其特征在于,所述COVID-19数据采集分析系统还包括结果显示模块,结果显示模块与数据分析系统连接,用于显示数据分析系统的结果。
3.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据采集系统通过VPN网络,从HIS系统采集患者的治疗方案、用药数据;从LIS系统采集患者的检验数据、检查数据;从PACS系统采集患者的影像数据;从疾病预防控制系统采集患者的流行病学数据。
4.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据采集系统包括模板管理单元、数据源管理单元、数据检验单元和手工录入编辑单元;
所述模板管理单元包括映射构建模块、模板拆分模块,映射构建模块用于构建COVID-19数据映射模板,利用该数据映射模板,实现HIS数据、LIS数据、PACS数据和疾病预防控制系统数据的规范化映射处理;模板拆分模块用于将数据映射模板拆分成多个具有业务关联的数据模型,即治疗方案模型、用药数据模型、检验数据模型、检查数据模型、影像数据模型和流行病学数据模型,并生成针对每个数据模型的数据采集SQL脚本;
所述数据源管理单元用于记录并存储数据采集过程中访问的不同医院管理系统中的配置信息,包括数据源驱动文件、数据库名称、URL和登录信息配置,同时为数据采集提供既有医疗数据源配置的连通支持;
所述数据检验单元包括数据执行模块、数据校验模块,数据执行模块用于实现基于数据模型采集过程的模拟运行并显示运行结果集,获得符合数据模型标准的数据信息;数据校验模块用于数据采集过程中数据的合规性校验,对不符合标准数据进行异常提示;
所述手工录入编辑单元使用人工录入的方式,编辑数据映射模板中的缺失数据项。
5.根据权利要求1或2所述的COVID-19数据采集分析系统,其特征在于,所述数据分析系统包括数据融合与预处理模块、机器学习算法模块,通过数据融合与预处理模块进行缺失值处理和分类型数据转化;通过机器学习算法模块进行数据分析和结果可视化。
6.根据权利要求5所述的COVID-19数据采集分析系统,其特征在于,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把疾病预防控制系统数据与HIS数据、LIS数据、PACS数据进行连接融合,对于融合数据后的每个病人,计算该病人所有数据项的缺失率,对缺失率超过阈值的病人及其对应数据进行剔除,对未超过阈值的缺失特征进行数据特征补全。
7.根据权利要求5所述的COVID-19数据采集分析系统,其特征在于,所述机器学习算法模块预设多个机器学习算法,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数,机器学习算法模块接收数据融合与预处理模块输出的数据表,将数据表转换为dataframe格式数据,并将dataframe格式数据和用户设定算法参数共同作为用户选择函数的输入,完成数据分析,最终以图表形式对分析结果进行可视化展示。
8.根据权利要求6所述的COVID-19数据采集分析系统,其特征在于,所述数据特征补全过程中,引入下述数据特征补全算法,具体如下:
(a)利用均值填补或其他简单填补法对X进行初始填补;
(b)X中缺失的列的指标集记作M,并将变量(列)按照缺失率由小到大排列;
(c)当不满足停止准则γ时,存储现有的填补矩阵,记作对于s∈M,利用与使用随机森林方法,建立y与x模型,当建立好模型以后,使用预测利用得到的预测值更新填补矩阵,记作对于s中其余缺失变量继续填补,直到满足停止准则γ;
(d)得到最终填补矩阵,记作Ximp;
上述的停止准则γ为:如果新的填补矩阵与之前的填补矩阵的差别增加,那么循环停止,其中连续变量的差别为:
其中,xij new表示填补后的值;xij old表示填补前的值;
离散变量的差别为:
其中,*NA表示离散变量缺失数据的数量。
9.根据权利要求6所述的COVID-19数据采集分析系统,其特征在于,所述数据融合与预处理模块根据病人身份证号或者病人标识号,把流行病学数据与治疗方案、用药数据、检验数据、检查数据、影像数据进行连接融合。
10.根据权利要求7所述的COVID-19数据采集分析系统,其特征在于,所述机器学习算法模块采用线性回归、逻辑回归、支持向量机、随机森林机器学习算法中的任意一种,将机器学习算法封装成函数形式,由用户自行选择机器学习算法并设定算法参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517157.7A CN111681727A (zh) | 2020-06-09 | 2020-06-09 | Covid-19数据采集分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517157.7A CN111681727A (zh) | 2020-06-09 | 2020-06-09 | Covid-19数据采集分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111681727A true CN111681727A (zh) | 2020-09-18 |
Family
ID=72435640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010517157.7A Pending CN111681727A (zh) | 2020-06-09 | 2020-06-09 | Covid-19数据采集分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681727A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10991190B1 (en) | 2020-07-20 | 2021-04-27 | Abbott Laboratories | Digital pass verification systems and methods |
CN113782212A (zh) * | 2021-04-19 | 2021-12-10 | 东华医为科技有限公司 | 一种数据处理系统 |
CN117954057A (zh) * | 2024-01-29 | 2024-04-30 | 东莞市厚街医院 | 一种基于安卓智能模组的医学影像安全处理装置及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090106178A1 (en) * | 2007-10-23 | 2009-04-23 | Sas Institute Inc. | Computer-Implemented Systems And Methods For Updating Predictive Models |
CN104361221A (zh) * | 2014-10-31 | 2015-02-18 | 沈阳锐易特软件技术有限公司 | 基于异构系统数据映射模板的医疗数据采集系统及方法 |
CN106709252A (zh) * | 2016-12-26 | 2017-05-24 | 重庆星空云医疗科技有限公司 | 预测、诊断、治疗和控制医院感染的智能决策辅助系统 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN110739076A (zh) * | 2019-10-29 | 2020-01-31 | 上海华东电信研究院 | 一种医疗人工智能公共训练平台 |
-
2020
- 2020-06-09 CN CN202010517157.7A patent/CN111681727A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090106178A1 (en) * | 2007-10-23 | 2009-04-23 | Sas Institute Inc. | Computer-Implemented Systems And Methods For Updating Predictive Models |
CN104361221A (zh) * | 2014-10-31 | 2015-02-18 | 沈阳锐易特软件技术有限公司 | 基于异构系统数据映射模板的医疗数据采集系统及方法 |
CN106709252A (zh) * | 2016-12-26 | 2017-05-24 | 重庆星空云医疗科技有限公司 | 预测、诊断、治疗和控制医院感染的智能决策辅助系统 |
CN106874663A (zh) * | 2017-01-26 | 2017-06-20 | 中电科软件信息服务有限公司 | 心脑血管疾病风险预测方法及系统 |
CN110739076A (zh) * | 2019-10-29 | 2020-01-31 | 上海华东电信研究院 | 一种医疗人工智能公共训练平台 |
Non-Patent Citations (1)
Title |
---|
张晓琴,程誉莹: "基于随机森林模型的成分数据缺失值填补法" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10991190B1 (en) | 2020-07-20 | 2021-04-27 | Abbott Laboratories | Digital pass verification systems and methods |
US10991185B1 (en) | 2020-07-20 | 2021-04-27 | Abbott Laboratories | Digital pass verification systems and methods |
US11514737B2 (en) | 2020-07-20 | 2022-11-29 | Abbott Laboratories | Digital pass verification systems and methods |
US11514738B2 (en) | 2020-07-20 | 2022-11-29 | Abbott Laboratories | Digital pass verification systems and methods |
US11574514B2 (en) | 2020-07-20 | 2023-02-07 | Abbott Laboratories | Digital pass verification systems and methods |
CN113782212A (zh) * | 2021-04-19 | 2021-12-10 | 东华医为科技有限公司 | 一种数据处理系统 |
CN117954057A (zh) * | 2024-01-29 | 2024-04-30 | 东莞市厚街医院 | 一种基于安卓智能模组的医学影像安全处理装置及方法 |
CN117954057B (zh) * | 2024-01-29 | 2024-06-11 | 东莞市厚街医院 | 一种基于安卓智能模组的医学影像安全处理装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113643821B (zh) | 一种多中心知识图谱联合决策支持方法与系统 | |
CN111681727A (zh) | Covid-19数据采集分析系统 | |
Saeed et al. | Multiparameter Intelligent Monitoring in Intensive Care II: a public-access intensive care unit database | |
US8670997B2 (en) | Quality metric extraction and editing for medical data | |
CN108648786A (zh) | 一种基于第三方业务的医疗云平台数据共享系统及方法 | |
US9015191B2 (en) | Methods and apparatus to enhance queries in an affinity domain | |
WO2021032055A1 (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
CN103690240A (zh) | 一种医疗系统 | |
US11361020B2 (en) | Systems and methods for storing and selectively retrieving de-identified medical images from a database | |
CN106415532A (zh) | 诊疗数据检索系统 | |
JPWO2019244949A1 (ja) | 生体情報処理方法、生体情報処理装置、および生体情報処理システム | |
CN111317464A (zh) | 心电图分析方法和装置 | |
KR101320572B1 (ko) | 전자건강기록기반 진료패턴의 표준화 시스템 및 방법 | |
CN114048343A (zh) | 一种涵盖患者全病程医学影像信息的分类平台 | |
JP5553578B2 (ja) | 医用診断レポートシステム、当該システムとして機能させるためのプログラム、および医用診断レポートの作成支援方法 | |
CN110070929A (zh) | 一种针对房颤单病种数据的采集和清洗方法 | |
CN115171830A (zh) | 基于病患数据的服务包生成方法、装置、设备及存储介质 | |
CN115512820A (zh) | 一种云智医智慧医疗平台 | |
JP2012198846A (ja) | 類似症例閲覧システム、類似症例閲覧方法 | |
de Vries et al. | Towards process mining of EMR data-case study for sepsis management | |
US20080147444A1 (en) | Blood product utilization system and methods | |
Kumar et al. | Review paper on Big Data in healthcare informatics | |
CN112133444A (zh) | 应用于突发卫生事件的信息处理方法、装置、设备及介质 | |
CN115831298A (zh) | 基于医院管理信息系统的临床试验患者招募方法及装置 | |
US20230317278A1 (en) | System for Aggregating, Analyzing, and Reporting Medical Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200918 |