CN115497631A - 一种临床科研大数据分析系统 - Google Patents
一种临床科研大数据分析系统 Download PDFInfo
- Publication number
- CN115497631A CN115497631A CN202211117319.3A CN202211117319A CN115497631A CN 115497631 A CN115497631 A CN 115497631A CN 202211117319 A CN202211117319 A CN 202211117319A CN 115497631 A CN115497631 A CN 115497631A
- Authority
- CN
- China
- Prior art keywords
- data
- follow
- database
- patient
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000011160 research Methods 0.000 title claims abstract description 48
- 238000007405 data analysis Methods 0.000 title claims abstract description 17
- 201000010099 disease Diseases 0.000 claims abstract description 96
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 96
- 238000004458 analytical method Methods 0.000 claims abstract description 28
- 238000007619 statistical method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 32
- 238000003032 molecular docking Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 9
- 238000012216 screening Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 206010057178 Osteoarthropathies Diseases 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000006820 Arthralgia Diseases 0.000 description 1
- 235000008708 Morus alba Nutrition 0.000 description 1
- 240000000249 Morus alba Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000008407 joint function Effects 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种临床科研大数据分析系统,涉及数据统计分析技术领域,包括:采集多个患者的原始医疗数据,并对各原始医疗数据进行预处理得到预处理医疗数据并保存至数据仓库中;根据需要临床科研分析的一目标病种构建多个实体表,并根据实体表于数据仓库中提取相应的预处理医疗数据构建目标病种对应的专病库,以供进行临床科研分析使用;目标病种包含多个疾病特征,每个疾病特征包含多个特征字段,实体表与疾病特征一一对应,且每个实体表中包含多个特征字段;收集目标病种的患者的随访数据,专病库构建模块还用于将随访数据并入对应的预处理医疗数据中,以对专病库进行更新。有益效果是实现临床科研数据的准确、完整、高效率采集、分析及展示。
Description
技术领域
本发明涉及数据统计分析技术领域,尤其涉及一种临床科研大数据分析系统。
背景技术
我国健康行业内拥有着广泛的健康医疗数据资源,数据类型繁多复杂,特别是在综合性医院中,多套业务系统中积累了很多结构化和非结构化的数据,如电子病历系统、计算机医嘱系统、检验信息系统、影像信息系统、医护工作站等医院信息系统,这些信息系统在使用过程中产生了海量的临床数据,如病历文档数据、检查数据、检验数据等。从体量上医疗数据已经变得非常“大”,而且数据的复杂性使其具有了大数据的特征,迫切需要深入分析现有的各类数据,以便获得其中具有重要价值的信息。
然而,由于业务系统的异构性、标准性、结构化的不统一,导致分散在不同的业务系统中病历文档数据、检查数据、检验数据等难以实现数据交换和共享,从而使得这些数据无法有效应用于临床科研场景。基于此,如何满足科研专题个性化需求,实现临床科研数据的准确、完整、高效率采集、分析及展示,并减轻医务人员的庞大工作量,是当前亟待解决的技术问题。
发明内容
针对现有技术中存在的问题,本发明提供一种临床科研大数据分析系统,包括:
数据预处理模块,连接一数据仓库,用于采集多个患者的原始医疗数据,并对各所述原始医疗数据进行预处理得到预处理医疗数据并保存至所述数据仓库中;
专病库构建模块,连接所述数据仓库,用于根据需要临床科研分析的一目标病种构建多个实体表,并根据所述实体表于所述数据仓库中提取相应的所述预处理医疗数据构建所述目标病种对应的专病库,以供进行临床科研分析使用;
所述目标病种包含多个疾病特征,每个所述疾病特征包含多个特征字段,所述实体表与所述疾病特征一一对应,且每个所述实体表中包含多个所述特征字段;
患者随访模块,连接所述专病库构建模块,所述患者随访模块用于收集所述目标病种的患者的随访数据,所述专病库构建模块还用于将所述随访数据并入对应的所述预处理医疗数据中,以对所述专病库进行更新。
优选的,所述数据预处理模块提供有多种数据接入端口,以对应对接相应的医疗数据来源方;
所述数据接入端口包括关系型数据库对接端口,和/或文件对接端口,和/或非关系型数据库对接端口,和/或实时数据流对接端口,和/或标准ESB类型系统协议对接端口,和/或定制化API对接端口。
优选的,所述数据预处理模块对各所述原始医疗数据进行预处理的方式包括数据清洗,和/或协议格式转换,和/或构建患者主索引并根据所述患者主索引进行各所述原始医疗数据的整合,和/或数据标准化及归一化处理,和/或非结构化文本数据处理。
优选的,所述医疗数据来源方包括部署于除本院外的其他医疗机构内部机房的前置机,用于采集所述其他医疗机构的院外医疗数据作为所述原始医疗数据并进行安全加密传输至所述数据预处理模块进行预处理后保存。
优选的,还包括检索分析模块,连接所述专病库,用于为所述专病库提供多种搜索服务,并基于所述搜索服务的搜索结果为所述专病库提供所述目标病种的统计分析服务。
优选的,所述搜索服务包括关键字搜索服务、原文搜索服务、条件树搜索服务、事件搜索服务、影像数据精确搜索服务中的至少一种。
优选的,所述专病库包括:
进度管理模块,用于统计并展示所述专病库中包含的总患者数、总病例数、最新更新时间,病例分布情况,各所述实体表对应的所述预处理医疗数据的提取进度,由所述患者随访模块提供的病例随访情况,各所述实体表对应的所述预处理医疗数据的数据完整度,每个所述实体表包含的各所述特征字段对应的所述预处理医疗数据的数据完整度;和/或
数据贡献度及质量管理模块,用于统计并展示所述专病库中包含的各所述预处理医疗数据的数据贡献度以及数据质量情况;和/或
数据概览模块,用于统计并展示所述专病库中包含的各所述患者的就诊信息、人口学信息以及所述目标病种的特征分布情况;和/或
地域分布模块,用于统计并展示所述专病库中包含的各所述患者所属的地域分布情况;和/或
探索发现模块,用于对所述专病库中包含的各所述预处理医疗数据对应的所述字段的特征分布情况进行统计并展示;和/或
入排标准配置模块,用于向用户提供科研分析目标患者群的配置窗口,并同步展示配置得到的所述科研分析目标患者群的分布情况;和/或
预实验模块,用于对所述专病库中包含的各所述患者的的各所述预处理医疗数据进行多种统计分析并分别展示统计分析结果,以及分别对外部选择的每种所述统计分析关联的任一所述统计分析结果的进行相关性分析并展示;和/或
患者信息导出模块,用于为用户提供患者信息导出窗口。
优选的,所述患者随访模块包括:
计划生成单元,用于供医生根据预先配置的至少一计划模板为所述目标病种的各患者个性化配置随访计划,以供随访专员进行随访;
随访记录单元,连接一随访数据库,用于供所述随访专员根据所述随访计划在随访过程中记录对应的所述患者的所述随访数据并存储至所述随访数据库,以及接收对应的所述患者访问所述患者随访模块时自行填写并上传的所述随访数据并存储至所述随访数据库,以供更新所述专病库。
优选的,所述患者随访模块还包括一数据备份单元,连接所述随访数据库,用于根据一第一时间间隔对所述随访数据库进行增量备份,并根据一第二时间间隔对所述随访数据库进行全量备份;
所述第一时间间隔小于所述第二时间间隔。
优选的,所述随访计划包括随访名称、随访说明、随访阶段、随访开始时间和随访终止规则。
上述技术方案具有如下优点或有益效果:能够实现作为临床科研数据的原始医疗数据的准确、完整、高效率采集、分析及展示,无需人工参与,有效减轻医务人员的庞大工作量,并能够针对不同的目标病种构建对应的专病库,同时将患者的随访数据纳入了临床科研数据,方便临床科研数据的扩展,方便医务人员直观进行临床科研分析。
附图说明
图1为本发明的较佳的实施例中,一种临床科研大数据分析系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式,只要符合本发明的主旨,则其他实施方式也可以属于本发明的范畴。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种临床科研大数据分析系统,如图1所示,包括:
数据预处理模块1,连接一数据仓库2,用于采集多个患者的原始医疗数据,并对各原始医疗数据进行预处理得到预处理医疗数据并保存至数据仓库2中;
专病库构建模块3,连接数据仓库2,用于根据需要临床科研分析的一目标病种构建多个实体表,并根据实体表于数据仓库中提取相应的预处理医疗数据构建目标病种对应的专病库4,以供进行临床科研分析使用;
目标病种包含多个疾病特征,每个疾病特征包含多个特征字段,实体表与疾病特征一一对应,且每个实体表中包含多个特征字段;
患者随访模块5,连接专病库构建模块3,患者随访模块5用于收集目标病种的患者的随访数据,专病库构建模块还用于将随访数据并入对应的预处理医疗数据中,以对专病库进行更新。
具体地,本实施例中,上述目标病种可以根据科研需求进行配置,如需要针对骨关节病进行临床研究,则可以采集骨关节病患者的原始医疗数据,并基于骨关节病的多个疾病特征分别构建对应的实体表,疾病特征包括但不限于症状、免疫组化、肿瘤标志物、病情、病理分期、治疗方案等。进一步地,针对每个疾病特征可以进一步构建多个特征字段,以进一步细化症状,便于后续针对性的临床研究使用。针对症状,其对应的特征字段包括但不限于关节创伤、关节内旋、疼痛关节、膝关节功能受限等。
进一步地,除采集的原始医疗数据以外,可以将对应的患者的随访数据纳入临床研究数据中,即是将随访数据并入预处理医疗数据中,实现患者全生命周期的临床数据监测,为临床研究提供更为丰富的数据支撑。另外,将随访数据并入预处理医疗数据,同样能够丰富患者的病史,为下一次随访计划的个性化制定提供数据支撑。
更进一步地,上述原始医疗数据的采集无需人工参与,且采集到原始医疗数据后,在构建专病库之前对原始医疗数据进行预处理,以保证了采集数据的准确、完整和高效率。
本发明的较佳的实施例中,数据预处理模块1提供有多种数据接入端口11,以对应对接相应的医疗数据来源方;
数据接入端口11包括关系型数据库对接端口,和/或文件对接端口,和/或非关系型数据库对接端口,和/或实时数据流对接端口,和/或标准ESB类型系统协议对接端口,和/或定制化API对接端口。
具体地,本实施例中,通过提供关系型数据库对接端口主要解决各种现有业务系统存储的数据库对接,可能是HIS,RIS,LIS等业务系统,数据库主要支持Oracle、SQLServer等关系数据库。
通过提供文件对端口主要对接各种文件形式存储在业务系统中的数据,例如Excel表数据、图片数据,影像DICOM等等,优选采用FTP等文件传输协议,或者通过系统的对接接口对接。
通过提供非关系型数据库对接端口能够支持一些非SQL类型存储的数据库对接,主要解决一些厂商使用的特殊数据库,例如Caché等。
通过提供实时数据流对接端口,流式数据通常是高吞吐量的数据,且实时性要求比较高,支持通过kafka接入(通常是kafka高可用集群),由汇聚系统从kafka将实时流接入到HDFS、Hbase等大数据存储,保证实时流数据准确、可靠的存入大数据资源池。
通过提供实时数据库端口,针对实时数据的采集、处理以及存储管理而设计的数据库系统。传统的关系数据库系统旨在处理永久性数据,其设计与开发主要强调数据的完整性、一致性,提高系统的平均吞吐量等总体性能指标,很少考虑与数据及其处理相关联的时间限制。而实时数据库系统中的数据与事务具有时间相关的特性。
通过提供标准ESB类型系统协议对接端口:支持院内的数据总线方式的API数据对接,通过总线协议接口把数据上报到大数据平台(某些情况需要定制化开发)。
通过提供定制化API对接端口:一些自定义的业务系统,也没有数据库存储,又希望把数据通过实时/非实时的方式对接分析;可以为此专门开发数据对接接口,由数据上报方按照接口标准把数据推送过来。一些多中心项目,子中心在前置机处理完数据脱敏/数据简单汇总后,可以通过自定义的推送接口把数据推送到本院的数据预处理模块。
本发明的较佳的实施例中,数据预处理模块1对各原始医疗数据进行预处理的方式包括数据清洗,和/或协议格式转换,和/或构建患者主索引并根据患者主索引进行各原始医疗数据的整合,和/或数据标准化及归一化处理,和/或非结构化文本数据处理。
具体地,本实施例中,上述数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。上述协议格式转换是进行不一致数据的转换、数据粒度的转换以及一些规则的计算,其中,不一致数据的转换实时将不同业务系统的相同类型的数据统一,数据粒度的转换是将业务系统数据按照数据仓库粒度进行聚合,规则的计算是指将不同系统具有的不同业务规则和数据指标在ETL中计算好后存储在数据仓库中,以供分析使用。上述患者主索引基于身份证(社保卡)、姓名、性别、联系方式等进行算法匹配,建立患者主索引后,可以将患者医院内所有的历次医疗信息进行关联,建立患者维度的数据集。上述数据标准化可以参考包括但不限于现有国内、国际、行业、指南等标准,对采集数据进行标准化处理,还包括将病历找那个的一些重要字段(如诊断、症状、用药等)进行术语化、标准化映射,以及将自由文本中的同义词或不标准表述进行准确识别并进行标准化、术语化映射。上述非结构化文本数据处理优选采用基于词典的规则处理方法和机器学习结合进行医学自然语言处理,主要包括分词、词性标注、实体识别、实体标准化、实体关系抽取以及语义分析。其中,基于词典和规则的处理方法是利用词典匹配和正则表达式进行自然语言处理;基于机器学习和深度学习的处理方法是利用支持向量机(SVM)、隐马尔可夫(HMM)、条件随机场(CRF)、长短时记忆网络(LSTM)、卷积神经网络(CNN)等方式进行自然语言处理。
本发明的较佳的实施例中,医疗数据来源方包括部署于除本院外的其他医疗机构内部机房的前置机,用于采集其他医疗机构的院外医疗数据作为原始医疗数据并进行安全加密传输至数据预处理模块进行预处理后保存。
具体地,本实施例中,可以将本院作为大数据分析主中心,其他医疗机构作为分中心,通过在分中心部署前置机方式采集其它院外医疗机构数据,通过数据库备份和ETL采集同步数据,并自动传输到大数据分析主中心存储,整个流程基本不需人工干预。前置机采集方式适应于项目对数据的更新频次和实效性要求较高的场景,并且需要分中心医院内部机房条件也支持额外部署机器。该方式的优点是整个数据流过程都可自动处理,节省了人工成本,提高了时效性,也避免了因人工携带造成的安全隐患。
进一步具体地,本技术方案还可以包括分中心配置模块,用于邀请分中心,设置项目参与的分中心医院和项目成员,并根据项目需求对于账号数据与操作权限进行划分,确保数据安全。
更进一步地,考虑到其他院外医疗机构数据的多样性,本技术方案还可以包括数据质控管理模块,用于对各分中心传输的原始医疗数据进行质控管理,包括但不限于对入库的数据进行质量评价和质量分析,并通过质量分析报告的形成呈现。
本发明的较佳的实施例中,还包括检索分析模块6,连接专病库4,用于为专病库4提供多种搜索服务,并基于搜索服务的搜索结果为专病库4提供目标病种的统计分析服务。
具体地,本实施例中,上述统计分析服务支持对搜索结果的患者,展示默认的关键疾病信息的统计分布,支持用户自定义查看不同字段的描述性统计分析;在患者结果页中,可进行描述性统计分析,支持对定性和定量变量做描述性统计。定量和定性的数据分别用表和图来做展示,其中图默认为饼状图,也可支持切换为柱状图。定量信息的统计的结果包括有效数据、缺失数据均值、最大值、最小值、均值标准差、中位数(下四分位数~上四分位数)。使用变量统计区域的删除按钮,可以支持删除自定义选择的变量。
本发明的较佳的实施例中,搜索服务包括关键字搜索服务、原文搜索服务、条件树搜索服务、事件搜索服务、影像数据精确搜索服务中的至少一种。
具体地,本实施例中,上述关键字搜索服务支持输入关键词对患者进行搜索,并支持查看搜索到的患者数据和列表信息,同时支持关键词智能联想,并在搜索时选用自然语言处理切词技术,提升搜索准召率。上述原文搜索服务支持对原文使用关键词进行搜索;支持查看搜索到的患者数据和列表信息。上述条件述搜索服务支持搜索条件复杂的高级搜索,在高级搜索功能里,可以通过漏斗式搜索结合实时样本量计算,秒级检索目标患者并查看患者分析,帮助科研人员一步步查找验证科研思路和项目可行性。其支持以树状形式添加多个筛选条件,支持多层逻辑关系“and\or\not“的嵌套组合,支持纳入、排除和各项之间的灵活切换;实时计算透出各条件的命中患者数,用户可即刻感知患者量,根据需要及时调整筛选条件。上述事件搜索服务是为多个搜索条件添加时间先后关系,贴近实际的一种科研纳排方式。通过加入相对时间或绝对时间、发生次数等条件,综合组成事件的高级搜索,可基于条件树搜索的基础上,继续进行事件检索。上述影像数据精确搜索服务支持使用影像号进行确搜索,支持进行批量搜索,并支持查看搜索结果,支持疾病影像特征数据的点位搜索,医生在影像标注过程中所产生的结构化特征数据,均可以作为影像检索的位点。
本发明的较佳的实施例中,专病库4包括:
进度管理模块41,用于统计并展示专病库中包含的总患者数、总病例数、最新更新时间,病例分布情况,各实体表对应的预处理医疗数据的提取进度,由患者随访模块提供的病例随访情况,各实体表对应的预处理医疗数据的数据完整度,每个实体表包含的各特征字段对应的预处理医疗数据的数据完整度;和/或
数据贡献度及质量管理模块42,用于统计并展示专病库中包含的各预处理医疗数据的数据贡献度以及数据质量情况;和/或
数据概览模块43,用于统计并展示专病库中包含的各患者的就诊信息、人口学信息以及目标病种的特征分布情况;和/或
地域分布模块44,用于统计并展示专病库中包含的各患者所属的地域分布情况;和/或
探索发现模块45,用于对专病库中包含的各预处理医疗数据对应的字段的特征分布情况进行统计并展示;和/或
入排标准配置模块46,用于向用户提供科研分析目标患者群的配置窗口,并同步展示配置得到的科研分析目标患者群的分布情况;和/或
预实验模块47,用于对专病库中包含的各患者的的各预处理医疗数据进行多种统计分析并分别展示统计分析结果,以及分别对外部选择的每种统计分析关联的任一统计分析结果的进行相关性分析并展示;和/或
患者信息导出模块48,用于为用户提供患者信息导出窗口。
具体地,本实施例中,上述进度管理模块41中,各展示项目优选同屏展示。其中,病例分布情况可以展示各时间节点中基线、随访病例数量;可以通过跑到图的方式展示提取进度;病例随访情况可以展示基线及以后每一年随访、失访和死亡分别有多少人;数据完整度可以展示当前采集的患者数及百分比、病例数及百分比。优选的,可以在各实体表对应的预处理医疗数据的数据完整度中标记对应的实体表,则可以对应展示该实体表包含的各特征字段对应的预处理医疗数据的数据完整度。
上述数据贡献度及质量管理模块42中,还可以包括筛选栏,以供用户进行筛选条件的设置,进而对应展示符合筛选条件的各预处理医疗数据的数据贡献度以及数据质量情况。上述筛选条件包括但不限于基线就诊类型、基线就诊/入院科室、基线就诊时间、基线确诊年龄。用户可以针对目标病种,额外配置与病种相关的重要指标进行筛选,进而可以更有针对性的了解目标患者群体的数据量。其中,数据贡献度可以展示各时间段内所有病例数量,及这些病例分别来自哪些科室,以及来自各科室百分比,还可以展示专病库内各病历分别处于哪些科室。数据质量情况可以展示各实体表对应的预处理医疗数据通过预设的数据质控规则的数据条数百分比,同时能够通过多维度雷达图展示整个专病库的数据质量,其中,雷达图中每一个轴代表一个数据质控维度,例如唯一性、完整性,每个轴上的点离中心越远,分数越高。
上述数据概览模块43中,优选同样包含筛选栏,以供用户进行筛选条件的设置。另外还可以包含病例条,以实时显示目前筛选条件下的患者数和病例数。还可以包含第一属性设定栏,以供用户进行第一属性配置,可以基于第一属性配置,进而展示符合第一属性的目标病历情况分布;还可以包含第二属性设定栏,以供用户进行第二属性配置,可以基于第二属性配置,进而展示符合第二属性的患者累计百分比分布;各患者的就诊信息包含上述目标病历情况分布和患者累计百分比分布。人口学信息可以通过患者列表的方式展示。
上述地域分布模块44中,可以直观展示目前专病库中的患者所属地域分布在地图上进行直观的可视化展示,地域分布精确到省。还提供可地图放大缩小、拖拽移动、框选以及一键还原的控制面板。其中,预处理医疗数据中,若患者籍贯缺失,则取身份证号前两位进行判断。将鼠标悬停在地图上,会浮窗显示患者数以及省份等信息。
上述探索发现模块45中,可进一步针对科研项目中需要的字段,查看该字段在专病库中的分布以及完整度情况。因为在实际临床中,有的字段存在但是完整度不高,这样的字段可能无法应用到科研分析中。本模块中优选提供了专病库中的实体表以及对应的字段清单,科研人员可以通过选择实体表及对应的字段,以动态呈现该字段的数值分布以及完整度。其中,若选择的字段为连续型变量采用线形图的方式呈现该字段的数值分布以及完整度,若选择的字段为离散型变量采用饼图的方式呈现该字段的数值分布以及完整度。
上述入排标准配置模块46中,配置窗口可以供用户自主设定患者人群标准,实现入排标准设定。进而显示设定标准后各人群患者数和并集患者数,同时以条形图、曲线图以及桑葚图的形式显示对应的字段的分布特征。
上述预实验模块47中,可以对于目前专病库内患者的部分指标,进行ttest、卡方检验、一元线性回归三种统计分析。通过各项输入和输出指标的全排列统计分析,将相关性最强、差异性最强、关系最显著的维度,预先为用户统计完成,为针对目标病种专病库的后续科研分析提供指向性意义。
上述患者信息导出模块48中,用户可针对入排标准中定义的入组子集人群,生成其对应的各项指标的详细数据表格。在页面左侧选择需要导出的字段列表,选择完成后,页面右侧即会生成以子集患者为单位的详细数据表,表内维度即为字段列表。出于数据安全性的考虑,数据导出需要经过医院申请审核才可以被执行。
本发明的较佳的实施例中,患者随访模块5包括:
计划生成单元51,用于供医生根据预先配置的至少一计划模板为目标病种的各患者个性化配置随访计划,以供随访专员进行随访;
随访记录单元52,连接一随访数据库53,用于供随访专员根据随访计划在随访过程中记录对应的患者的随访数据并存储至随访数据库,以及接收对应的患者访问患者随访模块时自行填写并上传的随访数据并存储至随访数据库,以供更新专病库4。
具体地,本实施例中,处于数据安全性考虑,可以将随访数据库53中的数据导出为excel,并下载到U盘中,进而导入到专病库4中。
本发明的较佳的实施例中,患者随访模块5还包括一数据备份单元54,连接随访数据库53,用于根据一第一时间间隔对随访数据库进行增量备份,并根据一第二时间间隔对随访数据库进行全量备份;
第一时间间隔小于第二时间间隔。
具体地,本实施例中,上述第一时间间隔优选为24小时,上述第二时间间隔优选为一周。
本发明的较佳的实施例中,随访计划包括随访名称、随访说明、随访阶段、随访开始时间和随访终止规则。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (10)
1.一种临床科研大数据分析系统,其特征在于,包括:
数据预处理模块,连接一数据仓库,用于采集多个患者的原始医疗数据,并对各所述原始医疗数据进行预处理得到预处理医疗数据并保存至所述数据仓库中;
专病库构建模块,连接所述数据仓库,用于根据需要临床科研分析的一目标病种构建多个实体表,并根据所述实体表于所述数据仓库中提取相应的所述预处理医疗数据构建所述目标病种对应的专病库,以供进行临床科研分析使用;
所述目标病种包含多个疾病特征,每个所述疾病特征包含多个特征字段,所述实体表与所述疾病特征一一对应,且每个所述实体表中包含多个所述特征字段;
患者随访模块,连接所述专病库构建模块,所述患者随访模块用于收集所述目标病种的患者的随访数据,所述专病库构建模块还用于将所述随访数据并入对应的所述预处理医疗数据中,以对所述专病库进行更新。
2.根据权利要求1所述的临床科研大数据分析系统,其特征在于,所述数据预处理模块提供有多种数据接入端口,以对应对接相应的医疗数据来源方;
所述数据接入端口包括关系型数据库对接端口,和/或文件对接端口,和/或非关系型数据库对接端口,和/或实时数据流对接端口,和/或标准ESB类型系统协议对接端口,和/或定制化API对接端口。
3.根据权利要求1所述的临床科研大数据分析系统,其特征在于,所述数据预处理模块对各所述原始医疗数据进行预处理的方式包括数据清洗,和/或协议格式转换,和/或构建患者主索引并根据所述患者主索引进行各所述原始医疗数据的整合,和/或数据标准化及归一化处理,和/或非结构化文本数据处理。
4.根据权利要求2所述的临床科研大数据分析系统,其特征在于,所述医疗数据来源方包括部署于除本院外的其他医疗机构内部机房的前置机,用于采集所述其他医疗机构的院外医疗数据作为所述原始医疗数据并进行安全加密传输至所述数据预处理模块进行预处理后保存。
5.根据权利要求1所述的临床科研大数据分析系统,其特征在于,还包括检索分析模块,连接所述专病库,用于为所述专病库提供多种搜索服务,并基于所述搜索服务的搜索结果为所述专病库提供所述目标病种的统计分析服务。
6.根据权利要求5所述的临床科研大数据分析系统,其特征在于,所述搜索服务包括关键字搜索服务、原文搜索服务、条件树搜索服务、事件搜索服务、影像数据精确搜索服务中的至少一种。
7.根据权利要求1所述的临床科研大数据分析系统,其特征在于,所述专病库包括:
进度管理模块,用于统计并展示所述专病库中包含的总患者数、总病例数、最新更新时间,病例分布情况,各所述实体表对应的所述预处理医疗数据的提取进度,由所述患者随访模块提供的病例随访情况,各所述实体表对应的所述预处理医疗数据的数据完整度,每个所述实体表包含的各所述特征字段对应的所述预处理医疗数据的数据完整度;和/或
数据贡献度及质量管理模块,用于统计并展示所述专病库中包含的各所述预处理医疗数据的数据贡献度以及数据质量情况;和/或
数据概览模块,用于统计并展示所述专病库中包含的各所述患者的就诊信息、人口学信息以及所述目标病种的特征分布情况;和/或
地域分布模块,用于统计并展示所述专病库中包含的各所述患者所属的地域分布情况;和/或
探索发现模块,用于对所述专病库中包含的各所述预处理医疗数据对应的所述字段的特征分布情况进行统计并展示;和/或
入排标准配置模块,用于向用户提供科研分析目标患者群的配置窗口,并同步展示配置得到的所述科研分析目标患者群的分布情况;和/或
预实验模块,用于对所述专病库中包含的各所述患者的的各所述预处理医疗数据进行多种统计分析并分别展示统计分析结果,以及分别对外部选择的每种所述统计分析关联的任一所述统计分析结果的进行相关性分析并展示;和/或
患者信息导出模块,用于为用户提供患者信息导出窗口。
8.根据权利要求1所述的临床科研大数据分析系统,其特征在于,所述患者随访模块包括:
计划生成单元,用于供医生根据预先配置的至少一计划模板为所述目标病种的各患者个性化配置随访计划,以供随访专员进行随访;
随访记录单元,连接一随访数据库,用于供所述随访专员根据所述随访计划在随访过程中记录对应的所述患者的所述随访数据并存储至所述随访数据库,以及接收对应的所述患者访问所述患者随访模块时自行填写并上传的所述随访数据并存储至所述随访数据库,以供更新所述专病库。
9.根据权利要求8所述的临床科研大数据分析系统,其特征在于,所述患者随访模块还包括一数据备份单元,连接所述随访数据库,用于根据一第一时间间隔对所述随访数据库进行增量备份,并根据一第二时间间隔对所述随访数据库进行全量备份;
所述第一时间间隔小于所述第二时间间隔。
10.根据权利要求8所述的临床科研大数据分析系统,其特征在于,所述随访计划包括随访名称、随访说明、随访阶段、随访开始时间和随访终止规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117319.3A CN115497631A (zh) | 2022-09-14 | 2022-09-14 | 一种临床科研大数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117319.3A CN115497631A (zh) | 2022-09-14 | 2022-09-14 | 一种临床科研大数据分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497631A true CN115497631A (zh) | 2022-12-20 |
Family
ID=84467842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211117319.3A Withdrawn CN115497631A (zh) | 2022-09-14 | 2022-09-14 | 一种临床科研大数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497631A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052893A (zh) * | 2023-03-31 | 2023-05-02 | 安徽省立医院(中国科学技术大学附属第一医院) | 基于医学大数据的医学信息管理方法、装置和电子设备 |
CN116453640A (zh) * | 2023-06-15 | 2023-07-18 | 北京四海汇智科技有限公司 | 基于多标签筛选的临床专病库构建方法、装置及电子设备 |
CN116864095A (zh) * | 2023-08-30 | 2023-10-10 | 北京慧兰医疗科技有限公司 | 一种用于抗凝血数据的监测管理系统 |
CN117153419A (zh) * | 2023-10-31 | 2023-12-01 | 湖北福鑫科创信息技术有限公司 | 一种面向医疗机构的数据集成工具 |
CN117216040A (zh) * | 2023-11-08 | 2023-12-12 | 中电数据服务有限公司 | 基于医疗数据运营模式下的数据分层治理设计方法及系统 |
CN117271903A (zh) * | 2023-11-17 | 2023-12-22 | 神州医疗科技股份有限公司 | 基于医院临床大数据的事件搜索方法及装置 |
-
2022
- 2022-09-14 CN CN202211117319.3A patent/CN115497631A/zh not_active Withdrawn
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052893A (zh) * | 2023-03-31 | 2023-05-02 | 安徽省立医院(中国科学技术大学附属第一医院) | 基于医学大数据的医学信息管理方法、装置和电子设备 |
CN116453640A (zh) * | 2023-06-15 | 2023-07-18 | 北京四海汇智科技有限公司 | 基于多标签筛选的临床专病库构建方法、装置及电子设备 |
CN116453640B (zh) * | 2023-06-15 | 2023-09-22 | 北京四海汇智科技有限公司 | 基于多标签筛选的临床专病库构建方法、装置及电子设备 |
CN116864095A (zh) * | 2023-08-30 | 2023-10-10 | 北京慧兰医疗科技有限公司 | 一种用于抗凝血数据的监测管理系统 |
CN116864095B (zh) * | 2023-08-30 | 2023-12-29 | 北京慧兰医疗科技有限公司 | 一种用于抗凝血数据的监测管理系统 |
CN117153419A (zh) * | 2023-10-31 | 2023-12-01 | 湖北福鑫科创信息技术有限公司 | 一种面向医疗机构的数据集成工具 |
CN117153419B (zh) * | 2023-10-31 | 2024-01-26 | 湖北福鑫科创信息技术有限公司 | 一种面向医疗机构的数据集成工具 |
CN117216040A (zh) * | 2023-11-08 | 2023-12-12 | 中电数据服务有限公司 | 基于医疗数据运营模式下的数据分层治理设计方法及系统 |
CN117216040B (zh) * | 2023-11-08 | 2024-04-09 | 中电数据服务有限公司 | 基于医疗数据运营模式下的数据分层治理设计方法及系统 |
CN117271903A (zh) * | 2023-11-17 | 2023-12-22 | 神州医疗科技股份有限公司 | 基于医院临床大数据的事件搜索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415831B (zh) | 一种医疗大数据云服务分析平台 | |
CN115497631A (zh) | 一种临床科研大数据分析系统 | |
CN111863267B (zh) | 数据信息获取方法、数据分析方法、装置以及存储介质 | |
US7707045B2 (en) | System and method for multi-dimensional extension of database information | |
US9378271B2 (en) | Database system for analysis of longitudinal data sets | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
CN113742443B (zh) | 多药共用查询方法、移动终端及存储介质 | |
US9043901B2 (en) | Intent-based clustering of medical information | |
CN108962394B (zh) | 一种医疗数据决策支持方法及系统 | |
CN111243748A (zh) | 针推康数据标准化系统 | |
CN106933859B (zh) | 一种医疗数据的迁移方法和装置 | |
Chennamsetty et al. | Predictive analytics on electronic health records (EHRs) using hadoop and hive | |
US11875884B2 (en) | Expression of clinical logic with positive and negative explainability | |
Widanagamaachchi et al. | Interactive visualization and exploration of patient progression in a hospital setting | |
CN114649074A (zh) | 一种病历数据处理方法、平台和装置 | |
CN115543933A (zh) | 一种基于数据湖的云边协同医疗数据管理方法及平台 | |
CN113903423A (zh) | 用药方案推荐方法、装置、设备及介质 | |
US11581097B2 (en) | Systems and methods for patient retention in network through referral analytics | |
Jin et al. | Research on the construction and application of breast cancer-specific database system based on full data lifecycle | |
Hu | Research on monitoring system of daily statistical indexes through big data | |
Li et al. | Data mining in hospital information system | |
CN110853745A (zh) | 一种皮肤病患者规范化系统 | |
Ghosh et al. | Fundamentals and Technicalities of Big Data and Analytics | |
EP3654339A1 (en) | Method of classifying medical records | |
Branescu et al. | Solutions for medical databases optimal exploitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221220 |