CN115579094B - 一种多模态医疗数据湖构建方法及系统 - Google Patents
一种多模态医疗数据湖构建方法及系统 Download PDFInfo
- Publication number
- CN115579094B CN115579094B CN202211436205.5A CN202211436205A CN115579094B CN 115579094 B CN115579094 B CN 115579094B CN 202211436205 A CN202211436205 A CN 202211436205A CN 115579094 B CN115579094 B CN 115579094B
- Authority
- CN
- China
- Prior art keywords
- data
- pathology
- image
- acquiring
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种多模态医疗数据湖构建方法及系统,该方法包括:S1:获取临床数据,并汇聚进入数据湖中;S2:获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;S3:根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型。本发明所提供的一种多模态医疗数据湖构建方法及系统,将医疗临床数据与医疗多模态数据进行整合,兼容多种格式的医疗数据,并形成多模态医疗模型,进而能够通过多模态平台对医疗多模态数据进行分析和处理,且模型具备伸缩性强、实时性高、读取速度快以及应用范围广的优势。
Description
技术领域
本发明涉及数据信息处理技术领域,具体涉及一种多模态医疗数据湖构建方法及系统。
背景技术
随着信息技术的快速发展,现代化的医院管理离不开计算机、网络、数据库等信息技术的支持,同时,对于医疗数据的研究也具备了积极的意义,如实现临床辅助决策、预测药物副作用、实现医院科学化管理等。然而,由于医疗数据具备数据量庞大以及结构关系复杂的特点,采用常规数据库以及分析手段难以对多模态的医疗数据进行整合分析与研究。
发明内容
数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。
而相较于传统结构化数据库,数据湖则是先用三范式建表建模,然后再存储的方式。数据湖是开放式的存储模型,各类数据都以数据文件(FileGroup)格式进行存储,并不需要固定的数据表规范,可以兼容各类数据源,可以容纳各类数据库的数据字段,并且提供弹性的容量和吞吐能力,数据存储不够时候,只要有足够硬件资源可以动态扩容,不需要手动处理。
基于此,本方案利用数据湖得特点,在医疗方面,可以充分融合临床以及多模态得数据进行数据得整合,从而达到便于医疗数据整合分析科研的目的。
本发明提供的一种多模态医疗数据湖构建方法及系统,能够解决上述过程中的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供了一种多模态医疗数据湖构建方法,包括以下步骤:
S1:获取临床数据,并汇聚进入数据湖中;
S2:获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
S3:根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型。
在一些实施例中,所述S1包括以下步骤:
S11:采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
S12:对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚。
在一些实施例中,所述S1还包括以下步骤:
S13:若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
在一些实施例中,所述S2中获取影像、病理以及基因的医疗多模态数据包括以下步骤:
S21:通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
S22:通过FTP或者HTTP,对病理原文件进行数据采集;
S23:通过FTP或者HTTP,对基因原文件进行数据采集。
在一些实施例中,所述S3包括:
S31:通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影响标注文件;
S32:通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
S33:通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果。
在一些实施例中,所述S3还包括:
S34:多模态平台获取影像组学以及影响标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
第二方面,本发明提供了一种多模态医疗数据湖构建系统,包括:
临床数据获取模块,用于获取临床数据,并汇聚进入数据湖中;
多模态数据获取模块,用于获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
多模态模型构建模块,用于根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型。
在一些实施例中,所述临床数据获取模块包括:
全量数据获取子模块,用于采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
增量数据获取子模块,用于对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚。
在一些实施例中,所述临床数据获取模块还包括:
接口数据获取子模块,用于若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
在一些实施例中,所述多模态数据获取模块包括:
影像原文件采集子模块,用于通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
病理原文件采集子模块,用于通过FTP或者HTTP,对病理原文件进行数据采集;
基因原文件采集子模块,用于通过FTP或者HTTP,对基因原文件进行数据采集。
在一些实施例中,所述多模态模型构建模块包括:
影像整合子模块,用于通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影响标注文件;
病理整合子模块,用于通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
基因整合子模块,用于通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果。
在一些实施例中,所述多模态模型构建模块还包括:
数据回填子模块,用于使多模态平台获取影像组学以及影响标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
第三方面,本方案提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述任一项所述的方法。
第四方面,本方案提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述任一项所述的方法。
本申请的有益效果是:
本申请提供的一种多模态医疗数据湖构建方法及系统,能够将医疗临床数据与医疗多模态数据进行整合,兼容多种格式的医疗数据,并形成多模态医疗模型,进而能够通过多模态平台对医疗多模态数据进行分析和处理,此外,本方案通过数据湖构建的多模态医疗模型,具备伸缩性强、实时性高、读取速度快以及应用范围广的优势。
附图说明
图1为本申请的一种多模态医疗数据湖构建方法流程图;
图2为本申请S1的子流程图;
图3为本申请S2的子流程图;
图4为本申请S3的子流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本申请的一种多模态医疗数据湖构建方法流程图。
一种多模态医疗数据湖构建方法,结合图1,包括以下步骤:
S1:获取临床数据,并汇聚进入数据湖中;
具体的,为了构建多模态医疗数据湖,首先需要获取到医疗的临床数据,该数据包括了HIS、LIS、EMR、PACS、PIS、RIS、内镜、放射、超声、手麻、重症、心电、病案、生物样本、体检、核医学、cvnet、护理、病理、影像、随访等医疗数据。
在一些实施例中,结合图2即本申请S1的子流程图,所述S1包括以下步骤:
S11:采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
具体的,全量数据的汇聚,采用批式处理的方式,针对医院系统的备份库/镜像库进行处理,不直接作用于医院的主库,不影响医院业务,将镜像库的数据通过Spark定时任务,定时的抽取数据进入数据湖之中,形成数据汇聚。
如果医院没有完整的备份库或者镜像库,协助医院搭建镜像库,建立分为多种形式,MySQL采取Binlog同步方式,SQL SERVER采取消息订阅方式,ORACLE采用OGG工具,CACHE采用CACHE MIRROR或者CACHE SHADOW的方式。
S12:对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚;
具体的,增量数据采用流式汇聚的方式,通过对同步日志的实时监控,实时获取同步日志,然后由Flink抓取实时日志,进行处理,将同步日志流入数据湖之中,并更新数据湖内的数据,从而达到增量汇聚的目的。
全量数据提取以后,增量数据只需要建立起实时管道,我们的数据湖就如同备份/镜像库一样,可以与业务系统数据同步更新。
S13:若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
具体的,如果医院有条件开发接口客户端,或者有现成的集成平台接口,我们提供数据共享交换平台与其对接,客户端在医院系统业务发生的时候,生成结果数据通过标准报文格式(例如:HL7 CDA等),对接我们接口平台的标准接口,我们接受数据后将接收结果反馈给院内客户端。我们接收的数据转入Flink,Flink将同步过来的接口数据流入数据湖之中,并更新数据湖的数据。
这类更新跟流式更新不同,是覆盖式更新,最新的数据过来就将原数据直接替换了,所以只对数据结果负责,不对数据变更轨迹和中间过程负责。
S2:获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
具体的,在汇聚了临床数据后,为了使临床数据与医疗多模态数据的整合,还需要获取医疗多模态数据,该数据包括了影像数据、病理数据以及基因数据。
在一些实施例中,结合图3即本申请S2的子流程图,所述S2中获取影像、病理以及基因的医疗多模态数据包括以下步骤:
S21:通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
S22:通过FTP或者HTTP,对病理原文件进行数据采集;
S23:通过FTP或者HTTP,对基因原文件进行数据采集。
具体的,医疗多模态数据包括了影像数据、病理数据以及基因数据。对于影像数据,通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;对于病理,则通过FTP或者HTTP,对病理原文件进行数据采集;对于基因数据,则通过FTP或者HTTP,对基因原文件进行数据采集。
S3:根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型;
具体的,在获取到临床数据以及医疗多模态数据之后,在临床数据以及医疗多模态数据的基础上,数据湖以患者信息和就诊信息为核心信息,将临床数据与医疗多模态数据的检查影像、病理、基因相结合。基于这个思路,我们制定了DHCDM多模态模型,将临床、病理和检查影像相结合,并且扩展了基因模型,形成了多模态整合思路。
在一些实施例中,结合图4即本申请S3的子流程图,所述S3包括:
S31:通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影响标注文件;
具体的,影像原文件,如果是标准化Dicom的文件,可以通过Dicom3.0协议进行数据采集,而非标准化(例如JPG、BMP)的,则通过FTP采集原文件。然后通过Flink/Spark/接口采集临床数据中的就诊和检查信息,将临床与影像原数据关联,然后通过dcm4che3进行初步的影像标准化和数据处理,并且跟检查关联。同时,还可以将检查信息、影像序列、影像序列实例提供给大数据应用平台做全院多模态检索,或者将检查信息、影像序列、影像序列实例提供给多模态平台进行影像标注,获取影像组学以及影响标注文件。
其关联的具体方式为,检查信息与患者信息通过患者ID和就诊ID关联,检查的影像序列通过检查业务记录ID与检查信息关联,标注过程通过影像序列ID与检查的影像序列关联,标注以后提取出来的影像组学,通过影像序列ID与检查的影像序列关联。一份检查序列因为ROI的不同,可能会有多份不同的组学。
S32:通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
具体的,同样,通过FTP或者HTTP采集病理原文件,然后通过Flink/Spark/接口采集病理记录和标本记录,病理记录和标本记录与病理源文件关联。同时,还可将病理记录、标本记录、病理文件信息可以提供给大数据应用平台做全院多模态检索,或将病理记录、标本记录、病理文件信息可以提供给多模态平台进行病理标注和病理分析。
而其关联方式为,病理标本信息与患者信息通过患者ID和就诊ID关联,病理切片扫描以后的WSI文件,通过病理业务记录ID与病理标本信息关联,存放病理组学的病理分析结果,通过WSI文件ID与病理文件信息关联。
S33:通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果;
具体的,基因原文件为FSATQ文件,通过FTP或者HTTP采集过来,包括了样本信息和测序信息(测序机构、测序仪器、测序类型等),然后将这些数据入湖,进行临床关联整合,通过样本信息关联临床信息。同时,将样本信息和测序原文件发给生信分析平台,由生信分析平台进行分析,将分析结果(例如:突变分析结果、拷贝数变异分析结果、融合分析结果、RNA表达谱分析结果、可变剪切分析结果)提交给多模态平台进行AI分析。
而其关联方式为,基因原文件通过病理样本编码与临床相关联,这里的病理标本是作为生物样本的,涵盖范围不止是组织切片和血液,还有毛发等其他生物样本信息。通过中间表分析记录样本关联,将样本ID和分析ID进行关联,分析结果记录分析软件、基因组版本等,通过分析ID关联具体的分析结果(例如:突变分析结果、拷贝数变异分析结果、融合分析结果、RNA表达谱分析结果、可变剪切分析结果)。
S34:多模态平台获取影像组学以及影响标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
具体的,在医疗多模态数据与临床数据完成整合,并通过多模态平台进行分析后,还可以将多模态整合数据返回到数据仓库进行统一管理。
本发明第二方面还提供了一种多模态医疗数据湖构建系统,包括:
临床数据获取模块,用于获取临床数据,并汇聚进入数据湖中;
多模态数据获取模块,用于获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
多模态模型构建模块,用于根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型。
在一些实施例中,所述临床数据获取模块包括:
全量数据获取子模块,用于采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
增量数据获取子模块,用于对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚。
在一些实施例中,所述临床数据获取模块还包括:
接口数据获取子模块,用于若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
在一些实施例中,所述多模态数据获取模块包括:
影像原文件采集子模块,用于通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
病理原文件采集子模块,用于通过FTP或者HTTP,对病理原文件进行数据采集;
基因原文件采集子模块,用于通过FTP或者HTTP,对基因原文件进行数据采集。
在一些实施例中,所述多模态模型构建模块包括:
影像整合子模块,用于通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影响标注文件;
病理整合子模块,用于通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
基因整合子模块,用于通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果。
在一些实施例中,所述多模态模型构建模块还包括:
数据回填子模块,用于使多模态平台获取影像组学以及影响标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
本发明第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
具体的,计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备可以包括但不仅限于处理器和存储器。本领域技术人员可以理解,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是计算机设备的内部存储单元,例如,计算机设备的硬盘或内存。存储器也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本发明第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
具体的,集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种多模态医疗数据湖构建方法,其特征在于,包括以下步骤:
S1:获取临床数据,并汇聚进入数据湖中;
S2:获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
S3:根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型;
所述S3包括:
S31:通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影像标注文件;
S32:通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
S33:通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果。
2.根据权利要求1所述的一种多模态医疗数据湖构建方法,其特征在于,所述S1包括以下步骤:
S11:采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
S12:对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚。
3.根据权利要求2所述的一种多模态医疗数据湖构建方法,其特征在于,所述S1还包括以下步骤:
S13:若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
4.根据权利要求3所述的一种多模态医疗数据湖构建方法,其特征在于,所述S2中获取影像、病理以及基因的医疗多模态数据包括以下步骤:
S21:通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
S22:通过FTP或者HTTP,对病理原文件进行数据采集;
S23:通过FTP或者HTTP,对基因原文件进行数据采集。
5.根据权利要求4所述的一种多模态医疗数据湖构建方法,其特征在于,所述S3还包括:
S34:多模态平台获取影像组学以及影像标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
6.一种多模态医疗数据湖构建系统,其特征在于,包括:
临床数据获取模块,用于获取临床数据,并汇聚进入数据湖中;
多模态数据获取模块,用于获取影像、病理以及基因的医疗多模态数据,并形成影像、病理以及基因数据文件;
多模态模型构建模块,用于根据患者信息和就诊信息,将临床数据与影像、病理以及基因数据文件进行整合,构建DHCDM多模态模型;
所述多模态模型构建模块包括:
影像整合子模块,用于通过Flink或Spark接口获取临床数据中的就诊和检查信息,将影像原文件与就诊和检查信息进行关联,通过dcm4che3进行影像标准化和数据处理,并通过多模态平台进行影像标注,获取影像组学以及影像标注文件;
病理整合子模块,用于通过Flink或Spark接口获取临床数据中的病理和标本记录,将病理原文件与病理和标本记录进行关联,并通过多模态平台进行病理标注和病例分析,获取病理分析结果以及病理标注文件;
基因整合子模块,用于通过Flink或Spark接口获取临床数据中的样本和测序信息,将基因原文件与样本和测序信息进行关联,并通过生信分析平台进行分析,获取基因分析结果。
7.根据权利要求6所述的一种多模态医疗数据湖构建系统,其特征在于,所述临床数据获取模块包括:
全量数据获取子模块,用于采用批式处理的方式,对医院系统的镜像库进行处理,通过Spark定时任务,将镜像库的数据定时抽取到数据湖中,完成全量数据汇聚;
增量数据获取子模块,用于对医院系统的同步日志进行实时监控,并通过Flink实时抓取同步日志,将同步日志流入数据湖中,完成增量数据汇聚。
8.根据权利要求7所述的一种多模态医疗数据湖构建系统,其特征在于,所述临床数据获取模块还包括:
接口数据获取子模块,用于若医院系统存在接口客户端,通过数据共享交换平台与接口对接,获取接口数据,并通过Flink将接口数据流入数据湖,并覆盖数据湖中的数据。
9.根据权利要求8所述的一种多模态医疗数据湖构建系统,其特征在于,所述多模态数据获取模块包括:
影像原文件采集子模块,用于通过Dicom3.0协议,对标准化Dicom格式的影像原文件进行数据采集;通过FTP,对非标准化格式的影像原文件进行数据采集;
病理原文件采集子模块,用于通过FTP或者HTTP,对病理原文件进行数据采集;
基因原文件采集子模块,用于通过FTP或者HTTP,对基因原文件进行数据采集。
10.根据权利要求9所述的一种多模态医疗数据湖构建系统,其特征在于,所述多模态模型构建模块还包括:
数据回填子模块,用于使多模态平台获取影像组学以及影像标注文件、病理分析结果以及病理标注文件和基因分析结果,并回填到数据仓库进行管理。
11.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211436205.5A CN115579094B (zh) | 2022-11-16 | 2022-11-16 | 一种多模态医疗数据湖构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211436205.5A CN115579094B (zh) | 2022-11-16 | 2022-11-16 | 一种多模态医疗数据湖构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115579094A CN115579094A (zh) | 2023-01-06 |
CN115579094B true CN115579094B (zh) | 2023-02-28 |
Family
ID=84588683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211436205.5A Active CN115579094B (zh) | 2022-11-16 | 2022-11-16 | 一种多模态医疗数据湖构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115579094B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116936017B (zh) * | 2023-07-28 | 2024-05-24 | 中国人民解放军陆军军医大学第一附属医院 | 一种面向多中心场景的医疗数据融合采集方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112424872A (zh) * | 2018-07-09 | 2021-02-26 | 通用电气公司 | 预测性医疗设备维护管理 |
CN112463765A (zh) * | 2020-12-04 | 2021-03-09 | 广州医博信息技术有限公司 | 基于大数据构架的医疗数据管理方法及系统 |
CN113192624A (zh) * | 2021-07-01 | 2021-07-30 | 京东方科技集团股份有限公司 | 紧急救治系统、紧急救治方法及电子设备 |
CN113284572A (zh) * | 2021-04-30 | 2021-08-20 | 上海联影智能医疗科技有限公司 | 多模态异构的医学数据处理方法及相关装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100088117A1 (en) * | 2008-10-02 | 2010-04-08 | Siemens Medical Solutions Usa, Inc. | Multi-Mode Medical Data Reporting System |
-
2022
- 2022-11-16 CN CN202211436205.5A patent/CN115579094B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112424872A (zh) * | 2018-07-09 | 2021-02-26 | 通用电气公司 | 预测性医疗设备维护管理 |
CN112463765A (zh) * | 2020-12-04 | 2021-03-09 | 广州医博信息技术有限公司 | 基于大数据构架的医疗数据管理方法及系统 |
CN113284572A (zh) * | 2021-04-30 | 2021-08-20 | 上海联影智能医疗科技有限公司 | 多模态异构的医学数据处理方法及相关装置 |
CN113192624A (zh) * | 2021-07-01 | 2021-07-30 | 京东方科技集团股份有限公司 | 紧急救治系统、紧急救治方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115579094A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rehman et al. | Leveraging big data analytics in healthcare enhancement: trends, challenges and opportunities | |
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
Alizadehsani et al. | A database for using machine learning and data mining techniques for coronary artery disease diagnosis | |
Kouanou et al. | An optimal big data workflow for biomedical image analysis | |
CN111863267B (zh) | 数据信息获取方法、数据分析方法、装置以及存储介质 | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
JP2022105730A (ja) | ユーザ向けの医療撮像及び情報パッケージングのシステム、ならびに圧縮及び配信のシステム | |
CN110268476A (zh) | 用于管理大医学图像数据的系统和方法 | |
CN113284572B (zh) | 多模态异构的医学数据处理方法及相关装置 | |
CN115579094B (zh) | 一种多模态医疗数据湖构建方法及系统 | |
JP6633662B2 (ja) | 医用画像ベースの連携 | |
CN101561846A (zh) | 健康档案生成方法及系统 | |
Abedeen et al. | Fracatlas: A dataset for fracture classification, localization and segmentation of musculoskeletal radiographs | |
Naik et al. | Demystifying the advancements of big data analytics in medical diagnosis: an overview | |
Lazic et al. | The Holistic perspective of the INCISIVE Project—Artificial intelligence in screening mammography | |
Jin et al. | PAI-WSIT: an AI service platform with support for storing and sharing whole-slide images with metadata and annotations | |
Singhal et al. | Opportunities and challenges for biomarker discovery using electronic health record data | |
US20160078173A1 (en) | Method for editing data and associated data processing system or data processing system assembly | |
Sachdeva | Standard-based personalized healthcare delivery for kidney illness using deep learning | |
WO2023004009A1 (en) | Methods, systems and computer program products for handling data records | |
CN110291590A (zh) | 用于收集大医学图像数据的系统和方法 | |
Kulbacki et al. | Collaborative tool for annotation of synovitis and assessment in ultrasound images | |
Strøm et al. | Machine learning performance metrics and diagnostic context in radiology | |
Park et al. | Development of Medical Imaging Data Standardization for Imaging-Based Observational Research: OMOP Common Data Model Extension | |
CN117831640B (zh) | 基于超算的医药产业数字孪生平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |