CN113077875B - Ct影像的处理方法及装置 - Google Patents
Ct影像的处理方法及装置 Download PDFInfo
- Publication number
- CN113077875B CN113077875B CN202110310705.3A CN202110310705A CN113077875B CN 113077875 B CN113077875 B CN 113077875B CN 202110310705 A CN202110310705 A CN 202110310705A CN 113077875 B CN113077875 B CN 113077875B
- Authority
- CN
- China
- Prior art keywords
- feature
- characteristic
- prediction
- genotype
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种CT影像的处理方法及装置。该CT影像的处理方法包括从存储设备中获取患者的CT影像和病历文本;将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。本申请解决了如何不受医生经验限制就能辅助医生进行肺癌基因型检测的技术问题。
Description
技术领域
本申请涉及CT影像处理领域,具体而言,涉及一种CT影像的处理方法及装置。
背景技术
近十年来,肺癌仍然是世界范围内发生率、致死率最高的癌症之一,而非小细胞型肺癌(nonsmall-cell lung cancer,以下简称为NSCLC)占据了超过85%的肺癌患者,随着有关非小细胞癌的分子生物学的研究的发展,靶向治疗成为了针对非小细胞癌的可能途径。其中,表皮生长因子受体络氨酸激酶抑制剂(epidermal growth factor receptor-tyrosine kinase inhibitor,以下简称为EGFR-TKI)已成为治疗NSCLC的常用药物,并取得了不错的疗效;与此同时,近期研究也显示出,对于KRAS基因突变的癌症患者,可能表现出对于TKI药物的耐药现象。因此鉴别肺癌患者病灶多基因型的突变情况,对后期的靶向药物的治疗具有重要的指向作用,可以有效提高就诊的效率并节省不必要的药物使用。
相关技术中通常通过腰椎穿刺进行活体检测来判断患者基因型,非常耗时,而且受限于医生的经验,通常只有经验丰富的医生才可以进行较准确的判断,对医生的经验要求较高,在有经验的医生比较匮乏的医院无法满足患者的需求。
针对相关技术中存在的问题,亟需提出一种能够辅助医生进行肺癌基因型检测的方式。
发明内容
本申请的主要目的在于提供一种CT影像的处理方法,以解决如何不受医生经验限制就能辅助医生进行肺癌基因型检测的问题。
为了实现上述目的,本申请提供了一种CT影像的处理方法及装置。
第一方面,本申请提供了一种CT影像的处理方法。
根据本申请的CT影像的处理方法包括:
从存储设备中获取患者的CT影像和病历文本;
将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;
将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;
将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。
进一步的,所述将所述CT影像进行数据预处理,确定第一特征,包括:
将肺癌病灶区域图像按照预设尺寸进行块状切割;
将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
进一步的,所述将所述病历文本进行数据结构化,确定第二特征,包括:
提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;
将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
进一步的,所述预测模型为组合预测模型,所述将所述第一特征和所述第二特征融合后的特征输入至预测模型中,得到基因型预测结果,包括:
将所述第一特征和所述第二特征融合后的特征输入至组合预测模型中,得到其对应组合基因型预测结果,其中,所述组合预测模型为预测组合基因型的模型。
进一步的,所述预测模型包括第一单一预测模型和第二单一预测模型,所述将所述第一特征和所述第二特征融合后的特征输入至预测模型中,得到基因型预测结果,包括:
将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,得到其对应的第一单一基因型预测结果,其中,所述第一单一预测模型为预测单一基因型的模型;
将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,得到其对应的第二单一基因型预测结果,其中,所述第二单一预测模型为预测单一基因型的模型;
将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果。;
第二方面,本申请提供了一种CT影像的处理装置。
根据本申请的CT影像的处理装置包括:
信息获取模块,用于从存储设备中获取患者的CT影像和病历文本;
第一特征确定模块,用于将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;
第二特征确定模块,用于将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;
结果预测模块,用于将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。
进一步的,所述第一特征确定模块包括:
块状切割单元,用于将肺癌病灶区域图像按照预设尺寸进行块状切割;
第一特征提取单元,用于将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
进一步的,所述第二特征确定模块包括:
归一化处理单元,用于提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;
第二特征确定单元,用于将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
进一步的,所述结果预测模块中所述预测模型为组合预测模型,包括:
组合结果预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至组合预测模型中,得到其对应组合基因型预测结果,其中,所述组合预测模型为预测组合基因型的模型。
进一步的,所述结果预测模块中所述预测模型包括第一单一预测模型和第二单一预测模型,包括:
第一单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,得到其对应的第一单一基因型预测结果,其中,所述第一单一预测模型为预测单一基因型的模型;
第二单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,得到其对应的第二单一基因型预测结果,其中,所述第二单一预测模型为预测单一基因型的模型;
结果组合单元,用于将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果。
第三方面,本申请提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的CT影像的处理方法的步骤。
第四方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的CT影像的处理方法的步骤。
在本申请实施例中,通过获取存储设备中的CT影像和病历文本,并对CT影像进行数据预处理,得到第一特征,将病历文本进行数据结构化确定第二特征,将第一特征和第二特征进行特征融合后输入至预测模型中得到基因型的预测结果,达到了基于CT影像和病历文本就能预测肺癌患者基因型的目的,从而实现了辅助医生检测肺癌患者基因型的技术效果,进而解决了如何不受医生经验限制就能辅助医生进行肺癌基因型检测的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的CT影像的处理方法的流程示意图;
图2是本申请实施例中特征提取模型的网络结构;
图3是本申请实施例中对CT影像进行预处理的网络结构;
图4是本申请实施例中word2vector的网络结构;
图5是本申请另一实施例的CT影像的处理方法的流程示意图;
图6是本申请实施例的CT影像的处理装置的结构框图;
图7是本申请实施例的电子设备框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例,提供了一种CT影像的处理方法,如图1所示,该方法包括如下的步骤S1至步骤S4:
S1:从存储设备中获取患者的CT影像和病历文本。
患者在每次进行CT检查后,检查设备都会将检查结果(即CT影像)传送至后台端,后台端可以将CT影像保存在存储设备中。同样的,医生在完成对患者的诊断后,也会将病历信息输入至后台端,后台端可以将病历信息脱敏后生成病历文本,并将病历文本保存在存储设备中。具体的,病历文本至少包括人口学信息(如性别、年龄、吸烟情况等,其中吸烟情况可以为吸烟史、吸烟频次等)和血液检验信息(如状瘤标志物、糖类抗原125等),还可以包括既往病史信息等。这样,在对CT影像进行处理之前,就可以直接从存储设备中获取CT影像和病历文本了。需要说明的是,优选的,本步骤中获取的CT影像为最近一次检查对应的CT图像。可选的,CT图像可以是DICOM格式的。
S2:将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征。
“将所述CT影像进行数据预处理,确定第一特征”,具体为:将肺癌病灶区域图像按照预设尺寸进行块状切割;将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
上述流程中,在将肺癌病灶区域图像按照预设尺寸进行块状切割之前,需要先将CT影像进行预处理,具体为对肺癌患者的肺部三维影像进行去噪处理,消除肺无关组织,以消除肺无关组织对后续提取影像学深度特征的影响,同时可以通过消除肺无关组织,得到更为准确的肺部掩膜(即肺癌病灶区域),并将CT影像中的肺部掩膜进行提取和分割得到肺癌病灶区域图像,并获取所述肺癌病灶区域图像对应的病灶标签,病灶标签可以为医生设定的标签。可选的,可以基于当前CT图像对应的病灶标签,对CT图像的肺癌病灶区域图像进行三维重建。并按照预设尺寸肺癌病灶区域图像进行块状切割(例如切割成三维立方块),切割的大小可以是后台预设的,也可以是医生用户根据不同患者的情况自行设定的。将切割后的每一块三维图像输入到特征提取模型中,提取第一特征。具体的,该第一特征指的是三维图像的影像学深度特征,特征提取模型为卷积神经网络模型,该特征提取模型是基于训练样本预先训练的,训练样本包括肺癌病灶区域图像切割的三维图像块和每一块三维图像对应的第一特征。具体的,如图2所示,特征提取模型是三层的三维卷积神经网络模型。
示例的,在本实施例中可以通过如图3所示基于FCN的框架的网络模型对CT影像进行预处理,以达到消除与肺无关组织的目的,得到肺癌病灶区域。具体的,该基于FCN的框架的网络模型的初始的网络结构是基于U-Net(就是一个全卷积神经网络),预测模型的输入和输出都是全连接层,可以通过较浅的高分辨率层用来解决像素定位、较深的层用来解决像素分类的问题。本申请中使用一种基于U-Net的循环卷积神经网络(RCNN),以及基于U-Net模型的循环积结神经网络(RRCNN),分别命名为RU-Net和R2U-Net。预测模型利用了U-Net、剩余网络以及RCNN的力量。使预测模型具有以下优点:首先,在训练深层架构时,剩余单元会有所帮助。其次,具有循环残余卷积层的特征积累可确保分割任务具有更好的特征表示。第三,能够设计更好的U-Net架构,具有相同的网络参数数量,并更好的医疗图像分割性能。
S3:将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征。
“将所述病历文本进行数据结构化,确定第二特征”,具体为:提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
提取病历文本中的所有特征,将所有特征结构化后通过分类器进行筛选,得到与肺癌患者具有相关性的特征(即生理学特征和人口学特征),具体的,生理学特征为血液检验特征。将生理学特征和人口学特征进行向量化处理,将向量化后的生理学特征和人口学特征通过归一化处理的方式转化为矩阵形式的生理学特征和人口学特征,上述矩阵形式的生理学特征和人口学特征即为第二特征,该第二特征为文本类特征。可选的,可以通过word2vector的模型对病历文本进行训练,获得病历文本的向量表示,因此可以基于Word2vector等特征工程技术,将病历文本中的关键信息,转变为特征向量,以便进行后续步骤S4的特征融合。具体的,可以利用word2vector的模型将输入的向量化后的生理学特征和人口学特征进行归一化处理。如图4所示,word2vector的模型是由一个三层的神经网络,输入层和输出层都可以看做词汇表的one-hot编码表示的模型。
S4:将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果。
将第一特征和第二特征进行融合,并将融合后的特征输入至预测模型中,可以得到基因型检测结果,具体的,基因型检测结果为EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型之一。预测模型是提前训练得到的,具体的,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。具体的,预测模型的训练样本可以来自不同医院的非小细胞肺癌晚期患者的CT影像以及其病历信息所得到的数据集,该数据集在选择过程中,应该考虑到各种平衡原则,应避免系统性误差及偏见,最终目的是得到一批信息完整、数据质量较高、具有可用性多通道数据集。另外,数据集的患者是经过基因检测的,并且可以确定基因型的。数据集可以分为训练集、验证集、测试集,以便对最终预测效果进行评估。本步骤中的进行训练的样本就是数据集中的训练集。
具体的,在实际应用中可以通过两种方式得到基因型预测结果。其一是通过一个组合预测模型得到组合基因型预测结果;其二是通过两个单一预测模型得到两个单一基因型预测结果,将两个单一基因型预测结果组合后得到组合基因型预测结果。
当通过一个组合预测模型得到组合基因型预测结果时,所述预测模型为组合预测模型,具体预测过程为:将所述第一特征和所述第二特征融合后的特征输入至组合预测模型中,组合基因模型为预测KRAS基因型和EFGR的基因型的组合基因型的预测模型,该组合基因模型的输出层为四分类(即EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型),得到其对应组合基因型预测结果:EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型之。可以看出,所述组合预测模型为预测组合基因型的模型。
当通过两个单一预测模型得到两个单一基因型预测结果,将两个单一基因型预测结果组合后得到组合基因型预测结果时,所述预测模型包括第一单一预测模型和第二单一预测模型时,具体预测过程为:将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,其中,第一单一预测模型为预测EGFR这一种基因型的预测模型,该第一单一预测模型的输出层为两分类(即EGFR突变型、EGFR野生型),得到其对应的第一单一基因型预测结果:EGFR突变型或EGFR野生型,其中,所述第一单一预测模型为预测单一基因型的模型。将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,其中,第一单一预测模型为预测KRAS这一种基因型的预测模型,该第一单一预测模型的输出层为两分类(即KRAS突变型、KRAS野生型),得到其对应的第二单一基因型预测结果:KRAS突变型或KRAS野生型,其中,所述第二单一预测模型为预测单一基因型的模型;将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果:EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型之一。
不管是上述组合预测模型还是单一预测模型,都是一种用于分类的模型。上述组合预测模型训练时需要大量的四分类(EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型)的数据集,与2个单一预测模型相比,其对训练数据有较高的要求,但对基因型预测的准确度更好;而上述第一单一预测模型和第二单一预测模型是分别建立的预测模型,虽然采用相似的训练系统,但最终训练出的是两个独立的模型,与1个组合预测模型相比,其对训练数据的要求较低,但基因型预测的准确度较差。
如图5所示,为本申请另一实施例的CT影像的处理方法的流程示意图,包括:通过医院信息系统(Hospital Information System,HIS)、实验室信息管理系统(LaboratoryInformation Management System,LIS)、医学影像存档与通讯系统(Picture archivingand communication systems,PACS)采集信息,得到电子健康档案(electronic healthrecords,EHR)和DICOM格式的CT图像,上述EHR为前述实施例中的病历文本。将CT图像进行数据预处理,分割和重建后,输入病灶检出模型(即前述实施例中的特征提取模型),得到影像学深度特征(即前述实施例中的第一特征);将病历文本进行数据结构化,在归一化和word2vector后得到临床信息特征(即前述实施例中的第二特征)。将第一特征和第二特征分别通过神经网络和Adaboost分类器后输入预测模型,得到识别基因型结果:EGFR突变+KRAS突变型、EGFR突变+KRAS野生型、EGFR野生+KRAS突变型、EGFR野生+KRAS野生型之一。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,通过获取存储设备中的CT影像和病历文本,并对CT影像进行数据预处理,得到第一特征,将病历文本进行数据结构化确定第二特征,将第一特征和第二特征进行特征融合后输入至预测模型中得到基因型的预测结果。通过算法去深挖隐藏在医学影像(如CT影像)中重要的信息与特征,同时通过融合诸多临床特征,增加了特征的维度与广度,达到了基于CT影像和病历文本就能预测肺癌患者基因型的目的从而实现了辅助医生检测肺癌患者基因型的技术效果。同时,本申请实施例能够高效快速的反馈基因型的预测结果,对于医生的判断提供重要的辅助诊断信息,对于接下来的基因测序工作,提供了方向及双重检验;本申请实施例可以分别检测原发病灶、转移病灶的基因型,有效避免因为检测的原发病灶、转移病灶的基因型不同,而造成的影响靶向药物治疗的风险;另外,在本申请实施例中通过病历文本及CT图像的深度特征,可以不通过腰椎穿刺进行活体检测就预测患者基因型,含有很强的医学价值。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述CT影像的处理方法的装置20,如图6所示,该CT影像的处理装置20包括:
信息获取模块201,用于从存储设备中获取患者的CT影像和病历文本;
第一特征确定模块202,用于将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;
第二特征确定模块203,用于将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;
结果预测模块204,用于将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。
进一步的,所述第一特征确定模块202包括:
块状切割单元,用于将肺癌病灶区域图像按照预设尺寸进行块状切割;
第一特征提取单元,用于将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
进一步的,所述第二特征确定模块203包括:
归一化处理单元,用于提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;;
第二特征确定单元,用于将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
进一步的,所述结果预测模块204中,所述预测模型为组合预测模型,包括:
组合结果预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至组合预测模型中,得到其对应组合基因型预测结果,其中,所述组合预测模型为预测组合基因型的模型。
进一步的,所述结果预测模块204中,所述预测模型包括第一单一预测模型和第二单一预测模型,包括:
第一单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,得到其对应的第一单一基因型预测结果,其中,所述第一单一预测模型为预测单一基因型的模型;
第二单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,得到其对应的第二单一基因型预测结果,其中,所述第二单一预测模型为预测单一基因型的模型;
结果组合单元,用于将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果。
具体的,本实施例中各模块的实现可以参考方法实施例中的相关实现,不再赘述。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,通过获取存储设备中的CT影像和病历文本,并对CT影像进行数据预处理,得到第一特征,将病历文本进行数据结构化确定第二特征,将第一特征和第二特征进行特征融合后输入至预测模型中得到基因型的预测结果。通过算法去深挖隐藏在医学影像(如CT影像)中重要的信息与特征,同时通过融合诸多临床特征,增加了特征的维度与广度,达到了基于CT影像和病历文本就能预测肺癌患者基因型的目的从而实现了辅助医生检测肺癌患者基因型的技术效果。同时,本申请实施例能够高效快速的反馈基因型的预测结果,对于医生的判断提供重要的辅助诊断信息,对于接下来的基因测序工作,提供了方向及双重检验;本申请实施例可以分别检测原发病灶、转移病灶的基因型,有效避免因为检测的原发病灶、转移病灶的基因型不同,而造成的影响靶向药物治疗的风险;另外,在本申请实施例中通过病历文本及CT图像的深度特征,可以不通过腰椎穿刺进行活体检测就预测患者基因型,含有很强的医学价值。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现CT影像的处理方法的步骤。例如包括:从存储设备中获取患者的CT影像和病历文本;将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。
图7为本发明实施例提供的电子设备框图,如图7所示,该设备包括:处理器301、存储器302和总线303;
其中,处理器301及存储器302分别通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述实施例所提供的CT影像的处理方法,例如包括:从存储设备中获取患者的CT影像和病历文本;将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种CT影像的处理方法,其特征在于,包括:
从存储设备中获取患者的CT影像和病历文本;
将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;
将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;
将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的;
所述预测模型包括第一单一预测模型和第二单一预测模型,所述将所述第一特征和所述第二特征融合后的特征输入至预测模型中,得到基因型预测结果,包括:
将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,得到其对应的第一单一基因型预测结果,其中,所述第一单一预测模型为预测单一基因型的模型;
将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,得到其对应的第二单一基因型预测结果,其中,所述第二单一预测模型为预测单一基因型的模型;
将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果。
2.根据权利要求1所述的CT影像的处理方法,其特征在于,所述将所述CT影像进行数据预处理,确定第一特征,包括:
将肺癌病灶区域图像按照预设尺寸进行块状切割;
将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
3.根据权利要求1所述的CT影像的处理方法,其特征在于,所述将所述病历文本进行数据结构化,确定第二特征,包括:
提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;
将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
4.根据权利要求1所述的CT影像的处理方法,其特征在于,所述预测模型为组合预测模型,所述将所述第一特征和所述第二特征融合后的特征输入至预测模型中,得到基因型预测结果,包括:
将所述第一特征和所述第二特征融合后的特征输入至组合预测模型中,得到其对应组合基因型预测结果,其中,所述组合预测模型为预测组合基因型的模型。
5.一种CT影像的处理装置,其特征在于,包括:
信息获取模块,用于从存储设备中获取患者的CT影像和病历文本;
第一特征确定模块,用于将所述CT影像进行数据预处理,确定第一特征,其中,所述第一特征为影像学深度特征;
第二特征确定模块,用于将所述病历文本进行数据结构化,确定第二特征,其中,所述第二特征为文本类特征;
结果预测模块,用于将所述第一特征和所述第二特征进行特征融合后输入至预测模型中,得到基因型预测结果,其中,所述预测模型为基于多组预测样本数据通过机器学习训练得出的,多组预测样本数据中的每组数据均包括:所述第一特征、所述第二特征和基因型,预测样本数据是通过大数据的方式收集的;
所述预测模型包括第一单一预测模型和第二单一预测模型,包括:
第一单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第一单一预测模型中,得到其对应的第一单一基因型预测结果,其中,所述第一单一预测模型为预测单一基因型的模型;
第二单一预测单元,用于将所述第一特征和所述第二特征融合后的特征输入至第二单一预测模型中,得到其对应的第二单一基因型预测结果,其中,所述第二单一预测模型为预测单一基因型的模型;
结果组合单元,用于将所述第一单一基因型预测结果和所述第二单一基因型预测结果进行组合,得到组合基因型预测结果。
6.根据权利要求5所述的CT影像的处理装置,其特征在于,所述第一特征确定模块包括:
块状切割单元,用于将肺癌病灶区域图像按照预设尺寸进行块状切割;
第一特征提取单元,用于将每一块三维图像输入至特征提取模型中,提取第一特征,其中,所述特征提取模型为基于训练样本数据通过卷积神经网络预先训练得出的,所述训练样本包括:肺癌病灶区域图像切割的三维图像块,每一块三维图像对应的第一特征。
7.根据权利要求5所述的CT影像的处理装置,其特征在于,所述第二特征确定模块包括:
归一化处理单元,用于提取所述病历文本中的生理学特征和人口学特征,并将所述生理学特征和所述人口学特征进行向量化处理;
第二特征确定单元,用于将向量化后的生理学特征和人口学特征通过归一化处理确定第二特征。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的CT影像的处理方法。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4中任一项所述的CT影像的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310705.3A CN113077875B (zh) | 2021-03-23 | 2021-03-23 | Ct影像的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310705.3A CN113077875B (zh) | 2021-03-23 | 2021-03-23 | Ct影像的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077875A CN113077875A (zh) | 2021-07-06 |
CN113077875B true CN113077875B (zh) | 2023-04-18 |
Family
ID=76613568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110310705.3A Active CN113077875B (zh) | 2021-03-23 | 2021-03-23 | Ct影像的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077875B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724876A (zh) * | 2021-09-10 | 2021-11-30 | 南昌大学第二附属医院 | 基于多模态融合和dfs-lle算法的脑卒中院内并发症预测模型 |
US20240331416A1 (en) * | 2022-11-11 | 2024-10-03 | Boe Technology Group Co., Ltd. | Method of processing medical data, method of analyzing medical data, electronic device, and medium |
CN115861303B (zh) * | 2023-02-16 | 2023-04-28 | 四川大学 | 基于肺部ct图像的egfr基因突变检测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224823A (zh) * | 2015-09-02 | 2016-01-06 | 苏州协云和创生物科技有限公司 | 一种药物基因靶点预测方法 |
CN111180011A (zh) * | 2019-12-31 | 2020-05-19 | 上海依智医疗技术有限公司 | 一种病灶基因突变的检测方法及装置 |
CN111369534A (zh) * | 2020-03-05 | 2020-07-03 | 上海市肺科医院(上海市职业病防治院) | 一种预测肺癌病理图像中基因突变的辅助系统及方法 |
CN111833330A (zh) * | 2020-07-14 | 2020-10-27 | 中国医学科学院生物医学工程研究所 | 基于影像与机器嗅觉融合的肺癌智能检测方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355023A (zh) * | 2016-08-31 | 2017-01-25 | 北京数字精准医疗科技有限公司 | 基于医学影像的开放式定量分析方法与系统 |
CN107292127A (zh) * | 2017-06-08 | 2017-10-24 | 南京高新生物医药公共服务平台有限公司 | 预测肺癌病人预后的基因表达分类器及其构建方法 |
CN109841267B (zh) * | 2017-11-28 | 2021-01-08 | 北京市眼科研究所 | 一种眼科临床数据采集系统及方法 |
CN109524107B (zh) * | 2018-11-09 | 2023-02-10 | 赵壮志 | 一种肿瘤预诊信息处理系统及方法 |
CN111367978A (zh) * | 2020-03-02 | 2020-07-03 | 苏州工业园区洛加大先进技术研究院 | 组学数据与临床数据相结合的生物医疗信息处理分析系统 |
CN111583271A (zh) * | 2020-04-13 | 2020-08-25 | 华东师范大学 | 一种基于癌症ct图像自动预测基因表达类别的方法 |
CN111968742A (zh) * | 2020-08-14 | 2020-11-20 | 上海市肺科医院 | 一种肺癌基因突变的跨模态预测系统及方法 |
CN112133441B (zh) * | 2020-08-21 | 2024-05-03 | 广东省人民医院 | 一种mh术后裂孔状态预测模型的建立方法和终端 |
CN112289455A (zh) * | 2020-10-21 | 2021-01-29 | 王智 | 一种人工智能神经网络学习模型构建系统、构建方法 |
-
2021
- 2021-03-23 CN CN202110310705.3A patent/CN113077875B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224823A (zh) * | 2015-09-02 | 2016-01-06 | 苏州协云和创生物科技有限公司 | 一种药物基因靶点预测方法 |
CN111180011A (zh) * | 2019-12-31 | 2020-05-19 | 上海依智医疗技术有限公司 | 一种病灶基因突变的检测方法及装置 |
CN111369534A (zh) * | 2020-03-05 | 2020-07-03 | 上海市肺科医院(上海市职业病防治院) | 一种预测肺癌病理图像中基因突变的辅助系统及方法 |
CN111833330A (zh) * | 2020-07-14 | 2020-10-27 | 中国医学科学院生物医学工程研究所 | 基于影像与机器嗅觉融合的肺癌智能检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113077875A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jayatilake et al. | Involvement of machine learning tools in healthcare decision making | |
CN113077875B (zh) | Ct影像的处理方法及装置 | |
US10733727B2 (en) | Application of deep learning for medical imaging evaluation | |
US9514416B2 (en) | Apparatus and method of diagnosing a lesion using image data and diagnostic models | |
CN112365980B (zh) | 脑肿瘤多靶点辅助诊断与前瞻性治疗演化可视化方法及系统 | |
CN112184658A (zh) | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 | |
WO2021186592A1 (ja) | 診断支援装置及びモデル生成装置 | |
CN115036002B (zh) | 一种基于多模态融合模型的治疗效果预测方法及终端设备 | |
CN111832644B (zh) | 一种基于序列级别的脑部医疗影像报告生成方法及系统 | |
CN102665565A (zh) | 医用图像处理装置 | |
CN111370059A (zh) | 一种肿瘤突变负荷的预测系统及方法 | |
WO2023198224A1 (zh) | 一种精神障碍类磁共振图像初步筛查模型构建方法 | |
US20090136111A1 (en) | System and method of diagnosing a medical condition | |
CN111128348A (zh) | 医学图像处理方法、装置、存储介质及计算机设备 | |
Seetha et al. | The Smart Detection and Analysis on Skin Tumor Disease Using Bio Imaging Deep Learning Algorithm | |
EP3467770B1 (en) | Method for analysing a medical imaging data set, system for analysing a medical imaging data set, computer program product and a computer-readable medium | |
WO2019211574A1 (en) | Method and apparatus for subtyping subjects based on phenotypic information | |
Javeed et al. | Breaking barriers: a statistical and machine learning-based hybrid system for predicting dementia | |
Silva et al. | Colour-based dermoscopy classification of cutaneous lesions: an alternative approach | |
Verma et al. | Artificial Intelligence Enabled Disease Prediction System in Healthcare Industry | |
CN113408533B (zh) | 基于胎儿超声影像特征组学的染色体异常预测模型的构建方法及诊断设备 | |
CN109492690B (zh) | 一种基于卷积神经网络检测ct图像的方法 | |
RU120799U1 (ru) | Система поиска областей интереса в трехмерных медицинских изображениях | |
Nalla et al. | Influence of Convolutional Neural Network Depth on the Efficacy of Automated Breast Cancer Screening Systems | |
Ramakrishnan et al. | Automated lung cancer nodule detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |