CN112215826A - 一种基于深度图像特征预测胶质瘤分子亚型及预后方法 - Google Patents
一种基于深度图像特征预测胶质瘤分子亚型及预后方法 Download PDFInfo
- Publication number
- CN112215826A CN112215826A CN202011119947.6A CN202011119947A CN112215826A CN 112215826 A CN112215826 A CN 112215826A CN 202011119947 A CN202011119947 A CN 202011119947A CN 112215826 A CN112215826 A CN 112215826A
- Authority
- CN
- China
- Prior art keywords
- glioma
- patient
- molecular subtype
- mri
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010018338 Glioma Diseases 0.000 title claims abstract description 91
- 208000032612 Glial tumor Diseases 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004393 prognosis Methods 0.000 title claims abstract description 20
- 238000002595 magnetic resonance imaging Methods 0.000 claims abstract description 52
- 230000004083 survival effect Effects 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000012706 support-vector machine Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 21
- 206010028980 Neoplasm Diseases 0.000 claims description 19
- 238000002790 cross-validation Methods 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000012847 principal component analysis method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 201000011510 cancer Diseases 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000000513 principal component analysis Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003211 malignant effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010003571 Astrocytoma Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007917 intracranial administration Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 101000960235 Dictyostelium discoideum Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 108010075869 Isocitrate Dehydrogenase Proteins 0.000 description 1
- 102000012011 Isocitrate Dehydrogenase Human genes 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 description 1
- 230000001804 emulsifying effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 208000030173 low grade glioma Diseases 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明提供了一种基于深度图像特征预测胶质瘤分子亚型及预后方法,包括以下步骤:步骤1,构建数据集:包括多例原发性胶质瘤患者的磁共振成像MRI;步骤2,构建基于RA‑UNet神经网络的特征提取器,步骤3,构建特征优化器,步骤4,构建基于深度图像特征的DeepRA模型,包括原发性胶质瘤分子亚型预测器及患者生存时间预测器,步骤5,对原发性胶质瘤分子亚型预测器及患者生存时间预测器进行性能评价;步骤6,利用分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。本发明使用深度图像特征来预测原发性胶质瘤分子亚型及患者生存时间,较以往的方法,预测原发性胶质瘤分子亚型及患者生存时间的准确率有了一定程度的提高。
Description
技术领域
本发明涉及深度学习与医疗影像处理技术领域,特别是涉及基于深度图像特征预测胶质瘤分子亚型及预后方法。
背景技术
胶质瘤是由星形细胞瘤恶变而来,是星形细胞瘤中恶性程度最高的类型,也是颅内最常见的恶性肿瘤,可以占所有颅内肿瘤的百分之40到50。胶质瘤生长迅速,高度恶性,病情进展一般较快,平均存活期仅约12个月。因此,胶质瘤的研究及预后对于人们有着重要意义。
胶质瘤被分为经典型、间质型、神经元型和前神经元型四种分子亚型,每种亚型均可通过不同的方法进行治疗。传统上,例如,Dunn等人的文章“Emerging insights intothe molecular and cellular basis of glioblastoma”中,肿瘤亚型的鉴定取决于脑活检,然后进行mRNA谱分析,这是一项昂贵且侵入性的过程。因此,Wen等人在文章“Updatedresponse assessment criteria for high-grade gliomas:Response assessment inneuro-oncology working group”中提出了一种无创性的预测工具——磁共振成像(MRI),可以从结构、生理和功能方面表征胶质瘤,已被常规用于胶质瘤的治疗反应的初步诊断和预后评估。
在预后方面,很多研究者致力于对病人生存时间的分析,例如Lao等人在文章“Adeep learning-based radiomics model for prediction of survival inglioblastoma multiforme”中手动提取特征和深度特征,以预测胶质瘤患者的总体生存时间,这种方法使用了肿瘤的手动分割,因此需要人工干预。
最近,深度学习在广泛的领域中的表现令人印象深刻。例如Li等人在文章“Deeplearning based radiomics(DLR)and its usage in noninvasive IDH1 prediction forlow grade glioma”中从多模态MRI中提取深度信息,以预测异柠檬酸脱氢酶1(IDH1)的突变状态。但是,只有少数研究采用深度学习技术将图像特征与胶质瘤的分子事件相关联。MRI已成为研究成像表型与胶质瘤分子谱之间相关性的重要工具,这种研究称为“放射基因组学”。当前,许多放射基因组学研究手动分割肿瘤,然后手动提取MRI特征进行分析。所以迫切需要自动分割以及自动学习的方法,为了解决这一问题,研究出一种基于深度图像特征预测胶质瘤分子亚型及预后的自动学习方法具有重要意义。
发明内容
本发明的目的是针对现有技术中存在的胶质瘤分子亚型,而提供一种基于深度图像特征预测胶质瘤分子亚型及预后方法。
为实现本发明的目的所采用的技术方案是:
一种基于深度图像特征预测胶质瘤分子亚型及预后方法,包括以下步骤:
步骤1,构建数据集:所述数据集包括多例原发性胶质瘤患者的磁共振成像MRI;
步骤2,构建基于RA-UNet神经网络的特征提取器:
2-1,使用RA-UNet对步骤1的每一例原发性胶质瘤患者的磁共振成像MRI进行分割,生成分割结果,每一例原发性胶质瘤患者的磁共振成像MRI生成n个分割结果;
2-2,对步骤2-1所得到的分割结果,使用特征提取器提取高维特征,每一个分割结果提取的高维特征维数是(64,64,64,32),集成到每一例原发性胶质瘤患者的磁共振成像MRI的高维特征维数是(n,64,64,64,32);
步骤3,构建特征优化器:
3-1,对步骤2-2得到的高维特征使用主成分分析方法进行降维,经过主成分分析方法降维后的每一例原发性胶质瘤患者的磁共振成像MRI的特征维数是(n,1024,32);
3-2,对步骤3-1得到的降维后的特征使用改进的Fishe Vector方法进行编码,归一化每一例原发性胶质瘤患者的磁共振成像MRI的特征维数,归一化将原始Fisher Vector中的内核k(X,Y),替换为新的内核k1(X,Y):
其中
其中X={Xn,n=1…N}是从肿瘤图像中提取的N个特征Xn的集合,Y是N个特征Xn的集合的子集,Fλ是μλ的Fisher信息矩阵,μλ是参数λ建模X的概率密度函数,是描述X的梯度向量,具有以下形式:
经过使用改进的Fishe Vector方法进行编码后,每一例原发性胶质瘤患者的磁共振成像MRI的特征维数归一化为(1,4096);
3-3,对步骤3-2得到的归一化后的特征使用F-score方法作为优化标准,计算归一化后的特征的F-score值,将无法计算的编码后的特征剔除掉,获得最终优化后的特征;
步骤4,构建基于深度图像特征的DeepRA模型,所述DeepRA模型包括原发性胶质瘤分子亚型预测器及患者生存时间预测器:
4-1划分训练集和测试集:
将步骤3-3得到的最终优化后的特征划分成训练集和测试集;
4-2构建原发性胶质瘤分子亚型预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,将原发性胶质瘤分子亚型作为分类标签;
4-3构建原发性胶质瘤患者生存时间预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,,将原发性胶质瘤患者生存时间作为分类标签;
步骤5,对原发性胶质瘤分子亚型预测器及患者生存时间预测器进行性能评价;
步骤6,利用分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。
在上述技术方案中,所述步骤1中的数据集来自The Cancer Genome Atlas数据库。
在上述技术方案中,所述数据集由50-100例原发性胶质瘤患者的磁共振成像MRI构成。
在上述技术方案中,所述步骤2-1中,利用3D RA-UNet-II以64*64*64的分辨率为每个磁共振成像MRI随机提取切块,从每个磁共振成像MRI的400个分割结果中随机抽取约十个切块进行处理,若有一个切块留在肿瘤边界,再添加一个或两个切块。
在上述技术方案中,所述步骤3-2中,Fisher Vector使用高斯混合模型GMMs的导数表示每个图像,利用Fisher Vector对每个切块进行编码,并使用最大似然ML标准和期望最大化EM算法对高斯混合模型进行训练。
在上述技术方案中,所述步骤4中,原发性胶质瘤分子亚型预测器的分类标签包括经典、神经元型、前神经元型和间充质。
在上述技术方案中,所述步骤4中,原发性胶质瘤患者生存时间预测器的分类标签包括短即少于6个月,中即6至18个月和长即大于18个月。
在上述技术方案中,所述步骤4中,分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性,避免过拟合。
在上述技术方案中,从数据集中选择9份作为训练集,1份作为测试集,训练10个SVM分类器,最后取10个分类器的结果平均值作为最后的结果。
在上述技术方案中,所述步骤5中,原发性胶质瘤分子亚型及患者生存时间预测性能评价指标包括准确性ACC,敏感性SEN、特异性SPE和曲线下面积AUC。
与现有技术相比,本发明的有益效果是:
1.本发明使用深度图像特征,构建原发性胶质瘤分子亚型及患者生存时间预测模型,可以识别MRI特征,然后将高维深度特征表示转换为可解释的特征向量,选择最有辨别力的特征来准确预测原发性胶质瘤分子亚型及患者生存时间。
2.本发明使用深度图像特征来预测原发性胶质瘤分子亚型及患者生存时间,较以往的方法,预测原发性胶质瘤分子亚型及患者生存时间的准确率有了一定程度的提高。
附图说明
图1为本发明的流程图;
图2为实施例3中分子亚型特征选择过程展示;
图3为实施例3中生存时间特征选择过程展示;
图4为实施例3中分子亚型分类结果ROC曲线展示;
图5为实施例3中生存时间分类结果ROC曲线展示;
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于深度图像特征预测胶质瘤分子亚型及预后方法,包括以下步骤:
步骤1,构建数据集:所述数据集包括多例原发性胶质瘤患者的磁共振成像MRI。
步骤2,构建基于RA-UNet神经网络的特征提取器:
2-1,使用RA-UNet对步骤1的每一例原发性胶质瘤患者的磁共振成像MRI进行分割,生成分割结果,每一例原发性胶质瘤患者的磁共振成像MRI生成n个分割结果。
2-2,对步骤2-1所得到的分割结果,使用特征提取器提取高维特征,每一个分割结果提取的高维特征维数是(64,64,64,32),集成到每一例原发性胶质瘤患者的磁共振成像MRI的高维特征维数是(n,64,64,64,32);
步骤3,构建特征优化器:
3-1,对步骤2-2得到的高维特征使用主成分分析方法进行降维,经过主成分分析方法降维后的每一例原发性胶质瘤患者的磁共振成像MRI的特征维数是(n,1024,32);
3-2,对步骤3-1得到的降维后的特征使用改进的Fishe Vector方法进行编码,归一化每一例原发性胶质瘤患者的磁共振成像MRI的特征维数,归一化将原始Fisher Vector中的内核k(X,Y),替换为新的内核k1(X,Y)。
3-3,对步骤3-2得到的归一化后的特征使用F-score方法作为优化标准,计算归一化后的特征的F-score值,将无法计算的编码后的特征剔除掉,获得最终优化后的特征。
步骤4,构建基于深度图像特征的DeepRA模型并评估模型,所述DeepRA模型包括原发性胶质瘤分子亚型及患者生存时间预测器:
4-1划分训练集和测试集:
将步骤3-3得到的最终优化后的特征划分成训练集和测试集;
4-2构建原发性胶质瘤分子亚型预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,将原发性胶质瘤分子亚型作为分类标签;
4-3构建原发性胶质瘤患者生存时间预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,,将原发性胶质瘤患者生存时间作为分类标签;
步骤5,性能评价指标:
步骤6,利用所述分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。
实施例2
一种基于深度图像特征预测胶质瘤分子亚型及预后方法,包括以下步骤:
步骤1,数据预处理
1-1准备数据集,所述数据集来自The Cancer Genome Atlas的原发性胶质瘤患者的预处理MRI,每一个MRI包括T1、T1Gd、T2、FLAIR四种模态,即四种扫描方式。
胶质瘤患者的分子亚型信息和生存数据来自The Cancer Genome Atlas患者队列的公共领域临床和分子数据存储库cBioPortal。
在本发明的实施例中,数据集共有71个病例,即71个病原发性胶质瘤患者的预处理MRI。其中,经典(classical)、神经元型(neural)、前神经元型(proneural)和间充质(mesenchymal)四种分子亚型分别包括15、9、18和29例患者。我们将患者生存期分为短(short)——少于6个月,中(medium)——6至18个月和长(long)——大于18个月,分别对应16、36和19例患者。
步骤2,构建基于RA-UNet神经网络的特征提取器
2-1RA-UNet允许以像素到像素的方式提取3D肿瘤结构,它分为两个阶段,即2DRA-UNet-I和3D RA-UNet-II,分别作为肝脏定位和肿瘤提取。我们在这里只使用了基于切块的多模态3D RA-UNet-II来分割脑瘤。步骤1-1所得到的四种模态的MRI图像数据都用来生成最终的分割结果,即每个患者的MRI图像数据经过分割后生成一定数量的3D切块。
在本发明的实施例中,我们应用3D RA-UNet-II以64*64*64的分辨率为每位患者随机提取了400个切块,即每个患者的MRI图像数据的分割结果为400个大小为64*64*64*的切块。
2-2对步骤2-1所得到的肿瘤分割结果,由RA-UNet特征提取器提取特征,即对于每一个3D切块,都会提取一个高维特征。
在本发明的实施例中,从每个患者400个分割结果中随机抽取约十个切块。数字“十”不是固定的,因为有时一个切块留在肿瘤边界,包含肿瘤的一小部分。在这种情况下,我们将再添加一个或两个切块。对于每个切块,我们从RA-UNet特征提取器中提取一个32维特征向量。因此,每个切块都由尺寸为64*64*64*32的四维特征图表示。在这里,我们将该四维特征图表示为Fm。因此,每位患者的MRI由对应于原始MRI中十个(不固定)随机位置的十个(不固定)Fm表示。由于Fm是从整个网络的后期层学习的,因此它包含的信息比浅层信息更为复杂和有用。
步骤3,构建特征优化器
3-1对步骤2-2得到的特征使用主成分分析方法进行降维。每个患者经过RA-Unet特征提取器提取的特征具有高维度,不管研究分子亚型还是生存时间,都是基于患者,对于每个患者来说,特征维数太高,计算起来代价很大。所以要进行降维。主成分分析法就是一种运用线性代数的知识来进行数据降维的方法,它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集,避免产生昂贵的计算。
在本发明的实施例中,我们使用主成分分析(PCA)来缩小特征维数。步骤2-2得到的每一个64*64*64*32的四维特征图Fm经过主成分分析法被反射到一个二维空间,并被压缩到2048*32的大小。我们称压缩后的特征图为Fm2。主成分分析(PCA)可参见Ian Jolliffe等人的文章“Principal Component Analysis”。
3-2对步骤3-1得到的降维后的特征采用改进的Fishe Vector方法进行编码。因为每一个病人的切块数不一样,所以特征数不一样,为了归一化每个病人的特征维度,增加统计特征的描述,我们采用改进的Fisher Vector方法对特征进行编码。Fishe Vector方法可参见Florent Perronnin等人的文章“Improving the Fisher Kernel for Large-ScaleImage Classifification”。
Fisher Vector使用高斯混合模型(GMMs)的导数表示每个图像,改进的FisherVector对原始Fisher Vector进行了L2归一化,功率归一化等修改,并获得了最先进的性能。这里我们以L2归一化为例来说明改进的Fisher Vector。L2归一化将原始FisherVector中的内核k,替换为新的内核k1:
其中
其中X={Xn,n=1…N}是从肿瘤图像中提取的N个特征Xn的集合,Y是N个特征Xn的集合的子集,Fλ是μλ的Fisher信息矩阵,μλ是参数λ建模X的概率密度函数,是描述X的梯度向量,具有以下形式:
在本发明的实施例中,我们使用k1=64的Fisher Vector对每个切块进行编码,并使用最大似然(ML)标准和期望最大化(EM)算法对GMMs进行了训练。我们的实验考虑了均值导数向量和协方差导数向量。即便每个患者的切块数不一样,经过Fisher Vector编码归一化后,每个患者都只具有4096个特征,我们称编码后的特征为Fv。
3-3对步骤3-2得到的编码后的特征使用F-score作为优化标准。我们通过特征选择算法,后向特征消除算法进一步优化了特征集。我们使用F-score作为消除标准,计算特征的F-score值,因为F-score值越大,表明此特征的分类辨别力就越强,即类间稀疏,类内越密,分类效果就越好,也就是说特征的辨别力就越强。
在本发明的实施例中,对步骤3-2得到的4096个特征分别计算其F-score值,有的特征因为其辨别力极低,无法计算出其F-score值,将该特征剔除,最后保留拥有F-score值的特征,最终构成的特征集表示为fs,共有2166个特征。
步骤4,构建基于深度图像特征的DeepRA模型并评估模型
4-1用步骤3得到的特征训练支持向量机(SVM)分类器。分子亚型预测和生存时间预测都是多标签分类问题,因为可以为每个患者分配四个分子亚型和三个生存期。我们为GBM(原发性胶质瘤)分子亚型和患者总体生存时间预测构建了一个基于深度图像特征的DeepRA模型。
用经过步骤3得到的优化后的特征集训练SVM。因为由步骤3-3可知特征的F-score值越大,特征的辨别力与越强,所以对步骤3得到的特征按照F-score值进行降序排序,每次从未被选取的特征中选择一个F-score值最大的特征添加到被选特征集合(被选特征集合初始为空集),再应用SVM分类器算法对当前选取的子集进行评价,每次迭代中,采用SVM分类器的分类准确性作为当前被选子集的评估,迭代一直进行,直到所有特征都加入被选特征集,根据SVM分类器的分类准确性选择分类效果最佳的特征子集。
分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性和一定程度上避免过拟合,本专利首先把数据随机的分为10份,其中选择9份作为训练集,最后1份作为测试集,训练10个SVM分类器,最后取10个分类器的结果平均值作为最后的结果。
评价模型的性能指标除准确性(ACC)外,还包括敏感性(SEN)、特异性(SPE)和曲线下面积(AUC)。
实施例3
我们将步骤3-3得到的2166个特征,按照其F-score值降序排序,设被选特征集合初始为空集,每次从未被选取的特征中选择一个F-score值最大的特征添加到被选特征集合中,然后用被选特征集合训练SVM,每次训练都会得到一个准确率,直到2166个特征都被加入被选集合,迭代结束。最终,实验数据显示,对于分子亚型预测问题,如图2所示,特征个数在370时效果达到最佳,准确性达到了82%。在生存时间预测问题中,如图3所示,特征个数在174时效果达到最佳,准确性达到了94.8%。
SVM分类器训练过程采用10折交叉验证的方法。为了简单、直观,通过ROC曲线图可观察10折交叉验证方法的准确性,如图4所示,分子亚型预测问题ROC值达到了0.95,如图5所示,生存时间预测问题ROC值达到了0.98。
表1分子亚型十折交叉验证验证集结果
对分子亚型十折交叉验证的结果取平均值,得到表2。
表2分子亚型预测结果
表3生存时间十折交叉验证验证集结果
对生存时间十折交叉验证的结果取平均值,得到表4。
表4生存时间预测结果
ACC | 0.95 |
SEN | 0.93 |
SPE | 0.97 |
AUC | 0.98 |
由表2和表4预测结果表明,对原发性胶质瘤分子亚型的预测可以达到0.82的准确率,对原发性胶质瘤病人的生存时间的预测可以达到0.95的准确率。治疗方法因分子亚型、生存时间而异,所以准确预测患者原发性胶质瘤的分子亚型和生存时间可以实现对患者进行精准治疗,基于分子亚型和生存时间制定的治疗方案更具有精准性和便捷性,省去患者尝试各种治疗方法的时间,提升治疗效果。为了直观表现诊断性
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,包括以下步骤:
步骤1,构建数据集:所述数据集包括多例原发性胶质瘤患者的磁共振成像MRI;
步骤2,构建基于RA-UNet神经网络的特征提取器:
2-1,使用RA-UNet对步骤1的每一例原发性胶质瘤患者的磁共振成像MRI进行分割,生成分割结果,每一例原发性胶质瘤患者的磁共振成像MRI生成n个分割结果;
2-2,对步骤2-1所得到的分割结果,使用特征提取器提取高维特征,每一个分割结果提取的高维特征维数是(64,64,64,32),集成到每一例原发性胶质瘤患者的磁共振成像MRI的高维特征维数是(n,64,64,64,32);
步骤3,构建特征优化器:
3-1,对步骤2-2得到的高维特征使用主成分分析方法进行降维,经过主成分分析方法降维后的每一例原发性胶质瘤患者的磁共振成像MRI的特征维数是(n,1024,32);
3-2,对步骤3-1得到的降维后的特征使用改进的Fishe Vector方法进行编码,归一化每一例原发性胶质瘤患者的磁共振成像MRI的特征维数,归一化将原始Fisher Vector中的内核k(X,Y),替换为新的内核k1(X,Y):
其中
其中X={Xn,n=1…N}是从肿瘤图像中提取的N个特征Xn的集合,Y是N个特征Xn的集合的子集,Fλ是μλ的Fisher信息矩阵,μλ是参数λ建模X的概率密度函数,是描述X的梯度向量,具有以下形式:
经过使用改进的Fishe Vector方法进行编码后,每一例原发性胶质瘤患者的磁共振成像MRI的特征维数归一化为(1,4096);
3-3,对步骤3-2得到的归一化后的特征使用F-score方法作为优化标准,计算归一化后的特征的F-score值,将无法计算的编码后的特征剔除掉,获得最终优化后的特征;
步骤4,构建基于深度图像特征的DeepRA模型,所述DeepRA模型包括原发性胶质瘤分子亚型预测器及患者生存时间预测器:
4-1划分训练集和测试集:
将步骤3-3得到的最终优化后的特征划分成训练集和测试集;
4-2构建原发性胶质瘤分子亚型预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,将原发性胶质瘤分子亚型作为分类标签;
4-3构建原发性胶质瘤患者生存时间预测器:
用步骤4-1得到的训练集训练支持向量机SVM,利用测试集对支持向量机SVM进行测试,,将原发性胶质瘤患者生存时间作为分类标签;
步骤5,对原发性胶质瘤分子亚型预测器及患者生存时间预测器进行性能评价;
步骤6,利用分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。
2.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤1中的数据集来自The Cancer Genome Atlas数据库。
3.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述数据集由50-100例原发性胶质瘤患者的磁共振成像MRI构成。
4.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤2-1中,利用3D RA-UNet-II以64*64*64的分辨率为每个磁共振成像MRI随机提取切块,从每个磁共振成像MRI的400个分割结果中随机抽取约十个切块进行处理,若有一个切块留在肿瘤边界,再添加一个或两个切块。
5.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤3-2中,Fisher Vector使用高斯混合模型GMMs的导数表示每个图像,利用Fisher Vector对每个切块进行编码,并使用最大似然ML标准和期望最大化EM算法对高斯混合模型进行训练。
6.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤4中,原发性胶质瘤分子亚型预测器的分类标签包括经典、神经元型、前神经元型和间充质。
7.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤4中,原发性胶质瘤患者生存时间预测器的分类标签包括短即少于6个月,中即6至18个月和长即大于18个月。
8.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤4中,分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性,避免过拟合。
9.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,从数据集中选择9份作为训练集,1份作为测试集,训练10个SVM分类器,最后取10个分类器的结果平均值作为最后的结果。
10.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法,其特征在于,所述步骤5中,原发性胶质瘤分子亚型及患者生存时间预测性能评价指标包括准确性ACC,敏感性SEN、特异性SPE和曲线下面积AUC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011119947.6A CN112215826A (zh) | 2020-10-19 | 2020-10-19 | 一种基于深度图像特征预测胶质瘤分子亚型及预后方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011119947.6A CN112215826A (zh) | 2020-10-19 | 2020-10-19 | 一种基于深度图像特征预测胶质瘤分子亚型及预后方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112215826A true CN112215826A (zh) | 2021-01-12 |
Family
ID=74055857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011119947.6A Pending CN112215826A (zh) | 2020-10-19 | 2020-10-19 | 一种基于深度图像特征预测胶质瘤分子亚型及预后方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215826A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723415A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
WO2024108536A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国科学院深圳先进技术研究院 | 肿瘤免疫亚型预测方法、系统及计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014165753A1 (en) * | 2013-04-05 | 2014-10-09 | The Wistar Institute Of Anatomy And Biology | Methods and compositions for diagnosis of glioblastoma or a subtype thereof |
WO2014190760A1 (zh) * | 2013-05-28 | 2014-12-04 | 北京师范大学 | 神经胶质瘤分子分型基因群及其应用 |
CN106056159A (zh) * | 2016-06-03 | 2016-10-26 | 西安电子科技大学 | 基于Fisher Vector的图像精细分类方法 |
CN108109140A (zh) * | 2017-12-18 | 2018-06-01 | 复旦大学 | 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统 |
CN110097921A (zh) * | 2019-05-30 | 2019-08-06 | 复旦大学 | 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统 |
CN110468207A (zh) * | 2019-09-02 | 2019-11-19 | 北京师范大学 | 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用 |
CN110889853A (zh) * | 2018-09-07 | 2020-03-17 | 天津大学 | 基于残差-注意力深度神经网络的肿瘤分割方法 |
-
2020
- 2020-10-19 CN CN202011119947.6A patent/CN112215826A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014165753A1 (en) * | 2013-04-05 | 2014-10-09 | The Wistar Institute Of Anatomy And Biology | Methods and compositions for diagnosis of glioblastoma or a subtype thereof |
WO2014190760A1 (zh) * | 2013-05-28 | 2014-12-04 | 北京师范大学 | 神经胶质瘤分子分型基因群及其应用 |
CN106056159A (zh) * | 2016-06-03 | 2016-10-26 | 西安电子科技大学 | 基于Fisher Vector的图像精细分类方法 |
CN108109140A (zh) * | 2017-12-18 | 2018-06-01 | 复旦大学 | 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统 |
CN110889853A (zh) * | 2018-09-07 | 2020-03-17 | 天津大学 | 基于残差-注意力深度神经网络的肿瘤分割方法 |
CN110097921A (zh) * | 2019-05-30 | 2019-08-06 | 复旦大学 | 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统 |
CN110468207A (zh) * | 2019-09-02 | 2019-11-19 | 北京师范大学 | 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用 |
Non-Patent Citations (2)
Title |
---|
LE OU-YANG,ET AL: "Differential Network Analysis via Weighted Fused Conditional Gaussian Graphical Model", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 * |
王群: "磁共振影像对胶质瘤IDH基因表型特征预测的应用研究", 《中国优秀博硕士学位论文全文数据库(博士)医药卫生科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723415A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
CN113723415B (zh) * | 2021-08-26 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种生存时长预测方法、装置、设备及介质 |
WO2024108536A1 (zh) * | 2022-11-25 | 2024-05-30 | 中国科学院深圳先进技术研究院 | 肿瘤免疫亚型预测方法、系统及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sachdeva et al. | A systematic method for breast cancer classification using RFE feature selection | |
Xu et al. | Texture-specific bag of visual words model and spatial cone matching-based method for the retrieval of focal liver lesions using multiphase contrast-enhanced CT images | |
CN108109140A (zh) | 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统 | |
CN112270666A (zh) | 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法 | |
CN110797084B (zh) | 基于深层神经网络的脑脊液蛋白质的预测方法 | |
CN112215826A (zh) | 一种基于深度图像特征预测胶质瘤分子亚型及预后方法 | |
CN112488992B (zh) | 表皮生长因子受体突变状态判断方法、介质及电子设备 | |
CN109191422B (zh) | 基于常规ct图像的缺血性脑卒中早期检测系统和方法 | |
CN114596467A (zh) | 基于证据深度学习的多模态影像分类方法 | |
Bi et al. | Classification of low-grade and high-grade glioma using multiparametric radiomics model | |
Nunes et al. | Detection of masses in mammographic images using geometry, Simpson's Diversity Index and SVM | |
CN109740669B (zh) | 一种基于深度特征聚合的乳腺癌病理图像分类方法 | |
AU2021101379A4 (en) | A system and method for classifying glioma using fused mri sequence | |
CN117037897B (zh) | 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法 | |
CN111582370B (zh) | 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法 | |
Yuan et al. | Differentiating grade in breast invasive ductal carcinoma using texture analysis of MRI | |
CN116229176A (zh) | 结合影像组学特征和临床特征的医学图像分类方法及设备 | |
Bhattacharjee et al. | Novel detection of cancerous cells through an image segmentation approach using principal component analysis | |
Vijayadeep et al. | A hybrid feature extraction based optimized random forest learning model for brain stroke prediction | |
Janowczyk et al. | Hierarchical normalized cuts: Unsupervised segmentation of vascular biomarkers from ovarian cancer tissue microarrays | |
CN114121291A (zh) | 疾病分级预测方法、装置、电子设备及存储介质 | |
Ai et al. | TDABNet: Three-directional attention block network for the determination of IDH status in low-and high-grade gliomas from MRI | |
Meng et al. | Feature extraction and analysis of ovarian cancer proteomic mass spectra | |
Rayen et al. | Automated Glaucoma Detection from Fundus Eye Images Using Grey Level based Feature Extraction Methods and Supervised Learning Classification. | |
Akbarnejad et al. | Deep Fisher vector coding for whole slide image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210112 |