CN112215826A

CN112215826A - 一种基于深度图像特征预测胶质瘤分子亚型及预后方法

Info

Publication number: CN112215826A
Application number: CN202011119947.6A
Authority: CN
Inventors: 苏苒; 刘晓莹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-12

Abstract

本发明提供了一种基于深度图像特征预测胶质瘤分子亚型及预后方法，包括以下步骤：步骤1，构建数据集：包括多例原发性胶质瘤患者的磁共振成像MRI；步骤2，构建基于RA‑UNet神经网络的特征提取器，步骤3，构建特征优化器，步骤4，构建基于深度图像特征的DeepRA模型，包括原发性胶质瘤分子亚型预测器及患者生存时间预测器，步骤5，对原发性胶质瘤分子亚型预测器及患者生存时间预测器进行性能评价；步骤6，利用分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。本发明使用深度图像特征来预测原发性胶质瘤分子亚型及患者生存时间，较以往的方法，预测原发性胶质瘤分子亚型及患者生存时间的准确率有了一定程度的提高。

Description

一种基于深度图像特征预测胶质瘤分子亚型及预后方法

技术领域

本发明涉及深度学习与医疗影像处理技术领域，特别是涉及基于深度图像特征预测胶质瘤分子亚型及预后方法。

背景技术

胶质瘤是由星形细胞瘤恶变而来，是星形细胞瘤中恶性程度最高的类型，也是颅内最常见的恶性肿瘤，可以占所有颅内肿瘤的百分之40到50。胶质瘤生长迅速，高度恶性，病情进展一般较快，平均存活期仅约12个月。因此，胶质瘤的研究及预后对于人们有着重要意义。

胶质瘤被分为经典型、间质型、神经元型和前神经元型四种分子亚型，每种亚型均可通过不同的方法进行治疗。传统上，例如，Dunn等人的文章“Emerging insights intothe molecular and cellular basis of glioblastoma”中，肿瘤亚型的鉴定取决于脑活检，然后进行mRNA谱分析，这是一项昂贵且侵入性的过程。因此，Wen等人在文章“Updatedresponse assessment criteria for high-grade gliomas:Response assessment inneuro-oncology working group”中提出了一种无创性的预测工具——磁共振成像(MRI)，可以从结构、生理和功能方面表征胶质瘤，已被常规用于胶质瘤的治疗反应的初步诊断和预后评估。

在预后方面，很多研究者致力于对病人生存时间的分析，例如Lao等人在文章“Adeep learning-based radiomics model for prediction of survival inglioblastoma multiforme”中手动提取特征和深度特征，以预测胶质瘤患者的总体生存时间，这种方法使用了肿瘤的手动分割，因此需要人工干预。

最近，深度学习在广泛的领域中的表现令人印象深刻。例如Li等人在文章“Deeplearning based radiomics(DLR)and its usage in noninvasive IDH1 prediction forlow grade glioma”中从多模态MRI中提取深度信息，以预测异柠檬酸脱氢酶1(IDH1)的突变状态。但是，只有少数研究采用深度学习技术将图像特征与胶质瘤的分子事件相关联。MRI已成为研究成像表型与胶质瘤分子谱之间相关性的重要工具，这种研究称为“放射基因组学”。当前，许多放射基因组学研究手动分割肿瘤，然后手动提取MRI特征进行分析。所以迫切需要自动分割以及自动学习的方法，为了解决这一问题，研究出一种基于深度图像特征预测胶质瘤分子亚型及预后的自动学习方法具有重要意义。

发明内容

本发明的目的是针对现有技术中存在的胶质瘤分子亚型，而提供一种基于深度图像特征预测胶质瘤分子亚型及预后方法。

为实现本发明的目的所采用的技术方案是：

一种基于深度图像特征预测胶质瘤分子亚型及预后方法，包括以下步骤：

步骤1，构建数据集：所述数据集包括多例原发性胶质瘤患者的磁共振成像MRI；

步骤2，构建基于RA-UNet神经网络的特征提取器：

2-1，使用RA-UNet对步骤1的每一例原发性胶质瘤患者的磁共振成像MRI进行分割，生成分割结果，每一例原发性胶质瘤患者的磁共振成像MRI生成n个分割结果；

2-2，对步骤2-1所得到的分割结果，使用特征提取器提取高维特征，每一个分割结果提取的高维特征维数是(64，64，64，32)，集成到每一例原发性胶质瘤患者的磁共振成像MRI的高维特征维数是(n，64，64，64，32)；

步骤3，构建特征优化器：

3-1，对步骤2-2得到的高维特征使用主成分分析方法进行降维，经过主成分分析方法降维后的每一例原发性胶质瘤患者的磁共振成像MRI的特征维数是(n，1024，32)；

3-2，对步骤3-1得到的降维后的特征使用改进的Fishe Vector方法进行编码，归一化每一例原发性胶质瘤患者的磁共振成像MRI的特征维数，归一化将原始Fisher Vector中的内核k(X，Y)，替换为新的内核k₁(X，Y)：

其中

其中X＝{X_n，n＝1…N}是从肿瘤图像中提取的N个特征X_n的集合，Y是N个特征X_n的集合的子集，F_λ是μ_λ的Fisher信息矩阵，μ_λ是参数λ建模X的概率密度函数，

是描述X的梯度向量，

具有以下形式：

经过使用改进的Fishe Vector方法进行编码后，每一例原发性胶质瘤患者的磁共振成像MRI的特征维数归一化为(1，4096)；

3-3，对步骤3-2得到的归一化后的特征使用F-score方法作为优化标准，计算归一化后的特征的F-score值，将无法计算的编码后的特征剔除掉，获得最终优化后的特征；

步骤4，构建基于深度图像特征的DeepRA模型，所述DeepRA模型包括原发性胶质瘤分子亚型预测器及患者生存时间预测器：

4-1划分训练集和测试集：

将步骤3-3得到的最终优化后的特征划分成训练集和测试集；

4-2构建原发性胶质瘤分子亚型预测器：

用步骤4-1得到的训练集训练支持向量机SVM，利用测试集对支持向量机SVM进行测试，将原发性胶质瘤分子亚型作为分类标签；

4-3构建原发性胶质瘤患者生存时间预测器：

用步骤4-1得到的训练集训练支持向量机SVM，利用测试集对支持向量机SVM进行测试，，将原发性胶质瘤患者生存时间作为分类标签；

步骤5，对原发性胶质瘤分子亚型预测器及患者生存时间预测器进行性能评价；

步骤6，利用分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。

在上述技术方案中，所述步骤1中的数据集来自The Cancer Genome Atlas数据库。

在上述技术方案中，所述数据集由50-100例原发性胶质瘤患者的磁共振成像MRI构成。

在上述技术方案中，所述步骤2-1中，利用3D RA-UNet-II以64*64*64的分辨率为每个磁共振成像MRI随机提取切块，从每个磁共振成像MRI的400个分割结果中随机抽取约十个切块进行处理，若有一个切块留在肿瘤边界，再添加一个或两个切块。

在上述技术方案中，所述步骤3-2中，Fisher Vector使用高斯混合模型GMMs的导数表示每个图像，利用Fisher Vector对每个切块进行编码，并使用最大似然ML标准和期望最大化EM算法对高斯混合模型进行训练。

在上述技术方案中，所述步骤4中，原发性胶质瘤分子亚型预测器的分类标签包括经典、神经元型、前神经元型和间充质。

在上述技术方案中，所述步骤4中，原发性胶质瘤患者生存时间预测器的分类标签包括短即少于6个月，中即6至18个月和长即大于18个月。

在上述技术方案中，所述步骤4中，分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性，避免过拟合。

在上述技术方案中，从数据集中选择9份作为训练集，1份作为测试集，训练10个SVM分类器，最后取10个分类器的结果平均值作为最后的结果。

在上述技术方案中，所述步骤5中，原发性胶质瘤分子亚型及患者生存时间预测性能评价指标包括准确性ACC，敏感性SEN、特异性SPE和曲线下面积AUC。

与现有技术相比，本发明的有益效果是：

1.本发明使用深度图像特征，构建原发性胶质瘤分子亚型及患者生存时间预测模型，可以识别MRI特征，然后将高维深度特征表示转换为可解释的特征向量，选择最有辨别力的特征来准确预测原发性胶质瘤分子亚型及患者生存时间。

2.本发明使用深度图像特征来预测原发性胶质瘤分子亚型及患者生存时间，较以往的方法，预测原发性胶质瘤分子亚型及患者生存时间的准确率有了一定程度的提高。

附图说明

图1为本发明的流程图；

图2为实施例3中分子亚型特征选择过程展示；

图3为实施例3中生存时间特征选择过程展示；

图4为实施例3中分子亚型分类结果ROC曲线展示；

图5为实施例3中生存时间分类结果ROC曲线展示；

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

步骤1，构建数据集：所述数据集包括多例原发性胶质瘤患者的磁共振成像MRI。

步骤2，构建基于RA-UNet神经网络的特征提取器：

2-1，使用RA-UNet对步骤1的每一例原发性胶质瘤患者的磁共振成像MRI进行分割，生成分割结果，每一例原发性胶质瘤患者的磁共振成像MRI生成n个分割结果。

步骤3，构建特征优化器：

3-2，对步骤3-1得到的降维后的特征使用改进的Fishe Vector方法进行编码，归一化每一例原发性胶质瘤患者的磁共振成像MRI的特征维数，归一化将原始Fisher Vector中的内核k(X，Y)，替换为新的内核k₁(X，Y)。

3-3，对步骤3-2得到的归一化后的特征使用F-score方法作为优化标准，计算归一化后的特征的F-score值，将无法计算的编码后的特征剔除掉，获得最终优化后的特征。

步骤4，构建基于深度图像特征的DeepRA模型并评估模型，所述DeepRA模型包括原发性胶质瘤分子亚型及患者生存时间预测器：

4-1划分训练集和测试集：

将步骤3-3得到的最终优化后的特征划分成训练集和测试集；

4-2构建原发性胶质瘤分子亚型预测器：

4-3构建原发性胶质瘤患者生存时间预测器：

步骤5，性能评价指标：

步骤6，利用所述分子亚型预测器、生存时间预测器对病患的原发性胶质瘤患者的磁共振成像MRI进行预测。

实施例2

步骤1，数据预处理

1-1准备数据集，所述数据集来自The Cancer Genome Atlas的原发性胶质瘤患者的预处理MRI，每一个MRI包括T1、T1Gd、T2、FLAIR四种模态，即四种扫描方式。

胶质瘤患者的分子亚型信息和生存数据来自The Cancer Genome Atlas患者队列的公共领域临床和分子数据存储库cBioPortal。

在本发明的实施例中，数据集共有71个病例，即71个病原发性胶质瘤患者的预处理MRI。其中，经典(classical)、神经元型(neural)、前神经元型(proneural)和间充质(mesenchymal)四种分子亚型分别包括15、9、18和29例患者。我们将患者生存期分为短(short)——少于6个月，中(medium)——6至18个月和长(long)——大于18个月，分别对应16、36和19例患者。

步骤2，构建基于RA-UNet神经网络的特征提取器

2-1RA-UNet允许以像素到像素的方式提取3D肿瘤结构，它分为两个阶段，即2DRA-UNet-I和3D RA-UNet-II，分别作为肝脏定位和肿瘤提取。我们在这里只使用了基于切块的多模态3D RA-UNet-II来分割脑瘤。步骤1-1所得到的四种模态的MRI图像数据都用来生成最终的分割结果，即每个患者的MRI图像数据经过分割后生成一定数量的3D切块。

在本发明的实施例中，我们应用3D RA-UNet-II以64*64*64的分辨率为每位患者随机提取了400个切块，即每个患者的MRI图像数据的分割结果为400个大小为64*64*64*的切块。

2-2对步骤2-1所得到的肿瘤分割结果，由RA-UNet特征提取器提取特征，即对于每一个3D切块，都会提取一个高维特征。

在本发明的实施例中，从每个患者400个分割结果中随机抽取约十个切块。数字“十”不是固定的，因为有时一个切块留在肿瘤边界，包含肿瘤的一小部分。在这种情况下，我们将再添加一个或两个切块。对于每个切块，我们从RA-UNet特征提取器中提取一个32维特征向量。因此，每个切块都由尺寸为64*64*64*32的四维特征图表示。在这里，我们将该四维特征图表示为F_m。因此，每位患者的MRI由对应于原始MRI中十个(不固定)随机位置的十个(不固定)F_m表示。由于F_m是从整个网络的后期层学习的，因此它包含的信息比浅层信息更为复杂和有用。

步骤3，构建特征优化器

3-1对步骤2-2得到的特征使用主成分分析方法进行降维。每个患者经过RA-Unet特征提取器提取的特征具有高维度，不管研究分子亚型还是生存时间，都是基于患者，对于每个患者来说，特征维数太高，计算起来代价很大。所以要进行降维。主成分分析法就是一种运用线性代数的知识来进行数据降维的方法，它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集，避免产生昂贵的计算。

在本发明的实施例中，我们使用主成分分析(PCA)来缩小特征维数。步骤2-2得到的每一个64*64*64*32的四维特征图F_m经过主成分分析法被反射到一个二维空间，并被压缩到2048*32的大小。我们称压缩后的特征图为F_m2。主成分分析(PCA)可参见Ian Jolliffe等人的文章“Principal Component Analysis”。

3-2对步骤3-1得到的降维后的特征采用改进的Fishe Vector方法进行编码。因为每一个病人的切块数不一样，所以特征数不一样，为了归一化每个病人的特征维度，增加统计特征的描述，我们采用改进的Fisher Vector方法对特征进行编码。Fishe Vector方法可参见Florent Perronnin等人的文章“Improving the Fisher Kernel for Large-ScaleImage Classifification”。

Fisher Vector使用高斯混合模型(GMMs)的导数表示每个图像，改进的FisherVector对原始Fisher Vector进行了L2归一化，功率归一化等修改，并获得了最先进的性能。这里我们以L2归一化为例来说明改进的Fisher Vector。L2归一化将原始FisherVector中的内核k，替换为新的内核k₁：

其中

是描述X的梯度向量，

具有以下形式：

在本发明的实施例中，我们使用k₁＝64的Fisher Vector对每个切块进行编码，并使用最大似然(ML)标准和期望最大化(EM)算法对GMMs进行了训练。我们的实验考虑了均值导数向量和协方差导数向量。即便每个患者的切块数不一样，经过Fisher Vector编码归一化后，每个患者都只具有4096个特征，我们称编码后的特征为F_v。

3-3对步骤3-2得到的编码后的特征使用F-score作为优化标准。我们通过特征选择算法，后向特征消除算法进一步优化了特征集。我们使用F-score作为消除标准，计算特征的F-score值，因为F-score值越大，表明此特征的分类辨别力就越强，即类间稀疏，类内越密，分类效果就越好，也就是说特征的辨别力就越强。

在本发明的实施例中，对步骤3-2得到的4096个特征分别计算其F-score值，有的特征因为其辨别力极低，无法计算出其F-score值，将该特征剔除，最后保留拥有F-score值的特征，最终构成的特征集表示为f_s，共有2166个特征。

步骤4，构建基于深度图像特征的DeepRA模型并评估模型

4-1用步骤3得到的特征训练支持向量机(SVM)分类器。分子亚型预测和生存时间预测都是多标签分类问题，因为可以为每个患者分配四个分子亚型和三个生存期。我们为GBM(原发性胶质瘤)分子亚型和患者总体生存时间预测构建了一个基于深度图像特征的DeepRA模型。

用经过步骤3得到的优化后的特征集训练SVM。因为由步骤3-3可知特征的F-score值越大，特征的辨别力与越强，所以对步骤3得到的特征按照F-score值进行降序排序，每次从未被选取的特征中选择一个F-score值最大的特征添加到被选特征集合(被选特征集合初始为空集)，再应用SVM分类器算法对当前选取的子集进行评价，每次迭代中，采用SVM分类器的分类准确性作为当前被选子集的评估，迭代一直进行，直到所有特征都加入被选特征集，根据SVM分类器的分类准确性选择分类效果最佳的特征子集。

分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性和一定程度上避免过拟合，本专利首先把数据随机的分为10份，其中选择9份作为训练集，最后1份作为测试集，训练10个SVM分类器，最后取10个分类器的结果平均值作为最后的结果。

评价模型的性能指标除准确性(ACC)外，还包括敏感性(SEN)、特异性(SPE)和曲线下面积(AUC)。

实施例3

我们将步骤3-3得到的2166个特征，按照其F-score值降序排序，设被选特征集合初始为空集，每次从未被选取的特征中选择一个F-score值最大的特征添加到被选特征集合中，然后用被选特征集合训练SVM，每次训练都会得到一个准确率，直到2166个特征都被加入被选集合，迭代结束。最终，实验数据显示，对于分子亚型预测问题，如图2所示，特征个数在370时效果达到最佳，准确性达到了82％。在生存时间预测问题中，如图3所示，特征个数在174时效果达到最佳，准确性达到了94.8％。

SVM分类器训练过程采用10折交叉验证的方法。为了简单、直观，通过ROC曲线图可观察10折交叉验证方法的准确性，如图4所示，分子亚型预测问题ROC值达到了0.95，如图5所示，生存时间预测问题ROC值达到了0.98。

表1分子亚型十折交叉验证验证集结果

对分子亚型十折交叉验证的结果取平均值，得到表2。

表2分子亚型预测结果

表3生存时间十折交叉验证验证集结果

对生存时间十折交叉验证的结果取平均值，得到表4。

表4生存时间预测结果

ACC	0.95
		SEN	0.93
SPE	0.97
		AUC	0.98

由表2和表4预测结果表明，对原发性胶质瘤分子亚型的预测可以达到0.82的准确率，对原发性胶质瘤病人的生存时间的预测可以达到0.95的准确率。治疗方法因分子亚型、生存时间而异，所以准确预测患者原发性胶质瘤的分子亚型和生存时间可以实现对患者进行精准治疗，基于分子亚型和生存时间制定的治疗方案更具有精准性和便捷性，省去患者尝试各种治疗方法的时间，提升治疗效果。为了直观表现诊断性

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，包括以下步骤：

步骤2，构建基于RA-UNet神经网络的特征提取器：

步骤3，构建特征优化器：

其中

是描述X的梯度向量，

具有以下形式：

4-1划分训练集和测试集：

将步骤3-3得到的最终优化后的特征划分成训练集和测试集；

4-2构建原发性胶质瘤分子亚型预测器：

4-3构建原发性胶质瘤患者生存时间预测器：

2.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤1中的数据集来自The Cancer Genome Atlas数据库。

3.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述数据集由50-100例原发性胶质瘤患者的磁共振成像MRI构成。

4.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤2-1中，利用3D RA-UNet-II以64*64*64的分辨率为每个磁共振成像MRI随机提取切块，从每个磁共振成像MRI的400个分割结果中随机抽取约十个切块进行处理，若有一个切块留在肿瘤边界，再添加一个或两个切块。

5.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤3-2中，Fisher Vector使用高斯混合模型GMMs的导数表示每个图像，利用Fisher Vector对每个切块进行编码，并使用最大似然ML标准和期望最大化EM算法对高斯混合模型进行训练。

6.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤4中，原发性胶质瘤分子亚型预测器的分类标签包括经典、神经元型、前神经元型和间充质。

7.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤4中，原发性胶质瘤患者生存时间预测器的分类标签包括短即少于6个月，中即6至18个月和长即大于18个月。

8.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤4中，分类器训练过程采用10折交叉验证的方法来提高分类器的稳定性，避免过拟合。

9.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，从数据集中选择9份作为训练集，1份作为测试集，训练10个SVM分类器，最后取10个分类器的结果平均值作为最后的结果。

10.如权利要求1所述的基于深度图像特征预测胶质瘤分子亚型及预后方法，其特征在于，所述步骤5中，原发性胶质瘤分子亚型及患者生存时间预测性能评价指标包括准确性ACC，敏感性SEN、特异性SPE和曲线下面积AUC。