CN115861716B

CN115861716B - 基于孪生神经网络和影像组学的胶质瘤分类方法及装置

Info

Publication number: CN115861716B
Application number: CN202310120729.1A
Authority: CN
Inventors: 李劲松; 刘帆; 童琪琦; 邱文渊; 陈子洋
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-09
Anticipated expiration: 2043-02-16
Also published as: CN115861716A

Abstract

本发明公开了一种基于孪生神经网络和影像组学的胶质瘤分类方法及装置，包括如下步骤：收集胶质瘤病人的T1增强脑部磁共振影像数据以及相应的胶质瘤分级标签数据，并对磁共振影像数据进行预处理，将收集到的磁共振影像数据切分为训练集与测试集；对预处理后的磁共振影像数据尺寸进行归一化操作，并构建孪生神经网络训练样本集；等步骤。本发明在在获得海量的深度特征数据和影像组学特征数据后，提出了一种新的特征选择方案，即通过多数表决规则将一组现有的前沿特征选择算法的筛选结果进行综合，从而使特征选择过程更加充分、合理，并且本发明所述方案还可以通过尽量选用基于不同原理的特征选择算法进行优势互补，实现特征选择的进一步优化。

Description

基于孪生神经网络和影像组学的胶质瘤分类方法及装置

技术领域

本发明涉及医学影像和深度学习技术领域，特别涉及一种基于孪生神经网络和影像组学的胶质瘤分类方法及装置。

背景技术

在现代医学体系中，医学影像在各种疾病的筛查、诊断和治疗等临床应用中扮演着不可或缺的重要角色。临床医学影像数据在通过仪器扫描获取后，通常由接受过专业训练的影像科医生通过人工阅读观察来获取其中可能包含的与疾病相关的信息，并将相应观察结果用文本语言描述的形式记录下来。

随着现代医学的快速发展，医学影像数据的种类和数量也在快速增长，面对各种各样的海量医学影像数据，传统人工阅片的处理方式由于费时费力、个体主观差异性大等缺点表现出越来越大的局限性。近年来为了解决这一难题，来自世界各国的相关领域科研学者和临床一线工作者围绕“基于影像组学（Radiomics）方法的医学图像数据分析”这一主题开展了大量的研究（参考文献：Guiot J, Vaidyanathan A, Deprez L, et al. Areview in radiomics: Making personalized medicine a reality viaroutineimaging[J]. Medicinal Research Reviews, 2022,42(1):426-440.）。

传统的影像组学方法一般指的是按预先设计好的特征提取方式从医学图像数据中提取人眼无法识别的多维定量特征，并在该特征数据的基础上利用机器学习算法建立具有诊疗价值的模型（参考文献：Gillies R J, Kinahan P E, Hricak H. Radiomics:Images Are More than Pictures, They AreData[J]. Radiology, 2016,278(2):563-577.），其工作流程一般主要包括数据收集、图像分割、特征提取、特征选择、模型建立和模型验证。肿瘤学是影像组学应用最早也是目前应用最为成功的一个领域，比如中国科学院分子影像重点实验室的影像组学团队通过影像组学方法提取并选择结直肠癌病人CT图像数据中的关键影像特征，再结合临床病理信息提出了一个能有效判断结直肠癌是否含有淋巴结转移的预测模型（参考文献：HuangY, Liang C, He L, et al. Development andvalidation of a radiomics nomogram for preoperative prediction of lymph nodemetastasis in colorectal cancer[J]. Journal of clinical oncology, 2016,34(18):2157-2164.）；Luke Peng等人首先从脑转移瘤病人的MRI图像数据中提取一阶统计、灰度共生矩阵、灰度游程矩阵、形态学等大量影像组学特征，然后通过IsoSVM算法进行关键特征筛选和预测模型构建，最终实现了脑转移瘤病人接受立体定向放射手术后疗效的有效预测（参考文献：PengL, Parekh V, Huang P, et al. Distinguishing trueprogression from radionecrosis after stereotactic radiation therapy for brainmetastases with machine learningand radiomics[J]. International Journal ofRadiation Oncology•Biology•Physics,2018,102(4):1236-1243.）。

对于上述传统影像组学方法，虽然可以结合先验知识自由地预先设计并提取海量特征数据，但同时也存在一些缺点，比如冗长的工作流程、ROI分割的精确性和稳定性较难保证、靠人工设计提取特征仍有可能不充分等等。而借助在图像处理领域得到广泛应用的深度学习方法，便可以通过数据驱动的方式实现传统影像组学中ROI分割、特征提取等过程的自动化，甚至能直接用一个神经网络实现从原始图像数据到最终预测结果的端到端模型（参考文献：Avanzo M, Wei L, Stancanello J, et al. Machine and deep learningmethods forradiomics[J]. Medical physics, 2020,47(5):e185-e202.）。近年来，不少学者对基于深度学习的影像组学方法开展了研究，并在肿瘤学领域中取得了一定的成果，比如Wei Mu等人在粗略提取了非小细胞癌病人PET/CT图像数据的肿瘤ROI区域后，直接通过SResCNN卷积神经网络实现了肿瘤EGFR（表皮生长因子受体）激活状态的有效预测，从而为后续治疗方案的选择提供了一定的指导价值（参考文献：Mu W, Jiang L,Zhang J, etal. Non-invasive decision support for NSCLC treatment using PET/CT radiomics[J]. Nature communications, 2020,11(1):1-11.）。需要指出的是，基于深度学习的影像组学方法也存在一定的局限性，比如深度学习模型和所提取的特征往往缺乏可解释性，且该类方法一般需要大量的训练数据才能保证良好的性能，然而在实际中因为某些原因（比如分析的目标肿瘤疾病病例较少或者病人数据的隐私性问题等）通常很难获得足够大的样本数据量。

综上所述，基于人工设计特征提取方式的传统影像组学方法和基于深度学习的影像组学方法都有着各自的优缺点。为了综合利用这两种方法的优势，近年来也出现了一些将两者进行结合的混合模型，比如Jiangwei Lao等人用卷积神经网络CNN_S从多形性成胶质细胞瘤病人的脑部MRI图像数据中提取深度特征，并将其和通过传统影像组学方法提取的人工设计特征相结合，共同作为后续特征筛选和分类模型的输入（参考文献：LaoJ, ChenY, Li Z, et al. A deep learning-based radiomics model for prediction ofsurvival in glioblastoma multiforme[J]. Scientific reports, 2017,7(1):1-8.）。但这些已有的混合模型仍然存在一些不足之处，比如需要大量的训练数据、特征选择方案过于简单等等。

发明内容

本发明的目的在于提供一种基于孪生神经网络和影像组学的胶质瘤分类方法及装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于孪生神经网络和影像组学的胶质瘤分类方法，包括如下步骤：

步骤1：收集胶质瘤病人的T1增强脑部磁共振影像数据以及相应的胶质瘤分级标签数据，并对磁共振影像数据进行预处理，将收集到的磁共振影像数据切分为训练集与测试集；

步骤2：对预处理后的磁共振影像数据尺寸进行归一化操作，并构建孪生神经网络训练样本集；

步骤3：随机选取若干对胶质瘤病人的影像数据作为孪生神经网络的输入，并结合相应的胶质瘤分级标签数据用分类损失函数和对比损失函数训练孪生神经网络；

步骤4：孪生神经网络训练完成后，用训练好的孪生神经网络中的主干网络对磁共振影像数据进行处理，并将网络除去输出层后的最后一层全连接层的输出，作为该磁共振影像深度特征数据；

步骤5：利用肿瘤分割算法对胶质瘤病人脑部T1增强磁共振影像数据进行肿瘤分割，提取出包含肿瘤的感兴趣区域；

步骤6：基于步骤1获取的磁共振影像数据和步骤5的肿瘤分割得到的结果，提取肿瘤的感兴趣区域的各种影像组学特征数据；

步骤7：基于步骤4和步骤6获得的深度特征数据和影像组学特征数据，先通过T检验进行初步筛选，再用特征选择算法和多数表决规则进一步筛选，生成关键特征数据；

步骤8：根据步骤7生成的关键特征数据，以及相应的标签数据，训练基于高斯径向基核函数的支持向量机分类器；

步骤9：给定任意胶质瘤T1增强磁共振影像数据，经过步骤4和步骤6的特征提取，以及步骤7的特征筛选，得到该磁共振影像数据的关键特征数据，并将其输入到步骤8训练好的分类器中，以得到最终的肿瘤分类结果。

作为优选的，所述步骤1中对胶质瘤病人的T1增强脑部磁共振影像数据进行收集过程中，其数据采集所用的采集设备、成像序列以及相关成像参数应尽量保持一致；在对磁共振影像数据预处理时，根据所收集图像的数据特点选择性地应用降噪、颅骨剥离或者头部运动矫正和图像预处理方法；最后将收集到的所有数据切分为训练集与测试集。

作为优选的，所述步骤2中构建孪生神经网络训练样本集的具体子步骤如下：

步骤2.1：随机选择0和1作为样本标签，分别赋予磁共振影像数据属于同一类的训练样本和磁共振影像数据不属于同一类的训练样本；

步骤2.2：在磁共振影像训练集中随机选两个符合该标签的数据，即当所选的标签为1时，所选的两个磁共振影像数据属于同一类别符合该标签；当所选的标签为0时，所选的两个磁共振影像数据属于不同类别符合该标签，并将这对磁共振影像数据组合作为一个训练样本；

步骤2.3：重复执行上述步骤N次，并保证得到的N种组合方式互不相同，得到N个磁共振影像数据对组成的训练样本集；当原始训练数据集共有M个磁共振影像数据，通过孪生网络结构输入数据的构建方式，可将训练数据量由M最大扩展为M(M+1)/2，其中N的取值需满足N≤M(M+1)/2。

作为优选的，构建所述步骤3中的孪生神经网络，具体为：使用两个结构相同、参数共享的主干网络，对于主干网络的选取，根据训练数据量、数据特点和任务类型在现有的一些经典或前沿卷积神经网络中进行选择，或者在现有网络的基础上根据具体的应用场景进行适当的修改或调整。

作为优选的，通过交叉验证的方式设置所述孪生神经网络以及分类器的训练过程中超参数的值，具体为：首先对训练集进行再次切分，得到训练集和验证集，然后通过训练集训练不同超参数值下的模型，并在验证集上验证模型的性能，最终选取在验证集上表现好的模型以及相应的超参数值。

作为优选的，所述步骤5中利用肿瘤分割算法对胶质瘤病人脑部T1增强磁共振影像数据进行肿瘤分割，具体为：根据数据量、病灶边界模糊程度在手动分割、半自动分割和自动分割这三类分割算法中进行选择，同时保证分割结果的准确性和稳定性。

作为优选的，所述分割算法的具体选择方式如下：当数据量小或者肿瘤边界模糊不清时，选择通过医学图像处理工具进行手动或半自动分割；当数据量大时，选择现有的深度卷积神经网络分割算法进行自动分割。

作为优选的，所述步骤6具体为，在肿瘤的感兴趣区域分割完成后，根据分割结果和预处理后的磁共振影像数据，从一阶统计量特征、空间几何特征、纹理特征、变换特征这四个方面提取并量化肿瘤感兴趣区域对应的影像组学特征。

作为优选的，所述步骤7中所述特征选择算法依据算法的前沿性、互补性原则进行选取；多数表决规则的具体操作过程为：构建由所有特征组成的集合F，采用k种不同的特征选择算法后，每种算法分别筛选出n个特征，用Fi表示被第i种特征选择算法选中的n个特征组成的集合，则k种特征选择方法对应了k个特征集合（F1，F2, … , Fk），对于集合F中的所有特征，按照在k个特征集合中出现的次数进行排序，选择出现次数最多的前n个特征作为最终的关键特征。

本发明还公开一种基于孪生神经网络和影像组学分析的胶质瘤分类装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述基于孪生神经网络和影像组学的胶质瘤分类方法。

本发明的有益效果：本发明一种基于孪生神经网络和影像组学的胶质瘤分类方法及装置，在原有MRI图像数据量不变的前提下本发明通过采用孪生网络结构极大地扩增了训练数据集地样本量，从而在一定程度上解决了训练数据量不足地问题；不仅如此，本发明通过利用孪生网络的对比损失函数，可以在网络训练过程中显式地增加不同类别肿瘤MRI数据之间的差异性约束和相同类别肿瘤MRI数据之间的相似性约束，从而使孪生网络能够提取更具区分性的深度特征；此外，在获得海量的深度特征数据和影像组学特征数据后，本发明提出了一种新的特征选择方案，即通过多数表决规则将一组现有的前沿特征选择算法的筛选结果进行综合，从而使特征选择过程更加充分、合理，并且本发明所述方案还可以通过尽量选用基于不同原理的特征选择算法进行优势互补，从而实现特征选择的进一步优化。

附图说明

图1是本发明实施例的方法总流程图。

图2是本发明实施例的的孪生神经网络结构示意图。

图3是本发明实施例提出方法的具体处理流程示意图。

图4是本发明实施例的提装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明实施例提供一种基于孪生神经网络和影像组学的胶质瘤分类方法的技术方案是：一方面基于尺寸归一化后的MRI图像数据和相应的标签数据构建孪生神经网络的训练数据集，并用对比损失函数和分类损失函数共同作为网络的损失函数对孪生神经网络进行训练，通过孪生网络结构，不仅可以通过输入数据成对化来扩增训练数据样本量，还可以将不同类别胶质瘤MRI数据之间的差异性直接引入到损失函数中，从而使网络能够更好地学到可以区分不同类别胶质瘤MRI图像数据的深度特征；另一方面，在通过传统影像组学方法提取大量影像组学特征数据后，深度特征和影像组学特征共同组成了海量的特征数据，以此为基础先选取一组现有的前沿特征选择算法分别从这些特征中筛选出一定数量的特征，然后采用多数表决规则将这些筛选结果进行综合，以得到最后的关键特征，这样可以使特征选择过程更加充分、合理，不仅如此，还可以通过尽量选用基于不同原理的特征选择算法进行优势互补，从而实现特征选择的进一步优化。

所述方法主要包括以下几个步骤：

（1）收集胶质瘤病人的T1增强脑部MRI（Magnetic Resonance Imaging，磁共振影像）（MRI可以通过不同的成像序列得到不同的图像，T1是其中反映人体组织“纵向驰豫时间”参数信息的一种成像序列）图像数据以及相应的胶质瘤分级标签数据，并对MRI图像数据进行降噪、颅骨剥离等预处理；MRI可以通过不同的成像序列得到不同的图像，T1是其中反映人体组织“纵向驰豫时间”参数信息的一种成像序列；

（2）对预处理后的磁共振影像数据尺寸进行归一化操作，并构建孪生神经网络训练样本集：将预处理后的3D影像数据的像素尺寸在三个维度上均调整到统一大小后，将其按照不同的组合方式成对地构建孪生神经网络训练样本集；

（3）随机选取若干对胶质瘤病人的影像数据作为孪生神经网络的输入，并结合相应的胶质瘤分级标签数据用分类损失函数和对比损失函数训练孪生神经网络；

（4）在孪生神经网络训练完成后，用其主干网络对MRI图像数据进行处理，并将其除去输出层后的最后一层全连接层的输出作为深度特征数据；

（5）利用肿瘤分割算法对胶质瘤病人脑部T1增强MRI数据进行肿瘤分割，以提取出包含肿瘤的感兴趣区域（Region of interest，ROI）；

（6）通过PyRadiomics开源包提取肿瘤ROI的各种影像组学特征数据，主要包括一阶统计特征、空间几何特征、纹理特征、变换特征这四大类；

（7）基于步骤（4）和（6）提取出的大量深度特征和影像组学特征，先通过T检验初步筛选一部分特征，然后用一组特征选择算法和多数表决规则进一步筛选出少量的关键特征；

（8）以关键特征数据为输入，相应的肿瘤分级临床信息为标签，对基于高斯径向基核函数的支持向量机(RBF-SVM)分类器进行训练；

（9）给定任意胶质瘤病人的T1增强脑部MRI图像数据，都可以通过上述训练好的孪生网络和影像组学方法分别提取深度特征和影像组学特征数据，之后用步骤（7）中的特征选择方案从中筛选出关键特征数据，再将该关键特征数据输入到步骤（8）训练好的RBF-SVM分类器，以得到最后的肿瘤分类信息。

进一步地，对于在初始数据收集阶段获取的胶质瘤病人T1增强脑部MRI数据，其数据采集所用的采集设备、成像序列以及相关成像参数应尽量保持一致；而对于MRI图像数据的预处理阶段，可以根据所收集图像的数据特点选择性地应用降噪、颅骨剥离或者头部运动矫正等一些图像预处理算法，预处理的主要目的是提高图像质量，并去除图像中脑组织以外的无关部分。然后，将收集到的所有数据进行切分，取其中80%作为训练集，剩下20%作为测试集。

进一步地，所述孪生神经网络训练样本集的具体构建过程为：首先随机选择0（两个输入数据不属于同一类别）或者1（两个输入数据属于同一类别）作为样本标签，孪生网络的一个训练输入样本是由一对MRI图像数据构成，若这对MRI数据是属于同一类，则该输入样本的标签赋予1；若这对MRI数据不属于同一类别，则该输入样本的标签赋予0；然后在MRI图像训练数据集中随机选两个符合该标签的数据，当所选的标签为1时，符合该标签是指从MRI训练数据集中选的两个MRI数据属于同一类别；当所选的标签为0时，符合该标签是指从MRI训练数据集中选的两个MRI数据属于不同类别。并将这对MRI数据组合作为一个训练样本；按上述方法执行N次，同时保证这N种组合方式互不相同，最终得到N个MRI数据对组成的训练样本集。假设原始训练数据集共有M个MRI数据，通过所述孪生网络结构输入数据的构建方式，可将训练数据量由M最大扩展为M(M+1)/2，因此N的取值应满足N≤M(M+1)/2。

进一步地，所述孪生神经网络的构建使用的是两个结构相同、参数共享的主干网络，其中主干网络主要是用来提取输入MRI图像数据中的深度特征，对于主干网络的选取，可以根据训练数据量、数据特点和任务类型等在现有的一些经典或前沿卷积神经网络中进行选择，也可在现有网络的基础上根据具体的应用场景进行适当的修改或调整。

进一步地，所述孪生神经网络训练过程所用的损失函数为分类损失函数L₁和对比损失函数L₂的加权求和（L₁+ λL₂），其中λ为超参数。对于一对输入数据（X1，X2），L₁和L₂的定义分别如下：

其中，y1和y2分别为输入数据X1和X2的肿瘤类型标签，y为该数据对（X1，X2）的标签（1或者0，表示X1和X2是否属于同一类别）。y1_pred和y2_pred分别为输入数据X1和X2经过孪生网络后的输出预测值，C_Loss表示一种用来度量分类误差的Loss函数。D_W表示X1和X2经过孪生网络后得到的深度特征之间的距离， m为设定的阈值。

进一步地，所述孪生神经网络以及后续分类器的训练过程中超参数的值是通过交叉验证的方式进行设置的，首先对训练集进行再次切分，得到训练集和验证集，然后通过训练集训练不同超参数值下的模型，并在验证集上验证模型的性能，最终选取在验证集上表现最好的模型以及相应的超参数值。

进一步地，所述胶质瘤T1增强MRI数据中的3D肿瘤ROI分割算法可以根据数据量、病灶边界模糊程度等因素在手动分割、半自动分割和自动分割这三类分割算法中进行选择，但需要保证分割结果的准确性和稳定性。当数据量较小或者肿瘤边界模糊不清时，可以通过ITK-SNAP等医学图像处理工具进行手动或半自动分割，当数据量较大时为了提高效率，可以考虑采用U-Net等一些现有的深度卷积神经网络分割算法进行自动分割。在肿瘤ROI分割完成后，将3D分割结果和预处理后的MRI图像数据作为输入，通过PyRadiomics开源包从一阶统计量特征、空间几何特征、纹理特征、变换特征这四个方面提取并量化肿瘤ROI区域对应的海量特征数据。

进一步地，在所述方法特征选择过程中，通过多数表决规则来利用一组特征选择算法从海量的深度特征和影像组学特征中筛选出少量的关键特征，其中特征选择算法可以依据算法的前沿性、互补性等原则进行选取。多数表决规则的具体操作过程为：假设所有特征组成的集合为F，采用k种不同的特征选择算法后，每种算法分别筛选出10个特征，用Fi表示被第i种特征选择算法选中的10个特征组成的集合，则k种特征选择方法对应了k个特征集合（F1，F2, … , Fk）。对于F中的所有特征，可按照在k个特征集合中出现的次数从大到小进行排序，最后选择出现次数最多的前10个特征作为最终的关键特征。

以下结合附图及具体实施方式对本发明进行详细说明：

本发明提供了一种基于孪生神经网络和影像组学分析的胶质瘤分类方法，其总流程图如图1所示，在收集整理了胶质瘤病人的脑部T1增强MRI数据后，先对其进行预处理；然后一方面通过训练好的孪生神经网络提取MRI数据中的深度特征，另一方面通过传统影像组学方法提取肿瘤ROI区域的组学特征；然后将以上两种特征数据进行融合，并且利用特征选择算法从融合后的海量特征数据中筛选出关键特征；最后将关键特征数据输入到训练好的分类器中以得到最终的肿瘤分类预测结果。接下来将根据本发明的某个具体实施例对本发明所述肿瘤分类方法的详细处理流程进行说明，具体步骤如下：

步骤（1）：数据收集及预处理。获取胶质瘤公开数据集BraTS 2019中的胶质瘤病人脑部T1增强3D MRI图像数据，获取地址为：https://www.med.upenn.edu/cbica/brats-2019/ ，该数据包含了240个高级别胶质瘤（HGG）病人和76个低级别胶质瘤（LGG）病人的脑部3D MRI数据，其中包含本发明方法所需的T1增强数据。为了提高数据质量并尽量保证不同类别数据之间的均衡性，删除一部分肿瘤区域不明显或者肿瘤边界模糊的HGG病例数据，然后将剩下101例HGG数据与76例LGG数据共同作为后续实验的数据集。这些T1增强3DMRI图像数据在x、y、z三个方向上的空间分辨率均为1 mm，且所获取的T1增强MRI数据已经剥离了颅骨等脑组织外的部分，同时图像质量也较好，所以无需再进行额外的预处理。从HGG和LGG数据中分别随机抽取80%作为训练集，剩下的20%作为测试集。

步骤（2）：孪生神经网络构建。由于上述步骤（1）中获取的胶质瘤数据集的数据量较小，在此选择网络结构较为简单、参数量较少的LeNet-5为孪生神经网络的主干网络。首先在经典的2D LeNet-5卷积神经网络的基础上，将其拓展为能够处理3D输入数据的3DLeNet-5，并以3D LeNet-5为主干网络构建孪生神经网络，其网络结构如图2所示。（图2中Conv 3D表示三维卷积层，MaxPool 3D表示三维池化层，FC表示全连接层，BCE Loss表示二元交叉熵损失函数）3D LeNet-5具有1个输入层，2个卷积层，2个池化层，以及3个全连接层，下表为基于3D LeNet-5的孪生神经网络中主干网络的实施例结构：

其中最后一个全连接层（全连接层3）为分类预测结果输出层，并将除去该输出层后的最后一层（全连接层2）的输出作为该网络从3D MRI图像数据中提取的深度特征。

步骤（3）：孪生神经网络训练样本集的构建。首先通过python库skimage中的resize函数将所有胶质瘤MRI图像的3D像素尺寸统一变换到。然后构建孪生神经网络的训练样本集，具体构建过程为：首先随机选择0（两个输入数据不属于同一类别）或者1（两个输入数据属于同一类别）作为标签，然后在MRI数据训练集中随机选两个符合该标签的数据，并将这对MRI数据组合作为一个训练样本；按上述方法执行2048次，同时保证这些组合方式互不相同，最终得到2048个MRI数据对组成的训练样本集。

步骤（4）：孪生神经网络的训练。孪生神经网络训练过程所用的损失函数为分类损失函数L₁和对比损失函数L₂的加权求和（L₁+ λL₂），其中λ=0.5。对于一对输入数据（X1，X2），L₁和L₂的定义分别如下：

其中，y1和y2分别为输入数据X1和X2的肿瘤类型标签，y为该数据对（X1，X2）的标签（1或者0，表示X1和X2是否属于同一类别）。y1_pred和y2_pred分别为输入数据X1和X2经过孪生网络后的输出预测值，BCE_Loss为二分类问题中常用的二元交叉熵（binary cross-entropy）损失函数（通过torch.nn.functional.binary_cross_entropy_with_logits计算）。D_W表示X1和X2经过孪生网络后得到的深度特征之间的欧式距离（通过距离函数torch.nn.functional.pairwise_distance计算）， m为设定的阈值， m= 2.0。需要指出的是，孪生神经网络中λ等超参数的取值，是通过在训练集上进行交叉验证的方法确定的（5-fold交叉验证，在一定取值范围内对不同超参数值的网络进行训练，并取在验证集上表现最好的模型对应的超参数值）。

通过所述损失函数，并用步骤（3）构建的训练数据集，对图2所示的孪生神经网络进行训练。将训练过程的参数batch size设置为64，学习率设置为0.0005，Epochs数设置为50。而在得到训练好的孪生神经网络后，可以用其主干网络来提取3D MRI图像的深度特征，即以3D MRI数据为主干网络的输入，用步骤（2）中表格所述的全连接层2的输出作为深度特征。因此对于每一个胶质瘤病人的3DMRI数据，均能通过该训练好的3D LeNet-5主干网络提取一个84维的深度特征。

步骤（5）：肿瘤ROI区域分割。鉴于步骤（1）所述的数据量较小，且图像质量较高，在此通过医学图像分割工具ITK-SNAP中的半自动分割功能实现胶质瘤ROI区域的分割，所用ITK-SNAP版本号为3.8.0。具体分割步骤为：载入胶质瘤病人脑部T1增强3D MRI数据后，开始通过ITK-SNAP中的Active Contour (aka “Snake”) Segmentation Model提取肿瘤ROI区域；首先通过设置一个三维虚线框选中包含整个肿瘤的3D 长方体区域；然后在“Presegmentation”阶段通过“Thresholding”方法对肿瘤ROI进行预分割；然后在“Initialization”阶段通过在肿瘤内部添加“Bubbles”作为初始的肿瘤ROI外形轮廓，并且可以通过Bubble radius参数设置来适应不同尺寸大小的肿瘤；然后在“Evolution”阶段点击开始按钮，使肿瘤ROI轮廓进行自适应调整；最后观察红色标记的肿瘤ROI分割结果，并可通过画笔功能对分割结果进行微调。分割结束后，可用ITK-SNAP将肿瘤ROI区域的分割结果导出为.nii.gz文件。

步骤（6）：组学特征提取。把上述步骤（1）中的MRI图像数据和步骤（5）中的分割结果作为输入，采用pyradiomics库提取肿瘤ROI区域的传统影像组学特征数据。所提取的组学特征总共965个，其中包括熵、均值、标准差等一阶统计特征，体积、表面积、球形度等空间集合特征，灰度共生矩阵（GLCM）、灰度游程矩阵（GLRLM）等纹理特征，以及小波变换特征等。提取特征种类的指定通过配置相应的.yaml文件来实现（参考链接：https://pyradiomics.readthedocs.io/en/latest/customization.html#parameter-file）。通过上述步骤（5）和（6），对每个胶质瘤病人的3D MRI数据，均能提取一个965维的组学特征。

步骤（7）：特征选择。对于每个训练集中的MRI数据，通过以上步骤（4）和（6），能够分别提取一个84维的深度特征和965维的组学特征，再将这两类特征通过拼接，生成一个1049维的融合特征，特征选择的目标则是从这1049个特征中选择出少量的关键特征。首先通过T检验初步筛选出630个显著特征（p<0.05）；然后根据Demircioğlu等人的最新研究成果（参考文献：Demircioğlu A. Benchmarking feature selection methods inRadiomics[J]. Investigative Radiology, 2022,57(7):433-443.），选择评价最高的四种现有特征选择算法（ANOVA，MRMRe，LASSO和Boruta）分别从630个显著特征中进一步筛选出最重要的10个特征，然后基于这四种特征选择算法结果并依据多数表决规则确定10个特征作为最终的关键特征。

多数表决规则的具体操作过程为：用F表示630个特征组成的集合，再用Fi表示被第i种特征选择算法选中的10个特征组成的集合，则这四种特征选择方法对应了4个特征集合（F1，F2，F3，F4）。对于F中的所有特征，可按照在4个特征集合（F1，F2，F3，F4）中出现的次数（最多4次，最少0次）从大到小进行排序，最后选择出现次数最多的前10个特征作为最终的关键特征。

步骤（8）：肿瘤分类器训练。通过sklearn.svm库中的SVC函数构造基于径向基函数支持向量机（RBF-SVM）模型的肿瘤分类器，并且以MRI训练集数据对其进行训练。如图3所示（图3中Conv 3D表示三维卷积层，MaxPool 3D表示三维池化层，FC表示全连接层），首先通过上述步骤中方法可以从每个3D MRI数据分别提取84个深度特征和965个组学特征，并拼接为1049维的融合特征，然后根据步骤（7）中的特征选择结果，取出融合特征中的10个关键特征。将训练数据集的关键特征数据作为输入，相应的胶质瘤分类临床信息作为标签，对RBF-SVM进行训练。

步骤（9）：肿瘤分类方法性能评估。基于上述步骤（1）中划分出的测试集，首先采用和训练集相同的预处理和分割方案，然后用训练好的孪生神经网络以及特征选择方案等从测试集的每个3D MRI数据中提取10个关键特征，并以这10个关键特征数据输入到步骤（8）训练好的RBF-SVM分类器，将分类器的输出作为该MRI数据的肿瘤类别预测结果。利用测试集的预测结果以及测试集的真实标签数据，可以计算出分类模型对应的AUC（Area UnderCurve）、准确率、敏感度、特异性等定量指标，以对本发明提供的肿瘤分类方法的性能进行评估。评估结果表明，在训练数据量不足的情况下，相比于比其他传统影像组学方法或深度学习方法，本发明的肿瘤分类方法能够获得更好、更可靠的预测性能（在测试集上的AUC指标高达0.93），具有较高的临床指导意义。

以上便是本发明所提供的一种基于孪生神经网络和影像组学的胶质瘤分类方法的一个具体实施例，通过上述9个主要步骤，可以得到一个基于脑部T1增强3D MRI图像数据的胶质瘤分类模型，以及该模型的性能评估结果。然后给定任意一个胶质瘤病人的脑部T1增强3D MRI图像数据，可以通过以上分类模型进行处理并得到相应的胶质瘤分类预测结果。

本发明具有良好的可扩展性。本发明的创新性及价值更多在于提供了一种孪生神经网络与传统影像组学相结合的模式，而对于上述实施例中孪生神经网络的主干网络结构、肿瘤ROI区域分割算法以、特征选择算法以及后续分类器的选择，均可以根据其他实施例的具体情况进行适当的调整。

参见图4，本发明实施例还提供了一种基于孪生神经网络和影像组学的胶质瘤分类装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于孪生神经网络和影像组学的胶质瘤分类方法。

本发明一种基于孪生神经网络和影像组学的胶质瘤分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种基于孪生神经网络和影像组学的胶质瘤分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于孪生神经网络和影像组学的胶质瘤分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于，包括如下步骤：

步骤6：基于步骤1获取的磁共振影像预处理之后数据和步骤5的肿瘤分割得到的结果，提取肿瘤的感兴趣区域的各种影像组学特征数据；

2.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：所述步骤1中对胶质瘤病人的T1增强脑部磁共振影像数据进行收集过程中，其数据采集所用的采集设备、成像序列以及相关成像参数应尽量保持一致；在对磁共振影像数据预处理时，根据所收集图像的数据特点选择性地应用降噪、颅骨剥离或者头部运动矫正和图像预处理方法；最后将收集到的所有数据切分为训练集与测试集。

3.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：所述步骤2中构建孪生神经网络训练样本集的具体子步骤如下：

步骤2.2：在磁共振影像训练集中随机选两个符合该标签的数据，即当所选的标签为1时，所选的两个磁共振影像数据属于同一类别符合该标签；当所选的标签为0时，所选的两个磁共振影像数据属于不同类别符合该标签，并将这对磁共振影像数据组合作为一个训练样本；步骤2.3：重复执行步骤2.1到步骤2.2N次，并保证得到的N种组合方式互不相同，得到N个磁共振影像数据对组成的训练样本集；当原始训练数据集共有M个磁共振影像数据，通过孪生网络结构输入数据的构建方式，可将训练数据量由M最大扩展为M(M+1)/2，其中N的取值需满足N≤M(M+1)/2。

4.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：构建所述步骤3中的孪生神经网络，具体为：使用两个结构相同、参数共享的主干网络，对于主干网络的选取，根据训练数据量、数据特点和任务类型在现有的一些经典或前沿卷积神经网络中进行选择，或者在现有网络的基础上根据具体的应用场景进行适当的修改或调整。

5.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：通过交叉验证的方式设置所述孪生神经网络以及分类器的训练过程中超参数的值，具体为：首先对训练集进行再次切分，得到训练集和验证集，然后通过训练集训练不同超参数值下的模型，并在验证集上验证模型的性能，最终选取在验证集上表现好的模型以及相应的超参数值。

6.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：所述步骤5中利用肿瘤分割算法对胶质瘤病人脑部T1增强磁共振影像数据进行肿瘤分割，具体为：根据数据量、病灶边界模糊程度在手动分割、半自动分割和自动分割这三类分割算法中进行选择，同时保证分割结果的准确性和稳定性。

7.如权利要求6所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：所述分割算法的具体选择方式如下：当数据量小或者肿瘤边界模糊不清时，选择通过医学图像处理工具进行手动或半自动分割；当数据量大时，选择现有的深度卷积神经网络分割算法进行自动分割。

8.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：所述步骤6具体为，在肿瘤的感兴趣区域分割完成后，根据分割结果和预处理后的磁共振影像数据，从一阶统计量特征、空间几何特征、纹理特征、变换特征这四个方面提取并量化肿瘤感兴趣区域对应的影像组学特征。

9.如权利要求1所述的基于孪生神经网络和影像组学的胶质瘤分类方法，其特征在于：

所述步骤7中所述特征选择算法依据算法的前沿性、互补性原则进行选取；多数表决规则的具体操作过程为：构建由所有特征组成的集合F，采用k种不同的特征选择算法后，每种算法分别筛选出n个特征，用Fi表示被第i种特征选择算法选中的n个特征组成的集合，则k种特征选择方法对应了k个特征集合(F1，F2,…,Fk)，对于集合F中的所有特征，按照在k个特征集合中出现的次数进行排序，选择出现次数最多的前n个特征作为最终的关键特征。

10.一种基于孪生神经网络和影像组学分析的胶质瘤分类装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9任一项所述基于孪生神经网络和影像组学的胶质瘤分类方法。