CN110458249B

CN110458249B - 一种基于深度学习与概率影像组学的病灶分类系统

Info

Publication number: CN110458249B
Application number: CN201910956128.8A
Authority: CN
Inventors: 杨健程; 方荣耀; 葛亮
Original assignee: Point Inside (shanghai) Biological Technology Co Ltd
Current assignee: Point Inside (shanghai) Biological Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-07
Anticipated expiration: 2039-10-10
Also published as: CN110458249A

Abstract

本发明涉及一种基于深度学习与概率影像组学的病灶分类系统，属于医学图像分类技术领域。针对现有病灶分类系统存在的分类模糊性所带来的歧义问题、分类精度不够高的问题，本发明以深度卷积神经网络为主干，提出非局部形状分析模块提取医学图像上病灶的特征云，去除病灶周边像素对分类判断的干扰，得到病灶的本质表征；同时为了捕捉标签的模糊性，提出模糊先验网络来模拟不同专家标注的模糊性分布，显示建模了专家标注的歧义性，使模型训练的分类结果具有更好的鲁棒性，将模糊先验样本与病灶表征相结合，构建了一种新的病灶分类系统，具有可控性和概率性，相比传统的卷积神经网络，更好地解决了分类模糊性的问题，可获得更高的分类精度。

Description

一种基于深度学习与概率影像组学的病灶分类系统

技术领域

本发明涉及病灶CT图像的分类技术，具体涉及基于深度学习与概率影像组学的病灶分类系统，属于医学图像分类技术领域。

背景技术

目前中国各类癌症的发病率和死亡率居各种疾病之首，其中又以肺癌的发病率和死亡率均居各种恶性肿瘤之首，对人们的健康构成了巨大的威胁。肺结节筛查是实现肺癌早诊早治的重要手段。放射组学分析方法通过医生手动勾画感兴趣区域，图像处理、特征提取、特征筛选，再结合机器学习算法对目标变量进行预测，辅助医生对病灶进行分析，其功能强大且得到了广泛的应用。与传统临床检测方法相比，其具有无创性、非介入、可重复等优点，且其分析对象基于全部病灶组织，信息全面性高。

近几年，基于深度学习的人工智能技术在结节检测分类领域迅猛发展，在医学图像分析中取得了巨大的成功。其通过卷积神经网络(Convolutional Neural Network,CNN)对图像每一个原始像素进行处理，如果提供足够多的数据，传统手动提取特征进行处理的方式很难与端到端的深度学习相比较。

现有关于病灶分类的研究中，中国专利（CN106504232B）公开了一种基于3D卷积神经网络的肺部结节自动检测系统，该系统将检测分为两大阶段：(1)候选肺部结节检测阶段；(2)假阳性肺部结节筛除阶段，同时，每个阶段都会构建并训练出一个独特的3D CNN，以适用肺部结节的检测和筛除；通过第一阶段的3D CNN可以初步检测出疑似肺部结节的候选肺部结节位置，再利用第二阶段的3D CNN滤除掉候选结节中的假阳性肺部结节，最终找出整幅肺部CT影像中所有存在的结节位置。

中国专利（CN108078581B）提出了一种基于卷积神经网络的肺癌良恶性判别的系统，该系统包括获取肺部CT图像，其中，CT图像包括第一CT图像和第二CT图像；将第一CT图像和第二CT图像进行配准，得到第一配准图像和第二配准图像；分别获取第一配准图像和第二配准图像中的病灶位置，得到第一CT样本和第二CT样本；将第一CT样本的第一参数值与第二CT样本的第二参数值作差，得到3D样本；通过多个训练样本训练良恶性判别卷积神经网络，并通过良恶性判别卷积神经网络判定3D样本的良恶性，其中，训练样本为经过病理检测的3D样本。

这两件专利虽然都涉及了通过CNN进行肺结节的识别或良恶性判断，但由于传统技术并不能保证 CNN 的黑匣子能正确的从病灶中提取特征，尤其是在数据有限的情况下，实验证明有些时候 CNN 的预测并不完全可靠。相比之下，对用户来说，放射组学分析比黑盒深度学习具有更好的可控性和透明性。另一方面，分类在临床应用中存在固有的模糊性，对于难以明确划分类别的病例，经验丰富的放射科医生可能会做出不同的诊断。虽然理论上可以通过更复杂的检查（如活检）取得消除歧义的结果，但仅仅通过成像可能无法获得这些信息。这使得处理具有模糊性的专家标注在医学图像分析中是非常必要的，而传统 CNN的训练过程使模型更偏向于均值，而不是逼近模糊分布。

专利（CN106780448B）公开了一种基于迁移学习与特征融合的超声甲状腺结节良恶性分类方法，引入医生标记的甲状腺结节超声图像作为训练集，对显著特征描述向量进行样本训练，得到针对超声甲状腺结节的分类器，再得到结节良恶性分类结果。该专利基于医生标注进行了机器学习，能一定程度解决分类的模糊性问题，但不能解决病灶周边像素对分类判断的干扰问题。

专利（CN106250701B）公开了一种基于肺结节图像密度实现肺结节危险程度分类的方法，该方法包括以下步骤：(1)通过已有的肺结节图像，建立肺结节图像数据库，并按照危险程度将肺结节图像标记成不同的类别；(2)采集需要判断的肺结节图像，建立肺结节图像单元库；(3)计算肺结节图像单元库中两两图像单元之间的距离，得到距离矩阵；(4)获得聚类数量和聚类中心；(5)对肺结节图像数据库中每个肺结节图像计算其CT值密度分布特征，该特征表征着肺结节的危险程度，不同的肺结节类别具有不同的图像特征；(6)肺结节危险程度分类模块基于有监督机器学习模型使用肺结节CT值密度分布特征实现肺结节危险程度的训练和分类。该专利涉及了标准化数据库的建立以及根据现有图像标注数据进行深度学习的技术内容，但同样存在不能消除分类模糊性所带来的歧义问题。

中国专利申请（CN105718952A）公开了一种使用深度学习网络对断层医学影像进行病灶分类的方法，对诸如如前列腺癌(PCA)与前列腺增生(BPH)疾病变，采用了深度学习网络对这两种CT影像或者MRI断层医学影像病灶进行分类。然而，首先，该专利所采用的方法是基于2D的卷积神经网络，这使得该专利不具备捕捉三维空间特征的能力。其次，该专利使用的是传统黑盒深度学习，使得该专利的技术并不具备可控性和透明性。同样还存在不能消除分类模糊性所带来的歧义问题。

因此，亟需提出一种新的分类系统，解决现有分类技术中对病灶分类存在的分类模糊性所带来的歧义问题、分类精度不够高的问题。

发明内容

为了克服现有技术的不足，本发明提出了一种基于深度学习与概率影像组学的病灶分类系统，以深度卷积神经网络为基础，提出非局部形状分析模块（Non-local ShapeAnalysis Module，NSAM）提取医学图像上病灶的特征云，通过去除病灶周边像素对分类判断的干扰，得到病灶的本质表征；同时为了捕捉标签的模糊性，提出模糊先验网络(Ambiguity Prior Net, APN)来模拟不同专家标注的模糊性分布，显示建模了专家标注的歧义性，使模型训练的分类结果具有更好的鲁棒性，将模糊先验样本与病灶表征相结合，构建了一种新的病灶分类系统，具有可控性和概率性，相比传统的卷积神经网络，可以更好地模拟放射科专家的决策过程，同时可消除病灶周边像素对分类判断的干扰，获得更高的分类精度。由于该方法结合了传统的影像组学以及概率深度学习的优点，本发明中将这整套方法称为概率影像组学（Probabilistic Radiomics）。

为了实现上述目的，本发明采用以下技术方案：

一种基于深度学习与概率影像组学的病灶分类系统，包括以下模块：

数据搜集模块：搜集多个包含病灶的CT图像上同一个病灶的分割结果和分类结果，得到专家标注的分割结果和专家标注的分类结果，将专家标注的分割结果和分类结果称为真值，本系统的真值可以是由多个不同放射科医生给出的分割结果和分类结果，也可以是搜集到的由不同的分类系统或分类方法得到并且被验证过的分割结果和分类结果，该真值数据库可以不断迭代修正，使本系统基于该真值数据库的训练和预测结果也可以不断通过机器学习进而得以不断修正、提高预测准确率；鉴于医学图像内在的歧义性，不论是多位医生对于同一个病灶的分割和分类结果，还是由不同的分类系统预测得到的同一个病灶的分割和分类结果通常是不一致的，因此，包含病灶的CT图像上同一个病灶的多个分割和分类结果是具有模糊性的专家标注，所述多个通常大于等于3个；

预处理模块：对包含病灶的CT图像进行预处理，将图像重采样为统一规格、进行数据增强，得到增强后的数据集，所述数据增强包括裁剪感兴趣区域、旋转和平移等常用的数据增强方式，构成该数据集的每一个样本称为CT三维数据I，所述样本即是病灶；其中，病灶指医学图像中感兴趣的建模对象，包含结节、肿块、索条等；

数据表征模块：使用深度卷积神经网络作为数据表征模块的主干，使用多层三维卷积层和池化层对预处理过的CT三维数据

进行下采样，其中R代表实数集，D×H×W代表输入大小：深度×高度×宽度，得到特征图

，其中R代表实数集，

代表得到的特征图的大小：深度×高度×宽度，c代表该特征图的通道数；在特征图

上通过反卷积层上采样得到分割特征图

，其中c_seg代表该分割特征图的通道数；

病灶分割输出模块：将分割特征图F_seg经过一层卷积层卷积和sigmoid得到预测的病灶分割结果

；

非局部形状分析模块：将特征图F线性插值成原始CT三维数据大小

，按照病灶分割结果Y_seg提取

中病灶区域各个体素对应的特征，构建特征向量集合，即特征云X，其中每个特征向量来自于病灶CT中一个体素对应的特征，所述病灶分割结果Y_seg为专家标注的病灶分割结果或本系统预测的病灶分割结果O_seg；设病灶分割结果Y_seg的体积是N个体素，则特征云

，其中c为每个体素的特征维度，R代表实数集，采用点积注意力机制对特征云进行处理，具体公式为：

其中，Attn(X)为点积注意力机制，act为激活函数，如ReLU、sigmoid，tanh等函数，X^T代表

的转置；点积注意力机制虽然可以使用动态的自注意力权重来聚合不同元素之间的特征，但是一旦形成了注意力权重，单次的点积注意力机制只是一个线性加权，这将限制网络的表达能力；为了克服单次的点积注意力机制的不足，本发明提出采用非局部形状分析模块对Attn(X)进行多次特征转换和处理，具体公式为：

其中，NSAM(X)为非局部形状分析模块转换后的特征云，

为可学习的参数权重，GN代表群正规化的操作（群正规化的操作方法可参见文献：Wu Y, He K. GroupNormalization[J]. International Journal of Computer Vision, 2018:1-14），g代表通道分组数；

，且NSAM(X)和输入X的维度保持一致；经过多层的NSAM操作，即

，得到转换后的特征云；

病灶分类输出模块：将转换后的特征云输入全局平均池化层，得到病灶的唯一表征；将病灶的唯一表征

经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls

预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个，结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；

验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，使用在验证集上具有最高曲线下面积(Area Under Curve，AUC)值的模型用来在测试集上做测试，在病灶分类输出模块得到测试集的分类结果。

进一步地，为了更好地模拟人类放射科医生的决策过程，获得更高的分类精度，本发明在上述病灶分类系统的基础上增加了模糊先验采样模块，并结合模糊先验采样模块对系统的病灶分割输出模块、病灶分类输出模块、训练模块和验证/测试模块进行了改进；所述的病灶分类系统还包括模糊先验采样模块：采用模糊先验网络APN（Ambiguity PriorNet）对预处理过的CT三维数据I进行模糊先验采样，所述模糊先验网络APN主体采用和数据表征模块中的深度卷积神经网络一致的结构，通过控制输出层通道数，使其输出为两个长度为的向量

，其中

代表某个正态分布

的均值和方差，从该分布中实现概率分布采样得到模糊分布采样

，其中，A为模糊先验采样，

代表该模糊先验采样的维度；采用重参数化技巧使模糊先验网络能够端到端反向传播，公式为：

其中，f_Ambig代表重参数化函数，

则为一个独立标准正态分布采样出来的高斯噪声；所述模糊先验采样模块置于预处理模块之后，病灶分割输出模块之前；在所述病灶分割输出模块中，先将模糊先验采样A与数据表征模块中的分割特征图F_seg上每个体素进行点对点的通道拼接得到

，再将

经过一层卷积层卷积和sigmoid得到预测的病灶分割结果

；在所述病灶分类输出模块中，将非局部形状分析模块得到的转换后的特征云

输入全局平均池化层，得到病灶的唯一表征，将模糊先验采样A与病灶表征F_clf拼接，再将拼接后的结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls

预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，在病灶分类输出模块得到测试集的分类结果。

此外，本发明还提出了一种基于深度学习与概率影像组学的病灶分类系统，包括以下模块：

数据搜集模块：搜集多个包含病灶的CT图像上同一个病灶的分割和分类结果，得到专家标注的分割结果和专家标注的分类结果；将专家标注的分割结果和分类结果称为真值，本系统的真值可以是由多个不同放射科医生给出的分割结果和分类结果，也可以是搜集到的由不同的分类系统或分类方法得到并且被验证过的分割结果和分类结果，该真值数据库可以不断迭代修正，使本系统基于该真值数据库的训练和预测结果也可以不断通过机器学习进而得以不断修正、提高预测准确率；鉴于医学图像内在的歧义性，不论是多位医生对于同一个病灶的分割和分类结果，还是由不同的分类系统预测得到的同一个病灶的分割和分类结果通常是不一致的，因此，包含病灶的CT图像上同一个病灶的多个分割和分类结果是具有模糊性的专家标注，所述多个通常大于等于3个；

数据表征模块：以深度卷积神经网络为主干，使用多层三维卷积层和池化层对预处理过的CT三维数据

进行下采样，其中

代表实数集，D×H×W代表输入大小：深度×高度×宽度，得到特征图

，其中R代表实数集，代表得到的特征图的大小：深度×高度×宽度，c代表该特征图的通道数；在特征图F上通过反卷积层上采样得到分割特征图

，其中c_seg代表该分割特征图的通道数；

模糊先验采样模块：采用模糊先验网络APN对预处理过的CT三维数据I进行模糊先验采样，所述模糊先验网络APN主体采用和数据表征模块中的深度卷积神经网络一致的结构，通过控制输出层通道数，使其输出为两个长度为的向量

，其中

代表某个正态分布的均值和方差，从该分布中实现概率分布采样得到模糊分布采样

，其中，A为模糊先验采样，

其中，f_Ambig代表重参数化函数，

则为一个独立标准正态分布采样出来的高斯噪声；

病灶分割输出模块：将模糊先验采样A与数据表征模块中的分割特征图F_seg上每个体素进行点对点的通道拼接得到，再将

经过一层卷积层卷积和sigmoid得到预测的病灶分割结果；

病灶分类输出模块：将特征图

直接经过全局池化层，即可得到病灶的唯一表征；将模糊先验采样A与F_clf拼接，拼接结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割输出模块和病灶分类输出模块；

验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，在病灶分类输出模块得到测试集的分类结果。

进一步地，为了去除病灶周边像素对分类判断的干扰，进一步得到病灶的本质表征，本发明提出了非局部形状分析模块对病灶特征进行处理，并对病灶分类输出模块、训练模块和验证/测试模块进行了改进；所述病灶分类系统还包括非局部形状分析模块：将数据表征模块中得到的特征图

线性插值成原始CT三维数据大小

，按照病灶分割结果Y_seg提取中病灶区域各个体素对应的特征，构建特征向量集合，即特征云X，其中每个特征向量来自于病灶CT中一个体素对应的特征，所述病灶分割结果Y_seg为专家标注的病灶分割结果或本系统预测的病灶分割结果O_seg；设病灶分割结果Y_seg的体积是N个体素，则特征云

的转置；为了克服单次的点积注意力机制的不足，本发明提出采用非局部形状分析模块对Attn(X)进行多次特征转换和处理，具体公式为：

其中，NSAM(X)为非局部形状分析模块转换后的特征云，

为可学习的参数权重，GN代表群正规化的操作，g代表通道分组数；，且NSAM(X)和输入X的维度保持一致；经过多层的NSAM操作，即

，得到转换后的特征云；所述非局部形状分析模块置于病灶分割输出模块之后，病灶分类输出模块之前；在病灶分类输出模块中，将非局部形状分析模块得到的转换后的特征云输入全局平均池化层，得到病灶的唯一表征

，将模糊先验采样A与病灶表征F_clf拼接，再将拼接结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，在病灶分类输出模块得到测试集的分类结果。

进一步地，所述数据表征模块中，所述深度卷积神经网络可以为DenseSharp（DenseSharp神经网络的具体内容可参见文献：Zhao W, Yang J, et al. 3D deeplearning from CT scans predicts tumor invasiveness of subcentimeter pulmonaryadenocarcinomas[J]. Cancer research, 2018, 78(24): 6881-6889）、ResNet、VGG或Inception等。

进一步地，在训练模块中，所述分类损失函为交叉熵损失函数, 所述分割损失函数为Dice损失函数。

本发明以已有的深度卷积神经网络为基础，通过加入模糊先验采样模块和/或非局部形状分析模块，优化了传统的深度卷积神经网络，实现了比传统深度卷积神经网络分类更优的分类系统。本分类系统通过提取医学图像上病灶的特征云，去除了病灶周边像素对分类判断的干扰，通过本发明提出的非局部形状分析模块对特征云进行处理，得到病灶的本质表征，通过模糊先验网络建模不同医生标注的分布，显示建模了医生标注的歧义性，使模型训练的分类结果具有更好的鲁棒性，实现了更高的分类精度。因此，本发明提出的基于深度学习与概率影像组学的病灶分类系统作为一种计算机辅助分类手段，具有较高的分类准确率，可为医生开展各类病灶的临床诊断提供有价值的参考信息。

附图说明

图1为本发明实施例1所述病灶分类系统框图；

图2为DenseSharp神经网络特征提取算法模型示意图；

图3为本发明实施例1所述DenseSharp+网络算法模型示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本实施例中，本发明提出一种对肺结节的肺部CT图像进行分类的病灶分类系统。本发明的适用范围不局限于肺结节，也适用于其他病灶（如肿块等）的分类。

本发明提出的基于深度学习与概率影像组学的病灶分类系统整体框架如图1所示，包括：

数据搜集模块：采用肺结节公开数据集LIDC-IDRI（Armato SG III, et al.: TheLung Image Database Consortium (LIDC) and Image Database Resource Initiative(IDRI): A completed reference database of lung nodules on CT scans. MedicalPhysics, 38: 915--931, 2011），该公开数据集包含2635个结节，其中每个研究实例都由4位经验丰富的放射科医生进行标注，由4位医生对全部2635个结节的CT图像上同一个病灶进行分类和分割，得到具有模糊性的专家标注（由该公开数据集提供）。

预处理模块：对数据集中包含肺结节的CT图像进行预处理，将包含肺结节的CT图像间隔重采样为1mm×1mm×1mm的统一规格，利用式（一）对图像进行归一化操作：

（一）

围绕以肺结节质心为中心的感兴趣区域将图像裁剪为32mm×32mm×32mm大小，对数据进行翻转、镜像处理，得到增强后的数据集，构成该数据集的每一个样本为CT三维数据I。

将增强后的2635个结节数据按照8：1：1的比例划分为训练集、验证集和测试集，即训练集2108例，验证集264例，测试集263例，所述测试集即为待分类的肺结节CT图像数据。

数据表征模块：对预处理模块中得到的增强后的数据集进行进一步处理。

子模块1：以基于3D-DenseNet的 DenseSharp 神经网络为主干（DenseSharp 神经网络是一个可同时进行3D数据分类和分割的多任务网络，DenseSharp神经网络特征提取算法模型如图2所示），使用三个基于密集连接的 Dense Block （关于Dense Block的结构，参见文献：Huang, Gao, et al. Densely connected convolutional networks. CVPR,2017）对预处理过的CT三维数据（其大小是32×32×32×1）进行下采样，输出尺寸为4×4×4×16的特征图F，其中4×4×4代表该特征图的深度×高度×宽度，并且该特征图的通道数为16。

子模块2：在子模块1的基础上，进行三次反卷积层上采样使特征图F恢复到原始图像大小，得到分割特征图F_seg，该特征图大小是32×32×32×64，其中32×32×32代表原始图像大小，64为该特征图的通道数。按照上述说明方式构建数据表征模块中的DenseSharp神经网络，该网络的可学习参数量为2.2M。

模糊先验采样模块：该模块与数据表征模块并行，输入仍是预处理模块中得到的增强后的结节数据，采用本发明提出的模糊先验网络APN，对具有模糊性的专家标注的歧义性分布进行建模。模糊先验网络APN的主体采用和数据表征模块的DenseSharp神经网络一致的结构。具体内容如下：

子模块3：将预处理模块得到的增强后的结节数据输入模糊先验网络APN，通过控制输出层通道数，使其输出为两个长度为

的向量

，其中

代表某个正态分布

的均值和方差；从该分布中实现概率分布采样得到模糊先验采样

，其中，A为模糊先验采样，

代表该模糊先验采样的维度；本发明引入重参数化（reparameterization）技巧，使模糊先验网络APN能够端到端反向传播，如公式（二）所示：

（二）

其中，f_Ambig代表重参数化函数，

则为一个独立标准正态分布采样出来的高斯噪声。在本实施例中，

，即

均为长度为6的向量，这代表模糊先验采样A也是一个长度为6的向量。

病灶分割输出模块：将模糊先验采样A（长度为6）与上述数据表征模块中的分割特征图F_seg（大小为32×32×32×64）上每个体素进行点对点的通道拼接得到

。在本实施例中，该特征图

的大小是32×32×32×70，经过1×1×1卷积和sigmoid得到本系统预测的病灶分割结果

。

非局部形状分析模块：将数据表征模块中得到特征图F转换成特征云，具体内容如下：

子模块4：将子模块1中得到的特征图F线性插值成原始CT三维数据大小32×32×32，记为特征图

，利用专家标注的病灶分割结果或病灶分割输出模块中得到的本系统预测的病灶分割结果O_seg，在本发明中统称为病灶分割结果Y_seg，按照病灶分割结果Y_seg对

的每个体素进行点对点的索引，提取中病灶区域每一个体素对应的特征图，构建特征向量集合X，本发明中称之为特征云。在本实施例中，特征云X为N×16维向量，其中N代表该病灶的体积（即体素个数）。

子模块5：采用点积注意力机制对特征云进行处理，具体公式如公式（三）所示，

（三）

其中，Attn(X)为点积注意力机制，act为ReLU函数，X^T代表

的转置；进一步采用非局部形状分析模块对Attn(X)进行多次特征转换和处理，具体公式如公式（四）所示：

（四）

其中，NSAM(X)为非局部形状分析模块转换后的特征云，

为可学习的参数权重，GN代表群正规化的操作，g代表分组数，本实施例中g=4。由公式（四）重复进行3次特征转换和处理，得到3次转换后的特征云。

病灶分类输出模块：将子模块5得到的经3次转换后的特征云输入全局平均池化层，得到病灶的唯一表征，即分类的病灶表征F_clf。在本实施例中，F_clf是一个长度为16的向量（和特征云X通道数保持一致）。将模糊先验采样A（长度为6）与病灶表征F_clf（长度为16）拼接，得到一个长度为22的向量，经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数，在本实施例中c_cls=2，指结节的良性、恶性2类分类。

训练模块：在预处理过的2108例样本的训练集上，按照数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块对训练集进行处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的4个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，使用Dice损失函数作为分割损失函数，使用交叉熵损失作为分类损失函数；将分割的损失函数和分类的损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；

验证/测试模块：在预处理过的264例样本的验证集/263例样本的测试集上，按照上述得到预测的病灶分割结果和分类结果的过程得到验证集/测试集的分割结果和分类结果，并针对该预测结果，在验证集/测试集上进行ROC（Receiver operatingcharacteristic）分析来分析本分类系统性能。使用在验证集上最高的AUC来确定最佳模型用来在测试集上做分类。

本实施例中，测试集分类正确率达91.52%，ROC曲线下面积（AUC）达到0.9566，各系统的分类精度见表1所示。

表1 3D DenseNet，DenseSharp和DenseSharp+网络在本实施例上的预测精度

基于相似的数据处理流程、训练流程和验证/测试流程，本发明实施了3DDenseNet和DenseSharp作为对比参考，其中，3D DenseNet预测的分类结果是未使用专家标注的病灶分割情况下得到的，是本领域的常规分类方法，其准确率仅为87.82%；DenseSharp预测的分类结果是指未采用本发明所述的模糊先验采样模块和非局部形状分析模块的情况下得到的，其准确率为89.26%。本实施例中提出的基于DenseSharp+网络的分类系统，如图3所示，即在DenseSharp神经网络的基础上，增加了本发明所述的模糊先验采样模块和非局部形状分析模块后，在对结节的分类上较已有的两种常规方法均具有更高的准确性，可以达到91.52%的准确率。

将本系统继续应用于其他搜集到的肺结节CT图像的分类时，将待分类肺结节CT图像作为测试集，按照前述测试集的处理方式，重复运行前述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块即可得到分类结果。

Claims

1.一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，包括以下模块：

数据搜集模块：搜集多个包含病灶的CT图像上同一个病灶的分割和分类结果，得到专家标注的分割结果和专家标注的分类结果；

预处理模块：对包含病灶的CT图像进行预处理，将图像重采样为统一规格、进行数据增强，得到增强后的数据集，该数据集的每一个样本称为CT三维数据I；

进行下采样，其中R代表实数集，D×H×W代表输入大小：深度×高度×宽度，得到特征图，其中

代表得到的特征图的大小：深度×高度×宽度，c代表该特征图的通道数；在特征图F上通过反卷积层上采样得到分割特征图

，其中c_seg代表该分割特征图的通道数；

；

，按照病灶分割结果Y_seg提取

，其中c为每个体素的特征维度，采用点积注意力机制对特征云进行处理，具体公式为：

其中，Attn(X)为点积注意力机制，act为激活函数，X^T代表X的转置；进一步采用非局部形状分析模块对Attn(X)进行多次特征转换和处理，具体公式为：

其中，NSAM(X)为非局部形状分析模块转换后的特征云，

为可学习的参数权重，GN代表群正规化的操作，g代表通道分组数；，且NSAM(X)和输入X的维度保持一致；经过多层的NSAM操作得到转换后的特征云；

病灶分类输出模块：将非局部形状分析模块中经多层转换后的特征云输入全局平均池化层，得到病灶的唯一表征

；将病灶的唯一表征

经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；

验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，得到测试集的分类结果。

2.如权利要求1所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述病灶分类系统还包括模糊先验采样模块：采用模糊先验网络APN对预处理过的CT三维数据I进行模糊先验采样，所述模糊先验网络APN主体采用和数据表征模块中的深度卷积神经网络一致的结构，通过控制输出层通道数，使其输出为两个长度为

的向量

，其中

代表某个正态分布的均值和方差，从该正态分布中实现概率分布采样得到模糊分布采样

，其中，A为模糊先验采样，

其中，f_Ambig代表重参数化函数，

则为一个独立标准正态分布采样出来的高斯噪声；所述模糊先验采样模块置于预处理模块之后，病灶分割输出模块之前；

所述病灶分割输出模块中，先将模糊先验采样A与数据表征模块中的分割特征图F_seg上每个体素进行点对点的通道拼接得到

，再将

经过一层卷积层卷积和sigmoid得到预测的病灶分割结果

；

所述病灶分类输出模块中，将非局部形状分析模块中经多层转换后的特征云输入全局平均池化层，得到病灶的唯一表征

；将模糊先验采样A与病灶的唯一表征F_clf拼接，再将拼接后的结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块；

验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块、非局部形状分析模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，得到测试集的分类结果。

3.如权利要求1或2所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述数据表征模块为：所述深度卷积神经网络为DenseSharp神经网络，以DenseSharp神经网络为主干，使用三个基于密集连接的 Dense Block 对预处理过的CT三维数据

，

，其中c_seg代表该分割特征图的通道数。

4.如权利要求1或2所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述训练模块中，所述分类损失函数为交叉熵损失函数, 所述分割损失函数为Dice损失函数。

5.一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，包括以下模块：

数据表征模块：使用深度卷积神经网络作为数据表征模块的主干，使用多层三维卷积层和池化层对预处理过CT三维数据

，

，其中c_seg代表该分割特征图的通道数；

模糊先验采样模块：采用模糊先验网络APN对预处理过的CT三维数据I进行模糊先验采样，所述模糊先验网络APN主体采用和数据表征模块中的深度卷积神经网络一致的结构，通过控制输出层通道数，使其输出为两个长度为

的向量

，其中

代表某个正态分布

的均值和方差，从该正态分布中实现概率分布采样得到模糊分布采样

，其中，A为模糊先验采样，代表该模糊先验采样的维度；采用重参数化技巧使模糊先验网络能够端到端反向传播，公式为：

其中，f_Ambig代表重参数化函数，

则为一个独立标准正态分布采样出来的高斯噪声；

病灶分割输出模块：将模糊先验采样A与数据表征模块中的分割特征图F_seg上每个体素进行点对点的通道拼接得到

，再将

经过一层卷积层卷积和sigmoid得到预测的病灶分割结果

；

病灶分类输出模块：将特征图F直接经过全局池化层，即可得到病灶的唯一表征；将模糊先验采样A与F_clf拼接，拼接结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

训练模块：以包含有一部分专家标注的分割结果和专家标注的分类结果的病灶CT图像作为训练集，在训练集上，按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块和病灶分类输出模块处理，得到预测的病灶分割结果O_seg和病灶分类结果O_cls，预测的病灶分割结果O_seg和病灶分类结果O_cls对应的真值采样自数据搜集模块中同一个病灶对应的多个专家标注中随机的任意一个；结合专家标注的分割结果和分类结果，将分割损失函数和分类损失函数相加，联合训练数据表征模块、模糊先验采样模块、病灶分割和分类输出模块；

验证/测试模块：以另一部分包含有专家标注的分割结果和专家标注的分类结果的病灶CT图像作为验证集，将待测试的病灶CT图像作为测试集，在验证集/测试集上，分别按照所述预处理模块、数据表征模块、模糊先验采样模块、病灶分割输出模块和病灶分类输出模块处理，使用在验证集上具有最高AUC值的模型用来在测试集上做测试，得到测试集的分类结果。

6.如权利要求5所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述病灶分类系统还包括非局部形状分析模块：将特征图F线性插值成原始CT三维数据大小

，按照病灶分割结果Y_seg提取

其中，Attn(X)为点积注意力机制，act为激活函数，X^T代表X的转置；进一步对Attn(X)进行多次特征转换和处理，具体公式为：

其中，NSAM(X)为非局部形状分析模块转换后的特征云，

为可学习的参数权重，GN代表群正规化的操作，g代表通道分组数；

，且NSAM(X)和输入X的维度保持一致；经过多层的NSAM操作得到转换后的特征云；所述非局部形状分析模块置于病灶分割输出模块之后，病灶分类输出模块之前；

病灶分类输出模块中，将非局部形状分析模块中经多层转换后的特征云输入全局平均池化层，得到病灶的唯一表征，将模糊先验采样A与病灶的唯一表征F_clf拼接，再将拼接结果经过全连接层和softmax激活函数，得到病灶分类结果

，其中c_cls代表病灶分类的类别数；

7.如权利要求5或6所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述数据表征模块为：所述深度卷积神经网络为DenseSharp神经网络，以DenseSharp神经网络为主干，使用三个基于密集连接的 Dense Block 对预处理过的CT三维数据

，

，其中c_seg代表该分割特征图的通道数。

8.如权利要求5或6所述的一种基于深度学习与概率影像组学的病灶分类系统，其特征在于，所述训练模块中，所述分类损失函数为交叉熵损失函数，所述分割损失函数为Dice损失函数。