CN111767952A

CN111767952A - 一种可解释的肺结节良恶性分类方法

Info

Publication number: CN111767952A
Application number: CN202010608458.0A
Authority: CN
Inventors: 张小洪; 陈伟; 张祥博; 刘晨; 周宏�; 杨露; 李雨聪; 温浩
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111767952B

Abstract

本发明涉及一种可解释的肺结节良恶性分类方法，具体包括：S1、首先将肺结节的各医学征象进行划分，构建医学征象谱；S2、然后利用传统图像特征方法提取肺结节特征集，即图像特征谱；S3、通过对抗学习的医学征象和图像特征谱映射网络，来建立医学征象谱与肺结节图像特征的映射关系；S4、构建可解释的CNN的征象属性学习和分类诊断联合优化网络模型，最终通过设计可解释的卷积神经网络学习获得结节征象属性和良恶性的分类。本发明利用传统图像特征方法提取肺结节特征集，即图像特征谱，并建立医学征象谱与图像特征谱之间的内在关系，然后设计可解释的卷积神经网络进行的结节征象属性学习和良恶性预测，为结节的预测结果提供可解释性。

Description

一种可解释的肺结节良恶性分类方法

技术领域

本发明涉及肺结辅助诊断良恶性分类的技术领域，特别涉及一种可解释的肺结节良恶性分类方法。

背景技术

肺结节辅助诊断在临床实践中面临诸多瓶颈。肺结节筛查用于肺癌早期防控的形势依然严峻。我国患肺癌人数多，发病率高，医疗花费大。按发病人数顺位排序，肺癌占所有癌症的20.3％，位居恶性肿瘤发病首位。据国家肿瘤质控中心发布的《2019年全国癌症报告》，恶性肿瘤死亡高达居民全部死因的23.91％，且近十几年来恶性肿瘤的发病死亡呈持续上升态势,每年恶性肿瘤所致的医疗花费超过2200亿。

近几年，随着深度学习相关技术的发展，深度学习智能技术辅助肺结节筛查为严峻的肺癌防控工作带来了新机遇。自深度学习技术应用于医学影像以来，在肺癌防控强烈需求驱动下，肺结节计算机辅助筛查技术表现出深度学习、数据驱动、特征自学习、处理端到端等新特征。肺结节计算机辅助诊断系统的工作流程可以大致分为结节检测、假阳性去除、结节分割以及结节良恶性分类。结节的良恶性分类是在检测、假阳性去除和分割的基础之上，对结节的良恶性做出最终判断，是必不可少也是至关重要的一个环节。医生可以综合辅助诊断系统的结果和临床经验，快速做出诊断结果，所以精准的辅助分类结果可以大幅减少医生的诊断时间。但是肺结节辅助诊断在临床实践中面临诸多瓶颈，其中最重要的一点就是现有的辅助诊断系统可解释性较差，对肺结节关键属性特征提取能力较差，诊断结果脱离专家共识，难于被医生理解，导致医生“会用，但是不敢用”。这严重制约了影像辅助诊断系统在实际推广过程中的应用，导致了肺结节辅助诊断系统在科研、概念上火热，在临床应用中不温不火的尴尬境地。因此，无论是过去的探索期，还是现在的发展期，对肺结节的良性分类以及分类可解释研究依然是一门热门的研究内容。本发明设计了一种具有可解释性良恶性分类方法，为提高肺结节辅助诊断系统的可用性提供理论和技术支撑。

肺结节良恶性分类的可解释性是指算法能同时给出诊断结果和相应的医学征象判定。提供可解释的良恶性诊断结果是保证医生和病人可用、敢用的重要前提。但是现有的研究对模型构建研究多，对模型的可解释性表征学习研究少。传统的肺结节辅助诊断，运用深度学习方法提高计算机辅助医学影像诊断的能力。目前已经有一些工作利用大规模的数据训练深度学习模型，使得模型能够达到甚至超过医生的诊断水平。然而，它是像一个“黑箱”，只能看到输入输出，看不到内部的结构原理。在临床实践中，要让计算机系统能真正有效地辅助医生进行诊断，则系统的输出结果必须让医生理解和信服。此外，结节的各个属性特征是支撑良恶性分类判断的重要依据，但肺结节单任务分类模型并没有综合利用结节的各属性特征信息，导致现有的分类模型的准确率还有较大的提升空间，因此有必要设计结节特征提取和良恶性分类联合优化模型，以提升模型的表现，同时结合专家共识对肺结节属性特征进行完整的提取，构建用于辅助医生依据医学影像做出诊断的语义特征集，即医学征象谱，用于定性描述或解释肺结节良恶分类和恶性等级分级，以提高分类效果。

发明内容

针对现有技术存在的上述问题，本发明的要解决的技术问题是：现有肺结节辅助诊断系统可解释低，导致医生不敢用的问题，以及单任务结节良恶性分类没有综合利用到结节各个属性的问题，最终导致分类效果差。

如何解决上述问题：首先利用传统图像特征方法提取肺结节特征集，即图像特征谱，用于定量刻画肺结节的像素、纹理、空间和形态特征，并建立医学征象谱与图像特征谱之间的内在关系，然后设计可解释的卷积神经网络进行的结节征象属性学习和良恶性预测，具体通过先建立肺结节医学征象谱和影像特征谱的映射关系，以及设计影像特征自动提取的方法，联合优化结节特征提取和良恶性分类诊断2个子任务，在提升属性预测、良恶性预测准确率的同时，为结节的预测结果提供可解释性。

本发明公开了一种可解释的肺结节良恶性分类方法，具体包括以下步骤：

S1、首先将肺结节的各医学征象进行划分，构建医学征象谱；

S2、然后利用传统图像特征方法提取肺结节特征集，即图像特征谱，用于定量刻画肺结节的像素特征、纹理特征、空间特征和形态特征；

S3、通过对抗学习的医学征象和图像特征谱映射网络，来建立医学征象谱与肺结节图像特征的映射关系，具体包括以下步骤：

S3-1、将模型的输入定义为医学征象X，利用可学习的参数W和V，然后加权融合并生成医学征象：具体通过利用可学习的参数W先获得图像特征Y，然后利用可学习的参数V合成医学特征X'；

S3-2、然后利用卷积网络构建判别器，评价合成的医学特征X'是否能够真实的反应相关的医学征象X，将合成的医学特征作为损失函数，使用训练神经网络方法中的梯度下降算法进行训练调参最终获得医学征象谱与肺结节图像特征的映射关系，具体公式如下：

X'＝F(X,W,V|Y₀,Y₁,L,Y_m) (1)；

Loss＝Dis(X,X') (2)；

其中，F表示特征选择网络，X表示需要进行映射的医学征象，W和V表示可学习的权重为预设的常数m表示自然数，Y₀-Y_m表示m个手工构建的传统图像特征，Dis表示判别器模型，图像特征选择网络以医学征象X为输入，利用基于神经网络的特征映射层，选择合适的图像特征Y₀-Y_m来表达医学征象X'；Loss表示损失函数；

S4、构建可解释的CNN的征象属性学习和分类诊断联合优化网络模型，最终通过设计可解释的卷积神经网络学习获得结节征象属性和良恶性的分类，具体根据以下步骤获得：

S4-1、针对易于学习的医学征象，先利用现有的多分枝的深度学习网络来提取特征的方法步骤进行学习；

S4-2、针对不易学习的医学征象，可利用步骤S3中已经学习到的映射关系，完成这部分医学征象的提取特征；

S4-3、最后，再利用多层感知机进行优化，融合步骤S4-1和S4-2的组合学习的模式提取医学征象，然后学习得到每一个医学征象的重要性，对每一个医学征象赋予相应的权重，并作为诊断依据，最终给出精确的诊断结果，作为输出。

作为优选，为了提高检测精度，在步骤S4构建的可解释的CNN的征象属性学习和分类诊断联合优化网络模型过程中以肺结节影像作为输入，然后根据步骤S4-1和S4-2进行属性分类学习，分类学习过程中对易于提取的特征，就用卷积方法提取，难于提取的特征利用S3学习到的映射关系进行提取，也就是对难于提取的特征使用传统方法进行特征提取，并生成特定的医学征象，同时每一个卷积分枝都由卷积神经网络构成，在完成医学征象的提取后，将医学征象转换成维度相同的向量用S表示，为每一个医学征象设置一个学习权重，构成权重矩阵W，加权融合后输入多层感知机，并训练学习诊断过程。所述的CNN就是卷积神经网络的缩写。

作为优选，为了方便学习，对于每一个医学征象来说其在诊断过程中的重要性由与其自身对应的权重矩阵W的均值决定，最后将各医学征象按照权重大小排序输出，获得最终的诊断结果，具体计算公式如下：

A{a₁,a₂,L,a_n}＝C(X)+T(X) (3)；

σ＝D(∑a_i·W_i) (4)；

其中，C和T分别表示深度学习分枝和现有的深度学习网络方法分枝，A为两种分枝所提取的所有医学征象，D表示综合决策过程，包含了权重优化选择和多层感知机，σ为诊断结果，X表示需要进行映射的医学征象；其中，a_i表示第i个医学特征，W表示其对应的权重矩阵，i表示自然数。

作为优选，为了方便学习，在计算诊断结果的过程中还需要考虑损失函数，所述损失函数的计算公式如下：

Loss＝λ₁Cr(attri)+λ₂Cr(mali)+λ₃Top3(attti) (5)；

其中，λ₁，λ₂和λ₃为三个可训练的权重，Cr(attri)是计算医学征象提取的交叉熵损失，Cr(malig)是计算诊断结果的交叉熵损失，Top3(attri)是关键医学征象Top3损失，由预测的征象排名和实际的征象排名计算最小平方误差后获得。

本发明得到的一种可解释的肺结节良恶性分类方法的优点是利用传统图像特征方法提取肺结节特征集，然后并建立医学征象谱与图像特征谱之间的内在关系，然后设计可解释的卷积神经网络进行的结节征象属性学习和良恶性预测，具体通过先建立肺结节医学征象谱和影像特征谱的映射关系，以及设计影像特征自动提取的方法，联合优化结节特征提取和良恶性分类诊断2个子任务，在提升属性预测、良恶性预测准确率的同时，为结节的预测结果提供可解释性，最终实现一方面缓解了现有辅助诊断系统可解释性不足，医生不敢用的尴尬境地，另一方面通过属性学习和良恶性联合调优，在良恶性分类和属性预测中都取得了优异效果。

附图说明

图1为本发明医学征象与图像特征的映射过程图；

图2为本发明的特征映射网络图；

图3为基于CNN的征象属性学习和分类诊断联合优化网络模型图。

具体实施方式

下面对本发明作进一步详细说明。

实施例1：参见图1-图3，本实施例公开了一种可解释的肺结节良恶性分类方法，首先利用传统图像特征方法提取肺结节特征集，即图像特征谱，用于定量刻画肺结节的像素、纹理、空间和形态特征，并建立医学征象谱与图像特征谱之间的内在关系，然后设计可解释的卷积神经网络进行的结节征象属性学习和良恶性预测，具体通过先建立肺结节医学征象谱和影像特征谱的映射关系，以及设计影像特征自动提取的方法，联合优化结节特征提取和良恶性分类诊断2个子任务，在提升属性预测、良恶性预测准确率的同时，为结节的预测结果提供可解释性。

具体包括以下步骤：

S3-1、将模型的输入定义为医学征象X，利用可学习的参数W和V，然后加权融合并生成医学征象：具体通过利用可学习的先获得图像特征Y，然后利用可学习的参数合成医学特征X'；

S3-2、然后利用卷积网络构建判别器，评价合成的医学特征X'是否能够真实的反应相关的医学征象X，将合成的医学特征X'作为损失函数，使用训练神经网络方法中的梯度下降算法进行训练调参最终获得医学征象谱与肺结节图像特征的映射关系，具体公式如下：

X'＝F(X,W,V|Y₀,Y₁,L,Y_m) (1)；

Loss＝Dis(X,X') (2)；

其中损失函数是判别器的分类精准度，本发明使用采用交叉熵作为损失函数。利用对抗学习的思想，以期望映射的特征尽可能地“欺骗”卷积判别器Dis，判别器损失越低，生成的X就越接近X'，W和V就越能够准确的刻画映射的过程；

S4-1、针对易于学习的医学征象，先利用现有的多分枝的深度学习网络来提取特征的方法步骤进行学习(即采用传统图像特征方法来学习)；

作为优选，为了提高检测精度，在步骤S4构建的可解释的CNN的征象属性学习和分类诊断联合优化网络模型过程中以肺结节影像作为输入，然后根据步骤S4-1和S4-2进行属性分类学习，分类学习过程中对易于提取的特征，就用卷积方法提取，难于提取的特征利用S3学习到的映射关系进行提取，也就是对难于提取的特征使用传统方法进行特征提取，并生成特定的医学征象，同时每一个卷积分枝都由卷积神经网络构成，在完成医学征象的提取后，将医学征象转换成维度相同的向量用S表示(方便后续网络输入维度统一的设定)，为每一个医学征象设置一个学习权重，构成权重矩阵W，加权融合后输入多层感知机，并训练学习诊断过程。所述的CNN就是卷积神经网络的缩写。

A{a₁,a₂,L,a_n}＝C(X)+T(X) (3)；

σ＝D(∑a_i·W_i) (4)；

Loss＝λ₁Cr(attri)+λ₂Cr(mali)+λ₃Top3(attti) (5)；

在构建医学征象谱中根据专家共识将肺结节的各医学征象划分为3大类，就是一个划分过程，见图一右侧；

医学征象谱是医生根据医学影像做出诊断的语义特征集，用于定性描述或解释肺结节良恶分类和恶性等级分级。本发明根据肺结节专家共识，首先将医学征象划分为形状特征、边缘特征和纹理特征，然后将结节的各征象依次归类到这3类中；

其中，形状特征包括肺结节的直径、面积、圆形度等征象；边缘特征包括肺结节与肺部组织相结合的毛刺征、分叶征、球状凸起、胸膜凹陷、棘状突起和晕征等征象；纹理特征包括反映肺结节自身特征的磨玻璃状、空洞等征象；

然后在构建图像特征谱中利用传统图像特征方法从医学征象谱提取结节各特征，以构建图像特征谱，用于定量刻画肺结节的像素、纹理、空间和形态特征，本发明利用传统图像特征提取方法，提取并量化肺结节的像素特征、纹理特征、空间特征和形态特征，构建图像特征谱：具体步骤如下：

首先，使用直方灰度图、区域灰度图、像素均匀程度提取像素特征；

其次，纹理特征主要是一些纹理描述方法，使用提取边界区域特征的边缘区域灰度值，多尺度方向提取特征的Gabor小波(属于现有技术，故此不做具体描述)，刻画内外部纹理复杂程度的灰度共生矩阵等方法提取结节的纹理特征；

再次，空间特征主要是关于肺结节位置信息的一些特征，比如邻近切片信息等。我们使用欧氏距离、曼哈顿距离和切比雪夫距离计算当前切片与其上、下切片相应区域的特征向量的相似度，以提取出结节的空间特征；

最后，形态特征则主要包含大小形态，边界弯曲程度、对称度、关键点、分形维数等。首先使用大津法进行图像分割，接着进行区域边界标记，找到边界曲线最大的作为肺结节所在区域，然后获得轮廓关键点，得到轮廓关键点序列，根据关键点序列得到结节的关键点个数、最小凹角、分叶等级、毛刺等级等特征，见图一左侧部分；

本实施例的公式5中的模型损失函数分为三个部分，第一个部分为医学征象提取损失，利用预测结果的损失衡量医学征象提取的准确率；第二个部分为良恶性诊断的准确率；第三个部分为关键医学征象损失，由于很难对关键医学征象进行排序，因此这部分采用top3准确率来衡量，即前三重要的征象预测准确率。其中，医学征象提取损失越小，其提取精度就越高；诊断的准确率和关键医学征象top3准确率越高，模型对于各个属性在诊断过程中的影响因素就把握的越好。

本实施例选择目前最大的公开数据集LIDC-IDRI(数据集名字，为现有公知数据集)验证方法的先进性。LIDC-IDRI数据集里共包含1010个患者的1018个胸部扫描CT序列，并且每个CT序列都至少由1位经验丰富的放射科医生标注结节的良恶性和各属性信息，共包含检测难度、圆形度、边缘、分叶征、毛刺征、纹理、钙化、内部组织等8种结节属性特征信息，每一种属性特性都分为六个等级，等级越高表示结节的该种属性特征越明显。因内部结构包括软组织、液体、脂肪和空气四类，数据集中大部分结节为软组织、数值不连续且对良恶性分类结果的关联性较低，所以在本实施例中不考虑该属性。数据集中的属性分布情况如下表：

实验预处理中，我们抽取出每个结节的中心切片，然后以结节为中心裁剪出128*128大小的图片作为数据集。预处理之后，数据集中共计2616张结节图片用于模型训练和测试。我们随机按照7:3的比例划分训练集和测试集，共1831张图片用于模型训练，785张图片用于模型测试。我们使用等级3作为正负样本划分的阈值，将每个属性大于3的样本划分为正例，小于等于3的划分为负例。

评价指标为准确率Accuracy、敏感度Sensitivity和特异性Specificity。使用P表示正例，N表示负例；使用TP表示被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；FP表示被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；FN表示被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；TN表示被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。则准确率基于公式Accuracy＝(TP+TN)/(P+N)计算,灵敏度基于公式Sensitivity＝TP/P计算，特异性基于公式Specificity＝TN/N计算。

为了使得本发明的性能达到最优，首先对模型的学习率(learning rate)和优化器(optimizer)进行优化和选择。通过对比实验发现，最优参数组合为学习率设置为0.0001，优化器设置为Adam(优化器名字，没有中文)。我们在实验过程中使用提前终止(early stop)策略防止模型的过拟合。实验结果见下表：

为了进一步验证本实施例的有效性，我们将实验结果同2项有代表性的肺结节可解释工作的结果进行了对比，他们分别是：

HSCNN：现有的一种肺结节良恶性和属性分类的3D可解释卷积神经网络

X-Caps：现有的一种胶囊网络进行肺结节良恶性和属性分类

对比结果如下：

通过对比实验发现，得益于出色的属性特性学习，本发明的良恶性分类准确率大幅超越了同类方法。同时在7种属性的预测结果中，本发明在纹理、毛刺征、分叶征、边缘、球形度、钙化属性的预测上都取得了最高值。值得说明的是，本发明与HSCNN方法都是基于卷积神经网络的分类方法，但我们方法的实验效果远优于HSCNN，充分说明本发明的优越性。同时得益于联合调优以及传统算法的特征提取，本发明模型的参数量远小于HSCNN和X-Caps，大幅降低了模型的训练时间以及在实际临床应用中需要的诊断时间。

简而言之，本实施例提出了一种具有可解释性的肺结节良恶性分类方法，一方面缓解了现有辅助诊断系统可解释性不足，医生不敢用的尴尬境地，另一方面通过属性学习和良恶性联合调优，在良恶性分类和属性预测中都取得了优异效果。本发明可以运用至实际的医疗场景，为减轻医生的工作做出贡献，因此本发明的创新点是利用传统图像特征方法提取肺结节特征集，即图像特征谱，用于定量刻画肺结节的像素、纹理、空间和形态特征，并建立医学征象谱与图像特征谱之间的内在关系，然后设计可解释的卷积神经网络进行的结节征象属性学习和良恶性预测，具体通过先建立肺结节医学征象谱和影像特征谱的映射关系，以及设计影像特征自动提取的方法，联合优化结节特征提取和良恶性分类诊断2个子任务，在提升属性预测、良恶性预测准确率的同时，为结节的预测结果提供可解释性。

最后说明的是，上述实施案例只是用以阐明本发明的技术方案而非限制。本领域的普通技术人员可以通过对本发明的理解，从形式上或者细节上对其进行改变和扩展，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种可解释的肺结节良恶性分类方法，其特征在于：具体包括以下步骤：

S3、通过对抗学习的医学征象和图像特征谱映射网络，来建立医学征象谱与肺结节图像特征的映射关系；

2.根据权利要求1所述的一种可解释的肺结节良恶性分类方法，其特征在于：所述步骤S3的具体包括以下步骤：

X'＝F(X,W,V|Y₀,Y₁,L,Y_m) (1)；

Loss＝Dis(X,X') (2)；

其中，F表示特征选择网络，X表示需要进行映射的医学征象，W和V表示可学习的权重为预设的常数m表示自然数，Y₀-Y_m表示m个手工构建的传统图像特征，Dis表示判别器模型，图像特征选择网络以医学征象X为输入，利用基于神经网络的特征映射层，选择合适的图像特征Y₀-Y_m来表达医学征象X'；Loss表示损失函数。

3.根据权利要求1所述的一种可解释的肺结节良恶性分类方法，其特征在于：在步骤S4构建的可解释的CNN的征象属性学习和分类诊断联合优化网络模型过程中以肺结节影像作为输入，然后根据步骤S4-1和S4-2进行属性分类学习，分类学习过程中对易于提取的特征，就用卷积方法提取，难于提取的特征利用S3学习到的映射关系进行提取，也就是对难于提取的特征使用传统方法进行特征提取，并生成特定的医学征象，同时每一个卷积分枝都由卷积神经网络构成，在完成医学征象的提取后，将医学征象转换成维度相同的向量用S表示，为每一个医学征象设置一个学习权重，构成权重矩阵W，加权融合后输入多层感知机，并训练学习诊断过程。

4.根据权利要求3所述的一种可解释的肺结节良恶性分类方法，其特征在于：对于每一个医学征象来说其在诊断过程中的重要性由与其自身对应的权重矩阵W的均值决定，最后将各医学征象按照权重大小排序输出，获得最终的诊断结果，具体计算公式如下：

A{a₁,a₂,L,a_n}＝C(X)+T(X) (3)；

σ＝D(∑a_i·W_i) (4)；

5.根据权利要求4所述的一种可解释的肺结节良恶性分类方法，其特征在于：在计算诊断结果σ的过程中还需要考虑损失函数，所述损失函数的计算公式如下：

Loss＝λ₁Cr(attri)+λ₂Cr(mali)+λ₃Top3(attti) (5)；