CN111739075B

CN111739075B - 一种结合多尺度注意力的深层网络肺部纹理识别方法

Info

Publication number: CN111739075B
Application number: CN202010541939.4A
Authority: CN
Inventors: 徐睿; 叶昕辰; 丛臻
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2024-02-06
Anticipated expiration: 2040-06-15
Also published as: CN111739075A; US11551029B2; US20210390338A1

Abstract

本发明公开了一种结合多尺度注意力的深层网络肺部纹理识别方法，属于图像处理和计算机视觉领域。为了能准确识别肺部计算机断层扫描(Computed Tomography，CT)图像中弥漫性肺疾患的典型纹理，通过设计独特的注意力机制模块和多尺度特征融合模块，构建了一种结合多尺度和注意力的深层卷积神经网络，实现了弥漫性肺疾患典型纹理的高精度自动识别。此外，所提出的网络结构清晰，容易构建，易于实现。

Description

一种结合多尺度注意力的深层网络肺部纹理识别方法

技术领域

本发明属于医学图像处理和计算机视觉领域，具体涉及到一种结合多尺度注意力的深层网络肺部纹理识别方法。

背景技术

弥漫性肺疾患是指肺部区域内由于炎症或损伤等因素造成的肺间质异常纹理的总称。CT图像因为能够清晰呈现肺组织状态，常被用于该类疾病的检测。然而由于采集图像数量庞大、肺部纹理复杂等因素，即使对于经验丰富的放射线科专家，也很难准确识别不同类型的肺部纹理，造成漏诊、误诊等问题。因此，需要建立一种计算机辅助诊断(ComputerAided Diagnosis，CAD)系统，协助放射线科专家对CT图像中的肺部纹理进行准确且高效的自动诊断。建立这种CAD系统的一项关键技术，是对CT图像肺部区域中任意感兴趣区域包含的肺部纹理进行准确且高效的自动识别。

传统CT图像肺部纹理识别方法通常基于两步式，即首先人工设计能表征肺部纹理特性的特征量，随后训练能够有效区分这些特征量的分类器。因训练分类器技术相对成熟，研究人员更关注于如何设计更有表征能力的特征量，如一种基于特征袋的肺部纹理识别方法(R.Xu,Y.Hirano,R.Tachibana,and S.Kido,“Classification of diffuse lungdisease patterns on high-resolution computed tomography by a bag of wordsapproach,”in International Conference on Medical Image Computing&Computer-assisted Intervention(MICCAI),2011,p.183.)。然而，人工设计特征量有限的表征能力使得这些识别方法识别精度与CAD系统需求差距较大。

近几年，深度神经网络在图像处理领域带来了革命性影响，该技术同样被应用于肺部纹理识别中，如一种基于卷积神经网络(Convolutional Neural Network，CNN)对肺部纹理进行分类的方法(M.Anthimopoulos,S.Christodoulidis,and et.al.,“Lung patternclassification for interstitial lung diseases using a deep convolutionalneural network,”IEEE Transactions on Medical Imaging,vol.35,no.5,pp.1207–1216,2016)。这些方法大多采用常规堆叠式CNN结构或使用原本用于其他图像处理任务(如自然图像识别)的CNN结构进行迁移学习，尚未充分且直接发挥CNN在肺部纹理识别任务上的性能。虽然基于深度神经网络的方法的识别精度相比于传统方法有所提升，但是仍与CAD系统需求精度存在差距。

上述方法存在以下两个问题。第一，CT图像中肺部纹理呈现灰度和尺度信息两种放射学特征，目前用于肺部纹理识别的CNN多数仅使用灰度特征信息，尚未关注于学习肺部纹理中包含的尺度特征信息，因此需要设计并使用一种机制使CNN能够学习肺部纹理多尺度特征信息。第二，目前用于肺部纹理识别的CNN参数规模普遍较大，CNN中卷积层学习的特征图存在冗余信息，影响最终识别精度，需要设计并使用一种机制自动筛选对识别任务有益的特征图，同时自动抑制与识别任务关系较弱的特征图以降低特征图中冗余信息的影响并提升最终识别精度。

发明内容

本发明旨在克服现有技术的不足，提供了一种结合多尺度注意力的深层网络肺部纹理识别方法。该方法使用卷积模块构建基础网络，使用多尺度特征融合模块学习肺部纹理的多尺度特征信息，使用注意力机制模块自动筛选对识别任务有益的特征同时抑制与识别关系较弱的特征，实现肺部纹理的高精度自动识别。

本发明的具体技术方案为，一种结合多尺度注意力的深层网络肺部纹理识别方法，包括下列步骤：

1)初始数据准备：初始数据包括用于训练和测试的肺部纹理CT图像块和对应类别标签。

2)识别网络构建：使用卷积和残差模块构建基础网络，使用多尺度特征融合模块学习肺部纹理的多尺度特征信息，使用注意力机制模块自动筛选特征图，最终提升识别精度。

3)识别网络训练：基于步骤(2)得到的识别网络进行训练。

4)利用测试数据评估网络的性能。

识别网络构建，具体包括以下步骤：

2-1)识别网络由基础网络、注意力机制模块和多尺度特征融合模块构成。基础网络从不同尺度下从输入CT肺部纹理图像块学习特征信息；每个尺度学习的特征信息通过注意力机制模块自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息；不同尺度学习的特征信息最终通过多尺度特征融合模块进行融合，并给出识别结果；

2-2)网络包含若干卷积模块，每个卷积模块由深层神经网络的通用单元，即卷积层、批标准化层和整流线性单元层组成；卷积模块通过跳跃连接相连共构成若干残差模块，通过引入残差学习机制，提升特征学习效率；

2-3)网络包含若干注意力机制模块，用于从卷积模块或残差模块学习的特征信息中自动筛选出对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息；

2-4)网络在不同尺度学习的特征信息通过多尺度特征融合模块进行有效融合，并给出识别结果；

识别网络训练，具体包括以下步骤：

3-1)对参与训练的CT图像块进行在线数据扩增，具体形式包括随机翻转与随机平移。

3-2)识别网络以小批量方式，使用分类交叉熵损失函数进行训练，损失函数公式如下：

式中，L(·)表示分类交叉熵损失函数值，n表示单次批量中参与训练的CT图像块数，x表示单次批量中参与训练的CT图像块数据矩阵，∑为求和运算符，y′表示与x相对应的类别标签矩阵，log(·)表示对数运算，y表示经识别网络识别得到的x的类别标签矩阵。

3-3)通过随机梯度下降算法，使用步骤(3-2)中的损失函数优化识别网络。

本发明的有益效果是：

本发明是一种结合多尺度注意力的深层网络肺部纹理识别方法，使用卷积和残差模块构建基础网络，在三个不同的尺度下从输入CT肺部纹理图像块学习多尺度特征信息。使用注意力机制模块自动筛选出对识别任务有益的特征信息，同时抑制与识别任务关系较弱的特征信息。使用多尺度特征融合模块融合三个尺度的特征信息，并给出较高正确识别率的识别结果。该系统具有以下特点：

1、系统容易构建，识别网络只需CT肺部纹理图像块为输入即可得到较高识别准确率的识别结果；

2、程序简单，易于实现；

3、注意力机制模块能够自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息，提升识别准确率；

4、多尺度特征融合模块能够有效融合识别网络各尺度学习的多尺度特征信息，综合给出较高识别准确率的识别结果。

附图说明

图1为具体实施流程图。

图2为7类CT肺部纹理图像块样例图，其中，(a)固定型；(b)蜂窝状；(c)结节状；(d)肺气肿；(e)毛玻璃状；(f)带线条的毛玻璃状；(g)正常。

图3为识别网络结构图。

图4为注意力机制模块结构图。

图5为多尺度特征融合模块结构图。

具体实施方式

本发明提出了一种结合多尺度注意力的深层网络肺部纹理识别方法，结合附图及实施例详细说明如下：

本发明构建了一个识别网络，使用卷积和残差模块构建基础网络，使用多尺度特征融合模块学习肺部纹理中包含的多尺度特征信息，使用注意力机制模块自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息。使用CT肺部纹理图像块进行训练，在测试中达到了较高的识别准确率，具体实施流程如图1所示，所述方法包括下列步骤；

1-1)收集带有7中典型肺部纹理的CT图像若干例，这7种肺部纹理为固定型、蜂窝状、结节状、肺气肿、毛玻璃状、带线条的毛玻璃状和正常肺部纹理。

1-2)邀请放射线科专家，在收集的CT图像上对7种典型纹理进行人工标注，即在CT图像中挑选包含典型纹理的管状断层，并在这些断层中手动勾勒出包含7种纹理的典型区域。

1-3)对1-2)标注的区域内，使用32×32大小的正方形框，随机截取CT图像小块，并结合专家的标注信息，最终生成若干大小为32×32并带有标签(纹理类别)的CT图像小块。图2是对标注的各类纹理截取的32×32的CT小块的样例图。这些若干个带标签的CT图像小块，将用于本发明方法的训练和测试。

2)识别网络的构建：用卷积和残差模块构建基本网络，使用多尺度特征融合模块学习肺部纹理的多尺度特征信息，使用注意力机制模块筛选对识别有益的特征同时抑制与识别无关的特征，最终提升识别精度。图3是识别网络结构图。

2-1)识别网络由基础网络、注意力机制模块和多尺度特征融合模块构成。基础网络由9个卷积模块构成，在三个不同尺度下从输入CT肺部纹理图像块学习特征信息。每个尺度学习的特征信息通过注意力机制模块自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息。三个尺度学习的特征信息最终通过多尺度特征融合模块进行融合，并给出识别结果；

2-2)每个卷积模块由深层神经网络的通用单元，即卷积层、批标准化层和整流线性单元层组成。所有卷积层卷积核设置为3。第1-3个卷积模块卷积通道数设置为128，第4-7个卷积模块卷积通道数设置为256，第8-9个卷积模块卷积通道数设置为512；

2-3)除第1个卷积模块外，其余8个卷积模块每两个模块为一组通过跳跃连接相连共构成4个残差模块。对于一个残差模块(Kaiming He,Xiangyu Zhang,and et.al.,“Deepresidual learning for image recognition,”in Computer Vision and PatternRecognition,2016,pp.770–778.)，其输入通过内部卷积模块学习新的特征信息，跳跃连接将残差模块的输入与内部第二个卷积模块学习的特征图相连，构成残差学习机制。通过引入残差学习机制，避免神经网络训练时易出现的梯度消失、梯度爆炸问题，提升网络学习效率。当残差模块的输入和内部第二个卷积模块输出数据矩阵大小相同时，跳跃连接为恒等映射，即将两者直接相加。否则，跳跃连接为卷积层，卷积核大小设置为1，卷积步长设置为2，调整残差模块的输入特征图，使其与内部第二个卷积模块输出数据矩阵大小相同；

2-4)4个残差模块按照1:2:1的比例，在三个不同的尺度下从输入CT肺部纹理图像块中学习多尺度特征信息。第二个和第三个尺度中的第一个残差模块的第一个卷积模块的卷积层卷积步长设置为2，实现对输入特征图的2倍降采样处理，降低输入特征图分辨率，扩大卷积模块局部感受野以增大尺度。其余卷积层卷积步长均设置为1，保持输入特征图与输出特征图分辨率一致以保持尺度；

2-5)网络起始的卷积模块及3个尺度中最后1个残差模块后均连接1个注意力机制模块，用于从卷积模块或残差模块学习的特征信息中自动筛选出对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息。图4是注意力机制模块结构图。输入特征图首先通过全局平均池化(Global Average Pooling，GAP)层以通道为单位计算特征图平均值，得到的向量连接2个全连接层，其中第1个全连接层神经元数为输入向量元素数的0.5倍，第2个全连接层神经元数与输入向量元素数相同，随后通过Sigmoid激活函数得到激活向量。该激活向量与输入特征图按通道对应相乘得到加权特征图，加权特征图随后与输入特征图相加构成残差学习机制，提升注意力机制模块学习效率，结果作为注意力机制模块的输出。这里用到的全局平均池化和Sigmoid激活函数是深层网络中的通用模块；

2-6)多尺度特征融合模块用于融合三个尺度学习的特征信息，并给出识别结果。图5多尺度特征融合模块结构图。该模块包含3条支路，以对应尺度学习的特征信息为输入，通过GAP层以通道为单位计算特征图平均值，随后连接1个包含7个神经元的全连接层，神经元数为7的原因是本发明用于识别7种弥漫性肺疾患典型纹理。三条支路全连接层生成的向量对应相加并通过Softmax激活函数得到识别结果。这里的Softmax激活函数是深层网络中的通用模块。

3)基于步骤(2)得到的识别网络进行训练。

3-1)识别网络以小批量方式，使用交叉熵损失函数进行训练，损失函数公式如下：

式中，L(·)表示交叉熵损失函数值，n表示单次批量中参与训练的CT图像块数，本发明中n为128，x表示单次批量中参与训练的CT图像块数据矩阵，∑为求和运算符，y′表示与x相对应的类别标签矩阵，log(·)表示对数运算，y表示经识别网络识别得到的x的类别标签矩阵。

3-3)通过随机梯度下降算法，使用步骤(3-2)中的损失函数优化识别网络。学习率初始值设置为0.01，每周期更新为前一周期的0.97倍。网络优化过程在验证集识别准确率最高时终止。

4)利用测试数据评估网络的性能。在性能评估时，针对测试结果计算了识别实验中常用的两个指标，即正确识别率和F值。这里不但测试了本发明方法的性能，同时也与其他六种肺部纹理识别方法进行了比较。具体结果如表1所示，

表1本发明方法的性能评估以及与其他方法的比较

其中(a)深层卷积神经网络(VGG-16)(K.Simonyan and A.Zisserman,“Very deepconvolutional networks for large-scale image recognition”,Computer Science,2014.)的正确识别率及F值；(b)残差网络(ResNet-50)(K.He and et al.,“Identitymappings in deep residual networks,”in European Conference on ComputerVision,2016,pp.630-645.)的正确识别率及F值；(c)LeNet-5(Y.Lecun,L.Bottou,Y.Bengio,and P.Haffner,“Gradient-based learning applied to documentrecognition,”Proceedings of the IEEE,vol.86,no.11,pp.2278–2324,1998.)的正确识别率及F值；(d)5层卷积神经网络(CNN-5)(M.Anthimopoulos,S.Christodoulidis,andet.al.,“Lung pattern classification for interstitial lung diseases using adeep convolutional neural network,”IEEE Transactions on Medical Imaging,vol.35,no.5,pp.1207–1216,2016.)的正确识别率及F值；(e)特征袋(Bag-of-Feature)(R.Xu,Y.Hirano,R.Tachibana,and S.Kido,“Classification of diffuse lung diseasepatterns on high-resolution computed tomography by a bag of words approach,”in International Conference on Medical Image Computing&Computer-assistedIntervention(MICCAI),2011,p.183.)的正确识别率及F值；(f)双路残差网络(DB-ResNet)(R.Xu and et al.,“Pulmonary textures classification using a deep neuralnetwork with appearance and geometry cues,”in IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),2018.)的正确识别率及F值；(g)本发明方法(MSAN)的正确识别率及F值。

Claims

1.一种结合多尺度注意力的深层网络肺部纹理识别方法，其特征在于，包括下列步骤：

1)初始数据准备：初始数据包括用于训练和测试的肺部纹理CT图像块和对应类别标签；

2)识别网络构建：使用卷积和残差模块构建基础网络，使用多尺度特征融合模块学习肺部纹理的多尺度特征信息，使用注意力机制模块自动筛选特征图，最终提升识别精度；构建的识别网络的结构，具体包括以下步骤：

2-1)识别网络由基础网络、注意力机制模块和多尺度特征融合模块构成；基础网络由9个卷积模块构成，在三个不同尺度下从输入CT肺部纹理图像块学习特征信息；每个尺度学习的特征信息通过注意力机制模块自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息；三个尺度学习的特征信息最终通过多尺度特征融合模块进行融合，并给出识别结果；

2-2)每个卷积模块由深层神经网络的通用单元，即卷积层、批标准化层和整流线性单元层组成；所有卷积层卷积核设置为3；第1-3个卷积模块卷积通道数设置为128，第4-7个卷积模块卷积通道数设置为256，第8-9个卷积模块卷积通道数设置为512；

2-3)除第1个卷积模块外，其余8个卷积模块每两个模块为一组通过跳跃连接相连共构成4个残差模块；对于一个残差模块，其输入通过内部卷积模块学习新的特征信息，跳跃连接将残差模块的输入与内部第二个卷积模块学习的特征图相连，构成残差学习机制；当残差模块的输入和内部第二个卷积模块输出数据矩阵大小相同时，跳跃连接为恒等映射，即将两者直接相加；否则，跳跃连接为卷积层，卷积核大小设置为1，卷积步长设置为2，调整残差模块的输入特征图，使其与内部第二个卷积模块输出数据矩阵大小相同；

2-4)4个残差模块按照1:2:1的比例，在三个不同的尺度下从输入CT肺部纹理图像块中学习多尺度特征信息；第二个和第三个尺度中的第一个残差模块的第一个卷积模块的卷积层卷积步长设置为2，实现对输入特征图的2倍降采样处理，降低输入特征图分辨率，扩大卷积模块局部感受野以增大尺度；其余卷积层卷积步长均设置为1，保持输入特征图与输出特征图分辨率一致以保持尺度；

2-5)网络起始的卷积模块及3个尺度中最后1个残差模块后均连接1个注意力机制模块，用于从卷积模块或残差模块学习的特征信息中自动筛选出对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息；输入特征图首先通过全局平均池化层以通道为单位计算特征图平均值，得到的向量连接2个全连接层，其中第1个全连接层神经元数为输入向量元素数的0.5倍，第2个全连接层神经元数与输入向量元素数相同，随后通过Sigmoid激活函数得到激活向量；该激活向量与输入特征图按通道对应相乘得到加权特征图，加权特征图随后与输入特征图相加构成残差学习机制，提升注意力机制模块学习效率，结果作为注意力机制模块的输出；

2-6)多尺度特征融合模块用于融合三个尺度学习的特征信息，并给出识别结果；该模块包含3条支路，以对应尺度学习的特征信息为输入，通过GAP层以通道为单位计算特征图平均值，随后连接1个包含7个神经元的全连接层，三条支路全连接层生成的向量对应相加并通过Softmax激活函数得到识别结果；

3)识别网络训练：基于步骤(2)得到的识别网络进行训练；

4)利用测试数据评估网络的性能。

2.根据权利要求1所述的一种结合多尺度注意力的深层网络肺部纹理识别方法，其特征在于，步骤2)中构建的识别网络的结构，具体包括以下步骤：

2-1)基础网络从不同尺度下从输入CT肺部纹理图像块学习特征信息；每个尺度学习的特征信息通过注意力机制模块自动筛选对识别任务有益的特征信息，同时自动抑制与识别任务关系较弱的特征信息；不同尺度学习的特征信息最终通过多尺度特征融合模块进行融合，并给出识别结果；

2-4)网络在不同尺度学习的特征信息通过多尺度特征融合模块进行有效融合，并给出识别结果。