CN113378813A

CN113378813A - 基于注意力平衡特征金字塔的建模、目标检测方法及装置

Info

Publication number: CN113378813A
Application number: CN202110590096.1A
Authority: CN
Inventors: 谢飞; 郜刚
Original assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Current assignee: Shaanxi Great Wisdom Medical Care Technology Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-10

Abstract

本发明属于医学影像检测领域公开了一种基于注意力平衡特征金字塔的建模、目标检测方法及装置。本发明通过整合的平衡语义特征来增强原始特征，特征金字塔中的每个特征层都可以从其他层中获得相同的信息，从而平衡信息流使得特征更具有区分性。本发明的平衡特征金字塔网络引入了通道注意力模块和空间注意力模块，二者分别考虑了通道和空间上的重要信息，可以增强平衡特征金字塔中的特征，帮助检测模型分别关注更重要的通道和区域信息，减少正常组织器官对网络训练产生的不利影响。

Description

基于注意力平衡特征金字塔的建模、目标检测方法及装置

技术领域

本发明属于医学影像检测领域，具体涉及一种基于注意力平衡特征金字塔的建模、目标检测方法及装置。

背景技术

小肠间质瘤(SIST)是原发于小肠的胃肠肿瘤之一，由于在CT影像中，小肠间质瘤形态大小各异，并且与周围正常组织器官难以准确区分，目前对小肠间质瘤的诊断主要依靠专业医生的临床经验，然而这种方式诊断效率低且受主观影响较大。通过对大量检测结果观察发现，产生复杂影像学表现的原因是影像中正常组织器官的特征信息影响了目标检测模型对于间质瘤病灶区域的特征识别，以及骨干特征网络提取的深层特征中的语义信息和浅层特征中的细节信息的不平衡融合影响了检测模型的识别和检测能力。

随着深层卷积网络的发展，最近几年在目标检测方面取得了显著进步。已经设计开发了许多检测模型，例如Faster RCNN、RetinaNet、Cascaded RCNN和RepPoints等，这些模型框架尽管在网络架构上存在明显差异，例如单阶段检测、双阶段检测和一次分类加两次回归的“1.5”阶段检测框架，又例如anchor－base和anchor－free检测方法，这些模型框架大多遵循一种通用的训练流程，即对区域进行采样，从中提取特征信息，然后在多任务目标功能的指导下共同识别类别并完善位置信息。而在本文提出的小肠间质瘤检测任务中，目标检测模型训练的性能取决于是否充分利用了所提取的视觉特征。

传统的骨干特征提取网络，例如AlexNet、VGG、ResNEt、ResNeXt等的深层高级特征具有更多的语义信息，而浅层的低级特征具有更多的内容描述信息。利用多级特征生成的特征金字塔对于检测性能有较大的影响，FPN提出了横向连接以通过自上而下的路径丰富浅层的语义信息。之后PANet引入自下而上的路径以进一步增加深层中的浅层信息。然而上述方法中的顺序方式在特征融合过程中更关注相邻特征层的信息，而较少关注其他特征层信息，在每次特征融合后，非相邻层的语音信息会被稀释。

发明内容

本发明的目的在于提供一种基于注意力平衡特征金字塔的建模、目标检测方法及装置，用以解决现有技术中对于小肠间质瘤进行目标检测时，仅关注相邻特征层的信息，导致特征融合后非相邻层的语音信息会被稀释，检测准确度不高的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于注意力平衡特征金字塔的建模方法，包括如下步骤：

步骤1：获取CT影像切片数据集和对每张CT影像切片进行目标区域标注的标签集；

步骤2：建立特征金字塔网络，所述的特征金字塔网络包括骨干网络、缩放单元、整合单元、细化单元和增强单元，所述的骨干网络用于提取多级特征图{C₂，C₃，C₄，C₅}，所述的缩放单元用于将C₂、C₃和C₅的尺寸调整至与C₄相同，所述的整合单元用于缩放后的多级特征图进行加权平均获得平衡语义特征图，所述的增强单元用于细化后的平衡语义特征图依次缩放至各级特征图原始尺寸并与各级原始特征图相加，获得多级增强特征图；

所述的细化单元包括通道注意力模块和空间注意力模块，所述的通道注意力模块用于将平衡语义特征图进行细化得到通道注意力特征图，所述的空间注意力模块用于将平衡语义特征图进行细化得到空间注意力特征图，所述的细化单元还用于将通道注意力特征图和空间注意力特征图融合获得细化后的平衡语义特征图；

步骤3：将CT影像切片数据集作为训练集结合标签集对特征金字塔网络进行训练，将训练好的网络作为基于注意力平衡特征金字塔模型。

进一步的，所述的平衡语义特征图采用式Ⅰ获得：

其中，F为平衡语义特征图，N为特征图级数，C_r为第r级特征图，r_min为特征图最小级数，r_max为特征图最大级数。

更进一步的，所述的通道注意力特征图采用式Ⅱ获得：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) 式Ⅱ

其中，M_c(F)为通道注意力特征图，AvgPool()为平均池化，MaxPool()为最大池化，MLP()为多层感知器，σ为sigmod操作。

更进一步的，所述的空间注意力特征图采用式Ⅲ获得：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) 式Ⅲ

其中，M_s(F)为空间注意力特征图，f^7×7(；)表示7×7的卷积。

一种基于注意力平衡特征金字塔的目标检测方法，包括如下步骤：

步骤一：获取待识别的CT影像切片；

步骤二：将待识别的CT影像切片输入采用任一种基于注意力平衡特征金字塔的建模方法建立的基于注意力平衡特征金字塔模型，获得待识别的CT影像切片的目标区域。

一种基于注意力平衡特征金字塔的目标检测装置，包括数据采集模块、模型建立模块、训练模块和目标识别模块；

所述的数据采集模块用于获取CT影像切片数据集和对每张CT影像切片进行目标区域标注的标签集；

所述的模型建立模块用于建立特征金字塔网络，所述的特征金字塔网络包括骨干网络、缩放单元、整合单元、细化单元和增强单元，所述的骨干网络用于提取多级特征图{C₂，C₃，C₄，C₅}，所述的缩放单元用于将C₂、C₃和C₅的尺寸调整至与C₄相同，所述的整合单元用于缩放后的多级特征图进行加权平均获得平衡语义特征图，所述的增强单元用于细化后的平衡语义特征图依次缩放至各级特征图原始尺寸并与各级原始特征图相加，获得多级增强特征图；

所述的细化单元包括通道注意力模块和空间注意力模块，所述的通道注意力模块用于将平衡语义特征图进行细化得到通道注意力特征图，所述的空间注意力模块用于将平衡语义特征图进行细化得到空间注意力特征图，所述的细化单元还用于将通道注意力特征图和空间注意力特征图融合获得平衡语义特征图；

所述的训练模块用于将CT影像切片数据集作为训练集结合标签集对特征金字塔网络进行训练，将训练好的网络作为基于注意力平衡特征金字塔模型；

所述的目标识别模块用于获取待识别的CT影像切片，将待识别的CT影像切片输入基于注意力平衡特征金字塔模型，获得待识别的CT影像切片的目标区域。

进一步的，所述的平衡语义特征图采用式Ⅰ获得：

进一步的，所述的通道注意力特征图采用式Ⅱ获得：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) 式Ⅱ

进一步的，所述的空间注意力特征图采用式Ⅲ获得：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) 式Ⅲ

其中，M_s(F)为空间注意力特征图，f^7×7(；)表示7×7的卷积。

本发明与现有技术相比具有以下技术特点：

(1)本发明建立的注意力平衡特征金字塔网络通过结合平衡特征金字塔与注意力机制，对检测模型骨干网络提取的多级特征进行不同程度的缩放进行加和求平均操作得到平衡语义特征，将平衡语义特征分别输入至通道注意力模块和空间注意力模块得到通道注意力特征图和空间注意力特征图，并将二者进行求和操作得到细化完善后的平衡语义特征，最后将平衡语义特征根据不同特征层的分辨率进行反向缩放，并与原始特征进行相加，得到经过ABFP增强后的特征。

(2)本发明通过平衡金字塔算法将骨干网络提取的多级特征经过重新缩放以及加和求平均的方法生成平衡语义特征，并将平衡语义特征分别输入进通道注意力模块和空间注意力模块以对平衡语义特征在通道维度和空间维度进行细化改善，最后将完善后的平衡语义特征进行反向重新缩放与各层级的原始特征进行相加得到增强后的多级特征，以提升目标检测模型性能。

附图说明

图1是注意力平衡特征金字塔ABFP结构图；

图2是平衡特征金字塔BFP结构图；

图3是通道注意力机制模块模型图；

图4是空间注意力机制模块模型图；

图5是不同检测模型对比实验结果AP图；

图6是不同特征融合策略对比试验结果AP图；

图7是DeepLession数据集下对比试验结果AP图；

图8是不同模型检测结果对比图。

具体实施方式

首先对本发明中出现的技术词语进行解释：

PyTorch框架：由Facebook人工智能研究院FAIR基于Torch推出，是一个基于Python的可续计算包，采用动态计算图结构，支持计算机图像加速库，例如NVIDIA的cuDNN，是当前主流的深度学习框架之一。

特征金字塔模型：该模型通过引入了下采样、上采样和横向连接的过程能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间细节信息丰富的特征图，解决小目标检测能力不足问题。

DeepLession：是NIHCC临床中心公布的多类别、病灶级别标注临床医疗CT图像公开数据集，其中包含了32735个带标记的病灶实例，928020张CT横切面影像切片。

在本实施例中公开了一种基于注意力平衡特征金字塔的建模方法，包括如下步骤：

具体的，所述的平衡语义特征图采用式Ⅰ获得：

具体的，所述的通道注意力特征图采用式Ⅱ获得：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) 式Ⅱ

具体的，所述的空间注意力特征图采用式Ⅲ获得：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) 式Ⅲ

其中，M_s(F)为空间注意力特征图，f^7×7(；)表示7×7的卷积。

具体的，本实施例中采用RetinaNet作为预训练模型，在DeepLession数据集下，对RetinaNet训练后提取的骨干网络参数迁移到基于注意力平衡特征金字塔模型的训练中，冻结浅层网络参数并通过训练调节深层的参数。使用同为CT图像的数据集作为预训练模型数据，可以在小肠间质瘤数据较少的情况下加快模型的收敛，提高模型检测性能。

具体的，本实施例中，标注的目标区域为小肠间质瘤。

本实施例中还公开了一种基于注意力平衡特征金字塔的目标检测方法，包括如下步骤：

步骤一：获取待识别的CT影像切片；

步骤二：将待识别的CT影像切片输入采用上述任一种基于注意力平衡特征金字塔的建模方法建立的基于注意力平衡特征金字塔模型，获得待识别的CT影像切片的目标区域。

本实施例中还公开了一种基于注意力平衡特征金字塔的目标检测装置，包括数据采集模块、模型建立模块、训练模块和目标识别模块；

实施例1

本实施例的CT影像切片数据集来源于医院267例含有医生标注的小肠间质瘤CT影像切片，共计4993张标注切片。每一位患者的CT影像文件由相应的设备对患者腹部进行5mm间隔逐层的断面扫描得到的一系列沿z轴堆叠的三维影像数据，数据格式为DICOM。每一位患者影像序列中有医生标注的切片数量为2-18张左右。选取229例病人影像数据作为训练和验证样本，包含切片4349张，38例作为测试样本，包含切片644张。

本实施例是在Ubuntu 16.04LTS平台上进行，所使用的深度学习框架为PyTorch框架。硬件配置为：Intel(R)Core i7-7800X CPU@3.50GHz，Nvidia RTX2080ti 11GB显卡，64GB运行内存。

在训练pytoch模型中，所使用的参数为：输入图像尺寸为512×512，FPN的输入通道数为[256,512,1024,2048]，输出通道数为256，主干网络为ResNet101网络，优化器为SGD，初始学习率为0.01，学习动量为0.9，权重衰减为0.0001，训练次数为24个epoch，学习策略为warmup线性学习策略，在第16和22个epoch时降低学习率，batch_size设置为4，训练过程中图像以50％的概率水平左右翻转。

本实施例分别为不同模型相同特征融合策略下的对比试验、相同模型不同特征融合策略下的对比试验、在DeepLession数据集下的对比试验。

实验一为不同模型相同特征融合策略下的对比试验，结果如表1和图5所示，实验以Faster RCNN和Mask RCNN作为baseline，分别对RetinaNet、RepPoints和Cascade RCNN模型进行了对比试验，这三个模型分别代表单阶段检测、双阶段检测和一次分类加两次回归的“1.5”阶段检测框架，以及anchor－base和anchor－free检测方法，其中主干网络为ResNet101网络，特征融合策略为FPN，在同一模型对比中，分别与主流注意力机制SE注意力机制、CBAM注意力机制和可变形卷积DCN进行对比，并通过与添加可变形卷积DCN的ResNet101网络进行结合，证明本发明中的方法对不同结构网络的兼容性。

表1不同检测模型对比实验结果

从表1和图5可知，在小肠间质瘤测试集上，ABFP无论在ResNet101中还是加入了DCN改变了网络结构的ResNet101+DCN网络中都能够显著提升检测模型准确率，ResNet101+DCN网络结合FPN+ABFP特征融合策略在不同的模型中均取得了最好的结果，测试结果达到0.614。另外，在对比实验中的三个不同的检测模型AP值分别从0.526、0.540、0.591依次提升至0.574、0.574、0.614，而在同一个模型结构中，可以发现ABFP在不改变网络模型结构的基础上对模型检测能力的提升与主流注意力机制SE、CBAM及可变卷积DCN对模型的改善接近，在RetinaNet和Cascade RCNN模型中，ABFP对模型的提升处于SE注意力机制与CBAM注意力机制之间，而在RepPoints模中，ABFP的提升略低于SE和CBAM，略高于DCN。

实验二为相同模型不同特征融合策略下的对比试验，结果如表2和图6所示，实验使用RetinaNet模型与ResNet101网络为基础，分别与FPN、PAFPN和BIFPN三种不同的特征融合策略进行对比试验，通过对比添加注意力特征融合金字塔ABFP前后模型的测试结果，证明ABFP对准确度的积极影响以及与不同特征融合策略相结合的兼容性，三种特征融合方法的输入特征维度同为[256,512,1024,2048]，输出特征维度为256。

表2不同特征融合策略对比试验结果

从表2和图6可知，在小肠间质瘤测试集上，原始PAFPN性能要优于FPN和BIFPN，而添加了注意力平衡特征金字塔ABFP后，结合了FPN、BIFPN和PAFAN三种特征融合方法的RetinaNet检测模型的AP值分别从0.526、0.531、0.542依次提升至0.550、0.562、0.559，可以看出，对于不同的特征融合策略，ABFP都可以很好的进行结合，并能够提升检测模型检测性能，有着很好的兼容性。

实验三为在DeepLession数据集下进行对比试验，由于小肠间质瘤数据集过小，可能会导致本文提出的模型具有特殊性，为此通过在公开数据集DeepLession进行测试对比可以证明本文提出方法的普遍适用性，其中训练集为35139张切片，测试集为1616张切片，结果如表3所示。由于在小肠间质瘤数据实验中，我们采用的DeepLession数据集进行预训练，所以在本组实验中，预训练模型均采用ImageNet与训练模型，分别在RetinaNet、RepPoints和Cascade RCNN三个模型中进行对比试验，主干网络为ResNet101、特征融合策略为FPN，通过对比三个模型在添加注意力平衡特征金字塔ABFP前后的性能表现，证明ABFP在大型数据集中对改善检测模型的能力。

表3 DeepLession数据集下对比试验结果

Model	Neck	AP	AP<sub>0.75</sub>	AP<sub>0.50</sub>	AR
						RetinaNet	FPN	0.304	0.337	0.519	0.579
RetinaNet	FPN+ABFP	0.338	0.379	0.570	0.584
						RepPoints	FPN	0.305	0.340	0.517	0.585
RepPoints	FPN+ABFP	0.345	0.387	0.587	0.599
						Cascade RCNN	FPN	0.318	0.363	0.539	0.537
Cascade RCNN	FPN+ABFP	0.348	0.400	0.573	0.544

从表3和图7可知，在DeepLession公开数据集上，相比原始检测模型，添加了注意力平衡特征金字塔的模型测试结果分别从0.304，0.345和0.318依次提升至0.338，0.345，0.348，实验表明，在DeepLession大型数据集中，本文提出的ABFP算法也能够较好地提升模型检测能力，并且由于数据集足够大，提升效果更加明显。

通过三组不同的对比试验表明，ABFP在小肠间质瘤数据下，能够较好的提升不同结构的检测模型性能，并可与不同的特征融合策略进行结合。

检测结果对比图如图8所示，图中以Cascade RCNN网络为代表，其中(a)为原始模型自身检测结果，(b)为添加SE模块后的结果，(c)为添加CBAM模块的结果，(d)为添加ABFP算法后的检测结果。其中黄色矩形框为医生标注，红色矩形框为模型检测结果。在图中可以发现，在添加注意力机制后，间质瘤检测准确率明显提升，第一行和第六行中没有添加注意力机制的检测模型检测结果与医生标注出现了较大的差异，尤其是第二行中未加入注意力机制的模型出现了误检现象，而添加了注意力机制的模型能够较为准确的吻合医生标注。另外，对于小型肿瘤，本发明提出的ABFP算法相较SE和CBAM算法能够较好的检测性能，在面对中型和大型肿瘤，相比SE和CBAM算法也更好的吻合医生标注。

为了验证不同模块所提取的特征以及融合后的特征的有效性以及对检测模型的提升，本实施例对ABFP模型采取消融实验进行验证。首先baseline为不添加ABFP的RetinaNet模型测试结果，主干网络为ResNet101，特征融合方法为FPN，然后只添加平衡特征金字塔BFP，其中细化操作替换为一次卷积操作，之后逐渐添加通道注意力机制模块和空间注意力机制模块进行对比试验，实验结果如表4所示，

表4 ABFP消融实验结果

从表4中可以看出，只添加平衡特征金字塔BFP后，检测模型准确度由0.526提升至0.529，添加通道注意力机制模块进行平衡语义特征细化后，检测模型精度由0.529提升至0.539，而在添加空间注意力机制模块后，检测模型准确度由0.539提升至0.550。实验结果表明，对多级特征进行平衡特征金字塔处理是有效的，并且将平衡语义特征进行通道维度和空间维度的细化改善再进行融合对检测模型是有改善的。

Claims

1.一种基于注意力平衡特征金字塔的建模方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于注意力平衡特征金字塔的建模方法，其特征在于，所述的平衡语义特征图采用式Ⅰ获得：

3.如权利要求2所述的基于注意力平衡特征金字塔的建模方法，其特征在于，所述的通道注意力特征图采用式Ⅱ获得：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) 式Ⅱ

4.如权利要求3所述的基于注意力平衡特征金字塔的建模方法，其特征在于，所述的空间注意力特征图采用式Ⅲ获得：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) 式Ⅲ

其中，M_s(F)为空间注意力特征图，f^7×7(；)表示7×7的卷积。

5.一种基于注意力平衡特征金字塔的目标检测方法，其特征在于，包括如下步骤：

步骤一：获取待识别的CT影像切片；

步骤二：将待识别的CT影像切片输入采用权利要求1-4中任一种基于注意力平衡特征金字塔的建模方法建立的基于注意力平衡特征金字塔模型，获得待识别的CT影像切片的目标区域。

6.一种基于注意力平衡特征金字塔的目标检测装置，其特征在于，包括数据采集模块、模型建立模块、训练模块和目标识别模块；

7.如权利要求6所述的基于注意力平衡特征金字塔的目标检测装置，其特征在于，所述的平衡语义特征图采用式Ⅰ获得：

8.如权利要求7所述的基于注意力平衡特征金字塔的建模方法，其特征在于，所述的通道注意力特征图采用式Ⅱ获得：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) 式Ⅱ

9.如权利要求8所述的基于注意力平衡特征金字塔的建模方法，其特征在于，所述的空间注意力特征图采用式Ⅲ获得：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) 式Ⅲ

其中，M_s(F)为空间注意力特征图，f^7×7(；)表示7×7的卷积。