CN114066844A

CN114066844A - 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法

Info

Publication number: CN114066844A
Application number: CN202111342941.XA
Authority: CN
Inventors: 姜丽芬; 李康
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2021-07-16
Filing date: 2021-11-12
Publication date: 2022-02-18

Abstract

本发明公开了一种基于注意力叠加与特征融合的肺炎X光片图像分析模型及分析方法，使用空间注意力叠加网络，突出病灶特征，提升注意力引导精度。首先对整个的通道进行一次空间注意力值的计算，得出初始注意力分数。然后对两通道分别进行CBL和编码解码操作，得到注意力分数。最后将两注意力与初试注意力相乘。使初始注意力辅助两部分注意力的生成，并分别加强各自的特征图。此外本文提出了新的特征融合网络，通过两种不同表征能力的通道，在各自的特征上得到特有表示，能够同时提高特征的“准确性”和“多样性”。

Description

一种基于注意力叠加与特征融合的肺炎X光片图像分析模型及分析方法

技术领域

本发明涉及图像检测技术领域，特别是涉及一种基于注意力叠加与特征融合的肺炎X光片图像分析模型及分析方法。

背景技术

建立图像分析模型是对X光片图像进行分析的主要手段，肺炎检测的主要工作是对输入的肺部医学影像提取特征，从而得到感兴趣区域(ROI,Region of Interest)。提取的特征通常是对CXR的完备描述，而根据提取的特征区分肺炎和非肺炎，是肺炎检测的难点。吴恩达团队提出的CheXNet，由121层的DenSenet网络组成，可以对14种肺部疾病进行分类，但该项工作无法预测病灶的位置信息，只能得到患病的概率；2019年郝冰通过Retinanet和Mask-RCNN，使用单阶段和双阶段模型训练，提高了肺炎的检测性能；DmytroPoplavskiy等人使用RetineNet SSD网络模型对肺炎进行检测，在模型中加入了全局分类输出，并对数据集进行了大幅度的扩充，虽提高了模型精度，但准确率仅24.781％。Jaiswal等人采用Mask RCNN，通过调整训练中的阈值以及融合预测结果，有效地识别并定位肺炎区域，然而训练阶段需调整阈值，导致训练过程复杂。Eunji等人通过比较输入图像和原型的特征来诊断疾病，并可以对诊断结果提供全局解释、原型和局部解释，但可解释性仍受到了一定的限制。尽管上述方法在肺炎检测中已经取得了一定的效果，但仍存在模型参数量大、训练时间长、检测准确率低等问题。

肺炎X光片图像与传统的目标检测有很大不同，传统的目标检测对象多是清晰的、彩色的，而肺炎病灶检测的对象多是模糊的、灰度的，因此应当设计一个专门的模型用于肺炎X光片图像检测，以提高模型检测的准确率。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于注意力叠加与特征融合的肺炎X光片图像分析模型。

本发明的另一个目的是，提供一种基于注意力叠加与特征融合的肺炎X光片图像分析方法。

为实现本发明的目的所采用的技术方案是：

一种基于注意力叠加与特征融合的肺炎X光片图像分析模型，包括YOLOv5主干网络模型、SasNet空间注意力叠加网络模型、MfcNet多层特征融合网络模型、YOLOv5预测网络模型，其中：

所述YOLOv5主干网络模型从肺炎X光片样本数据中抽取目标的特征表示形式，得到主干网络特征；

所述SasNet空间注意力叠加网络模型包括注意力引导模块、第一通道特征计算模块、第二通道特征计算模块以及两个注意力引导叠加模块，所述注意力引导模块对所述主干网络特征进行一次空间注意力值的计算，得出初始注意力分数a_i，第一通道特征计算模块和第二通道特征计算模块分别进行CBL和编码解码操作，得到中间特征图，在所述注意力引导叠加模块中，中间特征图计算得到注意力分数c_i分别与所述初始注意力分数a_i相乘，得到注意力值a′_i，两组注意力值a′_i合并得到特征图Out；

所述MfcNet多层特征融合网络模型包括通道注意力模块与特征融合模块，先通过通道注意力模块得到每个通道的权值ω，在特征融合模块中，再根据每个通道的权值ω对最终分类结果的重要性和贡献度，把通道分割为一个积极通道和一个消极通道，消极通道经过取均值后再与积极通道特征融合，最终经过残差输出新的特征图Out′；

所述YOLOv5预测网络模型分类网络模型和定位回归网络模型，所述分类网络模型对所述新的特征图进行分类，所述定位回归网络模型对所述新的特征图进行定位。

在上述技术方案中，注意力引导模块将所述主干网络特征的最大值和平均值合并，得到c_i，经过卷积和Sigmoid激活后，得到初始注意力分数a_i，c_i＝[max(x_i)，mean(x_i)]，a_i＝S(C(c_i))，i为位置索引，代表所有通道在位置i的向量值，max代表取最大值，mean代表取平均值，[]是拼接操作，C表示卷积操作，S代表Sigmoid操作。

在上述技术方案中，注意力引导叠加模块获得的注意力值a′_i可表示为：

a′_i＝S(C(a_i×c_i))

两组注意力值合并得到特征图Out＝[a′_i×o_i，x_i]

其中o_i为第一通道特征计算模块和第二通道特征计算模块计算得到的中间特征图，x_i为原始输入特征。

在上述技术方案中，在所述通道注意力模块中，在全局平均池化后，产生一个1×1×C大小的特征图y，核大小k与通道维数C成非线性比例，且γ×k+b为最简单的线性映射，通道维数C通常设置为2的整数次幂，故有：

C＝φ(k)＝2^(γ×k+b)

C为通道维数，k为核大小，|t|_odd表示选择最近的奇数，γ＝2，b＝1；

通过通道维数C，自适应确定核大小k，然后应用到一维卷积中，得到每个通道的权值ω，权值的计算公式可以表示为：

ω＝S(C1D_k(y))

C1D代表一维卷积。S代表Sigmoid操作。

在上述技术方案中，在特征融合模块中，把特征图分为积极通道和消极通道，分割规则如下：

然后把积极通道的特征值和消极通道的特征均值拼接，经过残差输出，融合公式可以表示为：

其中，p为积极通道的特征值，

为消极通道的特征平均值，[]代表拼接操作，x代表原始特征。

在上述技术方案中，所述分类网络模型利用BCEclsloss做Classificition Loss的损失函数进行分类。

在上述技术方案中，BCEclsloss由公式

计算，其中M为类别的数量，y_ic为符号函数，如果样本i的真实类别等于c取1，否则取0，pic为观测样本i属于类别c的预测概率。

在上述技术方案中，所述定位回归网络模型GIOU_Loss做Bounding box的损失函数进行定位。

在上述技术方案中，GIOU_Loss可由以下公式计算：

L_GIoU＝1-GIoU

其中，A、B为两个任意的bbox，C为A与B的最小外接矩形。

本发明的另一方面，还包括一种基于注意力叠加与特征融合的肺炎X光片图像分析方法，包括以下步骤：

步骤1，对肺炎X光片样本构成的数据集进行预处理增强，得到预处理增强的样本数据；

步骤2，利用所述的肺炎X光片图像分析模型对所述样本数据进行处理，训练模型；

步骤3，输入待判定的肺炎X光片利用步骤2训练后的模型进行分析。

与现有技术相比，本发明的有益效果是：

1.本发明使用Mosaic数据增强丰富数据集，减少过度拟合。其次采用YOLOv5的BackBone部分作为特征提取的主干网络，增强CNN的学习能力，使得在轻量化的同时保持准确性，同时降低计算瓶颈与内存成本。

2.本发明使用空间注意力叠加网络突出重要特征，使用多层特征融合网络，拾取更多有价值的特征，在注意力网络的基础上，进一步地提高网络性能。

3.本发明在预测部分，使用BCEclsloss做Classificition Loss的损失函数；在定位回归网络中，使用GIOU_Loss做Bounding box的损失函数，以进一步提高图像检测的准确性。

附图说明

图1为SasNet结构图；

图2为注意力引导模块；

图3为MfcNet结构图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本发明提出了一种基于注意力叠加与特征融合的人工智能肺炎检测算法。使用空间注意力叠加网络，突出病灶特征，提升注意力引导精度。

一种基于注意力叠加与特征融合的肺炎X光片图像分析模型，包括YOLOv5主干网络模型、SasNet空间注意力叠加网络模型、MfcNet多层特征融合网络模型、YOLOv5预测网络模型，其中：首先对整个的通道进行一次空间注意力值的计算，所述YOLOv5主干网络模型从肺炎X光片样本数据中抽取目标的特征表示形式，得到主干网络特征；然后对两通道分别进行CBL和编码解码操作，得到注意力分数。最后将两注意力与初试注意力相乘。使初始注意力辅助两部分注意力的生成，并分别加强各自的特征图。所述SasNet空间注意力叠加网络模型包括注意力引导模块、第一通道特征计算模块、第二通道特征计算模块以及两个注意力引导叠加模块，所述注意力引导模块对所述主干网络特征进行一次空间注意力值的计算，得出初始注意力分数a_i，第一通道特征计算模块和第二通道特征计算模块分别进行CBL和编码解码操作，得到中间特征图，在所述注意力引导叠加模块中，中间特征图计算得到注意力分数c_i分别与所述初始注意力分数a_i相乘，得到注意力值a′_i，两组注意力值a′_i合并得到特征图Out；所述MfcNet多层特征融合网络模型包括通道注意力模块与特征融合模块，先通过通道注意力模块得到每个通道的权值ω，在特征融合模块中，再根据每个通道的权值ω对最终分类结果的重要性和贡献度，把通道分割为一个积极通道和一个消极通道，消极通道经过取均值后再与积极通道特征融合，最终经过残差输出新的特征图Out′；所述YOLOv5预测网络模型分类网络模型和定位回归网络模型，所述分类网络模型对所述新的特征图进行分类，所述定位回归网络模型对所述新的特征图进行定位。

本实施例中，提出了新的特征融合网络，通过两种不同表征能力的通道，在各自的特征上得到特有表示，能够同时提高特征的“准确性”和“多样性”。

实施例2

为了提升网络对肺炎的辨别能力，确定病灶区域。如图1所示，网络主要含通道特征计算和注意力引导两个模块。通道特征计算模块是将输入的通道特征分成两部分，分别进行特征提取，得到更高维度的特征。注意力引导模块使用一个简单的空间注意力计算，突出重要特征。下面详细介绍注意力引导模块。

注意力引导模块将所述主干网络特征的最大值和平均值合并，得到c_i，经过卷积和Sigmoid激活后，得到初始注意力分数a_i，

c_i＝[max(x_i)，mean(x_i)] (1)

a_i＝S(C(c_i)) (2)

i为位置索引，代表所有通道在位置i的向量值，max代表取最大值，mean代表取平均值，[]是拼接操作，C表示卷积操作，S代表Sigmoid操作。

作为优选的，注意力引导叠加模块获得的注意力值a′_i可表示为：

a′_i＝S(C(a_i×c_i)) (3)

两组注意力值合并得到特征图Out＝[a′_i×o_i，x_i] (4)

一个好的特征融合网络应当满足以下两个条件：准确性(accuracy)和多样性(diversity)。准确性是指大部分的输入特征要能对最终的输出有帮助，多样性是指不同的输入特征之间要有所不同，如果输入特征的差异不同且准确，则可以使多层特征融合得到更好的结果。故本文把含有更多信息的特征层称为积极通道，相反，把含有较少信息的特征层称为消极通道。在确保特征多样性的前提下，分别对两通道进行操作，提高检测的召回率。

综上所述，本文提出了多层特征融合网络MfcNet。不同于简单的特征融合，模型在有效的学习空间注意力之后，根据每个特征层对最终分类结果的重要性和贡献度，把通道分割为一个积极通道和一个消极通道，由于消极通道的特征对结果无较大意义，故经过取均值后再与积极通道特征融合。最终经过残差输出结果。它能最大限度地特征的提高“准确性”和“多样性”。具体做法见图3的MfcNet的结构图。

为保证计算性能和模型复杂度，在所述通道注意力模块中，在全局平均池化后(GAP)，产生一个1×1×C大小的特征图y，核大小k与通道维数C成非线性比例，且γ×k+b为最简单的线性映射，通道维数C通常设置为2的整数次幂，故有：

C＝φ(k)＝2^(γ×k+b) (5)

故通过通道维数C，可以自适应确定核大小k，然后应用到一维卷积中，得到每个通道的权值ω，权值的计算公式可以表示为：

ω＝S(C1D_k(y)) (7)

这里，C1D代表一维卷积。S代表Sigmoid操作。

作为优选的，在特征融合模块中，如图3所示，把特征图分为积极通道和消极通道(见图3中Positive Spatia和Negative Spatia)，分割规则如下：

然后把积极通道的特征值和消极通道的特征均值拼接，经过残差输出。根据以上分析，融合公式可以表示为

其中，p为积极通道的特征值，

作为优选的，所述分类网络模型利用BCEclsloss做Classificition Loss的损失函数进行分类。

BCEclsloss由公式

计算，

其中M为类别的数量，y_ic为符号函数，如果样本i的真实类别等于c取1，否则取0，pic为观测样本i属于类别c的预测概率。

所述定位回归网络模型GIOU_Loss做Bounding box的损失函数进行定位。GIOU_Loss可由以下公式计算：

L_GIoU＝1-GIoU (13)

其中，A、B为两个任意的bbox，C为A与B的最小外接矩形。

实施例3

一种基于注意力叠加与特征融合的肺炎X光片图像分析方法，包括以下步骤：

Mosaic数据增强：选择4张图片，以随机缩放、裁剪、排布的方式进行拼接。以增加小目标的数量，使网络的鲁棒性更好。同时减少GPU，在Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

再进行进一步的应用，通过基于注意力叠加与特征融合的人工智能肺炎检测算法构建一个医学影像辅助诊断系统。医学影像扫描系统拍摄患者的医学影像，并将其传入医学影像辅助诊断系统，由后台终端的注意力叠加与特征融合的人工智能肺炎检测算法进行检测分析。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于注意力叠加与特征融合的肺炎X光片图像分析模型，其特征在于，包括YOLOv5主干网络模型、SasNet空间注意力叠加网络模型、MfcNet多层特征融合网络模型、YOLOv5预测网络模型，其中：

2.如权利要求1所述的基于注意力叠加与特征融合的肺炎X光片图像分析模型，其特征在于，注意力引导模块将所述主干网络特征的最大值和平均值合并，得到c_i，经过卷积和Sigmoid激活后，得到初始注意力分数a_i，c_i＝[max(x_i)，mean(x_i)]，a_i＝S(C(c_i))，i为位置索引，代表所有通道在位置i的向量值，max代表取最大值，mean代表取平均值，[]是拼接操作，C表示卷积操作，S代表Sigmoid操作。

3.如权利要求2所述的基于注意力叠加与特征融合的肺炎X光片图像分析模型，其特征在于，注意力引导叠加模块获得的注意力值a′_i可表示为：

a′_i＝S(C(a_i×c_i))

两组注意力值合并得到特征图Out＝[a′_i×o_i，x_i]

4.如权利要求3所述的基于注意力叠加与特征融合的肺炎X光片图像分析模型，其特征在于，在所述通道注意力模块中，在全局平均池化后，产生一个1×1×C大小的特征图y，核大小k与通道维数C成非线性比例，且γ×k+b为最简单的线性映射，通道维数C通常设置为2的整数次幂，故有：

C＝φ(k)＝2^(γ×k+b)