CN115995015A

CN115995015A - 基于残差卷积与多头自注意力的cxr图像分类方法及系统

Info

Publication number: CN115995015A
Application number: CN202210899834.5A
Authority: CN
Inventors: 陈辉; 张甜
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-04-21

Abstract

本发明提供基于残差卷积与多头自注意力的CXR图像分类方法及系统，方法包括：以MSARC‑Net模型经过预置卷积、BN层、RELU激活函数以及MaxPooling层得到预设形状特征图；以L‑RConv模块处理得到残差卷积特征图，其中，轻量型残差卷积L‑RConv模块包括Conv Block及Identity Block；以多头自注意力MSAs模块建立特征长距离依赖关系，融合残差卷积特征图中的局部特征与全局特征；以GAP整合全局空间信息；通过MLP进行图像分类得到胸部图像处理结果；利用Grad‑CAM对胸部图像处理结果进行可视化，采用类激活热力图展示胸部CXR图像中的像素位置敏感数据，据以判定获取胸片识别分类数据。本发明解决了梯度消失、网络退化、算法复杂度较高、特征相关性弱以及分类有效性较低的技术问题。

Description

基于残差卷积与多头自注意力的CXR图像分类方法及系统

技术领域

本发明涉及医学检验图像处理领域，具体涉及基于残差卷积与多头自注意力的CXR 图像分类方法及系统。

背景技术

COVID-19是一种由严重急性呼吸综合征冠状病毒-2(severe acute respiratorysyndrome coronavirus 2,SARS-CoV-2)感染引起的新型传染病，其早期临床特征主要以发热、干咳、乏力等为主，少数伴有流鼻涕、腹泻等症状，严重者会引起呼吸困难和器官功能衰竭，甚至会导致死亡。由于基因序列具有不稳定性，COVID-19已经发现了多种变异毒株，如阿尔法(AIpha)、贝塔(Beta)、伽马(Gamma)、德尔塔(Delta)、奥密克戎(Omicron)等，这些变异毒株的传播速度更快、传染性更高、隐匿性更强。

由于COVID-19具有传播速度快、传染性高、隐匿性强的特点，因此如何快速准确地识别和检测新型冠状病毒是阻止新冠病毒传播的关键。目前，COVID-19的检测方法主要包括核酸检测和医学影像检测。核酸检测通过采用逆转录聚合酶链式反应 (reversetranscription-polymerase chain reaction，RT-PCR)技术检测病毒片段，检测结果呈阳性的为确诊患者。然而核酸测试存在耗时较长、灵敏性较低、假阴性过高以及需要专用测试盒等缺点，使得检测过程中存在一定的局限性。在医学影像检测中，用于肺部检测的诊治手段主要有胸部X射线(Chest X Ray，CXR)和CT图像。但是基于CXR 和CT图像的人工分析和诊断过程对医护人员的专业知识依赖性很高，对图像特征分析比较耗时，早期不易观察到隐匿病变，且难以区分其他病毒性肺炎和细菌性肺炎。出于这一迫切需要，专家们建议利用计算机辅助检测来代替人工诊断以提高检测效率，有助于医生更快地做出诊断。

近年来，随着人工智能的发展，深度学习方法在医疗领域中取得了较好的成就，尤其是卷积神经网络(Convolutional Neural Networks,CNN)在解决医学图像处理和识别时的效果尤为显著。诸多研究表明，CNN具有优异的特征提取能力，能够准确提取到不同尺度大小的图像特征。现有文献中披露的技术方案中未采用轻量级卷积模块进行局部特征的提取，易产生梯度消失及网络退化，其参数量及计算量也较多，算法复杂度较高，降低了该现有技术的适用性以及图像分类的准确率。

目前大多数方法的基本思想是基于卷积神经网络和大数据集的迁移学习。然而，在不同的场景应用中，Transformer的性能一般要优于CNN。Transformer是目前最先进的序列编码器，其核心思想是自注意力。Rao等通过引入自注意力机制使CNN能够更多地关注语义重要的区域以及具有全局信息的长期依赖性。Lin等提出了一种自适应的注意力网络(AANET)，该方法首先利用可变形ResNet处理适应COVID-19射线特征的多样性，其次通过自我注意机制对非局部交互进行建模，学习丰富的上下文信息来检测形状复杂的病变区域，有效地提高了识别效率。Aboutalebi等提出一种多尺度编码器- 解码器自我注意机制(MEDUSA)用于解决图像外观的重叠问题，通过向局部注意提供全局远程空间上下文，提高了自我注意模块的建模能力，并使它们能够在不同尺度上提高选择性注意，该方法在多个数据集上获得了较好的性能。公开号为CN114331849A的现有专利文献《一种跨模态核磁共振超分网络及图像超分辨率方法》通过引入T1WI核磁共振图像作为辅助信息重建高分辨率T2WI图像，实现不同模态之间的信息交流与互补。将T2WI模态图像的低高频信息重建任务分而治之，利用卷积的局部感知特性及可变形网络的全局感知特性来感知特征，但该现有文献中披露的技术方案中对图像数据处理得到的图像特征缺乏全局依赖，图像数据的特征的表达能力较低，且特征之间位置的相关性较弱。

现有技术存在梯度消失、网络退化、算法复杂度较高、特征相关性弱以及分类有效性较低的技术问题。

发明内容

本发明所要解决的技术问题在于：如何解决现有技术中梯度消失、网络退化、算法复杂度较高、特征相关性弱以及分类有效性较低的技术问题。

本发明是采用以下技术方案解决上述技术问题的：基于残差卷积与多头自注意力的 CXR图像分类方法包括：

S1、预处理胸部CXR图像以得到预处理CXR图像，在预置MSARC-Net模型的初始阶段Stage0，将预处理CXR图像依次经过预置卷积、BN层、RELU激活函数以及MaxPooling层，据以得到预设形状特征图，其中，预置MSARC-Net模型包括：初始阶段Stage0、第一阶段Stage1、第二阶段Stage2、第三阶段Stage3及第四阶段Stage4；

S2、在第一阶段Stage1及第二阶段Stage2中，将预设形状特征图输入至轻量型残差卷积L-RConv模块，据以处理得到残差卷积特征图，其中，轻量型残差卷积L-RConv模块采用ResNet50网络中的bottleneck residual block结构，轻量型残差卷积L-RConv模块包括第一残差卷积网络Conv Block及第二残差卷积网络Identity Block；

第一阶段Stage1中依次设置第一残差卷积网络Conv Block及不少于2个的第二残差卷积网络Identity Block，第二阶段Stage2中依次设置第一残差卷积网络Conv Block、不少于2个的第二残差卷积网络Identity Block，步骤S2包括：

S21、当步长为1时，利用第一残差卷积网络Conv Block对预设形状特征图进行降维，以得到降维特征图；

S22、当步长为2时，利用第一残差卷积网络Conv Block执行下采样操作，以增加感受野，并获取下采样特征图，将下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的新张量，逐点卷积深层输出特征，以对下采样特征图进行线性叠加；

S23、当预置形状特征图的输入维度不等于输出维度时，以第一残差卷积网络ConvBlock通过一个1×1的卷积及BN层进行维度变换，使得预置形状特征图的最终维度相等；

S24、当输入维度等于输出维度时，以第二残差卷积网络Identity Block串联学习预设形状特征图的特征信息，经第一阶段Stage1及第二阶段Stage2中轻量型残差卷积 L-RConv模块的处理，得到残差卷积特征图；

S3、第二阶段Stage2的轻量型残差卷积L-RConv模块后设置一个多头自注意力MSAs模块，以将残差卷积特征图输入至多头自注意力MSAs模块，利用Transformer 对残差卷积特征图进行多头自注意力学习，以获取残差卷积特征图中的全局信息，据以建立特征长距离依赖关系，根据特征长距离依赖关系融合残差卷积特征图中的局部特征与全局特征，以得到融合特征，步骤S3包括：

S31、同时并行运行k个SA操作，采用缩放点乘积注意力进行特征向量之间的相似度计算，以在特征向量之间建立长距离依赖关系；

S32、以多头自注意力MSAs模块连接k个单头自注意力，其中，第三阶段Stage3 中包括：不少于2个的轻量型残差卷积L-RConv模块及不少于2个的多头自注意力MSAs 模块，第四阶段Stage4中包括：不少于2个的轻量型残差卷积L-RConv模块及不少于2 个的多头自注意力MSAs模块，依次利用第二阶段Stage2的多头自注意力MSAs模块、第三阶段Stage3及第四阶段Stage4处理获取融合特征；

S4、采用全局平均池化GAP整合融合特征中的全局空间信息；

S5、利用全局空间信息，通过多层感知机MLP进行图像分类，以得到类别置信图，据以得到胸部图像处理结果，将下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的张量进行堆叠，逐点卷积深层输出特征，以进行线性叠加；

S6、利用Grad-CAM对预置MSARC-Net模型的胸部图像处理结果进行可视化，采用类激活热力图展示胸部CXR图像中的像素位置敏感数据，据以判定获取胸片识别分类数据。

本发明采用网络模型(MSARC-Net)，该模型在残差卷积网络ResNet50的基础上，采用多头自注意力(Multi-headed Self-attentions，MSAs)替换部分残差卷积的方式来建立特征的长距离依赖性，增强特征的表达能力和特征之间位置的相关性，从而提高图像分类的准确率。MSARC-Net模型在识别的精确度、灵敏度和特异性等方面具有较好的识别效果，另外，MSARC-Net模型在多项指标上均优于其基础模型ResNet50和其他分类模型，提升了图像分类的有效性。

本发明融合残差卷积和多头自注意力，从网络尾端开始每隔一层依次使用多头自注意力替换残差卷积来建立特征的全局依赖，增强特征的表达能力和特征之间位置的相关性。

本发明在COVID-19Radiography Database数据集上测试提出的MSARC-Net模型。MSARC-Net模型进一步提升了胸部CXR图像分类的准确率，证明了该模型对图像分类任务的有效性。

本发明为了减少网络参数并避免过拟合问题，在经过多个L-RConv模块和MSAs 模块后，采用GAP整合全局空间信息，最后通过MLP进行图像分类。MSARC-Net模型不仅能够提取CXR图像的浅层局部纹理信息，而且能够捕获图像的深层全局语义信息，同时继承了CNN和Transformer的优点。

每个输出特征可表示为类别对应的类别置信图，加强了特征图与类别的一致性。GAP的另一优点是不需要进行参数优化，在此层可避免过拟合。

在更具体的技术方案中，步骤S23中，第一残差卷积网络Conv Block的计算逻辑包括：

H(x)＝F(x)+x。

在更具体的技术方案中，步骤S24中，第二残差卷积网络Identity Block的计算逻辑包括：

H(x)＝F(x)+G(x)。

在更具体的技术方案中，步骤S24还包括：

S241、令输入特征图为x，令Identity Block左侧的3个卷积块、BN层及RELU为 F(x)，据以处理得到第一残差卷积处理结果及第二残差卷积处理结果；

S242、将第一残差卷积处理结果及第二残差卷积处理结果相加，经过1个RELU激活函数处理，以得到输出特征图。

本发明在每个输出上均添加了残差结构，避免造成网络退化和过拟合问题。

本发明基于ResNet50网络结构，采用轻量型残差卷积模块进行局部特征提取，避免了梯度消失和网络退化，同时减少了参数和计算量。

在更具体的技术方案中，步骤S24中，第一残差卷积网络Conv Block的右侧加设一1×1卷积层G(x)，据以调整匹配输入维度与输出维度的差异性；

在第一阶段Stage1中依次设置1个第一残差卷积网络Conv Block及2个第二残差卷积网络Identity Block；

在第二阶段Stage2中依次设置1个第一残差卷积网络Conv Block、2个第二残差卷积网络Identity Block以及1个多头自注意力MSAs模块。

在更具体的技术方案中，步骤S31中，利用下述逻辑，采用缩放点乘积注意力进行向量之间的相似度计算，以在特征向量之间建立长距离依赖关系：

式中，X表示输入序列，SA(×)表示SA操作，d表示头部的维度；

第三阶段Stage3及第四阶段Stage4中，在第一层设置1个第一残差卷积网络ConvBlock，其后依次交叠设置不少于2个的多头自注意力MSAs模块及不少于2个的第二残差卷积网络Identity Block。

本发明中的MSAs模块通过使用Transformer中的多头自注意力来学习图像特征的全局信息，建立特征的长距离依赖关系，增强特征的表达能力，最终实现局部特征与全局特征的融合。SA是Transformer的核心思想，具有弱归纳偏置的特点，通过进行相似度计算，能够在特征向量之间建立长距离依赖关系，提高特征提取和表达能力。

在更具体的技术方案中，获取并线性变换输入序列X得到向量查询Q、键K和值V，以作为每个SA操作的输入数据，训练学习获取权值矩阵W^Q、W^K、W^V，并将权值矩阵W^Q、 W^K、W^V相乘，以获得的新向量Q、K和V。

在更具体的技术方案中，步骤S32中，利用下述逻辑对串联学习结果进行线性投影操作：

X_m＝MSA(X)＝Concat[SA₁(X),SA₂(X),...,SA_k(X)]W_m，

式中，X_m表示MSA的输出，MSA(×)表示MSA操作，Concat[×]表示相同维度的特征拼接，用于连接每个头部的输出，W_m表示可学习的线性变换。

本发明中的MSA是一种低通滤波，通过把空间上的所有特征值进行求平均以减少高频信号的响应，能够有效聚合特征图，使提取的特征呈现多样化，增强特征的表达能力。除此之外，MSA还具有一定的数据特异性，即计算特征相似度时学习的权重与值V 相乘输出的结果只与Attention本身有关，与通道数无关。因此，与CNN采用固定权值进行特征提取的方式相比，MSA的数据特异性更能抑制负特征值的产生，从而有利于模型优化。

在更具体的技术方案中，在进入深度可分离卷积之前添加了一个1×1卷积，以扩展数据通道数。

本发明采用的深度可分离卷积相较于普通标准卷积可以有效地减少模型参数量和计算量，从而降低模型的算法复杂度。由于深度可分离卷积的特性无法改变其通道数，本发明在进入深度可分离卷积之前添加了一个1×1卷积来扩展数据中的通道数，以避免深度可分离卷积只能提取低维空间特征的缺点。

在更具体的技术方案中，基于残差卷积与多头自注意力的CXR图像分类系统包括：

初始阶段处理模块，用以预处理胸部CXR图像以得到预处理CXR图像，在预置MSARC-Net模型的初始阶段Stage0，将预处理CXR图像依次经过预置卷积、BN层、 RELU激活函数以及MaxPooling层，据以得到预设形状特征图，其中，预置MSARC-Net 模型包括：初始阶段Stage0、第一阶段Stage1、第二阶段Stage2、第三阶段Stage3及第四阶段Stage4；

第一及第二阶段处理模块，用以在第一阶段Stage1及第二阶段Stage2中，将预设形状特征图输入至轻量型残差卷积L-RConv模块，据以处理得到残差卷积特征图，其中，轻量型残差卷积L-RConv模块采用ResNet50网络中的bottleneck residual block结构，轻量型残差卷积L-RConv模块包括第一残差卷积网络Conv Block及第二残差卷积网络Identity Block；

第一阶段Stage1中依次设置第一残差卷积网络Conv Block及不少于2个的第二残差卷积网络Identity Block，第二阶段Stage2中依次设置第一残差卷积网络Conv Block、不少于2个的第二残差卷积网络Identity Block，第一及第二阶段处理模块与初始阶段处理模块连接，第一及第二阶段处理模块包括：

降维模块，用以在步长为1时，利用第一残差卷积网络Conv Block对预设形状特征图进行降维，以得到降维特征图；

下采样模块，用以在步长为2时，利用第一残差卷积网络Conv Block执行下采样操作，以增加感受野，并获取下采样特征图，将下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的新张量，逐点卷积深层输出特征，以进行线性叠加；

维度变换模块，用以在预置形状特征图的输入维度不等于输出维度时，以第一残差卷积网络Conv Block通过一个1×1的卷积及BN层进行维度变换，使得最终维度相等，维度变换模块与降维模块及下采样模块连接；

串联学习模块，用以在输入维度等于输出维度时，以第二残差卷积网络IdentityBlock串联学习预设形状特征图的特征信息，经第一阶段Stage1及第二阶段Stage2中轻量型残差卷积L-RConv模块的处理，以得到残差卷积特征图，串联学习模块与降维模块及下采样模块连接；

第三及第四阶段处理模块，用以在第二阶段Stage2的轻量型残差卷积L-RConv模块后设置一个多头自注意力MSAs模块，以将残差卷积特征图输入至多头自注意力 MSAs模块，利用Transformer对残差卷积特征图进行多头自注意力学习，以获取残差卷积特征图中的全局信息，据以建立特征长距离依赖关系，根据特征长距离依赖关系融合残差卷积特征图中的局部特征与全局特征，以得到融合特征，多头自注意力MSAs模块与轻量型残差卷积L-RConv模块连接，步骤S3包括：

依赖建立模块，用以同时并行运行k个SA操作，采用缩放点乘积注意力进行特征向量之间的相似度计算，以在特征向量之间建立长距离依赖关系；

自注意力连接模块，用以连接k个单头自注意力，其中，第三阶段Stage3中包括：不少于2个的轻量型残差卷积L-RConv模块及不少于2个的多头自注意力MSAs模块，第四阶段Stage4中包括：不少于2个的轻量型残差卷积L-RConv模块及不少于2个的多头自注意力MSAs模块，依次利用第二阶段Stage2的多头自注意力MSAs模块、第三阶段Stage3及第四阶段Stage4的处理获取融合特征，第三及第四阶段处理模块与第一及第二阶段处理模块连接；

全局平均池化GAP，用以整合融合特征中的全局空间信息，全局平均池化GAP与第三及第四阶段处理模块连接；

多层感知机MLP，用以利用全局空间信息，通过多层感知机MLP进行图像分类，以得到类别置信图，据以得到胸部图像处理结果，多层感知机MLP与全局平均池化GAP 连接；

可视化判断模块，用以利用Grad-CAM对预置MSARC-Net模型的胸部图像处理结果进行可视化，采用类激活热力图展示胸部CXR图像中的像素位置敏感数据，据以判定获取胸片识别分类数据，可视化判断模块与多层感知机MLP连接。

本发明相比现有技术具有以下优点：本发明采用网络模型(MSARC-Net)，该模型在残差卷积网络ResNet50的基础上，采用多头自注意力(Multi-headed Self-attentions，MSAs)替换部分残差卷积的方式来建立特征的长距离依赖性，增强特征的表达能力和特征之间位置的相关性，从而提高图像分类的准确率。MSARC-Net模型在识别的精确度、灵敏度和特异性等方面具有较好的识别效果，另外，MSARC-Net模型在多项指标上均优于其基础模型ResNet50和其他分类模型，提升了图像分类的有效性。

本发明采用的深度可分离卷积相较于普通标准卷积可以有效地减少模型参数量和计算量，从而降低模型的算法复杂度。由于深度可分离卷积的特性无法改变其通道数，本发明在进入深度可分离卷积之前添加了一个1×1卷积来扩展数据中的通道数，以避免深度可分离卷积只能提取低维空间特征的缺点。本发明解决了现有技术中存在的梯度消失、网络退化、算法复杂度较高、特征相关性弱以及分类有效性较低的技术问题。

附图说明

图1为本发明实施例1的MSARC-Net模型的整体网络结构示意图；

图2为本发明实施例1的L-RConv模块的数据处理流程示意图；

图3为本发明实施例1的多头自注意力的网络结构示意图；

图4为本发明实施例1的GAP的转换过程示意图；

图5为本发明实施例2的COVID-19Radiography Database数据集部分CXR图像示意图；

图6为本发明实施例2的不同位置MSA消融实验准确率曲线图；

图7为本发明实施例2的Loss随iterations的变化曲线图；

图8为本发明实施例2的MSARC-Net模型在验证集上的混淆矩阵示意图；

图9为本发明实施例2的不同分类模型测试CXR图像的类激活热力图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，

1MSARC-Net网络模型设计

为了快速准确地识别和检测COVID-19肺部CXR图像，本发明提出一种 MSARC-Net模型，主要结构包含轻量型残差卷积(Lightweight Residual Convolution， L-RConv)模块、多头自注意力(Multi-headed Self-attentions，MSAs)模块、全局平均池化(GlobalAverage Pooling，GAP)和多层感知机(Multi-Layer Perceptron，MLP)。 MSARC-Net模型的整体网络结构。

MSARC-Net模型主要由5个阶段(stage)组成，每个stage中都包含一个常规卷积以改变特征图的通道数和像素大小。首先将预处理后的CXR图像(224,224,3)先后经过步长为2，通道数为64的7×7卷积、BN层、RELU激活函数以及步长为2，大小为 3×3的MaxPooling层得到形状为(56,56,64)的特征图，如图1(a)所示。然后，将上一层得到的形状为(56,56,64)的特征图输入到L-RConv模块，L-RConv包括Conv Block和Identity Block两种残差卷积网络，分别如图1(b)和图1(c)所示，当步长为1时，Conv Block对特征图进行降维；当步长为2时，Conv Block执行下采样操作来增加感受野。在连续经过6个L-RConv模块后，将特征图输入到MSAs模块，其结构如图1(d)所示，MSAs模块通过使用Transformer中的多头自注意力来学习图像特征的全局信息，建立特征的长距离依赖关系，增强特征的表达能力，最终实现局部特征与全局特征的融合。为了减少网络参数和避免过拟合问题，在经过多个L-RConv模块和 MSAs模块后，采用GAP整合全局空间信息，最后通过MLP进行图像分类。在本实施例中，MSARC-Net模型不仅能够提取CXR图像的浅层局部纹理信息，而且能够捕获图像的深层全局语义信息，同时继承了CNN和Transformer的优点。请参阅表1，显示为 MSARC-Net模型结构细节与具体参数。

表1 MSARC-Net模型结构细节与具体参数

Table 1 Structural details and specific parameters of MSARC-Net model

1.1轻量型残差卷积模块

L-RConv模块采用ResNet50网络中的bottleneck residual block结构，该结构的基本原理是先对CXR特征图进行通道扩张，然后再进行通道恢复，最后对变化过的特征图相加并输出。bottleneck residual block结构的核心是深度可分离卷积。在本实施例中，深度可分离卷积包括一层深度卷积和一层逐点卷积，深度卷积大小为3×3，逐点卷积大小为1×1。将经过下采样后的特征图与相应的滤波器进行卷积，输出新张量，并将每个通道的张量进行堆叠，最后通过逐点卷积对深层输出的特征进行线性叠加。由于深度可分离卷积的特性无法改变其通道数，为了避免深度可分离卷积只能提取低维空间特征的缺点，本发明在进入深度可分离卷积之前添加了一个1×1卷积来扩展数据中的通道数。另外，在每个输出上均添加了残差结构，避免造成网络退化和过拟合问题。

深度可分离卷积比普通标准卷积拥有更少的参数量和计算量，能够降低模型的时间复杂度。假设输入特征图的大小为h_i×w_i×c_in，卷积核大小为c_in×k²×c_out，输出特征图的大小为h_i×w_i×c_out，则深度可分离卷积产生的参数量P_DWS和计算量C_DWS分别为：

P_DWS＝c_in×k²+c_in×c_out， (1)

C_DWS＝k²×(h_i-k+1)²×c_in+h_i ²×c_in×c_out， (2)

普通标准卷积产生的参数量P_STD和计算量C_STD为：

P_STD＝k²×c_in×c_out， (3)

C_STD＝k²×(h_i-k+1)²×c_in×c_out， (4)

在公式(5)中，n表示两者的比值。通常情况下，随着网络层数的加深，输出通道c_out比较大，因此深度可分离卷积相较于普通标准卷积可以有效地减少模型参数量和计算量，从而降低模型的算法复杂度。

如图2所示，L-RConv模块包括Conv Block和Identity Block两种残差网络结构。当特征图的输入维度不等于输出维度时，Conv Block需要用一个1×1的卷积和BN层进行维度变换，使得最终维度相等；当输入维度等于输出维度时，Identity Block直接通过串联学习特征信息。L-RConv模块的流程如图2所示，令输入特征图为x，Identity Block 左侧的3个卷积块(以及相关BN和RELU)为F(x)，两者相加后再经过1个RELU激活函数，得到输出特征图；而Conv Block比Identity Block多了一个右侧的1×1卷积层G(x)，其作用是对输入维度与输出维度的差异性进行调整匹配，进而可以进行求和。两种残差网络的计算过程分别如公式(6)和(7)所示。另外，Conv Block在不同的stage 中有不同的作用，具体表现为：1)Conv Block在stage1中的步长为1，主要进行降维操作，输入和输出大小相同；在其余stage中的步长为2，进行下采样操作，输入大小是输出的2倍。2)由于stage1中的输入通道数较小，Conv Block中的第一个1×1卷积不需减少通道数；而在其余stage中起到减少通道数的作用。

H(x)＝F(x)+x， (6)

H(x)＝F(x)+G(x)， (7)

1.2多头自注意力模块

如图3所示，多头自注意力主要是从不同层面处理来自不同位置表示不同子空间的信息。它是自注意力(Self-attention，SA)的一个扩展，同时并行运行k个SA操作，称为“heads”，并将串联后的结果进行投影输出，网络结构如图3所示。SA是Transformer 的核心思想，具有弱归纳偏置的特点，通过进行相似度计算，能够在特征向量之间建立长距离依赖关系，提高特征提取和表达能力。每个SA的输入分别由向量查询Q、键K 和值V组成，它们是输入序列X的线性变换，而新向量Q、K和V则是由训练过程中学习得到的权值矩阵W^Q、W^K、W^V相乘获得的。本发明采用缩放点乘积注意力(Scaled Dot-Product Attention)进行向量之间的相似度计算，具体公式如下：

其中，X表示输入序列，SA(×)表示SA操作，d表示头部的维度。

MSA简单地连接k个单头自注意力，并对其进行线性投影操作，公式如下：

X_m＝MSA(X)＝Concat[SA₁(X),SA₂(X),...,SA_k(X)]W_m， (9)

在式(9)中，X_m表示MSA的输出，MSA(×)表示MSA操作，Concat[×]表示相同维度的特征拼接，用于连接每个头部的输出，W_m表示可学习的线性变换。

MSA是一种低通滤波，通过把空间上的所有特征值进行求平均以减少高频信号的响应，能够有效聚合特征图，使提取的特征呈现多样化，增强特征的表达能力。除此之外，MSA还具有一定的数据特异性，即计算特征相似度时学习的权重与值V相乘输出的结果只与Attention本身有关，与通道数无关。因此，与CNN采用固定权值进行特征提取的方式相比，MSA的数据特异性更能抑制负特征值的产生，从而有利于模型优化。

CNN具有强归纳偏置且能够有效提取浅层网络中特征的局部纹理信息，MSA具有弱归纳偏置，同时可以在深层网络中建立特征的长距离依赖关系，从而能够提取到深层的全局语义信息。因此，将CNN与MSA结合并进行多层堆叠，可以获得更强的特征表达能力和更高的准确率。

1.3全局平均池化和多层感知机

如图4所示，本发明采用GAP的方法代替传统CNN中的全连接层。在传统CNN 中，全连接层一般提取全图特征，而在目前大多数图像分类、目标检测任务中只需提取能够覆盖目标物体的大小的感受野特征即可。另外，全连接层易于过度拟合、泛化能力差且严重依赖于Dropout正则化，容易造成训练时间过长等问题。而GAP可以输入任意大小的特征图，对每个特征图都进行全局均值池化，这样每张特征图都可以得到一个大小为1×1的输出特征，如图4所示，每个输出特征可表示为类别对应的类别置信图，加强了特征图与类别的一致性。GAP的另一优点是不需要进行参数优化，在此层可避免过拟合。另外，GAP整合了空间信息，对于输入图片的空间转换更加健壮。

经过全局平均池化操作的输出特征进入多层感知机进行图像分类。多层感知机的不同层之间是全连接的，包括三层：输入层、隐藏层、输出层。本发明采用RELU非线性激活函数来增强模型的拟合能力，加快训练速度，计算公式为：

其中，x表示非线性激活函数的输入。将输出特征输入至MLP层，通过隐藏层建立下层单个神经元的值与上层所有输入之间的连接，对特征进行非线性变换，将输出特征映射到softmax层进行概率分布，最终达到CXR图像分类的目的。计算公式为：

其中，x_i表示CXR图像中第i个标记，CXR图像中共有n个标记，a(x_i)为softmax 函数的输出结果。

实施例2

2实验结果与分析

2.1实验数据集

如图5所示，本发明选取COVID-19Radiography Database数据集作为实验数据，该数据集是由卡塔尔大学和达卡大学的研究人员与来自巴基斯坦和马来西亚的医生合作得到的，包含了来自15153名患者的15169张胸部CXR图像，其中包括3616例 COVID-19阳性患者、1345例病毒性肺炎患者以及10192例未感染者(正常人)。COVID-19RadiographyDatabase数据集部分CXR图像如图5所示。从图中可以看出，胸部CXR图像具有类内变异性低且类间相似度高的特点，给图像分类任务带来巨大挑战。

2.2实验环境与超参数设置

本实验选用PyTorch1.9.0框架，使用python3.8编程，硬件设备中CPU使用的是6核Intel(R)Xeon(R)Silver 4310CPU@2.10GHz，内存大小为30GB，GPU型号为RTX A4000，显存大小为16GB。训练过程中对模型中每个参数使用相同的学习率，其中学习率设置为0.0001，迭代次数设置为100，Batch size设置为64，图像分辨率设置为224 ×224。

2.3评价指标

为了验证MSARC-Net模型的有效性和鲁棒性，本实验选用了混淆矩阵和常用的评价指标进行效果评估，包括准确率(Accuracy)、精确度(Precision)、灵敏度(Sensitivity)、特异性(Specificity)及F1值(F1-score)。各个指标公式如下：

其中，N_c为正确预测的病例数，N_t为预测的病例总数，TP为正确预测COVID-19 阳性的病例数，TN为正确预测正常和病毒性肺炎的病例数，FP为正常或病毒性肺炎被误诊为COVID-19阳性的病例数，FN为COVID-19阳性被误诊为正常或病毒性肺炎的病例数。

2.4消融实验

为了分析并验证每个stage中堆叠MSA的数量和位置对模型性能的影响，本发明针对MSA设计了不同的比例配置以进行消融实验，验证不同数量和位置的MSA的性能，消融实验结果如表2所示，其中，Num_block1表示ResNet50模型中stage1-stage4阶段的卷积数量，Num_block2表示MSA在stage1-stage4阶段的数量和位置。所有实验在相同数据集和相同环境中进行，表中加粗数字表示最佳结果。

表2不同数量和位置的MSA对实验效果的影响

如图6所示，由前述表2和图6中的消融实验结果可知，MSA无论在哪个stage中替换卷积都使原来的ResNet50模型性能得到了很大的提升。当Num_block2＝[0,1,3,2]时，改进后的ResNet50模型(MSARC-Net模型)对COVID-19Radiography Database数据集的分类准确率最高，达到了98.00％，灵敏度和特异性也分别达到了97.37％和98.47％。由此可见，在ResNet50的基础上，从网络尾端开始每隔一层依次使用多头自注意力替换卷积，即MSARC-Net模型对COVID-19Radiography Database数据集的分类准确率最高，更好地增强特了征提取的表达能力和特征之间位置的相关性。

2.5不同模型性能分析

为了进一步验证MSARC-Net模型的有效性，本发明使用了VGG16、ResNet50、DenseNet161等传统CNN模型，MobileNet_v3、ShuffleNet、EfficientNet等轻量型CNN 模型，以及SwinTransformer、ViT等Transformer模型进行实验对比，结果如表3所示。表中加粗数字表示最佳结果。

由表3所知，MSARC-Net模型的分类准确率、精确度、灵敏度、特异性以及F1值均高于其他模型，取得了最高值，分别为98.00％、97.37％、96.20％、98.47与96.77％。在传统CNN对比模型中，DenseNet161模型的分类准确率最高，为97.19％，但仍比 MSARC-Net模型低了0.81％。因为DenseNet161模型需要连接网络所有层，随着稠密块深度的加深，深层输入特征图的维度和最终输出的维度都非常大，不利于网络优化。在对比的轻量型CNN模型中，EfficientNet模型的分类准确率最高，为97.38％，但比 MSARC-Net模型低了0.62％。因为EfficientNet模型虽然可以对网络深度、宽度以及分辨率进行放缩以获取更多的特征，从而提升精度，但是有限的感受野使其只能获取局部特征，全局建模能力较差，无法提取完整丰富的图像特征，因而分类效果不理想。在对比的Transformer模型中，SwinTransformer模型的分类准确率最高，为94.21％，但比 MSARC-Net模型低了3.79％。因为swintransformer模型采用的稀疏注意力与数据无关，可能会限制对远程关系建模的能力；ViT模型使用密集注意力导致过多的内存和计算成本并且在小数据集上的效果比较差。MSARC-Net模型充分利用CNN和Transformer的优点进行CXR图像分类，不仅能够提取到CXR图像的浅层局部纹理信息，而且能够捕获图像的深层全局语义信息，实现更高的分类效果。

表3不同模型的评价指标效果对比

Table 3 Comparison of evaluation indexes of different models unit:％

如图7所示，由图中曲线可知，MSARC-Net模型和ResNet50模型的收敛速度较快，可以看出在iterations分别为10和15时模型开始逐渐收敛，震荡幅度越来越弱，最终趋于平稳；而SwinTransformer模型的收敛速度最慢，在iterations为57时开始逐渐收敛，最终趋于稳定。这些数据表明了在相同数据集上MSARC-Net模型的训练时间较短，收敛速度较快，提高了模型分类的准确率。

表4为MSARC-Net模型在COVID-19Radiography Database数据集中各类别的评价指标的具体展示。

如图8所示，MSARC-Net模型在验证集上的混淆矩阵可以直观地显示COVID、Normal和Viral识别的结果。由表4中实验结果可知，在COVID-19Radiography Database 数据集上，MSARC-Net模型对COVID病例识别的精确度、灵敏度、特异性以及F1值分别为98.34％、97.38％、99.47％和97.86％，达到了较高的分类效果。由图8中的混淆矩阵可以直观的看出MSARC-Net模型在对COVID病例进行识别时出现了24个错误分类，正确预测了1408个COVID病例，错误率仅为1.70％。因此，MSARC-Net模型可以有效并稳健地识别COVID病例的CXR图像。

表4 MSARC-Net模型的评价指标展示

Table 4 Evaluation index display of MSARC-Net model unit:％

2.6结果可视化

使用Grad-CAM对MSARC-Net模型的实验结果进行可视化，采用类激活热力图[30]展示CXR图像中哪些位置的像素比较敏感从而判定图像的识别与分类。在类激活热力图中，越敏感的位置，温度越高，特征识别能力越强；越不敏感的位置，温度越低，特征识别能力越差。不同分类模型测试CXR图像的类激活热力图如图9所示，其中，(a) 列中的三张图像分别为COVID-19Radiography Database数据集中COVID-19、Viral、 Normal类别的一个具有代表性的原始图像，(b)-(j)分别代表了不同分类模型对(a) 列三张CXR图像测试学习的结果，颜色越深的区域对分类模型特征识别的影响越大。

如图9所示，本发明提出的MSARC-Net模型提取的分类特征主要集中在CXR图像中的胸部或胸部感染区域，具有较强的特征识别和分类能力。(i)ViT模型的特征提取最差，紧接着是(h)SwinTransformer模型和(e)MobileNet_v3模型。ViT模型和 SwinTransformer模型的结果表明无论是采用稀疏注意力还是密集注意力都会对特征提取有一定的局限性。

图9中不同分类模型的结果还显示了(d)DenseNet161模型、(f)ShuffleNet模型、(g)EfficientNet模型和(j)MSARC-Net模型的特征提取能力较强，提取的特征均匀地集中在肺部或肺部感染区域。说明了轻量型卷积神经网络本身就具有较强的特征提取能力，而多头自注意力对特征具有远程关系建模的能力，两者结合后提取的特征更全面，表达能力更强，对于提取具有强分类意义的特征很重要。

(a)原图；(b)VGG16模型；(c)ResNet50模型；(d)DenseNet161模型； (e)MobileNet_v3模型；(f)ShuffleNet模型；(g)EfficientNet模型；(h)SwinTransformer 模型；(i)ViT模型；(j)MSARC-Net模型。

3结论

本发明提出了针对COVID-19CXR图像分类的MSARC-Net模型。该模型采用轻量型残差卷积模块和MSA模块分别提取CXR图像的浅层局部纹理信息和深层全局语义信息，增强特征提取的表达能力和特征之间位置的相关性，从而提高图像分类的准确率。在公开访问的COVID-19Radiography Database数据集上进行图像分类的实验结果表明： MSARC-Net模型的整体准确率、精确度、灵敏度、特异性及F1值均达到了最佳效果，分别为98.00％、97.37％、96.20％、98.47％及96.77％；对COVID-19具有较好的识别效果，其识别的精确度、灵敏度和特异性分别为98.34％、97.38％和99.47％。通过实验结果对比发现，MSARC-Net模型能够更加快速准确的识别和检测COVID-19中的CXR 图像。虽然MSARC-Net模型对COVID-19CXR图像分类取得了不错的效果，但仍需要进一步的临床研究和测试。

综上，本发明采用网络模型(MSARC-Net)，该模型在残差卷积网络ResNet50的基础上，采用多头自注意力(Multi-headed Self-attentions，MSAs)替换部分残差卷积的方式来建立特征的长距离依赖性，增强特征的表达能力和特征之间位置的相关性，从而提高图像分类的准确率。MSARC-Net模型在识别的精确度、灵敏度和特异性等方面具有较好的识别效果，另外，MSARC-Net模型在多项指标上均优于其基础模型ResNet50 和其他分类模型，提升了图像分类的有效性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述方法包括：

S1、预处理胸部CXR图像以得到预处理CXR图像，在预置MSARC-Net模型的初始阶段Stage0，将所述预处理CXR图像依次经过预置卷积、BN层、RELU激活函数以及MaxPooling层，据以得到预设形状特征图，其中，所述预置MSARC-Net模型包括：所述初始阶段Stage0、第一阶段Stage1、第二阶段Stage2、第三阶段Stage3及第四阶段Stage4；

S2、在所述第一阶段Stage1及所述第二阶段Stage2中，将所述预设形状特征图输入至轻量型残差卷积L-RConv模块，据以处理得到残差卷积特征图，其中，所述轻量型残差卷积L-RConv模块采用ResNet50网络中的bottleneck residual block结构，所述轻量型残差卷积L-RConv模块包括：第一残差卷积网络Conv Block及第二残差卷积网络Identity Block；

所述第一阶段Stage1中依次设置所述第一残差卷积网络Conv Block及不少于2个的所述第二残差卷积网络Identity Block，所述第二阶段Stage2中依次设置所述第一残差卷积网络Conv Block、不少于2个的所述第二残差卷积网络Identity Block，所述步骤S2包括：

S21、当步长为1时，利用所述第一残差卷积网络Conv Block对所述预设形状特征图进行降维，以得到降维特征图；

S22、当步长为2时，利用所述第一残差卷积网络Conv Block执行下采样操作，以增加感受野，并获取下采样特征图，将所述下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的所述新张量，逐点卷积深层输出特征，以对所述下采样特征图进行线性叠加；

S23、当所述预置形状特征图的输入维度不等于输出维度时，以所述第一残差卷积网络Conv Block通过一个1×1的卷积及BN层进行维度变换，使得所述预置形状特征图的最终维度相等；

S24、当输入维度等于输出维度时，以所述第二残差卷积网络Identity Block串联学习所述预设形状特征图的特征信息，经所述第一阶段Stage1及所述第二阶段Stage2中所述轻量型残差卷积L-RConv模块的处理，得到所述残差卷积特征图；

S3、所述第二阶段Stage2的所述轻量型残差卷积L-RConv模块后设置一个多头自注意力MSAs模块，以将所述残差卷积特征图输入至多头自注意力MSAs模块，利用Transformer对所述残差卷积特征图进行多头自注意力学习，以获取所述残差卷积特征图中的全局信息，据以建立特征长距离依赖关系，根据所述特征长距离依赖关系融合所述所述残差卷积特征图中的局部特征与全局特征，以得到融合特征，所述步骤S3包括：

S31、同时并行运行k个SA操作，采用缩放点乘积注意力进行特征向量之间的相似度计算，以在所述特征向量之间建立长距离依赖关系；

S32、以所述多头自注意力MSAs模块连接k个单头自注意力，其中，所述第三阶段Stage3中包括：不少于2个的所述轻量型残差卷积L-RConv模块及不少于2个的所述多头自注意力MSAs模块，所述第四阶段Stage4中包括：不少于2个的所述轻量型残差卷积L-RConv模块及不少于2个的所述多头自注意力MSAs模块，依次利用所述第二阶段Stage2的所述多头自注意力MSAs模块、所述第三阶段Stage3及所述所述第四阶段Stage4处理获取所述融合特征；

S4、采用全局平均池化GAP整合所述融合特征中的全局空间信息；

S5、利用所述全局空间信息，通过多层感知机MLP进行图像分类，以得到类别置信图，据以得到胸部图像处理结果，将所述下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的张量进行堆叠，逐点卷积深层输出特征，以进行线性叠加；

S6、利用Grad-CAM对所述预置MSARC-Net模型的所述胸部图像处理结果进行可视化，采用类激活热力图展示所述胸部CXR图像中的像素位置敏感数据，据以判定获取胸片识别分类数据。

2.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S23中，所述第一残差卷积网络ConvBlock的计算逻辑包括：

H(x)＝F(x)+x。

3.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S24中，所述第二残差卷积网络Identity Block的计算逻辑包括：

H(x)＝F(x)+G(x)。

4.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S24还包括：

S241、令输入特征图为x，令Identity Block左侧的3个卷积块、所述BN层及所述RELU为F(x)，据以处理得到第一残差卷积处理结果及第二残差卷积处理结果；

S242、将所述第一残差卷积处理结果及所述第二残差卷积处理结果相加，经过1个所述RELU激活函数处理，以得到输出特征图。

5.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S24中，所述第一残差卷积网络Conv Block的右侧加设一1×1卷积层G(x)，据以调整匹配输入维度与输出维度的差异性；

在所述第一阶段Stage1中依次设置1个所述第一残差卷积网络Conv Block及2个所述第二残差卷积网络Identity Block；

在所述第二阶段Stage2中依次设置1个所述第一残差卷积网络Conv Block、2个所述第二残差卷积网络Identity Block以及1个所述多头自注意力MSAs模块。

6.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S31中，利用下述逻辑，采用缩放点乘积注意力进行向量之间的相似度计算，以在特征向量之间建立长距离依赖关系：

式中，X表示输入序列，SA(×)表示SA操作，d表示头部的维度；

所述第三阶段Stage3及所述第四阶段Stage4中，在第一层设置1个所述第一残差卷积网络Conv Block，其后依次交叠设置不少于2个的所述多头自注意力MSAs模块及不少于2个的所述第二残差卷积网络Identity Block。

7.根据权利要求6所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，获取并线性变换输入序列X得到向量查询Q、键K和值V，以作为每个所述SA操作的输入数据，训练学习获取权值矩阵W^Q、W^K、W^V，并将所述权值矩阵W^Q、W^K、W^V相乘，以获得的新向量Q、K和V。

8.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，所述步骤S32中，利用下述逻辑对所述串联学习结果进行线性投影操作：

X_m＝MSA(X)＝Concat[SA₁(X)，SA₂(X)，...，SA_k(X)]W_m，

9.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类方法，其特征在于，在进入深度可分离卷积之前添加了一个1×1卷积，以扩展数据通道数。

10.根据权利要求1所述的基于残差卷积与多头自注意力的CXR图像分类系统，其特征在于，所述系统包括：

初始阶段处理模块，用以预处理胸部CXR图像以得到预处理CXR图像，在预置MSARC-Net模型的初始阶段Stage0，将所述预处理CXR图像依次经过预置卷积、BN层、RELU激活函数以及MaxPooling层，据以得到预设形状特征图，其中，所述预置MSARC-Net模型包括：所述初始阶段Stage0、第一阶段Stage1、第二阶段Stage2、第三阶段Stage3及第四阶段Stage4；

第一及第二阶段处理模块，用以在所述第一阶段Stage1及所述第二阶段Stage2中，将所述预设形状特征图输入至轻量型残差卷积L-RConv模块，据以处理得到残差卷积特征图，其中，所述轻量型残差卷积L-RConv模块采用ResNet50网络中的bottleneck residualblock结构，所述轻量型残差卷积L-RConv模块包括：第一残差卷积网络Conv Block及第二残差卷积网络Identity Block；

所述第一阶段Stage1中依次设置所述第一残差卷积网络Conv Block及不少于2个的所述第二残差卷积网络Identity Block，所述第二阶段Stage2中依次设置所述第一残差卷积网络Conv Block、不少于2个的所述第二残差卷积网络Identity Block，所述第一及第二阶段处理模块与所述初始阶段处理模块连接，所述第一及第二阶段处理模块包括：

降维模块，用以在步长为1时，利用所述第一残差卷积网络Conv Block对所述预设形状特征图进行降维，以得到降维特征图；

下采样模块，用以在步长为2时，利用所述第一残差卷积网络Conv Block执行下采样操作，以增加感受野，并获取下采样特征图，将所述下采样特征图与预置滤波器进行卷积，以输出新张量，堆叠处理每个通道的新张量，逐点卷积深层输出特征，以进行线性叠加；

维度变换模块，用以在所述预置形状特征图的输入维度不等于输出维度时，以所述第一残差卷积网络Conv Block通过一个1×1的卷积及BN层进行维度变换，使得最终维度相等，所述维度变换模块与所述降维模块及所述下采样模块连接；

串联学习模块，用以在输入维度等于输出维度时，以所述第二残差卷积网络IdentityBlock串联学习所述预设形状特征图的特征信息，经所述第一阶段Stage1及所述第二阶段Stage2中所述轻量型残差卷积L-RConv模块的处理，以得到所述残差卷积特征图，所述串联学习模块与所述降维模块及所述下采样模块连接；

第三及第四阶段处理模块，用以在所述第二阶段Stage2的所述轻量型残差卷积L-RConv模块后设置一多头自注意力MSAs模块，以将所述残差卷积特征图输入至多头自注意力MSAs模块，利用Transformer对所述残差卷积特征图进行多头自注意力学习，以获取所述残差卷积特征图中的全局信息，据以建立特征长距离依赖关系，根据所述特征长距离依赖关系融合所述所述残差卷积特征图中的局部特征与全局特征，以得到融合特征，所述多头自注意力MSAs模块与所述轻量型残差卷积L-RConv模块连接，所述步骤S3包括：

依赖建立模块，用以同时并行运行k个SA操作，采用缩放点乘积注意力进行特征向量之间的相似度计算，以在所述特征向量之间建立长距离依赖关系；

自注意力连接模块，用以连接k个单头自注意力，其中，所述第三阶段Stage3中包括：不少于2个的所述轻量型残差卷积L-RConv模块及不少于2个的所述多头自注意力MSAs模块，所述第四阶段Stage4中包括：不少于2个的所述轻量型残差卷积L-RConv模块及不少于2个的所述多头自注意力MSAs模块，依次利用所述第二阶段Stage2的所述多头自注意力MSAs模块、所述第三阶段Stage3及所述所述第四阶段Stage4的处理获取所述融合特征，所述第三及第四阶段处理模块与所述第一及第二阶段处理模块连接；

全局平均池化GAP，用以整合所述融合特征中的全局空间信息，所述全局平均池化GAP与所述第三及第四阶段处理模块连接；

多层感知机MLP，用以利用所述全局空间信息，通过多层感知机MLP进行图像分类，以得到类别置信图，据以得到胸部图像处理结果，所述多层感知机MLP与所述全局平均池化GAP连接；

可视化判断模块，用以利用Grad-CAM对所述预置MSARC-Net模型的所述胸部图像处理结果进行可视化，采用类激活热力图展示所述胸部CXR图像中的像素位置敏感数据，据以判定获取胸片识别分类数据，所述可视化判断模块与所述多层感知机MLP连接。