CN114170232B

CN114170232B - 基于Transformer的X线胸片自动诊断与新冠感染区分割方法

Info

Publication number: CN114170232B
Application number: CN202111461101.5A
Authority: CN
Inventors: 孙俊
Original assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Current assignee: Uni Entropy Intelligent Technology Wuxi Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2024-01-26
Anticipated expiration: 2041-12-02
Also published as: CN114170232A

Abstract

基于Transformer的X线胸片自动诊断与新冠感染区分割方法，属于图像处理领域。该网络由双路嵌入层、Transformer模块、图像分割解码器三部分组成。双路嵌入层通过两种方式编码图像特征——二维卷积和ResNet34网络前四层，分别输出X线胸片浅层直观特征和深层抽象特征。Transformer模块是整个网络的核心，通过它，网络综合考虑了图片的局部特征与全局特征，深层抽象特征与浅层高级特征。分割解码器用于输出新冠肺部感染区的分割结果。网络使用一种不确定性损失以动态平衡分类与分割任务。分类损失函数是分类对比损失函数和交叉熵损失的和，分割损失使用的是二分类的交叉熵损失。

Description

基于Transformer的X线胸片自动诊断与新冠感染区分割方法

技术领域

本发明属于图像处理领域，具体涉及一种基于Transformer的X线胸片自动诊断与新冠感染区分割方法。

背景技术

自2020年，一种新型冠状病毒引发的肺炎疫情在全世界迅速蔓延，严重威胁着人类健康与生命。世界卫生组织将这种新型冠状病毒肺炎命名为“2019新型冠状病毒病”(Corona Virus Disease 2019)，简称“新冠肺炎”或“COVID-19”。据Worldometer网站报道，截至到2021年9月23日，全球约有230亿感染病例，超过470万人死亡。新冠肺炎是一种由新型冠状病毒引起的急性呼吸道传染病，传染性强，症状隐蔽，病死率高。控制新冠肺炎传播的关键是尽快筛查出被感染者并及时隔离治疗，防止出现大规模的“人传人”。如何快速识别出人群中的病毒携带者，这困扰着各国的疫情防治。目前，大规模应用的方法是核酸检测，即PCR(聚合酶链反应)。它是通过查找患者的呼吸道标本中是否存在新冠病毒的核酸，来确定是否被感染。因此一旦检测为核酸“阳性”，即可证明患者体内有病毒存在。然而，这种检测明显存在着一些局限，一是传统的实验室方法耗时耗力；二是检测结果会存在假阴性；三是检测结果具有一至两天的滞后性。因此，为应对大规模的实时检测，开发一款快速精准的计算机辅助诊断方法至关重要。

近年来，人工智能飞速发展，并被广泛应用到各个领域。其中，深度学习，作为人工智能技术的核心，已被应用于肺部医学影像的自动诊断或病灶分割。主要涉及两种放射成像影片，即胸部CT(CT)和X线胸片(CXR)。由于CT成像会产生强辐射，一般禁止用于孕妇和儿童。CXR作为一种非侵入性检查辐射明显低于CT，而且CXR成像比CT成像更快也更便宜。因此，与CT相比，CXR更适合大规模使用。本发明的工作主要面向CXR影像的自动诊断分类和新冠感染区分割。

为对抗新冠病毒，前人已经提出了各种深度学习的CXR自动诊断分类网络，并且几乎都是基于卷积神经网络(CNN)的架构。Farooq等人通过改进ResNet50提出COVID-ResNet用于CXR的4分类诊断，准确率为96.23％【M Farooq and A Hafeez.2020.COVID-ResNet:ADeep Learning Framework for Screening of COVID19 from Radiographs.[EB/OL].[2020-03-31].】。Apostolopoulos等人报道了一种结合迁移学习的Vgg19网络，可以在CXR的2分类诊断上达到98.75％的准确率【I D Apostolopoulos and T AMpesiana.2020.Covid-19:automatic detection from X-ray images utilizingtransfer learning with convolutional neural networks.Physical and EngineeringSciences in Medicine 43(2):635-640[DOI:10.1007/s13246-020-00865-4]】。Des等人精简了Inception_v3网络，面向CXR的3分类诊断和4分类诊断分别达到了99.96％和99.92％的准确率【D Das,K C Santosh,and U Pal.2020.Truncated inception net:COVID-19outbreak screening using chest X-rays.Physical and Engineering Sciences inMedicine 43(3):915-925[DOI:10.1007/s13246-020-00888-x]】。此外，Owaist等人提出一种聚合了多级特征的深度网络，能以95.38％的准确率筛选出COVID-19感染者(CXR的2分类诊断)【M Owais,Y WLee,T Mahmood,AHaider,and K R Park.2021.Multilevel Deep-Aggregated BoostedNetwork to Recognize COVID-19Infection from Large-ScaleHeterogeneous Radiographic Data.IEEE Journal of Biomedical and HealthInformatics 25(6):1881-1891[DOI:10.1109/JBHI.2021.3072076]】。虽然现有网络都表现出了卓越的分类精度，但由于它们训练测试的数据过少，有的只有几百张CXR，很难满足深度网络的数据需求，可能存在网络过拟合，而且它们对CXR的分类相对简单。在CNN中，卷积操作从图片的固有像素提取局部特征，而不管这些特征的优先级如何。当肺部疾病的分类粒度进一步细化，CNN可能不再是处理CXR的最佳选择。为了克服卷积操作的局限性并增加图片的全局信息，我们使用了Vision Transformer(ViT)，该架构能通过注意力机制对图片的高级上下文特征进行建模。在这之前，Park首先提出了一种基于ViT的模型，实现了对CXR的自动分类诊断和肺部感染新冠的严重性量化，在三个外部数据集上测试，该模型分别实现了93.2％、92.1％和92.8％的3分类诊断【S Park,GKim,YOh,JB Seo,S MLee,JH Kim,SMoon,J K Lim,and J C Ye.2021.Vision Transformer using Low-level Chest X-rayFeature Corpus for COVID-19Diagnosis and Severity Quantification.[EB/OL].[2021-04-15].】。但是，与计算机视觉中的大多数Transformer架构【N Carion,F Massa,GSynnaeve,N Usunier,A Kirillov,and S Zagoruyko.2020.End-to-End ObjectDetection with Transformers.[EB/OL].[2020-03-28].】一样，Park提出的网络使用深层抽象特征(通过DenseNet主干提取)作为嵌入输入，完全忽略了CXR影像的表观特征。

至于在医学影像的分割领域，现如今也越来越多地采用基于CNN的深度网络框架。Ronneberger等人提出了U-Net模型，采用一种编码器-解码器的架构对图像进行像素级的分类，编码器通过卷积和下采样提取高分辨率的语义信息，解码器通过卷积和上采样将编码特征输出为二值分割掩模(分割标签)，并且使用跳跃连接将编码特征与解码特征连接，以避免梯度消失。由于U-Net具有优异的分割性能，自提出以来，大量的改进架构被提出。Zhou等人提出了一个具有密集和嵌套连接(跳跃连接)的U-Net版本，有效地提升了U-Net的分割性能，称作U-Net+。在U-Net和它的改进架构中，编码器的连续下采样和大步卷积操作可能会导致某些特征信息的丢失。因此，Gu等人使用了一种新的语义编码器，即ResNet34的前四层，以收集更多的上下文特征，减少特征的丢失，名为CE-Net(Context EncoderNetwork)。同样，由于卷积操作固有的局部特性，这些基于CNN的分割模型也不能实现对全局特征的建模。

发明内容

本发明旨在解决现有技术存在的技术问题，提供一种基于Transformer的X线胸片自动诊断与新冠感染区分割方法。所述X线胸片自动诊断只是对X线胸片的图片分类处理，并不能直接诊断是否患有疾病。本发明的工作体现在四个方面：1、构建了一个基于Transformer的深度网络，命名为VITNet，能够同时实现肺部医学影像的分类诊断和区域分割。2、提出了一种适合对分类和分割进行联合训练的混合损失函数。3、编译了一个CXR五分类并带有新冠肺部感染区分割标签的新数据集。4、将提出的架构应用于CXR自动诊断分类和新冠感染区分割，结果优于主流的分类和分割CNN深度网络模型。

本发明的技术方案：

基于Transformer的X线胸片自动诊断与新冠感染区分割方法，步骤如下：

(1)使用二维卷积对原始的X线胸片进行Embedding编码，将二维图像转换为向量序列；二维卷积的卷积步长等于卷积核的尺寸。

(2)对生成的向量序列嵌入位置编码；

(3)使用六个Transformer编码器对嵌入位置编码后的向量序列进行自注意力编码，获得图像的浅层高级语义特征；

(4)将原始的X线胸片输入至预训练好的ResNet34中，只使用ResNet34的前四层生成X线胸片的特征图，将特征图线性展开获得X线胸片的深层抽象特征；

(5)对深层抽象特征嵌入位置编码；

(6)使用交叉注意力模块对步骤(3)得到的浅层高级语义特征以及步骤(5)嵌入位置编码后的深层抽象特征交叉注意力；

(7)将交叉注意后的预测头进行分类对比损失，

(8)将交叉注意后的预测头送入全连接层生成分类结果，将分类结果进行交叉熵损失；

(9)拼接Transformer交叉注意后的除预测头的其他向量，生成中间特征图用于分割解码输出；

(10)将中间特征图依次通过四个解码层，每个解码模块由1×1卷积、3×3的逆卷积和1×1卷积三部分组成；

(11)将步骤(4)得到的ResNet34每层的编码特征图依次加到步骤(10)中每个解码层的中间输出特征，保证收敛速度，输出最终解码后的特征图；

(12)将最终解码后的特征图进行二分类的交叉熵损失，进行基于像素点的前景、背景分割预测，得到分割结果；

(13)使用不确定性损失动态平衡分类与分割训练任务。

本发明的有益效果：自新冠肺炎爆发以来，许多的基于医学影像的自动诊断网络或感染区分割网络被相继提出，但是它们的网络只能应对分类或分割一类任务。本发明中，提出了一种基于Transformer的深度学习网络，能够同时完成对X线胸片的诊断和感染区划分。同时，由于联合训练分类和分割两种任务，一种混合的损失函数被应用到我们的网络中。最后，在我们自行构建的数据集上进行训练和测试，结果表明所提网络相比主流的分类或分割的卷积网络模型具有更优异的性能。但经讨论，我们认为这个Transformer的网络可能并不适合在大规模的精细筛查，而更适合粗略的初步筛查和配合医生诊断。

附图说明

图1多头注意力计算过程图。

图2自动诊断与区域分割的网络架构。

图3Transformer模块的网络结构。

图4各网络分类结果的混淆矩阵。

图5不同网络的分割案例结果展示。

具体实施方式

以下结合附图和实施例对本申请的技术方案进行进步一说明。

1多头注意力机制

Transformer的初次提出是为了解决机器翻译问题，相比于RNN等网络架构，它更能关注到全局的上下文信息，这主要得益于它的编码方式和多头注意力机制(MHA)。Transformer的编码输入是同维(d维)向量的有序序列，表示了所有的上下文特征。多头注意力机制，将输入序列矩阵中每个向量h等分，整个矩阵随即分为h个不同的部分，原序列特征被映射到了h个子空间中，h是总头数，每个注意力关注一个子空间上的输入信息。图1显示了多头注意力模块的计算过程，MHA的输入是三个输入序列矩阵(查询矩阵，关键值矩阵和数值矩阵)分别映射到h子空间的结果，表示为[q₁...q_h]，[k₁...k_h]，[v₁...v_h]。当[q₁...q_h]，[k₁...k_h]，[v₁...v_h](三个输入矩阵)的数据特征完全相同，MHA输出自注意力后的结果；当[q₁...q_h]，[k₁...k_h]与[v₁...v_h]的表示特征不同，MHA输出交叉注意力后的结果。

output＝MHA([q₁...q_h],[k₁...k_h],[v₁...v_h]) (1)

多头注意力机制最大的特点就是能够根据头数平行的计算，大大节省运行时间。如图1，对于第i个头的输入q_i，k_i，v_i，首先进行线性映射分别输出为Q_i,K_i,V_i，如下式：

然后，通过下式计算第i头的输出。最后，将各个头的输出拼接起来即为MHA的最终输出。

在式(3)中，softmax函数计算出了注意力权重矩阵。与V_i乘积，以输出数值特征V_i经注意力后的结果。d是常数，数值为输入序列中向量的维度，在softmax中用于缩小(scaled)高维向量数值。

2自动诊断与区域分割网络

2.1整体架构

如图1所示，本发明提出了一种基于Vision Transformer(ViT)的深度学习网络，能同时完成对CXR自动分类诊断与新冠感染区域分割两种任务。即，当CXR被诊断分类出感染新冠肺炎，网络同时将感染区域分割。网络的整体框架主要由三个部分组成，即双路嵌入层、Transformer模块、图像分割解码器。

2.2双路嵌入层

大多数ViT网络的数据嵌入方式单一，图像编码输入或者是深层特征序列或者是浅层特征序列。双路嵌入层通过两种映射方式，分别提取出CXR的浅层直观特征与深层抽象特征。一是线性分割CXR为多个小补丁块，将每块补丁的像素数据直接卷积映射到D维空间，得到表示直观特征的向量序列矩阵[x₁,x₂,...x_N]；二是使用预训练的网络生成D通道的特征图(H,W,D)，再将其线性展开，得到长度为H×W的D维特征向量序列[x'₁,x'₂,...x'_N]，表达CXR的深层抽象特征。

如图2所示，对于同一张CXR输入，一方面，以32×32的滑动窗口线性分割图片(Linear Project)并使用二维卷积映射出512维向量；另一方面，通过预训练的ResNet-34的前四层(Backbone)提取出大小为(14,14,512)特征图，按通道展开为长度为196的512维向量的线性序列。第一种方式中，每次卷积操作都被限制在滑动窗口裁剪出来的补丁块；第二种方式中，通过ResNet-34前四层生成特征图，CXR每个位置多层卷积的感受野不能保证完全覆盖原图。因此，两种方式嵌入的向量表示了局部的浅层或深层特征。

2.3 Transformer模块

首先，在嵌入的向量序列[x₁,x₂,...x_N]中添加一个用于分类预测的头向量(headtoken)，得到[x_pred,x₁,x₂,...x_N]。然后，添加位置编码，如下式

y₍₀₎＝[x_pred,x₁,x₂,...x_N]+E_pos (5)

x_pred∈R^D称为预测头，E_pos∈R^N+1，y₍₀₎表示第一个Transformer编码器的输入。同样的操作处理[x'₁,x'₂,...x'_N]得到y'₍₀₎。

如图2，Transformer模块由6个编码器和1个交叉注意力模块串联构成。第i个编码器的计算如下式

y_(i)表示第i个编码器的输出。多头注意力输入矩阵都是y_(i-1)。参考图3，输入序列首先经过多头的自注意力模块(MHA)，然后使用残差，归一化得到中间输出y_(i-1)'，最后送入多层感知机(MLP)中，并继续采用残差，归一化，得到输出y_(i)。残差和归一化能避免梯度消失，以加速网络的收敛。通过自注意力机制，每个编码器非线性地输出全局感受特征。多个编码器串联使用，能获得不同层次的特征，高层次特征的语义性更强。最后，编码器输出高阶的上下文特征。

交叉注意力模块是整个Transformer模块的核心。它将Transformer编码器的高阶上下文特征与卷积出来的深层抽象特征进行交叉注意。计算如下式(7)，过程见图3。

y'₍₀₎是深层特征序列添加预测头和位置编码后的结果。在交叉注意力模块中，先使用自注意力处理深层特征序列，在将处理结果与高阶的上下文特征交叉注意力，最后送入多层感知机。这个模块有两个优点：一是综合考虑ResNet34提取的局部特征与Transformer编码器输出的全局特征；二是综合考虑深层抽象特征与自注意力编码后的浅层高级特征。

Transformer模块的输出结果是的是z，表达为

z＝[z_pred,z₁,z₂,...z_N] (8)

输出的预测头z_pred用于分类任务。剩余向量序列[z₁,z₂,...z_N]经过拼接用于图像分割。实际网络中，[z₁,z₂,...z_N]拼接后的维度是196×512，重组(Reshape)后，特征图的维度14×14×512。

2.4分割解码模块

在医学影像分割的编码器-解码器架构中，典型的解码器主要采用两种方法来还原图像尺寸：上采样和逆卷积。上采样通过线性插值的方式来改变特征图尺寸，而逆卷积使用卷积映射自适应地增大特征图。因此，分割解码器使用逆卷积操作来恢复图像尺寸。为了保证解码特征图与相应的编码特征图尺寸相同，分割解码器依次由1×1的卷积，滑动步数为2的3×3的逆卷积和1×1的卷积三部分构成，如图2所示。3×3的卷积扩大特征图的尺寸为原来的一倍。1×1的卷积可以有效控制输入输出的特征图通道数，保持特征信息不丢失。使用跳跃连接将编码特征图对应加到尺寸相当的解码特征图，使网络具有较大的反向梯度，以尽快收敛。

3分类与分割联合训练的混合损失

3.1分类任务损失

分类任务的损失函数由分类对比损失(Contrastive loss)和交叉熵损失两部分构成，表达如式(9)。对比损失函数能够减小不同类别预测头的相似度，并增加同一类别的预测头的相似度。

在分类对比损失中，sim函数表示计算z_i，z_j两个向量的余弦相似度。α表示截断值，设置为0.4。如图2，z_i，z_j对应着Transformer模块输出的预测头z_pred。对每个预测头z_pred使用全连接，分类输出进行交叉熵损失函数计算。

3.2分割与联合训练损失

CXR分割任务的目标是将新冠肺炎的病灶区域标注为前景色，其他部分划分为背景色，它是一种像素级别的二分类任务。针对这种任务最常用的是二分类的交叉熵损失(Binary Cross Entropy Loss,BCE Loss)，表达如式(10)

f_Seg＝f_BCE＝-w_i[y_i logx_i+(1-y_i)log(1-x_i)] (10)

最后，模型使用不确定性损失动态平衡分类与分割任务，表达如式(11)

w₁和w₂是可学习参数，初始值分别设置为-4.85和-6.55。

4数据集与实验参数

4.1数据集的构建

在这项研究中，我们编译了一个CXR五分类和分割了新冠感染区的数据集，总共有38466张CXR图像，每张图像的尺寸调整为448dpi×448dpi。原始数据来自于六个Kaggle存储集，这些存储集的数据收集自GitHub、Kaggle的其他存储集、SIRM(Italian Society ofMedical and Interventional Radiology)、NIH(National Library of Medicine)和国外的一些大学和医疗机构(Qatar University,Tampere University,the University ofDhaka and Hamad Medical Corporation)。每个存储集中不同类别的CXR的数量显示在表1中，各存储集的下载链接列在参考文献中。

表1各个存储集的CXR数据分类统计

Table 1 The statistics of classified CXRs in each repository

表1中列出的前五个存储集都没有新冠肺炎感染区的分割掩模。其中：

[10]S Thakur.Classification of COVID viral bacterial pneumonia.2020.

[11]U SAIT,G L k v,S Prajapati,R Bhaumik,T Kumar,S S,and K BhallaCurated Dataset for COVID-19Posterior-Anterior Chest Radiography Images(X-Rays).2020.

[12]K Dinleyici.Covid-Normal-Viral-Opacity_V2.2020.

[13]Q University and t U o Dhaka.COVID-19 Radiography Database.2021.

[14]A Degerli,M Ahishali,M Yamac,S Kiranyaz,M Chowdhury,K Hameed,THamid,R Mazhar,and M Gabbouj.2020.COVID-19Infection Map Generation andDetection from Chest X-Ray Images.[EB/OL].[2021-07-06].

[15]V Edoardo,P Emanuela,B Fares,D Cosimo,H Abdenour,and T-AAbdelmalik.COVID-19Recognition Using Ensemble-CNNs in Two New Chest X-rayDatabases.2021.

[16]T Rahman,A Khandakar,Y Qiblawey,A Tahir,and MChowdhury.2021.Exploring the Effect of Image Enhancement Techniques on COVID-19 Detection using Chest X-rays Images.Computers in Biology and Medicine 132(2):104319[DOI:10.1016/j.compbiomed.2021.104319]

[17]Q University and T University.QaTa-COV19 Dataset.2021.

但我们的模型同时需要新冠肺炎分类和分割标签，引入了第六个数据集QaTa-COVID19[17]，具有分割掩模的新冠肺炎CXR共计2951张。这2951张CXR将作为五分类中新冠肺炎的数据。如表1所示，细菌性肺炎类CXR的总和远低于其他类别，为保持数据平衡，我们仅从表中第四[13,14]和第五[15,16]存储集中收集张病毒性肺炎类和肺部不透明类的CXR数据。最后，删除六个存储集中重复的CXR，编译好的数据集总共包含2951张新冠肺炎患者的CXR、16964张健康正常人的CXR、6103张细菌性肺炎患者的CXR、5725张病毒性肺炎患者的CXR和6723张肺部不透明的CXR。

4.2数据集的构建

实验硬件环境为搭载Intel Xeon CPU E5-2650 v4、2.2GHz处理器和TeslaK80显卡的服务器集群。软件环境为64位Centos7操作系统下的Pytorch深度学习框架。通过四张显存12G的TeslaK80显卡对各个网络并行训练。

网络运行参数如下：批处理大小由模型大小和显卡容量共同确定，所提模型采用16；总的迭代次数为200；使用Adam优化器；学习率的初始值为0.0002，若10步迭代后模型权重没有得到更新，缩小学习率为原来的0.5倍。

5实验结果与讨论

5.1CXR自动诊断结果比较

实验比较了5种流行的深度学习模型，即ResNet18，ResNet50，Vgg16，Inception_v3和Dla。结果展示在表2。其中，ResNet18，ResNet50，Vgg16，Inception_3使用的都是经过预训练模型；Dla(Deep LayerAggregation)是一种多特征融合的深度网络，和我们的模型一样不使用预训练。从表1中，可以看出，所提模型具有整体最高的分类精度95.37％，而后依次是Inception_v3的95.17％，Dla的94.40％，Vgg16的94.16％，以及ResNet50和ResNet18的93.48％和92.18％。

图4中绘制了各模型分类结果的混淆矩阵。就新冠肺炎的分类效果，Vgg16和Inception_v3表现最佳，然后是VITNet和Dla；就肺部不透明，病毒性肺炎的分类，VITNet模型表现出了最佳的效果；就健康正常和细菌性肺炎的分类结果，我们的模型仅次于Inception_v3模型。

表2各网络的整体分类精度对比

Table 2 The comparison of classification accuracy

5.2新冠肺炎感染区域的分割结果

为了验证VITNet的分割效果，与PSP-Net，U-Net，U-Net+，CE-Net四种分割网络进行对比，对比结果如表3。PSPNet是通用的语义分割模型，其对CXR新冠感染区的分割效果在所有网络中最差。U-Net，U-Net+，CE-Net是面向医学影像的专用网络，模型中都引入了跳跃连接，网络可以将浅层的简单特征与高层的抽象特征结合起来，有效的提升网络的分割效果。相比它们，VITNet在精度，AUC上都具有更好的表现，但在敏感度上稍逊色于U-Net+。这可能还要涉及分割网络的稳定性，经实验测试，我们发现U-Net+敏感度指标随着迭代的波动非常大，总体来说我们的VITNet具有稳定较好的敏感度结果。在运行时间上，表3中最后一列显示了模型处理每张图片的时间，比较起来，VITNet具有最快的分割速度，处理每张图片的时间是0.56s，这段时间内，在进行分割任务前还完成了自动诊断。VITNet对CXR的新冠肺炎诊断与感染区域分割的总耗时是0.56s。

图5中显示了6张新冠肺炎感染的CXR影像及它们的分割结果。相比之下，VITNet具有更好的分割表现。特别是当病灶区域相对较小时，VITNet的分割性能愈发突出。

表3各网络的分割效果对比

Table 3 The comparison of segmentation performance

5.3诊断与分割结果的分析

通过将VITNet的诊断与分割分别与主流的CNN分类与分割网络比较，结构显示出我们的模型具有更好的分类与分割性能。

就自动诊断任务来说，ResNet18，ResNet50，Vgg16和Inception_v3的网络通过多次卷积提取高维深层特征来完成分类任务，Dla则不同，它将多级深度特征聚合以完成分类，在未使用预训练的情况下，预测结果明显超过了Vgg16和ResNet。而我们的模型表现出了最好的分类效果，是因为它使用交叉注意力模块同时考虑了Backbone提取的深层特征信息与Transformer自注意力编码的高级上下文信息。在VITNet中，不像其他对比的网络，输出的预测头向量不是直接全连接进行分类，而是计算预测头向量的之间的余弦相似度，并进行分类对比损失以使得特征空间中的同类别预测头尽可能接近(相似)，不同类别的预测头尽可能的远离。

就新冠肺炎的感染区分割，VITNet不仅在精度上而且在效率上都表现最好。在精度上，相比U-Net和U-Net+，VITNet表现更好，是因为它摒弃了编码器中的连续下采样，能够更完整的保存图像语义。相比CE-Net，VITNet表现更好，是因为它引入了注意力机制，不仅仅使用ResNet34的前四层，增加了自注意力编码的高级上下文特征和交叉注意力对全局和浅层特征的综合考虑。在效率上，VITNet表现最佳，网络中使用了较浅层的Backbone嵌入深层语义特征，网络的其他部分都是基于多头注意力的Transformer，这种多头的架构通过空间换取时间的思想并行的编码图像全局特征，有效的减少了网络的运行时间。通过图四，我们发现当肺炎的感染偏小时，VITNet的网络分割效果更好，至少不会检测不到分割区域。这可能是由于我们的网络是同时进行分类和分割任务的，当分类任务诊断出新冠感染，网络也能同时学习到需要进行必要的分割输出。

综合来看，VITNet能表现出整体最优的分类与分割效果。但是就实际应用来说，VITNet仍然存在不足。通过图3中VITNet的混淆矩阵，我们看到有一个新冠感染者被错误的分类到健康正常类别上去。这种错分类的案例在现实中会产生巨大的破坏力，而基于深度网络模型的预测出现这种错分类的情况很难避免，Vgg16和Inception_v3虽然表现出100％的新冠肺炎分类精度，但是如果继续增加测试数据，很大的可能也会出现错分类的案例。当然传统的核酸检测也可能存在假阴性的情况，但在大规模应用上，核酸检测要更加严谨，而我们的自动诊断与分割网络可以作为核酸测试前的辅助测试，配合医生确认，以快速筛查人群。

Claims

1.基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，步骤如下：

(1)使用二维卷积对原始的X线胸片进行Embedding编码，将二维图像转换为向量序列；二维卷积的卷积步长等于卷积核的尺寸；

(2)对生成的向量序列嵌入位置编码；

(5)对深层抽象特征嵌入位置编码；

(7)将交叉注意后的预测头进行分类对比损失，

(12)将最终解码后的特征图送入二分类的交叉熵损失，进行基于像素点的前景、背景分割预测，得到分割结果；

(13)使用不确定性损失动态平衡分类与分割训练任务。

2.根据权利要求1所述的基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，步骤(6)中，交叉注意力模块的过程为：其中，MHA表示Transformer的多头注意力计算过程，LN表示层归一化，MLP表示多层感知机；y′₍₀₎是深层特征序列添加预测头和位置编码后的结果，y′₍₁₎是y′₍₀₎经过一次自注意力编码的结果，y₍₆₎为第六个Transformer编码器的输出结果，z′输出y′₍₁₎与y′₍₆₎的交叉注意力编码结果，z为交叉注意力模块的最终输出。

3.根据权利要求1所述的基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，步骤(7)中，分类对比损失为：其中，sim函数表示计算z_i，z_j两个向量的余弦相似度；α表示截断值，z_i，z_j对应着Transformer模块输出的预测头z_pred；N对应训练过程中batch的大小。

4.根据权利要求1所述的基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，步骤(8)中，分类结果送入交叉熵损失：其中，w_y表示分类结果为y的损失权重、x_i表示结果预测为第i类的概率、y表示分类标签。

5.根据权利要求1所述的基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，所述步骤(12)中，二分类的交叉熵损失为：f_Seg＝-w_i[y_ilogx_i+(1-y_i)log(1-x_i)]，其中，wi表示二分类的损失权重、y_i表示分类标签，x_i表示预测为y_i的概率。

6.根据权利要求1所述的基于Transformer的X线胸片自动诊断与新冠感染区分割方法，其特征在于，所述步骤(13)中，使用不确定性损失动态平衡分类与分割训练任务：f_cls＝f_con+f_cross，其中，w₁和w₂是可学习参数。