CN117557804A

CN117557804A - 联合目标结构嵌入和多层次特征融合的多标签分类方法

Info

Publication number: CN117557804A
Application number: CN202311496965.XA
Authority: CN
Inventors: 李敏; 纪卓昊; 周磊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-13

Abstract

本发明公开了一种联合目标结构嵌入和多层次特征融合的多标签分类方法。该方法包括以下步骤：采用EfficientNet‑B0提取胸腔图像的特征，特征分成原始嵌入块、分类嵌入块和位置嵌入块，进一步组成补丁嵌入块；将补丁嵌入块输入到ViT中，通过多头自注意机制和多层感知机实现特征交互；构建目标结构嵌入模块挖掘目标空间结构信息，输入到ViT中；设计多层次特征融合模块实现低级、中级和高级特征交互，然后进行特征分类；引入对比学习损失函数L_CL，通过在损失函数中定义一个超参数α，过滤掉相似度小于正对α的负对；采用全连接网络映射获取多标签图像分类结果，并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。本发明是一种有效提升多标签图像分类性能的优化方法。

Description

联合目标结构嵌入和多层次特征融合的多标签分类方法

技术领域

本发明涉及用于多标签图像分类算法的技术领域，具体地说，是一种联合目标结构嵌入和多层次特征融合的多标签分类方法。

背景技术

多标签分类是图像处理中的一项基本任务，旨在为数据点分配多个相关标签，与传统的单标签分类不同，多标签分类可以同时预测目标实例的多个可能标签，具有重要的临床应用价值，近年来受到许多学者的关注。随着全球各种胸腔疾病的出现，针对胸腔疾病检测的需求越来越多，人们对可靠、准确和快速诊断胸部X光片(CXR)图像的方法产生了前所未有的兴趣。

X射线成像技术因具有快捷、无创、经济、简便等优势被广泛应用于临床，其中胸部X射线投影图像，即胸片(Chest Radiograph，CR)图像，已成为胸部疾病检查的首选工具，经常用于肺癌、肺炎、肺结节、气胸等疾病的早期发现，从CR图像中准确检测并分类出不同类型的疾病，对于胸部疾病的早期诊断和治疗意义重大。

目前，许多针对CR图像的处理方法已被提出。Zhang等提出了AG-CNN方法，(1.Zhang Zr,Li Q,Guan X.Multilabel chest X-ray disease classification basedon a dense squeeze-and-excitation network[J].Journal of image and graphics,2020,25(10):2238-2248.)其通过将挤压激励块以密集链接方式加入到密集连接网络来构成特征通道高度注意力模块，增强有用特征信息的传递，抑制无用信息的传递。He等提出SimSiam模型(2.Chen X,He K.Exploring simple siamese representation learning[C]//2021 IEEE/CVF Conference on computer vision and pattern recognition(CVPR).IEEE,2021:15745-15753.)，通过自监督学习最大化图像之间的交互信息和重点关注图像中的高级全局语义来学习图像的特征表示。Zhou等提出了自监督学习框架-PCRLv2解决自监督学习的局部性问题，将更多的像素级信息编码到高级语义中。(3.Zhou H Y,LuC,Chen C,et al.A unified visual information preservation framework for self-supervised pre-training in medical image analysis[J].IEEE transactions onpattern analysis and machine intelligence,2023,45(7):8020-8035.)

上述的模型虽然取得较好的效果，但还有不足之处，例如，AG-CNN模型没有很好的利用图像的空间结构信息，而SimSiam模型没有很好的利用图像的局部特征信息，PCRLv2模型虽然对图像的局部信息进行利用，但是却忽略图像的空间结构信息。此外，上述模型都缺少对病灶特征和结构信息的重点提取与融合，事实上，很多疾病通常有或者很容易引起其他并发症等相关疾病，因此，分类结果易受其他无关区域的干扰。

发明内容

本发明公开了一种联合目标结构嵌入和多层次特征融合的多标签分类方法。

实现本发明目的的技术解决方案为：一种联合目标结构嵌入和多层次特征融合的多标签分类方法，包括以下步骤：

第一步：采用EfficientNet-B0提取胸腔图像的特征，特征分成原始嵌入块、分类嵌入块和位置嵌入块，进一步组成补丁嵌入块；

第二步：将补丁嵌入块输入到ViT中，通过MSA和MLP实现特征交互；

第三步：构建目标结构嵌入模块挖掘目标空间结构信息，输入到ViT中；

第四步：设计多层次特征融合模块实现低级、中级和高级特征交互，然后进行特征分类；

第五步：引入对比学习损失函数L_CL，通过在损失函数中定义一个超参数α，过滤掉相似度小于正对α的负对；

第六步：采用全连接网络映射获取多标签图像分类结果，并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。

本发明与现有技术相比，其显著优点在于：(1)以ViT为主干网络，采用EfficientNet-B0提取胸腔图像的特征，特征进一步分成原始嵌入块、分类嵌入块和位置嵌入块，并通过上下和左右拼接组成补丁嵌入块输入到ViT中，使ViT的输入数据能够结合更深层的特征并降低噪声。(2)构建一个目标结构嵌入模块，挖掘目标范围内斑块之间的空间上下文关系，快速选择区别斑块，并构造描述目标空间结构信息图，借助图卷积提取结构特征。(3)设计一个多层次特征融合模块，实现低级、中级和高级特征融合，并借助对比学习进一步提高特征表示能力。(4)设计一种新型非对称损失函数，有效克服正-负样本分布不平衡和长尾分布问题。

附图说明

图1是本发明的流程图。

图2是本发明的网络结构图。

图3(a)是Encoder模块，图3(b)是Encoder模块中的MSA模块，图3(c)是Encoder模块中的MLP模块。

具体实施方式

下面结合说明书附图对本发明作进一步描述。

结合图1，对本发明的步骤进行详细的说明。

本发明一种联合目标结构嵌入和多层次特征融合的多标签分类方法，使用目标结构嵌入模块实现目标空间结构信息的提取，快速选择区别斑块并凸显显著性分类特征，同时使用多层次特征融合模块实现低级、中级和高级特征融合，加强不同疾病间的相关性，使分类结果不受其他无关区域的干扰，最后将目标结构嵌入模块、多层次特征融合模块与ViT相结合，实现高精度的多标签图像分类。

第一步采用EfficientNet-B0提取胸腔图像的特征，本发明的网络结构如图2所示，将完整的输入图像x∈R^H×W×3通过EfficientNet-B0网络映射为若干张H×W大小的特征图，然后经非重叠分割将特征图分成N个原始标记，记为则：

其中，代表向下取整，N_H和N_W分别代表分割后垂直和水平方向的标记数，H和W分别代表特征图的高度和宽度，P代表原始标记大小。

原始标记经线性映射F(·)投影到D维嵌入中生成一系列OriginalEmbedding。引入一个可学习的Categorical Embedding，记为x_ce，作为输入序列嵌入的开头；然后将可学习的位置嵌入E_p添加到输入序列嵌入中，得到的补丁嵌入块作为第一层ViT的输入，记为z₀：

第二步将补丁嵌入块输入到ViT中，通过MSA和MLP实现特征交互。ViT由多层Encoder模块堆叠而成，Encoder模块网络结构如图3(a)所示。Encoder模块通过自注意力机制捕捉特征的内部相关性，其自注意力机制计算过程如下：

其中，Q，K，V向量分别代表Query、Key和Value，可通过每个编码器对输入矩阵X进行特征变换得到，满足：Q＝X*W^Q，K＝X*W^K，V＝X*W^V，W^Q，W^K，W^V为可训练的参数矩阵，QK^T表示每个向量与其他向量之间的相关性，确定V的权重分布，d_k表示特征维度；MSA在自注意力机制的基础之上，单独学习多个Q，K，V向量，对每一份Q，K，V分别求向量积和计算权重分布向量来得到多个注意力值，最后将得出的结果合并到一起，本发明的网络结构如图3(b)所示。

MSA模块后设计了一个MLP模块，其包含两个全连接层，一个激活层和两个Dropout层；第一个全连接层将特征维度从D变换为4×D，第二个全连接层将特征维度从4×D恢复成D，中间的激活层采用高斯误差线性单元GeLU，本发明的网络结构如图3(c)所示。

第三步构建目标结构嵌入模块挖掘目标空间结构信息，本发明的网络结构如图2所示。

(1)假设ViT层有H个头，Q和K是D维的Query向量和Key向量，则注意力权值的计算如下：

其中，Att_h∈R^(N+1)×(N+1)表示注意力权值，h＝1,2,…,H，N为原始标记数；

(2)提取每个头的原始标记和CE Token之间的注意力权重，并表示为则相应的总注意力权重A计算如下：

其中，在(x,y)处的原始标记与CE Token之间的注意力权重表示为A_(x,y)，使用平均值作为阈值，则新的注意力权重/>计算如下：

(3)将注意权重最高的斑块作为区别性最强的参考斑块，利用极坐标测量最具区别性的斑块与其他斑块之间的空间关系，挖掘目标的空间结构信息；给定参考斑块和水平参考方向，(x₀,y₀)为在N_H×N_W平面上的坐标，则斑块P_x,y的极坐标定义如下：

其中，ρ_x,y为P_x,y与P₀之间的相对距离，θ_x,y为P_x,y相对于水平方向的归一化极角。

(4)设计图卷积神经网络来获得目标结构特征；首先构造包含两个组成部分的图：

1)基于极坐标计算描述空间上下文相关性的图像补丁节点特征V，

2)基于ViT层中的CE Token和原始标记之间的注意力权值计算得到的边缘权值；具体来说，矩阵Adj＝A^new×(A^new)^T表示基于A^new节点间的边权值，与不显著斑块相关的边权值为零，然后采用图卷积法进一步提取空间结构信息并将其合并到ViT中。通过两层图卷积得到的结构特征S表示如下：

S＝σ(Adj×σ(Adj×V×W¹)×W²)

其中，W¹，W²是可学习参数，σ(·)是激活函数，将参考斑块节点的特征视为目标结构特征，并将其添加到CE Token中，再将目标空间结构信息引入到ViT中，对目标的组成进行建模，突出显示重要的图像斑块，进一步提高模型的分类性能。

第四步设计多层次特征融合模块实现低级、中级和高级特征交互，然后进行特征分类，本发明的网络结构如图2所示。采用相互注意力权重选择模块，将注意力分数矩阵中的第一列表示为b₀，即CE Token和其他标记在上下文关系的注意力分数向量，并计算出其他标记与CE Token在上下文关系的注意力分数向量，表示为a₀，那么CE Token与其他标记i之间的相互注意力权重ma_i可以表示为：

ma_i＝a′_0,i*b′_i,0

其中，

第五步引入对比学习损失函数L_CL，在损失函数中定义一个超参数α，过滤掉相似度小于正对α的负对，本发明的网络结构如图2所示，则batch size＝N的对比学习损失函数L_CL如下：

其中，表示属于相同类别标签的正样本表示对，即y(i)＝y(j)；/>表示属于不同类别标签的负样本表示对，即y(i)≠y(j)。Γ_{y(i)＝y(j),i≠j}表示正对的个数，sim(·)表示余弦相似度计算。

第六步采用全连接网络映射获取多标签图像分类结果，并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。ASL损失函数是在Focal Loss的基础上对平滑损失函数的聚焦参数γ进行修改，定义公式如下所示：

其中，L₊表示正损失，L_-表示负损失，P表示网络的输出概率，γ表示聚焦参数，P_m表示概率位移且P_m＝max(P,m)，m为概率边际。ASL通过解耦正样本和负样本的聚焦水平和衰减率，将聚焦参数γ分为γ₊及γ_-，且γ_->γ₊。

实验结果

本发明通过AUC值来验证模型对疾病的分类性能，AUC值越大，表明模型的性能越好。将提出的联合目标结构嵌入和多层次特征融合的多标签分类方法与目前国际上先进的多标签分类方法进行对比，对比方法包括：AG-CNN，SimSiam和PCRLv2方法。

各模型的实验结果如表1所示，可见本发明对14种疾病的平均AUC值达到了0.8327，超过了所有的对比方法，并较所对比的最优方法结果高出约2.1％。

表1不同模型的实验结果对比

注：加粗字体表示每行最优结果

综上，本发明的联合目标结构嵌入和多层次特征融合的多标签分类方法，将目标结构嵌入、多层次特征融合与ViT相结合。使用目标结构嵌入模块挖掘目标空间结构信息并注入到ViT中，以快速选择区别斑块并凸显显著性分类特征。设计多层次特征融合模块，通过特征融合弥补深层次丢失的局部特征，实现低级、中级和高级特征交互，丰富局部信息并提高特征表示能力，并通过对比学习提高同一类别的特征相似性。使用ASL损失函数有效克服数据集中正-负样本分布不平衡和长尾分布问题，实现高精度的多标签分类。

Claims

1.一种联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于，包括以下步骤：

第二步：将补丁嵌入块输入到视觉变压器ViT中，通过多头注意力机制MSA和多层感知机MLP实现特征交互；

2.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于：第一步采用EfficientNet-B0提取胸腔图像的特征，将完整的输入图像x∈R^H×W×3通过EfficientNet-B0网络映射为若干张H×W大小的特征图，然后经非重叠分割将特征图分成N个原始标记，记为则：

其中，代表向下取整，N_H和N_W分别代表分割后垂直和水平方向的标记数，H和W分别代表特征图的高度和宽度，P代表原始标记大小；

原始标记经线性映射F(·)投影到D维嵌入中生成一系列OriginalEmbedding；引入一个可学习的Categorical Embedding，记为x_ce，作为输入序列嵌入的开头；然后将可学习的位置嵌入E_p添加到输入序列嵌入中，得到的补丁嵌入块作为第一层ViT的输入，记为z₀：

3.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于，第二步将补丁嵌入块输入到ViT中，通过MSA和MLP实现特征交互按以下实现：

2.1、MSA模块

ViT由多层Encoder模块堆叠而成，Encoder模块通过自注意力机制捕捉特征的内部相关性，其自注意力机制计算过程如下：

其中，Q，K，V向量分别代表Query、Key和Value，可通过每个编码器对输入矩阵X进行特征变换得到，满足：Q＝X*W^Q，K＝X*W^K，V＝X*W^V，W^Q，W^K，W^V为可训练的参数矩阵，QK^T表示每个向量与其他向量之间的相关性，确定V的权重分布，d_k表示特征维度；MSA在自注意力机制的基础之上，单独学习多个Q，K，V向量，对每一份Q，K，V分别求向量积和计算权重分布向量来得到多个注意力值，最后将得出的结果合并到一起；

2.2、MLP模块

MSA模块后面设计了一个MLP模块，其包含两个全连接层，一个激活层和两个Dropout层；第一个全连接层将特征维度从D变换为4×D，第二个全连接层将特征维度从4×D恢复成D，中间的激活层采用高斯误差线性单元GeLU。

4.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于，第三步构建目标结构嵌入模块挖掘目标空间结构信息，输入到ViT的实现方法为：

3.1、假设ViT层有H个头，Q和K是D维的Query向量和Key向量，则注意力权值的计算如下：

3.2、提取每个头的原始标记和CE Token之间的注意力权重，并表示为则相应的总注意力权重A计算如下：

3.3、将注意权重最高的斑块作为区别性最强的参考斑块，利用极坐标测量最具区别性的斑块与其他斑块之间的空间关系，挖掘目标的空间结构信息；给定参考斑块和水平参考方向，(x₀,y₀)为在N_H×N_W平面上的坐标，则斑块P_x,y的极坐标定义如下：

3.4、设计图卷积神经网络来获得目标结构特征；首先构造包含两个组成部分的图：

S＝σ(Adj×σ(Adj×V×W¹)×W²)

其中，W¹，W²是可学习参数，σ(·)是激活函数，将参考斑块节点的特征视为目标结构特征，并将其添加到CE Token中，再将目标空间结构信息引入到ViT中，对目标的组成进行建模，突出显示重要的图像斑块。

5.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于：第四步设计多层次特征融合模块实现低级、中级和高级特征交互，然后进行特征分类的实现方法为：

采用相互注意力权重选择模块MAWS，将注意力分数矩阵中的第一列表示为b₀，即CEToken和其他标记在上下文关系的注意力分数向量，并计算出其他标记与CE Token在上下文关系的注意力分数向量，表示为a₀，那么CE Token与其他标记i之间的相互注意力权重ma_i表示为：

ma_i＝a′_0,i*b′_i,0

其中，

6.根据权利要求1所述的一种联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于，第五步引入对比学习损失函数L_CL，在损失函数中定义一个超参数α，过滤掉相似度小于正对α的负对，则batch size＝N的对比学习损失函数L_CL如下：

7.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法，其特征在于，第六步采用全连接网络映射获取多标签图像分类结果，并使用ASL损失函数计算与标签差异进行反向传播优化模型参数的实现方法为：

ASL损失函数是在Focal Loss的基础上对平滑损失函数的聚焦参数γ进行修改，定义公式如下所示：

其中，L₊表示正损失，L_-表示负损失，P表示网络的输出概率，γ表示聚焦参数，P_m表示概率位移且P_m＝max(P,m)，m为概率边际；ASL通过解耦正样本和负样本的聚焦水平和衰减率，将聚焦参数γ分为γ₊及γ_-，且γ_->γ₊。