CN117557804A - 联合目标结构嵌入和多层次特征融合的多标签分类方法 - Google Patents
联合目标结构嵌入和多层次特征融合的多标签分类方法 Download PDFInfo
- Publication number
- CN117557804A CN117557804A CN202311496965.XA CN202311496965A CN117557804A CN 117557804 A CN117557804 A CN 117557804A CN 202311496965 A CN202311496965 A CN 202311496965A CN 117557804 A CN117557804 A CN 117557804A
- Authority
- CN
- China
- Prior art keywords
- level
- embedding
- vit
- label
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000003993 interaction Effects 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 239000012633 leachable Substances 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 210000000038 chest Anatomy 0.000 description 7
- 238000011976 chest X-ray Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 208000026216 Thoracic disease Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 201000003144 pneumothorax Diseases 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种联合目标结构嵌入和多层次特征融合的多标签分类方法。该方法包括以下步骤:采用EfficientNet‑B0提取胸腔图像的特征,特征分成原始嵌入块、分类嵌入块和位置嵌入块,进一步组成补丁嵌入块;将补丁嵌入块输入到ViT中,通过多头自注意机制和多层感知机实现特征交互;构建目标结构嵌入模块挖掘目标空间结构信息,输入到ViT中;设计多层次特征融合模块实现低级、中级和高级特征交互,然后进行特征分类;引入对比学习损失函数LCL,通过在损失函数中定义一个超参数α,过滤掉相似度小于正对α的负对;采用全连接网络映射获取多标签图像分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。本发明是一种有效提升多标签图像分类性能的优化方法。
Description
技术领域
本发明涉及用于多标签图像分类算法的技术领域,具体地说,是一种联合目标结构嵌入和多层次特征融合的多标签分类方法。
背景技术
多标签分类是图像处理中的一项基本任务,旨在为数据点分配多个相关标签,与传统的单标签分类不同,多标签分类可以同时预测目标实例的多个可能标签,具有重要的临床应用价值,近年来受到许多学者的关注。随着全球各种胸腔疾病的出现,针对胸腔疾病检测的需求越来越多,人们对可靠、准确和快速诊断胸部X光片(CXR)图像的方法产生了前所未有的兴趣。
X射线成像技术因具有快捷、无创、经济、简便等优势被广泛应用于临床,其中胸部X射线投影图像,即胸片(Chest Radiograph,CR)图像,已成为胸部疾病检查的首选工具,经常用于肺癌、肺炎、肺结节、气胸等疾病的早期发现,从CR图像中准确检测并分类出不同类型的疾病,对于胸部疾病的早期诊断和治疗意义重大。
目前,许多针对CR图像的处理方法已被提出。Zhang等提出了AG-CNN方法,(1.Zhang Zr,Li Q,Guan X.Multilabel chest X-ray disease classification basedon a dense squeeze-and-excitation network[J].Journal of image and graphics,2020,25(10):2238-2248.)其通过将挤压激励块以密集链接方式加入到密集连接网络来构成特征通道高度注意力模块,增强有用特征信息的传递,抑制无用信息的传递。He等提出SimSiam模型(2.Chen X,He K.Exploring simple siamese representation learning[C]//2021 IEEE/CVF Conference on computer vision and pattern recognition(CVPR).IEEE,2021:15745-15753.),通过自监督学习最大化图像之间的交互信息和重点关注图像中的高级全局语义来学习图像的特征表示。Zhou等提出了自监督学习框架-PCRLv2解决自监督学习的局部性问题,将更多的像素级信息编码到高级语义中。(3.Zhou H Y,LuC,Chen C,et al.A unified visual information preservation framework for self-supervised pre-training in medical image analysis[J].IEEE transactions onpattern analysis and machine intelligence,2023,45(7):8020-8035.)
上述的模型虽然取得较好的效果,但还有不足之处,例如,AG-CNN模型没有很好的利用图像的空间结构信息,而SimSiam模型没有很好的利用图像的局部特征信息,PCRLv2模型虽然对图像的局部信息进行利用,但是却忽略图像的空间结构信息。此外,上述模型都缺少对病灶特征和结构信息的重点提取与融合,事实上,很多疾病通常有或者很容易引起其他并发症等相关疾病,因此,分类结果易受其他无关区域的干扰。
发明内容
本发明公开了一种联合目标结构嵌入和多层次特征融合的多标签分类方法。
实现本发明目的的技术解决方案为:一种联合目标结构嵌入和多层次特征融合的多标签分类方法,包括以下步骤:
第一步:采用EfficientNet-B0提取胸腔图像的特征,特征分成原始嵌入块、分类嵌入块和位置嵌入块,进一步组成补丁嵌入块;
第二步:将补丁嵌入块输入到ViT中,通过MSA和MLP实现特征交互;
第三步:构建目标结构嵌入模块挖掘目标空间结构信息,输入到ViT中;
第四步:设计多层次特征融合模块实现低级、中级和高级特征交互,然后进行特征分类;
第五步:引入对比学习损失函数LCL,通过在损失函数中定义一个超参数α,过滤掉相似度小于正对α的负对;
第六步:采用全连接网络映射获取多标签图像分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。
本发明与现有技术相比,其显著优点在于:(1)以ViT为主干网络,采用EfficientNet-B0提取胸腔图像的特征,特征进一步分成原始嵌入块、分类嵌入块和位置嵌入块,并通过上下和左右拼接组成补丁嵌入块输入到ViT中,使ViT的输入数据能够结合更深层的特征并降低噪声。(2)构建一个目标结构嵌入模块,挖掘目标范围内斑块之间的空间上下文关系,快速选择区别斑块,并构造描述目标空间结构信息图,借助图卷积提取结构特征。(3)设计一个多层次特征融合模块,实现低级、中级和高级特征融合,并借助对比学习进一步提高特征表示能力。(4)设计一种新型非对称损失函数,有效克服正-负样本分布不平衡和长尾分布问题。
附图说明
图1是本发明的流程图。
图2是本发明的网络结构图。
图3(a)是Encoder模块,图3(b)是Encoder模块中的MSA模块,图3(c)是Encoder模块中的MLP模块。
具体实施方式
下面结合说明书附图对本发明作进一步描述。
结合图1,对本发明的步骤进行详细的说明。
本发明一种联合目标结构嵌入和多层次特征融合的多标签分类方法,使用目标结构嵌入模块实现目标空间结构信息的提取,快速选择区别斑块并凸显显著性分类特征,同时使用多层次特征融合模块实现低级、中级和高级特征融合,加强不同疾病间的相关性,使分类结果不受其他无关区域的干扰,最后将目标结构嵌入模块、多层次特征融合模块与ViT相结合,实现高精度的多标签图像分类。
第一步采用EfficientNet-B0提取胸腔图像的特征,本发明的网络结构如图2所示,将完整的输入图像x∈RH×W×3通过EfficientNet-B0网络映射为若干张H×W大小的特征图,然后经非重叠分割将特征图分成N个原始标记,记为则:
其中,代表向下取整,NH和NW分别代表分割后垂直和水平方向的标记数,H和W分别代表特征图的高度和宽度,P代表原始标记大小。
原始标记经线性映射F(·)投影到D维嵌入中生成一系列OriginalEmbedding。引入一个可学习的Categorical Embedding,记为xce,作为输入序列嵌入的开头;然后将可学习的位置嵌入Ep添加到输入序列嵌入中,得到的补丁嵌入块作为第一层ViT的输入,记为z0:
第二步将补丁嵌入块输入到ViT中,通过MSA和MLP实现特征交互。ViT由多层Encoder模块堆叠而成,Encoder模块网络结构如图3(a)所示。Encoder模块通过自注意力机制捕捉特征的内部相关性,其自注意力机制计算过程如下:
其中,Q,K,V向量分别代表Query、Key和Value,可通过每个编码器对输入矩阵X进行特征变换得到,满足:Q=X*WQ,K=X*WK,V=X*WV,WQ,WK,WV为可训练的参数矩阵,QKT表示每个向量与其他向量之间的相关性,确定V的权重分布,dk表示特征维度;MSA在自注意力机制的基础之上,单独学习多个Q,K,V向量,对每一份Q,K,V分别求向量积和计算权重分布向量来得到多个注意力值,最后将得出的结果合并到一起,本发明的网络结构如图3(b)所示。
MSA模块后设计了一个MLP模块,其包含两个全连接层,一个激活层和两个Dropout层;第一个全连接层将特征维度从D变换为4×D,第二个全连接层将特征维度从4×D恢复成D,中间的激活层采用高斯误差线性单元GeLU,本发明的网络结构如图3(c)所示。
第三步构建目标结构嵌入模块挖掘目标空间结构信息,本发明的网络结构如图2所示。
(1)假设ViT层有H个头,Q和K是D维的Query向量和Key向量,则注意力权值的计算如下:
其中,Atth∈R(N+1)×(N+1)表示注意力权值,h=1,2,…,H,N为原始标记数;
(2)提取每个头的原始标记和CE Token之间的注意力权重,并表示为则相应的总注意力权重A计算如下:
其中,在(x,y)处的原始标记与CE Token之间的注意力权重表示为A(x,y),使用平均值作为阈值,则新的注意力权重/>计算如下:
(3)将注意权重最高的斑块作为区别性最强的参考斑块,利用极坐标测量最具区别性的斑块与其他斑块之间的空间关系,挖掘目标的空间结构信息;给定参考斑块和水平参考方向,(x0,y0)为在NH×NW平面上的坐标,则斑块Px,y的极坐标定义如下:
其中,ρx,y为Px,y与P0之间的相对距离,θx,y为Px,y相对于水平方向的归一化极角。
(4)设计图卷积神经网络来获得目标结构特征;首先构造包含两个组成部分的图:
1)基于极坐标计算描述空间上下文相关性的图像补丁节点特征V,
2)基于ViT层中的CE Token和原始标记之间的注意力权值计算得到的边缘权值;具体来说,矩阵Adj=Anew×(Anew)T表示基于Anew节点间的边权值,与不显著斑块相关的边权值为零,然后采用图卷积法进一步提取空间结构信息并将其合并到ViT中。通过两层图卷积得到的结构特征S表示如下:
S=σ(Adj×σ(Adj×V×W1)×W2)
其中,W1,W2是可学习参数,σ(·)是激活函数,将参考斑块节点的特征视为目标结构特征,并将其添加到CE Token中,再将目标空间结构信息引入到ViT中,对目标的组成进行建模,突出显示重要的图像斑块,进一步提高模型的分类性能。
第四步设计多层次特征融合模块实现低级、中级和高级特征交互,然后进行特征分类,本发明的网络结构如图2所示。采用相互注意力权重选择模块,将注意力分数矩阵中的第一列表示为b0,即CE Token和其他标记在上下文关系的注意力分数向量,并计算出其他标记与CE Token在上下文关系的注意力分数向量,表示为a0,那么CE Token与其他标记i之间的相互注意力权重mai可以表示为:
mai=a′0,i*b′i,0
其中,
第五步引入对比学习损失函数LCL,在损失函数中定义一个超参数α,过滤掉相似度小于正对α的负对,本发明的网络结构如图2所示,则batch size=N的对比学习损失函数LCL如下:
其中,表示属于相同类别标签的正样本表示对,即y(i)=y(j);/>表示属于不同类别标签的负样本表示对,即y(i)≠y(j)。Γy(i)=y(j),i≠j表示正对的个数,sim(·)表示余弦相似度计算。
第六步采用全连接网络映射获取多标签图像分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。ASL损失函数是在Focal Loss的基础上对平滑损失函数的聚焦参数γ进行修改,定义公式如下所示:
其中,L+表示正损失,L-表示负损失,P表示网络的输出概率,γ表示聚焦参数,Pm表示概率位移且Pm=max(P,m),m为概率边际。ASL通过解耦正样本和负样本的聚焦水平和衰减率,将聚焦参数γ分为γ+及γ-,且γ->γ+。
实验结果
本发明通过AUC值来验证模型对疾病的分类性能,AUC值越大,表明模型的性能越好。将提出的联合目标结构嵌入和多层次特征融合的多标签分类方法与目前国际上先进的多标签分类方法进行对比,对比方法包括:AG-CNN,SimSiam和PCRLv2方法。
各模型的实验结果如表1所示,可见本发明对14种疾病的平均AUC值达到了0.8327,超过了所有的对比方法,并较所对比的最优方法结果高出约2.1%。
表1不同模型的实验结果对比
注:加粗字体表示每行最优结果
综上,本发明的联合目标结构嵌入和多层次特征融合的多标签分类方法,将目标结构嵌入、多层次特征融合与ViT相结合。使用目标结构嵌入模块挖掘目标空间结构信息并注入到ViT中,以快速选择区别斑块并凸显显著性分类特征。设计多层次特征融合模块,通过特征融合弥补深层次丢失的局部特征,实现低级、中级和高级特征交互,丰富局部信息并提高特征表示能力,并通过对比学习提高同一类别的特征相似性。使用ASL损失函数有效克服数据集中正-负样本分布不平衡和长尾分布问题,实现高精度的多标签分类。
Claims (7)
1.一种联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于,包括以下步骤:
第一步:采用EfficientNet-B0提取胸腔图像的特征,特征分成原始嵌入块、分类嵌入块和位置嵌入块,进一步组成补丁嵌入块;
第二步:将补丁嵌入块输入到视觉变压器ViT中,通过多头注意力机制MSA和多层感知机MLP实现特征交互;
第三步:构建目标结构嵌入模块挖掘目标空间结构信息,输入到ViT中;
第四步:设计多层次特征融合模块实现低级、中级和高级特征交互,然后进行特征分类;
第五步:引入对比学习损失函数LCL,通过在损失函数中定义一个超参数α,过滤掉相似度小于正对α的负对;
第六步:采用全连接网络映射获取多标签图像分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数。
2.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于:第一步采用EfficientNet-B0提取胸腔图像的特征,将完整的输入图像x∈RH×W×3通过EfficientNet-B0网络映射为若干张H×W大小的特征图,然后经非重叠分割将特征图分成N个原始标记,记为则:
其中,代表向下取整,NH和NW分别代表分割后垂直和水平方向的标记数,H和W分别代表特征图的高度和宽度,P代表原始标记大小;
原始标记经线性映射F(·)投影到D维嵌入中生成一系列OriginalEmbedding;引入一个可学习的Categorical Embedding,记为xce,作为输入序列嵌入的开头;然后将可学习的位置嵌入Ep添加到输入序列嵌入中,得到的补丁嵌入块作为第一层ViT的输入,记为z0:
3.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于,第二步将补丁嵌入块输入到ViT中,通过MSA和MLP实现特征交互按以下实现:
2.1、MSA模块
ViT由多层Encoder模块堆叠而成,Encoder模块通过自注意力机制捕捉特征的内部相关性,其自注意力机制计算过程如下:
其中,Q,K,V向量分别代表Query、Key和Value,可通过每个编码器对输入矩阵X进行特征变换得到,满足:Q=X*WQ,K=X*WK,V=X*WV,WQ,WK,WV为可训练的参数矩阵,QKT表示每个向量与其他向量之间的相关性,确定V的权重分布,dk表示特征维度;MSA在自注意力机制的基础之上,单独学习多个Q,K,V向量,对每一份Q,K,V分别求向量积和计算权重分布向量来得到多个注意力值,最后将得出的结果合并到一起;
2.2、MLP模块
MSA模块后面设计了一个MLP模块,其包含两个全连接层,一个激活层和两个Dropout层;第一个全连接层将特征维度从D变换为4×D,第二个全连接层将特征维度从4×D恢复成D,中间的激活层采用高斯误差线性单元GeLU。
4.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于,第三步构建目标结构嵌入模块挖掘目标空间结构信息,输入到ViT的实现方法为:
3.1、假设ViT层有H个头,Q和K是D维的Query向量和Key向量,则注意力权值的计算如下:
其中,Atth∈R(N+1)×(N+1)表示注意力权值,h=1,2,…,H,N为原始标记数;
3.2、提取每个头的原始标记和CE Token之间的注意力权重,并表示为则相应的总注意力权重A计算如下:
其中,在(x,y)处的原始标记与CE Token之间的注意力权重表示为A(x,y),使用平均值作为阈值,则新的注意力权重/>计算如下:
3.3、将注意权重最高的斑块作为区别性最强的参考斑块,利用极坐标测量最具区别性的斑块与其他斑块之间的空间关系,挖掘目标的空间结构信息;给定参考斑块和水平参考方向,(x0,y0)为在NH×NW平面上的坐标,则斑块Px,y的极坐标定义如下:
其中,ρx,y为Px,y与P0之间的相对距离,θx,y为Px,y相对于水平方向的归一化极角。
3.4、设计图卷积神经网络来获得目标结构特征;首先构造包含两个组成部分的图:
1)基于极坐标计算描述空间上下文相关性的图像补丁节点特征V,
2)基于ViT层中的CE Token和原始标记之间的注意力权值计算得到的边缘权值;具体来说,矩阵Adj=Anew×(Anew)T表示基于Anew节点间的边权值,与不显著斑块相关的边权值为零,然后采用图卷积法进一步提取空间结构信息并将其合并到ViT中。通过两层图卷积得到的结构特征S表示如下:
S=σ(Adj×σ(Adj×V×W1)×W2)
其中,W1,W2是可学习参数,σ(·)是激活函数,将参考斑块节点的特征视为目标结构特征,并将其添加到CE Token中,再将目标空间结构信息引入到ViT中,对目标的组成进行建模,突出显示重要的图像斑块。
5.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于:第四步设计多层次特征融合模块实现低级、中级和高级特征交互,然后进行特征分类的实现方法为:
采用相互注意力权重选择模块MAWS,将注意力分数矩阵中的第一列表示为b0,即CEToken和其他标记在上下文关系的注意力分数向量,并计算出其他标记与CE Token在上下文关系的注意力分数向量,表示为a0,那么CE Token与其他标记i之间的相互注意力权重mai表示为:
mai=a′0,i*b′i,0
其中,
6.根据权利要求1所述的一种联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于,第五步引入对比学习损失函数LCL,在损失函数中定义一个超参数α,过滤掉相似度小于正对α的负对,则batch size=N的对比学习损失函数LCL如下:
其中,表示属于相同类别标签的正样本表示对,即y(i)=y(j);/>表示属于不同类别标签的负样本表示对,即y(i)≠y(j)。Γy(i)=y(j),i≠j表示正对的个数,sim(·)表示余弦相似度计算。
7.根据权利要求1所述的联合目标结构嵌入和多层次特征融合的多标签分类方法,其特征在于,第六步采用全连接网络映射获取多标签图像分类结果,并使用ASL损失函数计算与标签差异进行反向传播优化模型参数的实现方法为:
ASL损失函数是在Focal Loss的基础上对平滑损失函数的聚焦参数γ进行修改,定义公式如下所示:
其中,L+表示正损失,L-表示负损失,P表示网络的输出概率,γ表示聚焦参数,Pm表示概率位移且Pm=max(P,m),m为概率边际;ASL通过解耦正样本和负样本的聚焦水平和衰减率,将聚焦参数γ分为γ+及γ-,且γ->γ+。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496965.XA CN117557804A (zh) | 2023-11-10 | 2023-11-10 | 联合目标结构嵌入和多层次特征融合的多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496965.XA CN117557804A (zh) | 2023-11-10 | 2023-11-10 | 联合目标结构嵌入和多层次特征融合的多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557804A true CN117557804A (zh) | 2024-02-13 |
Family
ID=89817847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311496965.XA Pending CN117557804A (zh) | 2023-11-10 | 2023-11-10 | 联合目标结构嵌入和多层次特征融合的多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557804A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
CN118230076A (zh) * | 2024-05-24 | 2024-06-21 | 西安理工大学 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
-
2023
- 2023-11-10 CN CN202311496965.XA patent/CN117557804A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893839A (zh) * | 2024-03-15 | 2024-04-16 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
CN117893839B (zh) * | 2024-03-15 | 2024-06-07 | 华东交通大学 | 一种基于图注意力机制的多标记分类方法及系统 |
CN118230076A (zh) * | 2024-05-24 | 2024-06-21 | 西安理工大学 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
CN118230076B (zh) * | 2024-05-24 | 2024-07-30 | 西安理工大学 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059697B (zh) | 一种基于深度学习的肺结节自动分割方法 | |
CN110287826B (zh) | 一种基于注意力机制的视频目标检测方法 | |
CN117557804A (zh) | 联合目标结构嵌入和多层次特征融合的多标签分类方法 | |
CN110490913B (zh) | 基于角点与单线段编组的特征描述算子进行影像匹配方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN104715251B (zh) | 一种基于直方图线性拟合的显著目标检测方法 | |
CN112651406B (zh) | 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 | |
CN113240716B (zh) | 一种多特征融合的孪生网络目标跟踪方法及系统 | |
CN114820655A (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN114529581A (zh) | 基于深度学习及多任务联合训练的多目标跟踪方法 | |
Ma et al. | A multilevel multimodal fusion transformer for remote sensing semantic segmentation | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN114998362B (zh) | 基于双分割模型的医学图像分割方法 | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN114155556A (zh) | 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
Zhang et al. | Learning Cross-Modality High-Resolution Representation for Thermal Small Object Detection | |
CN114972335A (zh) | 一种用于工业检测的图像分类方法、装置及计算机设备 | |
CN114694042A (zh) | 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法 | |
CN113192085A (zh) | 三维器官图像分割方法、装置及计算机设备 | |
CN113705562A (zh) | 目标区域确定方法、装置、设备及存储介质 | |
Li et al. | Learning feature matching via matchable keypoint-assisted graph neural network | |
CN115088021A (zh) | 解释经训练模型的模型输出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |