CN113657425B - 基于多尺度与跨模态注意力机制的多标签图像分类方法 - Google Patents

基于多尺度与跨模态注意力机制的多标签图像分类方法 Download PDF

Info

Publication number
CN113657425B
CN113657425B CN202110721193.XA CN202110721193A CN113657425B CN 113657425 B CN113657425 B CN 113657425B CN 202110721193 A CN202110721193 A CN 202110721193A CN 113657425 B CN113657425 B CN 113657425B
Authority
CN
China
Prior art keywords
image
label
gcn
tag
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110721193.XA
Other languages
English (en)
Other versions
CN113657425A (zh
Inventor
余松森
许飞腾
梁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202110721193.XA priority Critical patent/CN113657425B/zh
Publication of CN113657425A publication Critical patent/CN113657425A/zh
Application granted granted Critical
Publication of CN113657425B publication Critical patent/CN113657425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多尺度与跨模态注意力机制的多标签图像分类方法。所述方法包括以下步骤:构建标签图并通过图卷积神经网络学习标签特征;获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;构建分类模型,分别将得到的标签特征和图像特征输入MSML‑GCN模块和GCN‑SGA模块中进行特征融合计算;将得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;将提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。本发明能够解决现有图像分类方法每年充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。

Description

基于多尺度与跨模态注意力机制的多标签图像分类方法
技术领域
本发明涉及多标签图像分类领域,具体涉及一种基于多尺度与跨模态注意力机制的多标签图像分类方法。
背景技术
如今,多标签图像分类(Multi-label image classification)在计算机视觉领域得到了日渐广泛的应用,包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象,因此如何有效地学习这些对象之间的关联关系、以及如何将这些关系与图像特征进行融合依然充满着挑战性。关于如何学习标签特征上,主流的方法主要是通过简单的全连接网络学习以及近年流行的图神经网络,全连接网络学习对标签依赖关系的表征能力较弱,而图神经网络网络对于标签依赖关系的学习上具有天然优势。在如何挖掘图像特征和标签特征之间的关系上,有多种方法,不管是直接将图像特征和标签特征进行点乘运算,还是将图像特征和标签特征进行跨模态融合,还是直接将图像特征作为标签特征的组成部分进行关系学习,或者是将标签特征嵌入图像特征的学习过程中等等。这些方法都是将全局的图像特征和标签特征进行融合学习。而挖掘标签特征和局部图像特征关系的方法主要目的是进行图像重点区域的选择,将任务的注意力更多地聚焦到与标签相关的图像内容上,因此标签特征的表示是其中的关键。目前的方法在标签特征的学习方法上有改进的空间,在如何进行图像重点区域的选择方法上也有值得探讨的不同方式。
一般而言,现有的多标签图像分类方法首先利用卷积神经网络得到图像的特征向量,然后利用图卷积神经网络(Graph Convolutional Network,GCN)得到标签之间的共现关系词向量,最后直接采用向量的点积操作来融合图像特征和标签的共现关系词向量,该类方法可以抽象为从图像全局特征的角度挖掘其与标签之间的关系。除此之外,挖掘图像局部区域与标签关系的方法也是存在的,但是这些方法他们的标签特征的表征能力不足。
现有的多标签图像分类方法(CN201910051706.3:基于图卷积的多标签图像分类方法、装置及设备)存在以下缺点:
1.由于输入模型的图像大小固定,对于特征的提取会造成限制。
2.在单一模型中对于图像特征和标签特征的融合角度单一,对于标签特征和图像特征的利用不够充分。
对于建立图像局部区域与标签特征之间的关系上,存在标签特征表征能力不足的缺点,同时对于如何使用学习到的语义注意力上,存在更多值得探索的方式(CN2020111001588:一种基于跨模态的快速多标签图像分类方法和系统)。
发明内容
为了更好地挖掘标签特征和图像特征之间的关系,本发明首先使用图神经网络进行标签特征的学习,增强标签特征的表征能力;对于学习到的标签特征,本发明创造性地将图像全局和图像局部特征与标签特征之间的关系学习融合在单一模型中,在图像全局方法中,运用多尺度策略减少输入图像大小对学习效果的影响;在图像局部方法中,首次使用图神经网络学习到的标签特征学习其与图像局部区域之间的关系,这一过程是一种跨模态的语义注意力机制。本发明将学习到的注意力权重用于衡量类依赖图像特征的区域重要性,提出了一种带注意力权重的总和池化方法,达到有效地筛选重要图像局部特征的作用。
本发明的目的至少通过如下技术方案之一实现。
基于多尺度与跨模态注意力机制的多标签图像分类方法,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;
S3、构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
进一步地,步骤S1中,获取第一训练集,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W。
进一步地,步骤S1具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij
Figure BDA0003136597940000031
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij
Figure BDA0003136597940000032
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
Figure BDA0003136597940000033
Figure BDA0003136597940000034
其中,Ic是单位矩阵,
Figure BDA0003136597940000035
是对角矩阵且满足/>
Figure BDA0003136597940000036
S1.5、将标准化的关系矩阵
Figure BDA0003136597940000037
输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中l∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
Figure BDA0003136597940000038
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量。
进一步地,步骤S2包括以下步骤:
S2.1、获取待分类图像并将该待分类图像转换为多维张量;获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
进一步地,步骤S2.1中,使用Python图像库将该待分类图像转换为多维张量。
进一步地,步骤S3中,在MSML-GCN模块中,每一层图卷积神经网络(GCN)的输出特征矩阵Hl与ResNet-101网络的每一层卷积层的输出特征Xi进行点积,得到若干个C维的预测向量,取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量
Figure BDA0003136597940000041
具体如下:
Figure BDA0003136597940000042
其中,L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。
进一步地,步骤S3中,在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr,因此这里也是一种模态转换操作:
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵Hl计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
Figure BDA0003136597940000051
其中,c的值代表其对应哪一类的标签,
Figure BDA0003136597940000052
代表Xtr特征在第p个特征区域上的特征向量,/>
Figure BDA0003136597940000053
代表c类标签最后一层图神经网络的输出标签特征,/>
Figure BDA0003136597940000054
代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
Figure BDA0003136597940000055
其中,c的值代表其对应哪一类的标签,q是对特征图中某个区域的标识,m代表的是特征图的区域数量;
Figure BDA0003136597940000056
代表图像区域q与c类标签特征的注意力的值;
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
S3.5、对步骤S3.4中得到的类相关特征Xcf,用与之相对应的语义相似度矩阵Mc进行带权重的总和池化,得到C维的预测向量
Figure BDA0003136597940000057
具体如下:
Figure BDA0003136597940000058
其中,
Figure BDA0003136597940000059
代表了c类标签对应的/>
Figure BDA00031365979400000510
值,/>
Figure BDA00031365979400000511
代表了c类标签在第q个图像特征区域上的类相关图像特征向量。
进一步地,步骤S4中,将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,具体如下:
Figure BDA0003136597940000061
β是一个权重常量,
Figure BDA0003136597940000062
代表最终的预测标签。
进一步地,步骤S4中,根据得到的最终预测标签
Figure BDA0003136597940000063
使用多标签分类损失函数Loss对分类模型进行迭代训练,直到分类模型收敛为止,从而得到初次训练好的分类模型,并获得此时图像x的预测标签Y;将得到的K张图像构成的测试集对初次训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到最终训练好的分类模型。
进一步地,步骤S4中,多标签分类损失函数Loss为:
Figure BDA0003136597940000064
其中,σ()表示激活函数
Figure BDA0003136597940000065
yc是真实标签值,/>
Figure BDA0003136597940000066
是预测标签值;yc∈{1,0}表示图像x的c类标签是否出现在图像中,yc=1表示图像x的第c个标签出现在图像中,yc=0表示图像x的第c个标签没有出现在图像中。
相比与现有技术,本发明的优点在于:
(1)由于本发明在模型训练阶段首先将每张图像的标签转化成标签词向量,然后使用条件概率模拟了标签之间的依赖关系,进而采用GCN学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法每年充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。
(2)本发明中的MSML-GCN模块相比现有方法ML-GCN来说,使用的多尺度策略能够减少图像大小对图像特征提取效果的限制,一定程度上增加了图像特征的丰富度,提升了预测效果;而GCN-SGA模块首次通过图神经网络学习到的标签特征来帮助衡量图像局部区域的重要性,获得每一类标签的图像区域权重矩阵,并且创造性地通过将高维图像特征转化为类依赖特征,将对应类别的图像区域权重矩阵与图像特征进行点对点相乘并求和,达到对图像是否包含某类标签视觉特征的良好评估。同时,本发明将MSML-GCN模块和GCN-SGA模块的预测结果进行融合,在单一模型中分别从图像的全局特征角度和局部特征角度进行了标签信息的利用,达到对图像特征和标签特征的更充分地利用,实验结果显示了这种融合策略的有效性,原因可能是其增加了信息利用的角度,两种策略达到了某种程度的互补。
附图说明
图1为本发明实施例中分类模型的整体框架图;
图2为本发明实施例中方法的整体流程图;
图3为本发明实施例中分类模型的具体流程图;
图4a和图4b为本发明实施例中在数据集MSCOCO上的对比实验图;
图5a和图5b为本发明实施例中在数据集在VOC2007上的对比实验图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明的具体实施进行详细说明。
实施例:
基于多尺度与跨模态注意力机制的多标签图像分类方法,如图1、图2所示,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;
本实施例中,获取第一训练集MS-COCO,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W。
步骤S1具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij
Figure BDA0003136597940000081
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij
Figure BDA0003136597940000082
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
Figure BDA0003136597940000083
Figure BDA0003136597940000084
其中,Ic是单位矩阵,
Figure BDA0003136597940000085
是对角矩阵且满足/>
Figure BDA0003136597940000086
S1.5、将标准化的关系矩阵
Figure BDA0003136597940000087
输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中1∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
Figure BDA0003136597940000088
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量。本实施例中,选择了词向量模型Glove的预训练好的维数为300维的词向量。
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征,包括以下步骤:
S2.1、获取待分类图像,使用Python图像库将该待分类图像转换为多维张量;本实施例中,根据数据集VOC2007获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
S3、如图3所示,构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
在MSML-GCN模块中,每一层图卷积神经网络(GCN)的输出特征矩阵Hl与ResNet-101网络的每一层卷积层的输出特征Xi进行点积,得到若干个C维的预测向量,取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量
Figure BDA0003136597940000091
具体如下:
Figure BDA0003136597940000092
其中,L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。
在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr,因此这里也是一种模态转换操作:
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵H1计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
Figure BDA0003136597940000101
其中,c的值代表其对应哪一类的标签,
Figure BDA0003136597940000102
代表Xtr特征在第p个特征区域上的特征向量,/>
Figure BDA00031365979400001011
代表c类标签最后一层图神经网络的输出标签特征,/>
Figure BDA0003136597940000103
代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
Figure BDA0003136597940000104
其中,c的值代表其对应哪一类的标签,q是对特征图中某个区域的标识,m代表的是特征图的区域数量;
Figure BDA0003136597940000105
代表图像区域q与c类标签特征的注意力的值;
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
S3.5、对步骤S3.4中得到的类相关特征Xcf,用与之相对应的语义相似度矩阵Mc进行带权重的总和池化,得到C维的预测向量
Figure BDA0003136597940000106
具体如下:
Figure BDA0003136597940000107
其中,
Figure BDA0003136597940000108
代表了c类标签对应的/>
Figure BDA0003136597940000109
值,/>
Figure BDA00031365979400001010
代表了c类标签在第q个图像特征区域上的类相关图像特征向量。
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,具体如下:
Figure BDA0003136597940000111
β是一个权重常量,在后续实验中取0.5,
Figure BDA0003136597940000112
代表最终的预测标签。
根据得到的最终预测标签
Figure BDA0003136597940000113
使用多标签分类损失函数Loss对分类模型进行迭代训练,直到分类模型收敛为止,从而得到初次训练好的分类模型,并获得此时图像x的预测标签Y;将得到的K张图像构成的测试集对初次训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到最终训练好的分类模型。
多标签分类损失函数Loss为:
Figure BDA0003136597940000114
其中,σ()表示激活函数
Figure BDA0003136597940000115
yc是真实标签值,/>
Figure BDA0003136597940000116
是预测标签值;yc∈{1,0}表示图像x的c类标签是否出现在图像中,yc=1表示图像x的第c个标签出现在图像中,yc=0表示图像x的第c个标签没有出现在图像中。
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
对于本发明中的分类模型中的全局策略来讲,可以看做将全局的图像特征压缩成一个向量,学习该图像向量和其他标签特征之间的相似关系,相似度高的即可以预测为正标签,分类模型中的相似度高可以理解为该标签特征向量和图像向量在空间中的夹角小于等于90度.而对于局部策略,可以知道,该策略就是在学习标签特征和局部图像特征之间的相似性。所以,将全局策略和局部策略的学习结果进行融合,将充分挖掘标签特征和图像特征之间的关系。
数据集MSCOCO上的对比实验如图4a、图4b所示,其中,MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。
Figure BDA0003136597940000121
Figure BDA0003136597940000122
Figure BDA0003136597940000123
式中,评价指标定义为:C是标签的类别数,
Figure BDA0003136597940000124
是第i个标签的正确预测的图片数量,/>
Figure BDA0003136597940000125
是真实具有标签oi的图片数量,/>
Figure BDA0003136597940000126
是预测具有标签oj的图片的数量。
数据集VOC2007上的对比实验如图5a、图5b所示,其中,MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。
通过上述对比实验可以发现,本发明中的MSML-GCN模块,GCN-SGA模块,以及将两个模块融合在一起的整体分类模型,在公开数据集MSCOCO以及VOC2007上都取得了与当前主流方法具有一定竞争优势的准确度,证明了本发明提出的方法的有效性。

Claims (8)

1.基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;获取第一训练集,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W;具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij
Figure FDA0004252137600000011
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij
Figure FDA0004252137600000012
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
Figure FDA0004252137600000021
Figure FDA0004252137600000022
其中,IC是单位矩阵,
Figure FDA0004252137600000023
是对角矩阵且满足/>
Figure FDA0004252137600000024
S1.5、将标准化的关系矩阵
Figure FDA0004252137600000025
输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中l∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
Figure FDA0004252137600000026
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量;
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;
S3、构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
2.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、获取待分类图像并将该待分类图像转换为多维张量;获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
3.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S2.1中,使用Python图像库将该待分类图像转换为多维张量。
4.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S3中,在MSML-GCN模块中,每一层图卷积神经网络(GCN)的输出特征矩阵Hl与ResNet-101网络的每一层卷积层的输出特征Xi进行点积,得到若干个C维的预测向量,取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量
Figure FDA0004252137600000031
具体如下:
Figure FDA0004252137600000032
其中,L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。
5.根据权利要求4所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S3中,在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵Hl计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
Figure FDA0004252137600000041
其中,c的值代表其对应哪一类的标签,
Figure FDA0004252137600000042
代表Xtr特征在第p个特征区域上的特征向量,/>
Figure FDA0004252137600000043
代表c类标签最后一层图神经网络的输出标签特征,/>
Figure FDA0004252137600000044
代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
Figure FDA0004252137600000045
其中,c的值代表其对应哪一类的标签,q是对特征图中某个区域的标识,m代表的是特征图的区域数量;
Figure FDA0004252137600000046
代表图像区域q与c类标签特征的注意力的值;
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
S3.5、对步骤S3.4中得到的类相关特征Xcf,用与之相对应的语义相似度矩阵Mc进行带权重的总和池化,得到C维的预测向量
Figure FDA0004252137600000047
具体如下:
Figure FDA0004252137600000048
其中,
Figure FDA0004252137600000049
代表了c类标签对应的/>
Figure FDA00042521376000000410
值,/>
Figure FDA00042521376000000411
代表了c类标签在第q个图像特征区域上的类相关图像特征向量。
6.根据权利要求5所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S4中,将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,具体如下:
Figure FDA0004252137600000051
β是一个权重常量,
Figure FDA0004252137600000052
代表最终的预测标签。
7.根据权利要求6所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S4中,根据得到的最终预测标签
Figure FDA0004252137600000053
使用多标签分类损失函数Loss对分类模型进行迭代训练,直到分类模型收敛为止,从而得到初次训练好的分类模型,并获得此时图像x的预测标签Y;将得到的K张图像构成的测试集对初次训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到最终训练好的分类模型。
8.根据权利要求7所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S4中,多标签分类损失函数Loss为:
Figure FDA0004252137600000054
其中,σ()表示激活函数
Figure FDA0004252137600000055
yc是真实标签值,/>
Figure FDA0004252137600000056
是预测标签值;yc∈{1,0}表示图像x的c类标签是否出现在图像中,yc=1表示图像x的第c个标签出现在图像中,yc=0表示图像x的第c个标签没有出现在图像中。
CN202110721193.XA 2021-06-28 2021-06-28 基于多尺度与跨模态注意力机制的多标签图像分类方法 Active CN113657425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721193.XA CN113657425B (zh) 2021-06-28 2021-06-28 基于多尺度与跨模态注意力机制的多标签图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721193.XA CN113657425B (zh) 2021-06-28 2021-06-28 基于多尺度与跨模态注意力机制的多标签图像分类方法

Publications (2)

Publication Number Publication Date
CN113657425A CN113657425A (zh) 2021-11-16
CN113657425B true CN113657425B (zh) 2023-07-04

Family

ID=78477143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721193.XA Active CN113657425B (zh) 2021-06-28 2021-06-28 基于多尺度与跨模态注意力机制的多标签图像分类方法

Country Status (1)

Country Link
CN (1) CN113657425B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988147B (zh) * 2021-12-08 2022-04-26 南京信息工程大学 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN114528911A (zh) * 2022-01-10 2022-05-24 西北大学 多分支结构的多标签图像分类方法和模型构建方法及装置
CN114612681A (zh) * 2022-01-30 2022-06-10 西北大学 基于gcn的多标签图像分类方法、模型构建方法及装置
CN114648635B (zh) * 2022-03-15 2024-07-09 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
CN115240037A (zh) * 2022-09-23 2022-10-25 卡奥斯工业智能研究院(青岛)有限公司 模型训练方法、图像处理方法、设备及存储介质
CN115841596B (zh) * 2022-12-16 2023-09-15 华院计算技术(上海)股份有限公司 多标签图像分类方法及其模型的训练方法、装置
CN116503639A (zh) * 2023-03-14 2023-07-28 苏州大学 一种视网膜oct图像病变多标签分类系统和方法
CN117236433B (zh) * 2023-11-14 2024-02-02 山东大学 辅助盲人生活的智能通信感知方法、系统、设备及介质
CN117690098B (zh) * 2024-02-01 2024-04-30 南京信息工程大学 一种基于动态图卷积的开放驾驶场景下多标签识别方法
CN117746167B (zh) * 2024-02-20 2024-04-19 四川大学 口腔全景片影像摆位错误分类模型训练方法及分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN112115995A (zh) * 2020-09-11 2020-12-22 北京邮电大学 一种基于半监督学习的图像多标签分类方法
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和系统
CN112711953A (zh) * 2021-01-19 2021-04-27 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统

Also Published As

Publication number Publication date
CN113657425A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN110837846B (zh) 一种图像识别模型的构建方法、图像识别方法及装置
US20190325299A1 (en) Unsupervised domain adaptation with similarity learning for images
CN108596154B (zh) 基于高维特征选择与多级融合的遥感图像分类方法
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
Singh et al. A study of moment based features on handwritten digit recognition
Liu et al. Dicnet: Deep instance-level contrastive network for double incomplete multi-view multi-label classification
CN104573669A (zh) 图像物体检测方法
CN108629373B (zh) 一种图像分类方法、系统、设备及计算机可读存储介质
CN110598603A (zh) 人脸识别模型获取方法、装置、设备和介质
CN105095863A (zh) 基于相似性权值的半监督字典学习的人体行为识别方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
Yu et al. Vision‐based traffic accident detection using sparse spatio‐temporal features and weighted extreme learning machine
CN111898704B (zh) 对内容样本进行聚类的方法和装置
Dias et al. A multirepresentational fusion of time series for pixelwise classification
CN111177444A (zh) 一种图像标记方法及电子设备
CN111008575A (zh) 一种基于多尺度上下文信息融合的鲁棒人脸识别方法
Zhao et al. A novel two-stage scene classification model based on feature variable significance in high-resolution remote sensing
Cholakkal et al. A classifier-guided approach for top-down salient object detection
CN117455515A (zh) 一种在线侵权商品自动化巡检系统
CN108960005B (zh) 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN112257600A (zh) 一种人脸识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant