CN113657425B - 基于多尺度与跨模态注意力机制的多标签图像分类方法 - Google Patents
基于多尺度与跨模态注意力机制的多标签图像分类方法 Download PDFInfo
- Publication number
- CN113657425B CN113657425B CN202110721193.XA CN202110721193A CN113657425B CN 113657425 B CN113657425 B CN 113657425B CN 202110721193 A CN202110721193 A CN 202110721193A CN 113657425 B CN113657425 B CN 113657425B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- gcn
- tag
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 66
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多尺度与跨模态注意力机制的多标签图像分类方法。所述方法包括以下步骤:构建标签图并通过图卷积神经网络学习标签特征;获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;构建分类模型,分别将得到的标签特征和图像特征输入MSML‑GCN模块和GCN‑SGA模块中进行特征融合计算;将得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;将提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。本发明能够解决现有图像分类方法每年充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。
Description
技术领域
本发明涉及多标签图像分类领域,具体涉及一种基于多尺度与跨模态注意力机制的多标签图像分类方法。
背景技术
如今,多标签图像分类(Multi-label image classification)在计算机视觉领域得到了日渐广泛的应用,包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象,因此如何有效地学习这些对象之间的关联关系、以及如何将这些关系与图像特征进行融合依然充满着挑战性。关于如何学习标签特征上,主流的方法主要是通过简单的全连接网络学习以及近年流行的图神经网络,全连接网络学习对标签依赖关系的表征能力较弱,而图神经网络网络对于标签依赖关系的学习上具有天然优势。在如何挖掘图像特征和标签特征之间的关系上,有多种方法,不管是直接将图像特征和标签特征进行点乘运算,还是将图像特征和标签特征进行跨模态融合,还是直接将图像特征作为标签特征的组成部分进行关系学习,或者是将标签特征嵌入图像特征的学习过程中等等。这些方法都是将全局的图像特征和标签特征进行融合学习。而挖掘标签特征和局部图像特征关系的方法主要目的是进行图像重点区域的选择,将任务的注意力更多地聚焦到与标签相关的图像内容上,因此标签特征的表示是其中的关键。目前的方法在标签特征的学习方法上有改进的空间,在如何进行图像重点区域的选择方法上也有值得探讨的不同方式。
一般而言,现有的多标签图像分类方法首先利用卷积神经网络得到图像的特征向量,然后利用图卷积神经网络(Graph Convolutional Network,GCN)得到标签之间的共现关系词向量,最后直接采用向量的点积操作来融合图像特征和标签的共现关系词向量,该类方法可以抽象为从图像全局特征的角度挖掘其与标签之间的关系。除此之外,挖掘图像局部区域与标签关系的方法也是存在的,但是这些方法他们的标签特征的表征能力不足。
现有的多标签图像分类方法(CN201910051706.3:基于图卷积的多标签图像分类方法、装置及设备)存在以下缺点:
1.由于输入模型的图像大小固定,对于特征的提取会造成限制。
2.在单一模型中对于图像特征和标签特征的融合角度单一,对于标签特征和图像特征的利用不够充分。
对于建立图像局部区域与标签特征之间的关系上,存在标签特征表征能力不足的缺点,同时对于如何使用学习到的语义注意力上,存在更多值得探索的方式(CN2020111001588:一种基于跨模态的快速多标签图像分类方法和系统)。
发明内容
为了更好地挖掘标签特征和图像特征之间的关系,本发明首先使用图神经网络进行标签特征的学习,增强标签特征的表征能力;对于学习到的标签特征,本发明创造性地将图像全局和图像局部特征与标签特征之间的关系学习融合在单一模型中,在图像全局方法中,运用多尺度策略减少输入图像大小对学习效果的影响;在图像局部方法中,首次使用图神经网络学习到的标签特征学习其与图像局部区域之间的关系,这一过程是一种跨模态的语义注意力机制。本发明将学习到的注意力权重用于衡量类依赖图像特征的区域重要性,提出了一种带注意力权重的总和池化方法,达到有效地筛选重要图像局部特征的作用。
本发明的目的至少通过如下技术方案之一实现。
基于多尺度与跨模态注意力机制的多标签图像分类方法,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;
S3、构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
进一步地,步骤S1中,获取第一训练集,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W。
进一步地,步骤S1具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj;
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij:
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij:
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
S1.5、将标准化的关系矩阵输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中l∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量。
进一步地,步骤S2包括以下步骤:
S2.1、获取待分类图像并将该待分类图像转换为多维张量;获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
进一步地,步骤S2.1中,使用Python图像库将该待分类图像转换为多维张量。
进一步地,步骤S3中,在MSML-GCN模块中,每一层图卷积神经网络(GCN)的输出特征矩阵Hl与ResNet-101网络的每一层卷积层的输出特征Xi进行点积,得到若干个C维的预测向量,取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量具体如下:
其中,L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。
进一步地,步骤S3中,在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr,因此这里也是一种模态转换操作:
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵Hl计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
其中,c的值代表其对应哪一类的标签,代表Xtr特征在第p个特征区域上的特征向量,/>代表c类标签最后一层图神经网络的输出标签特征,/>代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
进一步地,步骤S4中,将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,具体如下:
进一步地,步骤S4中,根据得到的最终预测标签使用多标签分类损失函数Loss对分类模型进行迭代训练,直到分类模型收敛为止,从而得到初次训练好的分类模型,并获得此时图像x的预测标签Y;将得到的K张图像构成的测试集对初次训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到最终训练好的分类模型。
进一步地,步骤S4中,多标签分类损失函数Loss为:
其中,σ()表示激活函数yc是真实标签值,/>是预测标签值;yc∈{1,0}表示图像x的c类标签是否出现在图像中,yc=1表示图像x的第c个标签出现在图像中,yc=0表示图像x的第c个标签没有出现在图像中。
相比与现有技术,本发明的优点在于:
(1)由于本发明在模型训练阶段首先将每张图像的标签转化成标签词向量,然后使用条件概率模拟了标签之间的依赖关系,进而采用GCN学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法每年充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。
(2)本发明中的MSML-GCN模块相比现有方法ML-GCN来说,使用的多尺度策略能够减少图像大小对图像特征提取效果的限制,一定程度上增加了图像特征的丰富度,提升了预测效果;而GCN-SGA模块首次通过图神经网络学习到的标签特征来帮助衡量图像局部区域的重要性,获得每一类标签的图像区域权重矩阵,并且创造性地通过将高维图像特征转化为类依赖特征,将对应类别的图像区域权重矩阵与图像特征进行点对点相乘并求和,达到对图像是否包含某类标签视觉特征的良好评估。同时,本发明将MSML-GCN模块和GCN-SGA模块的预测结果进行融合,在单一模型中分别从图像的全局特征角度和局部特征角度进行了标签信息的利用,达到对图像特征和标签特征的更充分地利用,实验结果显示了这种融合策略的有效性,原因可能是其增加了信息利用的角度,两种策略达到了某种程度的互补。
附图说明
图1为本发明实施例中分类模型的整体框架图;
图2为本发明实施例中方法的整体流程图;
图3为本发明实施例中分类模型的具体流程图;
图4a和图4b为本发明实施例中在数据集MSCOCO上的对比实验图;
图5a和图5b为本发明实施例中在数据集在VOC2007上的对比实验图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明的具体实施进行详细说明。
实施例:
基于多尺度与跨模态注意力机制的多标签图像分类方法,如图1、图2所示,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;
本实施例中,获取第一训练集MS-COCO,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W。
步骤S1具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj;
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij:
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij:
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
S1.5、将标准化的关系矩阵输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中1∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量。本实施例中,选择了词向量模型Glove的预训练好的维数为300维的词向量。
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征,包括以下步骤:
S2.1、获取待分类图像,使用Python图像库将该待分类图像转换为多维张量;本实施例中,根据数据集VOC2007获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
S3、如图3所示,构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
在MSML-GCN模块中,每一层图卷积神经网络(GCN)的输出特征矩阵Hl与ResNet-101网络的每一层卷积层的输出特征Xi进行点积,得到若干个C维的预测向量,取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量具体如下:
其中,L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。
在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr,因此这里也是一种模态转换操作:
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵H1计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
其中,c的值代表其对应哪一类的标签,代表Xtr特征在第p个特征区域上的特征向量,/>代表c类标签最后一层图神经网络的输出标签特征,/>代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,具体如下:
根据得到的最终预测标签使用多标签分类损失函数Loss对分类模型进行迭代训练,直到分类模型收敛为止,从而得到初次训练好的分类模型,并获得此时图像x的预测标签Y;将得到的K张图像构成的测试集对初次训练好的分类模型进行验证,直到得到的分类精度达到最优为止,从而得到最终训练好的分类模型。
多标签分类损失函数Loss为:
其中,σ()表示激活函数yc是真实标签值,/>是预测标签值;yc∈{1,0}表示图像x的c类标签是否出现在图像中,yc=1表示图像x的第c个标签出现在图像中,yc=0表示图像x的第c个标签没有出现在图像中。
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
对于本发明中的分类模型中的全局策略来讲,可以看做将全局的图像特征压缩成一个向量,学习该图像向量和其他标签特征之间的相似关系,相似度高的即可以预测为正标签,分类模型中的相似度高可以理解为该标签特征向量和图像向量在空间中的夹角小于等于90度.而对于局部策略,可以知道,该策略就是在学习标签特征和局部图像特征之间的相似性。所以,将全局策略和局部策略的学习结果进行融合,将充分挖掘标签特征和图像特征之间的关系。
数据集MSCOCO上的对比实验如图4a、图4b所示,其中,MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。
数据集VOC2007上的对比实验如图5a、图5b所示,其中,MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。
通过上述对比实验可以发现,本发明中的MSML-GCN模块,GCN-SGA模块,以及将两个模块融合在一起的整体分类模型,在公开数据集MSCOCO以及VOC2007上都取得了与当前主流方法具有一定竞争优势的准确度,证明了本发明提出的方法的有效性。
Claims (8)
1.基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,包括以下步骤:
S1、构建标签图并通过图卷积神经网络学习标签特征;获取第一训练集,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W;具体包括以下步骤:
S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:
Pij=P(oi|oj)=Tij/Tj;
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在第一训练集中出现的次数,Tij表示标签oi和标签oj同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;Pij表示在标签oj出现的条件下,标签oi出现的概率;
S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵Aij:
S1.3、使用阈值δ对二值化后的关系矩阵Aij进行处理,δ∈[0,1],生成对最终的关系矩阵A‘ij:
S1.4、对最终的关系矩阵A‘ij进行标准化,具体如下:
S1.5、将标准化的关系矩阵输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵Hl+1,其中l∈[0,1],最终得到的共现关系词向量矩阵Hl+1就是学习到的所有C类标签对应的共现关系标签特征:
其中,Hl,Wl和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量;
S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;
S3、构建分类模型,包括MSML-GCN模块和GCN-SGA模块,分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算;
S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;
S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。
2.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S2包括以下步骤:
S2.1、获取待分类图像并将该待分类图像转换为多维张量;获取由N张图像所构成的第二训练集和由K张图像构成的测试集;
S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中,以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量:
X=Fgmp(Fcnn(x,θcnn));
其中N和K为自然数,且N>K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,D=2048,1024,512,256,表示ResNet-101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合;在此处使用了多尺度的策略,作为后面全局策略方法的输入。
3.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S2.1中,使用Python图像库将该待分类图像转换为多维张量。
5.根据权利要求4所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S3中,在GCN-SGA模块中,具体包括以下步骤:
S3.1、首先取步骤S2中D=2048时ResNet-101网络的最后一层卷积层的输出特征向量X,使用一系列1×1卷积层对特征向量X进行空间转换,使得维数从w×h×D转换为w×h×C,将特征向量X从视觉特征转换为语义特征Xtr:
Xtr=fCMT(X);
其中,fCMT代表模态转换函数,具体结构是一系列1×1卷积层;
S3.2、对语义特征Xtr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵Hl计算的余弦相似度Z,为确保Z的非负性,使用ReLU函数进行约束;得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度:
其中,c的值代表其对应哪一类的标签,代表Xtr特征在第p个特征区域上的特征向量,/>代表c类标签最后一层图神经网络的输出标签特征,/>代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度;T在上述公式中代表对向量的转置操作;
S3.3、对余弦相似度Z进行归一化:
S3.4、对于D=2048时ResNet101网络的最后一层卷积层的输出特征向量X,再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别,得到类相关特征Xcf,类相关特征Xcf的维数为w×h×C;类相关特征Xcf中,每一个w×h的矩阵都代表了一个标签类对应的图像特征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110721193.XA CN113657425B (zh) | 2021-06-28 | 2021-06-28 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110721193.XA CN113657425B (zh) | 2021-06-28 | 2021-06-28 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657425A CN113657425A (zh) | 2021-11-16 |
CN113657425B true CN113657425B (zh) | 2023-07-04 |
Family
ID=78477143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110721193.XA Active CN113657425B (zh) | 2021-06-28 | 2021-06-28 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657425B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988147B (zh) * | 2021-12-08 | 2022-04-26 | 南京信息工程大学 | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 |
CN114528911A (zh) * | 2022-01-10 | 2022-05-24 | 西北大学 | 多分支结构的多标签图像分类方法和模型构建方法及装置 |
CN114612681A (zh) * | 2022-01-30 | 2022-06-10 | 西北大学 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
CN114648635B (zh) * | 2022-03-15 | 2024-07-09 | 安徽工业大学 | 一种融合标签间强相关性的多标签图像分类方法 |
CN115240037A (zh) * | 2022-09-23 | 2022-10-25 | 卡奥斯工业智能研究院(青岛)有限公司 | 模型训练方法、图像处理方法、设备及存储介质 |
CN115841596B (zh) * | 2022-12-16 | 2023-09-15 | 华院计算技术(上海)股份有限公司 | 多标签图像分类方法及其模型的训练方法、装置 |
CN116503639A (zh) * | 2023-03-14 | 2023-07-28 | 苏州大学 | 一种视网膜oct图像病变多标签分类系统和方法 |
CN117236433B (zh) * | 2023-11-14 | 2024-02-02 | 山东大学 | 辅助盲人生活的智能通信感知方法、系统、设备及介质 |
CN117690098B (zh) * | 2024-02-01 | 2024-04-30 | 南京信息工程大学 | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 |
CN117746167B (zh) * | 2024-02-20 | 2024-04-19 | 四川大学 | 口腔全景片影像摆位错误分类模型训练方法及分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109711465A (zh) * | 2018-12-26 | 2019-05-03 | 西安电子科技大学 | 基于mll和asca-fr的图像字幕生成方法 |
CN110147457A (zh) * | 2019-02-28 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN110188239A (zh) * | 2018-12-26 | 2019-08-30 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN112115995A (zh) * | 2020-09-11 | 2020-12-22 | 北京邮电大学 | 一种基于半监督学习的图像多标签分类方法 |
CN112199536A (zh) * | 2020-10-15 | 2021-01-08 | 华中科技大学 | 一种基于跨模态的快速多标签图像分类方法和系统 |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
-
2021
- 2021-06-28 CN CN202110721193.XA patent/CN113657425B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN109711465A (zh) * | 2018-12-26 | 2019-05-03 | 西安电子科技大学 | 基于mll和asca-fr的图像字幕生成方法 |
CN110188239A (zh) * | 2018-12-26 | 2019-08-30 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN110147457A (zh) * | 2019-02-28 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN112115995A (zh) * | 2020-09-11 | 2020-12-22 | 北京邮电大学 | 一种基于半监督学习的图像多标签分类方法 |
CN112199536A (zh) * | 2020-10-15 | 2021-01-08 | 华中科技大学 | 一种基于跨模态的快速多标签图像分类方法和系统 |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113657425A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657425B (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN110717431B (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN110837846B (zh) | 一种图像识别模型的构建方法、图像识别方法及装置 | |
US20190325299A1 (en) | Unsupervised domain adaptation with similarity learning for images | |
CN108596154B (zh) | 基于高维特征选择与多级融合的遥感图像分类方法 | |
CN111476315B (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
Singh et al. | A study of moment based features on handwritten digit recognition | |
Liu et al. | Dicnet: Deep instance-level contrastive network for double incomplete multi-view multi-label classification | |
CN104573669A (zh) | 图像物体检测方法 | |
CN108629373B (zh) | 一种图像分类方法、系统、设备及计算机可读存储介质 | |
CN110598603A (zh) | 人脸识别模型获取方法、装置、设备和介质 | |
CN105095863A (zh) | 基于相似性权值的半监督字典学习的人体行为识别方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Yu et al. | Vision‐based traffic accident detection using sparse spatio‐temporal features and weighted extreme learning machine | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
Dias et al. | A multirepresentational fusion of time series for pixelwise classification | |
CN111177444A (zh) | 一种图像标记方法及电子设备 | |
CN111008575A (zh) | 一种基于多尺度上下文信息融合的鲁棒人脸识别方法 | |
Zhao et al. | A novel two-stage scene classification model based on feature variable significance in high-resolution remote sensing | |
Cholakkal et al. | A classifier-guided approach for top-down salient object detection | |
CN117455515A (zh) | 一种在线侵权商品自动化巡检系统 | |
CN108960005B (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
CN112257600A (zh) | 一种人脸识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |