CN114612681A - 基于gcn的多标签图像分类方法、模型构建方法及装置 - Google Patents
基于gcn的多标签图像分类方法、模型构建方法及装置 Download PDFInfo
- Publication number
- CN114612681A CN114612681A CN202210274122.4A CN202210274122A CN114612681A CN 114612681 A CN114612681 A CN 114612681A CN 202210274122 A CN202210274122 A CN 202210274122A CN 114612681 A CN114612681 A CN 114612681A
- Authority
- CN
- China
- Prior art keywords
- module
- convolution network
- graph convolution
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 44
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 description 2
- 238000004513 sizing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于GCN的多标签图像分类方法、模型构建方法及装置,包括预处理模块、模型构建模块和训练模块;预处理模块,用于对已知数据集进行预处理,得到预处理后的数据集图像;训练模块,用于将预处理后的数据集图像输入多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型;模型构建模块,用于构建多标签图像分类模型并将其发送给训练模块。本发明结合了注意力机制模块和图卷积网络,通过对原始图像特征在空间和通道上获取注意力图以及通过图卷积网络获取更具鉴别意义的类别语义,有效加强了图像显著部分的特征和避免了感兴趣部分特征的丢失,提升了网络的输出精度。
Description
技术领域
本发明属于分类技术领域,涉及一种基于图卷积网络的多标签图像分类方法,具体是一种基于GCN的多标签图像分类方法、模型构建方法及装置。
背景技术
多标签图像分类作为计算机视觉一项最基本而有意义的任务之一,它的目的就是为一幅图像分配两个及两个以上的标签。相对于单标签分类,它更符合生活实际,所应用的领域也更加广泛,例如:标签推荐、行人重识别、医疗诊断等,所以对它的研究与发展更加能引起人们的注意。
对于多标签图像分类最传统的方法就是不考虑标签之间的相关性,一种是将其看作是二分类问题,单独训练多个分类器,即转化为传统的单标签图像分类,或者是将对象建议与CNN结合起来进行训练的方式。虽然由于CNN网络的出现这样的方法得到了很高的精确度,但却大大增加了运算成本,不利于实现。基于此,对标签相关性进行探索成为研究多标签分类的一大主流。例如RNN/LSTM网络,RNN网络可用来隐式的建立标签相关性以及标签语义依赖,但需要预先确定标签的顺序,使得预测的准确率大大降低。同时一些注意力机制也成为获取标签相关性的手段,它们通过建立语义区域之间的依赖关系进而捕获标签语义的相关性。以上模型都只考虑了每张图片标签之间的局部相关性,忽略了数据集中标签的先验特征。还有图网络也被用来建模标签之间的相关性,但以往对图网络的运用仅仅考虑了标签的先验特征或单张图像的标签相关性,并没有考虑到标签的先验特征对局部语义依赖的影响。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种基于GCN的多标签图像分类方法、模型构建方法及装置,以解决现有技术中并没有考虑标签先验特征对局部语义依赖的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种基于图卷积网络的多标签图像分类模型构建装置,包括预处理模块、模型构建模块和训练模块;其中:
预处理模块,用于对已知数据集进行预处理,得到预处理后的数据集图像,并将其发送给训练模块;
训练模块,用于将预处理后的数据集图像输入多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型;
模型构建模块,用于构建多标签图像分类模型并将其发送给训练模块;该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块:其中:
特征提取模块,用于对预处理后的数据集图像进行图像特征提取,得到图像的特征图,并将特征图发送给注意力机制模块;
注意力机制模块,用于对输入的特征图F进行注意力机制处理,得到新的特征图f,然后将新的特征图f发送给特征向量转换模块;
特征向量转换模块,用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义,并将其送入图卷积网络混合模块;
图卷积网络乘积模块,包含第一图卷积网络、第二图卷积网络和乘法器;所述第一图卷积网络的输入端连接特征向量转换模块的输出端,用于对特征向量模块发来的类别语义o进行处理,获取单张图像标签之间的相关性,并发送给乘法器;所述第二图卷积网络以数据集的标签的先验特征为输入,得到标签嵌入,并发送给乘法器;乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘,得到类别语义O={O0,O1,…OC-1},并将类别语义O送入输出预测模块;
输出预测模块,用于实现以下功能:将图卷积网络混合模块发送来的类别语义O采用全连接网络转换成各个标签相对应的得分,从而得到所有标签对应的得分向量为s={s0,s1…,sC-1};然后通过sigmoid函数得到得分向量s对应的概率向量p={p0,p1…,pC-1}。
进一步的,所述预处理包括对图像进行翻转、分割和尺寸统一。
进一步的,所述特征提取模块采用残差网络,并对残差网络输出的数据采用池化操作进行处理,得到特征图F。
进一步的,所述注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器,其中,所述特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块,通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取,得到通道注意力特征图Mc;所述空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取,得到空间注意力特征图Ms;所述特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘,得到通道特征图和空间特征图,通道特征图和空间特征图分别输出到加法器,加法器用于实现通道特征图和空间特征图的自适应参数相加,得到新的特征图f,并发送给特征向量转换模块。
进一步的,通过注意力机制模块中获得新的特征图f:
f=γ(MC*F)+(1-γ)(MSF)
MC=σ(MLP(AugPool(F))
MS=σ(f7*7(MaxPool(F))
式中,γ为自适应参数,MC为通道注意力特征图,MS为空间注意力特征图,F为特征提取模块发来的特征图F,σ为激活函数,AvgPool、MxaPool分别代表平均池化和最大池化,f7*7()是卷积核大小为7*7的卷积操作。
另一方面,本发明还提供了一种基于图卷积网络的多标签图像分类模型的构建方法,包括如下步骤:
步骤1,对数据集分别进行预处理,得到预处理后的数据集图像;
步骤2,构建多标签图像分类模型;
所述多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块;其中:
特征提取模块,用于对预处理后的数据集图像进行图像特征提取,得到图像的特征图,并将特征图发送给注意力机制模块;
注意力机制模块,用于对输入的特征图F进行注意力机制处理,得到新的特征图f,然后将新的特征图f发送给特征向量转换模块;
特征向量转换模块,用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义,并将其送入图卷积网络混合模块;
图卷积网络乘积模块,包含第一图卷积网络、第二图卷积网络和乘法器;所述第一图卷积网络的输入端连接特征向量转换模块的输出端,用于对特征向量模块发来的类别语义o进行处理,获取单张图像标签之间的相关性,并发送给乘法器;所述第二图卷积网络以数据集的标签的先验特征为输入,得到标签嵌入,并发送给乘法器;乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘,得到类别语义O={O0,O1,…OC-1},并将类别语义O送入输出预测模块;
输出预测模块,用于实现以下功能:将图卷积网络混合模块发送来的类别语义O采用全连接网络转换成各个标签相对应的得分,从而得到所有标签对应的得分向量为s={s0,s1…,sC-1};然后通过sigmoid函数得到得分向量s对应的概率向量p={p0,p1…,pC-1}。
步骤3,训练模型:
将步骤1预处理后的数据集图像输入步骤2输出的多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型。
另一方面,本发明还提供了一种基于图卷积网络的多标签图像分类方法,具体包括以下步骤:
步骤1,采集待测试的图像,对其进行预处理;
步骤2,对处理后的图像输入至权利要求1~6任一项得到的训练好的基于图卷积网络的多标签图像分类模型中,获得标签输出概率。
本发明与现有技术相比,具有如下技术效果:
(Ⅰ)本发明利用图卷积网络对类别语义进行处理,捕获图像的局部语义依赖,从而减少训练成本。
(Ⅱ)本发明结合利用图卷积网络处理过的标签的先验特征,生成更具有代表性意义的语义依赖,减少过拟合,提高了多标签图像分类模型的泛化能力,从而有效解决了现有技术中并没有考虑标签先验特征对局部语义依赖的技术问题。
(Ⅲ)本发明利用注意力机制模块获取图像显著部分或感兴趣的内容,减小了误差,提升了训练精度。
综上,本发明结合了注意力机制模块和图卷积网络,通过对原始图像特征在空间和通道上获取注意力图以及通过图卷积网络获取更具鉴别意义的类别语义,有效加强了图像显著部分的特征和避免了感兴趣部分特征的丢失,提升了输出精度。
附图说明
图1为本发明的基于图卷积网络的多标签图像分类模型构建的流程示意图。
图2为通道注意力模块、空间注意力模块的原理图。其中,(a)为通道注意力模块,(b)为空间注意力模块。
图3为注意力机制模块的结构示意图。
图4为图卷积网络乘积模块的结构示意图。
以下结合实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
首先,对本发明涉及的技术术语进行说明:
MS-COCO数据集:是一种标准图像数据集。
Pascal VOC2007数据集:是一种标准图像数据集。
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例1:
本实施例给出一种基于图卷积网络的多标签图像分类模型构建装置,包括预处理模块、模型构建模块和训练模块;
预处理模块,用于对现有MS-COCO和Pascal VOC2007数据集分别进行预处理,得到预处理后的数据集图像,并将其发送给训练模块。
具体的,预处理包括对图像进行翻转、分割和尺寸统一,本实施例中将图像缩放至统一尺寸448*448。
训练模块,用于将预处理后的数据集图像输入多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型。
模型构建模块,用于构建多标签图像分类模型并将其发送给训练模块;该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块:
特征提取模块,用于对预处理后的数据集图像进行图像特征提取,得到图像的特征图,并将特征图发送给注意力机制模块。
具体的,本发明采用现有的残差网络进行图像特征的提取,为了得到更深层次的特征,残差网络选取ResNet-101作为提取特征的主干网络;(不用池化操作2048*14*14)优选的,为了保留主要特征的同时减少参数、防止过拟合、提高模型的泛化能力,对残差网络输出的数据采用池化操作MaxPool2D进行处理,得到图像的特征图F。本实施例得到的特征图F的维度为2048*7*7。
注意力机制模块,用于对输入的特征图F进行注意力机制处理,得到新的特征图f的维度为2048*7*7,然后将新的特征图发送给特征向量转换模块。该模块的作用是使注意力集中在部分显著或者更感兴趣的地方。
具体的,如图3所示,注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器,其中,特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块,通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取(见图2(a)),得到通道注意力特征图Mc;空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取(见图2(b)),得到空间注意力特征图Ms;特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘,得到通道特征图和空间特征图,通道特征图和空间特征图分别输出到加法器,加法器用于实现通道特征图和空间特征图的自适应参数相加,以得到更具鉴别意义的新的特征图f,并发送给特征向量转换模块的输入端。
上述技术方案中,空间注意力模块、通道注意力模块均通过原始特征图(即特征提取模块输出的特征图F)获得在空间注意力特征图和通道注意力特征图,其本质上是赋予原始特征图不同位置一定的权重,所以在获得空间或者通道注意力特征图之后,还需要与原始特征图相乘才能获得用于训练的空间特征图和通道特征图,然后通过加法器实现将空间特征图和通道特征图这两个用于训练的图相加得到新的特征图f,也即注意力机制模块的最终输出。)
具体的,通过注意力机制模块中获得新的特征图f如下式所示:
f=γ(MC*F)+(1-γ)(MSF)
MC=σ(MLP(AvgPool(F))
MS=σ(f7*7(MaxPool(F))
式中,γ为自适应参数,MC为通道注意力特征图,MS为空间注意力特征图,F为特征提取模块发来的特征图F,σ为激活函数,选用sigmoid,AvgPool、MxaPool分别代表平均池化和最大池化,f7*7()是卷积核大小为7*7的卷积操作。
特征向量转换模块,用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义,并将其送入图卷积网络混合模块。
具体是:通过类激活映射(CAM)或者低秩双线性池的方法将新的特征图f(维度为2048*7*7)转换为类别语义o(维度为C*2048),C为数据集标签个数。比如,采用低秩双线性池的方法时,则注意力机制模块发来的新的特征图f的每一个类别标签c利用下式处理,转化为维度是的类别语义s;
sc,wh=PT(tanh((ZTUc)⊙(XTfc,wh)))+b;
其中,(w,h)表示图像的某位置,tanh()为双曲正切函数,Uc∈RC*300为标签嵌入,P∈Rd1*d2、Z∈R2048*d1、Z∈R300*d1、b∈Rd2是需要训练的参数,⊙是逐个元素相乘运算,d1和d2用于连接标签嵌入和图像特征的维度。最终,得到类别语义o={o0,o1…,oc-1}。
图卷积网络乘积模块,如图4所示,包含第一图卷积网络、第二图卷积网络和乘法器。第一图卷积网络的输入端连接特征向量转换模块的输出端,用于对特征向量模块发来的类别语义o进行处理,获取单张图像标签之间的相关性,并发送给乘法器;第二图卷积网络以数据集的标签的先验特征(先验特征即为标签向量,维数为C*300)为输入,得到C*2048维度的标签嵌入(该操作目的是获得各个数据集与单张图像无关的标签之间的全局相关性),并发送给乘法器;乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘,得到维数是C*2048的类别语义O={O0,O1,…OC-1},并将类别语义O送入输出预测模块。
具体的,第一图卷积网络和第二图卷积相同,通过下式实现:
Hl+1=f(Hl,A)=AHlWl
其中,Hl为图卷积网络的第l层输入,(l-1)层的输出,A为图卷积网络的邻接矩阵,f()为一个非线性函数,W是训练的参数;
在具体操作中,第一图卷积网络的输入为维度是C*2048的类别语义o,第二图卷积网络的输入为C*2048的标签嵌入,它们分别作为最底层输入进入图卷积网络。邻接矩阵我们使用数据集各个标签彼此之间出现的概率构成的矩阵。
输出预测模块,用于实现以下功能:将图卷积网络混合模块发送来的类别语义O采用2048-1的全连接网络转换成各个标签相对应的得分sc,从而得到所有标签对应的得分为s={s0,s1…,sC-1};然后通过sigmoid函数得到得分向量s对应的概率向量p={p0,p1…,pC-1};
本实施例认为当预测的概率pc大于0.5时,此标签被认为正标签。
在本实施例中,采用公开数据集MS-COCO2014和Pascal Voc2007的训练集作为基于图卷积网络的多标签分类模型的输入。其中,MS-COCO2014训练集中有82081张图像,Pascal Voc2007为5011张图像,MS-COCO2014验证集中有40504张图像,Pascal Voc2007为4952张图像。此外,MS-COCO2014有80个类别,Pascal Voc2007为20个类别。
本发明的基于图卷积网络的多标签分类检测模型训练所用到损失函数如下所示:
其中,yc={0,1},0代表负标签,1代表正标签。
实施例2:
本实施例给出了一种基于图卷积网络的多标签图像分类模型的构建方法,包括如下步骤:
步骤1,对现有MS-COCO和Pascal VOC2007数据集分别进行预处理,得到预处理后的数据集图像;具体的,预处理包括对图像进行翻转、分割和尺寸统一,本实施例中将图像缩放至统一尺寸448*448。
步骤2,构建多标签图像分类模型;
该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块。其中,各模块的设计内容与实施例1的方法中的对应模块相同,此处不再赘述。
步骤3,训练模型。
将步骤1预处理后的数据集图像输入步骤2构建得到的多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型。
实施例3:
本实施例给出一种基于图卷积网络的多标签图像分类方法,具体包括以下步骤:
步骤1,采集待测试的图像,对其进行预处理;具体的,预处理包括对图像进行翻转、分割和尺寸统一,本实施例中将图像缩放至统一尺寸448*448;
步骤2,对处理后的图像输入至实施例1得到的训练好的基于图卷积网络的多标签图像分类模型中,获得标签输出概率。
为了验证本发明的可行性和有效性,本申请在MS-COCO数据集和PASCOL-VOC数据集上分别采用本发明的方法和现有方法进行处理,得到表1和表2的结果,其中,表1是在MS-COCO数据集上本发明的方法与现有方法所做的比较,表2是在PASCOL-VOC数据集上本发明的方法与现有方法所做的比较。
表1 MS-COCO
表2 PASCOL-VOC
从表1和表2可以看出,本发明构建的模型在这两个数据集上均获得更好的效果,其中,在MS-COCO数据集上比现有效果最好模型的Map提高了约0.5%,在PASCOL-VOC数据集上比现有效果最好模型的Map提高了约1.4%。
Claims (7)
1.一种基于图卷积网络的多标签图像分类模型构建装置,其特征在于,包括预处理模块、模型构建模块和训练模块;其中:
预处理模块,用于对已知数据集进行预处理,得到预处理后的数据集图像,并将其发送给训练模块;
训练模块,用于将预处理后的数据集图像输入多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型;
模型构建模块,用于构建多标签图像分类模型并将其发送给训练模块;该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块:其中:
特征提取模块,用于对预处理后的数据集图像进行图像特征提取,得到图像的特征图,并将特征图发送给注意力机制模块;
注意力机制模块,用于对输入的特征图F进行注意力机制处理,得到新的特征图f,然后将新的特征图f发送给特征向量转换模块;
特征向量转换模块,用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义,并将其送入图卷积网络混合模块;
图卷积网络乘积模块,包含第一图卷积网络、第二图卷积网络和乘法器;所述第一图卷积网络的输入端连接特征向量转换模块的输出端,用于对特征向量模块发来的类别语义o进行处理,获取单张图像标签之间的相关性,并发送给乘法器;所述第二图卷积网络以数据集的标签的先验特征为输入,得到标签嵌入,并发送给乘法器;乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘,得到类别语义O={O0,O1,…OC-1},并将类别语义O送入输出预测模块;
输出预测模块,用于实现以下功能:将图卷积网络混合模块发送来的类别语义O采用全连接网络转换成各个标签相对应的得分,从而得到所有标签对应的得分向量为s={s0,s1…,sC-1};然后通过sigmoid函数得到得分向量s对应的概率向量p={p0,p1…,pC-1}。
2.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置,其特征在于,所述预处理包括对图像进行翻转、分割和尺寸统一。
3.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置,其特征在于,所述特征提取模块采用残差网络,并对残差网络输出的数据采用池化操作进行处理,得到特征图F。
4.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置,其特征在于,所述注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器,其中,所述特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块,通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取,得到通道注意力特征图Mc;所述空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取,得到空间注意力特征图Ms;所述特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘,得到通道特征图和空间特征图,通道特征图和空间特征图分别输出到加法器,加法器用于实现通道特征图和空间特征图的自适应参数相加,得到新的特征图f,并发送给特征向量转换模块。
5.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置,其特征在于,通过注意力机制模块中获得新的特征图f:
f=γ(MC*F)+(1-γ)(MS*F)
MC=σ(MLP(Avgpool(F))
MS=σ(f7*7(MaxPool(F))
式中,γ为自适应参数,MC为通道注意力特征图,MS为空间注意力特征图,F为特征提取模块发来的特征图F,σ为激活函数,AvgPool、MxaPool分别代表平均池化和最大池化,f7*7()是卷积核大小为7*7的卷积操作。
6.一种基于图卷积网络的多标签图像分类模型的构建方法,其特征在于,包括如下步骤:
步骤1,对数据集分别进行预处理,得到预处理后的数据集图像;
步骤2,构建多标签图像分类模型;
所述多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块;其中:
特征提取模块,用于对预处理后的数据集图像进行图像特征提取,得到图像的特征图,并将特征图发送给注意力机制模块;
注意力机制模块,用于对输入的特征图F进行注意力机制处理,得到新的特征图f,然后将新的特征图f发送给特征向量转换模块;
特征向量转换模块,用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义,并将其送入图卷积网络混合模块;
图卷积网络乘积模块,包含第一图卷积网络、第二图卷积网络和乘法器;所述第一图卷积网络的输入端连接特征向量转换模块的输出端,用于对特征向量模块发来的类别语义o进行处理,获取单张图像标签之间的相关性,并发送给乘法器;所述第二图卷积网络以数据集的标签的先验特征为输入,得到标签嵌入,并发送给乘法器;乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘,得到类别语义O={O0,O1,…OC-1},并将类别语义O送入输出预测模块;
输出预测模块,用于实现以下功能:将图卷积网络混合模块发送来的类别语义O采用全连接网络转换成各个标签相对应的得分,从而得到所有标签对应的得分向量为s={s0,s1…,sC-1};然后通过sigmoid函数得到得分向量s对应的概率向量p={p0,p1…,pC-1}。
步骤3,训练模型:
将步骤1预处理后的数据集图像输入步骤2输出的多标签图像分类模型进行训练,以多个标签在图像上出现的概率为输出,得到训练好的多标签图像分类模型。
7.一种基于图卷积网络的多标签图像分类方法,其特征在于,具体包括以下步骤:
步骤1,采集待测试的图像,对其进行预处理;
步骤2,对处理后的图像输入至权利要求1~6任一项得到的训练好的基于图卷积网络的多标签图像分类模型中,获得标签输出概率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113149 | 2022-01-30 | ||
CN2022101131495 | 2022-01-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114612681A true CN114612681A (zh) | 2022-06-10 |
Family
ID=81864613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210274122.4A Pending CN114612681A (zh) | 2022-01-30 | 2022-03-20 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114612681A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188867A (zh) * | 2023-03-07 | 2023-05-30 | 山东省人工智能研究院 | 一种基于注意力增强网络的多标签心电图像分类方法 |
CN117688504A (zh) * | 2024-02-04 | 2024-03-12 | 西华大学 | 基于图结构学习的物联网异常检测方法及装置 |
CN118429733A (zh) * | 2024-07-05 | 2024-08-02 | 湖南大学 | 一种多头注意力驱动的厨余垃圾多标签分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020083073A1 (zh) * | 2018-10-23 | 2020-04-30 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、系统、设备及存储介质 |
US20200160177A1 (en) * | 2018-11-16 | 2020-05-21 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
CN113642602A (zh) * | 2021-07-05 | 2021-11-12 | 山西大学 | 一种基于全局与局部标签关系的多标签图像分类方法 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
-
2022
- 2022-03-20 CN CN202210274122.4A patent/CN114612681A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020083073A1 (zh) * | 2018-10-23 | 2020-04-30 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、系统、设备及存储介质 |
US20200160177A1 (en) * | 2018-11-16 | 2020-05-21 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
US20200210773A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Neural network for image multi-label identification, related method, medium and device |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
CN113378965A (zh) * | 2021-06-25 | 2021-09-10 | 齐鲁工业大学 | 一种基于dcgan和gcn的多标签图像识别方法及系统 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN113642602A (zh) * | 2021-07-05 | 2021-11-12 | 山西大学 | 一种基于全局与局部标签关系的多标签图像分类方法 |
Non-Patent Citations (2)
Title |
---|
秦亿青;池明?;: "结合场景分类数据的高分遥感图像语义分割方法", 计算机应用与软件, no. 06, 12 June 2020 (2020-06-12) * |
陈科峻;张叶;: "循环神经网络多标签航空图像分类", 光学精密工程, no. 06, 9 June 2020 (2020-06-09) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188867A (zh) * | 2023-03-07 | 2023-05-30 | 山东省人工智能研究院 | 一种基于注意力增强网络的多标签心电图像分类方法 |
CN116188867B (zh) * | 2023-03-07 | 2023-10-31 | 山东省人工智能研究院 | 一种基于注意力增强网络的多标签心电图像分类方法 |
CN117688504A (zh) * | 2024-02-04 | 2024-03-12 | 西华大学 | 基于图结构学习的物联网异常检测方法及装置 |
CN117688504B (zh) * | 2024-02-04 | 2024-04-16 | 西华大学 | 基于图结构学习的物联网异常检测方法及装置 |
CN118429733A (zh) * | 2024-07-05 | 2024-08-02 | 湖南大学 | 一种多头注意力驱动的厨余垃圾多标签分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN111191526B (zh) | 行人属性识别网络训练方法、系统、介质及终端 | |
CN114612681A (zh) | 基于gcn的多标签图像分类方法、模型构建方法及装置 | |
EP4163831A1 (en) | Neural network distillation method and device | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111950649A (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
US12067730B2 (en) | Panoptic segmentation refinement network | |
US20230401838A1 (en) | Image processing method and related apparatus | |
JP6107531B2 (ja) | 特徴抽出プログラム及び情報処理装置 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN112434731A (zh) | 图像识别方法、装置及可读存储介质 | |
Tsai et al. | Frontalization and adaptive exponential ensemble rule for deep-learning-based facial expression recognition system | |
CN116246110A (zh) | 基于改进胶囊网络的图像分类方法 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN111639537A (zh) | 人脸动作单元识别方法、装置、电子设备及存储介质 | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN115841596B (zh) | 多标签图像分类方法及其模型的训练方法、装置 | |
CN116758092A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240927 |
|
AD01 | Patent right deemed abandoned |