CN112906720A - 基于图注意力网络的多标签图像识别方法 - Google Patents
基于图注意力网络的多标签图像识别方法 Download PDFInfo
- Publication number
- CN112906720A CN112906720A CN202110316665.3A CN202110316665A CN112906720A CN 112906720 A CN112906720 A CN 112906720A CN 202110316665 A CN202110316665 A CN 202110316665A CN 112906720 A CN112906720 A CN 112906720A
- Authority
- CN
- China
- Prior art keywords
- matrix
- global
- occurrence feature
- label
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 110
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000007906 compression Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 241000282327 Felis silvestris Species 0.000 description 1
- 229910006119 NiIn Inorganic materials 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种基于图注意力网络的多标签图像识别方法,包括:第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入卷积神经网络,利用全局共现特征提取模块提取共现特征矩阵;第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵;第三步,将邻接矩阵作为图注意力网络的输入,经过图注意力网络学习得到学习后的矩阵;第四步,将共现特征矩阵与学习后的矩阵进行线性相乘,得到识别结果。该方法利用全局共现特征提取模块提取图像中的共现特征矩阵,提取图像全局共现特征与总体信息;通过图注意力网络的注意力机制计算标签节点之间的关联性,对每个标签节点自适应分配不同的权重,有利于提高识别精度。
Description
技术领域
本发明涉及计算机图像处理领域,具体是一种基于图注意力网络的多标签图像识别方法。
背景技术
图像识别技术能够代替人力去处理大量繁多复杂的图像,图像识别被广泛应用于多个领域,如医学诊断、智能图像管理、相册搜索等。
在众多的图像信息处理中,图像识别实际上是一个分类的过程,即寻找识别出图像中固有的特征,使其区分于其他不同类别的图像而归类,这就要求所选取的特征为最具有区别性的特征,最具有区别性的特征可以很好地区分于不同类别的图像,同时该特征可以形象地描述图像,即选取拥有较小的类内距的同时尽量拥有较大的类间距的图像特征,这些特征在同类图像之间差异较小,在不同类别的图像之间差异较大。
随着卷积神经网络(CNNs)的出现,图像识别的整体性能得到了极大的提高。CNNs中的卷积层主要利用一定规格的滤波器实现空间特征的提取,即对各个像素点及其相邻像素点进行加权求和的运算来构造特征图。CNNs一般具有输入层、卷积层、激活层、池化层、输出层五个层级结构。其中,对图像进行预处理操作一般发生在输入层,图像经由输入层的裁剪、伸缩及标准化之后进入卷积层通过卷积操作提取特征,进行局部感知,获取特征图。激活层的目的是为了增强整个网络的表达能力,通常是对卷积层的输出结果做一次非线性映射,常见的激活函数有sigmoid、tanh、relu、leaky relu等。池化层实际上也可以被称为欠采样或下采样层,主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性,最常见的有最大池化(Max Pooling)和平均池化(Average Pooling)两种。在池化层后是输出层,即全连接层,后接分类器,如softmax分类器等。
近几年,许多基于CNNs的经典图像分类网络模型被提出,如AlexNet模型、GoogLeNet模型、VGGNet模型、ResNet残差网络等。其中,ResNet残差网络在2015年首次被提出,其中残差学习的思想有效地解决了传统网络模型在信息传递的过程中容易将有效信息丢失,同时还会出现梯度消失或梯度爆炸的问题,该网络不仅可以加速深层网络的训练,同时可以有效地提升图像识别的准确率。
最新研究表明,以CNNs为基础的模型可以简单地提高单标签图像的识别速度和精度,使得单标签图像识别有了重要的进步。然而,在日常生活的场景中,大多数的图像中不仅仅只有一个事物,而是存在多个物体,将这类图像中的每个物体设为一个标签,那么这些拥有多个标签同时出现的图像便可称作多标签图像。与传统的单标签图像识别相比,多标签图像识别的任务需要预测图像中的一组标签,所以更加复杂。比如一张图片中包含猫、狗和球三个物体,那么便可以为图像赋予猫、狗、球三个标签,即通过这三个标签将图像分到三个不同的类别中。由于现实生活中狗与猫两个事物共同出现在一张图像上的可能性远远大于它们与球出现在同一图像中,因此三个标签之间的权重占比是不一样的。
由于多标签图像中各个标签之间存在相对复杂的关联性,多标签图像识别技术需要对图像信息和图像中的类别标签有更加充分的了解,因此针对多标签的特征提取与识别研究更为重要。
传统的多标签图像识别方法大多数以手工提取特征为主,为每一个类别标签独立地训练一个二分类器,并将得到的各个标签的结果进行整合,最终得到原图像的多标签分类结果。随着深度学习网络的发展,将CNNs扩展到多标签图像识别问题上,其实质是将其转化为多个单标签问题进行迭代训练,依旧是单标签图像的识别操作,只是对每个目标进行单个识别,忽略了各个目标之间的关联性与图像中多个标签之间的共现依赖关系,最终导致了多标签图像识别准确率不高,效果差与效率低的结果。
为了建立各个标签之间的相关性,是在多标签图像识别模型中引入图卷积神经网络(GCN)。图卷积神经网络与传统卷积网络不同,它的操作对象没有良好规范的欧式结构特征,而是通过节点之间的邻接关系来使相关信息在节点之间流动。卷积神经网络的局限性在于它的应用针对的都是欧式空间里的结构化数据,而现实生活中,许多数据属于非欧式结构数据。非欧式结构数据表示以其中的一个节点为中心,它的邻接节点不会像传统的结构化数据一样整齐排列,而是数目不一,杂乱无章的,如化学分子结构、社交网络都属于典型的非欧式结构数据。这类数据可用图结构的点和边表示。图结构模型拥有更强大的表示能力,也更加复杂。现存的基于图的多标签图像识别的模型大多数采用的是成对兼容概率或者共现概率来建立标签之间的共现关系,然而这些模型通常不能建立图像中的高阶关系。
总之,目前存在的基于深度学习的多标签识别方法既没有充分考虑不同目标之间的共现特征,从而忽略了类别上的关联性,也没有充分利用图像中的高阶特征,降低了多标签图像识别的准确性。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于图注意力网络的多标签图像识别方法。
本发明解决所述技术问题采用的技术方案如下:
一种基于图注意力网络的多标签图像识别方法,其特征在于,该方法包括以下步骤:
第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入到卷积神经网络中,利用全局共现特征提取模块提取共现特征矩阵X;全局共现特征提取模块包括压缩和扩充两个过程;
第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵A;
第三步,将邻接矩阵A作为图注意力网络的输入,经过图注意力网络学习得到矩阵A′;
通过上述第一步至第四步完成多标签图像的识别。
第一步中全局共现特征提取模块的具体过程为:
设全局共现特征提取模块的初始输入为大小为h×w×c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;全局共现特征提取模块的初始输入经过卷积操作,得到矩阵N;设NT为矩阵N的转置矩阵,常量q=h×w,I是大小为q×q的单位矩阵,J是大小为q×q的全1矩阵,变换矩阵利用式(1)计算协方差矩阵K;
对协方差矩阵K进行标准化,得到标准化后的协方差矩阵K′,至此完成全局共现特征提取模块的压缩过程;
将标准化后的协方差矩阵K′进行组卷积操作,得到矩阵R,矩阵R经过卷积操作得到权重向量;
然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素线性相乘,得到变换后的3D张量;变换后的3D张量经过最大池化操作,得到共现特征矩阵X,至此完成全局共现特征提取模块的扩充过程。
上述的卷积神经网络为ResNet残差网络,ResNet残差网络包含layer1~layer4四个残差模块;每个残差模块之后嵌入全局共现特征提取模块或者选择性地在相应残差模块之后嵌入全局共现特征提取模块;在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。
所述ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3,步长为2的最大池化操作。
所述ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14,步长为1的最大池化操作,得到大小为d×1的共现特征矩阵X,d为特征嵌入的维度。
与现有方法相比,本发明具有的显著进步如下:
1.本发明利用全局共现特征提取模块提取图像中的共现特征矩阵,可以提取图像全局共现特征与总体信息;通过图注意力网络的注意力机制计算标签节点之间的关联性,对每个标签节点自适应分配不同的权重,在每个标签节点和其相邻的标签节点中可以高效地并行运算,解决了传统图卷积神经网络无法捕捉图像中多个标签之间的共现依赖关系的问题,同时减少了噪声对网络的影响。
2.全局共现特征提取模块是一个全局二阶池化的过程,由全局二阶池化代替传统卷积神经网络中的一阶池化操作,全局共现特征提取模块以压缩和扩充两个过程为基本操作,压缩过程以通道维度方向计算输入张量的二阶统计量,可以得到图像的全局信息;扩充过程连续执行卷积和非线性激活操作用以嵌入协方差矩阵,进行通道缩放,对不同通道的权重进行判别,提取多标签图像中的高阶特征。全局共现特征提取模块由底层网络贯穿至高层,经过全局二阶池化可以增强图像识别中非线性建模能力,能够更好地描述不同类别特征之间的复杂边界,高效地提取图像中的高阶特征以及总体信息。
3.本发明将图注意力网络应用到多标签图像识别中,对图像中的每个标签节点进行随机游走采样,获得图像整体的全局信息,从而关注权重更大的标签节点以及关联性更强的特征,再着重进行局部信息的处理,而不是对参与计算的每个标签节点进行平均加权。与传统的图卷积神经网络相比,利用图注意力网络的注意力机制,为每个标签节点分配不同的权重,从而可以使网络关注作用较大的标签节点,而忽视了作用相对小的标签节点,提高运算效率和识别的准确度。
4.本发明在一定程度上提高了多标签图像识别的精度,可对复杂图像中的有效信息进行不同层次的分析与加工,广泛应用于导航、地图、机器视觉等方面。一般工业使用过程中,采用工业相机对场景进行图片拍摄,需要利用图像处理软件对图片做进一步的识别处理。本发明提出的方法可以广泛地使用于上述图像处理的各类软件中,提高图片识别效率和精度。
附图说明
图1为本发明的整体流程图;
图2为本发明的全局共现特征提取模块的结构示意图;
图3为本发明的获得注意力互相关系数的原理图;
图4为本发明的全局共现特征提取模块在ResNet残差网络的位置示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行清晰、完整地描述,并不用于限定本申请的保护范围。
本发明为一种基于图注意力网络的多标签图像识别方法(简称方法,参见图1-4),包括以下步骤:
第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入到卷积神经网络中,利用全局共现特征提取模块提取共现特征矩阵X;全局共现特征提取模块包括压缩和扩充两个过程;
第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵A;
第三步,将邻接矩阵A作为图注意力网络的输入,经过图注意力网络学习得到矩阵A′;
通过上述第一步至第四步完成多标签图像的识别。
上述第一步中全局共现特征提取模块的具体过程为:
设全局共现特征提取模块的初始输入为大小为h×w×c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;全局共现特征提取模块的初始输入经过卷积操作,得到矩阵N;设NT为矩阵N的转置矩阵,常量q=h×w,I是大小为q×q的单位矩阵,J是大小为q×q的全1矩阵,变换矩阵利用式(1)计算协方差矩阵K;
对协方差矩阵K进行标准化,得到标准化后的协方差矩阵K′,至此完成全局共现特征提取模块的压缩过程;
将标准化后的协方差矩阵K′进行组卷积操作,得到矩阵R,矩阵R经过卷积操作得到权重向量;
然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素线性相乘,得到变换后的3D张量;变换后的3D张量经过最大池化操作,得到共现特征矩阵X,至此完成全局共现特征提取模块的扩充过程。
上述的卷积神经网络为ResNet残差网络,ResNet残差网络包含layer1~layer4四个残差模块;每个残差模块之后嵌入全局共现特征提取模块或者选择性地在相应残差模块之后嵌入全局共现特征提取模块;在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。
所述ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3,步长为2的最大池化操作。
所述ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14,步长为1的最大池化操作,得到大小为d×1的共现特征矩阵X,d为特征嵌入的维度。
实施例1
以ResNet残差网络为例,说明本实施例的基于图注意力网络的多标签图像识别方法,
包括以下步骤:
第一步,待识别的多标签图像经过ResNet残差网络输入层的预处理后输入到ResNet残差网络中,利用全局共现特征提取模块提取共现特征矩阵X;
ResNet残差网络一般包含layer1~layer4四个残差模块,每个残差模块可以是两层结构,也可以是三层结构;本实施例在ResNet残差网络的layer1残差模块与layer2残差模块之间嵌入全局共现特征提取模块;ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3,步长为2的最大池化操作;
待识别的多标签图像经过预处理后,得到特征张量为x;图2中,设F表示layer1残差模块,代表相加,则layerl残差模块的输出y=F(x)+x,y是一个大小为h×w×c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;
将layer1残差模块的输出y作为全局共现特征提取模块的初始输入,全局共现特征提取模块包含压缩和扩充两个过程;首先对上述得到的3D张量进行压缩:3D张量经过大小为1×1的卷积操作(conv1)后,通道数由c减小到c′,得到大小为h×w×c′的矩阵N;设NT为矩阵N的转置矩阵,常量q=h×w,I是大小为q×q的单位矩阵,J是大小为q×q的全1矩阵,变换矩阵利用式(1)的二阶运算计算协方差矩阵K,协方差矩阵K的大小为c′×c′×1;
对协方差矩阵K进行标准化计算,得到标准化后的协方差矩阵K′;二阶运算改变了数据的顺序,对协方差矩阵做标准化计算保留了原有的结构信息;
其次对标准化后的协方差矩阵K′进行扩充操作,扩充过程包括组卷积操作conv2和卷积操作conv3;
conv2表示卷积核大小为c′×1、通道数为4c′、分组数为c′的组卷积操作;标准化后的协方差矩阵K′进行conv2操作得到大小为4c′×1×1为矩阵R;conv3表示大小为1×1,通道数为c,以sigmoid函数作为非线性激活函数的卷积操作,矩阵R经过conv3操作得到大小为c×1的权重向量;
图2中,*代表将经全局共现特征提取模块得到的大小为c×1的权重向量与全局共现特征提取模块的大小为h×w×c的初始输入y里的每个通道相对应的元素相乘,最终得到大小为h×w×c的变换后的3D张量,用字母z表示;z虽然与初始输入y大小相同,但是有效整合了待识别的多标签图像中的全局特征;
将上述得到的z作为ResNet残差网络的layer2残差模块的输入,继续进行下一步操作;最后,将ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14,步长为1的最大池化操作,得到大小为d×1的共现特征矩阵,d为特征嵌入的维度;
为了提高识别精度,可以在ResNet残差网络的每个残差模块之后嵌入一个全局共现特征提取模块(参见图4),也可以选择性在残差模块之后嵌入全局共现特征提取模块;实验表明在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。
第二步,利用待识别的多标签图像的所有标签节点之间的条件概率,构建标签节点之间的邻接矩阵A;
目前,对于多标签图像识别采用的邻接矩阵A大部分是预先定义的,如何构建邻接矩阵A还没有给出明确统一的方法;预先定义的邻接矩阵A的效果虽然很好,但构建过程会浪费大量的人力资源。本发明以一种数据驱动的方式来构建邻接矩阵A,即通过条件概率来构建多标签图像中标签节点之间的邻接矩阵;
假设待识别的多标签图像中有n个待识别的物体,即待识别的多标签图像含有n个标签,将这n个标签看作待识别的多标签图像的n个标签节点,则标签节点之间的关系用邻接矩阵表示,F为标签节点的特征数;向量表示第1个标签节点与其他标签节点之间的邻接关系,同理,表示第n个标签节点与其他标签节点之间的邻接关系;
通常,采用条件概率矩阵Pij表示当标签节点i出现时,标签节点j也出现的概率;矩阵Mij表示训练集中标签节点i和标签节点j同时出现的次数,则可通过矩阵Mij来构建条件概率矩阵:Pij=Mij/Ni,其中Ni代表标签节点i在训练集中出现的次数;
按照式(2)对条件概率矩阵Pij进行二值化,得到二值化的条件概率矩阵P′ij,以滤除噪声边缘;
式(2)中,τ为概率阈值,一般取0~1;
令ρ为超参数,ρ∈(0,1),用于控制当前标签节点和邻接标签节点之间的关联性权重;按照式(3)进行加权操作,得到邻接矩阵A;
第三步,将邻接矩阵A作为图注意力网络的输入,经过图注意力网络学习得到矩阵A′,即多标签图像分类器;
将第二步得到的邻接矩阵作为图注意力网络GAT的输入,令图注意力网络的输出为矩阵其中F′表示经过图注意力网络变换后的节点的特征数;设eij为第i和j个标签节点之间的注意力互相关系数,γij为激活函数softmax对注意力互相关系数eij进行正则化后的标量,则有式(4):
式(4)中,k表示多标签图像中第k个标签节点,eik为第i和k个标签节点之间的注意力互相关系数,exp为指数函数;
将式(4)进一步展开为:
式(5)中,||表示连接操作,LeakyReLU(·)为激活函数,W为可训练的标签节点之间权值矩阵,W∈RF′*F;为邻接矩阵A中第i、j和k个标签节点与其他标签节点之间的邻接关系,即图注意力网络的第i、j和k个标签节点的输入;
式(6)中,σ(·)为激活函数;
此步骤可以自适应地为不同重要性的标签节点分配合理的权重,有效利用多标签图像中各个标签节点之间存在的关联性,一定程度上减少了噪声对识别结果的影响;
通过上述第一步至第四步完成本实施例的多标签图像识别。
本发明实质是将ResNet残差网络与图注意力网络相结合,得到多标签图像的识别模型;以VOC PASCAL 2007多标签图像数据集为例,利用本发明的模型和现有模型进行多标签图像识别,各种模型的实验结果参见表1。
表1各种方法的实验结果对比
从上表可知,ResNet-101模型的平均精度均值为90.451%,VGG-16模型的平均精度均值为89.683%,两者对比可知在模型中运用残差连接,多标签图像识别的平均精度均值上升约一个百分点;弱监督图像识别模型(WildCAT)的平均精度均值为90.041%,基于图卷积神经网络的图像识别模型(ML-GCN)的平均精度均值为92.381%,而本申请提出的融合ResNet残差网络与图注意力网络的识别模型的平均精度均值为93.455%,比VGG-16模型高出约4个百分点,比ResNet-101模型高出3个百分点,比弱监督图像识别模型高出3.4个百分点,比基于图卷积神经网络的图像识别模型高出1.2个百分点;此外,采用本发明的识别模型得到的平均类准确度(CP)、平均类召回度(CR)、平均类F1值(CF1)、全样本准确度(OP)、全样本召回度(OR)、全样本F1值(OF1)都比现有模型有所提高,可见在多标签图像识别中引入注意力机制,为每个标签节点分配不同的权重,利用全局共现特征提取模块提取图像中的共现特征,更好地区分不同类别特征之间的复杂边界,高效地提取图像中的高阶特征以及总体信息,可以有效地提高图像识别的精度。
对本实施例的识别模型做消融实验,得到以下实验结果:
只在ResNet残差网络的layer4残差模块后面嵌入全局共现特征提取模块得到的识别模型的平均精度均值为92.525%;在layer4残差模块后面加入全局共现特征提取模块,同时ResNet残差网络的中间层(layer1~layer3任意一个残差模块之后)中只添加一个全局共现特征提取模块得到的识别模型的平均精度约为92.881%;而在每个残差模块后均添加全局共现特征提取模块得到的识别模型的平均精度为93.455%,由此可知,在每个残差模块之后均嵌入一个全局共现特征提取模块得到的识别模型的效果更佳,这是由于在经过残差模块提取特征后,再经过全局共现特征提取模块提取高阶特征,很好地区分了不同类别特征的复杂边界,同时保证了特征提取的完整性。
本发明未述及之处适用于现有技术。
Claims (5)
2.根据权利要求1所述的基于图注意力网络的多标签图像识别方法,其特征在于,第一步中全局共现特征提取模块的具体过程为:
设全局共现特征提取模块的初始输入为大小为h×w×c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;全局共现特征提取模块的初始输入经过卷积操作,得到矩阵N;设NT为矩阵N的转置矩阵,常量q=h×w,I是大小为q×q的单位矩阵,J是大小为q×q的全1矩阵,变换矩阵利用式(1)计算协方差矩阵K;
对协方差矩阵K进行标准化,得到标准化后的协方差矩阵K′,至此完成全局共现特征提取模块的压缩过程;
将标准化后的协方差矩阵K′进行组卷积操作,得到矩阵R,矩阵R经过卷积操作得到权重向量;
然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素相乘,得到变换后的3D张量;变换后的3D张量经过最大池化操作,得到共现特征矩阵X,至此完成全局共现特征提取模块的扩充过程。
3.根据权利要求1所述的基于图注意力网络的多标签图像识别方法,其特征在于,卷积神经网络为ResNet残差网络,ResNet残差网络包含layer1~layer4四个残差模块;每个残差模块之后嵌入全局共现特征提取模块或者选择性地在相应残差模块之后嵌入全局共现特征提取模块;在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。
4.根据权利要求3所述的基于图注意力网络的多标签图像识别方法,其特征在于,ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3,步长为2的最大池化操作。
5.根据权利要求3或4所述的基于图注意力网络的多标签图像识别方法,其特征在于,ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14,步长为1的最大池化操作,得到大小为d×1的共现特征矩阵X,d为特征嵌入的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316665.3A CN112906720B (zh) | 2021-03-19 | 2021-03-19 | 基于图注意力网络的多标签图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316665.3A CN112906720B (zh) | 2021-03-19 | 2021-03-19 | 基于图注意力网络的多标签图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906720A true CN112906720A (zh) | 2021-06-04 |
CN112906720B CN112906720B (zh) | 2022-03-22 |
Family
ID=76106272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110316665.3A Expired - Fee Related CN112906720B (zh) | 2021-03-19 | 2021-03-19 | 基于图注意力网络的多标签图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906720B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627466A (zh) * | 2021-06-30 | 2021-11-09 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113688946A (zh) * | 2021-10-08 | 2021-11-23 | 北京航空航天大学 | 基于空间关联的多标签图像识别方法 |
CN114299298A (zh) * | 2021-12-29 | 2022-04-08 | 东南大学 | 一种基于全局相似度的深度网络特征改进方法 |
CN114357167A (zh) * | 2021-12-30 | 2022-04-15 | 合肥工业大学 | 基于Bi-LSTM-GCN的多标签文本分类方法和系统 |
CN114386524A (zh) * | 2022-01-17 | 2022-04-22 | 深圳市城图科技有限公司 | 一种动态自适应图分层模仿学习的电力设备识别方法 |
CN114387524A (zh) * | 2022-03-24 | 2022-04-22 | 军事科学院系统工程研究院网络信息研究所 | 基于多层级二阶表征的小样本学习的图像识别方法和系统 |
CN114648635A (zh) * | 2022-03-15 | 2022-06-21 | 安徽工业大学 | 一种融合标签间强相关性的多标签图像分类方法 |
CN114898463A (zh) * | 2022-05-09 | 2022-08-12 | 河海大学 | 基于改进深度残差网络的坐姿识别方法 |
CN114926823A (zh) * | 2022-05-07 | 2022-08-19 | 西南交通大学 | 基于wgcn的车辆驾驶行为预测方法 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN115641955A (zh) * | 2022-10-19 | 2023-01-24 | 哈尔滨工业大学 | 基于深度学习的胃癌分期判别系统及存储介质 |
CN114357167B (zh) * | 2021-12-30 | 2024-07-16 | 合肥工业大学 | 基于Bi-LSTM-GCN的多标签文本分类方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133233A (zh) * | 2017-12-18 | 2018-06-08 | 中山大学 | 一种多标签图像识别方法及装置 |
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
CN109871909A (zh) * | 2019-04-16 | 2019-06-11 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
CN111191718A (zh) * | 2019-12-30 | 2020-05-22 | 西安电子科技大学 | 基于图注意力网络的小样本sar目标识别方法 |
CN111476315A (zh) * | 2020-04-27 | 2020-07-31 | 中国科学院合肥物质科学研究院 | 一种基于统计相关性与图卷积技术的图像多标签识别方法 |
CN111582409A (zh) * | 2020-06-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像标签分类网络的训练方法、图像标签分类方法及设备 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
-
2021
- 2021-03-19 CN CN202110316665.3A patent/CN112906720B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133233A (zh) * | 2017-12-18 | 2018-06-08 | 中山大学 | 一种多标签图像识别方法及装置 |
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
CN109871909A (zh) * | 2019-04-16 | 2019-06-11 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
CN111191718A (zh) * | 2019-12-30 | 2020-05-22 | 西安电子科技大学 | 基于图注意力网络的小样本sar目标识别方法 |
CN111476315A (zh) * | 2020-04-27 | 2020-07-31 | 中国科学院合肥物质科学研究院 | 一种基于统计相关性与图卷积技术的图像多标签识别方法 |
CN111582409A (zh) * | 2020-06-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像标签分类网络的训练方法、图像标签分类方法及设备 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627466B (zh) * | 2021-06-30 | 2023-06-13 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113627466A (zh) * | 2021-06-30 | 2021-11-09 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113688946A (zh) * | 2021-10-08 | 2021-11-23 | 北京航空航天大学 | 基于空间关联的多标签图像识别方法 |
CN113688946B (zh) * | 2021-10-08 | 2023-10-24 | 北京航空航天大学 | 基于空间关联的多标签图像识别方法 |
CN114299298A (zh) * | 2021-12-29 | 2022-04-08 | 东南大学 | 一种基于全局相似度的深度网络特征改进方法 |
CN114357167A (zh) * | 2021-12-30 | 2022-04-15 | 合肥工业大学 | 基于Bi-LSTM-GCN的多标签文本分类方法和系统 |
CN114357167B (zh) * | 2021-12-30 | 2024-07-16 | 合肥工业大学 | 基于Bi-LSTM-GCN的多标签文本分类方法和系统 |
CN114386524A (zh) * | 2022-01-17 | 2022-04-22 | 深圳市城图科技有限公司 | 一种动态自适应图分层模仿学习的电力设备识别方法 |
CN114648635A (zh) * | 2022-03-15 | 2022-06-21 | 安徽工业大学 | 一种融合标签间强相关性的多标签图像分类方法 |
CN114387524A (zh) * | 2022-03-24 | 2022-04-22 | 军事科学院系统工程研究院网络信息研究所 | 基于多层级二阶表征的小样本学习的图像识别方法和系统 |
CN114926823A (zh) * | 2022-05-07 | 2022-08-19 | 西南交通大学 | 基于wgcn的车辆驾驶行为预测方法 |
CN114898463B (zh) * | 2022-05-09 | 2024-05-14 | 河海大学 | 基于改进深度残差网络的坐姿识别方法 |
CN114898463A (zh) * | 2022-05-09 | 2022-08-12 | 河海大学 | 基于改进深度残差网络的坐姿识别方法 |
CN115392474B (zh) * | 2022-06-14 | 2023-08-22 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN115641955A (zh) * | 2022-10-19 | 2023-01-24 | 哈尔滨工业大学 | 基于深度学习的胃癌分期判别系统及存储介质 |
CN115641955B (zh) * | 2022-10-19 | 2023-06-20 | 哈尔滨工业大学 | 基于深度学习的胃癌分期判别系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112906720B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
Mascarenhas et al. | A comparison between VGG16, VGG19 and ResNet50 architecture frameworks for Image Classification | |
Ge et al. | Multi-evidence filtering and fusion for multi-label classification, object detection and semantic segmentation based on weakly supervised learning | |
Lu et al. | Class-agnostic counting | |
CN107506740B (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN108596330B (zh) | 一种并行特征全卷积神经网络装置及其构建方法 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110837846A (zh) | 一种图像识别模型的构建方法、图像识别方法及装置 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN111310604A (zh) | 一种物体检测方法、装置以及存储介质 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Su et al. | LodgeNet: Improved rice lodging recognition using semantic segmentation of UAV high-resolution remote sensing images | |
Grigorev et al. | Depth estimation from single monocular images using deep hybrid network | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN115641473A (zh) | 基于cnn-自注意力机制混合架构的遥感图像分类方法 | |
CN111898614B (zh) | 神经网络系统以及图像信号、数据处理的方法 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
Gao et al. | Natural scene recognition based on convolutional neural networks and deep Boltzmannn machines | |
Defriani et al. | Recognition of regional traditional house in Indonesia using Convolutional Neural Network (CNN) method | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114550014A (zh) | 道路分割方法及计算机装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220322 |
|
CF01 | Termination of patent right due to non-payment of annual fee |