CN112906720A

CN112906720A - 基于图注意力网络的多标签图像识别方法

Info

Publication number: CN112906720A
Application number: CN202110316665.3A
Authority: CN
Inventors: 班晓晓; 申伟昊; 韩锦恒; 向顺; 许乾剑; 张记龙; 郭世杰; 王元全
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-04
Anticipated expiration: 2041-03-19
Also published as: CN112906720B

Abstract

本发明为一种基于图注意力网络的多标签图像识别方法，包括：第一步，待识别的多标签图像经过卷积神经网络输入层的预处理后进入卷积神经网络，利用全局共现特征提取模块提取共现特征矩阵；第二步，利用待识别的多标签图像的标签节点之间的条件概率，构建标签节点之间的邻接矩阵；第三步，将邻接矩阵作为图注意力网络的输入，经过图注意力网络学习得到学习后的矩阵；第四步，将共现特征矩阵与学习后的矩阵进行线性相乘，得到识别结果。该方法利用全局共现特征提取模块提取图像中的共现特征矩阵，提取图像全局共现特征与总体信息；通过图注意力网络的注意力机制计算标签节点之间的关联性，对每个标签节点自适应分配不同的权重，有利于提高识别精度。

Description

基于图注意力网络的多标签图像识别方法

技术领域

本发明涉及计算机图像处理领域，具体是一种基于图注意力网络的多标签图像识别方法。

背景技术

图像识别技术能够代替人力去处理大量繁多复杂的图像，图像识别被广泛应用于多个领域，如医学诊断、智能图像管理、相册搜索等。

在众多的图像信息处理中，图像识别实际上是一个分类的过程，即寻找识别出图像中固有的特征，使其区分于其他不同类别的图像而归类，这就要求所选取的特征为最具有区别性的特征，最具有区别性的特征可以很好地区分于不同类别的图像，同时该特征可以形象地描述图像，即选取拥有较小的类内距的同时尽量拥有较大的类间距的图像特征，这些特征在同类图像之间差异较小，在不同类别的图像之间差异较大。

随着卷积神经网络(CNNs)的出现，图像识别的整体性能得到了极大的提高。CNNs中的卷积层主要利用一定规格的滤波器实现空间特征的提取，即对各个像素点及其相邻像素点进行加权求和的运算来构造特征图。CNNs一般具有输入层、卷积层、激活层、池化层、输出层五个层级结构。其中，对图像进行预处理操作一般发生在输入层，图像经由输入层的裁剪、伸缩及标准化之后进入卷积层通过卷积操作提取特征，进行局部感知，获取特征图。激活层的目的是为了增强整个网络的表达能力，通常是对卷积层的输出结果做一次非线性映射，常见的激活函数有sigmoid、tanh、relu、leaky relu等。池化层实际上也可以被称为欠采样或下采样层，主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性，最常见的有最大池化(Max Pooling)和平均池化(Average Pooling)两种。在池化层后是输出层，即全连接层，后接分类器，如softmax分类器等。

近几年，许多基于CNNs的经典图像分类网络模型被提出，如AlexNet模型、GoogLeNet模型、VGGNet模型、ResNet残差网络等。其中，ResNet残差网络在2015年首次被提出，其中残差学习的思想有效地解决了传统网络模型在信息传递的过程中容易将有效信息丢失，同时还会出现梯度消失或梯度爆炸的问题，该网络不仅可以加速深层网络的训练，同时可以有效地提升图像识别的准确率。

最新研究表明，以CNNs为基础的模型可以简单地提高单标签图像的识别速度和精度，使得单标签图像识别有了重要的进步。然而，在日常生活的场景中，大多数的图像中不仅仅只有一个事物，而是存在多个物体，将这类图像中的每个物体设为一个标签，那么这些拥有多个标签同时出现的图像便可称作多标签图像。与传统的单标签图像识别相比，多标签图像识别的任务需要预测图像中的一组标签，所以更加复杂。比如一张图片中包含猫、狗和球三个物体，那么便可以为图像赋予猫、狗、球三个标签，即通过这三个标签将图像分到三个不同的类别中。由于现实生活中狗与猫两个事物共同出现在一张图像上的可能性远远大于它们与球出现在同一图像中，因此三个标签之间的权重占比是不一样的。

由于多标签图像中各个标签之间存在相对复杂的关联性，多标签图像识别技术需要对图像信息和图像中的类别标签有更加充分的了解，因此针对多标签的特征提取与识别研究更为重要。

传统的多标签图像识别方法大多数以手工提取特征为主，为每一个类别标签独立地训练一个二分类器，并将得到的各个标签的结果进行整合，最终得到原图像的多标签分类结果。随着深度学习网络的发展，将CNNs扩展到多标签图像识别问题上，其实质是将其转化为多个单标签问题进行迭代训练，依旧是单标签图像的识别操作，只是对每个目标进行单个识别，忽略了各个目标之间的关联性与图像中多个标签之间的共现依赖关系，最终导致了多标签图像识别准确率不高，效果差与效率低的结果。

为了建立各个标签之间的相关性，是在多标签图像识别模型中引入图卷积神经网络(GCN)。图卷积神经网络与传统卷积网络不同，它的操作对象没有良好规范的欧式结构特征，而是通过节点之间的邻接关系来使相关信息在节点之间流动。卷积神经网络的局限性在于它的应用针对的都是欧式空间里的结构化数据，而现实生活中，许多数据属于非欧式结构数据。非欧式结构数据表示以其中的一个节点为中心，它的邻接节点不会像传统的结构化数据一样整齐排列，而是数目不一，杂乱无章的，如化学分子结构、社交网络都属于典型的非欧式结构数据。这类数据可用图结构的点和边表示。图结构模型拥有更强大的表示能力，也更加复杂。现存的基于图的多标签图像识别的模型大多数采用的是成对兼容概率或者共现概率来建立标签之间的共现关系，然而这些模型通常不能建立图像中的高阶关系。

总之，目前存在的基于深度学习的多标签识别方法既没有充分考虑不同目标之间的共现特征，从而忽略了类别上的关联性，也没有充分利用图像中的高阶特征，降低了多标签图像识别的准确性。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于图注意力网络的多标签图像识别方法。

本发明解决所述技术问题采用的技术方案如下：

一种基于图注意力网络的多标签图像识别方法，其特征在于，该方法包括以下步骤：

第一步，待识别的多标签图像经过卷积神经网络输入层的预处理后进入到卷积神经网络中，利用全局共现特征提取模块提取共现特征矩阵X；全局共现特征提取模块包括压缩和扩充两个过程；

第二步，利用待识别的多标签图像的标签节点之间的条件概率，构建标签节点之间的邻接矩阵A；

第三步，将邻接矩阵A作为图注意力网络的输入，经过图注意力网络学习得到矩阵A′；

第四步，按照式(7)将第一步得到的共现特征矩阵X与第三步得到的矩阵A′进行线性相乘，得到预测值

即识别结果；

通过上述第一步至第四步完成多标签图像的识别。

第一步中全局共现特征提取模块的具体过程为：

设全局共现特征提取模块的初始输入为大小为h×w×c的3D张量，h代表空间高度，w代表空间宽度，c为通道数；全局共现特征提取模块的初始输入经过卷积操作，得到矩阵N；设N^T为矩阵N的转置矩阵，常量q＝h×w，I是大小为q×q的单位矩阵，J是大小为q×q的全1矩阵，变换矩阵

利用式(1)计算协方差矩阵K；

对协方差矩阵K进行标准化，得到标准化后的协方差矩阵K′，至此完成全局共现特征提取模块的压缩过程；

将标准化后的协方差矩阵K′进行组卷积操作，得到矩阵R，矩阵R经过卷积操作得到权重向量；

然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素线性相乘，得到变换后的3D张量；变换后的3D张量经过最大池化操作，得到共现特征矩阵X，至此完成全局共现特征提取模块的扩充过程。

上述的卷积神经网络为ResNet残差网络，ResNet残差网络包含layer1～layer4四个残差模块；每个残差模块之后嵌入全局共现特征提取模块或者选择性地在相应残差模块之后嵌入全局共现特征提取模块；在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。

所述ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3，步长为2的最大池化操作。

所述ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14，步长为1的最大池化操作，得到大小为d×1的共现特征矩阵X，d为特征嵌入的维度。

与现有方法相比，本发明具有的显著进步如下：

1.本发明利用全局共现特征提取模块提取图像中的共现特征矩阵，可以提取图像全局共现特征与总体信息；通过图注意力网络的注意力机制计算标签节点之间的关联性，对每个标签节点自适应分配不同的权重，在每个标签节点和其相邻的标签节点中可以高效地并行运算，解决了传统图卷积神经网络无法捕捉图像中多个标签之间的共现依赖关系的问题，同时减少了噪声对网络的影响。

2.全局共现特征提取模块是一个全局二阶池化的过程，由全局二阶池化代替传统卷积神经网络中的一阶池化操作，全局共现特征提取模块以压缩和扩充两个过程为基本操作，压缩过程以通道维度方向计算输入张量的二阶统计量，可以得到图像的全局信息；扩充过程连续执行卷积和非线性激活操作用以嵌入协方差矩阵，进行通道缩放，对不同通道的权重进行判别，提取多标签图像中的高阶特征。全局共现特征提取模块由底层网络贯穿至高层，经过全局二阶池化可以增强图像识别中非线性建模能力，能够更好地描述不同类别特征之间的复杂边界，高效地提取图像中的高阶特征以及总体信息。

3.本发明将图注意力网络应用到多标签图像识别中，对图像中的每个标签节点进行随机游走采样，获得图像整体的全局信息，从而关注权重更大的标签节点以及关联性更强的特征，再着重进行局部信息的处理，而不是对参与计算的每个标签节点进行平均加权。与传统的图卷积神经网络相比，利用图注意力网络的注意力机制，为每个标签节点分配不同的权重，从而可以使网络关注作用较大的标签节点，而忽视了作用相对小的标签节点，提高运算效率和识别的准确度。

4.本发明在一定程度上提高了多标签图像识别的精度，可对复杂图像中的有效信息进行不同层次的分析与加工，广泛应用于导航、地图、机器视觉等方面。一般工业使用过程中，采用工业相机对场景进行图片拍摄，需要利用图像处理软件对图片做进一步的识别处理。本发明提出的方法可以广泛地使用于上述图像处理的各类软件中，提高图片识别效率和精度。

附图说明

图1为本发明的整体流程图；

图2为本发明的全局共现特征提取模块的结构示意图；

图3为本发明的获得注意力互相关系数的原理图；

图4为本发明的全局共现特征提取模块在ResNet残差网络的位置示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行清晰、完整地描述，并不用于限定本申请的保护范围。

本发明为一种基于图注意力网络的多标签图像识别方法(简称方法，参见图1-4)，包括以下步骤：

第四步，按照式(7)将第一步得到的共现特征矩阵X与第三步得到的矩阵A′相乘进行线性结合，得到预测值

即识别结果；

通过上述第一步至第四步完成多标签图像的识别。

上述第一步中全局共现特征提取模块的具体过程为：

利用式(1)计算协方差矩阵K；

实施例1

以ResNet残差网络为例，说明本实施例的基于图注意力网络的多标签图像识别方法，

包括以下步骤：

第一步，待识别的多标签图像经过ResNet残差网络输入层的预处理后输入到ResNet残差网络中，利用全局共现特征提取模块提取共现特征矩阵X；

ResNet残差网络一般包含layer1～layer4四个残差模块，每个残差模块可以是两层结构，也可以是三层结构；本实施例在ResNet残差网络的layer1残差模块与layer2残差模块之间嵌入全局共现特征提取模块；ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3，步长为2的最大池化操作；

待识别的多标签图像经过预处理后，得到特征张量为x；图2中，设F表示layer1残差模块，

代表相加，则layerl残差模块的输出y＝F(x)+x，y是一个大小为h×w×c的3D张量，h代表空间高度，w代表空间宽度，c为通道数；

将layer1残差模块的输出y作为全局共现特征提取模块的初始输入，全局共现特征提取模块包含压缩和扩充两个过程；首先对上述得到的3D张量进行压缩：3D张量经过大小为1×1的卷积操作(conv1)后，通道数由c减小到c′，得到大小为h×w×c′的矩阵N；设N^T为矩阵N的转置矩阵，常量q＝h×w，I是大小为q×q的单位矩阵，J是大小为q×q的全1矩阵，变换矩阵

利用式(1)的二阶运算计算协方差矩阵K，协方差矩阵K的大小为c′×c′×1；

对协方差矩阵K进行标准化计算，得到标准化后的协方差矩阵K′；二阶运算改变了数据的顺序，对协方差矩阵做标准化计算保留了原有的结构信息；

其次对标准化后的协方差矩阵K′进行扩充操作，扩充过程包括组卷积操作conv2和卷积操作conv3；

conv2表示卷积核大小为c′×1、通道数为4c′、分组数为c′的组卷积操作；标准化后的协方差矩阵K′进行conv2操作得到大小为4c′×1×1为矩阵R；conv3表示大小为1×1，通道数为c，以sigmoid函数作为非线性激活函数的卷积操作，矩阵R经过conv3操作得到大小为c×1的权重向量；

图2中，*代表将经全局共现特征提取模块得到的大小为c×1的权重向量与全局共现特征提取模块的大小为h×w×c的初始输入y里的每个通道相对应的元素相乘，最终得到大小为h×w×c的变换后的3D张量，用字母z表示；z虽然与初始输入y大小相同，但是有效整合了待识别的多标签图像中的全局特征；

将上述得到的z作为ResNet残差网络的layer2残差模块的输入，继续进行下一步操作；最后，将ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14，步长为1的最大池化操作，得到大小为d×1的共现特征矩阵，d为特征嵌入的维度；

为了提高识别精度，可以在ResNet残差网络的每个残差模块之后嵌入一个全局共现特征提取模块(参见图4)，也可以选择性在残差模块之后嵌入全局共现特征提取模块；实验表明在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。

第二步，利用待识别的多标签图像的所有标签节点之间的条件概率，构建标签节点之间的邻接矩阵A；

目前，对于多标签图像识别采用的邻接矩阵A大部分是预先定义的，如何构建邻接矩阵A还没有给出明确统一的方法；预先定义的邻接矩阵A的效果虽然很好，但构建过程会浪费大量的人力资源。本发明以一种数据驱动的方式来构建邻接矩阵A，即通过条件概率来构建多标签图像中标签节点之间的邻接矩阵；

假设待识别的多标签图像中有n个待识别的物体，即待识别的多标签图像含有n个标签，将这n个标签看作待识别的多标签图像的n个标签节点，则标签节点之间的关系用邻接矩阵

表示，

F为标签节点的特征数；向量

表示第1个标签节点与其他标签节点之间的邻接关系，同理，

表示第n个标签节点与其他标签节点之间的邻接关系；

通常，采用条件概率矩阵P_ij表示当标签节点i出现时，标签节点j也出现的概率；矩阵M_ij表示训练集中标签节点i和标签节点j同时出现的次数，则可通过矩阵M_ij来构建条件概率矩阵：P_ij＝M_ij/N_i，其中N_i代表标签节点i在训练集中出现的次数；

按照式(2)对条件概率矩阵P_ij进行二值化，得到二值化的条件概率矩阵P′_ij，以滤除噪声边缘；

式(2)中，τ为概率阈值，一般取0～1；

令ρ为超参数，ρ∈(0，1)，用于控制当前标签节点和邻接标签节点之间的关联性权重；按照式(3)进行加权操作，得到邻接矩阵A；

第三步，将邻接矩阵A作为图注意力网络的输入，经过图注意力网络学习得到矩阵A′，即多标签图像分类器；

将第二步得到的邻接矩阵

作为图注意力网络GAT的输入，令图注意力网络的输出为矩阵

其中

F′表示经过图注意力网络变换后的节点的特征数；设e_ij为第i和j个标签节点之间的注意力互相关系数，γ_ij为激活函数softmax对注意力互相关系数e_ij进行正则化后的标量，则有式(4)：

式(4)中，k表示多标签图像中第k个标签节点，e_ik为第i和k个标签节点之间的注意力互相关系数，exp为指数函数；

将式(4)进一步展开为：

式(5)中，||表示连接操作，LeakyReLU(·)为激活函数，

W为可训练的标签节点之间权值矩阵，W∈R^F′*F；

为邻接矩阵A中第i、j和k个标签节点与其他标签节点之间的邻接关系，即图注意力网络的第i、j和k个标签节点的输入；

第i个标签节点的输出

为：

式(6)中，σ(·)为激活函数；

经过图注意力网络的多次学习训练，最终得到矩阵

矩阵A′的大小为n×d，d为特征嵌入的维度；

此步骤可以自适应地为不同重要性的标签节点分配合理的权重，有效利用多标签图像中各个标签节点之间存在的关联性，一定程度上减少了噪声对识别结果的影响；

实现多标签图像的概率预测，得到识别结果，预测值

为大小为n×1的向量；

通过上述第一步至第四步完成本实施例的多标签图像识别。

本发明实质是将ResNet残差网络与图注意力网络相结合，得到多标签图像的识别模型；以VOC PASCAL 2007多标签图像数据集为例，利用本发明的模型和现有模型进行多标签图像识别，各种模型的实验结果参见表1。

表1各种方法的实验结果对比

从上表可知，ResNet-101模型的平均精度均值为90.451％，VGG-16模型的平均精度均值为89.683％，两者对比可知在模型中运用残差连接，多标签图像识别的平均精度均值上升约一个百分点；弱监督图像识别模型(WildCAT)的平均精度均值为90.041％，基于图卷积神经网络的图像识别模型(ML-GCN)的平均精度均值为92.381％，而本申请提出的融合ResNet残差网络与图注意力网络的识别模型的平均精度均值为93.455％，比VGG-16模型高出约4个百分点，比ResNet-101模型高出3个百分点，比弱监督图像识别模型高出3.4个百分点，比基于图卷积神经网络的图像识别模型高出1.2个百分点；此外，采用本发明的识别模型得到的平均类准确度(CP)、平均类召回度(CR)、平均类F1值(CF1)、全样本准确度(OP)、全样本召回度(OR)、全样本F1值(OF1)都比现有模型有所提高，可见在多标签图像识别中引入注意力机制，为每个标签节点分配不同的权重，利用全局共现特征提取模块提取图像中的共现特征，更好地区分不同类别特征之间的复杂边界，高效地提取图像中的高阶特征以及总体信息，可以有效地提高图像识别的精度。

对本实施例的识别模型做消融实验，得到以下实验结果：

只在ResNet残差网络的layer4残差模块后面嵌入全局共现特征提取模块得到的识别模型的平均精度均值为92.525％；在layer4残差模块后面加入全局共现特征提取模块，同时ResNet残差网络的中间层(layer1～layer3任意一个残差模块之后)中只添加一个全局共现特征提取模块得到的识别模型的平均精度约为92.881％；而在每个残差模块后均添加全局共现特征提取模块得到的识别模型的平均精度为93.455％，由此可知，在每个残差模块之后均嵌入一个全局共现特征提取模块得到的识别模型的效果更佳，这是由于在经过残差模块提取特征后，再经过全局共现特征提取模块提取高阶特征，很好地区分了不同类别特征的复杂边界，同时保证了特征提取的完整性。

本发明未述及之处适用于现有技术。

Claims

1.一种基于图注意力网络的多标签图像识别方法，其特征在于，该方法包括以下步骤：

即识别结果；

通过上述第一步至第四步完成多标签图像的识别。

2.根据权利要求1所述的基于图注意力网络的多标签图像识别方法，其特征在于，第一步中全局共现特征提取模块的具体过程为：

利用式(1)计算协方差矩阵K；

然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素相乘，得到变换后的3D张量；变换后的3D张量经过最大池化操作，得到共现特征矩阵X，至此完成全局共现特征提取模块的扩充过程。

3.根据权利要求1所述的基于图注意力网络的多标签图像识别方法，其特征在于，卷积神经网络为ResNet残差网络，ResNet残差网络包含layer1～layer4四个残差模块；每个残差模块之后嵌入全局共现特征提取模块或者选择性地在相应残差模块之后嵌入全局共现特征提取模块；在layer4残差模块之后嵌入全局共现特征提取模块的识别效果优于在其他残差模块之后嵌入全局共现特征提取模块的识别效果。

4.根据权利要求3所述的基于图注意力网络的多标签图像识别方法，其特征在于，ResNet残差网络输入层包括卷积核大小为7×7、通道数为64、步长为2的卷积操作和卷积核大小为3×3，步长为2的最大池化操作。

5.根据权利要求3或4所述的基于图注意力网络的多标签图像识别方法，其特征在于，ResNet残差网络的layer4残差模块的输出经过卷积核大小为14×14，步长为1的最大池化操作，得到大小为d×1的共现特征矩阵X，d为特征嵌入的维度。