CN109740695A

CN109740695A - 基于自适应全卷积注意力网络的图像识别方法

Info

Publication number: CN109740695A
Application number: CN201910081670.3A
Authority: CN
Inventors: 李灯熬; 赵菊敏; 白小红; 巩建平
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-10

Abstract

本发明一种基于自适应全卷积注意力网络的图像识别方法,属于图像识别方法的技术领域，所要解决的问题是提供一种使用自适应全卷积注意力网络来提高对图像识别的速度以及准确度并且对已训练好的模型再进行进一步运用的方法；采用的技术方案为：基于自适应全卷积注意力网络的图像识别方法，包括如下步骤如下：第一步，训练神经网络的步骤：a、选取激活函数；b、数据预处理的步骤；c、自适应学习速率；d、定义网络结构：（1）训练全卷积注意力网络；（2）训练自适应图像；第二步，将第一步训练好的模型作用于目标图像集，将经过b步骤的数据与目标图像集比较，从而识别图像，并进行分类；本发明适用于图像识别领域中。

Description

基于自适应全卷积注意力网络的图像识别方法

技术领域

本发明属于图像识别方法的技术领域，具体涉及一种基于自适应全卷积注意力网络的图像识别方法。

背景技术

计算机在视觉理解方面与人类专家匹敌。与一般图像识别相比，图像的快速精准识别更具有挑战性，因为我们所关注的图像特征并不是在整个图像上，而是在图像的某一个区域内。因此，这要求我们同时定位关注区域并对关注区域进行详细的描述。大多数传统方法是利用人工去定位关注区域，这种方法存在以下几个缺点：1)获取准确的注释是非常昂贵的；2)如果注释不太准确，那么这个模型就会失败；3)最后但最重要的是，不知道如何手动定义最优的识别部分。

发明内容

本发明克服现有技术存在的不足，所要解决的技术问题为：提供一种使用自适应全卷积注意力网络来提高对图像识别的速度以及准确度并且对已训练好的模型再进行进一步运用的方法。

具体是让计算机根据人眼注意力机制，可以自己识别图像需要集中关注的区域，并且可以将设计好的网络模型运用在不同数据集上。提供了一种使用自适应全卷积注意力网络来提高对图像识别的速度以及准确度并且对已训练好的模型再进行进一步运用的方法。

为了解决上述技术问题，本发明采用的技术方案为：基于自适应全卷积注意力网络的图像识别方法，包括如下步骤如下：

第一步，训练神经网络的步骤

a、选取激活函数

选用PReLU函数作为激活函数，PReLU函数定义如下：f(x)＝max(ax,x)；a为系数，函数值表示输入x与ax的最大值；

b、数据预处理的步骤，

数据预处理包含对图像特征的数据进行压缩，数据进行压缩采用PCA方法；

c、自适应学习速率

CNN中，学习速率用权值更新的方法进行，权值更新的方法包含权重计算公式如下:

其中为第k次更新输入层第i个节点与隐藏层第j个节点之间的权重，r(k)为学习速率

r(k)＝α^λr(k-1)

对于每一个的更新，我们会使用参数λ来调整，计算方法如下：

如果则λ＝1

如果则λ＝-1

由于λ取值为1或-1,为保证α^λ在0—1以及1—∞范围内变化，这里取1<α<2；

d、定义网络结构

(1)训练全卷积注意力网络

给定一张图，首先定位多个注意力区域，通过选择每一个拥有最高概率的区域，然后放大每一个区域的位置，通过调整围绕最高概率区域的分辨率到对应的高分辨率；

每一个调整的区域以及原本的图像利用分类进行单独的预测；

最后的预测值是原本图像的平均值和所有关注区域的平均值；

每一步中的分类网络都是一个完全卷积层，接着是一个softmax层，它使用最后时间步中所有部分的注意图以及整个图像的卷积特征作为输入；

分类网络和关注定位网络被共同优化以最大化以下目标函数：

J(θ_L,θ_C)＝R(θ_L)-λL(θ_C) (1)

其中θ_L，θ_C分别是关注定位网络和分类网络的参数，λ是平衡权重，L(θ_C)是交叉熵分类损失，R(θ_L)是N个训练样本中T个不同选择区域的平均期望回报，

是第n个样本中第t个选择关注区域的预期回报，其中θ_L,t是第t个关注定位网络的参数，x_n是第n个输入图像，A_n,t是第t个选定区域，是选择A_n,t作为关注区域的概率；

蒙特卡洛方法来近似计算期望的梯度：

因此，

(2)训练自适应图像

给定目标图像集X_t和一个上述全卷积关注网络的输出图像x_s，并根据输出图像的风格将目标图像调整为一个自适应图像x_o，利用预先训练的CNN来提取特征图，通过最小化x_s和x_o的特征映射之间的距离来保留x_s的高级图像内容，同时通过最小化x_o和X_t的特征相关之间的距离来保持目标域的样式；

假设CNN中的每个卷积层l都有N_l个卷积核，每个卷积核的高和宽分别为H_l×W_l，因此，卷积层l中的特征图可表示为为了更好地管理源图像x_s中的内容，将不同的权重分配给不同的层以反映每个层的贡献，目标函数就可以定为

其中是层l上的权重，是分别在x_o和x_s上的图层l的特征图，通过最小化式(6)中的欧几里得距离，x_s中的图像内容预计将被保存在自适应图像x_o中，

为了将目标区域的特征合成为x_o，将每一层的目标制定为

是第l层的权重。最后，总体损失函数LAAN被最小化

其中α是平衡源图像中语义内容与目标域风格的权重，G_l是M₁的特征图的第i和第j向量之间的内积，在训练中，AAN通过反向传播得到的梯度来调整输出图像到x_o；

第二步，将第一步训练好的模型作用于目标图像集，将经过b步骤的数据与目标图像集比较，从而识别图像，并进行分类。

本发明一种基于自适应全卷积注意力网络的图像识别方法，在本发明建立了一个新的框架称为自适应全卷积注意力网络，图像部分没有任何人类注释。我们的框架基于强化学习的视觉注意模型同时学习定位所关注对象的部分。框架是将原始图像作为输入，并输出下一个注意力位置作为下一个对象部分。该框架不需要手动部分的注释。与以往的强化学习相比，自适应全卷积注意力网络能够更好的计算效率并且有更高的分类精度。先前的框架在训练和测试期间计算开销很大，因为它需要在每个图像上单独运行神经网络。在我们的框架中，通过将图像传递到自适应全卷积关注网络来产生注意力区域。利用原始图像和最后一次的得分图生成得分图，每个得分图对应于一个对象部分，不同的区域可以有不同的得分，最大得分的位置被用作对应部分的关注区域。自适应全卷积注意力网络由于其完整的卷积结构和特征共享技术，具有很快的训练和测试能力。自适应全卷积关注所提出的框架能够同时定位多个部分，而先前的框架通常只定位一个部分。因此，所提出的方法优于现有的强化基于学习的方法在细粒度的识别精度大幅度。

本发明通过研究利用卷积神经网络进行特征提取的过程，然后分类误差产生的原因，提出一种自适应全卷积注意力网络的图像识别的算法。该算法通过对分类结果进行特征提取，并根据识别情况和迭代次数将特征残差进行局部自适应地增强，再经反向传播反馈到隐层，使特征参数得到有效地训练，提高迭代分类的正确率，达到优化训练过程和提高识别精度的目的，对一般图像具有普适性。

附图说明

下面结合附图对本发明做进一步详细的说明；

图1为本发明的流程图。

图2为本发明中卷积神经网络结构图。

图3为本发明中注意力机制图。

具体实施方式

下面结合附图1-3，对本发明基于自适应全卷积注意力网络的图像识别方法，包括如下步骤如下：

一、训练神经网络

1、激活函数

在选用激活函数的时候，考虑到sigma函数和tanh函数会发生梯度消失问题，ReLU函数在输入为正的区域计算效率很高，在实践中比sigma/tanh收敛得更快更具有合理性，但是在小于0的时候梯度为0，这个时候我们引入了PReLU函数，它可以有效的解决以上的问题。PReLU函数定义如下：f(x)＝max(ax,x)；a为系数，函数值表示输入x与ax的最大值；

2、数据预处理——特征压缩

图片的特征太多会对分类算法造成极大的困扰，这些困扰主要表现在以下几个方面：一是会额外增加系统学习的时间，在分类过程中也会发生速度变慢的问题，二是特征如果比较多，有可能带来“维度灾难”这样的较难解决问题，这样的问题足以导致系统进行图像分类时，速度变得极其缓慢。如此看来，数据进行压缩就显得极为重要，本专利中数据进行压缩采用PCA方法来进行。

主成分分析法，这一类方法是将维度通过一定的方法进行降低，降低后的维度就是主成分，当中的每一个主成分都可以反应原来变量的大部分信息，而且里面包含的信息互不相同。这种方法可以在引进多个变量的同时把复杂的因素归结为少数的主成分，使问题简单化。

3、自适应学习速率

在传统的CNN中，学习速率经常会被视为一个常数。但是，当学习速率过大的时候，将会使得目标函数的值过大，不利于收敛。速度过小的话，虽然可以避免那两个问题，但是却要耗费太多的训练时间。为了解决这个困难，本专利提出一种算法，它可以使学习速率用这个算法实现更新，因此权值更新的权重计算公式如下:

r(k)＝α^λr(k-1) (10)

其中为第k次更新输入层第i个节点与隐藏层第j个节点之间的权重，r(k)为学习速率，对于每一个的更新,我们会使用参数λ来调整，计算方法如下:

如果则λ＝1

如果则λ＝-1

由于λ取值为1或-1,为保证α^λ在0-1以及1-∞范围内变化,这里取1<α<2。这个算法表示，假设目标函数一直在降低，也就是说权重在变化且加速度的方向不发生变化，学习速率就会增大，使得收敛速度变快。而当目标函数的变化过大并错过收敛极值的时候，速率就会减小。本专利中避免了常见的梯度消失和梯度膨胀的问题,可以解决深度学习在进行反向传播过程的训练中遇到的困难。

4、定义网络结构

(1)训练全卷积注意力网络

J(θ_L,θ_C)＝R(θ_L)-λL(θ_C)， (1)

其中θ_L，θ_C分别是关注定位网络和分类网络的参数。λ是平衡权重，L(θ_C)是交叉熵分类损失，R(θ_L)是N个训练样本中T个不同选择区域的平均期望回报，

是第n个样本中第t个选择关注区域的预期回报，其中θ_L,t是第t个关注定位网络的参数，x_n是第n个输入图像，A_n,t是第t个选定区域。是选择A_n,t作为关注区域的概率。

奖励函数r(A_n,t)对于开发一个高效的学习算法是至关重要的。

直接计算期望的梯度有点困难，本文采用的是蒙特卡洛方法来近似计算：

因此，

(2)训练自适应图像

给定目标图像集X_t和一个上述全卷积关注网络的输出图像x_s，并根据输出图像的风格将目标图像调整为一个自适应图像x_o，看起来好像它是从目标域绘制的，但它包含训练数据集中源图像的一些内容。利用预先训练的CNN来提取特征图。通过最小化x_s和x_o的特征映射之间的距离来保留x_s的高级图像内容，同时通过最小化x_o和X_t的特征相关之间的距离来保持目标域的样式。

假设CNN中的每个卷积层l都有N_l个卷积核，每个卷积核的高和宽分别为H_l×W_l。因此，卷积层l中的特征图可表示为为了更好地管理源图像x_s中的内容，将不同的权重分配给不同的层以反映每个层的贡献。目标函数就可以定为

其中是层l上的权重，是分别在x_o和x_s上的图层l的特征图。通过最小化式(6)中的欧几里得距离，x_s中的图像内容预计将被保存在自适应图像x_o中。

为了将目标区域的特征合成为x_o，我们将每一层的目标制定为

是第l层的权重。最后，总体损失函数LAAN被最小化

其中α是平衡源图像中语义内容与目标域风格的权重。G_l是M₁的特征图的第i和第j向量之间的内积，在训练中，AAN通过反向传播得到的梯度来调整输出图像到x_o。

二、图像的快速精准识别

本发明的具体步骤为：

(1)网络对输入的真实图像经过图1所示结构进行特征提取；

(2)将上述特征提取后的图片输入全卷积关注网络，输出网络产生的注意力区域的图像，学习速率采用本专利提出的算法来实现；

(3)将全卷积关注网络输出的图像调整为自适应图像，可以将前面训练好的模型作用于目标图像集，得到最后的输出，实现了不同风格之间的模型的相互运用。

Claims

1.基于自适应全卷积注意力网络的图像识别方法，其特征在于，包括如下步骤如下：

第一步，训练神经网络的步骤

a、选取激活函数

b、数据预处理的步骤，

c、自适应学习速率

r(k)＝α^λr(k-1)；

如果则λ＝1；

如果则λ＝-1；

d、定义网络结构

(1)训练全卷积注意力网络

J(θ_L,θ_C)＝R(θ_L)-λL(θ_C)； (1)

蒙特卡洛方法来近似计算期望的梯度：

因此，

(2)训练自适应图像

为了将目标区域的特征合成为x_o，将每一层的目标制定为

是第l层的权重。最后，总体损失函数LAAN被最小化