CN109711463A

CN109711463A - 基于注意力的重要对象检测方法

Info

Publication number: CN109711463A
Application number: CN201811594302.0A
Authority: CN
Inventors: 宋凌云; 杨宽; 刘均
Original assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Current assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-03
Anticipated expiration: 2038-12-25
Also published as: CN109711463B

Abstract

本发明一种基于注意力的重要对象检测算法，包括步骤1，建立基于注意力的重要对象检测模型；步骤2，基于注意力的对象定位对基于注意力的重要对象检测模型进行训练；步骤3，利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。通过考虑人类视觉系统的特点，人类在识别图像时并不会察看图像的所有区域，而是会立即被图像中感兴趣的区域吸引而重点观察这些区域，从而进一步识别和理解整幅图像的语义。从而本发明将图像检测算法和图像注释算法结合起来，利用图像注释算法提供的注意力，快速检测图像中最有可能最在重点对象的区域，大大减少了图像中重点对象的检测时间，提高了对象检测的准确率。

Description

基于注意力的重要对象检测方法

技术领域

本发明属于计算机应用领域、人工智能、图像理解、对象检测和图像注释的自动生成领域，特别涉及一种基于注意力的重要对象检测方法。

背景技术

随着数码设备的普及和移动互联网络的发展，图像数据量出现了爆炸性增长。在现实生活中，网络搜索引擎、车辆和脸部识别系统、行人追踪等系统都对图像的自动理解有很高的需求。如何提高图像识别算法的精度和效率，对图像资源进行有效的检索和管理是当前计算机视觉领域研究的重要课题。对象检测是图像自动理解任务中的核心和重点，它不仅要求识别出图像中出现了哪些对象，而且要求算法给出对象在图像中的具体位置。传统的对象检测算法对图像所有可能位置进行了扫描和识别，不仅需要花费大量时间和计算资源，而且存在准确率低的缺点。

发明内容

针对现有技术中存在的问题，本发明提供一种基于注意力的重要对象检测方法，计算量相对较小、准确率高，能够提高计算机的图像存储、检索和管理能力。

本发明是通过以下技术方案来实现：

基于注意力的重要对象检测方法，包括如下步骤，

步骤1，建立基于注意力的重要对象检测模型；

步骤1.1，编码；

对图像数据集中的每一幅图像通过编码器进行编码，编码为一个和对应图像成设定比例大小的三维的特征图；

步骤1.2，解码；

将特征图解码为一句对应图像的文本描述，将文本描述进行分词得到的所有词语分别作为标签，对于每个标签得到一个与对应图像相同尺寸的注意力图，注意力图的每个位置数值的大小表示对应图像中每个位置对于对应标签的重要程度；

步骤2，基于注意力的对象定位对基于注意力的重要对象检测模型进行训练；

步骤2.1，根据注意力图，选取注意力超过设定阈值的区域，用深度卷积网络识别所选取区域中所包含的对象类别，并生成代表重要对象位置的矩形框区域；

步骤2.2，利用感兴趣区域池化抽取矩形框区域的特征，将得到的特征向量并送入全连接层和softmax分类器，计算所选矩形框区域在各个标签上的概率分布；选取概率值最大的标签作为矩形框区域对应的标签；

步骤2.3，重复步骤2.1和2.2处理所有的注意力图后，利用所得概率分布进行基于Noisy-Or的多示例多标签分类，计算整个对应图像在各个标签上的预测概率值基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差，利用反向传播算法训练基于注意力的重要对象检测模型的参数；

步骤3，利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。

优选的，具体包括如下步骤，

步骤1.1，基于卷积神经网络，对图像数据集D中的每一幅图像I_d进行图像编码，得到图像I_d的特征图V＝[v₁,v₂,…,v_m]；其中，1≤d≤D，m是特征图长和宽的乘积；

步骤1.2，在T个时刻内，通过LSTM模型构建基于长短时记忆单元的循环神经网络；通过循环神经网络将特征图解码为对应图像的文本描述和关于文本描述的注意力图α_t＝[α_t1,α_t2,…,α_tm]；注意力图即为特征图上每个位置对于对应标签的注意力权重；

步骤2.1，

首先，基于LSTM模型，计算第t个时刻的图像注意力向量

其次，基于注意力向量x_t，LSTM模型的隐状态向量h_t和前一个标签w_t-1，根据如下公式预测第t个时刻的标签w_t，

p(w_t|V,w_t-1)∝exp(P_o(y_t-1+P_hh_t+P_zx_t))

其中，参数P_o,P_h,和P_z是被随机初始化的；隐状态向量h_t和向量c_t被两个独立的多层感知机初始化，所述多层感知机的输入是向量v_i的平均值，y_t-1表示图像前一个标签的编码向量；

然后，根据当前时刻即第t个时刻在特征图中每个位置的注意力权重，生成两个尺寸的矩形框，表示和标签w_t描述的对象关联性最大的两个区域；

步骤2.2，在特征图V上，对每个矩形框内的区域做感兴趣区域池化，得到每个矩形框内图像区域的固定长度的特征向量；

将上述特征向量输入全连接层和softmax的分类器，得到这两个图像区域在标签w_t上的概率，记为此时整幅图像在标签w_t上的概率记为

步骤2.3，由基于Noisy-Or的多示例多标签分类方法，

计算得到整幅图像在标签w_t上的预测概率基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差，利用反向传播算法训练基于注意力的重要对象检测模型的参数；

进一步，步骤1.1中，所述的卷积神经网络包括依次设置的5个卷积块，1个特征融合层和1个卷积层。

再进一步，步骤1.2中，所述的长短时记忆单元如下，

i_t＝σ(W_iy_t-1+U_ih_t-1+E_ix_t+b_i)，

f_t＝σ(W_fy_t-1+U_fh_t-1+E_fx_t+b_f)，

c_t＝f_tc_t-1+i_ttanh(W_cy_t-1+U_ch_t-1+E_cx_t+b_c)，

o_t＝σ(W_oy_t-1+U_oh_t-1+E_ox_t+b_o)，

h_t＝o_ttanh(c_t)，

其中，W，U，Z表示权重矩阵，b表示偏置向量，σ表示sigmoid方程，即σ(n)＝1/(1+e^-n)，y_t表示图像标签的编码向量，x_t表示生成词w_t时所用的注意力向量。

再进一步，步骤1.2中，在第t个时刻，所述的注意力图可以表示为由一个多层感知机和一个softmax分类器计算得来，过程如下：

α_t＝softmax(M_ss_t+b),

其中，M_v∈R^k×C,M_h∈R^k×d和M_s∈R^k，表示转换矩阵，目的是将V和h_t-1映射到一个共享空间中；b∈R¹和b_s∈R^k是偏置，d表示向量h_t的维度；符号表示矩阵和向量的加法，即将矩阵的每一列都和向量的对应元素相加。

进一步，所述Softmax分类器的定义如下：

其中，j＝1,2,…,K.z是Softmax分类器的分类对象。

进一步，步骤2.1中，在t＝0时刻，h_t和c_t表示为h₀和c₀，h₀和c₀的计算过程如下：

其中，和分别表示两个不同多层感知机的方程。

进一步，步骤2.2中，感兴趣区域池化的具体步骤如下，

a.根据输入图像，将感兴趣区域映射到特征图的对应位置；

b.将映射后的区域划分成相同大小的矩阵块，矩阵块的个数与期望的输出向量维度相同；

c.然后对每个矩阵块，提取矩阵中的最大值，将所有矩阵块的最大值拼接得到特征向量。

与现有技术相比，本发明具有以下有益的技术效果：

本发明基于注意力的对象检测方法，通过考虑人类视觉系统的特点，人类在识别图像时并不会察看图像的所有区域，而是会立即被图像中感兴趣的区域吸引而重点观察这些区域，从而进一步识别和理解整幅图像的语义。从而本发明将图像检测算法和图像注释算法结合起来，利用图像注释算法提供的注意力，快速检测图像中最有可能最在重点对象的区域，大大减少了图像中重点对象的检测时间，提高了对象检测的准确率。

附图说明

图1为本发明实例中所述方法的逻辑框图。

图2为本发明实例中所述的图像特征编码网络示意图。

图3a为本发明实例中所述的原始图像。

图3b为本发明实例中所述的原始图像上覆盖注意力图后得到的图像。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明基于注意力的对象检测方法，主要包含三个模块：1)图像编码器。2)解码器。3)基于注意力的对象定位；如图1所示：

第一、二个模块采用流行的编码-解码结构，包括编码器和解码器。

编码器是一个卷积神经网络，目的是将一个图像编码为一个和图像成设定比例大小的拥有三个维度的特征图。

解码器是一个循环神经网络，目的是将编码器输出的特征图解码为一句图像的文本描述，如图1所示的，“两个小孩在踢足球”。解码器在生成图像的文本描述的同时会针对文本描述的任意一个标签输出一个与原图相同尺寸的注意力图，注意力图的每个位置数值的大小表示原图像中每个位置对于对应标签的重要程度，即该位置的数值越大该位置越有可能是图像中对于标签有意义对象。

第三个模块进行基于注意力的对象定位，具体过程是：首先根据解码器模块生成的注意力图，选取注意力较大的区域，用深度卷积网络识别所选取区域中所包含的对象类别，并生成代表重要对象位置的矩形框。然后利用感兴趣区域池化抽取矩形框区域的特征，将得到的特征向量并送入全连接层和softmax分类器，计算所选矩形框区域在各个标签上的概率分布，最后利用所得概率分布进行基于Noisy-Or的多示例多标签分类，计算整个图像在各个标签类别上的预测概率值基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差，利用反向传播算法训练基于注意力的重要对象检测模型的参数；

最后，利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。

本优选实例中，将本发明的方案分为三个部分：图像编码器、解码器和词语定位。具体如下所述：

1.图像编码器

图像特征质量的好坏，是决定后面图像特征解码及注释预测性能的重要特征。我们构建了一个卷积神经网络作为编码器来抽取图像的特征，如图2所示：

具体地，输入的图像I的尺寸为224×224，我们用图2所示的图像特征编码网络将图像I编码为一个三维的特征图。该图像特征编码网络由5个卷积块，1个特征融合层和1个卷积层组成，前5个卷积块(即block1～block5)中包含的卷积层的数目分别为2，2，3，3，3。前5个卷积块中的每个卷积层所用的卷积核大小为3×3,卷积核的数目分别为64,128,256,512,512。将第3、4、5个卷积块中最后一个卷积层生成的特征图通过平均池化缩放到一个相同的尺寸，即和卷积块5生成的特征图尺寸相同，然后将这些缩放后的特征图连接起来，组合成一个三维的特征融合层，其厚度为1280，长和宽均为14。在这个特征融合层的后面接一个卷积层，卷积核conv的大小是1×1，卷积核的数目为512，输出一个厚度为512，长和宽均为14的特征图，记为V＝[v₁,v₂,…,v_m](1≤i≤m),其中v_i∈R⁵¹²表示特征图中每个位置的向量，m是特征图长和宽的乘积。

2.解码器

解码器的目的是将编码器输出的特征图中的图像特征解码为图像的文本描述。我们使用一个基于注意力的循环神经网络作为解码器，将图像的编码特征解码为图像的标签，同时生成一个原图大小的注意力图，如图3b是由图3a的注意力图覆盖在图3a上之后得到的图像，白色区域是我们所采用的循环神经网络在预测某个标签时注意力集中的地方。

解码器所用的循环神经网络是基于长短时记忆单元，LSTM构建的，在第t个时刻，长短时记忆单元的定义如下：

i_t＝σ(W_iy_t-1+U_ih_t-1+E_ix_t+b_i)， (1)

f_t＝σ(W_fy_t-1+U_fh_t-1+E_fx_t+b_f)， (2)

c_t＝f_tc_t-1+i_ttanh(W_cy_t-1+U_ch_t-1+E_cx_t+b_c)， (3)

o_t＝σ(W_oy_t-1+U_oh_t-1+E_ox_t+b_o)， (4)

h_t＝o_ttanh(c_t)， (5)

其中，W，U，Z表示权重矩阵，b表示偏置向量，σ表示sigmoid方程，即σ(n)＝1/(1+e^-n)，y_t表示图像标签的编码向量，x_t表示生成词w_t时所用的注意力向量。x_t的计算定义如下：

其中，α_ti表示特征图V上第i个位置上的注意力权重。在第t个时刻，注意力图可以表示为α_t＝[α_t1,α_t2,…,α_tm],由一个多层感知机和一个softmax分类器计算得来，过程如下：

α_t＝softmax(M_ss_t+b), (7)

其中，M_v∈R^k×C,M_h∈R^k×d和M_s∈R^k，表示转换矩阵，目的是将V和h_t-1映射到一个共享空间中。b∈R¹和b_s∈R^k是偏置，d表示向量h_t的维度。符号表示矩阵和向量的加法，即将矩阵的每一列都和向量的对应元素相加。

Softmax分类器的定义如下：

基于注意力向量x_t，LSTM的隐状态向量h_t和前一个标签w_t-1,我们可以预测下一个标签，公式可以表示为：

p(w_t|V,w_t-1)∝exp(P_o(y_t-1+P_hh_t+P_zx_t)), (10)

其中，参数P_o,P_h,和P_z是被随机初始化的，y_t-1表示图像前一个标签的编码向量。隐状态向量h_t和隐状态向量c_t被两个独立的多层感知机初始化，多层感知机的输入是向量v_i的平均值。在t＝0时刻，h_t和c_t表示为h₀和c₀，h₀和c₀计算过程如下：

其中，和分别表示两个不同多层感知机的方程。

根据LSTM在每个时刻生成的特征图，我们可以生成两种尺寸的矩形框，即4×4和8×8,分别对应原图中64×64和128×128的区域。随后我们通过感兴趣区域池化方法，在特征图V上抽取注意力区域的固定长度的特征向量。

其中，感兴趣区域池化方法具体操作如下：

1)根据输入图像，将感兴趣区域映射到特征图的对应位置；

2)将映射后的区域划分成相同大小的矩阵块，块的个数与期望的输出向量维度相同；

3)然后对每个矩阵块，提取矩阵中的最大值，将所有矩阵块的最大值拼接就得到特征向量。

具体地，假设图像有T个词，则LSTM模型通过T个时刻生成T个预测标签，每个时刻内生成一个注意力图。根据t，1≤t≤T，时刻的注意力图，生成两个矩形框，表示图像中和词w_t描述的对象关联性最大的两个区域，将这两个区域的特征分别送入后面的全连接层和softmax分类器，会得到这两个图像区域在标签w_t上的概率，记为此时整幅图像在标签w_t上的预测概率记为

我们用基于Noisy-Or的多示例多标签分类方法计算过程如下：

基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差，利用反向传播算法训练基于注意力的重要对象检测模型的参数；

利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测，检测时通过完成训练的基于注意力的重要对象检测模型，所得到的对应标签的特征图，即为对重要对象的检测结果。

此时，我们得到了每个文本词(包括形容词，动词和名词)所描述的对象的位置和类别。因为图像的文本描述的重点往往是图像中重要的语义对象，因此我们的方法能够从图像级别的语义描述中学习到图中重要语义对象的类别和位置，即完成弱监督的对象检测，同时还可以避免背景信息，如天空，马路等的干扰，提高对象(如行人，动物等)检测效率。

具体模型训练的描述为表1。

表1基于注意力的重要对象模型训练方法

Claims

1.基于注意力的重要对象检测方法，其特征在于，包括如下步骤，

步骤1，建立基于注意力的重要对象检测模型；

步骤1.1，编码；

步骤1.2，解码；

2.根据权利要求1所述的基于注意力的重要对象检测方法，其特征在于，具体包括如下步骤，

步骤2.1，

首先，基于LSTM模型，计算第t个时刻的图像注意力向量

p(w_t|V,w_t-1)∝exp(P_o(y_t-1+P_hh_t+P_zx_t))

步骤2.3，由基于Noisy-Or的多示例多标签分类方法，

3.根据权利要求2所述的基于注意力的重要对象检测方法，其特征在于，步骤1.1中，所述的卷积神经网络包括依次设置的5个卷积块，1个特征融合层和1个卷积层。

4.根据权利要求2所述的基于注意力的重要对象检测方法，其特征在于，步骤1.2中，所述的长短时记忆单元如下，

i_t＝σ(W_iy_t-1+U_ih_t-1+E_ix_t+b_i)，

f_t＝σ(W_fy_t-1+U_fh_t-1+E_fx_t+b_f)，

c_t＝f_tc_t-1+i_t tanh(W_cy_t-1+U_ch_t-1+E_cx_t+b_c)，

o_t＝σ(W_oy_t-1+U_oh_t-1+E_ox_t+b_o)，

h_t＝o_t tanh(c_t)，

5.根据权利要求2所述的基于注意力的重要对象检测方法，其特征在于，步骤1.2中，在第t个时刻，所述的注意力图可以表示为α_t＝[α_t1,α_t2,…,α_tm],由一个多层感知机和一个softmax分类器计算得来，过程如下：

α_t＝softmax(M_ss_t+b),

6.根据权利要求5所述的基于注意力的重要对象检测方法，其特征在于，所述Softmax分类器的定义如下：

其中，j＝1,2,…,K.z是Softmax分类器的分类对象。

7.根据权利要求2所述的基于注意力的重要对象检测方法，其特征在于，步骤2.1中，在t＝0时刻，h_t和c_t表示为h₀和c₀，h₀和c₀的计算过程如下：

其中，和分别表示两个不同多层感知机的方程。

8.根据权利要求1或2所述的基于注意力的重要对象检测方法，其特征在于，步骤2.2中，感兴趣区域池化的具体步骤如下，

a.根据输入图像，将感兴趣区域映射到特征图的对应位置；