CN111967399A

CN111967399A - 一种基于改进的Faster RCNN行为识别方法

Info

Publication number: CN111967399A
Application number: CN202010834842.2A
Authority: CN
Inventors: 赵骥; 于海龙
Original assignee: University of Science and Technology Liaoning USTL
Current assignee: University of Science and Technology Liaoning USTL
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-20

Abstract

一种基于改进的Faster RCNN行为识别方法，采用残差网络ResNet并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；在卷积层的前面加了一层专用于学习卷积核偏移量的卷积层，使卷积核大小和位置根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置函数得值越大，最终确定交互对象实现行为识别。

Description

一种基于改进的Faster RCNN行为识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于改进的Faster RCNN行为识别方法。

背景技术

人体行为识别涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域，有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展，人们开始尝试着使用计算机程序去处理、分析和理解图像中的内容，模拟视觉实现图像的识别，人体行为识别取得了突破性的进展，成果显著。

行为识别是指使用一些算法让计算机能够自动的识别图像中存在的动作。近年来提出许多不同深度学习框架的行为识别方法，其中包括卷积神经网络(ConvolutionNeural Network，CNN)、限制玻尔兹曼机(Independent Subspace Analysis，ISA)以及递归神经网络(Recurrent Neural Network，RNN)等深度网络来建立人体行为识别的网络模型是目前研究的热门话题。

基于深度学习的行为识别方法在性能上相比于传统检测方法有很大提升，但仍存在一些问题：1.现有的图像行为识别是一个比较复杂的过程，图像中常常存在交互对象大小差异、遮挡、形变及多目标交互等情况，使网络模型学习的过中不能够充分提取到图像中的特征，进而影响识别的效果。2.传统的Faster RCNN使用的网络结构为VGG-16网络，在加深网络层数的时候容易出现梯度消失和梯度爆炸的问题，使网络反向传播不能够更新参数，进而影响实验的结果。3.传统卷积特征提取的过程中卷积核几何形状是固定的，因此在特征提取的过程中不能很好的应对几何形变，进而限制了网络模型的多样性。

发明内容

为了解决背景技术提出的技术问题，本发明提供一种基于改进的Faster RCNN行为识别方法，将Faster RCNN做了相关的改进，有效的提升了网络模型对复杂图像中行为关系识别的效果，提升了网络模型的性能。

为了达到上述目的，本发明采用以下技术方案实现：

一种基于改进的Faster RCNN行为识别方法，包括如下步骤：

步骤一、COCO数据集预处理，在处理后的数据集上训练行为识别的网络模型；

步骤二、将测试的样本输入到目标检测模块中，提取特征，识别定位图像中的目标对象，判断类别；包括如下：

1)为了解决由于网络深度的加深可能出现梯度消失和梯度爆炸的问题，本发明将传统Faster RCNN方法中用于提取图像特征的VGG-16网络替换为具有更强表达能力残差网络ResNet，并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；

2)为解决图像中目标形变、遮挡、大小差异对交互对象识别结果的影响，本发明将传统的卷积做出改进，在卷积层的前面加了一层专门用于学习卷积核偏移量的卷积层，使卷积核大小和位置会根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；

3)针对传统的Faster RCNN中区域建议环节存在重复计算的问题，本发明将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；

步骤三、将目标检测模块输出的特征图作为行为识别模块的输入，以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置，输出注意力特征图。

针对图像行为识别中交互目标定位不准确、存在将对象建立错误的行为关系的问题。本发明将行为识别部分做了改进，分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置，函数得值越大，最终确定交互对象实现行为识别。

进一步地，所述步骤二的1)中，采用ResNet残差网络，残差网络的前向传播是线性的，后层的输入是当前输入和每次残差元计算的残差和，在残差网络的输入输出之间添加一个快捷连接，使前向传播是一个平滑的过程；经过多次计算得到深层的L单元的计算计算结果：

其中，X_L表示的是L层的输出向量，X_l表示的是第l层的输出，F(X_i,w_i)表示的是第l层中的残差；

反向传播的过程同前向传播一样都是一个平滑的过程；根据反向传播的链式法则，得到如下公式：

其中，大写字母E表示损失误差值，表达为

进一步地，所述步骤二的2)中，在特征提取过程中，直接在原卷积层前面加了一层卷积层，专用于学习下层卷积核空间位置的偏移量，使得每一个卷积核的采样点都增加了一个额外的偏移量Δp_n，使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整，使卷积核具有形变的能力；

传统卷积的过程中，对于输出特征图y上的各像素p₀来说，得到如下公式：

其中，p_n枚举了

中的位置；w为学习到的权重；

在自动可变形卷积中，在输入X上进行采样，在每一个p_n上增加一个偏移量Δp_n，并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量，集合

中选取的元素位置通过偏移量{Δp_n|n＝1,2,…,N}发生变化(其中，

)，优化后的公式如下：

选取像素点周围16个像素点作为参考，计算目标图像的像素的位置，由于偏移Δp_n为分数，通过双三次插值实现如下:

其中p₀+p_n+Δp_n为任意位置，q枚举特征图X中所有的空间位置，G为双三次插值核，因此，采样将发生在带有偏移量的不规则的位置p_n+Δp_n上。

进一步地，所述步骤二的3)中，在区域建议的过程中引入注意力机制的思想，在RPN中增加了一个专用于学习注意力权重参数的注意力层，在得到的特征图上面添加注意力权重，使之具有感知目标特征的能力，注意力的存在，使得网络在特征图提取的过程中更加的关注图像中的对象，从而为后续的动作的识别提供更有利的线索，将注意力与残差结合后改进RPN，学习的过程表示为：

H_i,c(X)＝(1+M_i,c(X))×F_i,c(X)

其中，H_i,c(X)表示的是注意力与残差结合后学习的输出；X表示的是模块输入；F_i,c(X)近似残差函数，是深层网络产生的特征；M_i,c(X)表示的是注意力层卷积出的与输入特征图相同大小的注意力权重，取值范围为[0，1]，0代表完全抑制作用，1代表完全激活作用，可以增强良好的特征并抑制无关的特征，分为实例权重和非实例权重；i表示的是空间位置上的像素点的位置，c表示的是图像的通道数；当M_i,c(X)＝0时，H_i,c(X)近似于原始的F_i,c(X)；

注意力权重不仅可以在网络前向传播的过程中作为特征选择器，还可以在反向传播的过程中作为梯度更新的过滤器；在注意力层中，根据反向传播的链式法则，得到如下公式：

进一步地，所述步骤三中，将目标对象位置上的密度建模为高斯函数，相当于产生“模糊”效果，“中间点”失去细节，函数的均值是根据目标的外观和动作来预测的，形式上，以人为中心的分支预测

表示的是对于人可能与他交互对象的位置，意味着定位给人框b_h和动作a的目标位置；以对象为中心的分支预测

表示的是对于对象可能与它交互的人的位置，意味着定位给对象框b_o和动作a目标位置；把目标定位项分别写成：

g表示是图像中目标框b和预测目标位置u的匹配性(compatibility)(

和

)，g的值越小，说明该目标周围的对象与之匹配的概率越大，反之则越小；b_h|o表示的是b_h相对于b_o的坐标，b_o|h表示的是b_o相对于b_h的坐标，具体如下：

b_h和b_o是两个不同的目标，分别表示的是人框和对象框，而且二者不一定接近或与大小相同；训练的目标是最小化

和b_o|h之间及

和b_h|o之间的误差loss；

对于任何给定的图像，检测视觉关系时可以描述为检测一种<b_h,a,b_o>形式(人、动作、对象)的三元组；每个动作a∈{1,2,3,…,A}(A表示所有可能的动作的总数)；人和物交互的动作的分数

公式如下：

其中，S_h和S_o表示的是目标对象的分数；

表示的是分配给b_h的人的动作a的分数，

表示的是分配给b_o的对象的动作a的分数；

是根据目标的外观对给定的人和动作对周围可能与之的交互的对象位置预测，即具有框b_o的对象是交互的实际对象的可能性，

与之同理，预测出具有框b_h的人是交互的实际人的可能性。

与现有技术相比，本发明的有益效果是：

1)本发明的网络模型在图像行为识别中鲁棒性强：无论是图像中存在严重的大小差异、遮挡和多目标等恶劣的条件都不会对检测结果产生太大的影响，减少了漏检和误检情况的出现。

2)本发明采用的是34层ResNet作为Faster RCNN的前置网络，并将注意力机制的思想与残差网络相结合，使网络模型能够更准确、更完全的学习图像中的特征。在提高网络训练效率的同时，也能更好的表达目标的特征。

3)本发明采用可变形卷积对目标的特征进行提取，通过在像素特征点的周围选取16个像素点来计算出卷积核的偏移量，使网络模型在特征提取的过程中依靠网络自身机制更好的学习特殊目标的特征，从而使网络不完全依赖数据集的多样性来提升网络的性能。

4)本发明将行为识别过程对象检测部分中RPN做了相关改进，为提出建议环节的输入更具有代表性的特征图，使产生的建议框更具有代表性，能够快速的确定目标的位置，提升了网络的学习效率。

5)本发明以图像中识别出来的对象为中心，与图像中的所有目标建立高斯函数关系，使确定可能与之交互的目标更准确，更具有代表性，有利于预测出图像中目标对象之间的动作。

附图说明

图1为本发明的总体流程图；

图2为本发明中基于双三次插值的可变卷积核；

图3为本发明中引入的注意力原理图；

图4为本发明的以实例为中心的行为识别图。

具体实施方式

以下结合附图对本发明提供的具体实施方式进行详细说明。

如图1所示，一种基于改进的Faster RCNN行为识别方法的具体实现步骤如下：

步骤一、COCO数据集预处理，在处理后的数据集上训练行为识别的网络模型；选取效果最好的模型作为后续实验使用；

步骤101、在相关网站上下载Pascal_VOC预训练模型文件：res50_faster_rcnn_it

er_1190000.ckpt.data-00000-of-00001、res50_faster_rcnn_iter_1190000.ckpt.index、res50_faster_rcnn_iter_1190000.ckpt.meta，放到/media/yuhailong/DAN/文件夹下，将其作为网络的初始化参数模型。

步骤102、在//http:images.cocodataset.org/zips/上下载COCO相关数据集，将其中专门用于行为识别的子数据集V-COCO进行增强处理，转换为程序识别的.pkl文件格式，将数据集扩大为原来的4倍作为训练数据集，使网络训练出来的模型更具有鲁棒性。

步骤103、利用增强后的V-COCO数据集训练网络模型，对模型的参数进行微调，将初始学习率设置成0.01，交并比设置成0.6(iou≥0.6表示目标对象之间存在交互关系，iou≤0.6表示目标对象不存在交互关系)。经过500000万次迭代训练之后，模型损失率已经达到了0.026，准确率达到了82.5％，满足了测试实验的要求。

步骤104、将最终生成的网络模型放在指定的/media/yuhailong/DAN/Weights文件夹下，编写测试文件Test.py对模型的性能进行测试，选取效果最好的网络模型进行行为识别实验。

步骤二、将测试的样本输入到目标检测模块中，提取特征，识别定位图像中的目标对象，判断类别；

步骤201、选取待检测的图像，放入到指定的/media/yuhailong/DAN/demo文件夹，将图片转换为成程序能够识别的文件格式，供后续测试使用。

步骤202、提取图像中的特征，卷积过程采用可变形卷积来卷积特征，可变卷积如图2所示，在特征提取过程中，直接在原卷积层前面加了一层卷积层，专门用于学习下层卷积核空间位置的偏移量，使得每一个卷积核的采样点都增加了一个额外的偏移Δp_n，使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整，使卷积核具有形变的能力。在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整。以3×3卷积核为例，从输入图像或特征图X中进行采样，p_n枚举了

中的位置。w为学习到的权重，p₀+p_n+Δp_n采样点的位置。

步骤203、选取参考点，选取像素点周围16个像素点作为参考，计算目标图像的像素的位置，由于偏移Δp_n通常为分数，通过双三次插值实现如下:

X(p₀+p_n+Δp_n)＝∑_qG(q,p₀+p_n+Δp_n)·X(q)

其中p₀+p_n+Δp_n为任意位置，q枚举特征图X中所有的空间位置，G为双三次插值核。采样将发生在带有偏移量的不规则的位置p_n+Δp_n上。使网络对复杂场景有较好的检测效果。

步骤204、引入注意力机制，网络采用ResNet与注意力结合的结构进行特征提取，在RPN中增加了一个专门用于学习注意力权重参数的注意力层，在得到的特征图上面添加注意力权重，使之具有感知目标特征的能力。注意力机制的原理如图3所示，在得到的特征图上面添加注意力权重，即

H_i,c(X)＝(1+M_i,c(X))×F_i,c(X)

X是模块输入；F_i,c(X)是深层网络的残差；M_i,c(X)是注意力权重，取值范围为[0，1]，0代表完全抑制作用，1代表完全激活作用，可以增强良好的特征并抑制无关的特征，分为实例权重和非实例权重；i表示的是空间位置上的像素点的位置，c表示的是图像的通道数。当M_i,c(X)＝0时，H_i,c(X)近似于原始的F_i,c(X)。注意力机制的引入使得网络在特征图提取的过程中更加的关注图像中的有用的信息，增强实例特征并抑制非实例特征，为后续的动作的识别提供更有利的线索。

步骤三、将目标检测模块输出的特征图作为行为识别模块的输入，以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置，输出注意力特征图：分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置，越接近交互对象的位置，函数得值越大，最终确定交互对象实现行为识别。

步骤301、将最后一层输出的特征图输入到改进后的区域建议网络，用一个小的注意力层去卷积共享特征，之后对特征进行降维和升维的操作，获取特征图中的全局和局部特征，为对突出的感兴趣的位置分配较大的权重，之后进行特征融合，提出建议框。在生成建议框的过程中使用的滑动窗口的初始长宽比例分别为1:1、2:1、1:2。每个滑动窗口的特征均会被映射为低维向量传递到两个全连接层，这两个全连接层分别是：框分类层和框回归层。

步骤302、分类层通过softmax判断是物体图像中存在的交互目标的位置和类别，将目标对象位置上的密度建模为高斯函数，相当于产生“模糊”效果，“中间点”失去细节。函数的均值是根据目标的外观和动作来预测的。形式上，以人为中心的分支预测

表示的是对于对象可能与它交互的人的位置，意味着定位给对象框b_o和动作a目标位置。把目标定位项分别写成：

g表示是图像中目标框b和预测目标位置u的匹配性(

和

)，g的值越小，说明该目标周围的对象与之匹配的概率越大，反之则越小。b_h|o表示的是b_h相对于b_o的坐标，b_o|h表示的是b_o相对于b_h的坐标，具体如下：

步骤303训练的目标是最小化

和b_o|h之间及

和b_h|o之间的误差loss。优化误差，如果与实际的目标对象的类别有误差，通过框回归层计算回归偏移量，调整框的位置以获得精准的建议框(x，y，w，h)，预测出交互对象位置和类别。

步骤四、对输出的特征分别做ROI Pooling操作，与顶层的特征进行全连接操作，将图像的外观特征和卷积的注意力特征进行融合，结合Softmax完成行为识别任务。

步骤401、Roi Pooling根据交互对象检测最后一层输出特征图和RPN输出特征图，将感兴区域映射到特征图对应的位置，将映射后的区域划分为相同大小的维度，得到尺寸固定的特征图，在保留一定有用信息的同时，降低需要处理的数据量。

步骤402、将含有识别出交互对象类别和位置的特征图作为行为识别部分的输入，输入到行为预测部分。以实例为中心的行为识别原理如图4所示，以图像中所有对象实例为中心提取特征图中目标对象的外观特征。通过两个1×1卷积核分别卷积实例对象的外观特征和可能与之交互对象的外观特征，根据周围感兴趣的对象实例动态生成一个注意力映射，将实例的外观特征和卷积特征注意力映射都嵌入到了特征中，并加权求和，可以得到以图片中交互的实例为中心的特征图，突出了图像中相关区域。

步骤403、进行全连接操作，将深层和浅层的特征综合起来，以表达出更具有代表性的特征。

步骤404、在全连接层中进行全连接操作后，则利用softmax完成交互对象之间的动作的具体分类，选取出动作类别概率最大的动作，为最终的输出。

从上述技术方案可以看出，本发明根据现实生活中图像行为识别中面临的问题，如：交互对象之间存在严重的大小差异、遮挡以及多目标交互，对基于Faster RCNN的行为识别方法进行了改进。采用具有更强表达能力的ResNet网络作为本发明的核心网络来提取特征；将ResNet与注意力的思想相结合，提升了提取特征的过程中网络模型的筛选能力，进而使得网络训练更容易、更高效；在卷积的过程中为卷积核加入一个偏移量，使得卷积核可以根据特征图中的内容进行动态的调整，使得网络的适应性更强。在确定交互目标对象位置时，根据高斯分布的思想，以实例对象为中心去根据实例的外观特征确定周围与之交互的对象的位置，通过对象之间交互动作的预测，节省了动作识别的时间。经过大量实验表明，本发明对于目标对象之间交互动作的预测具有较高的准确度和较强的鲁棒性。

以上实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims

1.一种基于改进的Faster RCNN行为识别方法，其特征在于，包括如下步骤：

1)提取特征时，采用残差网络ResNet，并引入注意力机制的思想，使网络模型能够有选择的学习图像中更抽象的特征；

2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层，使卷积核大小和位置会根据特征图中的内容进行动态调整，使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性；

3)将注意力机制的思想引入网络中，使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重，使区域建议环节能够更快的定位到图像中目标对象的位置，为后续的行为识别做准备；

2.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法，其特征在于，所述步骤二的1)中，采用ResNet残差网络，残差网络的前向传播是线性的，后层的输入是当前输入和每次残差元计算的残差和，在残差网络的输入输出之间添加一个快捷连接，使前向传播是一个平滑的过程；经过多次计算得到深层的L单元的计算计算结果：

其中，大写字母E表示损失误差值，表达为

3.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法，其特征在于，所述步骤二的2)中，在特征提取过程中，直接在原卷积层前面加了一层卷积层，专用于学习下层卷积核空间位置的偏移量，使得每一个卷积核的采样点都增加了一个额外的偏移量Δp_n，使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整，使卷积核具有形变的能力；

其中，p_n枚举了

中的位置；w为学习到的权重；

)，优化后的公式如下：

4.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法，其特征在于，所述步骤二的3)中，在区域建议的过程中引入注意力机制的思想，在RPN中增加了一个专用于学习注意力权重参数的注意力层，在得到的特征图上面添加注意力权重，使之具有感知目标特征的能力，注意力的存在，使得网络在特征图提取的过程中更加的关注图像中的对象，从而为后续的动作的识别提供更有利的线索，将注意力与残差结合后改进RPN，学习的过程表示为：

H_i,c(X)＝(1+M_i,c(X))×F_i,c(X)

注意力权重不仅在网络前向传播的过程中作为特征选择器，还在反向传播的过程中作为梯度更新的过滤器；在注意力层中，根据反向传播的链式法则，得到如下公式：