CN111967399A - 一种基于改进的Faster RCNN行为识别方法 - Google Patents

一种基于改进的Faster RCNN行为识别方法 Download PDF

Info

Publication number
CN111967399A
CN111967399A CN202010834842.2A CN202010834842A CN111967399A CN 111967399 A CN111967399 A CN 111967399A CN 202010834842 A CN202010834842 A CN 202010834842A CN 111967399 A CN111967399 A CN 111967399A
Authority
CN
China
Prior art keywords
target
image
attention
network
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010834842.2A
Other languages
English (en)
Inventor
赵骥
于海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Liaoning USTL
Original Assignee
University of Science and Technology Liaoning USTL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Liaoning USTL filed Critical University of Science and Technology Liaoning USTL
Priority to CN202010834842.2A priority Critical patent/CN111967399A/zh
Publication of CN111967399A publication Critical patent/CN111967399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于改进的Faster RCNN行为识别方法,采用残差网络ResNet并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;在卷积层的前面加了一层专用于学习卷积核偏移量的卷积层,使卷积核大小和位置根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置函数得值越大,最终确定交互对象实现行为识别。

Description

一种基于改进的Faster RCNN行为识别方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于改进的Faster RCNN行为识别方法。
背景技术
人体行为识别涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域,有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展,人们开始尝试着使用计算机程序去处理、分析和理解图像中的内容,模拟视觉实现图像的识别,人体行为识别取得了突破性的进展,成果显著。
行为识别是指使用一些算法让计算机能够自动的识别图像中存在的动作。近年来提出许多不同深度学习框架的行为识别方法,其中包括卷积神经网络(ConvolutionNeural Network,CNN)、限制玻尔兹曼机(Independent Subspace Analysis,ISA)以及递归神经网络(Recurrent Neural Network,RNN)等深度网络来建立人体行为识别的网络模型是目前研究的热门话题。
基于深度学习的行为识别方法在性能上相比于传统检测方法有很大提升,但仍存在一些问题:1.现有的图像行为识别是一个比较复杂的过程,图像中常常存在交互对象大小差异、遮挡、形变及多目标交互等情况,使网络模型学习的过中不能够充分提取到图像中的特征,进而影响识别的效果。2.传统的Faster RCNN使用的网络结构为VGG-16网络,在加深网络层数的时候容易出现梯度消失和梯度爆炸的问题,使网络反向传播不能够更新参数,进而影响实验的结果。3.传统卷积特征提取的过程中卷积核几何形状是固定的,因此在特征提取的过程中不能很好的应对几何形变,进而限制了网络模型的多样性。
发明内容
为了解决背景技术提出的技术问题,本发明提供一种基于改进的Faster RCNN行为识别方法,将Faster RCNN做了相关的改进,有效的提升了网络模型对复杂图像中行为关系识别的效果,提升了网络模型的性能。
为了达到上述目的,本发明采用以下技术方案实现:
一种基于改进的Faster RCNN行为识别方法,包括如下步骤:
步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;
步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;包括如下:
1)为了解决由于网络深度的加深可能出现梯度消失和梯度爆炸的问题,本发明将传统Faster RCNN方法中用于提取图像特征的VGG-16网络替换为具有更强表达能力残差网络ResNet,并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;
2)为解决图像中目标形变、遮挡、大小差异对交互对象识别结果的影响,本发明将传统的卷积做出改进,在卷积层的前面加了一层专门用于学习卷积核偏移量的卷积层,使卷积核大小和位置会根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;
3)针对传统的Faster RCNN中区域建议环节存在重复计算的问题,本发明将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;
步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图。
针对图像行为识别中交互目标定位不准确、存在将对象建立错误的行为关系的问题。本发明将行为识别部分做了改进,分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。
进一步地,所述步骤二的1)中,采用ResNet残差网络,残差网络的前向传播是线性的,后层的输入是当前输入和每次残差元计算的残差和,在残差网络的输入输出之间添加一个快捷连接,使前向传播是一个平滑的过程;经过多次计算得到深层的L单元的计算计算结果:
Figure BDA0002639263860000021
其中,XL表示的是L层的输出向量,Xl表示的是第l层的输出,F(Xi,wi)表示的是第l层中的残差;
反向传播的过程同前向传播一样都是一个平滑的过程;根据反向传播的链式法则,得到如下公式:
Figure BDA0002639263860000031
其中,大写字母E表示损失误差值,表达为
Figure BDA0002639263860000032
进一步地,所述步骤二的2)中,在特征提取过程中,直接在原卷积层前面加了一层卷积层,专用于学习下层卷积核空间位置的偏移量,使得每一个卷积核的采样点都增加了一个额外的偏移量Δpn,使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整,使卷积核具有形变的能力;
传统卷积的过程中,对于输出特征图y上的各像素p0来说,得到如下公式:
Figure BDA0002639263860000033
其中,pn枚举了
Figure BDA0002639263860000036
中的位置;w为学习到的权重;
在自动可变形卷积中,在输入X上进行采样,在每一个pn上增加一个偏移量Δpn,并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量,集合
Figure BDA0002639263860000037
中选取的元素位置通过偏移量{Δpn|n=1,2,…,N}发生变化(其中,
Figure BDA0002639263860000038
),优化后的公式如下:
Figure BDA0002639263860000034
选取像素点周围16个像素点作为参考,计算目标图像的像素的位置,由于偏移Δpn为分数,通过双三次插值实现如下:
Figure BDA0002639263860000035
其中p0+pn+Δpn为任意位置,q枚举特征图X中所有的空间位置,G为双三次插值核,因此,采样将发生在带有偏移量的不规则的位置pn+Δpn上。
进一步地,所述步骤二的3)中,在区域建议的过程中引入注意力机制的思想,在RPN中增加了一个专用于学习注意力权重参数的注意力层,在得到的特征图上面添加注意力权重,使之具有感知目标特征的能力,注意力的存在,使得网络在特征图提取的过程中更加的关注图像中的对象,从而为后续的动作的识别提供更有利的线索,将注意力与残差结合后改进RPN,学习的过程表示为:
Hi,c(X)=(1+Mi,c(X))×Fi,c(X)
其中,Hi,c(X)表示的是注意力与残差结合后学习的输出;X表示的是模块输入;Fi,c(X)近似残差函数,是深层网络产生的特征;Mi,c(X)表示的是注意力层卷积出的与输入特征图相同大小的注意力权重,取值范围为[0,1],0代表完全抑制作用,1代表完全激活作用,可以增强良好的特征并抑制无关的特征,分为实例权重和非实例权重;i表示的是空间位置上的像素点的位置,c表示的是图像的通道数;当Mi,c(X)=0时,Hi,c(X)近似于原始的Fi,c(X);
注意力权重不仅可以在网络前向传播的过程中作为特征选择器,还可以在反向传播的过程中作为梯度更新的过滤器;在注意力层中,根据反向传播的链式法则,得到如下公式:
Figure BDA0002639263860000041
进一步地,所述步骤三中,将目标对象位置上的密度建模为高斯函数,相当于产生“模糊”效果,“中间点”失去细节,函数的均值是根据目标的外观和动作来预测的,形式上,以人为中心的分支预测
Figure BDA0002639263860000042
表示的是对于人可能与他交互对象的位置,意味着定位给人框bh和动作a的目标位置;以对象为中心的分支预测
Figure BDA0002639263860000043
表示的是对于对象可能与它交互的人的位置,意味着定位给对象框bo和动作a目标位置;把目标定位项分别写成:
Figure BDA0002639263860000044
Figure BDA0002639263860000045
g表示是图像中目标框b和预测目标位置u的匹配性(compatibility)(
Figure BDA0002639263860000046
Figure BDA0002639263860000047
),g的值越小,说明该目标周围的对象与之匹配的概率越大,反之则越小;bh|o表示的是bh相对于bo的坐标,bo|h表示的是bo相对于bh的坐标,具体如下:
Figure BDA0002639263860000048
Figure BDA0002639263860000049
bh和bo是两个不同的目标,分别表示的是人框和对象框,而且二者不一定接近或与大小相同;训练的目标是最小化
Figure BDA00026392638600000410
和bo|h之间及
Figure BDA00026392638600000411
和bh|o之间的误差loss;
对于任何给定的图像,检测视觉关系时可以描述为检测一种<bh,a,bo>形式(人、动作、对象)的三元组;每个动作a∈{1,2,3,…,A}(A表示所有可能的动作的总数);人和物交互的动作的分数
Figure BDA00026392638600000412
公式如下:
Figure BDA0002639263860000051
其中,Sh和So表示的是目标对象的分数;
Figure BDA0002639263860000052
表示的是分配给bh的人的动作a的分数,
Figure BDA0002639263860000053
表示的是分配给bo的对象的动作a的分数;
Figure BDA0002639263860000054
是根据目标的外观对给定的人和动作对周围可能与之的交互的对象位置预测,即具有框bo的对象是交互的实际对象的可能性,
Figure BDA0002639263860000055
与之同理,预测出具有框bh的人是交互的实际人的可能性。
与现有技术相比,本发明的有益效果是:
1)本发明的网络模型在图像行为识别中鲁棒性强:无论是图像中存在严重的大小差异、遮挡和多目标等恶劣的条件都不会对检测结果产生太大的影响,减少了漏检和误检情况的出现。
2)本发明采用的是34层ResNet作为Faster RCNN的前置网络,并将注意力机制的思想与残差网络相结合,使网络模型能够更准确、更完全的学习图像中的特征。在提高网络训练效率的同时,也能更好的表达目标的特征。
3)本发明采用可变形卷积对目标的特征进行提取,通过在像素特征点的周围选取16个像素点来计算出卷积核的偏移量,使网络模型在特征提取的过程中依靠网络自身机制更好的学习特殊目标的特征,从而使网络不完全依赖数据集的多样性来提升网络的性能。
4)本发明将行为识别过程对象检测部分中RPN做了相关改进,为提出建议环节的输入更具有代表性的特征图,使产生的建议框更具有代表性,能够快速的确定目标的位置,提升了网络的学习效率。
5)本发明以图像中识别出来的对象为中心,与图像中的所有目标建立高斯函数关系,使确定可能与之交互的目标更准确,更具有代表性,有利于预测出图像中目标对象之间的动作。
附图说明
图1为本发明的总体流程图;
图2为本发明中基于双三次插值的可变卷积核;
图3为本发明中引入的注意力原理图;
图4为本发明的以实例为中心的行为识别图。
具体实施方式
以下结合附图对本发明提供的具体实施方式进行详细说明。
如图1所示,一种基于改进的Faster RCNN行为识别方法的具体实现步骤如下:
步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;选取效果最好的模型作为后续实验使用;
步骤101、在相关网站上下载Pascal_VOC预训练模型文件:res50_faster_rcnn_it
er_1190000.ckpt.data-00000-of-00001、res50_faster_rcnn_iter_1190000.ckpt.index、res50_faster_rcnn_iter_1190000.ckpt.meta,放到/media/yuhailong/DAN/文件夹下,将其作为网络的初始化参数模型。
步骤102、在//http:images.cocodataset.org/zips/上下载COCO相关数据集,将其中专门用于行为识别的子数据集V-COCO进行增强处理,转换为程序识别的.pkl文件格式,将数据集扩大为原来的4倍作为训练数据集,使网络训练出来的模型更具有鲁棒性。
步骤103、利用增强后的V-COCO数据集训练网络模型,对模型的参数进行微调,将初始学习率设置成0.01,交并比设置成0.6(iou≥0.6表示目标对象之间存在交互关系,iou≤0.6表示目标对象不存在交互关系)。经过500000万次迭代训练之后,模型损失率已经达到了0.026,准确率达到了82.5%,满足了测试实验的要求。
步骤104、将最终生成的网络模型放在指定的/media/yuhailong/DAN/Weights文件夹下,编写测试文件Test.py对模型的性能进行测试,选取效果最好的网络模型进行行为识别实验。
步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;
步骤201、选取待检测的图像,放入到指定的/media/yuhailong/DAN/demo文件夹,将图片转换为成程序能够识别的文件格式,供后续测试使用。
步骤202、提取图像中的特征,卷积过程采用可变形卷积来卷积特征,可变卷积如图2所示,在特征提取过程中,直接在原卷积层前面加了一层卷积层,专门用于学习下层卷积核空间位置的偏移量,使得每一个卷积核的采样点都增加了一个额外的偏移Δpn,使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整,使卷积核具有形变的能力。在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整。以3×3卷积核为例,从输入图像或特征图X中进行采样,pn枚举了
Figure BDA0002639263860000061
中的位置。w为学习到的权重,p0+pn+Δpn采样点的位置。
步骤203、选取参考点,选取像素点周围16个像素点作为参考,计算目标图像的像素的位置,由于偏移Δpn通常为分数,通过双三次插值实现如下:
X(p0+pn+Δpn)=∑qG(q,p0+pn+Δpn)·X(q)
其中p0+pn+Δpn为任意位置,q枚举特征图X中所有的空间位置,G为双三次插值核。采样将发生在带有偏移量的不规则的位置pn+Δpn上。使网络对复杂场景有较好的检测效果。
步骤204、引入注意力机制,网络采用ResNet与注意力结合的结构进行特征提取,在RPN中增加了一个专门用于学习注意力权重参数的注意力层,在得到的特征图上面添加注意力权重,使之具有感知目标特征的能力。注意力机制的原理如图3所示,在得到的特征图上面添加注意力权重,即
Hi,c(X)=(1+Mi,c(X))×Fi,c(X)
X是模块输入;Fi,c(X)是深层网络的残差;Mi,c(X)是注意力权重,取值范围为[0,1],0代表完全抑制作用,1代表完全激活作用,可以增强良好的特征并抑制无关的特征,分为实例权重和非实例权重;i表示的是空间位置上的像素点的位置,c表示的是图像的通道数。当Mi,c(X)=0时,Hi,c(X)近似于原始的Fi,c(X)。注意力机制的引入使得网络在特征图提取的过程中更加的关注图像中的有用的信息,增强实例特征并抑制非实例特征,为后续的动作的识别提供更有利的线索。
步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图:分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。
步骤301、将最后一层输出的特征图输入到改进后的区域建议网络,用一个小的注意力层去卷积共享特征,之后对特征进行降维和升维的操作,获取特征图中的全局和局部特征,为对突出的感兴趣的位置分配较大的权重,之后进行特征融合,提出建议框。在生成建议框的过程中使用的滑动窗口的初始长宽比例分别为1:1、2:1、1:2。每个滑动窗口的特征均会被映射为低维向量传递到两个全连接层,这两个全连接层分别是:框分类层和框回归层。
步骤302、分类层通过softmax判断是物体图像中存在的交互目标的位置和类别,将目标对象位置上的密度建模为高斯函数,相当于产生“模糊”效果,“中间点”失去细节。函数的均值是根据目标的外观和动作来预测的。形式上,以人为中心的分支预测
Figure BDA0002639263860000071
表示的是对于人可能与他交互对象的位置,意味着定位给人框bh和动作a的目标位置;以对象为中心的分支预测
Figure BDA0002639263860000072
表示的是对于对象可能与它交互的人的位置,意味着定位给对象框bo和动作a目标位置。把目标定位项分别写成:
Figure BDA0002639263860000081
g表示是图像中目标框b和预测目标位置u的匹配性(
Figure BDA0002639263860000082
Figure BDA0002639263860000083
),g的值越小,说明该目标周围的对象与之匹配的概率越大,反之则越小。bh|o表示的是bh相对于bo的坐标,bo|h表示的是bo相对于bh的坐标,具体如下:
Figure BDA0002639263860000084
步骤303训练的目标是最小化
Figure BDA0002639263860000085
和bo|h之间及
Figure BDA0002639263860000086
和bh|o之间的误差loss。优化误差,如果与实际的目标对象的类别有误差,通过框回归层计算回归偏移量,调整框的位置以获得精准的建议框(x,y,w,h),预测出交互对象位置和类别。
步骤四、对输出的特征分别做ROI Pooling操作,与顶层的特征进行全连接操作,将图像的外观特征和卷积的注意力特征进行融合,结合Softmax完成行为识别任务。
步骤401、Roi Pooling根据交互对象检测最后一层输出特征图和RPN输出特征图,将感兴区域映射到特征图对应的位置,将映射后的区域划分为相同大小的维度,得到尺寸固定的特征图,在保留一定有用信息的同时,降低需要处理的数据量。
步骤402、将含有识别出交互对象类别和位置的特征图作为行为识别部分的输入,输入到行为预测部分。以实例为中心的行为识别原理如图4所示,以图像中所有对象实例为中心提取特征图中目标对象的外观特征。通过两个1×1卷积核分别卷积实例对象的外观特征和可能与之交互对象的外观特征,根据周围感兴趣的对象实例动态生成一个注意力映射,将实例的外观特征和卷积特征注意力映射都嵌入到了特征中,并加权求和,可以得到以图片中交互的实例为中心的特征图,突出了图像中相关区域。
步骤403、进行全连接操作,将深层和浅层的特征综合起来,以表达出更具有代表性的特征。
步骤404、在全连接层中进行全连接操作后,则利用softmax完成交互对象之间的动作的具体分类,选取出动作类别概率最大的动作,为最终的输出。
从上述技术方案可以看出,本发明根据现实生活中图像行为识别中面临的问题,如:交互对象之间存在严重的大小差异、遮挡以及多目标交互,对基于Faster RCNN的行为识别方法进行了改进。采用具有更强表达能力的ResNet网络作为本发明的核心网络来提取特征;将ResNet与注意力的思想相结合,提升了提取特征的过程中网络模型的筛选能力,进而使得网络训练更容易、更高效;在卷积的过程中为卷积核加入一个偏移量,使得卷积核可以根据特征图中的内容进行动态的调整,使得网络的适应性更强。在确定交互目标对象位置时,根据高斯分布的思想,以实例对象为中心去根据实例的外观特征确定周围与之交互的对象的位置,通过对象之间交互动作的预测,节省了动作识别的时间。经过大量实验表明,本发明对于目标对象之间交互动作的预测具有较高的准确度和较强的鲁棒性。
以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。

Claims (5)

1.一种基于改进的Faster RCNN行为识别方法,其特征在于,包括如下步骤:
步骤一、COCO数据集预处理,在处理后的数据集上训练行为识别的网络模型;
步骤二、将测试的样本输入到目标检测模块中,提取特征,识别定位图像中的目标对象,判断类别;包括如下:
1)提取特征时,采用残差网络ResNet,并引入注意力机制的思想,使网络模型能够有选择的学习图像中更抽象的特征;
2)在卷积层的前面加一层专用于学习卷积核偏移量的卷积层,使卷积核大小和位置会根据特征图中的内容进行动态调整,使网络模型对存在复杂关系的图像能够表现出较强的鲁棒性和适应性;
3)将注意力机制的思想引入网络中,使得网络模型在提出建议的时候为特征图的每一个像素点分配一个注意力权重,使区域建议环节能够更快的定位到图像中目标对象的位置,为后续的行为识别做准备;
步骤三、将目标检测模块输出的特征图作为行为识别模块的输入,以图像中的实例为中心注意力机制去定位周围可能与之交互的目标对象的位置,输出注意力特征图:分别以图像中检测出的实例为中心建立高斯分布来预测可能与之交互目标的位置,越接近交互对象的位置,函数得值越大,最终确定交互对象实现行为识别。
2.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法,其特征在于,所述步骤二的1)中,采用ResNet残差网络,残差网络的前向传播是线性的,后层的输入是当前输入和每次残差元计算的残差和,在残差网络的输入输出之间添加一个快捷连接,使前向传播是一个平滑的过程;经过多次计算得到深层的L单元的计算计算结果:
Figure RE-FDA0002705549390000011
其中,XL表示的是L层的输出向量,Xl表示的是第l层的输出,F(Xi,wi)表示的是第l层中的残差;
反向传播的过程同前向传播一样都是一个平滑的过程;根据反向传播的链式法则,得到如下公式:
Figure RE-FDA0002705549390000021
其中,大写字母E表示损失误差值,表达为
Figure RE-FDA0002705549390000022
3.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法,其特征在于,所述步骤二的2)中,在特征提取过程中,直接在原卷积层前面加了一层卷积层,专用于学习下层卷积核空间位置的偏移量,使得每一个卷积核的采样点都增加了一个额外的偏移量Δpn,使之在卷积的过程中根据图像内容自动对卷积核的大小、形状及采样点的位置进行调整,使卷积核具有形变的能力;
传统卷积的过程中,对于输出特征图y上的各像素p0来说,得到如下公式:
Figure RE-FDA0002705549390000023
其中,pn枚举了
Figure RE-FDA0002705549390000024
中的位置;w为学习到的权重;
在自动可变形卷积中,在输入X上进行采样,在每一个pn上增加一个偏移量Δpn,并利用双三次插值的方法在像素周围选取16个采样点计算出该偏移量,集合
Figure RE-FDA0002705549390000028
中选取的元素位置通过偏移量{Δpn|n=1,2,…,N}发生变化(其中,
Figure RE-FDA0002705549390000025
),优化后的公式如下:
Figure RE-FDA0002705549390000026
选取像素点周围16个像素点作为参考,计算目标图像的像素的位置,由于偏移Δpn为分数,通过双三次插值实现如下:
Figure RE-FDA0002705549390000027
其中p0+pn+Δpn为任意位置,q枚举特征图X中所有的空间位置,G为双三次插值核,因此,采样将发生在带有偏移量的不规则的位置pn+Δpn上。
4.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法,其特征在于,所述步骤二的3)中,在区域建议的过程中引入注意力机制的思想,在RPN中增加了一个专用于学习注意力权重参数的注意力层,在得到的特征图上面添加注意力权重,使之具有感知目标特征的能力,注意力的存在,使得网络在特征图提取的过程中更加的关注图像中的对象,从而为后续的动作的识别提供更有利的线索,将注意力与残差结合后改进RPN,学习的过程表示为:
Hi,c(X)=(1+Mi,c(X))×Fi,c(X)
其中,Hi,c(X)表示的是注意力与残差结合后学习的输出;X表示的是模块输入;Fi,c(X)近似残差函数,是深层网络产生的特征;Mi,c(X)表示的是注意力层卷积出的与输入特征图相同大小的注意力权重,取值范围为[0,1],0代表完全抑制作用,1代表完全激活作用,可以增强良好的特征并抑制无关的特征,分为实例权重和非实例权重;i表示的是空间位置上的像素点的位置,c表示的是图像的通道数;当Mi,c(X)=0时,Hi,c(X)近似于原始的Fi,c(X);
注意力权重不仅在网络前向传播的过程中作为特征选择器,还在反向传播的过程中作为梯度更新的过滤器;在注意力层中,根据反向传播的链式法则,得到如下公式:
Figure RE-FDA0002705549390000031
5.根据权利要求1所述的一种基于改进的Faster RCNN行为识别方法,其特征在于,所述步骤三中,将目标对象位置上的密度建模为高斯函数,相当于产生“模糊”效果,“中间点”失去细节,函数的均值是根据目标的外观和动作来预测的,形式上,以人为中心的分支预测
Figure RE-FDA0002705549390000032
表示的是对于人可能与他交互对象的位置,意味着定位给人框bh和动作a的目标位置;以对象为中心的分支预测
Figure RE-FDA0002705549390000033
表示的是对于对象可能与它交互的人的位置,意味着定位给对象框bo和动作a目标位置;把目标定位项分别写成:
Figure RE-FDA0002705549390000034
Figure RE-FDA0002705549390000035
g表示是图像中目标框b和预测目标位置u的匹配性(compatibility)(
Figure RE-FDA0002705549390000036
Figure RE-FDA0002705549390000037
),g的值越小,说明该目标周围的对象与之匹配的概率越大,反之则越小;bh|o表示的是bh相对于bo的坐标,bo|h表示的是bo相对于bh的坐标,具体如下:
Figure RE-FDA0002705549390000038
Figure RE-FDA0002705549390000039
bh和bo是两个不同的目标,分别表示的是人框和对象框,而且二者不一定接近或与大小相同;训练的目标是最小化
Figure RE-FDA00027055493900000310
和bo|h之间及
Figure RE-FDA00027055493900000311
和bh|o之间的误差loss;
对于任何给定的图像,检测视觉关系时可以描述为检测一种<bh,a,bo>形式(人、动作、对象)的三元组;每个动作a∈{1,2,3,…,A}(A表示所有可能的动作的总数);人和物交互的动作的分数
Figure RE-FDA0002705549390000041
公式如下:
Figure RE-FDA0002705549390000042
其中,Sh和So表示的是目标对象的分数;
Figure RE-FDA0002705549390000043
表示的是分配给bh的人的动作a的分数,
Figure RE-FDA0002705549390000044
表示的是分配给bo的对象的动作a的分数;
Figure RE-FDA0002705549390000045
是根据目标的外观对给定的人和动作对周围可能与之的交互的对象位置预测,即具有框bo的对象是交互的实际对象的可能性,
Figure RE-FDA0002705549390000046
与之同理,预测出具有框bh的人是交互的实际人的可能性。
CN202010834842.2A 2020-08-19 2020-08-19 一种基于改进的Faster RCNN行为识别方法 Pending CN111967399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010834842.2A CN111967399A (zh) 2020-08-19 2020-08-19 一种基于改进的Faster RCNN行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010834842.2A CN111967399A (zh) 2020-08-19 2020-08-19 一种基于改进的Faster RCNN行为识别方法

Publications (1)

Publication Number Publication Date
CN111967399A true CN111967399A (zh) 2020-11-20

Family

ID=73389368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010834842.2A Pending CN111967399A (zh) 2020-08-19 2020-08-19 一种基于改进的Faster RCNN行为识别方法

Country Status (1)

Country Link
CN (1) CN111967399A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质
CN113469942A (zh) * 2021-06-01 2021-10-01 天津大学 一种ct图像病变检测方法
CN114663671A (zh) * 2022-02-21 2022-06-24 佳都科技集团股份有限公司 一种目标检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830185A (zh) * 2018-05-28 2018-11-16 四川瞳知科技有限公司 基于多任务联合学习的行为识别及定位方法
CN109711389A (zh) * 2019-01-16 2019-05-03 华南农业大学 一种基于Faster R-CNN和HMM的哺乳母猪姿态转换识别方法
CN110569782A (zh) * 2019-09-05 2019-12-13 辽宁科技大学 一种基于深度学习目标检测方法
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830185A (zh) * 2018-05-28 2018-11-16 四川瞳知科技有限公司 基于多任务联合学习的行为识别及定位方法
CN109711389A (zh) * 2019-01-16 2019-05-03 华南农业大学 一种基于Faster R-CNN和HMM的哺乳母猪姿态转换识别方法
CN110569782A (zh) * 2019-09-05 2019-12-13 辽宁科技大学 一种基于深度学习目标检测方法
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BING DU等: "Behavior Recognition Based on Improved Faster RCNN", 《2021 14TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS (CISP-BMEI)》, pages 1 - 6 *
FEI WANG等: "Residual Attention Network for Image Classification", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 3 *
GEORGIA GKIOXARI等: "Detecting and Recognizing Human-Object Interactions", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 38359 - 8367 *
RUI SUN等: "Attention-guided region proposal network for pedestrian detection", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》, vol. 102, no. 10, pages 1 - 2 *
双锴: "计算机视觉", 《北京邮电大学出版社》, pages: 24 *
莫宏伟等: "基于Faster R-CNN的人体行为检测研究", 《智能系统学报》, vol. 13, no. 06, pages 967 - 973 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469942A (zh) * 2021-06-01 2021-10-01 天津大学 一种ct图像病变检测方法
CN113469056A (zh) * 2021-07-02 2021-10-01 上海商汤智能科技有限公司 行为识别方法、装置、电子设备及计算机可读存储介质
CN114663671A (zh) * 2022-02-21 2022-06-24 佳都科技集团股份有限公司 一种目标检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN111354017A (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN107808132A (zh) 一种融合主题模型的场景图像分类方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN112580664A (zh) 一种基于ssd网络的小目标检测方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN112767418B (zh) 基于深度感知的镜子图像分割方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110738132B (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN113111968A (zh) 图像识别模型训练方法、装置、电子设备和可读存储介质
CN111797841A (zh) 一种基于深度残差网络的视觉显著性检测方法
CN112215217B (zh) 模拟医师阅片的数字图像识别方法及装置
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination