CN111476302B - 基于深度强化学习的Faster-RCNN目标物体检测方法 - Google Patents
基于深度强化学习的Faster-RCNN目标物体检测方法 Download PDFInfo
- Publication number
- CN111476302B CN111476302B CN202010269277.XA CN202010269277A CN111476302B CN 111476302 B CN111476302 B CN 111476302B CN 202010269277 A CN202010269277 A CN 202010269277A CN 111476302 B CN111476302 B CN 111476302B
- Authority
- CN
- China
- Prior art keywords
- convolution
- detection
- target
- candidate
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 104
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 86
- 230000009471 action Effects 0.000 claims abstract description 42
- 230000000875 corresponding effect Effects 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 27
- 238000011176 pooling Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 9
- 230000001629 suppression Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 239000011800 void material Substances 0.000 claims description 2
- 101000932768 Conus catus Alpha-conotoxin CIC Proteins 0.000 claims 1
- 230000000452 restraining effect Effects 0.000 claims 1
- 230000005764 inhibitory process Effects 0.000 abstract description 2
- 201000005625 Neuroleptic malignant syndrome Diseases 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于深度强化学习的Faster‑RCNN目标物体检测方法,采用深度强化学习的经验池保存每个时刻的区域建议网络RPN的状态,采用卷积门控循环单元输出两个动作,采用随机策略选择执行相应的动作,同时采用自定义的非极大值抑制方法去除冗余的检测框,获得与标注框最接近的检测框;采用分类网络对检测框进行分类,对检测框进行二次回归,实现对目标物体的检测与识别。采用本发明技术方案,目标定位准确,目标检测精度高。
Description
技术领域
本发明属于计算机视觉技术领域,涉及目标检测与识别技术,具体涉及一种基于深度强化学习的Faster-RCNN目标物体检测方法。
背景技术
目标物体检测是找出图像中所有感兴趣的目标,并确定它们的位置和大小,是计算机视觉领域的核心问题之一。由于各类物体具有不同的外观、形状、姿态,以及成像时光照、遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。随着深度学习在图像分类任务上取得巨大进展,基于深度学习的目标检测算法逐渐成为主流。
基于深度学习的目标检测方法主要分为One-stage和Two-stage两种。One-stage方法是一次性生成检测框和分类预测,牺牲一定的精度来换取更快的检测速度。Two-stage方法是先生成检测框,然后进行分类,牺牲一定的速度来换取更高的精度。为了保证较高的检测精度,以及生成区域建议和与其相应的视觉特征表示,大多数现有方法采用Two-stage方法。一般情况下,Two-stage方法是首先采用区域生成网络(Region Proposal Network,RPN)结构生成感兴趣区域,然后对感兴趣区域进行分类,并且微调它们的定位精度。
区域生成网络在提取感兴趣区域时,优先选择分类得分较高的感兴趣区域,但是同时会生成很多与分类得分重叠(Intersection Over Union,IOU)较多的感兴趣区域,即冗余的检测框。非极大值抑制(Non Maximum Suppression,NMS)算法就是为去除检测算法中冗余检测框而设计的。经典的非极大值抑制算法基于分类分数保留高分的检测框,但是大多数情况下,重叠度IOU与分类分数不是强相关,导致很多分类得分高的检测框检测不准确。
2017年,Bodla N等提出了Soft-NMS算法,对传统的非极大值抑制算法进行了简单的改进且不增加额外的参数。在该算法中,基于重叠部分的大小为相邻检测框设置一个衰减函数而非彻底将其分数置为零。(Bodla N,Singh B,Chellappa R,et al.ImprovingObject Detection With One Line of Code[J].2017.)
He Y等提出了Softer-NMS算法,引入了一个反映其定位精准度的因变量。传统的Two-stage检测器进行非极大值抑制时用到的得分仅仅是分类得分,不能反映候选包围框的定位精准度。Soft-NMS和Softer-NMS算法都是通过新的置信度方法来改进非极大值抑制。(He Y,Zhang X,Savvides M,et al.Softer-nms:Rethinking bounding boxregression for accurate object detection[J].arXiv preprint arXiv:1809.08545,2018.)
Cai Z等提出了Cascade R-CNN,通过使用不同的重叠度阈值,训练了多个级联的检测器。(Cai Z,Vasconcelos N.Cascade R-CNN:Delving into High Quality ObjectDetection[J].2017.)
以上这些方法都是为了去除检测算法中冗余的检测框,但是区域生成网络等方法在提取感兴趣区域时生成的检测框数量多、不精确,非极大值抑制贪婪地选择候选区域从而导致检测精度低。因此,实现更精准的目标检测仍是一项极具挑战性的技术任务。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于深度强化学习的Faster-RCNN目标物体检测与识别方法(Deep-RL-Faster-RCNN),实现更精准的目标物体检测与识别。
Deep Q-Network(DQN)(Human-level control through deep reinforcementlearning[J].Nature,2015,518(7540):529-533.)是一种将深度学习与强化学习结合的方法,本发明采用DQN的经验池来保存每个时刻的区域建议网络状态,然后采用卷积门控循环单元(Convolutional Gated Recurrent Unit,ConvGRU)(Nicolas Ballas,Li Yao,ChrisPal,and Aaron Courville.Delving deeper into convolutional networks forlearning video representations.In ICLR,2016.)输出两个动作,并采用随机策略选择执行相应的动作,实现更精准的检测与识别,能够解决现有方法存在的精度低等问题,具有较高的识别精度。
本发明的目的是提供一种新的方法,以实现更精准的目标物体检测与识别。首先在多尺度特征提取的基础上,利用深度强化学习网络模型DQN来提取最优的候选识别区域(Region Of Interest,ROIs),并通过自定义的非极大值抑制(E-Non-MaximumSuppression,E-NMS)将目标包围框(bounding box)的预测值与标注框分别建模成指数分布函数和Delta(δ)函数,对重复的检测框进行抑制。然后采用分类网络对检测框进行分类,最后对检测框进行二次回归,完成目标物体的检测与识别。
本发明提供的技术方案如下:
一种基于深度强化学习的Faster-RCNN目标物体检测与识别方法,称为Deep-RL-Faster-RCNN目标物体检测方法,采用深度强化学习的经验池来保存每个时刻的区域生成网络状态,然后采用卷积门控循环单元输出两个动作,并采用随机策略选择执行相应的动作,同时采用自定义的非极大值抑制方法去除冗余的检测框,最后获得与标注框最接近的检测框;采用分类网络对检测框进行分类,最后对检测框进行二次回归,完成目标物体的检测与识别;包括如下步骤:
A.选取模型训练的训练图像样本Ui和测试图像样本Li;
具体实施时,从图像数据集(总数为M+N)中随机选取M张为训练图像样本集,N张为测试图像样本集;
设迭代总次数为T,从1到T每次迭代训练基于深度强化学习的Faster-RCNN目标物体检测模型,依次完成下面B-F步:
B.搭建特征提取网络模型;
采用空洞空间金字塔池化模块(Atous Spatial Pyramid Pooling,ASPP)搭建前期的特征提取网络模型,通过特征提取网络得到后续区域生成网络所需的特征图:该网络模型包含四个连续任务阶段Block1、Block2、Block3和Block4,四个连续任务阶段中包含的操作有提取局部特征,下采样,归一化处理和非线性映射,并采用了多尺度特征融合技术;网路模型由卷积层(Convolution)、池化层(Pooling)、批量规范化处理(BatchNormalization)和激活函数(Relu)组成,其中卷积层和池化层实现特征提取和下采样,批量规范化处理进行归一化,激活函数进行非线性映射,具体实现如下:
B1.构建特征提取网络模型的任务阶段Block1,对输入到特征提取网络模型(卷积神经网络模型)的训练样本通过卷积层的卷积操作、池化层的池化操作进行特征提取,并且在每一次卷积操作后进行批量规范化处理,加快网络的收敛速度,激活函数实现网络的非线性映射;
B2.构建特征提取网络模型的任务阶段Block2,采用方法同B1中构建Block1的方法;
B3.构建特征提取网络模型的任务阶段Block3,采用空洞空间金字塔池化模块,通过空洞空间金字塔池化模块将不同扩张率下的空洞卷积(Atrous convolution)生成的特征图串联起来,使得输出特征图中的神经元包含多个接受域大小,对多尺度信息进行编码,最终提高检测的性能;
B3.1采用空洞卷积而不是普通卷积来提取特征,感受野大小如式1所示,经过空洞卷积后输出的特征图的大小如式2所示,
n=k+(k-1)×(d-1) (式1)
其中n表示感受野大小,k表示卷积核大小,d表示空洞率,i表示输入图像大小,p表示填充(padding),s表示卷积步长,o表示输出特征图尺寸;
B3.2并行的采用多个扩张率的空洞卷积对输入特征图进行卷积操作提取特征,再将特征进行融合;
B4.构建特征提取网络模型的任务阶段Block4,采用方法同B3中构建Block3的方法;
B5.将Block3和Block4提取得到的图片特征进行融合,连接后得到的特征输入区域生成网络网络模型中;特征提取网络模型训练结束,得到目标检测的特征图,接下来训练目标物体检测模型;
C.将B5得到的特征图作为区域生成网络的输入,输出一系列的区域候选框提议(region proposals),每个区域候选框提议都包含一个目标分数(objectness score);区域生成网络使用全卷积网络进行建模,区域生成网络中有两个分支,分别是边框回归分支和分类分支(目标和背景二分类)。为了生成区域候选框提议,在B5得到的卷积特征图上滑动一个m×m大小的窗口,每个滑动窗口都映射到一个较低维的特征;包括如下操作:
C1.在每个滑动窗口位置,同时预测多个区域候选框提议,其中,将每个滑动窗口位置的最大可能区域候选框提议的数目记为a;a也是网络头部生成锚点的数量;
C1.1区域生成网络头部生成a个锚点(具有编号和坐标的目标包围框);
C1.1.1把特征图每个点映射回原图的感受野的中心点当成一个基准点;
C1.1.2围绕这个基准点选取a个不同的尺寸和比例的锚点;
C1.1.3对于W×H大小的卷积特征图,总共有W×H×a个锚点。
C1.1.4在每个滑动窗口位置,同时预测多个区域候选框提议,这些区域候选框提议叫做锚点。锚点位于滑动窗口中,并与比例和纵横比相关联。默认情况下,使用3个尺度和3个纵横比,在每个滑动位置上产生k=9个锚点;
C1.2针对每个锚点,有两个不同的输出:对于回归分支,每个锚点输出4个预测值(x,y,w,h),用于调整锚点的边框来得到最终的区域候选框提议;对于目标和背景的二分类分支,每个锚点输出两个预测值:锚点是背景的得分和锚点是目标的得分;
C1.3针对所有锚点划分正负样本,得到正样本锚点和负样本锚点;
C1.3.1对每个标注的目标包围框区域,与其重叠比例最大的锚点被记成正样本,设置的最大重叠比例阈值要保证每个标注的目标包围框至少对应一个正样本锚点;
C1.3.2对C1.3.1中剩余的锚点,如果其与某一个标定区域重叠比例大于0.7,记成正样本(每个标注的目标包围框可能会对应多个正样本锚点,但每个正样本锚点只可能对应一个标注的目标包围框;)如果其与任意一个标定的重叠比例都小于0.3,记成负样本;
C2.在区域生成网络中部,分类分支利用卷积层对C1中求得的锚点进行二分类,通过比较这些锚点和标注的目标包围框的重叠情况来决定那些锚点是背景,哪些锚点是目标物体;边框回归分支利用卷积层对C1得到的锚点中属于目标物体的锚点求出目标物体大致位置;
C3.在区域生成网络尾部,通过对C2中的两个分支(分类分支和边框回归分支)的结果进行汇总,实现对锚点的初步筛除(先剔除越界的锚点)和初步偏移(根据边框回归分支的结果),此时输出的目标包围框都被称为区域候选框提议;
D.采用深度学习与强化学习结合的方法(DQN方法),通过设置经验回放机制获取最优的检测框;包括如下操作:
D1.通过DQN经验回放机制,将不同时刻的区域生成网络生成检测框过程构成一个记忆序列;
D2.采用卷积门控循环单元输出两通道的动作,采用卷积代替门控循环单元中的完全连接的组件得到卷积门控循环单元;
D2.1将DQN的基本状态(其中包括边界框回归、锚点分类、特征图、随着时间的推移累积的特定类别的检测框)、候选识别区域观测量和卷积门控循环单元的隐层状态Ht作为DQN的状态;具体包括如下操作:
D2.1.1区域生成网络获得的关于边框回归分支的预测结果作为DQN的基本状态;
D2.1.2将区域生成网络获得的关于分类分支带的预测结果作为DQN的基本状态;
D2.1.3B3和B4的Block3和Block4进行融合操作后输出的特征图作为DQN的基本状态;
D2.1.4随着时间的推移累积的特定类别(每个目标包围框都与内部物体(例如狗,猫,汽车)的类别相关联)的检测框作为DQN的基本状态;
D2.1.5卷积门控循环单元的隐层状态Ht作为DQN的状态;
D2.1.6区域生成网络预测的候选识别区域的观测量作为DQN的状态;本发明保持候选识别区域的观测量是一个二维量,大小为h×w×k;候选识别区域的观测量初始化为全0,当且仅当对应位置的候选识别区域被选中并输入到候选识别区域池化层和分类层时,此框中所有的位置被设定为1,指示这个候选识别区域已经被选择;
D2.2卷积门控循环单元学习搜索策略;
D2.2.1DQN的基本状态输入到卷积门控循环单元中,其中DQN的基本状态包括特征图、区域生成网络中分类分支和回归分支的输出和搜索策略已经观测到的历史;
D2.2.2卷积门控循环单元之前的隐层状态Ht状态输入到卷积门控循环单元中;
D2.3卷积门控循环单元的输出对应两个动作,为DQN的固定层动作和结束层动作;
D2.3.1结束层动作是二进制的,其中结束层动作为1时对应于终止搜索;
D2.3.2如果结束层动作为0,则发出固定层动作,一部分候选识别区域将会被更新;
D2.3.3使用参数随机策略πθ对行动进行采样,固定层动作采用softmax逻辑回归函数将其转换为概率图形式;
D3.1在每个时间步长t,代理根据其随机策略πθ决定是否终止搜索,只要搜索还没有结束,就发出固定层动作并访问新的位置;
D3.2候选识别区域观测量在以D3.1中的新的位置为中心的区域中更新;
D3.3所有相应的候选识别区域都会发送到候选识别区域池化层模块,然后进行分类,同时再次进行边界框回归操作获得检测框的精确位置;
D3.4将某一特定类别的概率向量插入到DQN基本状态中。基于新状态,采取新动作,并重复该过程,直到发出结束层动作,然后收集整个轨迹中的所有选定候选识别区域;
D4.保留历史过程中生成的高精度的候选识别区域,去除精度低的候选识别区域;
D4.1采用自定义的E-NMS预测目标包围框,自定义的E-NMS将目标包围框的预测值与标注框分别建模成指数分布函数和Deltaδ函数,通过相对熵来度量二者分布的相似性;
D4.2.1将自定义的E-NMS应用于已分类的候选识别区域,以在该位置获得最显着的信息;
D4.2.2对尚存的候选识别区域最终的目标包围框预测,将它们映射到与特定类别相关联的类别概率向量中;
D4.2.3使用D4.2.2中得到的这些类别概率向量作为移动平均值来更新这些位置处的特定类别相关联的检测框;
E.将卷积门控循环单元的输出通过线性分类器决定终止的概率;
F.根据奖励函数在测试集上的测试结果,不断的调整优化整个目标检测模型参数;
F1为每个固定层动作给出一个小的负奖励-β;
F2对于当前图像的任何标记框示例,代理也获得了针对固定层动作的正奖励,产生更高的交并比(intersection-overunion,IoU);
F3终止后,代理收到反映搜索轨迹质量的最终奖励。
通过上述步骤,完成迭代训练基于深度强化学习的Faster-RCNN目标物体检测模型;
得到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型。
G.将待检测的目标物体图像输入到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型,输出检测框以及每个检测框的类别标签和类别标签的概率,即实现基于深度强化学习的Faster-RCNN的目标物体检测。
与现有技术相比,本发明的有益效果包括:
本发明提供了一种基于深度强化学习的Faster-RCNN目标物体检测方法—Deep-RL-Faster-RCNN方法:采用空洞空间金字塔池化模块进行多尺度特征提取,并且采用将特征进行融合来避免因逐层卷积和池化操作造成的空间分辨率低的问题;然后基于DQN构建序列区域生成网络来选择最优的候选识别区域,最后采用自定义的E-NMS算法去除冗余的检测框。本发明经实验证明,其优点是定位准确、检测精度高。
附图说明
图1是本发明提供的基于深度强化学习的Faster-RCNN目标物体检测方法Deep-RL-Faster-RCNN方法的流程框图。
图2是本发明具体实施时不同的IOU阈值Faster-RCNN和Deep-RL-Faster-RCNN的map对比曲线图。
图3是发明Deep-RL-Faster-RCNN方法具体实施时,区域生成网络分类的loss损失函数曲线图。
图4是本发明Deep-RL-Faster-RCNN方法具体实施时,区域生成网络回归loss损失函数曲线图。
具体实施方式
下面结合附图,通过实例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供的基于深度强化学习的Faster-RCNN目标物体检测方法流程如图1所示。具体实施时,本发明方法包括如下步骤:
1)将PASCALVOC2007图像数据集分为模型训练样本Ui和测试样本Li;
设迭代总次数为T,从1到T每次迭代训练依次完成下面2)-10)步:
2)对输入的训练样本通过CNN分类网络模型的卷积、池化操作进行特征提取,并且在每一次卷积操作后进行批量规范化处理,加快CNN分类网络模型的收敛速度;
3)对输入的训练样本通过空洞空间金字塔池化模块进行多尺度特征提取,并进行特征融合;
4)将融合后的特征图输入进区域生成网络网络得到边框回归分支的预测结果和分类分支的预测结果;
5)将DQN的基本状态(其中包括边界框回归、锚点分类、特征图)、候选识别区域观测量和卷积门控循环单元的隐层状态Ht作为DQN的状态;
特征图提取的好坏对检测精度具有重要的影响,区域生成网络的关键是在特征图上生成候选识别区域、候选识别区域为确定保留的检测框并通过候选识别区域池化层处理后进行分类和检测框二次回归,搜索策略影响输出的动作,进而影响到生成的检测框。这几个指标在目标检测过程中是至关重要的,因此本发明选取这几个指标作为状态,如下公式1所示:
(feature,clsRPN,regRPN,ROIs,Ht) (式1)
其中feature表示特征图,clsRPN表示区域生成网络对锚点的分类,regRPN表示区域生成网络对目标包围框的坐标回归,ROIs表示区域生成网络生成得送入候选识别区域池化层的感兴趣区域,Ht表示t时刻卷积门控循环单元的隐层。
6)将基本状态输入卷积门控循环单元单元学习搜索策略;
门控循环单元因其可以灵活控制长短距离的依赖信息的优势而常被用来处理序列数据。本发明采用卷积门控循环单元输出固定层动作和结束层动作。卷积门控循环单元输入输出公式如下公式2-公式7所示:
Ot=σ[Wso*St+Who*Ht-1+bo] (式2)
Zt=σ[Wsz*St+Whz*Ht-1+bz] (式4)
其中,St表示卷积门控循环单元在t时刻基本状态,Ht-1表示卷积门控循环单元的t-1时刻的隐层,At表示两通道的动作向量,输入输出为h×w,*表示卷积,×表示元素相乘,W表示权重,b表示偏置,σ[·]表示logistic sigmoid函数,Zt表示t时刻更新门的状态,Ot表示t时刻重置门输出。
动作包括结束层动作和固定层动作采用随机策略πθ(at|st)进行选择。被线性地调整为25x25的形状,用向量dt表示,对应的终止状态概率如下公式8所示;固定层的通过采用softmax函数将其转换为概率图在st状态下,固定层zt的概率如下公式9所示。
其中st表示t时刻的基本状态,at表示t时刻的行为,ωd表示权重。
8)选择固定点Fixation,将其对应的候选识别区域输入特定类别的预测器,并采用E-NMS预测目标包围框;
本发明提出一种新的NMS算法,即E-NMS。该算法首先将目标包围框的预测值与标注框分别建模成指数分布函数和Deltaδ函数,分别如公式10-11所示;通过KL距离来度量二者分布的相似性,如公式12所示:
PD(x)=δ(x-xg) (式11)
其中,θ表示可学习的参数,xe表示偏移后的预测框,xg表示标注框,λ表示对检测框位置估计的不确定性。
在执行完Fix-Action后得到的检测框B,将B与其余检测框Bi进行IOU计算,阈值大于设定阈值的,采用公式13求得各自得置信度,然后进行加权平均。
其中,pi表示第i个框的概率,λ表示公式(14)指数分布的标准差。
加权平均后计算的检测框的坐标如公式14所示:
其中,pi表示第i个bbox的置信度,x表示加权平均后的bbox坐标,xi表示第i个bbox的坐标。
9)将At通过线性分类器决定终止的概率;
10)根据奖励函数在测试集上的测试结果,不断的调整优化模型参数;
两种动作对分别对应的奖励函数如公式15和公式16所示:
其中,rt f表示在t时刻动作下产生的奖励,IOU表示当前预测图像与标注实例的重叠程度,τ表示阈值,-β表示负向奖励函数,ri d表示动作结束产生的奖励。
以下实施案例采用PASCALVOC2007数据集,包括21类别,共9963张图片。实验在公共数据集PASCALVOC2007上进行试验。实验过程中,设置训练集8000张,测试机1963张。迭代次数30000次,学习效率初始值为0.001,然后每迭代1000次,学习效率按0.1进行衰减,动量项为0.9,每次批量处理8张图片。
本发明采用Faster-RCNN作为基线模型进行对比,Faster-RCNN训练过程中,分别采用三种方法,第一种方法是采用传统的区域生成网络生成候选识别区域,第二种方法是采用Deep-RL-Faster-RCNN的参数优化Faster-RCNN的检测参数,第三种方法是采用所有的候选识别区域。Deep-RL-Faster-RCNN方法的训练过程中,分别采用四种方法,第一种方法是采用自适应停止模型方法,第二种方法是采用自适应停止模型以及使用特定类别的历史值来指导策略的搜索过程,而不用于后面的概率调整;第三种方法是采用Fixaction方法,并且使用特定类别的历史值来指导策略的搜索过程,而不用于后面的概率调整;第四种方法是采用Fixaction方法,不用历史值指导策略的搜素过程。采用不同方法的实验结果如表1所示。
表1Faster-RCNN与Deep-RL-Faster-RCNN对比实验结果
通过表1可以看出,通过不同模型,不同方法对比,可以看出Deep-RL-Faster-RCNN模型比Faster-RCNN算法提高了1.9%。
采用不同的NMS的对比实验结果如表2所示。
表2Faster-RCNN和Deep-RL-Faster-RCNN对比实验结果表
通过表2可以看出,采用不同的NMS对实验室结果有一定的影响,当采用KL-Loss来定义目标包围框预测的损失函数,并且采用加权平均方法时,效果更优。Faster-RCNN和Depp-RL-Faster-RCNN采用E-NMS方法均取得了较好的检测结果。
目标检测时,非极大值抑制方法的阈值范围的设置对检测精度有一定的影响,本发明设置不同的IOU阈值来对比Faster-RCNN和Deep-RL-Faster-RCNN,结果如图2所示。通过图2可以看出虽然设置不同的IOU阈值,但是本发明提出的方法的检测精度始终高于Faster-RCNN。通过对比可以看出,本发明提出的方法可行性较高。
Deep-RL-Faster-RCNN训练过程中,区域生成网络对锚点分类的Loss损失函数和对目标包围框回归的Loss损失函数变化情况分别如图3、4所示,通过图3和图4可以看出,随着迭代次数的增加,模型收敛,说明设计的模型稳定。
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于深度强化学习的Faster-RCNN目标物体检测方法,采用深度强化学习的经验池保存每个时刻的区域生成网络RPN模型的状态,采用卷积门控循环单元输出两个动作,采用随机策略选择执行相应的动作,同时采用自定义的非极大值抑制方法去除冗余的检测框,获得与标注框最接近的检测框;采用分类网络对检测框进行分类,对检测框进行二次回归,实现对目标物体的检测与识别;包括如下步骤:
A.选取模型训练的训练图像样本Ui和测试图像样本Li;
设迭代总次数为T,从1到T每次迭代训练依次执行步骤B-F:
B.采用空洞空间金字塔池化模块搭建特征提取网络模型:
特征提取网络模型包含四个连续任务阶段:Block1、Block2、Block3和Block4,每个阶段均包含提取局部特征、下采样、归一化处理和非线性映射四个操作,并采用多尺度特征融合技术;网路模型包括卷积层、池化层、批量规范化处理和激活函数,其中卷积层和池化层用于实现特征提取和下采样,批量规范化处理用于进行归一化,激活函数用于进行非线性映射;
C.将一个任意尺度的图片特征作为区域生成网络模型的输入,输出一系列的区域候选框提议,每个区域候选框提议均包含一个目标分数;
使用全卷积网络进行建模区域生成网络模型;为生成区域候选框提议,在步骤B得到的卷积特征图上滑动一个m×m大小的窗口,每个滑动窗口都映射到一个较低维的特征;
包括如下操作:
C1.在每个滑动窗口位置,同时预测多个区域候选框提议,其中每个滑动窗口位置的最大可能区域候选框提议的数目表示为a;
C1.1区域生成网络头部生成a个锚点;
C1.2对于回归分支,每个锚点输出4个预测值,分别为:x,y,w,h,用于调整锚点的边框来得到最终的区域候选框提议;对于目标和背景的二分类分支,每个锚点输出两个预测值:锚点是背景的得分和锚点是目标的得分;
C1.3针对所有锚点划分正负样本,得到正样本锚点和负样本锚点;
C2.在区域生成网络中部,分类分支对C1中求得的锚点进行二分类,通过比较锚点和标注的目标包围框的重叠情况识别锚点是背景或是目标物体;边框回归分支利用卷积层对C1得到的锚点中属于目标物体的锚点求出目标物体位置;
C3.在区域生成网络尾部,通过分类分支和边框回归分支的结果实现对锚点的初步筛除和初步偏移,此时输出的目标包围框均称为区域候选框提议;
D.采用深度学习与强化学习结合的DQN方法,通过设置经验回放机制获取最优的检测框;包括如下操作:
D1.通过DQN方法的经验回放机制,将不同时刻的区域生成网络生成检测框过程构成一个记忆序列;
D2.采用卷积门控循环单元输出两通道的动作,采用卷积代替门控循环单元中的完全连接的组件得到卷积门控循环单元;包括:
D2.1将边界框回归、锚点分类、特征图、候选识别区域和搜索策略的隐层状态Ht作为DQN的基本状态;
D2.2卷积门控循环单元学习搜索策略;包括:
D2.2.1将DQN的基本状态输入到卷积门控循环单元中,其中DQN的基本状态包括特征图、区域生成网络中分类分支和回归分支的输出和搜索策略已经观测到的历史;
D2.2.2将卷积门控循环单元之前的隐层状态Ht状态输入到卷积门控循环单元中;
D2.3卷积门控循环单元的输出为两个动作:DQN的固定层动作和结束层动作;
结束层动作为二进制;当结束层动作为1时终止搜索;当结束层动作为0,则发出固定层动作,更新一部分候选识别区域;使用参数随机策略πθ对行动进行采样,固定层动作采用softmax逻辑回归函数将其转换为概率图形式;
D3.1在每个时间步长t,根据随机策略πθ决定是否终止搜索;进行搜索中发出固定层动作并访问新的位置;
D3.2候选识别区域观测量以新的位置为中心的区域中更新;
D3.3所有相应的候选识别区域均发送到候选识别区域池化层模块,进行分类和特定类别的目标包围框偏移量预测;
D3.4将特定类别的概率向量插入到DQN基本状态中;
基于新状态采取新动作,并重复该过程,直到发出结束层动作;再收集整个轨迹中的所有选定候选识别区域;
D4.保留历史过程中生成的高精度的候选识别区域,去除精度低的候选识别区域;包括:
D4.1采用自定义的非极大值抑制E-NMS预测目标包围框;自定义的E-NMS将目标包围框的预测值与标注框分别建模成指数分布函数和Deltaδ函数,通过相对熵来度量二者分布的相似性;
D4.2.1将自定义的E-NMS应用于已分类的候选识别区域,在该位置获得最显着的信息;
D4.2.2对尚存的候选识别区域最终的目标包围框预测,将它们映射到与特定类别相关联的类别概率向量;
D4.2.3使用D4.2.2中得到的类别概率向量作为移动平均值,更新这些位置处的特定类别相关联的检测框;
E.将卷积门控循环单元的输出通过线性分类器确定终止的概率;
F.根据奖励函数在测试集上的测试结果,不断的调整优化模型参数;包括:
F1为每个固定层动作给出一个小的负奖励-β;
F2对于当前图像的任何标记框示例,获得针对固定层动作的正奖励,产生更高的交并比;
F3终止后,收到反映搜索轨迹质量的最终奖励;
通过上述步骤,完成迭代训练基于深度强化学习的Faster-RCNN目标物体检测模型,得到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型;
G.将待检测的目标物体图像输入到训练好的基于深度强化学习的Faster-RCNN目标物体检测模型,输出目标物体的分类,即实现基于深度强化学习的Faster-RCNN的目标物体检测。
2.如权利要求1所述基于深度强化学习的Faster-RCNN目标物体检测方法,其特征是,步骤B搭建特征提取网络模型,具体为:
B1.构建特征提取网络模型的任务阶段Block1,对输入到特征提取网络模型的训练样本通过卷积层的卷积操作、池化层的池化操作进行特征提取,并且在每一次卷积操作后进行批量规范化处理,加快网络的收敛速度,激活函数实现网络的非线性映射;
B2.采用同B1中构建Block1的相同方法,构建特征提取网络模型的任务阶段Block2;
B3.构建特征提取网络模型的任务阶段Block3,采用空洞空间金字塔池化模块,通过空洞空间金字塔池化模块将不同扩张率下的空洞卷积生成的特征图串联起来,使得输出特征图中的神经元包含多个接受域大小,对多尺度信息进行编码,最终提高检测的性能;包括:
B3.1采用空洞卷积提取特征,感受野大小如式1所示,经过空洞卷积后输出的特征图的大小如式2所示,
n=k+(k-1)×(d-1) (式1)
其中,表示感受野大小,k表示卷积核大小,d表示空洞率,i表示输入图像大小,p表示填充;s表示卷积步长,o表示输出特征图尺寸;
B3.2采用多个扩张率的空洞卷积对输入特征图并行地进行卷积操作提取特征,再将特征进行融合;
B4.采用同B3中构建Block3的相同方法,构建特征提取网络模型的任务阶段Block4;
B5.将Block3和Block4提取得到的图片特征进行连接,将连接后得到的特征输入区域生成网络网络模型中;
即完成特征提取网络模型的训练,得到目标检测的特征图。
3.如权利要求1所述基于深度强化学习的Faster-RCNN目标物体检测方法,其特征是,步骤C1.3针对所有锚点划分正负样本;具体为:
C1.3.1对每个标注的目标包围框区域,将与其重叠比例最大的锚点记成正样本,设置最大重叠比例阈值,使得每个标注的目标包围框至少对应一个正样本锚点;
C1.3.2对C1.3.1中剩余的锚点,如果其与某一个标定区域重叠比例大于0.7,识别为正样本;每个标注的目标包围框可能会对应多个正样本锚点,但每个正样本锚点只可能对应一个标注的目标包围框;如果其与任意一个标定的重叠比例都小于0.3,则识别为负样本。
4.如权利要求1所述基于深度强化学习的Faster-RCNN目标物体检测方法,其特征是,步骤D2.1将边界框回归、锚点分类、特征图、候选识别区域和搜索策略的隐层状态Ht作为DQN的基本状态;包括:
D2.1.1将区域生成网络获得的关于边框回归分支的预测结果作为DQN的基本状态;
D2.1.2将区域生成网络获得的关于分类分支带的预测结果作为DQN的基本状态;
D2.1.3将步骤B的Block3和Block4提取得到的图片特征进行融合操作后输出的特征图作为DQN的基本状态;
D2.1.4将随着时间的推移累积的特定类别的检测框作为DQN的基本状态;
D2.1.5将卷积门控循环单元的隐层状态Ht作为DQN的状态;
D2.1.6将区域生成网络预测的候选识别区域的观测量作为DQN的状态。
5.如权利要求4所述基于深度强化学习的Faster-RCNN目标物体检测方法,其特征是,候选识别区域的观测量是一个二维量,大小为h×w×k;候选识别区域的观测量初始化为全0,当且仅当对应位置的候选识别区域被选中并输入到候选识别区域池化层和分类层时,将框中所有的位置设定为1,即表示该候选识别区域被选中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010269277.XA CN111476302B (zh) | 2020-04-08 | 2020-04-08 | 基于深度强化学习的Faster-RCNN目标物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010269277.XA CN111476302B (zh) | 2020-04-08 | 2020-04-08 | 基于深度强化学习的Faster-RCNN目标物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476302A CN111476302A (zh) | 2020-07-31 |
CN111476302B true CN111476302B (zh) | 2023-03-24 |
Family
ID=71750739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010269277.XA Active CN111476302B (zh) | 2020-04-08 | 2020-04-08 | 基于深度强化学习的Faster-RCNN目标物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476302B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914949B (zh) * | 2020-08-20 | 2021-06-11 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于强化学习的零样本学习模型的训练方法及装置 |
CN112101556B (zh) * | 2020-08-25 | 2021-08-10 | 清华大学 | 识别与去除环境观测量中冗余信息的方法及装置 |
CN112037219B (zh) * | 2020-09-27 | 2024-01-26 | 上海电力大学 | 一种基于两阶段卷积神经网络的金属表面缺陷检测方法 |
CN112183362B (zh) * | 2020-09-29 | 2021-12-17 | 广西科技大学 | 一种基于深度学习的ssd人脸检测方法 |
CN112329827B (zh) * | 2020-10-26 | 2022-08-23 | 同济大学 | 一种基于元学习的增量小样本目标检测方法 |
CN112418334B (zh) * | 2020-11-26 | 2021-08-06 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路动车裙板格栅变形故障识别方法 |
CN112674381A (zh) * | 2020-12-07 | 2021-04-20 | 红塔烟草(集团)有限责任公司 | 一种烟梗梗头剔除装置及方法 |
US11113574B1 (en) * | 2021-03-26 | 2021-09-07 | StradVision, Inc. | Methods for performing self-supervised learning of deep-learning based detection network by using deep Q-network and devices using the same |
CN113177486B (zh) * | 2021-04-30 | 2022-06-03 | 重庆师范大学 | 基于区域建议网络的蜻蜓目昆虫识别方法 |
CN113269734B (zh) * | 2021-05-14 | 2023-04-07 | 成都市第三人民医院 | 一种基于元学习特征融合策略的肿瘤图像检测方法及装置 |
CN113591617B (zh) * | 2021-07-14 | 2023-11-28 | 武汉理工大学 | 基于深度学习的水面小目标检测与分类方法 |
CN113591735A (zh) * | 2021-08-04 | 2021-11-02 | 上海新纪元机器人有限公司 | 一种基于深度学习的行人检测方法及系统 |
CN113936136A (zh) * | 2021-09-24 | 2022-01-14 | 西安电子科技大学 | 基于深度学习融合通道混洗的红外目标检测方法 |
CN113807463B (zh) * | 2021-09-28 | 2023-10-17 | 中电万维信息技术有限责任公司 | 一种基于Faster-RCNN对BI图标题检测的方法 |
CN114283282A (zh) * | 2021-12-23 | 2022-04-05 | 江西中科智鹏物联科技有限公司 | 一种特征层敏感的二阶段邻居非极大值抑制方法 |
CN116128954B (zh) * | 2022-12-30 | 2023-12-05 | 上海强仝智能科技有限公司 | 一种基于生成网络的商品布局识别方法、装置及存储介质 |
CN116843907B (zh) * | 2023-06-26 | 2024-02-13 | 中国信息通信研究院 | 基于深度学习的增强和目标检测方法和系统 |
CN116750370A (zh) * | 2023-08-10 | 2023-09-15 | 四川省机械研究设计院(集团)有限公司 | 一种社区厨余垃圾分类处理方法、设备、介质及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018032078A (ja) * | 2016-08-22 | 2018-03-01 | Kddi株式会社 | 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法 |
CN110084245A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院自动化研究所 | 基于视觉注意机制强化学习弱监督图像检测方法、系统 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110428413A (zh) * | 2019-08-02 | 2019-11-08 | 中国科学院合肥物质科学研究院 | 一种用于灯诱设备下的草地贪夜蛾成虫图像检测方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
-
2020
- 2020-04-08 CN CN202010269277.XA patent/CN111476302B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018032078A (ja) * | 2016-08-22 | 2018-03-01 | Kddi株式会社 | 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110084245A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院自动化研究所 | 基于视觉注意机制强化学习弱监督图像检测方法、系统 |
CN110428413A (zh) * | 2019-08-02 | 2019-11-08 | 中国科学院合肥物质科学研究院 | 一种用于灯诱设备下的草地贪夜蛾成虫图像检测方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
Non-Patent Citations (2)
Title |
---|
基于人类视觉机制的层级偏移式目标检测;秦升等;《计算机工程》;20170712(第06期);全文 * |
基于视觉注意机制深度强化学习的行人检测方法;马技等;《中国科技论文》;20170723(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476302A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476302B (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN114092820B (zh) | 目标检测方法及应用其的移动目标跟踪方法 | |
CN107609525B (zh) | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 | |
CN109671102B (zh) | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
KR102328734B1 (ko) | 이미지를 분석하기 위해, 딥러닝 네트워크에 이용하기 위한 트레이닝 이미지에 대한 라벨링 신뢰도를 자동으로 평가하기 위한 방법 및 이를 이용한 신뢰도 평가 장치 | |
CN112489081B (zh) | 一种视觉目标跟踪方法及装置 | |
CN110458022B (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN111860823B (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN112131944B (zh) | 一种视频行为识别方法及系统 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN111241987B (zh) | 基于代价敏感的三支决策的多目标模型视觉追踪方法 | |
CN114639122A (zh) | 一种基于卷积生成对抗网络的姿态修正行人再识别方法 | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN115775220A (zh) | 使用多个机器学习程序检测图像中的异常的方法和系统 | |
CN113129332A (zh) | 执行目标对象跟踪的方法和装置 | |
CN118279320A (zh) | 基于自动提示学习的目标实例分割模型建立方法及其应用 | |
CN117765432A (zh) | 一种基于动作边界预测的中学理化生实验动作检测方法 | |
CN117274355A (zh) | 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法 | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
CN114972434B (zh) | 一种级联检测和匹配的端到端多目标跟踪系统 | |
CN116206201A (zh) | 一种监督目标检测识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |