CN112163667A - 新型Faster R-CNN网络模型及其训练方法 - Google Patents
新型Faster R-CNN网络模型及其训练方法 Download PDFInfo
- Publication number
- CN112163667A CN112163667A CN202010973172.2A CN202010973172A CN112163667A CN 112163667 A CN112163667 A CN 112163667A CN 202010973172 A CN202010973172 A CN 202010973172A CN 112163667 A CN112163667 A CN 112163667A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- layer
- len
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000011176 pooling Methods 0.000 claims description 34
- 230000008859 change Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 33
- 230000008569 process Effects 0.000 description 18
- 230000036544 posture Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 241000219000 Populus Species 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- PUAQLLVFLMYYJJ-UHFFFAOYSA-N 2-aminopropiophenone Chemical compound CC(N)C(=O)C1=CC=CC=C1 PUAQLLVFLMYYJJ-UHFFFAOYSA-N 0.000 description 1
- 206010010071 Coma Diseases 0.000 description 1
- 241000063973 Mattia Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 208000028752 abnormal posture Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了新型Faster R‑CNN网络模型及其训练方法,网络模型包括:VGG16深度卷积神经网络层和RPN网络层,其分别用于对传入的图像进行多次卷积操作并生成特征提取图像和用于获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息;本方案以VGG16深度卷积神经网络作为基础网络能够保证检测精度和高效率;而RPN网络层取代了传统的全连接层,运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小图像的局限性,该RPN网络层用来判别图像的背景和物体信息及回归物体所在位置信息更为高效;相比传统的物体检测网络,本方案能够避免全连接层带来的应用限制,大幅提升网络的适用性能,具有端到端的检测特性。
Description
技术领域
本发明涉及网络模型技术领域,尤其涉及新型Faster R-CNN网络模型及其训练方法。
背景技术
Fast R-CNN是一个基于区域的目标检测的算法模型,其在视频监控、车辆检测识别和控制电梯等设备运行方面均有应用,而且国内在相关方面的研究学者也在积极对FastR-CNN进行深入研究,例如,Delong Zhu等提出结合optical character recognition(OCR)网络和Faster r-cnn网络应用于关于电梯面板按钮的识别已有了较好的成效;MattiaFrasc等应用基于C-PG感知反馈的卷积神经网络控制电梯运行速度;Kh Tohidul Islam等提出一种混合图像分类模型,有效提升电梯按钮和楼层号的识别准确率;Du Qilian等提出一种基于Adaboost的多目标视频监控方法,该方法能够准确、稳定地跟踪乘客和目标,其以每秒36帧速度处理图像,跟踪准确率达到94%以上。而在其他方面Faster RCNN也有很好的应用及成效。Sun,Xudong等结合了特征串联、多尺度训练、模型预训练和关键参数标定等策略,改进Faster RCNN框架,使其成为FDDB平台上ROC曲线最好的模型;J.Sang等通过将Faster R-CNN结合VGG16、ResNet-101和ZF三种卷积神经网络的策略,使车辆检测识别率达到91.3%;杨薇等应用k-means算法和多尺度策略于Faster R-CNN中,使其检测识别准确达到了82.20%,速率为每张照片耗时0.03875s;Hailiang Li等在样本数据量小的情况下,通过将浅卷积层和深卷积层的特征映射连接起来改进Faster R-CNN,以提高提取详细特征的能力;李晓光等基于Faster R-CNN的基础上,提出一种多尺度目标检测算法,解决目标尺度差异较大问题。
自动扶梯(以下简称扶梯)是频繁启动、长期负载运行的机电设备,属于涉及生命安全、危险性较大的特种设备,行业壁垒高。扶梯广泛应用于地铁、商场、医院等人流量巨大的公共场所,具有频繁运行、负载动态不断变化等复杂性特点,容易促发故障引发安全事故。政府、媒体和市民高度关注扶梯安全运行问题。目前,我国拥有100多万台扶梯,城市化建设不断推进,扶梯持续增多,儿童玩耍被卷入扶梯、老人搭乘摔倒等事故时有发生。2015年湖北荆州“7.26”自动扶梯事故仍然历历在目。扶梯乘客在跌倒意外出现时,若能及时做出相应的保护措施,则可有效减少事故的伤害。然而,传统的扶梯检测局限于诸如梯级变形、电气安全装置失效等对当时运行状态进行安全检测,无法对扶梯正常运行状态下的乘客危险姿态可能会造成安全事故做出预测。因此,随着扶梯越来越广泛的应用,实现一种快速检测如人体跌倒等危险乘梯姿态的技术手段已迫在眉睫。
为此,鉴于Faster R-CNN框架的应用有效性,拟通过改进深度神经网络Faster R-CNN来对扶梯乘客的异常位姿做出实时检测,预测乘客即将面临的风险。
发明内容
有鉴于此,本发明的目的在于提出一种检测效率高、精度可靠且能够实时处理和预测乘客即将面临风险的新型Faster R-CNN网络模型及其训练方法。
为了实现上述的技术目的,本发明所采用的技术方案为:
新型Faster R-CNN网络模型,包括:
VGG16深度卷积神经网络层,其用于对传入的图像进行多次卷积操作,并生成特征提取图像;
RPN网络层,其用于获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
作为一种可能的实施方式,进一步,所述的RPN网络层包括:
Cls_layer层,其用于获取特征提取图像并判别该特征提取图像中的背景和物体;
Reg_layer层,其用于获取特征提取图像和回归该特征提取图像中物体所在的位置信息。
作为一种可能的实施方式,进一步,所述的VGG16深度卷积神经网络层包括N个卷积层和设置在N个卷积层对应下一级的N个池化层,其中,卷积层在卷积操作后均将数据输送至对应的池化层进行池化操作,另外,N≥1。
基于上述得网络模型,本方案还提供了该新型Faster R-CNN网络模型的训练方法,其包括如下步骤:
S1,输入原始图像,然后通过VGG16深度卷积神经网络对图像进行多次卷积操作和池化操作,获得预设规格的特征提取图像;
S2,RPN网络获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
作为一种可能的实施方式,进一步,所述的原始图像包括从视频流中拆分成的帧图像。
作为一种可能的实施方式,进一步,步骤S1具体包括如下步骤:
S1.1,输入原始图像;
S1.2,对输入的图像进行第一次卷积,通过定义64个规格为3×3大小的卷积核对输入的原始图像进行两次卷积操作,使输入的原始图像维度变为intlen×intlen×64,令其在图像原大小不变的情况下,深度信息变成64,然后经过一次池化操作后,池化图像维度变为原图intlen×intlen×64,其长宽大小变为原始图像的二分之一;
S1.3,进行第二次卷积,通过定义128个规格为3×3大小的卷积核对步骤S12生成的图像进行两次卷积操作,使图像在大小不变的情况下,深度信息变为128,然后经过一次池化操作后,池化图像长宽大小变为原始图像的四分之一;
S1.4,进行第三、四、五次卷积,其均通过定义512个规格为3×3大小的卷积核,分别进行三次卷积操作和一次池化操作后,使池化图像在大小不变的情况下,深度变成512,第三、四、五次卷积的卷积操作后,经过一次池化操作,获得的池化图像得长宽大小分别变为原始图像的八分之一、十六分之一、三十二分之一。
作为一种较优的实施选择,优选的,步骤S1中VGG16深度卷积神经网络均采用3x3规格的卷积核对输入的原始图像进行特征提取操作,其中,定义滑移步长为1,通过遍历的方式让卷积核在原始图像上进行滑移,每次滑移步长为1,其公式为:
outlen=[Intlen-filterlen+1]/stride
其中,Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
作为一种可能的实施方式,进一步,步骤S2中,RPN网络层获取特征图像后的具体操作步骤如下:
S2.1,采用3*3大小的卷积核再次对特征图像进行卷积操作,卷积核数目为512;
S2.2,采用特征图像中的每个像素点为中心形成锚点,以预设尺寸和长宽比例的矩形框进行选取的方式来选取候选框;
S2.3,RPN网络层中的Cls_layer层对选取出来的总候选框个数进行判别,得到该候选框内的是背景还是对象的分数;RPN网络层中的Reg_layer层对选取出来的总候选框个数进行回归操作,用来提取出对象在原始图像中所对应的位置关系。
作为一种较优的实施选择,优选的,步骤S2.2中,矩形框的指定初始基本固定尺寸为128x、256px或512px,其长宽比例为0.5、1或1.5,且该基本固定尺寸和长宽比例的形成9个组合,其计算公式为:
num=len(anchor_scales)·len(anchor_ratios),
其中,len(anchor_scales)为固定尺寸个数,len(anchor_ratio)为比例尺寸个数。
作为一种可能的实施方式,进一步的,经过步骤S2处理过的一副图片可得到的候选框个数可由特征图的宽度、特征图的长度和单个锚点可生成的矩形框个数的乘积求得,具体公式如下:numc=W×H×k,其中,W为特征图的宽度,H为特征图的长度,K为单个锚点可生成的矩形框个数;
作为一种较优的实施选择,优选的,步骤S2.3中,
Cls_layer层采用1×1的卷积核对候选框进行全卷积操作,卷积核个数为2k个,其用于输出预设个深度的特征图图像,将其重新定义为深度仅为2个深度的图像,得到每个候选框内背景的概率分数和对象的概率分数;
Reg_layer层以1×1的卷积核对候选框进行卷积操作,卷积核个为4k个,其用于对选取出的总候选框个数进行回归操作,以提取出对象在原始图像中所对应的位置关系。
在上述的网络模型和对应的训练方法基础上,本方案提供了将其用于自动扶梯乘客异常位姿的检测中,其具体为:
一种自动扶梯乘客异常位姿的检测,其包括上述的新型Faster R-CNN网络模型,且该新型Faster R-CNN网络模型包括上述所述的训练方法。
采用上述的技术方案,本发明与现有技术相比,其具有的有益效果为:
(1)本方案以VGG16深度卷积神经网络作为Faster R-CNN的基础网络,一方面能够保证检测精度,另一方面与Restnet及更高层次的inception网络相比,本方案更为高效;
(2)本方案的VGG16深度卷积神经网络主要由卷积网络为基础的多个卷积层和池化层组成,对所传入的图像进行多次卷积操作,是图像提取特征数据的过程;而第二部分RPN网络层取代了传统的全连接层,运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小的图像的局限性,该RPN网络层用来判别图像的背景和物体信息及回归物体所在位置信息更为高效;
(3)相比传统的物体检测网络,本方案的Faster R-CNN网络模型能够避免全连接层带来的应用限制,大幅地提升网络的适用性能,具有端到端的检测特性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明Faster R-CNN网络模型的简要网络结构图;
图2是本发明Faster R-CNN网络模型的简要操作原理结构图;
图3是本发明Faster R-CNN网络模型中,VGG16深度卷积神经网络的简要示意图;
图4为本发明Faster R-CNN网络模型用于自动扶梯的检测时的简要系统框架图;
图5为本发明Faster R-CNN网络模型用于自动扶梯乘客检测的简要流程图;
图6为本发明Faster R-CNN神经网络检测乘客跌倒结果图;
图7为本发明Faster R-CNN神经网络检测小孩跌倒结果图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1至图3之一所示,图1示出了的本方案Faster R-CNN网络模型的简要网络结构图,本方案新型Faster R-CNN网络模型,包括:
VGG16深度卷积神经网络层,其用于对传入的图像进行多次卷积操作,并生成特征提取图像;
RPN网络层,其用于获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
其中,作为一种可能的实施方式,进一步,所述的RPN网络层包括:
Cls_layer层,其用于获取特征提取图像并判别该特征提取图像中的背景和物体;
Reg_layer层,其用于获取特征提取图像和回归该特征提取图像中物体所在的位置信息。
另外,重点结合图2所示,作为一种可能的实施方式,进一步,本方案所述的VGG16深度卷积神经网络层包括N个卷积层和设置在N个卷积层对应下一级的N个池化层,其中,卷积层在卷积操作后均将数据输送至对应的池化层进行池化操作,另外,N≥1。
本方案VGG16深度卷积神经网络层主要由卷积网络为基础的多个卷积层和池化层组成,其对所传入的图像进行多次卷积操作,是图像提取特征数据的过程;而第二部分RPN网络模块取代了传统的全连接层,运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小的图像的局限性;用来判别图像的背景和物体信息及回归物体所在位置信息。相比传统的物体检测网络,本方案的Faster R-CNN网络模型能够避免全连接层带来的应用限制,大幅地提升网络的适用性能,具有端到端的检测特性。
基于上述得网络模型,结合图2和图3的简要所示,本方案还提供了该新型FasterR-CNN网络模型的训练方法,其包括如下步骤:
S1,输入原始图像,然后通过VGG16深度卷积神经网络对图像进行多次卷积操作和池化操作,获得预设规格的特征提取图像;
S2,RPN网络获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
其中,所述的原始图像包括从视频流中拆分成的帧图像。
在VGG16深度神经网络中,卷积过程可分为5个大的卷积步骤,且均采用3×3、2×2的卷积核对图像进行特征提取及池化操作。在第一次卷积过程中采用3 3卷积核对图像进行两次卷积和一次池化操作;第二次卷积过程同第一次卷积过程;第三次卷积过程采用3×3卷积核进行三次卷积操作、一次池化操作;第四次、第五次卷积过程同第三次卷积过程,并进行池化操作,VGG16深度卷积网络一共进行了5次池化操作,每一次池化操作卷积图像长宽减小二分之一。
作为一种较优的实施选择,优选的,步骤S1中VGG16深度卷积神经网络均采用3x3规格的卷积核对输入的原始图像进行特征提取操作,其中,定义滑移步长为1,通过遍历的方式让卷积核在原始图像上进行滑移,每次滑移步长为1,其公式为:
outlen=[Intlen-filterlen+1]/stride
其中,Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
为解决因卷积操作所引起的图像信息减小,本方案Faster R-CNN网络模型采用SAME的填充方式来处理原图因经过3x3卷积核操作后图像减小2个像素的问题,计算式如下。
outlen=[Intlen-filterlen+2padding+1]/stride
在上述公式中padding为填充像素大小,如5×5大小的图像经过padding为1的像素填充后再次经过卷积就能保证与原图具有相同大小的尺寸。为此,在VGG16神经网络中均采用SAME的方式进行填充。
为降低因卷积核数量增大使得整个神经网络的计算消耗量过大,VGG16神经网络中采用max-pool的方式对卷积图进行池化操作。定义2×2大小,步长为2的特殊卷积核对卷积后的图像进行池化。让2×2大小的卷积核,通过遍历的方式以步长为2大小在卷积图上进行滑移。提取卷积核下最大像素值。为此经过池化操作后的卷积图像大小将变为原来大小的二分之一。
作为VGG16深度神经网络的一种具体训练实施方式,进一步,步骤S1具体具体包括如下步骤:
S1.1,输入原始图像;
S1.2,对输入的图像进行第一次卷积,通过定义64个规格为3×3大小的卷积核对输入的原始图像进行两次卷积操作,使输入的原始图像维度变为intlen×intlen×64,令其在图像原大小不变的情况下,深度信息变成64,然后经过一次池化操作后,池化图像维度变为原图intlen×intlen×64,其长宽大小变为原始图像的二分之一;
S1.3,进行第二次卷积,通过定义128个规格为3×3大小的卷积核对步骤S12生成的图像进行两次卷积操作,使图像在大小不变的情况下,深度信息变为128,然后经过一次池化操作后,池化图像长宽大小变为原始图像的四分之一;
S1.4,进行第三、四、五次卷积,其均通过定义512个规格为3×3大小的卷积核,分别进行三次卷积操作和一次池化操作后,使池化图像在大小不变的情况下,深度变成512,第三、四、五次卷积的卷积操作后,经过一次池化操作,获得的池化图像得长宽大小分别变为原始图像的八分之一、十六分之一、三十二分之一。
在步骤S1中,经过VGG16深度卷积模型处理后的图像大小变成原来的1024分之一(即长宽变为原始图像1/2时,其面积大小为缩小4倍,因此,缩小倍数为4的5次方),及在生成后的特征图中一个像素点表示一个感受眼,映射到原始图像中表示为对应原始图像中1024个像素大小的一块区域。
本方案Faster R-CNN网络模型中没有采用全连接层结构,取而代之的则是在VGG16深度卷积网络层提取出特征图像后在RPN网络层中采用1×1的卷积核对候选框进行处理,以便于损失计算。
相比传统的神经网络,全连接层限制了整个网络可应用性。在经过Fast-rcnn神经网络的改进后Faster R-CNN采用了RPN(Region Propasal Network)模块,该模块运用了全卷积神经网络,实现了卷积核参数共享,突破了传统神经网络中只能传入单一维度大小的图像的局限性,大大提升了网络的适用性能。
为了实现对象识别及对象定位的功能,RPN层通过在特征图上产生候选框,通过在特征图上滑动候选框的方式来对图像进行卷积操作。经过卷积后的图像分别对其进行物体与背景判别和返回对象坐标值。
RPN层网络在图像经VGG16网络处理后的特征图图像上进行操作,它采用3×3大小的卷积核再次对特征图进行卷积操作,卷积核数目为512.由于不同尺度的图像以及不同角度的原因对象在图像中往往呈现出不同的大小形状。为解决这个问题,在Faster R-CNN中的RPN网络中采用了在特征图中指定不同尺寸,不同长宽比例的区域来映射回原始图像区域的方式来使得检测得全面性。
作为一种可能的实施方式,进一步,步骤S2中,RPN网络层获取特征图像后的具体操作步骤如下:
S2.1,采用3*3大小的卷积核再次对特征图像进行卷积操作,卷积核数目为512;
S2.2,采用特征图像中的每个像素点为中心形成锚点,以预设尺寸和长宽比例的矩形框进行选取的方式来选取候选框;
S2.3,RPN网络层中的Cls_layer层对选取出来的总候选框个数进行判别,得到该候选框内的是背景还是对象的分数;RPN网络层中的Reg_layer层对选取出来的总候选框个数进行回归操作,用来提取出对象在原始图像中所对应的位置关系。
作为一种较优的实施选择,优选的,步骤S2.2中,矩形框的指定初始基本固定尺寸为128x、256px或512px,其长宽比例为0.5、1或1.5,且该基本固定尺寸和长宽比例的形成9个组合,其计算公式为:
num=len(anchor_scales)·len(anchor_ratios),
其中,len(anchor_scales)为固定尺寸个数,len(anchor_ratio)为比例尺寸个数。
作为一种可能的实施方式,进一步的,经过步骤S2处理过的一副图片可得到的候选框个数可由特征图的宽度、特征图的长度和单个锚点可生成的矩形框个数的乘积求得,具体公式如下:
numc=W×H×k,
其中,W为特征图的宽度,H为特征图的长度,K为单个锚点可生成的矩形框个数;
在Faster R-CNN中,len(anchor_scales)为3,len(anchor_ratio)为3,k为9。
作为一种较优的实施选择,优选的,步骤S2.3中,
Cls_layer层采用1×1的卷积核对候选框进行全卷积操作,卷积核个数为2k个,其用于输出18个深度的特征图图像,将其重新定义为深度仅为2个深度的图像,得到每个候选框内背景的概率分数和对象的概率分数;
Reg_layer层用来对上诉选取出来的总候选框个数进行回归操作,用来提取出对象在原图中所对应的位置关系,即回归X,Y,W,H;其中X,Y为对象所处原图的位置信息,W,H对象宽度和高度信息。在reg_layer层中,仍采用与cls_layer层方式,以1×1的卷积核对候选框进行卷积操作,卷积核个为4k个,其用于对选取出的总候选框个数进行回归操作,以提取出对象在原始图像中所对应的位置关系。
在Faster R-CNN中,为计算损失函数,将每个锚点设置成以二进制为形式的类标签。通过计算每个锚点的候选区域与ground_true box(即真实存在物体的方框)的最大IOU(Inte-rsection-over-Union)(即候选框区域与真实存在物体的方框的重叠区域)面积,如果该面积的超过百分之七十,则将该锚点设置为一个正例。若小于百分之三十则将该锚点设置为负例。如果一个锚点即不是正例也不是负例则不进行损失计算,即不存在目标对象。
Faster R-CNN采用了如下计算RPN损失。
在上述公式中i表示为锚点所处原图的索引,表示pi为该锚点是物体的预测概率值,为该锚点在上诉标签中的值。如果是1表示为该锚点为一个正例,为0表示为一个负例。表示为所有标签中锚点信息的损失值,Ncls所有标签锚点个数。公式前半部分表示为背景于物体预测的损失。
后半部分表示为回归损失函数,通过该损失函数可以使得X,Y,W,H信息在RPN网络中进行微调。其中R表示为robust损失方程,表示为只有在该锚点为正例的情况下才进行计算损失,即只对存在对物体存在的锚点位置进行损失计算。λ值用来权衡分类任务和逻辑回归任务,通过设置λ可用来设置该模型更加重视分类任务还是回归任务。
在前述公式中ti为如上公式中的tx,ty,th,tw。为公式2.6中的 在上述公式中x,y,w,h表示为RPN网络对对象预测出来的位置信息值,xa,ya,ha,wa为候选框所在的位置信息值,x*,y*,h*,w*为真实存在对象的位置信息。tx,ty表示为RPN网络预测出来的方框中心值与候选框中的中心信息的位置偏差量。th,tw表示为RPN网络预测出来的长度与宽度值与候选框长度与宽度的偏差量。为真实中心位置信息值与候选框中心位置信息值的偏差量。h*,w*为真实方框长度与宽度信息值与候选框中长度,宽度信息值的偏差量。
通过上诉的损失函数,在神经网络不断的训练过程中回归信息中的x,y,w,h将不断地去接近真实对象所存在的位置信息。
在Faster_rcnn网络中最后一部分为(classifer)对物体类的预测概率,即为该任务需要检测的若干对象。通过该层可得到预测对象的概率值。
在上述的网络模型和对应的训练方法基础上,本方案提供了将其用于自动扶梯乘客异常位姿的检测中,其具体为:
一种自动扶梯乘客异常位姿的检测,其包括上述的新型Faster R-CNN网络模型,且该新型Faster R-CNN网络模型包括上述所述的训练方法。
参考图4至图7之一所示,图4为本发明Faster R-CNN网络模型用于自动扶梯的检测时的简要系统框架图;图5为本发明Faster R-CNN网络模型用于自动扶梯乘客检测的简要流程图;作为一种训练示例,其具体如下:
1数据准备阶段
通过收集各大商场的自动扶梯事故视频,在opencv中打开视频。依次保存视频中每帧图像做为训练集。本示例通过该方法收集10000张有关自动扶梯乘客乘坐电梯的图像。其中包括小孩在蹲下玩耍过程中手被卷入电梯的图像,在扶带旁玩耍被提起摔下楼层的图像,及老人在乘坐电梯过程中体力透支,昏迷摔倒的图像等。
将所有图像存入到同一个目录下,用opencv依次读取该文件下所有图像,在将其从0.jpg,1.jpg....的顺序开始命名。将其保存在预设文件夹中,例如:Faster R-CNN-TensorFlow-Python3.5-master\data\VOCdevkit2007\VOC2007\JPEGImage s文件夹下。
2数据标记
采用labelimage工具对图像进行标记,该标记内容主要包括对象类的标注,以及对象所处位置信息的标注即x,y,w,h。
通过设置labelimage工具的类别,来对图像信息进行中的乘客的乘坐电梯状态进行标注。为了使得神经网络安全检测的可靠性及严格性,本方案设置了4类类别(stand,band,qu-at,fall)即正常的乘客乘梯姿势,身体弯曲姿势,下蹲姿势,及摔倒姿势。其中只有第一类stand为乘客正常的乘梯姿势。其它三类皆为危险的乘梯姿势。
设置好类别信息后,开始对图像进行标注,设置好储存标注信息xml文件的存放位置,将其设置在预设文件夹中,例如:Faster
R-CNN-TensorFlow-Python3.5-master\data\VOCdevkit2007\VOC2007\Ann-otations文件夹下,依次标注出每张图片中全部乘客所处的位置及状态。
3 Faster R-CNN神经网络的应用
通过利用商场自动扶梯前的高清摄像头,读取其视频流。采用opencv机器视觉开源库将视频流拆分成帧图像,将其传入到Faster R-CNN深度卷积神经网络中。获取图像中乘客所处位置及自动扶梯上其乘客的位姿状态,若检测到自动扶梯上乘客的乘梯状态处于危险状态,对电梯及时采取措施,防止乘客承受巨大的生命威胁。相比Rcnn与ast-Rcnn、Fas-ter R-CNN相比前两种物体检测网络,Faster R-CNN具备端到端的神经网络特点,为此更具有高效检测性。
本方案中Faster R-CNN神经网络算法简易流程如图5所示,首先对所输送到处理器的图像先经过VGG16深度卷积神经网络进行特征提取,再对特征图进行RPN全卷积网络中的对象分类及检测框回归处理,得到被检测对象的类别分数及对象的位置信息。
通过收集数据和标注数据,再到Faster R-CNN神经网络的训练,最终得到训练好的神经网络模型;再通过对模型的调用,用python下tensorflow框架来运行该网络,以每秒5fps的帧速对视频图像信息进行检测,以达到实验要求。
通过摄像头获取视频流信息,将其传入到图像处理器中对。由于Faster R-CNN深度神经网络过于庞大,无法在CPU上运行,因此采用了GPU来运行该网络。为此本方案运行该网络所用硬件为i7处理器,GTX1080显卡。所采用语言为python,以及基于python下的ten-sorflow框架及opencv机器视觉开源库。对基于window版本的Faster R-CNN进行训练通过设置参数,指定训练数据位置,标签文件位置及迭代轮数,模型所达精度信息等,待训练该模型的精度达到75%。
采用训练了30000轮的模型用来对乘坐扶梯乘客进行位姿进行检测,对其进行判别。由于Faster R-CNN在GPU上运行时,每处理一张图片所消耗的时间为0.2秒。为此本方案采用每隔0.25秒的时间从视频流中读取一张图片的方式来对电梯运行状态做检测。若判别出的乘客姿势状态为stand即站立,则不对扶梯电机系统采取制动。若判别出乘客的位姿为ben-d的概率超过0.7或者为quat和fall,则表示乘梯人员正处于危险的乘梯状态,立即让扶梯响应做出诸如对电动机制动系统进行制动的安全措施。
图6为Faster R-CNN神经网络检测出老人乘客从正常站立姿势到跌倒异常位姿的检测结果,结果显示该模型能很好地检测出乘客的位置姿势,检验准确性和实时性较高。在老人跌倒意外出现时,自动扶梯可及时做出相应的保护措施,有效减少事故的伤害。
乘客搭乘自动扶梯时位姿的检测容易受到扶梯运行时光照的变化、阴影、背景中固定对象的移动等因素影响检测精度。图7为在乘客搭乘自动扶梯时位姿的检测受到扶梯运行时光照的变化等因素影响检测精度的工况背景下用Faster R-CNN神经网络检测出小孩在扶梯上跌到的实时检测,检测结果判别出乘客的位姿为ben-d的概率超过0.7和fall,乘梯人员正处于危险的乘梯状态,扶梯立即响应做出诸如对电动机制动系统进行制动的安全措施。
实验结果证明,利用Faster R-CNN神经网络能够准确检测乘客位姿变化的过程,降低目标漏检率。本算法在不同的测试集上准确率和实时性都较高,能够提高检测目标的精确率和效率,使得训练出来的模型对目标大小具有一定的鲁棒性,能够满足自动扶梯乘客位姿安全监测的工程应用要求。
另外,在本发明网络模型及其训练方法的实施方式中,各功能网络模型层或单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.新型Faster R-CNN网络模型,其特征在于,包括:
VGG16深度卷积神经网络层,其用于对传入的图像进行多次卷积操作,并生成特征提取图像;
RPN网络层,其用于获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
2.如权利要求1所述的新型Faster R-CNN网络模型,其特征在于,所述的RPN网络层包括:
Cls_layer层,其用于获取特征提取图像并判别该特征提取图像中的背景和物体;
Reg_layer层,其用于获取特征提取图像和回归该特征提取图像中物体所在的位置信息。
3.如权利要求1所述的新型Faster R-CNN网络模型,其特征在于,所述的VGG16深度卷积神经网络层包括N个卷积层和设置在N个卷积层对应下一级的N个池化层,其中,卷积层在卷积操作后均将数据输送至对应的池化层进行池化操作,另外,N≥1。
4.如权利要求1至3之一所述的新型Faster R-CNN网络模型的训练方法,其特征在于,其包括如下步骤:
S1,输入原始图像,然后通过VGG16深度卷积神经网络对图像进行多次卷积操作和池化操作,获得预设规格的特征提取图像;
S2,RPN网络获取特征提取图像且判别特征提取图像中的背景和物体,并回归物体所在的位置信息。
5.如权利要求4所述的新型Faster R-CNN网络模型的训练方法,其特征在于,步骤S1具体包括如下步骤:
S1.1,输入原始图像;
S1.2,对输入的图像进行第一次卷积,通过定义64个规格为3×3大小的卷积核对输入的原始图像进行两次卷积操作,使输入的原始图像维度变为intlen×intlen×64,令其在图像原大小不变的情况下,深度信息变成64,然后经过一次池化操作后,池化图像维度变为原图intlen×intlen×64,其长宽大小变为原始图像的二分之一;
S1.3,进行第二次卷积,通过定义128个规格为3×3大小的卷积核对步骤S12生成的图像进行两次卷积操作,使图像在大小不变的情况下,深度信息变为128,然后经过一次池化操作后,池化图像长宽大小变为原始图像的四分之一;
S1.4,进行第三、四、五次卷积,其均通过定义512个规格为3×3大小的卷积核,分别进行三次卷积操作和一次池化操作后,使池化图像在大小不变的情况下,深度变成512,第三、四、五次卷积的卷积操作后,经过一次池化操作,获得的池化图像得长宽大小分别变为原始图像的八分之一、十六分之一、三十二分之一。
6.如权利要求5所述的新型Faster R-CNN网络模型的训练方法,其特征在于,步骤S1中VGG16深度卷积神经网络均采用3x3规格的卷积核对输入的原始图像进行特征提取操作,其中,定义滑移步长为1,通过遍历的方式让卷积核在原始图像上进行滑移,每次滑移步长为1,其公式为:
outlen=[Intlen-filterlen+1]/stride
其中,Intlen为输入图像的原始大小,filterlen为卷积核的大小,stride为滑移步长,outlen为输出图像的大小。
7.如权利要求4所述的新型Faster R-CNN网络模型的训练方法,其特征在于,步骤S2中,RPN网络层获取特征图像后的具体操作步骤如下:
S2.1,采用3*3大小的卷积核再次对特征图像进行卷积操作,卷积核数目为512;
S2.2,采用特征图像中的每个像素点为中心形成锚点,以预设尺寸和长宽比例的矩形框进行选取的方式来选取候选框;
S2.3,RPN网络层中的Cls_layer层对选取出来的总候选框个数进行判别,得到该候选框内的是背景还是对象的分数;RPN网络层中的Reg_layer层对选取出来的总候选框个数进行回归操作,用来提取出对象在原始图像中所对应的位置关系。
8.如权利要求7所述的新型Faster R-CNN网络模型的训练方法,其特征在于,步骤S2.2中,矩形框的指定初始基本固定尺寸为128x、256px或512px,其长宽比例为0.5、1或1.5,且该基本固定尺寸和长宽比例的形成9个组合,其计算公式为:
num=len(anchor_scales)·len(anchor_ratios),
其中,len(anchor_scales)为固定尺寸个数,len(anchor_ratio)为比例尺寸个数。
9.如权利要求7所述的新型Faster R-CNN网络模型的训练方法,其特征在于,步骤S2.3中,
Cls_layer层采用1×1的卷积核对候选框进行全卷积操作,卷积核个数为2k个,其用于输出预设个深度的特征图图像,将其重新定义为深度仅为2个深度的图像,得到每个候选框内背景的概率分数和对象的概率分数;
Reg_layer层以1×1的卷积核对候选框进行卷积操作,卷积核个为4k个,其用于对选取出的总候选框个数进行回归操作,以提取出对象在原始图像中所对应的位置关系。
10.如权利要求4所述的新型Faster R-CNN网络模型的训练方法,其特征在于,所述的原始图像包括从视频流中拆分成的帧图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973172.2A CN112163667B (zh) | 2020-09-16 | 2020-09-16 | 新型Faster R-CNN网络模型及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973172.2A CN112163667B (zh) | 2020-09-16 | 2020-09-16 | 新型Faster R-CNN网络模型及其训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163667A true CN112163667A (zh) | 2021-01-01 |
CN112163667B CN112163667B (zh) | 2024-01-12 |
Family
ID=73858493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973172.2A Active CN112163667B (zh) | 2020-09-16 | 2020-09-16 | 新型Faster R-CNN网络模型及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163667B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114200946A (zh) * | 2021-12-14 | 2022-03-18 | 闽江学院 | 一种智能制造机械加工生产线agv小车控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344825A (zh) * | 2018-09-14 | 2019-02-15 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的车牌识别方法 |
CN110321815A (zh) * | 2019-06-18 | 2019-10-11 | 中国计量大学 | 一种基于深度学习的道路裂缝识别方法 |
CN110991435A (zh) * | 2019-11-27 | 2020-04-10 | 南京邮电大学 | 一种基于深度学习的快递运单关键信息定位方法和装置 |
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
-
2020
- 2020-09-16 CN CN202010973172.2A patent/CN112163667B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN109344825A (zh) * | 2018-09-14 | 2019-02-15 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的车牌识别方法 |
CN110321815A (zh) * | 2019-06-18 | 2019-10-11 | 中国计量大学 | 一种基于深度学习的道路裂缝识别方法 |
CN110991435A (zh) * | 2019-11-27 | 2020-04-10 | 南京邮电大学 | 一种基于深度学习的快递运单关键信息定位方法和装置 |
Non-Patent Citations (1)
Title |
---|
吴嘉炜 等: "一种基于深度学习的两阶段图像去雾网络", 《计算机应用与软件》, vol. 37, no. 4, pages 197 - 202 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114200946A (zh) * | 2021-12-14 | 2022-03-18 | 闽江学院 | 一种智能制造机械加工生产线agv小车控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112163667B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Son et al. | Detection of construction workers under varying poses and changing background in image sequences via very deep residual networks | |
Suzuki et al. | Anticipating traffic accidents with adaptive loss and large-scale incident db | |
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN112163477B (zh) | 一种基于Faster R-CNN的扶梯行人位姿目标检测方法及系统 | |
CN112418216B (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN110058699B (zh) | 一种基于智能移动设备传感器的用户行为识别方法 | |
JP2017004480A (ja) | 顕著性情報取得装置及び顕著性情報取得方法 | |
CN108280397A (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
CN112381775A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN108596944A (zh) | 一种提取运动目标的方法、装置及终端设备 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN106874913A (zh) | 一种菜品检测方法 | |
Hu et al. | Sim-YOLOv5s: A method for detecting defects on the end face of lithium battery steel shells | |
CN112418135A (zh) | 人体行为识别方法、装置、计算机设备及可读存储介质 | |
CN114972316A (zh) | 基于改进YOLOv5的电池壳端面缺陷实时检测方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
CN112560584A (zh) | 一种人脸检测方法及装置、存储介质、终端 | |
CN112163667B (zh) | 新型Faster R-CNN网络模型及其训练方法 | |
Kieu et al. | Ocr accuracy prediction method based on blur estimation | |
CN111476144B (zh) | 行人属性识别模型确定方法、装置及计算机可读存储介质 | |
CN111340139A (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN112818948B (zh) | 一种嵌入式系统下的基于视觉注意力的行为识别方法 | |
CN106446810A (zh) | 一种用于精神状态分析的计算机视觉方法 | |
CN113554656A (zh) | 基于图神经网络的光学遥感图像实例分割方法及装置 | |
CN112446292A (zh) | 一种2d图像显著目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240418 Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui. Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 350108 No. 200 Xiyuan Gong Road, Minhou County, Fuzhou City, Fujian Province Patentee before: MINJIANG University Country or region before: China |