CN111368660A - 一种单阶段半监督图像人体目标检测方法 - Google Patents
一种单阶段半监督图像人体目标检测方法 Download PDFInfo
- Publication number
- CN111368660A CN111368660A CN202010114793.5A CN202010114793A CN111368660A CN 111368660 A CN111368660 A CN 111368660A CN 202010114793 A CN202010114793 A CN 202010114793A CN 111368660 A CN111368660 A CN 111368660A
- Authority
- CN
- China
- Prior art keywords
- human body
- real
- network
- image
- body frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种单阶段半监督图像人体目标检测方法,该方法是从视频帧中选取少量有真实标签的图像,剩下其它视频帧作为无真实标签图像;两类图像同时送入深度网络中训练网络;训练过程会有所不同,带有真实标签图像可以正常训练,但是无真实标签图像无法正常训练,所以会先通过网络获得高置信度的位置信息作为无真实标签图像的临时标签,然后再进行正常的训练;为了能够使网络不被临时标签的图像带偏,通过后续筛选和权重设置加以限制;直到网络模型训练到预先设定的次数。本发明方法是同时训练两类图像,只需要一个阶段,节约大量的时间成本。
Description
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种单阶段半监督图像人体目标检测方法。
背景技术
行人检测是利用计算机视觉技术识别图像或者视频帧中是否存在行人并给予精确定位。该技术应用领域广泛,可与行人跟踪、行人重识别等技术结合,能够很好地应用于人工智能系统、车辆辅助驾驶系统、智能视频监控、人体行为分析、智能交通等现实场景领域。
由于行人一些独特的特性,外观易受穿着颜色、尺度、遮挡、姿态和视角等多方面影响,使得行人检测成为计算机视觉领域中一个不仅具有研究价值而且又极具挑战性的热门研究课题。
半监督学习是模式识别领域和机器学习领域研究的重点问题,也是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无真实标签数据,同时使用少量真实标签数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
基于统计学习的方法根据大量的图像构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。由于深度神经网络,通过引入具有CNN特征的区域(R-CNN)获得了更显着的增益。DNN或最具代表性的CNN以与传统方法完全不同的方式起作用。他们拥有更深层次的架构,能够学习比浅层更复杂的功能。此外,表现力和强大的训练算法允许学习信息对象表示,而无需手动设计功能。
自R-CNN的提议以来,已经提出了大量改进的模型,包括Fast R-CNN,它共同优化了分类和边界框回归任务,Faster R-CNN需要额外的子网来生成区域提议和YOLO通过固定网格回归完成目标检测。所有这些都比原始R-CNN带来不同程度的检测性能改进,使得实时和准确的物体检测变得更加可实现。
发明内容
本发明的目的在于克服现有半监督训练过程繁琐的问题,提出了一种单阶段半监督图像人体目标检测方法,该方法只需要训练一轮就可以得到性能良好的检测效果,有效的节省了大量的时间。
为实现上述目的,本发明所提供的技术方案为:一种单阶段半监督图像人体目标检测方法,包括以下步骤:
S2、从无真实标签图像集合中获取一张无真实标签图像经过VGG16网络和RPN网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像的临时标签;
S3、输入两张图像到整个网络的入口,该整个网络是由VGG16、RPN和IoU三个网络组成,记为网络VGG16+RPN+IoU,其中一张为步骤S2的无真实标签图像另一张为从真实标签图像集合种获取的真实标签图像用于当前一轮的训练,用损失函数进行约束;
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练;
在步骤S1中,需要对视频帧的图像进行缩放处理,以期达到理想的训练效果和减少数据运算量;根据需要对视频帧数据进行分类,先把视频帧数据分为训练数据和测试数据集合两类;再将训练数据分为两类:真实标签图像集合和无真实标签图像集合的比例为1:19,即训练数据等于一张真实标签图像记为即一张无真实标签图像记为即
在步骤S2中,对无真实标签图像标注临时标签,对于整个网络模型VGG16+RPN+IoU,采取和测试阶段相同的模式,对参数进行固定,不进行更新;通过RPN网络获取分类信息和位置坐标信息,再选取高置信度的人体框通过IoU网络得到最后的IoU得分预测,选取IoU大于或等于预定阈值的人体框预测信息作为无真实标签图像的临时标签。
在步骤S3中,所述VGG16网络包含16个卷积层,分有5组;所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor预测的分类得分,B为对应anchor预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU网络中,最后得到人体框对应的IoU预测。
在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti;
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
根据anchor与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor和真实人体框回归获得,分类标准如下:
RPN网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN网络的另一个损失函数如下:
最小化损失函数lboxReg使得RPN网络对每一个预测人体框趋向于最接近的真实的人体框;RPN网络能够在每一个图像中通过下面的损失函数进行端到端训练:
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像和无真实标签图像无真实标签图像通过整个网络VGG16+RPN+IoU得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签的无真实标签图像和真实标签图像一同送入训练完整网络VGG16+RPN+IoU,当将无真实标签的图像送入到完整网络VGG16+RPN+IoU时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定RPN网络的优化,如下所示:
在步骤S310中,IoU网络对应的损失函数如下:
liouEst(ui,ti)=lcroEnt(ui,I(ti;θI))
其中,lcroEnt(ui,I(ti;θI))=-uilogI(ti;θI),IoU网络的参数记为θI,I(ti;θI)定义为预测人体框ti的IoU(交并比),相应的真实人体框目标ui的IoU(交并比)定义为优化IoU网络的公式如下:
在步骤S4中,真实标签图像集合和无真实标签图像集合的数据量大,为了很好地训练整个网络VGG16+RPN+IoU,训练的次数设定在60000,每训练完一次,再随机从剩下的数据中选取进行新一轮的训练,当所有的数据都训练完后,重新把数据打乱训练,直至达到预设定次数,这样能够充分学习到样本的特征。
在步骤S5中,固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测人体框,达到人体目标检测的目的,再用生成的人体框和真实的人体框进行相应的计算,得到测试的评估结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明采用了现在流行的深度学习检测框架作为基础模型,和传统的检测方法比较,检测效果更好,处理更方便,之前的检测方法,多数要在后面加一个支持向量机进行分类。之前对于训练检测框主要是采用滑动窗口的方式进行图像的裁剪,增加了大量的难度和成本,而在Faster R-CNN中,使用了anchor(锚点)的机制很好地解决了上述的问题。同时也大大减轻了对GPU的开销和内存的空间压力,另外,本发明中的交并比网络模块更好地显示和真实行人的位置关系,可以提供很好的辅助信息,减少检测框架的错误率。
2、传统的半监督行人检测模型会将整个过程分成多轮,最开始的一轮只会使用少量有标签的图像训练模型;接下来才开始使用无标签图像训练模型。本发明改变了之前的训练方法,通过设置不同来源图像权重加上交并比网络的强大过滤能力可以使得一轮中实现之前多轮的效果和功能,极大地减少了时间,也使得无标签图像的临时标签信息在动态中生成,减少了固定伪标签对训练网络模型的影响和预测框的遗漏,也极大增加标签的多样性。
3、半监督训练过程中,最大的挑战是怎么能够从无标签图像中得到比较准确的标签信息,在很多情况下,往往得到的临时标签信息可能很糟糕,如果使用标签不准确的信息来训练模型会让模型无法收敛。如果仅仅依靠单个检测器,确实无法保证检测的准确性,即使对应检测位置的置信度很高。在本发明中,引入一个交并比网络可以大幅度改善结果,减少错误标签的生成和采用,给网络训练带来更好的稳定性。
4、大多数使用伪标签图像的模型大多是采用和有标签图像的训练方式一样的方法。这里面存在一个很大的问题,就是假定得到的伪标签信息都是准确的,然而在实际中,情况却并非如此。衡量一个临时标签信息的准确性使用交并比的标准是再适合不过的,在判断是否检测到的,大多使用0.5的标准;在生成伪标签的情况下,能够得到让交并比达到0.8已经是很不容易的事情,特别是在目标标签很小的情况下,就更加困难。
5、本发明减少了内存显存空间的使用。同时更新真实标签图像和无真实标签图像,使用同一个损失函数减少了参数的重复更新,达到减少内存显存的效果。
附图说明
图1为本发明方法的流程框图。
图2为本发明方法的操作示意图,图中检测网络是指RPN网络。
图3为本发明中整个模型网络(VGG16+RPN+IoU)的结构图,图中cls score和boxprob分别是预测得分信息、坐标信息,iou score是交并比信息。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图3所示,本实施例所提供的单阶段半监督图像人体目标检测方法,包括以下步骤:
需要对视频帧的图像进行缩放处理,以期达到理想的训练效果和减少数据运算量;根据需要对视频帧数据进行分类,先把视频帧数据分为训练数据和测试数据集合两类;再将训练数据分为两类:真实标签图像集合和无真实标签图像集合的比例为1:19,即训练数据等于一张真实标签图像记为即一张无真实标签图像记为即
S2、从无真实标签图像集合中获取一张无真实标签图像经过VGG16网络和RPN(区域选择)网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU(交并比)网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像的临时标签,具体如下:
对无真实标签图像标注临时标签,对于整个网络模型(VGG16+RPN+IoU),采取和测试阶段相同的模式,对参数进行固定,不进行更新;通过RPN(区域选择网络)获取分类信息和位置坐标信息,再选取高置信度的人体框通过IoU(交并比)网络得到最后的IoU(交并比)得分预测,选取IoU(交并比)大于或等于预定阈值的人体框预测信息作为无真实标签图像的临时标签。
所述VGG16网络包含16个卷积层(分为5组),所述RPN(区域选择)网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU(交并比)网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor(锚点)预测的分类得分,B为对应anchor(锚点)预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU(交并比)网络中,最后得到人体框对应的IoU(交并比)预测。
在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti;
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
根据anchor(锚点)与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor(锚点)是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor(锚点)和真实人体框回归获得,分类标准如下:
RPN(区域选择)网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN(区域选择)网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN(区域选择)网络的另一个损失函数如下:
最小化损失函数lboxReg使得RPN(区域选择)网络对每一个预测人体框趋向于最接近的真实的人体框;RPN(区域选择)网络能够在每一个图像中通过下面的损失函数进行端到端训练:
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像和无真实标签图像无真实标签图像通过整个网络(VGG16+RPN+IoU)得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签(预测信息:位置坐标信息、分类得分信息、交并比信息)的无真实标签图像和真实标签图像一同送入训练完整网络(VGG16+RPN+IoU),当将无真实标签的图像送入到完整网络(VGG16+RPN+IoU)时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定检测模块的优化,如下所示:
在步骤S310中,IoU(交并比)网络对应的损失函数如下:
liouEst(ui,ti)=lcroEnt(ui,I(ti;θI))
其中,lcroEnt(ui,I(ti;θI))=-uilogI(ti;θI),IoU(交并比)网络的参数记为θI,I(ti;θI)定义为预测人体框ti的IoU(交并比),相应的真实人体框目标ui定义为优化IoU(交并比)网络的公式如下:
在我们的设置中,仅使用了有限数量的训练图像。利用无真实标签的图像进行数据扩充至关重要,可以期望有效地增加训练图像的多样性和数量,以提高检测模型的泛化能力。为此,我们包含无真实的图像进入训练过程,从而可以将获得的高置信度伪标签作为该图像的临时标签用于优化模型。IoU(交并比)网络模块在消除训练过程中的错误传播方面起着重要作用,因为由RPN(区域选择网络)生成错误识别的图像伪标签可能会误导后续模型训练。
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练。
真实标签图像集合和无真实标签图像集合的数据量大,为了很好地训练整个网络模型(VGG16+RPN+IoU),训练的次数设定在60000,每训练完一次,再随机从剩下的数据中选取进行新一轮的训练,当所有的数据都训练完后,重新把数据打乱训练,直至达到预设定次数,这样能够充分学习到样本的特征。
固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测人体框,达到人体目标检测的目的,再用生成的人体框和真实的人体框进行相应的计算,得到测试的评估结果。
下面我们使用Caltech数据集为例,可分为4250训练图像,4024帧测试图像。再将4250帧图像中每20帧取1帧图像作为有标签的图像,剩余图像作为无标签图像,将图片放大为720x960的像素,然后减去网络像素均值,放入到网络中。
首先让一张无真实标签图像进入固定好的网络,得到临时标签赋予无真实标签图像,然后把一张真实标签图像放入网络中(这次不固定网络)和无真实标签图像一同训练网络。训练过程中,有标签图像因为标签信息是完全真实的,无真实标签图像的临时标签信息是由网络得到的,不确定性很大,设置权重λu=0.1。训练初始学习率为0.001,训练到4万次迭代将学习率下降为0.0005;动量大小为0.9。
按照上述方法过程,在Caltech训练到6万次迭代,整个模型基本趋于稳定,检测结果表现出很好的效果,达到人体目标检测目标,少量图像可以带来巨大的提升。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (8)
1.一种单阶段半监督图像人体目标检测方法,其特征在于,包括以下步骤:
S2、从无真实标签图像集合中获取一张无真实标签图像经过VGG16网络和RPN网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像的临时标签;
S3、输入两张图像到整个网络的入口,该整个网络是由VGG16、RPN和IoU三个网络组成,记为网络VGG16+RPN+IoU,其中一张为步骤S2的无真实标签图像另一张为从真实标签图像集合种获取的真实标签图像用于当前一轮的训练,用损失函数进行约束;
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练;
4.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S3中,所述VGG16网络包含16个卷积层,分有5组;所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor预测的分类得分,B为对应anchor预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU网络中,最后得到人体框对应的IoU预测。
5.根据权利要求4所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti;
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
根据anchor与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor和真实人体框回归获得,分类标准如下:
RPN网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN网络的另一个损失函数如下:
最小化损失函数lboxReg使得RPN网络对每一个预测人体框趋向于最接近的真实的人体框;RPN网络能够在每一个图像中通过下面的损失函数进行端到端训练:
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像和无真实标签图像无真实标签图像通过整个网络VGG16+RPN+IoU得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签的无真实标签图像和真实标签图像一同送入训练完整网络VGG16+RPN+IoU,当将无真实标签的图像送入到完整网络VGG16+RPN+IoU时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定RPN网络的优化,如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114793.5A CN111368660A (zh) | 2020-02-25 | 2020-02-25 | 一种单阶段半监督图像人体目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114793.5A CN111368660A (zh) | 2020-02-25 | 2020-02-25 | 一种单阶段半监督图像人体目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368660A true CN111368660A (zh) | 2020-07-03 |
Family
ID=71208264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114793.5A Pending CN111368660A (zh) | 2020-02-25 | 2020-02-25 | 一种单阶段半监督图像人体目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368660A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931641A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于权重多样性正则化的行人重识别方法及其应用 |
CN112381021A (zh) * | 2020-11-20 | 2021-02-19 | 安徽一视科技有限公司 | 一种基于深度学习的人员检测计数方法 |
CN112381148A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于随机区域插值的半监督图像分类方法 |
CN112966601A (zh) * | 2021-03-05 | 2021-06-15 | 上海深硅信息科技有限公司 | 一种人工智能师徒半监督学习的方法 |
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
CN113537555A (zh) * | 2021-06-03 | 2021-10-22 | 太原理工大学 | 一种考虑扰动的交通子区模型预测滑模边界控制方法 |
CN115937254A (zh) * | 2022-11-25 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种基于半监督学习的多空中飞行目标跟踪方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN110321815A (zh) * | 2019-06-18 | 2019-10-11 | 中国计量大学 | 一种基于深度学习的道路裂缝识别方法 |
-
2020
- 2020-02-25 CN CN202010114793.5A patent/CN111368660A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN110321815A (zh) * | 2019-06-18 | 2019-10-11 | 中国计量大学 | 一种基于深度学习的道路裂缝识别方法 |
Non-Patent Citations (1)
Title |
---|
XUEXIAN CHEN ET AL.: "Self-Enhanced R-CNNs for Human Detection With Semi-Supervised Assumptions", 《IEEE ACCESS》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931641A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于权重多样性正则化的行人重识别方法及其应用 |
CN111931641B (zh) * | 2020-08-07 | 2023-08-22 | 华南理工大学 | 基于权重多样性正则化的行人重识别方法及其应用 |
CN112381148A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于随机区域插值的半监督图像分类方法 |
CN112381021A (zh) * | 2020-11-20 | 2021-02-19 | 安徽一视科技有限公司 | 一种基于深度学习的人员检测计数方法 |
CN112966601A (zh) * | 2021-03-05 | 2021-06-15 | 上海深硅信息科技有限公司 | 一种人工智能师徒半监督学习的方法 |
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
CN113537555A (zh) * | 2021-06-03 | 2021-10-22 | 太原理工大学 | 一种考虑扰动的交通子区模型预测滑模边界控制方法 |
CN113537555B (zh) * | 2021-06-03 | 2023-04-11 | 太原理工大学 | 一种考虑扰动的交通子区模型预测滑模边界控制方法 |
CN115937254A (zh) * | 2022-11-25 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种基于半监督学习的多空中飞行目标跟踪方法和系统 |
CN115937254B (zh) * | 2022-11-25 | 2023-10-31 | 中国人民解放军国防科技大学 | 一种基于半监督学习的多空中飞行目标跟踪方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111335B (zh) | 一种自适应对抗学习的城市交通场景语义分割方法及系统 | |
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN111368660A (zh) | 一种单阶段半监督图像人体目标检测方法 | |
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN110363122B (zh) | 一种基于多层特征对齐的跨域目标检测方法 | |
CN109961034B (zh) | 基于卷积门控循环神经单元的视频目标检测方法 | |
CN112396027B (zh) | 基于图卷积神经网络的车辆重识别方法 | |
CN106599797B (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
CN105512640B (zh) | 一种基于视频序列的人流量统计方法 | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN112101430B (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN107463892A (zh) | 一种结合上下文信息和多级特征的图像中行人检测方法 | |
CN104504365A (zh) | 视频序列中的笑脸识别系统及方法 | |
CN108564598B (zh) | 一种改进的在线Boosting目标跟踪方法 | |
CN113065460B (zh) | 基于多任务级联的猪脸面部表情识别框架的建立方法 | |
CN104598924A (zh) | 一种目标匹配检测方法 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN104954741B (zh) | 深层次自我学习网络实现矿车空满状态的检测方法和系统 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN112560675B (zh) | Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法 | |
CN110322445A (zh) | 一种基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200703 |