CN111368660A - 一种单阶段半监督图像人体目标检测方法 - Google Patents

一种单阶段半监督图像人体目标检测方法 Download PDF

Info

Publication number
CN111368660A
CN111368660A CN202010114793.5A CN202010114793A CN111368660A CN 111368660 A CN111368660 A CN 111368660A CN 202010114793 A CN202010114793 A CN 202010114793A CN 111368660 A CN111368660 A CN 111368660A
Authority
CN
China
Prior art keywords
human body
real
network
image
body frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010114793.5A
Other languages
English (en)
Inventor
陈学贤
吴斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010114793.5A priority Critical patent/CN111368660A/zh
Publication of CN111368660A publication Critical patent/CN111368660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种单阶段半监督图像人体目标检测方法,该方法是从视频帧中选取少量有真实标签的图像,剩下其它视频帧作为无真实标签图像;两类图像同时送入深度网络中训练网络;训练过程会有所不同,带有真实标签图像可以正常训练,但是无真实标签图像无法正常训练,所以会先通过网络获得高置信度的位置信息作为无真实标签图像的临时标签,然后再进行正常的训练;为了能够使网络不被临时标签的图像带偏,通过后续筛选和权重设置加以限制;直到网络模型训练到预先设定的次数。本发明方法是同时训练两类图像,只需要一个阶段,节约大量的时间成本。

Description

一种单阶段半监督图像人体目标检测方法
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种单阶段半监督图像人体目标检测方法。
背景技术
行人检测是利用计算机视觉技术识别图像或者视频帧中是否存在行人并给予精确定位。该技术应用领域广泛,可与行人跟踪、行人重识别等技术结合,能够很好地应用于人工智能系统、车辆辅助驾驶系统、智能视频监控、人体行为分析、智能交通等现实场景领域。
由于行人一些独特的特性,外观易受穿着颜色、尺度、遮挡、姿态和视角等多方面影响,使得行人检测成为计算机视觉领域中一个不仅具有研究价值而且又极具挑战性的热门研究课题。
半监督学习是模式识别领域和机器学习领域研究的重点问题,也是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无真实标签数据,同时使用少量真实标签数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
基于统计学习的方法根据大量的图像构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。由于深度神经网络,通过引入具有CNN特征的区域(R-CNN)获得了更显着的增益。DNN或最具代表性的CNN以与传统方法完全不同的方式起作用。他们拥有更深层次的架构,能够学习比浅层更复杂的功能。此外,表现力和强大的训练算法允许学习信息对象表示,而无需手动设计功能。
自R-CNN的提议以来,已经提出了大量改进的模型,包括Fast R-CNN,它共同优化了分类和边界框回归任务,Faster R-CNN需要额外的子网来生成区域提议和YOLO通过固定网格回归完成目标检测。所有这些都比原始R-CNN带来不同程度的检测性能改进,使得实时和准确的物体检测变得更加可实现。
发明内容
本发明的目的在于克服现有半监督训练过程繁琐的问题,提出了一种单阶段半监督图像人体目标检测方法,该方法只需要训练一轮就可以得到性能良好的检测效果,有效的节省了大量的时间。
为实现上述目的,本发明所提供的技术方案为:一种单阶段半监督图像人体目标检测方法,包括以下步骤:
S1、对视频帧数据进行划分,分有真实标签图像集合
Figure BDA0002391148090000021
无真实标签图像集合
Figure BDA0002391148090000022
和测试数据集合
Figure BDA0002391148090000023
S2、从无真实标签图像集合
Figure BDA0002391148090000029
中获取一张无真实标签图像
Figure BDA0002391148090000024
经过VGG16网络和RPN网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像
Figure BDA0002391148090000025
的临时标签;
S3、输入两张图像到整个网络的入口,该整个网络是由VGG16、RPN和IoU三个网络组成,记为网络VGG16+RPN+IoU,其中一张为步骤S2的无真实标签图像
Figure BDA0002391148090000026
另一张为从真实标签图像集合
Figure BDA00023911480900000210
种获取的真实标签图像
Figure BDA0002391148090000027
用于当前一轮的训练,用损失函数进行约束;
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练;
S5、用测试数据集合
Figure BDA0002391148090000028
对训练好的完整网络VGG16+RPN+IoU进行测试评估,得到人体目标检测的结果。
在步骤S1中,需要对视频帧的图像进行缩放处理,以期达到理想的训练效果和减少数据运算量;根据需要对视频帧数据进行分类,先把视频帧数据分为训练数据和测试数据集合
Figure BDA0002391148090000031
两类;再将训练数据分为两类:真实标签图像集合
Figure BDA0002391148090000032
和无真实标签图像集合
Figure BDA0002391148090000033
的比例为1:19,即训练数据等于
Figure BDA0002391148090000034
一张真实标签图像记为
Figure BDA0002391148090000035
Figure BDA0002391148090000036
一张无真实标签图像记为
Figure BDA0002391148090000037
Figure BDA0002391148090000038
在步骤S2中,对无真实标签图像
Figure BDA0002391148090000039
标注临时标签,对于整个网络模型VGG16+RPN+IoU,采取和测试阶段相同的模式,对参数进行固定,不进行更新;通过RPN网络获取分类信息和位置坐标信息,再选取高置信度的人体框通过IoU网络得到最后的IoU得分预测,选取IoU大于或等于预定阈值的人体框预测信息作为无真实标签图像
Figure BDA00023911480900000310
的临时标签。
在步骤S3中,所述VGG16网络包含16个卷积层,分有5组;所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S31、输入包含真实标签图像
Figure BDA00023911480900000312
和无真实标签图像
Figure BDA00023911480900000311
的图片I;
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor预测的分类得分,B为对应anchor预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU网络中,最后得到人体框对应的IoU预测。
在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti
真实的位置坐标信息记为
Figure BDA0002391148090000041
Figure BDA0002391148090000042
为真实人体框中心横坐标,
Figure BDA0002391148090000043
为真实人体框中心纵坐标,
Figure BDA0002391148090000044
为真实人体框的宽,
Figure BDA0002391148090000045
为真实人体框的高,
Figure BDA0002391148090000046
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
Figure BDA0002391148090000047
根据anchor与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor和真实人体框回归获得,分类标准如下:
Figure BDA0002391148090000051
RPN网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN网络的另一个损失函数如下:
Figure BDA0002391148090000052
Figure BDA0002391148090000053
其中
Figure BDA0002391148090000054
式中,
Figure BDA0002391148090000055
是真实人体框位置坐标信息,ti是预测的人体框位置坐标信息,它们都包含着4个位置坐标信息,分别为中心横坐标、中心纵坐标、人体框宽和人体框高,即j∈{x,y,w,h};
最小化损失函数lboxReg使得RPN网络对每一个预测人体框趋向于最接近的真实的人体框;RPN网络能够在每一个图像中通过下面的损失函数进行端到端训练:
Figure BDA0002391148090000056
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像
Figure BDA0002391148090000066
和无真实标签图像
Figure BDA00023911480900000610
无真实标签图像通过整个网络VGG16+RPN+IoU得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签的无真实标签图像
Figure BDA0002391148090000068
和真实标签图像
Figure BDA0002391148090000069
一同送入训练完整网络VGG16+RPN+IoU,当将无真实标签的图像送入到完整网络VGG16+RPN+IoU时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定RPN网络的优化,如下所示:
Figure BDA0002391148090000061
式中,λu是权重因子,用来调节有标签图像和无标签图像的权重,因为在训练过程中,有真实标签图像的人体框的位置坐标信息精确度比带有临时标签的无真实标签图像高,所以λu≤1,
Figure BDA0002391148090000062
为无真实标签图像临时分类标签,
Figure BDA0002391148090000063
在步骤S310中,IoU网络对应的损失函数如下:
liouEst(ui,ti)=lcroEnt(ui,I(ti;θI))
其中,lcroEnt(ui,I(ti;θI))=-uilogI(ti;θI),IoU网络的参数记为θI,I(ti;θI)定义为预测人体框ti的IoU(交并比),相应的真实人体框目标ui的IoU(交并比)定义为
Figure BDA0002391148090000064
优化IoU网络的公式如下:
Figure BDA0002391148090000065
在步骤S4中,真实标签图像集合
Figure BDA0002391148090000071
和无真实标签图像集合
Figure BDA0002391148090000072
的数据量大,为了很好地训练整个网络VGG16+RPN+IoU,训练的次数设定在60000,每训练完一次,再随机从剩下的数据中选取进行新一轮的训练,当所有的数据都训练完后,重新把数据打乱训练,直至达到预设定次数,这样能够充分学习到样本的特征。
在步骤S5中,固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合
Figure BDA0002391148090000073
的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测人体框,达到人体目标检测的目的,再用生成的人体框和真实的人体框进行相应的计算,得到测试的评估结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明采用了现在流行的深度学习检测框架作为基础模型,和传统的检测方法比较,检测效果更好,处理更方便,之前的检测方法,多数要在后面加一个支持向量机进行分类。之前对于训练检测框主要是采用滑动窗口的方式进行图像的裁剪,增加了大量的难度和成本,而在Faster R-CNN中,使用了anchor(锚点)的机制很好地解决了上述的问题。同时也大大减轻了对GPU的开销和内存的空间压力,另外,本发明中的交并比网络模块更好地显示和真实行人的位置关系,可以提供很好的辅助信息,减少检测框架的错误率。
2、传统的半监督行人检测模型会将整个过程分成多轮,最开始的一轮只会使用少量有标签的图像训练模型;接下来才开始使用无标签图像训练模型。本发明改变了之前的训练方法,通过设置不同来源图像权重加上交并比网络的强大过滤能力可以使得一轮中实现之前多轮的效果和功能,极大地减少了时间,也使得无标签图像的临时标签信息在动态中生成,减少了固定伪标签对训练网络模型的影响和预测框的遗漏,也极大增加标签的多样性。
3、半监督训练过程中,最大的挑战是怎么能够从无标签图像中得到比较准确的标签信息,在很多情况下,往往得到的临时标签信息可能很糟糕,如果使用标签不准确的信息来训练模型会让模型无法收敛。如果仅仅依靠单个检测器,确实无法保证检测的准确性,即使对应检测位置的置信度很高。在本发明中,引入一个交并比网络可以大幅度改善结果,减少错误标签的生成和采用,给网络训练带来更好的稳定性。
4、大多数使用伪标签图像的模型大多是采用和有标签图像的训练方式一样的方法。这里面存在一个很大的问题,就是假定得到的伪标签信息都是准确的,然而在实际中,情况却并非如此。衡量一个临时标签信息的准确性使用交并比的标准是再适合不过的,在判断是否检测到的,大多使用0.5的标准;在生成伪标签的情况下,能够得到让交并比达到0.8已经是很不容易的事情,特别是在目标标签很小的情况下,就更加困难。
5、本发明减少了内存显存空间的使用。同时更新真实标签图像和无真实标签图像,使用同一个损失函数减少了参数的重复更新,达到减少内存显存的效果。
附图说明
图1为本发明方法的流程框图。
图2为本发明方法的操作示意图,图中检测网络是指RPN网络。
图3为本发明中整个模型网络(VGG16+RPN+IoU)的结构图,图中cls score和boxprob分别是预测得分信息、坐标信息,iou score是交并比信息。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图3所示,本实施例所提供的单阶段半监督图像人体目标检测方法,包括以下步骤:
S1、对视频帧数据进行划分,分有真实标签图像集合
Figure BDA0002391148090000091
无真实标签图像集合
Figure BDA0002391148090000092
和测试数据集合
Figure BDA0002391148090000093
具体如下:
需要对视频帧的图像进行缩放处理,以期达到理想的训练效果和减少数据运算量;根据需要对视频帧数据进行分类,先把视频帧数据分为训练数据和测试数据集合
Figure BDA0002391148090000094
两类;再将训练数据分为两类:真实标签图像集合
Figure BDA0002391148090000095
和无真实标签图像集合
Figure BDA0002391148090000096
的比例为1:19,即训练数据等于
Figure BDA0002391148090000097
一张真实标签图像记为
Figure BDA0002391148090000098
Figure BDA0002391148090000099
一张无真实标签图像记为
Figure BDA00023911480900000910
Figure BDA00023911480900000911
S2、从无真实标签图像集合
Figure BDA00023911480900000912
中获取一张无真实标签图像
Figure BDA00023911480900000913
经过VGG16网络和RPN(区域选择)网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU(交并比)网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像
Figure BDA00023911480900000914
的临时标签,具体如下:
对无真实标签图像
Figure BDA00023911480900000915
标注临时标签,对于整个网络模型(VGG16+RPN+IoU),采取和测试阶段相同的模式,对参数进行固定,不进行更新;通过RPN(区域选择网络)获取分类信息和位置坐标信息,再选取高置信度的人体框通过IoU(交并比)网络得到最后的IoU(交并比)得分预测,选取IoU(交并比)大于或等于预定阈值的人体框预测信息作为无真实标签图像
Figure BDA00023911480900000916
的临时标签。
S3、输入两张图像到整个网络(VGG16+RPN+IoU)的入口:一张为步骤S2的无真实标签图像
Figure BDA00023911480900000917
另一张为从真实标签图像集合
Figure BDA00023911480900000918
种获取的真实标签图像
Figure BDA00023911480900000919
用于当前一轮的训练,用损失函数进行约束。
所述VGG16网络包含16个卷积层(分为5组),所述RPN(区域选择)网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU(交并比)网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S31、输入图片I(有真实标签图像
Figure BDA0002391148090000101
和无真实标签图像
Figure BDA0002391148090000102
);
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor(锚点)预测的分类得分,B为对应anchor(锚点)预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU(交并比)网络中,最后得到人体框对应的IoU(交并比)预测。
在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti
真实的位置坐标信息记为
Figure BDA0002391148090000111
Figure BDA0002391148090000112
为真实人体框中心横坐标,
Figure BDA0002391148090000113
为真实人体框中心纵坐标,
Figure BDA0002391148090000114
为真实人体框的宽,
Figure BDA0002391148090000115
为真实人体框的高,
Figure BDA0002391148090000116
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
Figure BDA0002391148090000117
根据anchor(锚点)与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor(锚点)是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor(锚点)和真实人体框回归获得,分类标准如下:
Figure BDA0002391148090000118
RPN(区域选择)网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN(区域选择)网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN(区域选择)网络的另一个损失函数如下:
Figure BDA0002391148090000119
Figure BDA00023911480900001110
其中
Figure BDA0002391148090000121
式中,
Figure BDA0002391148090000122
是真实人体框位置坐标信息,ti是预测的人体框位置坐标信息,它们都包含着4个位置坐标信息,分别为中心横坐标、中心纵坐标、人体框宽和人体框高,即j∈{x,y,w,h};
最小化损失函数lboxReg使得RPN(区域选择)网络对每一个预测人体框趋向于最接近的真实的人体框;RPN(区域选择)网络能够在每一个图像中通过下面的损失函数进行端到端训练:
Figure BDA0002391148090000123
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像
Figure BDA0002391148090000124
和无真实标签图像
Figure BDA0002391148090000125
无真实标签图像通过整个网络(VGG16+RPN+IoU)得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签(预测信息:位置坐标信息、分类得分信息、交并比信息)的无真实标签图像
Figure BDA0002391148090000126
和真实标签图像
Figure BDA0002391148090000127
一同送入训练完整网络(VGG16+RPN+IoU),当将无真实标签的图像送入到完整网络(VGG16+RPN+IoU)时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定检测模块的优化,如下所示:
Figure BDA0002391148090000128
式中,λu是权重因子,用来调节有标签图像和无标签图像的权重,因为在训练过程中,有真实标签图像的人体框的位置坐标信息精确度比带有临时标签的无真实标签图像高,所以λu≤1,
Figure BDA0002391148090000131
为无真实标签图像临时分类标签,
Figure BDA0002391148090000132
在步骤S310中,IoU(交并比)网络对应的损失函数如下:
liouEst(ui,ti)=lcroEnt(ui,I(ti;θI))
其中,lcroEnt(ui,I(ti;θI))=-uilogI(ti;θI),IoU(交并比)网络的参数记为θI,I(ti;θI)定义为预测人体框ti的IoU(交并比),相应的真实人体框目标ui定义为
Figure BDA0002391148090000133
优化IoU(交并比)网络的公式如下:
Figure BDA0002391148090000134
在我们的设置中,仅使用了有限数量的训练图像。利用无真实标签的图像进行数据扩充至关重要,可以期望有效地增加训练图像的多样性和数量,以提高检测模型的泛化能力。为此,我们包含无真实的图像进入训练过程,从而可以将获得的高置信度伪标签作为该图像的临时标签用于优化模型。IoU(交并比)网络模块在消除训练过程中的错误传播方面起着重要作用,因为由RPN(区域选择网络)生成错误识别的图像伪标签可能会误导后续模型训练。
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练。
真实标签图像集合
Figure BDA0002391148090000135
和无真实标签图像集合
Figure BDA0002391148090000136
的数据量大,为了很好地训练整个网络模型(VGG16+RPN+IoU),训练的次数设定在60000,每训练完一次,再随机从剩下的数据中选取进行新一轮的训练,当所有的数据都训练完后,重新把数据打乱训练,直至达到预设定次数,这样能够充分学习到样本的特征。
S5、用测试数据集合
Figure BDA0002391148090000137
对训练好的网络(VGG16+RPN+IoU)进行测试评估,得到人体目标检测的结果。
固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合
Figure BDA0002391148090000141
的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测人体框,达到人体目标检测的目的,再用生成的人体框和真实的人体框进行相应的计算,得到测试的评估结果。
下面我们使用Caltech数据集为例,可分为4250训练图像,4024帧测试图像。再将4250帧图像中每20帧取1帧图像作为有标签的图像,剩余图像作为无标签图像,将图片放大为720x960的像素,然后减去网络像素均值,放入到网络中。
首先让一张无真实标签图像进入固定好的网络,得到临时标签赋予无真实标签图像,然后把一张真实标签图像放入网络中(这次不固定网络)和无真实标签图像一同训练网络。训练过程中,有标签图像因为标签信息是完全真实的,无真实标签图像的临时标签信息是由网络得到的,不确定性很大,设置权重λu=0.1。训练初始学习率为0.001,训练到4万次迭代将学习率下降为0.0005;动量大小为0.9。
按照上述方法过程,在Caltech训练到6万次迭代,整个模型基本趋于稳定,检测结果表现出很好的效果,达到人体目标检测目标,少量图像可以带来巨大的提升。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种单阶段半监督图像人体目标检测方法,其特征在于,包括以下步骤:
S1、对视频帧数据进行划分,分有真实标签图像集合
Figure FDA0002391148080000011
无真实标签图像集合
Figure FDA0002391148080000012
和测试数据集合
Figure FDA0002391148080000013
S2、从无真实标签图像集合
Figure FDA0002391148080000014
中获取一张无真实标签图像
Figure FDA0002391148080000015
经过VGG16网络和RPN网络得到预测的位置坐标信息和相应的得分信息,将高置信度的位置坐标信息和得分信息送入到IoU网络,得到预测交并比信息,选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像
Figure FDA0002391148080000016
的临时标签;
S3、输入两张图像到整个网络的入口,该整个网络是由VGG16、RPN和IoU三个网络组成,记为网络VGG16+RPN+IoU,其中一张为步骤S2的无真实标签图像
Figure FDA0002391148080000017
另一张为从真实标签图像集合
Figure FDA0002391148080000018
种获取的真实标签图像
Figure FDA0002391148080000019
用于当前一轮的训练,用损失函数进行约束;
S4、重复步骤S2-S3,达到预先设定训练次数后完成训练;
S5、用测试数据集合
Figure FDA00023911480800000110
对训练好的完整网络VGG16+RPN+IoU进行测试评估,得到人体目标检测的结果。
2.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S1中,需要对视频帧的图像进行缩放处理,以期达到理想的训练效果和减少数据运算量;根据需要对视频帧数据进行分类,先把视频帧数据分为训练数据和测试数据集合
Figure FDA00023911480800000111
两类;再将训练数据分为两类:真实标签图像集合
Figure FDA00023911480800000112
和无真实标签图像集合
Figure FDA00023911480800000113
的比例为1:19,即训练数据等于
Figure FDA00023911480800000114
一张真实标签图像记为
Figure FDA00023911480800000115
Figure FDA00023911480800000116
一张无真实标签图像记为
Figure FDA00023911480800000117
Figure FDA00023911480800000118
3.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S2中,对无真实标签图像
Figure FDA00023911480800000119
标注临时标签,对于整个网络模型VGG16+RPN+IoU,采取和测试阶段相同的模式,对参数进行固定,不进行更新;通过RPN网络获取分类信息和位置坐标信息,再选取高置信度的人体框通过IoU网络得到最后的IoU得分预测,选取IoU大于或等于预定阈值的人体框预测信息作为无真实标签图像
Figure FDA0002391148080000021
的临时标签。
4.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S3中,所述VGG16网络包含16个卷积层,分有5组;所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层,所述IoU网络包括三个全连接层对预测人体框进行拟合,具体的训练过程如下:
S31、输入包含真实标签图像
Figure FDA0002391148080000022
和无真实标签图像
Figure FDA0002391148080000023
的图片I;
S32、图片I经过第一组64个通道卷积层,得到特征图F1,经过最大化池化层得到特征图F1';
S33、将特征图F1'经过第二组128个通道卷积层,得到特征图F2,经过最大化池化层得到特征图F2';
S34、将特征图F2'经过第三组256个通道卷积层,得到特征图F3,经过最大化池化层得到特征图F3';
S35、将特征图F3'经过第四组512个通道卷积层,得到特征图F4,经过最大化池化层得到特征图F4';
S36、将特征图F4'经过第五组512个通道卷积层,得到特征图F5;
S37、将特征图F5经过RPN网络得到大小相同的特征图F5',然后通过分类和定位卷积层得到相应的输出C、B;其中,C为对应anchor预测的分类得分,B为对应anchor预测的人体框位置坐标信息;
S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选,选取分类得分大于预定阈值的人体框作进一步的甄别;
S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F;
S310、特征图F转换成向量f输入到IoU网络中,最后得到人体框对应的IoU预测。
5.根据权利要求4所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S37中,预测的位置坐标信息记为ti=(ti,x,ti,y,ti,w,ti,h),ti,x为预测人体框中心横坐标,ti,y为预测人体框中心纵坐标,ti,w为预测人体框的宽,ti,h为预测人体框的高,B=∪ti
真实的位置坐标信息记为
Figure FDA0002391148080000031
Figure FDA0002391148080000032
为真实人体框中心横坐标,
Figure FDA0002391148080000033
为真实人体框中心纵坐标,
Figure FDA0002391148080000034
为真实人体框的宽,
Figure FDA0002391148080000035
为真实人体框的高,
Figure FDA0002391148080000036
交并比为重叠面积和全部面积的比值,其中该全部面积要去掉一个重复面积,计算公式如下:
Figure FDA0002391148080000037
根据anchor与真实人体框的交并比的值分为正负类,正类标记为1,负类标记为0;anchor是预先设置好的滑动窗口框,有不同的大小尺寸,真实位置坐标信息是anchor和真实人体框回归获得,分类标准如下:
Figure FDA0002391148080000038
RPN网络中对应的损失函数如下:
lcroEnt(ci,R(ti;θR))=-cilogR(ti;θR)
式中,R(ti;θR)为用RPN网络预测的概率分布,ci为当前预测框对应的真实类标签,ti为预测的人体框位置坐标信息,θR为更新参数;
RPN网络的另一个损失函数如下:
Figure FDA0002391148080000041
Figure FDA0002391148080000042
其中
Figure FDA0002391148080000043
式中,
Figure FDA0002391148080000044
是真实人体框位置坐标信息,ti是预测的人体框位置坐标信息,它们都包含着4个位置坐标信息,分别为中心横坐标、中心纵坐标、人体框宽和人体框高,即j∈{x,y,w,h};
最小化损失函数lboxReg使得RPN网络对每一个预测人体框趋向于最接近的真实的人体框;RPN网络能够在每一个图像中通过下面的损失函数进行端到端训练:
Figure FDA0002391148080000045
式中,λr是用来平衡分类和回归两个任务,回归任务只应用到正类,对于负类,因为不存在人体框位置坐标信息,所以不参与回归训练;
其中,对于输入的两类不同图像,具体情况如下:
训练过程中同时输入有真实标签图像
Figure FDA0002391148080000046
和无真实标签图像
Figure FDA0002391148080000047
无真实标签图像通过整个网络VGG16+RPN+IoU得到预测分类信息、预测坐标信息、交并比信息,将这些信息作为无真实标签图像的临时标签信息,得到相应临时标签的无真实标签图像
Figure FDA0002391148080000051
和真实标签图像
Figure FDA0002391148080000052
一同送入训练完整网络VGG16+RPN+IoU,当将无真实标签的图像送入到完整网络VGG16+RPN+IoU时,预测人体框是临时标签,将它们与包含真实标签图像的预测框组合在一起以优化RPN网络,根据真实标签图像和无真实标签图像制定RPN网络的优化,如下所示:
Figure FDA0002391148080000053
式中,λu是权重因子,用来调节有标签图像和无标签图像的权重,因为在训练过程中,有真实标签图像的人体框的位置坐标信息精确度比带有临时标签的无真实标签图像高,所以λu≤1,
Figure FDA0002391148080000054
为无真实标签图像临时分类标签,
Figure FDA0002391148080000055
6.根据权利要求4所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S310中,IoU网络对应的损失函数如下:
liouEst(ui,ti)=lcroEnt(ui,I(ti;θI))
其中,lcroEnt(ui,I(ti;θI))=-uilogI(ti;θI),IoU网络的参数记为θI,I(ti;θI)定义为预测人体框ti的交并比IoU,相应的真实人体框目标ui的交并比IoU()定义为
Figure FDA0002391148080000056
优化IoU网络的公式如下:
Figure FDA0002391148080000057
7.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S4中,真实标签图像集合
Figure FDA0002391148080000058
和无真实标签图像集合
Figure FDA0002391148080000059
的数据量大,为了很好地训练整个网络VGG16+RPN+IoU,训练的次数设定在60000,每训练完一次,再随机从剩下的数据中选取进行新一轮的训练,当所有的数据都训练完后,重新把数据打乱训练,直至达到预设定次数,这样能够充分学习到样本的特征。
8.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法,其特征在于:在步骤S5中,固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合
Figure FDA0002391148080000061
的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测人体框,达到人体目标检测的目的,再用生成的人体框和真实的人体框进行相应的计算,得到测试的评估结果。
CN202010114793.5A 2020-02-25 2020-02-25 一种单阶段半监督图像人体目标检测方法 Pending CN111368660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010114793.5A CN111368660A (zh) 2020-02-25 2020-02-25 一种单阶段半监督图像人体目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010114793.5A CN111368660A (zh) 2020-02-25 2020-02-25 一种单阶段半监督图像人体目标检测方法

Publications (1)

Publication Number Publication Date
CN111368660A true CN111368660A (zh) 2020-07-03

Family

ID=71208264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010114793.5A Pending CN111368660A (zh) 2020-02-25 2020-02-25 一种单阶段半监督图像人体目标检测方法

Country Status (1)

Country Link
CN (1) CN111368660A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931641A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于权重多样性正则化的行人重识别方法及其应用
CN112381148A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于随机区域插值的半监督图像分类方法
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112966601A (zh) * 2021-03-05 2021-06-15 上海深硅信息科技有限公司 一种人工智能师徒半监督学习的方法
CN113139594A (zh) * 2021-04-19 2021-07-20 北京理工大学 一种机载图像无人机目标自适应检测方法
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN115937254A (zh) * 2022-11-25 2023-04-07 中国人民解放军国防科技大学 一种基于半监督学习的多空中飞行目标跟踪方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN110321815A (zh) * 2019-06-18 2019-10-11 中国计量大学 一种基于深度学习的道路裂缝识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN110321815A (zh) * 2019-06-18 2019-10-11 中国计量大学 一种基于深度学习的道路裂缝识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XUEXIAN CHEN ET AL.: "Self-Enhanced R-CNNs for Human Detection With Semi-Supervised Assumptions", 《IEEE ACCESS》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931641A (zh) * 2020-08-07 2020-11-13 华南理工大学 基于权重多样性正则化的行人重识别方法及其应用
CN111931641B (zh) * 2020-08-07 2023-08-22 华南理工大学 基于权重多样性正则化的行人重识别方法及其应用
CN112381148A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于随机区域插值的半监督图像分类方法
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112966601A (zh) * 2021-03-05 2021-06-15 上海深硅信息科技有限公司 一种人工智能师徒半监督学习的方法
CN113139594A (zh) * 2021-04-19 2021-07-20 北京理工大学 一种机载图像无人机目标自适应检测方法
CN113537555A (zh) * 2021-06-03 2021-10-22 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN113537555B (zh) * 2021-06-03 2023-04-11 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN115937254A (zh) * 2022-11-25 2023-04-07 中国人民解放军国防科技大学 一种基于半监督学习的多空中飞行目标跟踪方法和系统
CN115937254B (zh) * 2022-11-25 2023-10-31 中国人民解放军国防科技大学 一种基于半监督学习的多空中飞行目标跟踪方法和系统

Similar Documents

Publication Publication Date Title
CN110111335B (zh) 一种自适应对抗学习的城市交通场景语义分割方法及系统
CN111444821B (zh) 一种城市道路标志自动识别方法
CN111368660A (zh) 一种单阶段半监督图像人体目标检测方法
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN112396027B (zh) 基于图卷积神经网络的车辆重识别方法
CN106599797B (zh) 一种基于局部并行神经网络的红外人脸识别方法
CN105512640B (zh) 一种基于视频序列的人流量统计方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN101630363A (zh) 复杂背景下彩色图像人脸的快速检测方法
CN104598924A (zh) 一种目标匹配检测方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN104954741B (zh) 深层次自我学习网络实现矿车空满状态的检测方法和系统
CN113592911B (zh) 表观增强深度目标跟踪方法
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN104036284A (zh) 基于Adaboost算法的多尺度行人检测方法
CN106023257A (zh) 一种基于旋翼无人机平台的目标跟踪方法
CN113065460B (zh) 基于多任务级联的猪脸面部表情识别框架的建立方法
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN114648665A (zh) 一种弱监督目标检测方法及系统
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN111540203B (zh) 基于Faster-RCNN调节绿灯通行时间的方法
CN114049572A (zh) 识别小目标的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200703