CN111368660A

CN111368660A - 一种单阶段半监督图像人体目标检测方法

Info

Publication number: CN111368660A
Application number: CN202010114793.5A
Authority: CN
Inventors: 陈学贤; 吴斯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-03

Abstract

本发明公开了一种单阶段半监督图像人体目标检测方法，该方法是从视频帧中选取少量有真实标签的图像，剩下其它视频帧作为无真实标签图像；两类图像同时送入深度网络中训练网络；训练过程会有所不同，带有真实标签图像可以正常训练，但是无真实标签图像无法正常训练，所以会先通过网络获得高置信度的位置信息作为无真实标签图像的临时标签，然后再进行正常的训练；为了能够使网络不被临时标签的图像带偏，通过后续筛选和权重设置加以限制；直到网络模型训练到预先设定的次数。本发明方法是同时训练两类图像，只需要一个阶段，节约大量的时间成本。

Description

一种单阶段半监督图像人体目标检测方法

技术领域

本发明涉及计算机视觉的技术领域，尤其是指一种单阶段半监督图像人体目标检测方法。

背景技术

行人检测是利用计算机视觉技术识别图像或者视频帧中是否存在行人并给予精确定位。该技术应用领域广泛，可与行人跟踪、行人重识别等技术结合，能够很好地应用于人工智能系统、车辆辅助驾驶系统、智能视频监控、人体行为分析、智能交通等现实场景领域。

由于行人一些独特的特性，外观易受穿着颜色、尺度、遮挡、姿态和视角等多方面影响，使得行人检测成为计算机视觉领域中一个不仅具有研究价值而且又极具挑战性的热门研究课题。

半监督学习是模式识别领域和机器学习领域研究的重点问题，也是有监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无真实标签数据，同时使用少量真实标签数据，来进行模式识别工作。当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性，因此，半监督学习目前正越来越受到人们的重视。

基于统计学习的方法根据大量的图像构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。由于深度神经网络，通过引入具有CNN特征的区域(R-CNN)获得了更显着的增益。DNN或最具代表性的CNN以与传统方法完全不同的方式起作用。他们拥有更深层次的架构，能够学习比浅层更复杂的功能。此外，表现力和强大的训练算法允许学习信息对象表示，而无需手动设计功能。

自R-CNN的提议以来，已经提出了大量改进的模型，包括Fast R-CNN，它共同优化了分类和边界框回归任务，Faster R-CNN需要额外的子网来生成区域提议和YOLO通过固定网格回归完成目标检测。所有这些都比原始R-CNN带来不同程度的检测性能改进，使得实时和准确的物体检测变得更加可实现。

发明内容

本发明的目的在于克服现有半监督训练过程繁琐的问题，提出了一种单阶段半监督图像人体目标检测方法，该方法只需要训练一轮就可以得到性能良好的检测效果，有效的节省了大量的时间。

为实现上述目的，本发明所提供的技术方案为：一种单阶段半监督图像人体目标检测方法，包括以下步骤：

S1、对视频帧数据进行划分，分有真实标签图像集合

无真实标签图像集合

和测试数据集合

S2、从无真实标签图像集合

中获取一张无真实标签图像

经过VGG16网络和RPN网络得到预测的位置坐标信息和相应的得分信息，将高置信度的位置坐标信息和得分信息送入到IoU网络，得到预测交并比信息，选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像

的临时标签；

S3、输入两张图像到整个网络的入口，该整个网络是由VGG16、RPN和IoU三个网络组成，记为网络VGG16+RPN+IoU，其中一张为步骤S2的无真实标签图像

另一张为从真实标签图像集合

种获取的真实标签图像

用于当前一轮的训练，用损失函数进行约束；

S4、重复步骤S2-S3，达到预先设定训练次数后完成训练；

S5、用测试数据集合

对训练好的完整网络VGG16+RPN+IoU进行测试评估，得到人体目标检测的结果。

在步骤S1中，需要对视频帧的图像进行缩放处理，以期达到理想的训练效果和减少数据运算量；根据需要对视频帧数据进行分类，先把视频帧数据分为训练数据和测试数据集合

两类；再将训练数据分为两类：真实标签图像集合

和无真实标签图像集合

的比例为1：19，即训练数据等于

一张真实标签图像记为

即

一张无真实标签图像记为

即

在步骤S2中，对无真实标签图像

标注临时标签，对于整个网络模型VGG16+RPN+IoU，采取和测试阶段相同的模式，对参数进行固定，不进行更新；通过RPN网络获取分类信息和位置坐标信息，再选取高置信度的人体框通过IoU网络得到最后的IoU得分预测，选取IoU大于或等于预定阈值的人体框预测信息作为无真实标签图像

的临时标签。

在步骤S3中，所述VGG16网络包含16个卷积层，分有5组；所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层，所述IoU网络包括三个全连接层对预测人体框进行拟合，具体的训练过程如下：

S31、输入包含真实标签图像

和无真实标签图像

的图片I；

S32、图片I经过第一组64个通道卷积层，得到特征图F1，经过最大化池化层得到特征图F1'；

S33、将特征图F1'经过第二组128个通道卷积层，得到特征图F2，经过最大化池化层得到特征图F2'；

S34、将特征图F2'经过第三组256个通道卷积层，得到特征图F3，经过最大化池化层得到特征图F3'；

S35、将特征图F3'经过第四组512个通道卷积层，得到特征图F4，经过最大化池化层得到特征图F4'；

S36、将特征图F4'经过第五组512个通道卷积层，得到特征图F5；

S37、将特征图F5经过RPN网络得到大小相同的特征图F5'，然后通过分类和定位卷积层得到相应的输出C、B；其中，C为对应anchor预测的分类得分，B为对应anchor预测的人体框位置坐标信息；

S38、将步骤S37中得到的分类得分信息和位置坐标信息进行筛选，选取分类得分大于预定阈值的人体框作进一步的甄别；

S39、将步骤S38选取好的人体框在步骤S36中的特征图F5上挖取对应的特征图F；

S310、特征图F转换成向量f输入到IoU网络中，最后得到人体框对应的IoU预测。

在步骤S37中，预测的位置坐标信息记为t_i＝(t_i,x,t_i,y,t_i,w,t_i,h),t_i,x为预测人体框中心横坐标，t_i,y为预测人体框中心纵坐标，t_i,w为预测人体框的宽，t_i,h为预测人体框的高，B＝∪t_i；

真实的位置坐标信息记为

为真实人体框中心横坐标，

为真实人体框中心纵坐标，

为真实人体框的宽，

为真实人体框的高，

交并比为重叠面积和全部面积的比值，其中该全部面积要去掉一个重复面积，计算公式如下：

根据anchor与真实人体框的交并比的值分为正负类，正类标记为1，负类标记为0；anchor是预先设置好的滑动窗口框，有不同的大小尺寸，真实位置坐标信息是anchor和真实人体框回归获得，分类标准如下：

RPN网络中对应的损失函数如下：

l_croEnt(c_i,R(t_i；θ_R))＝-c_ilogR(t_i；θ_R)

式中，R(t_i；θ_R)为用RPN网络预测的概率分布，c_i为当前预测框对应的真实类标签，t_i为预测的人体框位置坐标信息，θ_R为更新参数；

RPN网络的另一个损失函数如下：

令

其中

式中，

是真实人体框位置坐标信息，t_i是预测的人体框位置坐标信息，它们都包含着4个位置坐标信息，分别为中心横坐标、中心纵坐标、人体框宽和人体框高，即j∈{x,y,w,h}；

最小化损失函数l_boxReg使得RPN网络对每一个预测人体框趋向于最接近的真实的人体框；RPN网络能够在每一个图像中通过下面的损失函数进行端到端训练：

式中，λ_r是用来平衡分类和回归两个任务，回归任务只应用到正类，对于负类，因为不存在人体框位置坐标信息，所以不参与回归训练；

其中，对于输入的两类不同图像，具体情况如下：

训练过程中同时输入有真实标签图像

和无真实标签图像

无真实标签图像通过整个网络VGG16+RPN+IoU得到预测分类信息、预测坐标信息、交并比信息，将这些信息作为无真实标签图像的临时标签信息，得到相应临时标签的无真实标签图像

和真实标签图像

一同送入训练完整网络VGG16+RPN+IoU，当将无真实标签的图像送入到完整网络VGG16+RPN+IoU时，预测人体框是临时标签，将它们与包含真实标签图像的预测框组合在一起以优化RPN网络，根据真实标签图像和无真实标签图像制定RPN网络的优化，如下所示：

式中，λ_u是权重因子，用来调节有标签图像和无标签图像的权重，因为在训练过程中，有真实标签图像的人体框的位置坐标信息精确度比带有临时标签的无真实标签图像高，所以λ_u≤1，

为无真实标签图像临时分类标签，

在步骤S310中，IoU网络对应的损失函数如下：

l_iouEst(u_i,t_i)＝l_croEnt(u_i,I(t_i；θ_I))

其中，l_croEnt(u_i,I(t_i；θ_I))＝-u_ilogI(t_i；θ_I)，IoU网络的参数记为θ_I，I(t_i；θ_I)定义为预测人体框t_i的IoU(交并比)，相应的真实人体框目标u_i的IoU(交并比)定义为

优化IoU网络的公式如下：

在步骤S4中，真实标签图像集合

和无真实标签图像集合

的数据量大，为了很好地训练整个网络VGG16+RPN+IoU，训练的次数设定在60000，每训练完一次，再随机从剩下的数据中选取进行新一轮的训练，当所有的数据都训练完后，重新把数据打乱训练，直至达到预设定次数，这样能够充分学习到样本的特征。

在步骤S5中，固定训练好的网络模型，整个测试过程中不更新网络，不使用损失函数；把测试数据集合

的每一张图像依次输入网络模型中，每一张图像都会得到相应的预测人体框，达到人体目标检测的目的，再用生成的人体框和真实的人体框进行相应的计算，得到测试的评估结果。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明采用了现在流行的深度学习检测框架作为基础模型，和传统的检测方法比较，检测效果更好，处理更方便，之前的检测方法，多数要在后面加一个支持向量机进行分类。之前对于训练检测框主要是采用滑动窗口的方式进行图像的裁剪，增加了大量的难度和成本，而在Faster R-CNN中，使用了anchor(锚点)的机制很好地解决了上述的问题。同时也大大减轻了对GPU的开销和内存的空间压力，另外，本发明中的交并比网络模块更好地显示和真实行人的位置关系，可以提供很好的辅助信息，减少检测框架的错误率。

2、传统的半监督行人检测模型会将整个过程分成多轮，最开始的一轮只会使用少量有标签的图像训练模型；接下来才开始使用无标签图像训练模型。本发明改变了之前的训练方法，通过设置不同来源图像权重加上交并比网络的强大过滤能力可以使得一轮中实现之前多轮的效果和功能，极大地减少了时间，也使得无标签图像的临时标签信息在动态中生成，减少了固定伪标签对训练网络模型的影响和预测框的遗漏，也极大增加标签的多样性。

3、半监督训练过程中，最大的挑战是怎么能够从无标签图像中得到比较准确的标签信息，在很多情况下，往往得到的临时标签信息可能很糟糕，如果使用标签不准确的信息来训练模型会让模型无法收敛。如果仅仅依靠单个检测器，确实无法保证检测的准确性，即使对应检测位置的置信度很高。在本发明中，引入一个交并比网络可以大幅度改善结果，减少错误标签的生成和采用，给网络训练带来更好的稳定性。

4、大多数使用伪标签图像的模型大多是采用和有标签图像的训练方式一样的方法。这里面存在一个很大的问题，就是假定得到的伪标签信息都是准确的，然而在实际中，情况却并非如此。衡量一个临时标签信息的准确性使用交并比的标准是再适合不过的，在判断是否检测到的，大多使用0.5的标准；在生成伪标签的情况下，能够得到让交并比达到0.8已经是很不容易的事情，特别是在目标标签很小的情况下，就更加困难。

5、本发明减少了内存显存空间的使用。同时更新真实标签图像和无真实标签图像，使用同一个损失函数减少了参数的重复更新，达到减少内存显存的效果。

附图说明

图1为本发明方法的流程框图。

图2为本发明方法的操作示意图，图中检测网络是指RPN网络。

图3为本发明中整个模型网络(VGG16+RPN+IoU)的结构图，图中cls score和boxprob分别是预测得分信息、坐标信息，iou score是交并比信息。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1至图3所示，本实施例所提供的单阶段半监督图像人体目标检测方法，包括以下步骤：

S1、对视频帧数据进行划分，分有真实标签图像集合

无真实标签图像集合

和测试数据集合

具体如下：

需要对视频帧的图像进行缩放处理，以期达到理想的训练效果和减少数据运算量；根据需要对视频帧数据进行分类，先把视频帧数据分为训练数据和测试数据集合

两类；再将训练数据分为两类：真实标签图像集合

和无真实标签图像集合

的比例为1：19，即训练数据等于

一张真实标签图像记为

即

一张无真实标签图像记为

即

S2、从无真实标签图像集合

中获取一张无真实标签图像

经过VGG16网络和RPN(区域选择)网络得到预测的位置坐标信息和相应的得分信息，将高置信度的位置坐标信息和得分信息送入到IoU(交并比)网络，得到预测交并比信息，选取预测交并比大于或等于预定阈值的人体框预测信息作为该无真实标签图像

的临时标签，具体如下：

对无真实标签图像

标注临时标签，对于整个网络模型(VGG16+RPN+IoU)，采取和测试阶段相同的模式，对参数进行固定，不进行更新；通过RPN(区域选择网络)获取分类信息和位置坐标信息，再选取高置信度的人体框通过IoU(交并比)网络得到最后的IoU(交并比)得分预测，选取IoU(交并比)大于或等于预定阈值的人体框预测信息作为无真实标签图像

的临时标签。

S3、输入两张图像到整个网络(VGG16+RPN+IoU)的入口：一张为步骤S2的无真实标签图像

另一张为从真实标签图像集合

种获取的真实标签图像

用于当前一轮的训练，用损失函数进行约束。

所述VGG16网络包含16个卷积层(分为5组)，所述RPN(区域选择)网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层，所述IoU(交并比)网络包括三个全连接层对预测人体框进行拟合，具体的训练过程如下：

S31、输入图片I(有真实标签图像

和无真实标签图像

)；

S37、将特征图F5经过RPN网络得到大小相同的特征图F5'，然后通过分类和定位卷积层得到相应的输出C、B；其中，C为对应anchor(锚点)预测的分类得分，B为对应anchor(锚点)预测的人体框位置坐标信息；

S310、特征图F转换成向量f输入到IoU(交并比)网络中，最后得到人体框对应的IoU(交并比)预测。

真实的位置坐标信息记为

为真实人体框中心横坐标，

为真实人体框中心纵坐标，

为真实人体框的宽，

为真实人体框的高，

根据anchor(锚点)与真实人体框的交并比的值分为正负类，正类标记为1，负类标记为0；anchor(锚点)是预先设置好的滑动窗口框，有不同的大小尺寸，真实位置坐标信息是anchor(锚点)和真实人体框回归获得，分类标准如下：

RPN(区域选择)网络中对应的损失函数如下：

l_croEnt(c_i,R(t_i；θ_R))＝-c_ilogR(t_i；θ_R)

式中，R(t_i；θ_R)为用RPN(区域选择)网络预测的概率分布，c_i为当前预测框对应的真实类标签，t_i为预测的人体框位置坐标信息，θ_R为更新参数；

RPN(区域选择)网络的另一个损失函数如下：

令

其中

式中，

最小化损失函数l_boxReg使得RPN(区域选择)网络对每一个预测人体框趋向于最接近的真实的人体框；RPN(区域选择)网络能够在每一个图像中通过下面的损失函数进行端到端训练：

其中，对于输入的两类不同图像，具体情况如下：

训练过程中同时输入有真实标签图像

和无真实标签图像

无真实标签图像通过整个网络(VGG16+RPN+IoU)得到预测分类信息、预测坐标信息、交并比信息，将这些信息作为无真实标签图像的临时标签信息，得到相应临时标签(预测信息：位置坐标信息、分类得分信息、交并比信息)的无真实标签图像

和真实标签图像

一同送入训练完整网络(VGG16+RPN+IoU)，当将无真实标签的图像送入到完整网络(VGG16+RPN+IoU)时，预测人体框是临时标签，将它们与包含真实标签图像的预测框组合在一起以优化RPN网络，根据真实标签图像和无真实标签图像制定检测模块的优化，如下所示：

为无真实标签图像临时分类标签，

在步骤S310中，IoU(交并比)网络对应的损失函数如下：

l_iouEst(u_i,t_i)＝l_croEnt(u_i,I(t_i；θ_I))

其中，l_croEnt(u_i,I(t_i；θ_I))＝-u_ilogI(t_i；θ_I)，IoU(交并比)网络的参数记为θ_I，I(t_i；θ_I)定义为预测人体框t_i的IoU(交并比)，相应的真实人体框目标u_i定义为

优化IoU(交并比)网络的公式如下：

在我们的设置中，仅使用了有限数量的训练图像。利用无真实标签的图像进行数据扩充至关重要,可以期望有效地增加训练图像的多样性和数量，以提高检测模型的泛化能力。为此，我们包含无真实的图像进入训练过程，从而可以将获得的高置信度伪标签作为该图像的临时标签用于优化模型。IoU(交并比)网络模块在消除训练过程中的错误传播方面起着重要作用，因为由RPN(区域选择网络)生成错误识别的图像伪标签可能会误导后续模型训练。

S4、重复步骤S2-S3，达到预先设定训练次数后完成训练。

真实标签图像集合

和无真实标签图像集合

的数据量大，为了很好地训练整个网络模型(VGG16+RPN+IoU)，训练的次数设定在60000，每训练完一次，再随机从剩下的数据中选取进行新一轮的训练，当所有的数据都训练完后，重新把数据打乱训练，直至达到预设定次数，这样能够充分学习到样本的特征。

S5、用测试数据集合

对训练好的网络(VGG16+RPN+IoU)进行测试评估，得到人体目标检测的结果。

固定训练好的网络模型，整个测试过程中不更新网络，不使用损失函数；把测试数据集合

下面我们使用Caltech数据集为例，可分为4250训练图像，4024帧测试图像。再将4250帧图像中每20帧取1帧图像作为有标签的图像，剩余图像作为无标签图像，将图片放大为720x960的像素，然后减去网络像素均值，放入到网络中。

首先让一张无真实标签图像进入固定好的网络，得到临时标签赋予无真实标签图像，然后把一张真实标签图像放入网络中(这次不固定网络)和无真实标签图像一同训练网络。训练过程中，有标签图像因为标签信息是完全真实的，无真实标签图像的临时标签信息是由网络得到的，不确定性很大，设置权重λ_u＝0.1。训练初始学习率为0.001，训练到4万次迭代将学习率下降为0.0005；动量大小为0.9。

按照上述方法过程，在Caltech训练到6万次迭代，整个模型基本趋于稳定，检测结果表现出很好的效果，达到人体目标检测目标，少量图像可以带来巨大的提升。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种单阶段半监督图像人体目标检测方法，其特征在于，包括以下步骤：

S1、对视频帧数据进行划分，分有真实标签图像集合

无真实标签图像集合

和测试数据集合

S2、从无真实标签图像集合

中获取一张无真实标签图像

的临时标签；

另一张为从真实标签图像集合

种获取的真实标签图像

用于当前一轮的训练，用损失函数进行约束；

S4、重复步骤S2-S3，达到预先设定训练次数后完成训练；

S5、用测试数据集合

2.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法，其特征在于：在步骤S1中，需要对视频帧的图像进行缩放处理，以期达到理想的训练效果和减少数据运算量；根据需要对视频帧数据进行分类，先把视频帧数据分为训练数据和测试数据集合

两类；再将训练数据分为两类：真实标签图像集合

和无真实标签图像集合

的比例为1：19，即训练数据等于

一张真实标签图像记为

即

一张无真实标签图像记为

即

3.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法，其特征在于：在步骤S2中，对无真实标签图像

的临时标签。

4.根据权利要求1所述的一种单阶段半监督图像人体目标检测方法，其特征在于：在步骤S3中，所述VGG16网络包含16个卷积层，分有5组；所述RPN网络包含一个3×3卷积核的卷积层和两个分别用来预测分类与位置坐标信息的卷积层，所述IoU网络包括三个全连接层对预测人体框进行拟合，具体的训练过程如下：

S31、输入包含真实标签图像

和无真实标签图像

的图片I；

5.根据权利要求4所述的一种单阶段半监督图像人体目标检测方法，其特征在于：在步骤S37中，预测的位置坐标信息记为t_i＝(t_i,x,t_i,y,t_i,w,t_i,h),t_i,x为预测人体框中心横坐标，t_i,y为预测人体框中心纵坐标，t_i,w为预测人体框的宽，t_i,h为预测人体框的高，B＝∪t_i；

真实的位置坐标信息记为