CN110659585B

CN110659585B - 一种基于交互属性监督的行人检测方法

Info

Publication number: CN110659585B
Application number: CN201910820032.9A
Authority: CN
Inventors: 吴庆波; 魏浩冉; 吴晨豪; 罗昊; 李宏亮; 孟凡满
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2022-03-15
Anticipated expiration: 2039-08-31
Also published as: CN110659585A

Abstract

本发明公开了一种基于交互属性监督的行人检测方法，属于行人检测技术领域。本发明在设置行人交互数据集，并把数据集图片中的行人间交互性沟通属性信息标签和行人交互性姿态属性标签标注出来，增加了行人间遮挡问题处理的先验条件。本发明把交互数据集中标注的行人交互属性信息用在区域提案网络层分类候选框的支路和最终的分类层支路，并引入交互属性的沟通损失和姿态损失，增加了交互属性对检测走向的约束，可以让网络在训练的时候就对该区域是否存在多行人遮挡情况进行判断，减少了行人间遮挡对检测精度的影响。

Description

一种基于交互属性监督的行人检测方法

技术领域

本发明涉及行人检测技术领域，特别涉及一种结合行人交互属性监督的检测方法。

背景技术

行人检测在智能视频监控、智能汽车及交通中都有着重要的应用。通过对行人的检测、跟踪、轨迹分析及行为识别，系统可检测异常事件并报警。行人检测与定位的准确性直接影响后续工作乃至整个系统的性能。一般，行人检测主要由“生成检测候选区域”和“行人识别”两个部分组成。即先在图像中生成可能的目标框，然后再对该目标框进行检测并识别是否为行人，但是在行人检测中，行人个体之间的相互遮挡往往会引入大量的干扰信息，进而导致更多的虚检。

发明内容

本发明的发明目的在于：提供一种基于交互属性监督的行人检测方法，解决了行人个体之间的相互遮挡带来的虚检问题。

本发明的基于交互属性监督的行人检测方法，包括下列步骤：

步骤1：构建行人检测网络；

所述行人检测网络包括：特征提取网路层、候选区域池化层、区域提案网络层、全连接层、归一化指数函数、行人位置检测层和分类层；

其中，特征提取网络层用于提取输入图像的特征谱，并将特征谱分别输入候选区域池化层和区域提案网络层；

候选区池化层连接第一全连接层；所述第一全连接层的输出分别接入两个全连接层，其中一个全连接层连接行人位置检测层，用于输出行人的位置检测框；另一个全连接层连接归一化指数函数，该归一化指数函数与分类层相连，用于输出行人的类型，包括否为行人，以及行人的沟通交互和姿态交互类型；

区域提案网络的输出与候选区域池化层相连；用于向候选区域池化层输入区域提案；

其中，区域提案网络层的分类候选框的支路上增加行人交互性沟通属性标签与行人交互性姿态属性标签的分类；

步骤2、对行人检测网络进行神经网络学习，并将训练好的行人检测网络作为行人检测器；

设置行人交互数据集；

其中，行人交互数据集包含大量无标定的行人图片；并对其中的每张行人图片带有行人个体的识别框，行人交互性沟通属性标签，行人交互性姿态属性标签的图片；

其中，行人交互性沟通属性包括是否在谈话；行人间交互性姿态属性包括是否在牵手，是否有搭肩，是否面对面，是否有前后位置关系；

设置行人检测网络的损失函数为多任务损失：

基于分类层输出的行人交互性沟通属性标签与行人交互性姿态属性标签的分类结果分别与真实标签的差异分别建立沟通损失和姿态损失；

基于行人检测网络的行人位置检测层输出的位置检测框与标定的识别框之间的差异建立检测框回归损失；

基于分类层输出的是否为行人的分类结果与对应的真实分类结果的差异建立原始分类损失；

基于沟通损失、姿态损失、检测框回归损失和原始分类损失的加权和得到多任务损失；

即基于行人检测网络的损失函数，当最近两次输出的损失值变化率不超过预设阈值时，则停止训练，保留当前网络参数，得到训练好的行人检测网络。

步骤3、对待检测图片进行图像预处理后，输入到所述行人检测器中，基于其输出获得图像中行人检测框，以及对应的行人分类结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)本发明在设置行人交互数据集，并把数据集图片中的行人间交互性沟通属性信息标签和行人交互性姿态属性标签标注出来，增加了行人间遮挡问题处理的先验条件。

(2)本发明把交互数据集中标注的行人交互属性信息用在区域提案网络层分类候选框的支路和最终的分类层支路，并引入交互属性的沟通损失和姿态损失，增加了交互属性对检测走向的约束，可以让网络在训练的时候就对该区域是否存在多行人遮挡情况进行判断，减少了行人间遮挡对检测精度的影响。

附图说明

图1为本发明的行人检测处理流程图；

图2为具体实施方式中，本发明的行人检测的整体网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的基于交互属性监督的行人检测方法的处理过程包括下列步骤：

设置行人交互数据集；

基于全卷积神经网络对输入图片进行特征提取；

结合行人姿态交互属性信息和沟通交互信息，选取目标候选框区域；

基于行人姿态交互属性信息和沟通交互信息和目标候选框区域，实现分类并检测出行人。即本发明的基于交互属性监督的行人检测方法，包括基于区域提案网络(RegionProposal Network，RPN)的两阶段(two stage)行人检测(首先产生目标候选区域，然后对目标候选区域分类)，其具体实现步骤如下：

A、设置大尺度行人交互数据集，用于训练本发明的行人检测网络；

其中，大尺度行人交互数据集包含大量无标定的行人图片，并对其每张图片标定带有行人个体的识别框，行人交互性沟通属性标签，行人交互性姿态属性标签；

其中，行人交互性沟通属性包括是否在谈话；行人间交互性姿态属性包括是否在牵手，是否有搭肩，是否面对面，是否有前后位置关系等。

参见图2，本发明的行人检测网络包括：特征提取网路层、候选区域池化层、区域提案网络层、全连接层(FC)、归一化指数函数(Softmax)、行人位置检测层和分类层；

候选区池化层连接第一全连接层；所述第一全连接层的输出分别接入两个全连接层，其中一个全连接层连接行人位置检测层，用于输出行人的位置检测框；另一个全连接层连接归一化指数函数，该归一化指数函数与分类层相连，用于输出行人的类型；

区域提案网络的输出与候选区域池化层相连；用于向候选区域池化层输入区域提案(proposal)；

其中，区域提案网络层的分类候选框的支路(也称为分类支路)，以及分类层包括行人交互性沟通属性标签与行人交互性姿态属性标签的分类。

本具体实施方式中，采用的特征提取网络层为Resnet-101-FPN。

B、使用Resnet-101-FPN进行特征提取，即将待识别图像输入残差网络(Resnet-101)和特征金字塔网络(FPN)进行特征提取，从而可以得到H*W*C的特征谱(即图2中的Feature map)，再通过卷积层(3×3×256)得到H₁*W₁*C₁的特征谱f₁。其中H、H₁表示不同的特征谱的特征高度，W、W₁表示不同特征谱的特征宽度，C、C₁表示不同特征谱的特征通道数。

C、在区域提案网络中，使用候选框K倍原尺度的提取法，相比于原来的候选框，除了可以框住无遮挡情况的单个行人外，还可以有效地框住多个有关联的行人；

D、对区域提案网络层分类候选框的支路和最终的分类层上增加步骤A中相对应的行人交互性沟通属性标签与行人交互性姿态属性标签的分类；

E、把区域提案网络层得到的区域提案(proposal)输入到候选区域池化(ROIPooling)中，进行感兴趣区域(Region 0f Interest,ROI)的提取，目的是把大小不同的感兴趣特征谱(即proposal)固定成相同大小的特征谱，本具体实施方式中，固定的特征谱大小为7×7，输出的ROI为7×7×256的特征谱，然后输入全连接网络FC，进行分类和检测框坐标回归。

F、将步骤E中增加的行人交互性沟通属性标签和交互性姿态属性标签的候选框分类过程分别建立相应的沟通损失(Talk-loss)和姿态损失(Pose-loss)。即，基于本发明的行人检测网络的分类层输出的人交互性姿态属性标签的分类结果分别与真实标签(步骤A中标注的对应标签)差异得到Talk-loss和Pose-loss。

本具体实施方式中，沟通损失和姿态损失如下所示：

其中i和j表示Talk-loss和Pose-loss的类型区分符，L_cls是分类的交叉熵损失，T_i,

分别为第i类沟通交互的预测概率和该类的真实标签，真实标签一般为1，同样地，P_j,

分别为第j类姿态交互的预测概率和该类的真实标签，真实标签一般为1。

G、将步骤F中的Talk-loss、Pose-loss和原本网络中的分类损失(Class-loss)和检测框回归损失(Box-loss)组成多任务损失，即多任务损失为Talk-loss、Pose-loss、分类损失和检测框回归损失的加权和。从而基于该多任务损失得到本发明的行人检测网络在网络训练时的损失函数。

其中，原本网络中的分类损失只判断当前检测框是否为行人的分类损失。

由于Talk-loss、Pose-loss对关联行人间的进一步约束，使得框回归过程更容易区分相关联行人，减少虚检的现象。

多任务损失的优选设置方式可以是：

multitask-loss＝Class-loss+Box-loss+αTalk-loss+βPose-loss

其中，multitask表示多任务损失，α和β分别表示Talk-loss、Pose-loss的预设权重。优选的取值为α＝0.1，β＝0.5。

所述步骤A中对行人交互性沟通属性标签和行人交互性姿态属性标签的具体设置方式为：

针对行人间交互性沟通属性标签的设置，主要是考虑多行人间是否有交谈，若邻近区域内的多人有交谈，则在大尺度行人交互数据集中，将该区域的这个属性标签设置为1，没有交谈时该属性则设置为0。

针对行人间交互性姿态属性标签的设置，主要考虑相邻行人间是否在牵手，是否有搭肩，是否面对面，是否有前后位置关系。通过一个四维向量表示上述四种情况的标签，即，每种情况为“是”，则对应的属性标签设置1；为“否”则设置对应的属性标签设置为0。

本具体实施方式中，四维向量的第一维表示相邻行人间是否有牵手，有牵手标签为1，无牵手标签为0，第二维表示相邻行人间是否有搭肩，有搭肩标签为1，无搭肩标签为0，第三维表示相邻行人间是否有面对面的情况，面对面的标签为1，无面对面的标签为0，第四维表示相邻行人间是否由前后位置关系，当相邻行人间有前后位置关系的话，标签为1，当行人间是并排关系的情况下标签为0。

在区域提案网络层的分类支路上，先用1×1×108的卷积核进行卷积计算，把维度转换成108(9×6×2)，其中，9是区域提取网络生成候选框的数量，6代表是沟通交互的维度、姿态交互的维度和前景判断维度的和，其中沟通交互维度为1，姿态交互的维度为4，前景判断维度为1。最后的2代表的是这些都是标签为0或者1的二分类问题。再由归一化指数函数(Softmax)来计算9个区域提案分别属于前景背景的概率；

所述步骤C中，候选框K倍原尺度的提取法具体为：

C1：在区域提案网络层的框回归支路上，用1×1×36的卷积核进行卷积计算，目的是把输出的维度变成36(9×4),其中9代表的是步骤B中的特征谱f1的一个点所生成候选框的个数,4表示每个候选框包括的四个位置量，分别是框中心点的横坐标x，纵坐标y，候选框的宽w，高h。

C2：区域提案网络生成的9个矩形的候选框共有3种形状，长宽比为大约为{1:1,1:2,2:1}三种。将候选框的长宽相比原来扩大K倍。

C3：这些生成的K倍原尺度的候选框目的是可以用一个方框把多行人关联的区域框出，这样单个框完全就可以把存在重叠和虚掩的行人们框出来，然后通过相应的先验标签的分类和框的回归，结合步骤F中的多任务损失，虽然此时单个方框的分类损失很小，但是其相关的交互属性标签产生的Talk-loss、Pose-loss都很大，结合这些多任务损失的值，可以更容易地确定这个框内存在多个行人，然后进行相应调整生成准确的检测框。

基于步骤A所设置的行人交互数据集，以及多任务损失函数完成对本发明的行人检测网络的网络训练后，将训练好的行人检测网络作为行人检测器对待检测的图片进行行人检测处理，即，对待检测图片进行图像预处理(如灰度化、尺寸归一化使其与行人检测器的输入相匹配)后，输入到该行人检测器中，基于其输出获得图像中行人的位置坐标，即行人检测框，以及对应的行人分类结果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于交互属性监督的行人检测方法，其特征在于，包括下列步骤：

步骤1：构建行人检测网络；

候选区池化层连接第一全连接层；所述第一全连接层的输出分别接入两个全连接层，其中一个全连接层连接行人位置检测层，用于输出行人的位置检测框；另一个全连接层连接归一化指数函数，该归一化指数函数与分类层相连，用于输出检测类型，包括是否为行人，以及行人的沟通交互和姿态交互类型；

区域提案网络层的输出与候选区域池化层相连；用于向候选区域池化层输入区域提案；

设置行人交互数据集，所述行人交互数据集包含多张无标定的行人图片；并对行人交互数据集中的每张行人图片标定带有行人个体的识别框，行人交互性沟通属性标签，行人交互性姿态属性标签；

设置行人检测网络的损失函数为多任务损失：

基于行人检测网络的分类层输出的是否为行人的分类结果与对应的真实分类结果的差异建立原始分类损失；

2.如权利要求1所述的方法，其特征在于，调整行人检测网络的区域提案网络层提取的候选框的尺度，使得候选框能够框住多个有关联的行人。

3.如权利要求1所述的方法，其特征在于，设置行人检测网络的损失函数时，将检测框回归损失和原始分类损失的权重均设置为1。

4.如权利要求3所述的方法，其特征在于，将沟通损失和姿态损失的权重分别设置为分别设置为0.1和0.5。