CN113177439B

CN113177439B - 一种行人翻越马路护栏检测方法

Info

Publication number: CN113177439B
Application number: CN202110378581.2A
Authority: CN
Inventors: 邓曦; 朱晨鸣; 石启良; 陈建; 韦瑞迪; 陈雪勇; 孙海超; 于伟涛; 童春
Original assignee: China Information Consulting and Designing Institute Co Ltd
Current assignee: China Information Consulting and Designing Institute Co Ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2024-01-26
Anticipated expiration: 2041-04-08
Also published as: CN113177439A

Abstract

本发明提供了一种行人翻越马路护栏检测方法，该方法利用深度学习网络对于视频流信息进行处理，从而检测行人翻越马路护栏事件的发生。该方法包括如下步骤：(1)使用图像分割模型进行马路护栏边沿检测；(2)用一个训练好的分类器实现图像分割后处理，精修下边沿信息；(3)基于目标检测技术，对人体外接矩形进行检测；(4)检测结果分析，包括利用摄像机图像的二维信息推断目标在三维世界内的位置情况。本发明显著降低了行人翻越马路护栏检测的部署难度，并实现系统的自动化调整，降低了维护难度。

Description

一种行人翻越马路护栏检测方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种行人翻越马路护栏检测方法。

背景技术

近年来，监控技术的发展使得对行人翻越马路护栏的检测与识别成为可能。行人翻越马路护栏，不仅对道路秩序产生影响，而且危及自身生命。自动化的行人翻越马路护栏检测能够通过对大量道路实时监控，获得行人的相关信息，对行人翻越马路护栏具有劝阻作用，也便于交通管理部门进行进一步处理。

行人翻越马路护栏检测目前采用的主流方法是使用具有感应功能的护栏。当护栏感知到行人的翻越动作时，采取动作阻止行人翻越，或者发出警告。此类护栏相比传统护栏具有制造成本高，部署成本高，维护成本高的特点，并不能够提供翻越者的相关身份信息。因此，此类护栏不利于大规模部署。而基于监控视频流的行人马路违规行为检测，尽管部署简单，获取信息丰富，却大多基于传统的图像生态学，这些方法在特征选取上往往显得过于简单，造成在实际使用时错误率较高；另一些使用了行为检测等算法，算法很先进，但是对应的计算开销较大，部署花费较大。

发明内容

发明目的：为了解决行人翻越马路护栏检测的问题，本发明提供一种行人翻越马路护栏检测方法，包括如下步骤：

步骤1，获取监控摄像头采集的视频流，使用图像分割网络Fence-Net检测视频流中护栏所占据的区域，将视频流所有像素区域分为两类：护栏像素区域、非护栏像素区域；

步骤2，对步骤1所得区域进行异常值去除处理，获取护栏下边沿的边界；

步骤3，将视频流每一帧转化为图像，对每一帧进行处理，获取人体外接矩形框；

步骤4，根据步骤2中所得护栏下边沿的边界，和步骤3中所得人体外接矩形框，进行检测结果分析，判断视频帧中是否出现行人翻越马路护栏的行为。

步骤2包括：

步骤1中，所述图像分割网络Fence-Net包括Base Stream基础特征流模块、Contour Stream轮廓特征流模块和Fusion Module融合模块；

所述Base Stream模块用于提取图像特征；

所述Contour Stream模块用于提取各个物体的边缘特征；

所述Fusion Module模块包括ASPP空洞空间卷积池化金字塔模块。

所述Contour Stream模块首先由两个以上的1*1的卷积层负责优化Base Stream模块提取出的图像特征，并对特征图的通道数进行相应的优化，此后，由两个以上SE-ResNet Module压缩激发残差模块以及Gated Conv Layer门卷积层间隔连接，形成ContourStream模块的剩余部分，其中SE-ResNet Module负责对特征图的质量进行进一步优化，Gated Conv Layer则负责将Contour Stream模块的注意力集中在检测物体的轮廓与形状上。

所述SE-ResNet Module通过吸取残差模块Res-Block残差块与SE-Block压缩激发块的特性，将不同层次的特征进行了融合，并将同一层次的特征在通道维度上进行权重赋值。

所述Gated Conv Layer通过结合神经网络中间层特征图以及图像梯度图这两者的信息，对图像内物体的边缘形状进行抽取，并通过BatchNorm批标准化操作，提高了模型的收敛速度。

所述ASPP模块执行如下步骤：

步骤a1，将Contour Stream模块输出的边缘特征缩小，使得其大小与Base Stream模块输出的特征图相同，接着进行1*1卷积，获得1个通道数为256的特征图；

步骤a2，将Base Stream模块输出的特征图进行全局平均池化，再进行1*1卷积，最后再将特征图放大回目标尺寸，获得一个通道数等于256的特征图；

步骤a3，利用四种不同扩张率的空洞卷积层(1，6，12，18)对Base Stream模块输出的特征图进行卷积，获得4个特征图，四个特征图的通道数都为256；

步骤a4，将步骤a1，、步骤a2和步骤a3得到的共6个特征图进行通道拼接，得到最终输出。

所述图像分割网络Fence-Net的损失函数包括多任务学习损失函数和正则化损失函数；其中多任务学习损失函数计算模型预测与真实标签的差，正则化损失函数计算模型预测边界与真实边界的区别；

多任务学习损失函数计算公式如下：

其中λ₁和λ₂为超参，s表示边缘检测结果，表示边缘检测的真实标签，f表示语义分析结果，/>表示语义分析的真实标签，/>为二值交叉熵函数，/>为交叉熵函数；

正则化损失函数计算公式如下：

其中，为语义分割预测结果边界与语义分割真实标签边界之间的差别；

为边缘检测预测结果(预测的各物体的边界)与语义分割预测结果边界之间的差别；

计算方法具体为：

根据语义分割，计算其边界ζ：

其中为一个函数，其值为：使得函数p(y^k∣r,s)取最大值的k；

p(y^k∣r,s)为第k类的语义分割结果，其中y^k为根据预测结果，每个像素点属于第k类的可能性，r,s分别为Regular Stream的输出和Shape Stream的输出，G是高斯滤波；

根据预测与真实分割结果得到的边界，计算差别：

其中p⁺为所有非0的像素点坐标，λ₃为超参，ζ(p⁺)为根据上文中ζ的公式算出的所有p⁺的边界，为根据ζ的公式和真实标签算出的真实分割结果的边界；

计算方法具体为：

其中，是对于每个像素点预测其为第k类的可能性，/>是真实标签中该点为第k类的可能性(若是则为1，否则为0)；/>是一个指示变量，thrs是一个阈值，在一种具体实施例中取值为0.8，λ₄为超参。

步骤2.1，从步骤1得到的护栏像素区域中获取马路护栏区域的粗糙下边沿；

步骤2.2，根据步骤2.1所得粗糙下边沿的坐标信息自动计算下边沿所占据区域的外接矩形区域；

步骤2.3，在步骤2.2所得外接矩形区域中随机选取图像像素点样本，根据步骤1的结果，此时的样本种类一共有两种：护栏像素、非护栏像素；

步骤2.4，根据步骤2.3选取的图像像素点样本，训练一种分类器，用来去除步骤1中可能产生的异常点；

步骤2.5，使用步骤2.4所述分类器对步骤2.2所得外接矩形区域内的每个像素点进行预测，预测结果为像素点是否为护栏像素；

步骤2.6，获取步骤2.5所得预测结果，根据预测结果获取护栏下边沿像素点集合。

步骤3包括：

步骤3.1，准备人体数据集：摄像头角度覆盖平视、俯视；摄像头距离覆盖远距离、中距离、近距离；拍摄地点覆盖学校、都市等多种地点场景；人体姿势覆盖：站立、摔倒、步行等不同姿势采集数据集I；

步骤3.2，对数据集I进行人为标注：对被部分遮挡的人体使用预测性的标注方式，推断其被遮挡部分的形态并依照推断结果进行标注；

步骤3.3，数据增强：对数据集I进行放大，缩小，旋转，平移，视角变换，croprefine(随机剪切)，advanced fusion(若干张图像透明化后再叠加)操作，进一步扩充数据集；

步骤3.4，构建目标检测网络并在步骤3.3所得数据集I中训练目标检测网络；

步骤3.5，将步骤1中视频流的每一帧转化为图像；

步骤3.6，对每一帧步骤3.5所得的图像使用步骤3.4所得的目标检测网络进行检测，得到人体外接矩形框。

步骤4包括：

步骤4.1，将护栏下边沿像素点集合记为S，设定集合S中共有n个点，x_i为第i个点的横坐标，y_i为第i个点的纵坐标，则集合S中的第i个点表示为(x_i,y_i)，集合S表示为：S＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}；

步骤4.2，对获取的每个人体外接矩形框进行如下操作：

将人体外接矩形框y方向最小值记为y_min，最大值记为y_max；x方向最小值记为x_min，最大值记为x_max，取(x_min,y_max)到(x_max,y_max)的连线作为表示人体下边缘的线段；

以监控摄像头为原点建立坐标系，以纵深方向为Z轴，水平方向为X轴，竖直方向为Y轴，令成像平面为z_image＝1(Z轴坐标为1)，则一点(x为X轴上的坐标，y为Y轴上的坐标，z为Z轴上的坐标)在成像平面上的投影位置/>

设定地面是一个平面，令平面方程为z＝ax+by+c，其中a,b,c为实数系数，使得任何满足平面方程的点为地面上一点；要求摄像机位置不在地面上，则/>不是z＝ax+by+c上一点，则c≠0；

设定坐标为(x_i,y_i)的点在现实中所对应的点坐标为设定(x_min,y_max)与(x_max,y_max)之间与(x_i,y_i)重合的点在现实中坐标为/>并有/>和/>

都是成像平面前的点，则有z₁≥1和z₂≥1；

并且和/>在成像平面上的投影为同一个点，/>因为/>则得到：

x₁y₂＝x₂y₁

因为为地面上两点，z₁＝ax₁+by₁+c并且z₂＝ax₂+by₂+c；

对于两点的x坐标：

ax₁x₂+bx₁y₂+cx₁＝ax₁x₂+bx₂y₁+cx₂

b(x₁y₂-x₂y₁)＝c(x₂-x₁)

0＝c(x₂-x₁)

x₂＝x₁

对于两点的y坐标：

ax₂y₁+by₁y₂+cy₁＝ax₁y₂+by₁y₂+cy₂

a(x₂y₁-x₁y₂)＝c(y₂-y₁)

0＝c(y₂-y₁)

y₂＝y₁

因为z₁＝ax₁+by₁+c，z₂＝ax₂+by₂+c，x₁＝x₂和y₁＝y₂，能够得到z₁＝z₂；

因为所以/>

所以和/>是现实中坐标相同的两点；

由于人体下边缘与护栏下边沿都处于地面上，其坐标在图像上重合即代表人体在现实空间中与护栏触碰。

有益效果：

本发明对比已有技术具有以下显著优点：

1、图像分割实现系统的自动化调整，降低了维护难度；

2、使用目标检测提高了系统的实时性，并降低了计算成本；

3、对2D数据的分析提高了判断的准确度；

4、预测性的标注方法显著提高了目标检测的精度，进而提高了系统判断的精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明方法流程示意图。

图2是本发明对最终检测结果进行分析的示意图。

图3是本发明用于检测护栏边沿的深度神经网络Fence-Net的结构图。

图4是Fence-Net的组件SE-ResNet Module的结构图。

图5是Fence-Net的组件Gated Conv Layer的结构图。

图6是Fence-Net的组件ASPP模块的结构图。

图7是本发明用于检测人体外接矩形框的人体检测网络获取流程示意图。

具体实施方式

实施例1检测过程及原理

图1所示的是本发明一实施流程图。获取马路上的摄像头采集的监控视频流后，按照如下步骤进行：

步骤1、将视频流中的第一帧转化为图像，通过图像分割算法提取马路护栏所占据的区域。

步骤2、对步骤1所得区域进行异常值去除处理，获取护栏下边沿的平滑边界。

如果所获取边界结果与人工判断不符，则可以选择人工标注视频中马路护栏下边界。

步骤3、将视频流每一帧转化为图像，通过目标检测算法对每一帧进行处理，获取人体外接矩形框；

步骤4、根据步骤2中所得护栏下边沿边界，和步骤3中所得人体外接矩形框，进行检测结果分析，判断此帧中是否出现行人翻越马路护栏的行为；

进一步的，所述的步骤2的具体过程如下：

2.1获取原始图像分割结果中，马路护栏区域的粗糙下边沿；

2.2框选步骤2.1所得粗糙下边沿所占据区域的外接矩形区域；

2.3在步骤2.2所得矩形区域中随机选取样本，样本为马路护栏区域内或马路护栏区域外。

2.4训练一种分类器(例如支持向量机、逻辑回归、浅层神经网络等)对步骤2.3所得样本进行分类。

2.5使用步骤2.4所得分类器对步骤2.2所得矩形区域进行预测，预测结果为是否处于马路护栏区域内；

2.6获取步骤2.5所得预测结果下边沿，则结果为护栏下边沿的平滑边界；

进一步的，所述的步骤3的具体过程如下：

3.1准备人体数据集：从多个角度，多个场景采集多种人体姿态数据集I；

3.2对步骤3.1获取的数据集I进行标注。具体的，对被部分遮挡的人体使用预测性的标注方式，推断其被遮挡部分的形态并依照推断结果进行标注；

3.3数据增强：对步骤3.1获取的数据集I进行放大，缩小，旋转，平移，视角变换，crop refine，advanced fusion等多种数据增强手段，进一步扩充数据集；

3.4构建目标检测网络并在步骤3.3所得数据集I中训练目标检测网络；

3.5将视频每一帧转化为图像；

3.6对每一帧步骤3.5所得的图像使用步骤3.4所得的目标检测网络进行检测，得到人体外接矩形框；

进一步的，如图2所示，所述的步骤4的具体过程如下：

4.1将获取的马路护栏下边沿点集记为S＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}.

4.2对获取的每个人体外接矩形框进行如下操作：

将获取的人体外接矩形框y方向最小值记为y_min，最大值记为y_max；x方向最小值记为x_min，最大值记为x_max，取(x_min,y_max)-(x_max,y_max)作为表示人体下边缘的线段。

若人体下边缘与护栏下边缘在现实空间中发生触碰，则报告存在翻越护栏行为。具体判断方式为：若存在(x_i,y_i)在(x_min,y_max)与(x_max,y_max)之间，则人体下边缘一点与护栏下边沿在现实中重合，即发生了上述触碰。具体证明如下：

以监控摄像头为原点建立坐标系，以纵深方向为z轴，水平方向为x轴，竖直方向为y轴。令成像平面为z＝1.那么一点在成像平面上的投影位置/>

假设地面是一个平面，令其公式为z＝ax+by+c.要求摄像机位置不在地面上，则不是z＝ax+by+c上一点，则c≠0。

称(x_i,y_i)在现实中所对应的点坐标为令(x_min,y_max)与(x_max,y_max)之间与(x_i,y_i)重合的点现实中坐标为/>并有/>和/>

那么都是成像平面前的点，则有z₁≥1和z₂≥1。

并且和/>在成像平面上的投影为同一个点，也就是/>需要证明的是

因为易得/>则

x₁y₂＝x₂y₁

因为为地面上两点，z₁＝ax₁+by₁+c并且z₂＝ax₂+by₂+c.

对于两点的x坐标

ax₁x₂+bx₁y₂+cx₁＝ax₁x₂+bx₂y₁+cx₂

b(x₁y₂-x₂y₁)＝c(x₂-x₁)

0＝c(x₂-x₁)

x₂＝x₁

对于两点的y坐标

ax₂y₁+by₁y₂+cy₁＝ax₁y₂+by₁y₂+cy₂

a(x₂y₁-x₁y₂)＝c(y₂-y₁)

0＝c(y₂-y₁)

y₂＝y₁

因为z₁＝ax₁+by₁+c，z₂＝ax₂+by₂+c，x₁＝x₂和y₁＝y₂，能够得到z₁＝z₂.

因为所以/>

所以和/>是现实中坐标相同的两点。

因此，由于人体下边缘与护栏下边沿都处于地面上，其坐标在图像上重合即代表人体在现实空间中与护栏触碰。

实施例2图像分割网络Fence-Net

图像分割网络Fence-Net基本结构如图3所示，主要分为三个部分：Base Stream、Contour Stream、Fusion Module。本网络设计思路基于已发表论文：Gated-SCNN:GatedShape CNNs for Semantic Segmentation ICCV,2019。

1.Base Stream

Fence-Net的Base Stream基础特征流模块提供抽取图像特征的基础能力。BaseStream模块可由VGG-Net、ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152、WideResnet、DenseNet等支柱网络(Backbone)替代。在本发明中，Fence-Net的Base Stream模块使用了ResNet-101网络，经过在训练集上的反复调优，达到了一个理想的参数状态。

2.Contour Stream

Fence-Net的Contour Stream轮廓特征流模块专注于提取各个物体的边缘特征。如图2所示，Contour Stream模块首先由若干个CONV 1*1 1*1的卷积层负责优化BaseStream模块提取出的图像特征，并对特征图的通道数进行相应的优化。此后，由若干个SE-ResNet Module压缩激发残差模块以及Gated Conv Layer门卷积层间隔连接，形成ContourStream的剩余部分。其中SE-ResNet Module负责对特征图的质量进行进一步优化、提升，而Gated Conv Layer则负责将Contour Stream模块的注意力集中在检测物体的轮廓与形状上，提取出的特征图与Image Gradients图像梯度特征一起作为Contour Stream模块的输出被送入到Fence-Net的下一个模块。

a)SE-ResNet Module

SE-ResNet Module通过吸取Res-Block残差模块与SE-Block压缩激发模块的特性，将不同层次的特征进行了有效融合，并将同一层次的特征在通道维度上进行了权重赋值，使特征表达信息的能力更上一个台阶。SE-ResNet Module的结构如图4所示。

b)Gated Conv Layer

所述Gated Conv Layer通过结合神经网络中间层特征图以及图像梯度图这两者的信息，对图像内物体的边缘形状进行更为精确的抽取，并通过BatchNorm批标准化操作，提高了模型的收敛速度。Gated Conv Layer的结构如图5所示，其中Relu为线性整流函数，Relu和Sigmoid都是机器学习领域广泛使用的激活函数

3.Fusion Module

a)ASPP模块

ASPP(Atrous Spatial Pyramid Pooling)模块，来源于DeepLabv3+，旨在通过不同采样率的空洞卷积获取多尺度特征。如图6所示，此模块可具体分为如下三个部分：

(1)边缘特征：将Contour Stream模块输出的边缘特征利用interpolate插值操作缩小为合适的特征图尺寸，接着进行1*1卷积，获得1个通道数为256的特征图；

(2)整体特征：将Base Stream模块输出的特征图进行adaptive avg pooling自适应平均池化，再进行1*1卷积，最后再将特征图利用interpolate插值操作放大回目标尺寸，获得一个通道数等于256的特征图；

(3)多尺度特征：利用四种不同dilation rate膨胀率的空洞卷积层(1，6，12，18)对Base Stream模块输出的特征图进行卷积，获得4个特征图，四个特征图的通道数都为256,再将这4个特征图进行cat通道拼接操作，获得一个通道数为256*4＝1024的新的特征图；

将(1)、(2)、(3)获得的共6个特征图进行通道拼接，得到最终输出。则最终输出包括了整体特征，边缘特征和多尺度特征。

4.损失函数

模型的损失函数由dualtask loss多任务学习损失函数和regularizationloss正则化损失函数/>组成。其中多任务学习损失函数/>计算模型预测与真实标签的差，而正则化损失函数/>计算模型预测边界与真实边界的区别。

1.多任务学习损失函数

多任务学习损失函数()由对边缘检测结果(s)与真实标签/>计算二值交叉熵损失以及/>对语义分析结果(f)与真实标签/>计算交叉熵两者相加得到。

其中λ₁和λ₂为超参，分别控制两者的权重。

2.正则化损失函数

正则化损失函数由segmentation loss分割损失函数,预测语义分割边界与真实语义分割边界区别以及edge loss边缘损失函数,边缘检测结果与预测语义分割边界区别/>相加得到

a.其中，的计算方法具体为：

首先根据语义分割，计算其边界：

其中p(y^k∣r,s)为k类的语义分割结果，G是高斯滤波。此公式利用argmax将语义分割结果整合为一张segmentation map，并利用高斯滤波对其边缘进行平滑化处理。处理后每个位置的导数大小即为该位置距离边界的接近程度。

根据预测与真实分割结果得到的边界，计算差别

其中p⁺为所有非0的像素点坐标。ζ(p⁺)为根据上文中ζ的公式算出的所有p⁺的边界，为根据ζ的公式和真实标签算出的真实分割结果的边界；边界重合程度越高，则此项越小。

b.类似的，的计算方法具体为

其中，是一个指示变量，thrs是一个阈值。对于预测为边界，并且confidence大于thrs的区域，再次计算分割结果与真实标签的交叉熵。这使模型更注重边界处的细节。

实施例3行人检测网络

如图7所示，对行人检测网络的准备工作具体过程如下：

(1)准备数据集，包括来自网络的公开数据集和自建数据集，总量约1万张图片；

(2)对数据集进行标注，对于被部分遮挡的目标采用预测性的方式，预测其未被遮挡前提下所处的位置进行标注；

(3)将预训练好的模型参数加载到行人检测网络，对行人检测网络进行初始化；

(4)将准备好的数据集经过数据增强后输入行人检测网络，数据增强包括放大，缩小，旋转，平移，视角变换，crop refine，advanced fusion等手段，并使用nominal batch的方式增加批量大小，提高训练后行人检测网络的健壮性，使其不易受到小量异常的干扰。

(5)根据行人检测网络在测试数据上的表现判断是否达到预期效果，若达到则停止训练，否则继续进行步骤4。

(6)依此方法训练后的行人检测网络能够判断行人外接矩形框位置和大小。

本发明提供了一种行人翻越马路护栏检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种行人翻越马路护栏检测方法，其特征在于，包括如下步骤：

步骤4，根据步骤2中所得护栏下边沿的边界，和步骤3中所得人体外接矩形框，进行检测结果分析，判断视频帧中是否出现行人翻越马路护栏的行为；

步骤1中，所述图像分割网络Fence-Net包括Base Stream基础特征流模块、ContourStream轮廓特征流模块和Fusion Module融合模块；

所述Base Stream模块用于提取图像特征；

所述Contour Stream模块用于提取各个物体的边缘特征；

所述Fusion Module模块包括ASPP空洞空间卷积池化金字塔模块。

2.根据权利要求1所述的方法，其特征在于，所述Contour Stream模块首先由两个以上的1*1的卷积层负责优化Base Stream模块提取出的图像特征，并对特征图的通道数进行相应的优化，此后，由两个以上SE-ResNet Module压缩激发残差模块以及Gated Conv Layer门卷积层间隔连接，形成Contour Stream模块的剩余部分，其中SE-ResNet Module负责对特征图的质量进行进一步优化，Gated Conv Layer则负责将Contour Stream模块的注意力集中在检测物体的轮廓与形状上。

3.根据权利要求2所述的方法，其特征在于，所述SE-ResNet Module通过吸取残差模块Res-Block残差块与SE-Block压缩激发块的特性，将不同层次的特征进行了融合，并将同一层次的特征在通道维度上进行权重赋值。

4.根据权利要求3所述的方法，其特征在于，所述Gated Conv Layer通过结合神经网络中间层特征图以及图像梯度图这两者的信息，对图像内物体的边缘形状进行抽取，并通过BatchNorm批标准化操作，提高收敛速度。

5.根据权利要求4所述的方法，其特征在于，所述ASPP模块执行如下步骤：

步骤a4，将步骤a1、步骤a2和步骤a3得到的共6个特征图进行通道拼接，得到最终输出。

6.根据权利要求5所述的方法，其特征在于，所述图像分割网络Fence-Net的损失函数包括多任务学习损失函数和正则化损失函数；其中多任务学习损失函数计算模型预测与真实标签的差，正则化损失函数计算模型预测边界与真实边界的区别；

多任务学习损失函数计算公式如下：

正则化损失函数计算公式如下：

为边缘检测预测结果与语义分割预测结果边界之间的差别；

计算方法具体为：

根据语义分割，计算其边界ζ：

其中为一个函数，其值为：使得函数p(y^k∣r,s)取最大值的k；

p(y^k∣r,s)为第k类的语义分割结果，其中y^l为根据预测结果，每个像素点属于第k类的可能性，r,s分别为Regular Stream的输出和Shape Stream的输出，G是高斯滤波；

根据预测与真实分割结果得到的边界，计算差别：

计算方法具体为：

其中，是对于每个像素点预测其为第k类的可能性，/>是真实标签中该点为第k类的可能性；/>是一个指示变量，thrs是一个阈值，λ₄为超参。

7.根据权利要求6所述的方法，其特征在于，步骤2包括：

步骤2.3，在步骤2.2所得外接矩形区域中随机选取图像像素点样本，此时的样本种类一共有两种：护栏像素、非护栏像素；

步骤2.4，根据步骤2.3选取的图像像素点样本，训练一种分类器，用来去除异常点；

8.根据权利要求7所述的方法，其特征在于，步骤3包括：

步骤3.1，准备人体数据集：采集数据集I；

步骤3.2，对数据集I进行标注：对被部分遮挡的人体使用预测性的标注方式，推断其被遮挡部分的形态并依照推断结果进行标注；

步骤3.3，数据增强：对数据集I进行放大，缩小，旋转，平移，视角变换，crop refine，advanced fusion操作，进一步扩充数据集；

步骤3.5，将步骤1中视频流的每一帧转化为图像；

9.根据权利要求8所述的方法，其特征在于，步骤4包括：

步骤4.1，将护栏下边沿像素点集合记为S，设定集合S中共有n个点，x_i为第i个点的横坐标，y_i为第i个点的纵坐标，则集合S中的第i个点表示为(x_i,y_i)，集合S表示为：S＝{(x_1,y₁),(x₂,y₂),…,(x_n,y_n)}；

步骤4.2，对获取的每个人体外接矩形框进行如下操作：

都是成像平面前的点，则有z₁≥1和z₂≥1；

并且和/>在成像平面上的投影为同一个点，/>因为/>则/>得到：

x₁y₂＝x₂y₁

因为为地面上两点，z₁＝ax₁+by₁+c并且z₂＝ax₂+by₂+c；

对于两点的x坐标：

ax₁x₂+bx₁y₂+cx₁＝ax₁x₂+bx₂y₁+cx₂

b(x₁y₂-x₂y₁)＝c(x₂-x₁)

0＝c(x₂-x₁)

x₂＝x₁

对于两点的y坐标：

ax₂y₁+by₁y₂+cy₁＝ax₁y₂+by₁y₂+cy₂

a(x₂y₁-x₁y₂)＝c(y₂-y₁)

0＝c(y₂-y₁)

y₂＝y₁

因为所以/>

所以和/>是现实中坐标相同的两点；