CN114067360A

CN114067360A - 一种行人属性检测方法及装置

Info

Publication number: CN114067360A
Application number: CN202111354598.0A
Authority: CN
Inventors: 彭鹏; 邵宇鹰; 翟登辉; 刘睿丹; 许丹; 丁雷青; 朱纯; 郑伟华; 奚丕奇; 孙宁; 杨嘉禹
Original assignee: State Grid Corp of China SGCC; XJ Electric Co Ltd; State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; XJ Electric Co Ltd; State Grid Shanghai Electric Power Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-18

Abstract

一种行人属性检测方法和装置，该方法包括构建并训练行人及其属性检测网络；构建并训练行人检测分类器；融合所述网络和分类器的检测结果，输出识别目标及位置信息。该装置用于执行该方法。本发明通过对检测行人及其属性模型进行优化和改进，即一个模型同时识别出图像中存在的人员和各类属性目标后，在模型输出判定为行人类别后面增加行人目标分类器，对行人类别进行二次矫正，增加识别的准确性，进而提高总体行人及其属性的识别率。

Description

一种行人属性检测方法及装置

技术领域

本发明涉及电力施工技术领域，尤其涉及一种行人属性检测方法及装置。

背景技术

工程施工或作业现场的通常都隐藏很多安全隐患，现场作业人员有时安全意识不够、偶尔懒散且抱有侥幸心理，监管人员数量有限，再加之疏忽管理，虽然出台了一系列安全保障措施，但是每年依然会发生由于不规范操作导致的安全事故。因此，如何监管到位，有效保证现场作业人员生命和生产活动的安全具有十分重要的意义。

随着科技创新进步，采用大数据、机器学算法、人工智能、图像分析技术等先进手段，通过机器代替人为监督管理，通过检测分析，及时发现现场工作人员未佩戴安全帽、着装不合格等违规行为，抓拍图像记录并继续宁实时告警。可以有效解决由于监督体系力量缺乏、全过程监督薄弱、监控水平低的难题。

为解决上述问题，需要同时从视频中获取人员特征、安全帽特征、着装特征等多类别特征，而现场工作环境复杂，人员数目较多，如何将多种多类特征按照人员身份进行一一匹配和融合是亟待解决的问题。

目前主要通过两种方式解决，一种是采用传统的机器学习算法，该类方法虽然识别效率快，但是识别准确度低。随和AI技术的发展，目标检测更多采用深度学习算法，通过模型训练可以提取出行人及其属性的特征，通过逻辑组合分类，就可以实现对每个行人及其属性的判断。

但是，当需要训练包含多类别模型的时候，模型需要学习多种复杂的特征，再加之数据的多样性、复杂性和不平衡性，难免有时候模型在检测的过程中会发生误判的现象，比如模型对某种非人的物体误判为人。然后在行人属性检测中，最基础的检测类别就是行人，其他属性特征都是在行人位置区域进行逻辑组合，若行人判断发生错误，导致后续其属性判别的错误，再加之，行人姿态不断发生改变，如：站立、行走、坐、躺等，特征本身就具有多尺度行和多样行，在面对复杂的环境时，如：阴雨、遮挡和光线变换的影响，仅靠训练模型的检测效果并不尽如人意。因此，如何增强人属性类别的判断尤其重要。

发明内容

本发明的目的是提供一种行人属性检测方法及装置，通过对检测行人及其属性模型进行优化和改进，对行人类别进行二次矫正，增加识别的准确性，进而提高总体行人及其属性的识别率。

本发明的第一方面提供了一种行人属性检测方法，包括：

构建并训练行人及其属性检测网络；

构建并训练行人检测分类器；

融合所述网络和分类器的检测结果，输出识别目标及位置信息。

进一步的，所述行人及其属性检测网络包括YOLOV3卷积神经网络；

所述YOLOV3卷积神经网络的输入为待检测图像，输出为每个尺度的检测结果，该检测结果包括位置信息、置信度和识别类别种类分数。

进一步的，所述构建并训练行人检测分类器包括：

提取Hog特征；

提取LBP特征；

融合所述Hog特征和LBP特征，得到识别结果。

进一步的，所述提取Hog特征包括：

对输入的待检测图像进行灰度处理并对图像进行高斯滤波以减少噪声干扰；

分别计算图像在X方向的梯度dx和Y方向梯度dy；

将生成的梯度图像进行分块，每一块包含8×8个像素作为一个cell，对每个cell根据角度和权重建立直方图作为cell的描述子，具体包括：

将cell的梯度方向分成9个方向块，每20度计为一个bin，将每个像素用梯度方向在直方图上进行加权投影，即得到cell的梯度直方图，即一个9维的特征向量，每相邻4个单元组成一个块block,把一个块内的特征向量联起来得到36维的特征向量即为行人的Hog特征向量。

进一步的，所述提取LBP特征包括：

在待检测图像中通过以3*3窗口进行滑窗运算，以窗口中心像素为阈值，将窗口内其余像素与中心像素点进行比较，若大于中心像素值计为1，否则计为0，通过比较8个点的值组成一个8位的二进制数，转换为十进制后即为该像素位置的LBP码。

进一步的，所述融合所述Hog特征和LBP特征，得到识别结果的步骤包括：

分别设定Hog的特征为

LBP的特征为

根据选定的内积函数表示方法，匹配分数融合的输入形式为：

通过支持向量机的二值分类，将识别结果转换成y＝(+1,-1)的问题，+1表示是人，-1表示为非人。

进一步的，所述融合所述网络和分类器的检测结果，输出识别目标及位置信息的步骤包括：

将待检测图像输入至YOLOV3卷积神经网络，得到每个尺度的检测结果；

若检测结果中包含类别种类为行人，则根据位置的结果获取该位置的图像并送入行人检测分类器中进行识别，以获得最终的判断结果。

本发明的第二方面提供了一种行人属性检测装置，包括行人及其属性检测网络和行人检测分类器，所述装置执行如前所述的方法。

本发明的第三方面提供了一种行人属性检测系统，该系统包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器用于执行如前所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可操作来执行如前所述的方法。

综上所述，本发明提供了一种行人属性检测方法和装置，该方法包括构建并训练行人及其属性检测网络；构建并训练行人检测分类器；融合所述网络和分类器的检测结果，输出识别目标及位置信息。该装置用于执行该方法。本发明通过对检测行人及其属性模型进行优化和改进，即一个模型同时识别出图像中存在的人员和各类属性目标后，在模型输出判定为行人类别后面增加行人目标分类器，对行人类别进行二次矫正，增加识别的准确性，进而提高总体行人及其属性的识别率。

附图说明

图1为本发明实施例中的行人属性检测方法结构示意图；

图2为本发明实施例中的主线插拔连接器的结构示意图。

附图中，各标号所代表的部件列表如下：

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明的第一方面提供了一种行人属性检测方法，如图1所示，包括如下步骤：

步骤S100，构建并训练行人及其属性检测网络；

步骤S200，构建并训练行人检测分类器；

步骤S300，融合所述网络和分类器的检测结果，输出识别目标及位置信息。

具体的，在所述步骤S100中，行人及其属性检测网络包括YOLOV3卷积神经网络。YOLOV3卷积神经网络的输入为待检测图像，输出为每个尺度的检测结果，该检测结果包括位置信息、置信度和识别类别种类分数。

基于深度学习算法，搭建yolov3卷积神经网络框架，yolov3是将目标检测任务转换为一个回归问题，利用CNN的全局特征预测每个位置可能的目标，实现端对端的检测。Yolov3采用新的网络结构Darknet-53(含有53个卷积层)作为模型的基础框架，Darknet-53借用了resnet的思想，在网络中加入了残差模块，这样有利于解决深层次网络的梯度问题。每个残差模块由两个卷积层和一个快捷链路shortcut connections组成，网络的下采样是通过设置卷积的stride为2来达到的，每当通过这个卷积层之后图像的尺寸就会减小到一半。而每个卷积层的实现又是包含卷积+BN+LeakyRelu，每个残差模块之后又要加上一个zero padding。

YOLOV3更进一步采用了3个不同尺度的特征图来进行对象检测。能够检测的到更加细粒度的特征。网络的最终输出有3个尺度分别为输入图像的1/32，1/16，1/8。下采样倍数高，这里特征图的感受野比较大，通过三个尺寸的采用，分别适用于检测不同尺寸的对象。

Yolov3在预测对象时不使用softmax，改成使用logistic的输出进行预测。这样能够支持多标签对象。Yolov3通过Bounding Box进行预测，在最后输出的feature map中，每一个cell都会预测3个边界框(bounding box)，每个bounding box都会预测三个东西：(1)每个框的位置(4个值，中心坐标t_x和t_y，框的高度b_h和宽度b_w)，(2)一个objectnessprediction(置信度预测)，(3)待识别的类别个数N。

进一步的，在所述步骤S200中，构建并训练行人检测分类器包括：

提取Hog特征；

提取LBP特征；

融合所述Hog特征和LBP特征，得到识别结果。

本发明基于底层特征提取和统计学习方法构建行人检测分类器，提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息，行人特征复杂并多样化，本发明通过特征融合方式作为行人类别的底层特征，常用的特征包括Hog特征和LBP特征。

(1)Hog特征提取

首先，对输入行人的图像进行灰度处理并对图像进行高斯滤波以减少噪声的干扰。然后分别计算图像在X方向的梯度dx和Y方向梯度dy。

接下来，将生成的梯度图像进行分块，每一块包含8×8个像素作为一个cell，对每个cell根据角度和权重建立直方图作为这个cell的描述子，具体方式为：将cell的梯度方向分成9个方向块，每20度计为一个bin，将每个像素用梯度方向在直方图上进行加权投影，即得到cell的梯度直方图，即一个9维的特征向量，每相邻4个单元组成一个block,把一个块内的特征向量联起来得到36维的特征向量即为行人的hog特征向量。

(2)LBP特征提取

LBP(局部二值模式)是一种用来描述局部纹理特征的算子，在待检测的行人图像中通过以3*3窗口进行滑窗运算，以窗口中心像素为阈值，将窗口内其余像素于中心像素点进行比较，若大于中心像素值计为1，否则计为0，通过比较8个点的值可以组成一个8位的二进制数，转换为十进制后即为该像素位置的LBP码

(3)特征层融合匹配

通过上述方式提取的到的hog和LBP特征向量融合成联合特征向量，特征层融合可以省略大量冗余信息，节约处理时间，减少运算量。在融合前需要对特征值进行归一化处理。特征层融合由于提起出的信息都是决策的精华，因此更具有针对性，提供识别所需要的准确信息。

本文采用支持向量机对上述两种特征进行融合，

支持向量机是针对非线性的问题，因此在求解SVM的最优界面时，我们可以通过将非线性问题转换到另一个空间的线性问题，在一个高维空间来计算最优分类面，计算式求解它的内积即可。优势在于，即便变换空间维数很高，也不会增加太多的计算量。支持向量机就是利用内积K(x,x')替换最优分类面的点积，将原来的特征空间转换到另一个高维的特征空间，则最优面函数为：

判别函数即为：

求解判别函数即为支持向量机的基本公式。支持向量机和神经网络有些相似的地方。它的输出也是类似若干中间层节点网络，并且对应输入样本和支持向量内积。利用支持向量机分类的效果取决于选择合适的内积，然后构造一个支持向量数先比较少的最优分类面。常用的内积函数主要分为以下四种：

(1)多项式形式的内积函数，如：

K(x,x_i)＝[(x·x_i)+1]^q

这是一个q阶的多项式分类器。

(2)高斯函数内积，如：

这是通过径向基作为分类函数，每一个基函数的中心对应一个支持向量，该算法自动获得输出值。

(3)S型函数内积，如：

K(x,x_i)＝tanh(ν(x_i·x)+c)

这个函数形式是一个两层的多层感知器神经网络。

(4)线性函数内积，如式：

K(x,x_i)＝(x_i·x)

这个函数的计算最简便，速度也最快。

作为支持向量机的输入信息，内积函数的选择直接影响匹配值融合的结果，本发明分别选择高斯函数和线型内积函数进行比较分析，在不同的归一化方式的选定不同的参数的情况下，比较它们的识别率。分别设定hog的特征为

LBP的特征为

根据内积函数表示方法，匹配分数融合的输入形式为：

进一步的，在步骤S300中，所述融合所述网络和分类器的检测结果，输出识别目标及位置信息的步骤包括，如图2所示：

本深度学习模型与行人检测分类器进行融合，具体实现方式为：yolov3模型通过不同倍数的采样运算，输出多尺度的检测结果，每个尺度的检测结果包含位置信息x,y,w,h,置信度confidence(0：不包含目标，1：包含目标)以及识别类别种类分数，其中，通过置信度判断该检测区域中是否包含检测目标，通过类别分数可获取到具体的识别目标类别。

首先，设定一个初始的迭代次数epoch，保证模型在训练到该epoch时基本上可以达到损失loss的稳定。

然后，当模型训练趋于稳定后，在接下来的训练中，在yolov3模型框架的后面融合一个行人检测分类器，即若yolov3输出值中包含目标且目标类别为行人，根据x,y,w,h的结果获取该位置的图像并送入行人检测分类器中进以一步训练，相对于对行人的二次识别。

最后，当融合后的行人属性检测模型均趋于稳定后，停止训练生成模型文件。加载模型文件到框架中，输入一张待识别的图像，通过模型可输出图像中要识别的目标及其位置。

存储器以及一个或多个处理器；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种行人属性检测方法，其特征在于，包括：

构建并训练行人及其属性检测网络；

构建并训练行人检测分类器；

2.根据权利要求1所述的行人属性检测方法，其特征在于，所述行人及其属性检测网络包括YOLOV3卷积神经网络；

3.根据权利要求1所述的行人属性检测方法，其特征在于，所述构建并训练行人检测分类器包括：

提取Hog特征；

提取LBP特征；

融合所述Hog特征和LBP特征，得到识别结果。

4.根据权利要求3所述的行人属性检测方法，其特征在于，所述提取Hog特征包括：

分别计算图像在X方向的梯度dx和Y方向梯度dy；

5.根据权利要求3所述的行人属性检测方法，其特征在于，所述提取LBP特征包括：

6.根据权利要求3-5任一项所述的行人属性检测方法，其特征在于，所述融合所述Hog特征和LBP特征，得到识别结果的步骤包括：

分别设定Hog的特征为

LBP的特征为

7.根据权利要求1所述的行人属性检测方法，其特征在于，所述融合所述网络和分类器的检测结果，输出识别目标及位置信息的步骤包括：

8.一种行人属性检测装置，其特征在于，包括行人及其属性检测网络和行人检测分类器，所述装置执行如权利要求1-7任一项所述的方法。

9.一种行人属性检测系统，其特征在于，该系统包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器用于执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可操作来执行权利要求1-7任一项所述的方法。