CN115620238A

CN115620238A - 一种基于多元信息融合的园区行人属性识别方法

Info

Publication number: CN115620238A
Application number: CN202211360044.6A
Authority: CN
Inventors: 朱川; 蔡达; 刘丛强
Original assignee: Kuanfan Technology Yancheng Co ltd
Current assignee: Kuanfan Technology Yancheng Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-17

Abstract

本发明公开了一种基于多元信息融合的园区行人属性识别方法，包括：采集园区中行人的图像数据并进行人工标注，以获取行人检测数据集和行人属性数据集；搭建行人检测网络模型，并进行训练和优化；搭建行人属性识别网络模型，并进行训练和优化；将行人检测网络模型和行人属性识别网络模型进行联合推理，并进行量化加速；将行人检测网络模型和行人属性识别网络模型部署到边缘设备；其中，联合推理的方法包括：将图像数据输入至行人检测网络模型，获取行人检测框的得分和位置信息；将得分符合设定要求的行人检测框输入至行人属性识别网络模型，获取与行人检测框相对应的行人属性。该方法能够降低硬件成本，在提升算法推理速度的同时维持较高的精度。

Description

一种基于多元信息融合的园区行人属性识别方法

技术领域

本发明涉及一种基于多元信息融合的园区行人属性识别方法，属于深度学习技术领域。

背景技术

智慧园区是智慧城市的重要表现形态，亦是智慧城市建设的缩影。它将先进的技术和人类的智慧融入到园区的管理与发展中，提升了园区乃至整个城市的竞争力。随着计算机硬件的高速发展，基于深度学习技术的应用逐渐被引入到园区管理中。行人检测与属性识别是园区管理的一个常见应用，这可以有效地统计园区人员的相关属性，并依据这些属性进行人员的管理。然而园区中人员聚集常常发生，这会导致特征重叠进而引发特征冗余现象，给现有的目标检测与属性识别算法带来了巨大的挑战。加之高性能设备昂贵的价格，给智慧园区的建设带来了巨大的成本，限制了深度学习技术在实际中的应用。

近年来，深度学习技术飞速发展，也有了许多行人检测与属性识别算法的落地。现有的大多数方法都是基于大型服务器的运算，并未考虑硬件平台性价比和效率，这无疑增加了硬件成本。也有一些基于嵌入式部署的方案，他们通过模型的量化、剪枝等方法提高运算速度，能够在一些边缘设备达到实时的速度要求。然而这些方法忽略了通道梯度分布和不同幅度梯度的影响，且未考虑模型在量化或者剪枝过程中的精度损失，一定程度上影响了算法模型的性能。

此外，现有的方案都是基于单一的卷积神经网络或者Vision Transformer，这导致模型不能很好的把握视频或者图像数据中的局部信息和全局信息的重要程度，进一步影响了算法模型的精度。因此发展一种轻量且高精度的行人属性识别方案迫在眉睫。

发明内容

本发明的目的在于提供一种基于多元信息融合的园区行人属性识别方法，能够降低硬件成本，在提升算法推理速度的同时维持较高的精度。

为达到上述目的，本发明提供如下技术方案：

一种基于多元信息融合的园区行人属性识别方法，包括：

采集园区中行人的图像数据并进行人工标注，以获取行人检测数据集和行人属性数据集；

搭建行人检测网络模型，并利用所述行人检测数据集进行训练和优化；

搭建行人属性识别网络模型，并利用所述行人属性数据集进行训练和优化；

将所述行人检测网络模型和行人属性识别网络模型进行联合推理，并进行量化加速；

将所述行人检测网络模型和行人属性识别网络模型部署到边缘设备；

其中，所述联合推理的方法包括：

将所述图像数据输入至所述行人检测网络模型，以获取行人检测框的得分和位置信息；

将得分符合设定要求的行人检测框输入至所述行人属性识别网络模型，以获取与所述行人检测框相对应的行人属性；

其中，所述得分为所述行人检测框的可信度，所述位置信息为所述行人检测框的左上角和右下角坐标值。

进一步的，所述行人检测网络模型包括主干网络、金字塔网络、空间特征细化模块以及检测头网络；所述主干网络由Lite-HRNet构成；所述空间特征细化模块由不同膨胀率的空洞卷积层和不同窗口的最大池化层构成；所述检测头网络由若干组卷积运算和组归一化层构成。

进一步的，将所述图像数据输入至所述行人检测网络模型，由所述主干网络进行特征提取；选取所述主干网络的最后三层输出，并输入至所述金字塔网络；由所述金字塔网络输出相应的特征图，并输入至所述空间特征细化模块进行多尺度特征融合；将融合后的特征图输入至所述检测头网络，由所述检测头网络输出行人检测框的得分与位置信息。

进一步的，所述属性识别网络模型包括局部全局融合主干网络和若干个多层感知机；各所述多层感知机分别接收来自所述局部全局融合主干网络的特征图，并输出相应的行人属性。

进一步的，所述局部全局融合主干网络包括用于提供局部信息的ResNet50主要主干网络和用于提供全局信息的Swin-Tiny辅助主干网络；所述ResNet50主要主干网络接收来自所述Swin-Tiny辅助主干网络提供的特征图，并使用卷积和插值保持特征图的通道与长宽一致。

进一步的，对所述行人检测网络模型和行人属性识别网络模型进行训练时，采用梯度分层量化技术，通过梯度裁剪策略，自动适应不同分布下不同幅值的梯度量化。

进一步的，对所述行人检测网络模型和行人属性识别网络模型进行训练和联合推理时，均采用INT8计算方式，以实现加速计算，并维持输出结果的精度。

进一步的，对所述行人检测网络模型进行训练的方法包括：

将所述行人检测数据集输入至搭建好的行人检测网络模型，进行网络的前向传播后输出检测结果，并进行损失计算，梯度反传后更新行人检测网络模型的参数，以实现行人检测网络模型的优化；

其中，进行损失计算时所采用的损失函数如公式(1)所示：

式(1)中，N_pos为正样本数量，L_cls为分类损失，该分类损失使用Focal Loss，L_reg为回归损失，该回归损失使用GIOU Loss，P_x,y为类别向量，t_x,y为回归向量，c^* _x,y为与p_x,y对应的标注值，t^* _x,y为与t_x,y对应的标注值。

进一步的，对所述行人属性识别网络模型进行训练的方法包括：

将所述行人属性数据集输入至搭建好的行人属性识别网络模型，进行网络的前向传播后输出检测结果，并进行损失计算，梯度反传后更新行人检测网络模型的参数，以实现行人检测网络模型的优化；

其中，进行损失计算时，将不同类别的属性之间的交叉熵损失直接相加，以得出总损失函数，所述交叉熵损失的计算公式如公式(3)所示：

式(3)中，L_i为第i个行人属性的损失，y_i表示第i个行人属性的预测值，Y_i表示第i个行人属性的真实值，由此，总损失函数如公式(4)所示：

L＝L₁+L₂+…+L_n (4)

式(4)中，n为待识别的行人属性的类别数量，L为所有类别的属性的总损失函数。

进一步的，将所述行人检测网络模型和行人属性识别网络模型部署到边缘设备的方法包括：

将所述行人检测网络模型和行人属性识别网络模型转换为RK3399PROD嵌入式开发板所支持的格式，即RKNN文件；将所述RKNN文件移植到RK3399PROD嵌入式开发板。。

与现有技术相比，本发明的有益效果是：

本发明所采用的技术方案融合了图像中的空间、局部、全局信息，能够有效地降低硬件成本，提升行人检测与属性识别的精度；行人检测网络中使用特征细化，提升感受野的同时补充更多的空间信息，缓解人员聚集下的特征冗余现象，优化特征的质量；行人属性识别网络结合了卷积神经网络和Vision Transformer的长处，让局部信息和全局信息在网络中进行交互。这让网络在归纳偏置的同时兼顾全局信息，有效地提升主干网络的特征提取能力，增强特征的可分辨性；此外，为了面向工业级实际应用，部署算法模型在边缘嵌入式开发平台，本发明考虑梯度的分层量化和幅度感知的梯度裁剪策略，以期望实现无精度损失的INT8量化方案。通过这种检测网络结合分类网络的方式实现行人属性识别，简单高效地提升了园区的管理效率，推动了智慧园区的建设与发展。

附图说明

图1是本发明实施例提供的一种基于多元信息融合的园区行人属性识别方法流程图；

图2是本发明实施例提供的行人检测网络模型结构示意图，Refinement指空间特征细化模块；

图3是本发明实施例提供的空间特征细化模块的结构示意图；

图4是本发明实施例提供的针对Lite-HRNet应用无损INT8量化技术的示意图；

图5是本发明实施例提供的行人属性识别网络模型结构示意图；

图6是本发明实施例提供的将算法部署到边缘设备的方法流程图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

实施例一：

图1是本发明实施例一提供的一种基于多元信息融合的园区行人属性识别方法流程图，本流程图仅仅示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图1所示的顺序完成所示出或描述的步骤。

参见图1，本实施的方法具体包括如下步骤：

步骤一：采集园区中行人的图像数据并进行人工标注，以获取行人检测数据集和行人属性数据集；

通过相机采集园区中行人的图像数据并进行人工标注；人工标注包括行人检测框标注和行人属性标注。

对于行人检测框标注，使用LabelImg标注工具，为图像数据中的每个行人生成一个矩形检测框，输出结果为矩形检测框的左上角坐标和右下角坐标，标注格式选择VOC，标注完成后结合Crowd Human数据集形成行人检测数据集。

对于行人属性标注，使用CVAT标注工具，截取行人检测数据集中的每个行人检测框，为每个行人检测框中的行人赋予多个属性，例如：整体穿着、是否玩手机、是否戴口罩、是否抽烟、是否摔倒以及是否持有危险物品，标注完成后形成行人属性数据集。

步骤二：搭建行人检测网络模型，并利用行人检测数据集进行训练和优化；

搭建行人检测网络模型，如图2所示，行人检测网络模型包括主干网络、金字塔网络、空间特征细化模块以及检测头网络。

主干网络采用Lite-HRNet。

金字塔网络为一种自顶向下的结构。

空间特征细化模块由多个分支构成，类似于ResNetXt中的多分支设计，如图3所示，每个分支由不同膨胀率的空洞卷积层和不同窗口的最大池化层构成。

检测头网络包括分类分支和回归分支，分类分支包括4组卷积核大小为3×3、步长为2的卷积层，每组卷积层的后面紧接着一个组归一化层，分类分支的尾部是一个卷积核大小为3×3的卷积层，负责输出行人检测框的得分，该得分代表行人检测框的可信度；回归分支的结构与分类分支相似，但回归分支的尾部负责输出行人检测框的位置信息，即行人检测框的左上角和右下角坐标值(x_min,y_min,x_max,y_max)。

将步骤一中所采集的图像数据输入至行人检测网络模型中，由主干网络对图像数据进行特征提取；选取主干网络最后三层的输出Out₁、Out₂、Out₃输入至金字塔网络，得到P₃、P₄、P₅、P₆、P₇特征层；将P₃、P₄、P₅输入至空间特征细化模块，以进行多尺度特征融合；将完成特征优化的特征图输入至检测头网络，以获取行人检测框的得分与位置信息。

空间特征细化模块只接收特征图的1/4通道，空洞卷积层中的膨胀率逐渐增大，有利于捕捉多尺度的上下文信息，最大池化层通过不同窗口大小和步长扩大感受野并提高特征质量；空间特征细化模块将金字塔网络中的特征图分成四等份，能够降低计算成本，并使不同分支关注来自不同感受野的特征；每个部分应用一个空洞卷积层和一个最大池化层，将这些部分在通道维度进行拼接，为了保留高层的语义信息，本发明只在金字塔网络的前三层应用空间特征细化模块的左半部分，即对应金字塔网络中的P₃、P₄、P₅层。此外，为了抑制特征冗余，空间特征细化模块的右半部分包含了一些简单的结构，例如：卷积、插值、3D-maxpooling等，这些结构被用来获取不同尺度下的特征，并将其转化为更具代表性的特征。首先，输入的特征图被分为5个层级，包括高层的语义信息；然后，将四维向量(B，C，H，W)扩展到五个维度，其中新扩展的维度用于存储相邻层级的特征图；最后，在三个维度上进行池化，包含扩展的维度、通道维度以及batch size维度；在进行残差连接过后，增加一个GN-RELU层保证训练阶段的稳定性。该设计与MaxPooling的不同之处在于，它考虑了不同层级特征的相关特性。

按照上述结构，应用深度学习框架pytorch完成行人检测网络模型搭建并进行训练。将步骤1中获取的行人检测数据集输入至搭建好的行人检测网络模型，进行网络的前向传播后输出检测结果，并进行损失计算，梯度反传后更新行人检测网络模型的参数，以实现行人检测网络模型的优化。

其中，进行损失计算时所采用的损失函数如公式(1)所示：

步骤三：搭建行人属性识别网络模型，并利用行人属性数据集进行训练和优化；

搭建行人属性识别网络模型，如图5所示，行人属性识别网络模型包括局部全局融合主干网络和多层感知机。

局部全局融合主干网络由Swin-Tiny辅助主干网络和ResNet-50主要主干网络构成。Swin-Tiny辅助主干网络提供全局信息，ResNet-50主要主干网络提供局部信息。ResNet-50主要主干网络接收来自Swin-Tiny辅助主干网络的特征图，使用1×1卷积和插值保证特征图通道与长宽的一致性。局部全局融合主干网络的输出如公式(2)所示：

式(2)中，

为Swin-Tiny辅助主干网络的第i层输出，

为ResNet-50主要主干网络的第i+1层输出，Swin-Tiny辅助主干网络共有4层输出，本发明仅使用其中的最后三层，即整数i的取值范围为[2，4]；ResNet-50主要主干网络也共有4层输出，本发明仅使用其中的最后三层。

多层感知机包含一个卷积核大小为3×3的卷积，在最大池化后应用线性预测层输出行人的属性。本发明涉及多个属性类别，它们共用局部全局融合主干网络的特征提取过程，即共享局部全局融合主干网络，但应用不同的多层感知机进行多属性分类。

实际上，主要主干网络与辅助主干网络之间的设计可以更加复杂，可以给出很多种不同的方案。然而，本发明只选取了一种简单有效的方式。通过这种简单的连接，局部特征与全局特征在两个不同的主干之间交互，相互弥补了各自的不足，提升了网络的特征提取能力，增强了特征的可分辨性。

按照上述结构，应用深度学习框架pytorch完成行人属性识别网络模型搭建并进行训练。将步骤1中获取的行人属性数据集输入至搭建好的行人属性识别网络模型进行训练，并将结果与步骤1中人工标注的行人属性进行损失计算，更新行人属性识别网络模型的参数，以实现行人属性识别网络模型的优化。

进行损失计算时，将不同类别的属性之间的交叉熵损失直接相加，以得出总损失函数，交叉熵损失的计算公式如公式(3)所示：

式(3)中，L_i为第i个行人属性的损失，y_i表示预测值，Y_i表示行人属性的真实标签值，由此，总损失函数如公式(4)所示：

L＝L₁+L₂+…+L_n (4)

步骤四：将行人检测网络模型和行人属性识别网络模型进行联合推理，并进行量化加速；

将步骤二中的行人检测网络模型和步骤三中的行人属性识别网络模型进行联合推理；将图像数据输入至行人检测网络模型，以获取行人检测框的得分和位置信息；截取得分大于0.3的行人检测框，并输入至行人属性识别网络模型，完成联合推理，并获取与行人检测框相对应的行人属性。

为了面向工业级实际应用，部署在嵌入式开发平台，在训练过程和联合推理过程中均使用INT8计算方式。采用Lite-HRNet作为主干网络，在Shuffle块中引入条件通道加权单元代替1*1卷积，如图4所示，以提升计算效率。

此外，为了检测模型的落地，本发明引入了模型量化技术。大多数量化方法忽略了通道梯度分布和不同幅度梯度的影响，这会导致最终精度的损失。与其他量化不同的是，本发明考虑梯度的分层量化，以期望实现无精度损失的INT8量化方案。

对于给定的数据x和量化参数s，采用对称均匀量化，定义的INT8量化计算公式如公式(5)所示：

式(5)中，x为给定的数据，s为量化参数，保证x在[-s，s]范围内，相应地去量化表示为q(x)×s/127，round函数表示四舍五入。

在训练过程中，从通道维度将梯度分布划分为两个类别：钟型曲线(N高斯分布)和长尾型曲线(倒T分布)。为了减小量化误差，这里在通道维度，针对这两个不同的分布使用不同的量化参数。概率分布如公式(6)所示：

式(6)中，g为梯度变量，μ为平均梯度，δ为梯度方差，λ为阈值，设置λ为0.3，p为服从上述概率分布的随机变量，P表示某种条件下的概率值。

最后通过梯度裁剪策略，自动适应不同分布下不同幅值的梯度量化。

步骤五：将行人检测网络模型和行人属性识别网络模型部署到边缘设备；

完成联合推理后，将行人检测网络模型和行人属性识别网络模型转换为RK3399PROD嵌入式开发板所支持的格式，即RKNN文件。转换过程中使用无损INT8量化，在计算不发生溢出的情况下减少张量的长度，使用INT8自适应的选择当前张量的计算精度。

将RKNN文件移植到边缘设备，即RK3399PROD嵌入式开发板。本发明设置了多个边缘设备以支持更多路数的摄像头，如图6所示，它们通过一个视频网关服务器连接，以保证较高的可用性。视频网关服务器接收园区的实时视频流并发放到每个边缘设备，边缘设备处理并返回算法模型的运行结果。

在本实施例中，融合了图像中的空间、局部、全局信息，能够有效地降低硬件成本，提升行人检测与属性识别的精度；行人检测网络中使用特征细化，提升感受野的同时补充更多的空间信息，缓解人员聚集下的特征冗余现象，优化特征的质量；行人属性识别网络结合了卷积神经网络和Vision Transformer的长处，让局部信息和全局信息在网络中进行交互。这让网络在归纳偏置的同时兼顾全局信息，有效地提升主干网络的特征提取能力，增强特征的可分辨性；此外，为了面向工业级实际应用，部署算法模型在边缘嵌入式开发平台，本发明考虑梯度的分层量化和幅度感知的梯度裁剪策略，以期望实现无精度损失的INT8量化方案。通过这种检测网络结合分类网络的方式实现行人属性识别，简单高效地提升了园区的管理效率，推动了智慧园区的建设与发展。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多元信息融合的园区行人属性识别方法，其特征在于，包括：

其中，所述联合推理的方法包括：

2.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，所述行人检测网络模型包括主干网络、金字塔网络、空间特征细化模块以及检测头网络；所述主干网络由Lite-HRNet构成；所述空间特征细化模块由不同膨胀率的空洞卷积层和不同窗口的最大池化层构成；所述检测头网络由若干组卷积运算和组归一化层构成。

3.根据权利要求2所述的基于多元信息融合的园区行人属性识别方法，其特征在于，将所述图像数据输入至所述行人检测网络模型，由所述主干网络进行特征提取；选取所述主干网络的最后三层输出，并输入至所述金字塔网络；由所述金字塔网络输出相应的特征图，并输入至所述空间特征细化模块进行多尺度特征融合；将融合后的特征图输入至所述检测头网络，由所述检测头网络输出行人检测框的得分与位置信息。

4.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，所述属性识别网络模型包括局部全局融合主干网络和若干个多层感知机；各所述多层感知机分别接收来自所述局部全局融合主干网络的特征图，并输出相应的行人属性。

5.根据权利要求4所述的基于多元信息融合的园区行人属性识别方法，其特征在于，所述局部全局融合主干网络包括用于提供局部信息的ResNet50主要主干网络和用于提供全局信息的Swin-Tiny辅助主干网络；所述ResNet50主要主干网络接收来自所述Swin-Tiny辅助主干网络提供的特征图，并使用卷积和插值保持特征图的通道与长宽一致。

6.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，对所述行人检测网络模型和行人属性识别网络模型进行训练时，采用梯度分层量化技术，通过梯度裁剪策略，自动适应不同分布下不同幅值的梯度量化。

7.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，对所述行人检测网络模型和行人属性识别网络模型进行训练和联合推理时，均采用INT8计算方式，以实现加速计算，并维持输出结果的精度。

8.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，对所述行人检测网络模型进行训练的方法包括：

其中，进行损失计算时所采用的损失函数如公式(1)所示：

9.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，对所述行人属性识别网络模型进行训练的方法包括：

L＝L₁+L₂+…+L_n (4)

10.根据权利要求1所述的基于多元信息融合的园区行人属性识别方法，其特征在于，将所述行人检测网络模型和行人属性识别网络模型部署到边缘设备的方法包括：

将所述行人检测网络模型和行人属性识别网络模型转换为RK3399PROD嵌入式开发板所支持的格式，即RKNN文件；将所述RKNN文件移植到RK3399PROD嵌入式开发板。