CN114360064A

CN114360064A - 基于深度学习的办公场所人员行为轻量级目标检测方法

Info

Publication number: CN114360064A
Application number: CN202210010800.6A
Authority: CN
Inventors: 薛俊民; 饶云波; 郭航瑞; 杨自强; 周望; 慕通泽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-15
Anticipated expiration: 2042-01-06
Also published as: CN114360064B

Abstract

本发明公开了一种基于深度学习的办公场所人员行为轻量级目标检测方法，属于图像检测技术领域。本发明基于所改进的C3S模块以及FPN模块，可以方便地应用到目标场所的指定的目标对象的检测任务中，且检测任务的精度高、复杂度低。本发明可以用于对指定的办公场所的人员行为进行检测，将实时监控的目标场所的图像输入到本发明的目标检测网络模型，基于其输出即可得到对应的检测结果。本发明可以用于运维场所的目标检测，也可以用于其他业务场景的目标检测，如营业场所监控场景、重要区域安防监控场景、重要设施监控场景等，模型对人员违规行为、场所及设备异常状态的检测能力将进一步得到提升。

Description

基于深度学习的办公场所人员行为轻量级目标检测方法

技术领域

本发明属于图像检测技术领域，具体涉及一种基于深度学习的办公场所人员行为轻量级目标检测方法。

背景技术

目标检测是计算机视觉三大基础问题之一，在自动驾驶、图像/视频检索、视频监控等领域有着重要的应用，目标检测领域的研究具有十分重要的意义。在目标检测领域，可以通过添加或改进组件来优化骨干网络，但是这样也会带来新的计算瓶颈；在实际应用中，因对应的场景不同，实际效果会有波动，往往会更糟。但是，如果对基本构件的改进能够在不影响训练模型的情况下，提高相关适用场景的有效性，那么这种改进因有普遍适用性，会被广泛接受，具有广阔的应用前景。

目前的目标检测算法主要有两大类，一是两阶段检测算法(Two-Stage)，二是单阶段检测算法(One-Stage)。单目标检测算法不需要产生候选区域(Region Proposal)阶段，可以通过一个Stage直接产生物体的类别概率和位置坐标值，比较典型的算法有YOLO、SSD和CornerNet目标检测算法。双阶段目标检测算法将检测问题划分为两个阶段，第一个阶段首先产生候选区域(Region Proposals)，包含目标大概的位置信息，然后第二个阶段对候选区域进行分类和位置精修，这类算法的典型代表有R-CNN，Fast R-CNN，Faster R-CNN等。目标检测模型的主要性能指标是检测准确度和速度，其中准确度主要考虑物体的定位以及分类准确度。一般情况下，Two-Stage算法在准确度上有优势，而One-Stage算法在速度上有优势。随着研究和技术的发展，两类算法都进行了改进，均能在准确度以及速度上取得较好的结果。最新的Yolov5单阶段系列算法，具有易于配置环境参数、模型训练速度快，并且批处理推理产生实时结果的优点；还能够直接对单个图像、批处理图像、视频，甚至网络摄像头端口输入进行有效推理。

发明内容

本发明提供了一种基于深度学习的办公场所人员行为轻量级目标检测方法，可用于提升对指定工作行为的检测精度和效率。

本发明采用的技术方案为：

基于深度学习的办公场所人员行为轻量级目标检测方法，该方法包括：

配置对目标场所的人员行为的检测类别及类别标签；

设置初始目标检测网络模型，所述初始目标检测网络模型包括骨干网络、特征融合网络和预测网络；

所述骨干网络用于提取目标场所的采集图像的多尺度特征信息，并将提取的多尺度特征信息输入到特征融合网络；

所述融合网络，基于骨干网络提取的多尺度特征信息进行组合和融合处理，输出多个尺度的融合特征图，每个尺度的融合特征图对应一种预置的锚框模式(即锚框尺寸)；

所述预测网络，对每一个融合特征图，基于预置的锚框模式，预测该融合特征图中目标检测位置，以及目标类别标签；

所述骨干网络依次包括：隔行采样拼接模块，多个带交叉卷积的单元模块，一个卷积块和空间金字塔池化模块；

所述带交叉卷积的单元模块包括三两部分：第一部分为一个卷积块，第二部分为为一个或多个C3S模块的堆叠结构，第三部分为一个或多个残差模块的堆叠结构；所述C3S模块包括两个顺次连接的卷积块，其中，第一个卷积块的卷积层的卷积核为3×1，第二卷积块的卷积层的卷积核为1×3；所述卷积块依次包括卷积层、批归一化层和激活函数层；

基于采集的训练数据(目标场所的采集图像)对初始目标检测网络模型进行网络参数学习，得到目标场所的目标检测网络模型。

进一步的，所述C3S模块的输入和输出之间存在跳跃连接(短连接)。即通过跳跃连接将C3S模块的输入特征图与该C3S模块的第二个卷积块的输出特征图相加，作为该C3S模块的输出特征图。

进一步的，所述融合网络输出的融合特征图的尺度数与骨干网络包括的带交叉卷积的单元模块数M一致，且输入到融合网络的特征图包括：SPP模块的输出特征图，以及最后M-1个带交叉卷积的单元模块的输出特征图；

进一步的，所述融合网络包括M′(M′＞1)条支路，其中，第一条支路的输入特征图为SPP模块的输出特征图，包括顺次连接的两个带交叉卷积的单元模块和一个卷积块；

其余的M′-1条支路的输入依次为上一条支路的最后一个带交叉卷积的单元模块的输出特征图，以及骨干网络中的对应的带交叉卷积的单元模块的输出特征图，融合网络的第2至第M′条支路的结构相同，依次包括FPN模块、卷积块、带交叉卷积的单元模块和卷积块；其中，FPN模块包括上采样层、1×1卷积层和相加操作层，所述上采样层的输入为当前支路的上一条支路的带交叉卷积的单元模块的输出特征图，1×1卷积层的输入为骨干网络中的对应的带交叉卷积的单元模块的输出特征图，所述相加操作层用于对上采样层和1×1卷积层的输出特征图相加。

进一步的，所述骨干网络包括三个带交叉卷积的单元模块；其中，第一个带交叉卷积的单元模块包括一个C3S模块和一个残差模块；第二和第三个带交叉卷积的单元模块相同，均包括一个C3S模块和三个残差模块。

进一步的，所述融合网络各条支路上的带交叉卷积的单元模块相同，均包括两个C3S模块和一个残差模块。

进一步的，所述初始目标检测网络模型在网络参数学习时，采用的损失函数为对象损失、分类损失和锚框损失之和。

进一步的，所述SPP模块的处理为：SPP模块的输入特征图经过1×1的卷积层，再经过并列的三个最大池化层进行下采样，将三路下采样结果与SPP模块的输入特征图相加，再经卷积层后恢复到SPP模块的输入特征图的尺寸。

进一步的，所述预测网络采用目标检测网络YOLO中的预测层。

本发明提供的技术方案至少带来如下有益效果：基于本发明所改进的C3S模块以及FPN模块，可以方便地应用到目标场所的指定的目标对象的检测任务中，以实现对目标场所的人员行为进行检测，即将实时监控的目标场所的图像输入到本发明的目标检测网络模型，基于其输出即可得到对应的检测结果。且检测任务的精度高、复杂度低，以检验办公人员行为的合规情况，从而提升服务水平，提高工作效率，

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是典型的单阶段目标检测模型结构图；

图2是现有Bottleneck结构与本发明实施采用的Crossconv结构的对比示意图；

图3是本发明实施例中，采用的FPN通用结构示意图；

图4是本发明实施例中，采用的C3S-FPN通用结构示意图；

图5是本发明实施例中，YOLOv5s在VOC07+12的实验结果性能图；

图6是本发明实施例中，YOLOv5s-C3S在VOC07+12的实验结果性能图；

图7是本发明实施例中，YOLOv5s-C3S-FPN在VOC07+12的实验结果性能图；

图8是本发明实施例中，YOLOv5m在VOC07+12的实验结果性能图；

图9是本发明实施例中，三种目标检测方式针对指定的小目标，在银行运维场景的检测实例对比；

图10是本发明实施例中，三种目标检测方式针对指定的大目标，在银行运维场景的检测实例对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在诸如对外营业提供服务、内部运行维护的技术支撑等办公场所，通过分析监控视频，可以更好的掌握人员工作情况，发现操作风险，提升办公人员工作的合规水平，从而提升服务水平、提高工作效率。为了判断办公场所中人员行为情况，需要对画面中的人员躯干、面部、手机、食品、水杯等目标都进行检测，以进一步判断人员的行为合规情况。这就需要确保对大目标、小目标的检测准确度，并能提供适应此工程环境下的检测速度，以便及时发现违规行为进行告警和提醒，实现对办公场所人员行为的智能检测。

如图1所示，本发明实施例提供了一种基于深度学习的办公场所人员行为轻量级目标检测方法，其所涉及的目标检测模型划分为三个部分：

1)Backbone，骨干网络，即，用于对图像进行特征提取，在不同图像细粒度上聚合并形成图像特征的卷积神经网络，对应图1中左侧部分。

2)Neck：一系列混合和组合图像特征的网络层，并将图像特征传递到预测层(Head)，对应图1中的中间部分。

3)Head：对图像特征进行预测(目标类别和位置)，生成边界框和并预测类别，对应图1的右侧部分。

图1中，Focus指隔行采样拼接模块，即基于指定的分片尺寸对图像进行分片，得到多个图像切片，再在通道维度对所有图像切片进行拼接；拼接后的图像再经卷积块(依次包括卷积层、批量归一化层和激活函数层)进行Conv操作(二维卷积、批量归一化和函数激活)，得到Focus的输出特征图。此处Fcus可采用目标检测网络YOLO V5s的Focus结构。CSP表示BottleneckCSP模块，CSP后的第一个数字用于表示CSP模块的数量，第二数字用于表示在该带交叉卷积的单元模块的最后一个CSP模块后接入的残差块的数量，例如“CSP1-1”表示该带交叉卷积的单元模块包括1个CSP模块和1个残差模块，“CSP2-1”表示该带交叉卷积的单元模块依次包括：2个CSP模块和1个残差模块。其中残差模块可采用任一惯用的残差网络结构，本发明实施例中对此不做具体限定。CBL表示卷积块，其所对应的操作定义为Conv操作，该操作包含了二维卷积、批量归一化和函数激活。SSP表示空间金字塔池化模块。

其中，输出的参数计算公式中nc代表了检测目标分类的数量，坐标参数共4个，再加上对分类目标判定参数1个，每个锚框共计参数为nc+5个；再与锚框数量相乘，分别得到了(nc+5)×80×80，(nc+5)×40×40，(nc+5)×20×20。

Neck是目标检测框架中承上启下的关键环节。它对Backbone提取到的重要特征，进行再加工及合理利用，有利于下一步Head的具体任务学习。本发明实施例以银行运维场景为例，对YoloV5s算法的Backbone层和Neck层都进行了改进，利用了该算法的轻量型特点，通过调整模块架构、优化激活函数等方式，进一步提升检测准确度，同时在一定程度上也降低了网络模型参数对内存的占用，从而在检测准确度和速度两方面都得到了提升。本发明实施例中，主要改进点体现为：

一是改进了在Backbone和Neck部分都调用的关键模块BottleneckCSP(Bottleneck Cross Stage Partial)，新的模块使用了新的卷积方式和新的激活函数，减少系统资源开销，提升训练和检测效果，该模块称为C3S。

二是在生成不同尺度特征图的Neck部分，采用了FPN(Feature PyramidNetworks)结构，而非yolov5原始的缩小再放大的结构，进一步提升各种尺度目标的综合检测效果。

基于以上两点，本发明实施例中，将改进后的网络模型称为C3S-FPN结构。

这两项改进也可以应用在具有类似Bottleneck模块的目标检测模型中，以及可以输出多尺度检测特征head的模型中。

如图2所示，左侧是原模型中的Bottleneck模块，将输入图像先后经过1×1的卷积块(即卷积块的卷积层的卷积核为1×1)和3×3的卷积块进行Conv操作，并根据情况将经过两次Conv操作得到的输出结果与输入图像进行Concat操作。图2的右侧是本发明实施例中取代现有的Bottleneck模块的CrossConv模块，通过在纵向和横向分别进行3×1和1×3的卷积块，达到了与先后经过1×1和3×3的Conv操作输出的相同效果但参数的数量与后者相比有了显著的下降，并且对大尺度的输入图像或提取的图像特征有更明显的效果。经过Crossconv的处理，输出图像的通道数和输出图像的通道数保持一致，再将二者进行相加，从而保留了更多的图像特征。具体来说，先经过一次Conv操作(对应图1中所示的CBL模块)，即该操作包含了二维卷积、批量归一化、函数激活等操作，对输入图像的通道数进行了扩展；再经过一次Conv操作，将本单元操作输出图像的通道数保持与输入图像一致；最后将本单元输入图像和经过两次Conv操作的输出图像进行相加，生成最终的本单元的输出图像。

本发明实施例中，在Backbone及Neck部分的BottleneckCSP模块，都使用CrossConv取代了Bottleneck，进行卷积操作，相比原有的Bottleneck，显著降低了参数量，节省了内存资源，加快了训练和检测速度。

Yolov5进行通道channel的拼接，而本发明实施例通过FPN直接在特征维度上进行相加，这样处理后，在不增加额外计算量的基础上，使得相加训练出来的结果能够更有效地融合浅层和深层的信息。在Neck部分采用如图3所示的FPN结构而非yolov5原始的缩小再放大结构，生成三种不同尺度的图像特征对目标类别及位置进行预测，适用于运维场景下的人员躯干、人脸等大目标检测和工卡、手机等小目标检测，有力提升了检测效果。即本发明实施例中通过FPN模块使得相加训练出来的结果能够更有效地融合浅层和深层的信息，该FPN模块包括上采样层、1×1卷积层和相加操作层，相加操作层用于对上采样层和1×1卷积层的输出特征图相加。

以银行为例的运维场景，本发明实施例提供的基于深度学习的办公场所人员行为轻量级目标检测方法的具体实现过程如下：

步骤1，数据处理。

将标注好的图片缩放到640×640的大小，并在颜色空间和图片空间进行数据增强，包括色调、饱和度、明度，以及水平和垂直平移、缩放、剪切、上下翻转、左右翻转、mosaic及mixup(一种数据增强方式)操作等，数据增强的概率采用了常用的系数，其中进行mosaic增强的概率为1，即对所有输入图片都进行mosic增强。学习和训练参数也采用了常用的数据。

同时设置了如表1所示的运维场景下的13个分类：

表1运维场景检测目标分类

步骤2，网络模型及前向传播。

网络模型(目标检测模型)包括三个部分：

1)Backbone，骨干网，在不同图像细粒度上聚合并形成图像特征的卷积神经网络。

2)Neck：特征融合网，一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。

3)Output(Prediction)，预测层(目标分类检测网络)，对图像特征进行预测，生成边界框和并预测类别。

如图4所示，在Backbone部分，先经过Focus分片操作，将这个四个图片切成了四个3×320×320的切片，接下来使用concat从深度上连接这四个切片，输出为12×320×320，之后再通过卷积核数为64的卷积层，最后经过batch_norm和leaky_relu，生成64×160×160的输出。该输出接入到新设计的C3S模块(NewBottleneckCSP)，C3S模块用CrossConv取代了原模型中的Bottleneck(瓶颈残差模块)，本发明实施例中，C3S模块采用线性激活函数。图4中，C3S的第一个数字表示C3S模块的数量，第二数字表示后接的残差块数量，例如“C3S2-1”表示该带交叉卷积的单元模块包括依次连接的两个C3S模块和1个残差块。同样，残差块可以采用任一惯用结构，本发明实施例对此不做具体结构限定。

经过该模块后，再经过一次卷积核数为128的卷积，输出为128×80×80。经过三次C3S模块，将128×80×80的输出经过256个卷积核的卷积，形成256×40×40的输出，再经过三次C3S模块；本次输出再经过一次卷积，卷积核数为512，输出为512×20×20，加载到SPP区。

在Backbone的SPP区分别采用5/9/13的最大池化，再进行concat融合，提高感受野。SPP的输入是512×20×20，经过1×1的卷积层后输出256×20×20，然后经过并列的三个Ma×pool进行下采样，将结果与其初始特征相加，输出1024×20×20，最后用512的卷积核将其恢复到512×20×20。

在Neck部分，将SPP得到的结果形成三个分支，分别进行两次上采样、一次不进行采样，并将上采样的结果通过与在Backbone区得到的通道数量相同的特征图进行add操作。进行两次上采样的分支，将两次采样后得到的特征图，与在Backbone区下采样并经过C3S模块的通道数量相同的输出特征图，进行特征图维度上的加(add)操作，这与在channel维度上进行拼接的原有操作不同；进行一次上采样操作的分支，与以上分支的操作类似，对经过一次上采样的最终结果和Backbone区通道数量相同的输出特征图进行add操作；未进行上采样操作分支，直接将SPP的输出结果进行两次C3S操作后输出，如图4所示。

在Output部分进行预测，输入为Neck部分的三尺度的特征图，分别进行卷积操作，形成80×80，40×40和20×20的输出；在运维场景下，分类数为13，因此通道数都为3×(1+4+13)＝54。

从三种尺度上进行预测，得到相关的结果。

步骤3，锚框的预测。

Yolov5s常用的锚框(anchor)有以下三种，对应不同尺寸特征图。

表2典型锚框

本发明实施例中，也将表2中所给出的每种采样情况下的三种比例作为默认值，但在训练过程中，跟随训练的情况，采用聚类算法对锚框的长宽比进行了调整。这样能更灵活的适应运维场地的检测场景，同时也增强了算法的普适性。

具体情况是，从训练过程中任何一个gt框((ground truth box)最终是要落到特征图中的某个网格出发，在计算bpr(best possible recall)的时候，考虑以上三种特征图比例下的9类anchor的宽高和gt框的宽高之间的差距。先计算每个gt框的宽高和所有这9个anchor的宽高的比例值r，再从r与1/r中选择较小的一项，从而使得最终的结果小于等于1，即通过min(r,1/r)的方式统一到小于等于1的情形，然后从中选取较小的这个值。通过选取宽高比例最大的值，就可以确定bpr(best possible recall)，其最大值为1，如果bpr小于指定阈值(经验值，可以根据情况进行调整，本发明实施中取0.98)，则根据数据集的标签(label)自动学习anchor的尺寸。这样通过聚类训练，就得到了适应训练数据的锚框。

步骤4，损失函数的更新。

通过与GT类别及坐标的对比，依然从三个方面计算损失函数，分别是对象、分类和锚框，即训练时采用的总损失为：Loss＝Lobj+Lcls+Lbox，其中，Lobj表示对象损失，Lcls表示分类损失、Lbox表示锚框损失。

本发明实施例中，采用BECLogits损失函数计算对象损失Lobj()，采用了交叉熵损失函数(BCEclsloss)计算分类损失Lcls()，采用了GIOU Loss(GeneralizedIntersection over Union Loss)来度量锚框损失Lbox。

通过后向传播，逐步更新损失函数的取值。

步骤5，数据集的选择、模型训练及测试。

本实施例中，采用了VOC07-12的公开数据集进行了测试，并与yolov5系列的多个模型进行了对比，验证模型的有效性；对运维场景的数据进行标注，在此数据集上进行训练和测试。在训练过程中，batchsize设为64，经过了50轮的迭代训练。

在VOC07+12公开数据集中，通过实验测试，对比了常用的多种网络模型的情况，结果显示改进后的网络架构在性能上有较大的提升，提高了准确度和召回率，同时参数也较少。

表3 VOC07+12数据集试验对比结果

上述试验对比结果中，GPU(图像处理器)方面，使用了GeForce RTX 3090，显存为24265MB，训练集采用VOC2012train-val数据集上的16551张，测试集采用VOC2007test数据集上的4952张。经过对YOLOv5s骨干网络的改进，Backbone和Neck区分别采用了C3S代替原有的CSP模块后，节约了60％的训练时间。

在本发明实施例涉及的银行运维场景中，对监控视频检测的实时性要求很高，相比其他模型，在相似的检测精度下，具有较少参数的YOLOv5s-C3S-FPN(骨干网采用C3S，Neck网络采用FPN结构的YOLOv5s)和YOLOv5s-C3S(骨干网采用C3S的YOLOv5s)是该场景应用下的首选，相比现有的YOLOv5s网络深度更深、卷积核数量更多的YOLOv5m，YOLOv5s-C3S-FPN也表现出良好的性能。

YOLOv5s、YOLOv5s-C3S、YOLOv5s-C3S-FPN以及YOLOv5m检测的实验结果对比分别如图5、6、7和8所示，图5至图8中，“precision”指查准率，“recall”指查全率，“mAP”指平均精度均值，“mAP@0.5”指IoU阈值为0.5的mAP，“mAP@0.5：0.95”指IoU阈值从0.5到0.95的mAP，“val”指有用的(正确的)，分别将YOLOv5s、YOLOv5s-C3S、YOLOv5s-C3S-FPN以及YOLOv5m结构在VOC07+12数据集上的实验验证后，又以银行运维场景的图片数据集对两种模型进行了训练和测试。在该场景下，检测其中的12种目标、判断人员行为情况。共选取了9058张具有代表性的图片，其中训练数据集7248张，测试数据集1810张，同样是使用了GPU-Nvidia 3090显卡，每个模型也是50个轮次。

从实验结果可以看出，本发明实施例采用的C3S-FPN模型具有更好的检测效果，如表4所示，综合衡量准确度和召回率，具有更好的数据表现，损失函数衰减也更快地达到最小值。显示出该网络对运维场景的检测，具有更好的适应性。

表4银行运维场景检测目标测试对比表

图9和图10是三种模型在银行运维场景的检测实例，图9是对人员不戴口罩的检测，其中包含了对小目标口罩的检测；图10是对人员除表1外检测分类行为(body_others)的检测，其中，Yoloc3s表示基于现有的目标检测网络Yolo，将其中的骨干网替换为C3S，Yoloc3s-fpn表示基于现有的目标检测网络Yolo，将其中的骨干网替换为C3S，NecK网络替换为c3s-fpn形式，即目标分类检测网络(分类和定位，Head部分)采用现有的Yolo中的对应结构，特征提取和融合采用图4所示的网络结构。从检测的置信度来看，两种情况下，检测的置信度从高到底依次为：c3s-fpn、c3s、v5s。这就进一步验证了YOLOv5s-C3S-FPN结构的实际效果。从实验数据看，在运维场景的视频监控检测中，运用YOLOv5s-C3S-FPN结构，可以得到较好的网络性能，参数占用内存比较小、训练时间短，且能得到较好的检测精确度和召回率。其中人员聚集分类，因业务场景出现概率很低，后期实验中将进行忽略，在数据测试集上的精度和召回率将会进一步提高。本发明实施例在对银行运维场景下目标检测的领域做了大量的研究和实验，在VOC07+12公开数据集和银行运维场景数据集中，对重构后的YoloV5s模型进行了验证，结果表明该模型具有较好的检测性能。

此外，本发明实施所提供的基于深度学习的办公场所人员行为轻量级目标检测方法也可以用于其它业务场景的目标检测，如营业场所监控场景、重要区域安防监控场景、重要设施监控场景等，模型对人员违规行为、场所及设备异常状态的检测能力将进一步得到提升。在实际应用中，还可以将该模型与预警平台进行对接，对重要运维场地出现的不规范行为进行提醒和告警，并可以根据模型训练和优化情况，适时扩大到营业场所、重要区域安防、重要设施监控等业务场景中，并与相关的预警平台对接，可以进一步保障上述场所的运营安全，取得良好的社会效益。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于深度学习的办公场所人员行为轻量级目标检测方法，其特征在于，包括：

配置对目标场所的人员行为的检测类别及类别标签；

所述骨干网络用于提取目标场所的采集图像的多尺度特征信息，并将提取的多尺度特征信息输入到特征融合网络，

所述融合网络，基于骨干网络提取的多尺度特征信息进行组合和融合处理，输出多个尺度的融合特征图，每个尺度的融合特征图对应一种预置的锚框模式；

基于采集的训练数据对初始目标检测网络模型进行网络参数学习，得到目标场所的目标检测网络模型。

2.如权利要求1所述的方法，其特征在于，所述C3S模块的输入和输出之间存在跳跃连接。

3.如权利要求1所述的方法，其特征在于，所述融合网络包括M′条支路，M′为大于1的正整数；

其中，

第一条支路的输入特征图为SPP模块的输出特征图，第一条支路包括顺次连接的两个带交叉卷积的单元模块和一个卷积块；

其余的M′-1条支路的输入依次为上一条支路的最后一个带交叉卷积的单元模块的输出特征图，以及骨干网络中的对应的带交叉卷积的单元模块的输出特征图；

融合网络的第2至第M′条支路的结构相同，依次包括FPN模块、卷积块、带交叉卷积的单元模块和卷积块；

其中，FPN模块包括上采样层、1×1卷积层和相加操作层，所述上采样层的输入为当前支路的上一条支路的带交叉卷积的单元模块的输出特征图，1×1卷积层的输入为骨干网络中的对应的带交叉卷积的单元模块的输出特征图，所述相加操作层用于对上采样层和1×1卷积层的输出特征图相加。

4.如权利要求1所述的方法，其特征在于，所述融合网络输出的融合特征图的尺度数与骨干网络包括的带交叉卷积的单元模块数一致，且输入到融合网络的特征图包括：空间金字塔池化模块的输出特征图，以及骨干网络的最后M-1个带交叉卷积的单元模块的输出特征图；其中，M表示骨干网络包括的带交叉卷积的单元模块数。

5.如权利要求1所述的方法，其特征在于，所述骨干网络包括三个带交叉卷积的单元模块；

其中，第一个带交叉卷积的单元模块包括一个C3S模块和一个残差模块；

第二和第三个带交叉卷积的单元模块相同，包括一个C3S模块和三个残差模块。

6.如权利要求1所述的方法，其特征在于，所述融合网络各条支路上的带交叉卷积的单元模块相同，包括两个C3S模块和一个残差模块。

7.如权利要求1至7任一项所述的方法，其特征在于，所述初始目标检测网络模型在网络参数学习时，采用的损失函数为对象损失、分类损失和锚框损失之和。

8.如权利要求1所述的方法，其特征在于，所述空间金字塔池化模块的处理为：空间金字塔池化模块的输入特征图经过1×1的卷积层，再经过并列的三个最大池化层进行下采样，将三路下采样结果与空间金字塔池化模块的输入特征图相加，再经卷积层后恢复到SPP模块的输入特征图的尺寸。

9.如权利要求1所述的方法，其特征在于，所述预测网络采用目标检测网络YOLO中的预测层。