CN111079519A

CN111079519A - 多姿态人体检测方法、计算机存储介质及电子设备

Info

Publication number: CN111079519A
Application number: CN201911056495.9A
Authority: CN
Inventors: 朱勋沐; 毛亮; 林焕凯; 周谦; 侯玉清
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-04-28
Anticipated expiration: 2039-10-31
Also published as: CN111079519B

Abstract

本发明提供了一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备，所述方法，包括以下步骤：S1、在RefineDet的ARM分支中加入FSAF模块，构成FSAF‑RefineDet网络结构；S2、采集执法办案区场景下的人体图像数据，进行人体信息标注，并将人体信息标注后的所述人体图像数据划分为训练集和测试集；S3、对训练集进行旋转扩增；S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声；S5、对FSAF‑RefineDet网络进行训练，得到训练模型；S6、将训练模型在测试集上进行测试，选择识别精度最高的训练模型作为最终检测模型。根据本发明实施例的方法，有效减少算法在执法办案区场景下的误检率和漏检率，提高识别精度，且不增加模型的计算代价。

Description

多姿态人体检测方法、计算机存储介质及电子设备

技术领域

本发明涉及人体检测领域，更具体地，涉及一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备。

背景技术

在执法办案区场景下，办案民警需时刻监控犯罪嫌疑人是否存在异常行为，这往往需要办案民警同时监控多个执法办案区，这种做法费时费力且效率低下。为了提高公安民警在执法办案区场景下的监控效率，提出针对该场景下的一种异常行为识别分析系统，其通过监控视频对嫌疑人的行为进行实时的自动识别。该系统主要包括了人体检测，人体追踪以及行为识别算法。本发明主要是针对此应用场景开发的一个高精度，高效率的人体检测算法。

目前基于视频图像的人体检测技术主要分为两种，一种是基于传统机器学习方法，另一种是基于深度学习的方法。

基于传统机器学习的方法，通常是利用手工设计特征提取算子对图像进行特征提取，然后再将这些特征用于训练分类器，最后在多尺度的图像上使用滑动窗口的方式进行人体检测。例如：公开号为“CN104680134A”的发明专利，提出了一种快速的人体检测方法，其提取多尺度的HOG特征训练分类器，并采用三帧差分法确定运动区域，最后结合分类器和运动区域实现人体检测。公开号为“CN103455798A”的发明专利，提出了一种最大集合流向直方图的人体检测方法，其通过对图像进行二维小波变换，划分带波bandelet块，获取采样角排序索引，最佳几何流方向以及条带波系数矩阵，进而统计个方向特征训练分类器，最后通过滑动窗口提取特征并分类的方式实现人体检测。公开号为“CN110046601A”的发明专利提出了一种针对十字路口场景的行人检测方法，其通过平均背景模型算法建立十字路口场景的背景模型，并采用adaboost算法提取局部shapelet特征，利用改进的级联分类器训练各部位的强分类器，然后再利用KBS算法组合为最终的分类器，以实现人体检测。公开号为“CN105913026A”的发明专利公开了一种基于Harr-PCA特征和概率神经网络的行人检测方法，其首先提取样本Haar特征，然后使用PCA进行降维，最后把降维后的特征输入概率神经网络进行训练进而得到行人检测器。该类方法由于人工设计的特征描述子提取的特征表示能力有限，对于复杂多样的执法办案区场景，难以提供鲁棒的特征表示，进而难以获得高精度的人体检测。

基于深度学习的方法，通常是通过CNN网络端对端的自动学习，提取图像特征，最后通过直接回归或感兴趣区域分类的方式实现人体检测。例如：公开号为“CN109978035A”的发明专利，提出了一种改进的k-means和损失函数的行人检测方法，首先通过改进的k-means算法对训练集进行聚类，然后改进检测网络YOLOv3的损失函数，最后训练YOLOv3模型实现行人检测。公开号为“CN110020688A”的发明专利提出了一种基于深度学习的遮挡行人检测方法，其首先基于Faster R-CNN检测算法，利用VGG16网络提取特征，然后融合不同层的特征得到融合特征和非融合特征，再通过构建判别网络选择特征，最后生成候选区域并输出检测结果。公开号为“CN109934121A”的发明专利，提出了一种基于YOLOv3算法的果园行人检测方法。其基于YOLOv3算法，通过K-means聚类方法产生anchor-box数预测行人边界框，并使用类似FPN网络的结构进行多尺度的特征融合，最后使用soft-NMS算法过滤重叠框，从而实现人体检测。公开号为“CN109492534A”的发明专利，公开了一种基于FasterRCNN的跨场景多姿态的行人检测方法，其通过将行人标注为8个姿态，离线训练FasterRCNN算法，选择最高精度的模型实现行人的在线检测。该类方法通过CNN自动学习提取特征往往能获得更高精度的识别效果，但该类方法无法通过简单的迁移使得在新场景中获得成功应用，即该类方法往往针对不同场景和不同目标需要使用不同的方法和策略才能达到实际上的应用需求。

而在执法办案区场景下的人体检测任务中，存在拍摄视角、人体姿态和图像质量的多样性问题，大大增加了识别难度，此外在实际应用中还需要同时考虑算法高精度和高效率，这使得现有技术难以满足执法办案区人体检测的性能需求。

现有的大多数基于传统的机器学习的方法和深度学习的方法在人体检测或行人检测技术所针对的场景中，通常拍摄视角固定，人体姿态单一且图像质量较好。但在实际的执法办案场景中，不同房间具有拍摄视角的差异性，人体姿态也存在多样性，同时由于设备老化等问题带来的图像质量的差异性，这使得过去的方法难以获得高精度和高效率的识别性能。

另外，公开号为“CN109492534A”的发明专利，其中的方法是基于两阶段的目标检测算法Faster R-CNN的，该算法存在识别速度慢，且识别精度较低的问题，此外该发明未对场景的特殊性进行算法上的优化，而在实际应用中高效率(速度)和高精度是需要同时考虑的。

发明内容

有鉴于此，本发明提供一种执法办案区场景下的多姿态人体检测方法、计算机存储介质及电子设备，大大提高了识别精度，降低误检率。

为解决上述技术问题，一方面，本发明提供一种执法办案区场景下的多姿态人体检测方法，包括以下步骤：S1、在RefineDet(Single-Shot Refinement Neural Networkfor Object Detection，单阶段的精细化神经网络目标检测算法)的ARM(Anchorrefinement module，锚点精细化模块)分支中加入FSAF(Feature Selective Anchor-FreeModule，无锚点的特征选择模块)模块，构成FSAF-RefineDet网络结构；S2、采集执法办案区场景下的人体图像数据，进行人体信息标注，并将人体信息标注后的所述人体图像数据划分为训练集和测试集；S3、对所述训练集进行旋转扩增；S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声；S5、对所述FSAF-RefineDet网络进行训练，得到训练模型；S6、将所述训练模型在所述测试集上进行测试，选择识别精度最高的训练模型作为最终检测模型。

根据本发明实施例的执法办案区场景下的多姿态人体检测方法，通过在RefineDet检测算法中加入FSAF模块设计出FSAF-RefineDet网络结构，该网络结构在RefineDet算法的基础上，对每一个实例为其自动分配用于检测该目标的最佳尺度的特征，相比较于原版的RefineDet网络不仅能获得更佳的识别精度，还保持了原来的高识别速度，并且在执法办案区场景下能增强算法对多尺度目标的检测性能，在识别精度和识别速度方面均有较大提升。另外，通过在训练过程中，数据的旋转扩增、随机增强和随机噪声添加，在执法办案区场景下，能有效增强模型对视角变化、人体姿态变化以及图像质量变化的鲁棒性，有效减少算法在执法办案区场景下的误检率和漏检率，提高识别精度，且不增加模型的计算代价。

根据本发明的一些实施例，在步骤S1中，所述RefineDet的主干网络为VGG16的全卷积结构，所述主干网络包括17个卷积层,其中，Conv4_3、Conv5_3、fc7和Conv6_2输出的特征作为ARM分支和ODM的特征金字塔分支的特征输入。

根据本发明的一些实施例，步骤S1包括：

S11、对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3，输出通道为2的卷积层，并接上Focal Loss，以用于预测每一个空间位置2个目标类别的概率；

S12、对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3，输出通道为4的卷积层，并接上IOU Loss，以用于预测目标外包围框。

根据本发明的一些实施例，步骤S2包括：

S21、对执法办案区场景下不同人体姿态、不同视角和不同图像清晰度的数据进行采集；

S22、对采集到的数据进行人体信息标注，获得人体的外包围框；

S23、将人体信息标注后的所述人体图像数据划分为所述训练集和所述测试集。

根据本发明的一些实施例，步骤S3包括：对所述训练集进行顺时针的90度，180度和270度旋转扩增。

根据本发明的一些实施例，步骤S4包括：

S41、对旋转扩增后的训练数据的尺度归一化为320*320；

S42、以0.5的概率对原图随机进行亮度、对比度、色调和饱和度的增强；

S43、以0.2的概率对原图随机添加高斯模糊和椒盐噪声。

根据本发明的一些实施例，步骤S5包括：

S51、根据步骤S4获得的数据，使用深度学习方法训练所述FSAF-RefineDet网络；

S52、每隔预定迭代次数保存一个训练模型。

根据本发明的一些实施例，步骤S6包括：

S61、对步骤S5中训练输出的所有训练模型在所述测试集上进行测试，统计固定阈值为0.9的准确率和召回率；

S62、对比步骤S61的测试结果，选择识别精度最高的训练模型作为最终检测模型。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第三方面实施例的电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述任一实施例所述的方法。

附图说明

图1为根据本发明实施例的执法办案区场景下的多姿态人体检测方法的流程图；

图2为根据本发明实施例的执法办案区场景下的多姿态人体检测方法中的FSAF-RefineDet网络结构图；

图3为本发明实施例的电子设备的示意图。

附图标记：

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先结合附图具体描述根据本发明实施例的执法办案区场景下的多姿态人体检测方法。

如图1所示，根据本发明实施例的执法办案区场景下的多姿态人体检测方法包括以下步骤：

S1、在RefineDet的ARM分支中加入FSAF模块，构成FSAF-RefineDet网络结构。

S2、采集执法办案区场景下的人体图像数据，进行人体信息标注，并将人体信息标注后的所述人体图像数据划分为训练集和测试集。

S3、对所述训练集进行旋转扩增。

S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声。

S5、对所述FSAF-RefineDet网络进行训练，得到训练模型。

S6、将所述训练模型在所述测试集上进行测试，选择识别精度最高的训练模型作为最终检测模型。

换言之，根据本发明实施例的执法办案区场景下的多姿态人体检测方法是基于现有技术的缺陷无法应用于公安派出所的执法办案场景而提出的发明创造，该方法基于RefineDet算法，首先针对场景数据的特殊性，在训练过程中对数据集进行旋转扩增、图像随机增强和添加随机噪声处理，同时将FSAF融合入RefineDet的ARM分支中，命名为FSAF-RefineDet，以对每一个实例为其自动分配用于检测该目标的最佳尺度的特征，实现特征精选，最后在对该网络进行训练后获得的模型便可完成执法办案区场景下的高精度和高效率的人体检测。在训练阶段，首先对数据集进行旋转扩增，以增强模型对拍摄视角和目标姿态多样性的鲁棒性，而在训练过程中对训练的数据进行随机增强和随机噪声添加，以增强模型对图像质量变化的鲁棒性。模型训练完成后便可利用FSAF模块对每一个实例进行特征精选，以确定用于识别的最佳特征尺度，实现该场景下高精度和高效率的人体检测。

由此，根据本发明实施例的执法办案区场景下的多姿态人体检测方法，通过在RefineDet检测算法中加入FSAF模块设计出FSAF-RefineDet网络结构，该网络结构在RefineDet算法的基础上，对每一个实例为其自动分配用于检测该目标的最佳尺度的特征，相比较于原版的RefineDet网络不仅能获得更佳的识别精度，还保持了原来的高识别速度，并且在执法办案区场景下能增强算法对多尺度目标的检测性能，在识别精度和识别速度方面均有较大提升。另外，通过在训练过程中，数据的旋转扩增、随机增强和随机噪声添加，在执法办案区场景下，能有效增强模型对视角变化、人体姿态变化以及图像质量变化的鲁棒性，有效减少算法在执法办案区场景下的误检率和漏检率，提高识别精度，且不增加模型的计算代价。

根据本发明的一个实施例，在步骤S1中，所述RefineDet的主干网络为VGG16的全卷积结构，所述主干网络包括17个卷积层,即在VGG16的基础上修改fc6和fc7层为卷积层，并额外添加Conv6_1和Conv6_2两层卷积层，其中，Conv4_3、Conv5_3、fc7和Conv6_2输出的特征作为ARM分支和ODM(Objectdetection module，目标检测模块)的特征金字塔分支的特征输入。

进一步地，步骤S1包括：

也就是说，RefineDet的主干网络使用VGG16的全卷积结构，并添加了两个卷积层Conv6_1和Conv6_2，其中Conv4_3、Conv5_3、fc7和Conv6_2输出的特征作为ARM分支和ODM的特征金字塔分支的特征输入，即算法进行人体检测的四个特征尺度。

在加入FSAF模块时，首先，对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3，输出通道为2的卷积层，再接上Focal Loss，用于预测每一个空间位置2个目标类别的概率，接着，再对Conv4_3、Conv5_3、fc7和Conv6_2分别接上一个核为3*3，输出通道为4的卷积层，再接上IOU Loss，用于预测目标外包围框。

步骤S11和步骤S12共同构成了FSAF模块，该模块在训练阶段由FocalLoss和IOULoss共同指导训练。训练中，FSAF对每一个实例选择loss最低那一个尺度的特征层作为用于检测该实例的特征，与其匹配后再送入ARM中，进行ARM阶段正负样本筛选，最后再交由RefineDet的ODM阶段进行目标检测。由此构成整个FSAF-RefineDet。

在本发明的一些具体实施方式中，步骤S2包括：

S21、对执法办案区场景下不同人体姿态、不同视角和不同图像清晰度的数据进行采集。

S22、对采集到的数据进行人体信息标注，获得人体的外包围框。

S23、将人体信息标注后的所述人体图像数据划分为所述训练集和所述测试集。由此可以实现人体图像数据的采集、标注和分类。

可选地，根据本发明的一个实施例，步骤S3包括：对所述训练集进行顺时针的90度，180度和270度旋转扩增，由此可以增强模型对拍摄视角变化和姿态变化的鲁棒性。

在本发明的一些具体实施方式中，步骤S4包括：

S41、对旋转扩增后的训练数据的尺度归一化为320*320；

S43、以0.2的概率对原图随机添加高斯模糊和椒盐噪声，以增强模型对图像质量变化的鲁棒性。

进一步地，步骤S5包括：

S52、每隔预定迭代次数保存一个训练模型，例如以5000次的迭代保存一个训练模型。

优选地，步骤S6包括：

S62、对比步骤S61的测试结果，选择识别精度最高的训练模型作为最终检测模型，由此获得执法办案区场景下的人体检测模型。

下面以具体实施例为例说明根据本发明的执法办案区场景下的多姿态人体检测方法。

实施例1

试验环境：

GPU：英伟达GTX1080；深度学习框架：caffe；

试验过程及结果：以采集到的执法办案场景下的各类人体姿态图像约71.8万作为训练集，选择了五个复杂场景的数据作为测试集，测试集数量从3千到2万不等，在训练和测试时均将图像尺寸归一化到320*320。检测结果如下表1所示。结果表明，根据本发明的执法办案区场景下的多姿态人体检测方法可以获得较高的准确率和召回率，同时还具备较高的识别速度，每帧识别约22ms，满足该场景下的实际应用需求。

表1根据本发明的执法办案区场景下的多姿态人体检测方法的识别结果

数据名	准确率	召回率	平均识别速度
				测试集一	0.9901	0.9422	21.57ms
测试集二	0.9864	0.9307	22.01ms
				测试集三	0.9824	0.9567	21.93ms
测试集四	0.9952	0.9766	21.75ms
				测试集五	0.9902	0.9574	21.88ms

总而言之，根据本发明实施例的执法办案区场景下的多姿态人体检测方法，基于RefineDet检测算法，RefineDet具有比Faster R-CNN更高的识别精度和更快的识别速度，对RefineDet进行了针对性的优化，通过加入FSAF模块设计出的FSAF-RefineDet网络结构，使得算法能够对每一个实例为其自动分配用于检测该目标的最佳尺度的特征，实现特征精选。特别地，在执法办案区的复杂场景下，特征的精选意味着更高的检测精度，以及更低的误检率。

另外，本发明通过对数据集的旋转扩增，训练中的随机增强和随机噪声添加步骤，针对执法办案场景下的多视角，人体多姿态和图像质量差异大等问题，提出了针对性的优化方法。能在不增加检测计算代价的前提下，有效提升模型对该复杂场景中各类变化的鲁棒性，从而提升识别精度，以及降低误检率。

此外，本发明还提供一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的执法办案区场景下的多姿态人体检测方法。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的执法办案区场景下的多姿态人体检测方法。

如图3所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法。

进一步地，如图3所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种执法办案区场景下的多姿态人体检测方法，其特征在于，包括以下步骤：

S1、在RefineDet的ARM分支中加入FSAF模块，构成FSAF-RefineDet网络结构；

S2、采集执法办案区场景下的人体图像数据，进行人体信息标注，并将人体信息标注后的所述人体图像数据划分为训练集和测试集；

S3、对所述训练集进行旋转扩增；

S4、对旋转扩增后的训练数据尺度归一化后进行随机增强和随机添加噪声；

S5、对所述FSAF-RefineDet网络进行训练，得到训练模型；

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，所述RefineDet的主干网络为VGG16的全卷积结构，所述主干网络包括17个卷积层,其中，Conv4_3、Conv5_3、fc7和Conv6_2输出的特征作为ARM分支和ODM的特征金字塔分支的特征输入。

3.根据权利要求2所述的方法，其特征在于，步骤S1包括：

4.根据权利要求1所述的方法，其特征在于，步骤S2包括：

5.根据权利要求1所述的方法，其特征在于，步骤S3包括：对所述训练集进行顺时针的90度，180度和270度旋转扩增。

6.根据权利要求1所述的方法，其特征在于，步骤S4包括：

S41、对旋转扩增后的训练数据的尺度归一化为320*320；

S43、以0.2的概率对原图随机添加高斯模糊和椒盐噪声。

7.根据权利要求1所述的方法，其特征在于，步骤S5包括：

S52、每隔预定迭代次数保存一个训练模型。

8.根据权利要求1所述的方法，其特征在于，步骤S6包括：

9.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-8中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，

所述存储器用于存储一条或多条计算机指令；

所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如权利要求1-8中任一项所述的方法。