CN110781964A

CN110781964A - 一种基于视频图像的人体目标检测方法及系统

Info

Publication number: CN110781964A
Application number: CN201911028281.0A
Authority: CN
Inventors: 党建武; 金静; 王松; 王阳萍; 张振海; 雍玖; 杨景玉; 闵永智; 林俊亭; 岳彪
Original assignee: Lanzhou Bocai Technology Co Ltd; Lanzhou Jiaotong University
Current assignee: Lanzhou Bocai Technology Co Ltd; Lanzhou Jiaotong University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-11

Abstract

本发明公开一种基于视频图像的人体目标检测方法及系统。该方法包括：获取带有标注信息的视频图像人体目标数据集；采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型；采用带有标注信息的视频图像人体目标数据集和预训练模型，对TINY YOLOv3模型进行训练，得到训练好的人体目标检测模型；将人体目标检测模型部署至树莓派设备；获取待检测的视频图像；将待检测的视频图像输入至树莓派设备中的人体目标检测模型，对待检测的视频图像中的人体目标进行检测。本发明可以改善嵌入式设备在视频图像人体目标检测中出现的漏检、误检、遮挡等现象，提高行人目标检测的位置精度，满足实时性的要求。

Description

一种基于视频图像的人体目标检测方法及系统

技术领域

本发明涉及图像处理领域，特别是涉及一种基于视频图像的人体目标检测方法及系统。

背景技术

传统的目标检测方法包括三个步骤：区域选择、特征提取和分类回归。基于深度学习的目标检测方法改善了传统检测算法的适应性不高、对背景模型的更新要求高、提取特征鲁棒性差和检测的实时性差等缺点，使检测模型在精度和速度方面都有了极大的提升。但是，现有的检测方法集成于嵌入式设备进行视频图像人体目标检测时，会出现漏检、误检、遮挡等现象，导致检测结果准确度低。

发明内容

本发明的目的是提供一种基于视频图像的人体目标检测方法及系统，以提高人体目标检测的准确度。

为实现上述目的，本发明提供了如下方案：

一种基于视频图像的人体目标检测方法，包括：

获取带有标注信息的视频图像人体目标数据集；

采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型；

采用所述带有标注信息的视频图像人体目标数据集和所述预训练模型，对所述TINY YOLOv3模型进行训练，得到训练好的人体目标检测模型；

将所述人体目标检测模型部署至树莓派设备；

获取待检测的视频图像；

将所述待检测的视频图像输入至所述树莓派设备中的所述人体目标检测模型，对所述待检测的视频图像中的人体目标进行检测。

可选的，所述获取带有标注信息的视频图像人体目标数据集，具体包括：

在PASCAL VOC标准目标检测数据集中选取多张包含人体目标的图片，得到第一数据集；

从网上抓取多张包含人体目标的图片，采用LabelImg软件进行手动标注对所述包含人体目标的图片进行补充，得到第二数据集；

将所述第一数据集和所述第二数据集合并，得到所述带有标注信息的视频图像人体目标数据集。

可选的，所述采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型，之前还包括：

对所述TINY YOLOv3模型的先验检测框进行重新测算，使用K-Means聚类算法生成适用于人体目标检测的多组先验检测框。

可选的，所述将所述人体目标检测模型部署至树莓派设备，具体包括：

将darknet框架支持的所述人体目标检测模型转换为Tensorflow框架支持的.pb模型；

将所述.pb模型转化为Movidius框架支持的IR模型；

将所述IR模型部署至树莓派设备。

可选的，还包括：

在将所述待检测的视频图像输入至所述树莓派设备中的所述人体目标检测模型，对所述待检测的视频图像中的人体目标进行检测过程中，使用Intel Movidius神经计算棒对检测过程进行加速。

本发明还提供一种基于视频图像的人体目标检测系统，包括：

视频图像人体目标数据集获取模块，用于获取带有标注信息的视频图像人体目标数据集；

预训练模型获取模块，用于采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型；

训练模块，用于采用所述带有标注信息的视频图像人体目标数据集和所述预训练模型，对所述TINY YOLOv3模型进行训练，得到训练好的人体目标检测模型；

部署模块，用于将所述人体目标检测模型部署至树莓派设备；

待检测的视频图像获取模块，用于获取待检测的视频图像；

检测模块，用于将所述待检测的视频图像输入至所述树莓派设备中的所述人体目标检测模型，对所述待检测的视频图像中的人体目标进行检测。

可选的，所述视频图像人体目标数据集获取模块具体包括：

第一数据集获取单元，用于在PASCAL VOC标准目标检测数据集中选取多张包含人体目标的图片，得到第一数据集；

第二数据集获取单元，用于从网上抓取多张包含人体目标的图片，采用LabelImg软件进行手动标注对所述包含人体目标的图片进行补充，得到第二数据集；

合并单元，用于将所述第一数据集和所述第二数据集合并，得到所述带有标注信息的视频图像人体目标数据集。

可选的，还包括：

先验检测框获取模块，用于在所述采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型之前，对所述TINY YOLOv3模型的先验检测框进行重新测算，使用K-Means聚类算法生成适用于人体目标检测的多组先验检测框。

可选的，所述部署模块具体包括：

第一转换单元，用于将darknet框架支持的所述人体目标检测模型转换为Tensorflow框架支持的.pb模型；

第二转换单元，用于将所述.pb模型转化为Movidius框架支持的IR模型；

部署单元，用于将所述IR模型部署至树莓派设备。

可选的，还包括：

加速模块，用于在将所述待检测的视频图像输入至所述树莓派设备中的所述人体目标检测模型，对所述待检测的视频图像中的人体目标进行检测过程中，使用IntelMovidius神经计算棒对检测过程进行加速。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明将现有模型的一部分网络层次提取出来作为预训练模型，加快训练速度；将训练后的人体目标检测模型部署在树莓派移动控制设备上，再利用Intel Movidius神经计算棒进行推理加速，提高了检测算法的时间效率，最终实现了实时人体目标智能识别，警告非法入侵，实时视频直播等功能。在具体实施时，利用K-Means聚类算法对目标检测深度学习框架TINY YOLOv3的anchor值重新测算，使其更适合于嵌入式设备环境下的人体目标检测，可以进一步提高检测精度。本发明可以提高嵌入式设备人体目标检测过程中检测的位置精度和检测速度，在不同距离层次场景、多目标遮挡场景、单目标场景和逆光场景下都能得到较好的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于视频图像的人体目标检测方法的流程示意图；

图2为本发明基于视频图像的人体目标检测方法中采用LabelImg软件进行手动标注得到的第二数据集；

图3为本发明基于视频图像的人体目标检测方法中采用K-Means聚类算法生成多组先验检测框的示意图；

图4为本发明基于视频图像的人体目标检测方法中训练过程的LOSS和IOU曲线图；其中，(a)部分为LOSS曲线图，(b)部分为IOU曲线图；

图5为本发明基于视频图像的人体目标检测方法的检测结果；

图6为本发明基于视频图像的人体目标检测系统的结构示意图；

图7为本发明基于视频图像的人体目标检测系统的总体结构图；

图8为本发明基于视频图像的人体目标检测系统的硬件结构图；

图9为本发明基于视频图像的人体目标检测系统的控制软件流程图；

图10为本发明基于视频图像的人体目标检测系统的控制端web页面截图；

图11为本发明视频图像人体目标实时检测结果图；其中，(a)部分为单目标简单场景检测效果，(b)部分为逆光场景检测效果，(c)部分为远近距离层次场景检测效果；

图12为本发明的预警效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

深度卷积神经网络利用目标数据集对要检测的目标进行自主学习，并在学习过程中完善自己的模型，将训练成熟的模型应用于最终的目标检测。目前基于深度学习应用比较广泛的目标检测算法可以分为两类：第一类是双步(Two stage)目标检测算法，如FastR-CNN，Faster R-CNN，Mask R-CNN等，这些算法将目标检测分为两个阶段，首先使用区域候选网络(RPN)来提取候选目标信息，然后再经过检测网络完成对候选目标的位置和类别的预测和识别；第二类是单步(One stage)目标检测算法，如SSD，YOLO，YOLO 9000，YOLO V3等，这一类方法不需要使用RPN，直接通过网络来产生目标的位置和类别信息，是一种端到端的目标检测算法。因此，单步目标检测算法具有更快的检测速度。在这些单步目标检测的深度模型中，YOLO网络是目前最优秀的目标检测架构之一，在检测实时性方面表现尤为突出。TINY版本TINY YOLOv3将网络进行压缩，没有使用res残差层，只使用了两个不同尺度的YOLO输出层，属于轻量级架构，计算量较小，适用于在移动端或设备端运行。

基于可移动设备的嵌入式智能目标检测有着广阔的应用前景。树莓派作为一种可移动控制设备，集成度高，接口丰富，驱动开发简单，具备无线传输功能。

Movidius神经计算棒是基于USB模式的深度学习推理工具和独立的人工智能加速器，为移动和嵌入式视觉设备提供专用深度神经网络加速功能。

本发明针对当前深度学习方法难以实现嵌入式实时人体目标检测、算法精度低等问题，首先利用K-means聚类算法计算出更适合人体目标检测的anchor box值，提高了TINYYolov3模型对人体目标检测的适用性及精度；其次利用Intel Movidius神经计算棒进行推理加速，有效提高了检测算法的时间效率；最后将提出的检测方法部署在树莓派上，实现了移动嵌入式设备的实时人体目标的智能识别、非法入侵警告以及实时视频直播等功能。该方法及系统在不同距离层次场景、多目标遮挡场景和逆光场景下都能得到较好的检测效果。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于视频图像的人体目标检测方法的流程示意图。如图1所示，本发明基于视频图像的人体目标检测方法包括以下步骤：

步骤100：获取带有标注信息的视频图像人体目标数据集。本步骤获取的视频图像人体目标数据集包括两部分：第一部分是PASCAL VOC标准目标检测数据集中选取的多张人体目标图片，得到第一数据集；第二部分是利用爬虫程序从网上抓取的包含人体目标的多张人体图片，再使用LabelImg软件对图片中的人体目标进行标注，标注完毕后会得到一个训练用的XML格式的文档，其中包含文件大小，通道数，对象的名称、人体目标在图像中的位置坐标信息等信息，进而得到第二数据集。在具体实施时，第一数据集和第二数据集的图片数量根据实际需求而定。例如，可以从PASCAL VOC标准目标检测数据集中选取6095张人体目标图片，作为第一数据集；从网上抓取200张人体图片，得到第二数据集。如图2所示，图2为本发明基于视频图像的人体目标检测方法中采用LabelImg软件进行手动标注得到的第二数据集。

步骤200：采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型。针对重新开始训练一个目标检测模型非常耗费时间这一问题，采用迁移学习的思想，将现有模型的一部分网络层次提取出来，作为训练的预训练模型，预训练模型可以帮助加快训练速度。预训练模型含有前面多层网络训练好的权重参数，利用预训练模型完成后续网络的训练。例如，可以提取现有TINY YOLOv3模型的前15层当做预训练模型。

在对TINY YOLOv3模型的部分网络层提取之前，可以利用K-Means聚类重新对TINYYOLOv3算法的先验检测框进行测算，生成适用于人体目标检测的多组先验检测框，以提高嵌入式设备上运行TINY YOLOv3进行人体目标检测的精度。以生成9组先验检测框为例，如图3所示，图3为本发明基于视频图像的人体目标检测方法中采用K-Means聚类算法生成多组先验检测框的示意图。根据实验结果比对，确定最终选用的先验检测框为(94，94)，(172，307)，(98，213)，(27，73)，(230，28)，(16，350)，(50，44)，(50，139)。

步骤300：采用带有标注信息的视频图像人体目标数据集和预训练模型，对TINYYOLOv3模型进行训练，得到训练好的人体目标检测模型。在得到的视频图像人体目标数据集和预训练模型上，结合网络的配置文件，采用搭载GTX1080ti显卡的服务器上进行TINYYOLOv3模型的训练，迭代150000次，训练过程不断降低学习率，通过多尺度训练的方式，在每次训练过程中都对图片进行三种尺寸下的检测，以提高模型的精度。

训练过程中的重要评估指标是Loss(损失值)和IOU(检测框与真值真实框的重合比)。Loss值的计算方式为：

式中，y为模型的真实值，

为模型的输出值。当模型的预测值和真实值的差别越小时，即Loss函数值越小时，行人检测的精度就越高。一般Loss在开始时下降较为显著，随着迭代次数的增多，Loss会逐渐趋于稳定。IOU代表预测框和真实框的交并比，如式所示，DetectionResult表示算法得到的预测框的面积，GroundTruth表示真实框的面积。IOU的值越大，目标定位的准确性就越高。

具体网络训练过程如下：

设置单批次训练样本数量(batch size)为64以适应11GB的显卡内存，每个批次分成32个小的训练过程，即每次输入两张样本图片，32次为一个小的迭代次数。

设置输入样本的宽度和高度为416*416。

设置通道数为3，因为样本均采用RGB三色图。

为了防止过拟合现象，采用逐渐降低学习率的策略，前40000次学习率均为0.01，之后每过10000次学习率衰减10倍直到最小为0.0001，学习率不再变动。

设置多尺度训练模型，将输入的图片分别放缩成三种不同的尺寸同时训练，以增加网络的检测能力。

开始训练。

记录下每个迭代过程的loss和iou值，存储到文本文件里。在模型训练迭代结束后，通过分析文本文件绘制loss变动曲线以及iou变动曲线。

图4为本发明基于视频图像的人体目标检测方法中训练过程的LOSS和IOU曲线图，其中，(a)部分为LOSS曲线图，(b)部分为IOU曲线图。如图4所示，在迭代40000次之前Loss急剧的下降，40000次之后Loss值在0.4左右上下波动。IOU从迭代开始在0.6左右也是上升比较快，达到0.8左右开始上下波动，尤其是在学习率变动的时候波动更为显著。本发明实施例选择经过150000次训练的人体目标检测模型作为应用于实时检测的最终权重模型。

步骤400：将人体目标检测模型部署至树莓派设备。为了在树莓派嵌入式设备上使用训练得到的TINY YOLOv3模型，需要将得到的darknet框架支持的TINY YOLOv3模型先转化为Tensorflow框架支持的.pb模型。为了实现Movidius神经计算棒对检测过程进行加速，需要再将.pb模型转化为Movidius支持的IR模型。将darknet框架支持的TINY YOLOv3模型转化为.pb模型过程为：利用现有的脚本实现将darknet框架下生成的.weight权重文件转化为tensorflow支持的.pb权重文件。将.pb模型转化为IR模型的过程为：利用Movidius神经计算棒配套使用的openvino工具包将.pb模型进行转化，使其能够运行部署在神经计算棒上。然后将TINY YOLOv3模型转化后的IR模型部署至树莓派可移动嵌入式设备上，便可以采用该设备进行人体目标检测。

步骤500：获取待检测的视频图像。

步骤600：将待检测的视频图像输入至树莓派设备中的人体目标检测模型，对待检测的视频图像中的人体目标进行检测。在检测过程中，可以采用Intel Movidius神经计算棒进行加速。由于树莓派可能存在计算能力不足，难以实现视频图像的目标检测算法的实时性要求的情况，因此，采用Intel Movidius神经计算棒一代(NCS)为目标检测算法进行加速。可以在树莓派设备上设置Movidius的USB规则，实现“即插即用”的方式来使用加速棒。对待检测的视频图像中的人体目标进行检测的具体过程如下：

1.输入一张图片，把图片分成S×S的网格，如果一个人体目标的中心落在某个小网格里，则该网格负责检测这个人体目标。

2.每一个网格预测B个边界框，每个边界框预测5个值：x，y，w，h和置信度，(x,y)表示的是边界框中心点相对于网络边界的坐标。w和h表示图片的宽和高。其中置信度包含两个含义：一是边界框中含有检测目标的可能性，另一个是这个边界框的准确度。

3.按照步骤2能够生成S×S×B(B取值应为3)个边界框和S×S×B×(5+1)个预测参数。再通过预设的阈值先将置信度低的边界框过滤掉，再使用非极大值抑制(NMS)把多余的边界框消除掉，得到最终的检测结果。

在表1所示的实验软硬件平台上进行实验，图5为本发明基于视频图像的人体目标检测方法的检测结果，如图5所示，相比改进之前的传统TINY YOLOv3模型，平均识别精度由83％提高到了85％。

表1实验软硬件平台

对应于图1所示的基于视频图像的人体目标检测方法，本发明还提供一种基于视频图像的人体目标检测系统，图6为本发明基于视频图像的人体目标检测系统的结构示意图。如图6所示，所述基于视频图像的人体目标检测系统包括以下结构：

视频图像人体目标数据集获取模块601，用于获取带有标注信息的视频图像人体目标数据集。

预训练模型获取模块602，用于采用迁移学习算法，提取TINY YOLOv3模型的部分网络层，得到预训练模型。

训练模块603，用于采用所述带有标注信息的视频图像人体目标数据集和所述预训练模型，对所述TINY YOLOv3模型进行训练，得到训练好的人体目标检测模型。

部署模块604，用于将所述人体目标检测模型部署至树莓派设备。

待检测的视频图像获取模块605，用于获取待检测的视频图像。

检测模块606，用于将所述待检测的视频图像输入至所述树莓派设备中的所述人体目标检测模型，对所述待检测的视频图像中的人体目标进行检测。

作为另一实施例，本发明的基于视频图像的人体目标检测系统的所述视频图像人体目标数据集获取模块601具体包括：

第一数据集获取单元，用于在PASCAL VOC标准目标检测数据集中选取多张包含人体目标的图片，得到第一数据集。

第二数据集获取单元，用于从网上抓取多张包含人体目标的图片，采用LabelImg软件进行手动标注对所述包含人体目标的图片进行补充，得到第二数据集。

作为另一实施例，本发明的基于视频图像的人体目标检测系统还包括：

作为另一实施例，本发明的基于视频图像的人体目标检测系统的所述部署模块具体包括：

第一转换单元，用于将darknet框架支持的所述人体目标检测模型转换为Tensorflow框架支持的.pb模型。

第二转换单元，用于将所述.pb模型转化为Movidius框架支持的IR模型。

部署单元，用于将所述IR模型部署至树莓派设备。

本发明将嵌入式开发与基于深度学习的TINY YOLOv3目标检测算法相结合，构建了一个嵌入式人体目标智能检测与预警系统。首先通过聚类算法重新测定了传统TINYYOLOv3的先验目标框，对TINY YOLOv3算法进行适应性改进，并通过基于迁移学习的预训练提高了模型的训练速度，然后将训练好的模型进行转化，最终部署在树莓派设备上运行，实现了视频图像的实时人体目标智能检测、移动端控制、入侵预警等功能，在简单场景和复杂场景下，检测算法的精确度和时效性基本能满足实时检测的任务。图7为本发明基于视频图像的人体目标检测系统的总体结构图。如图7所示，本发明通过将TINY YOLOv3模型部署至树莓派可移动嵌入式设备，实现视频图像中人体目标的检测。其中包括硬件的搭建连接和基于web端的软件控制系统的开发。

图8为本发明基于视频图像的人体目标检测系统的硬件结构图，如图8所示，本发明硬件系统的控制中心为树莓派3B+，它有丰富的GPIO接口，利用Python的RPI.GPIO库可以方便实现对传感器的控制。树莓派通过GPIO接口与L298N驱动模块进行通信，L298N通过发送电平信号的方式来控制马达的正反转，树莓派通过GPIO接口来触发有源蜂鸣器发出警报。使用树莓派官方发行的800万像素的板载摄像头，它不需要占用树莓派的USB接口，在主板上靠近网线接口处有专门的插槽，插入摄像头即可完成安装，由于它不通过USB接口进行驱动，所以不会被树莓派自动挂载，需要手动将摄像头挂载在系统里。

功能软件层部分主要分为改进的TINY YOLOv3模型目标检测程序、web端小车控制程序以及视频流实时直播程序三部分。基于web端的软件控制系统，实现了检测系统的软件控制功能。软件控制系统采用B/S架构设计，在页面前端点击相应的方向按钮，前台通过Ajax的方式将行进请求发送给flask后台，在后台对请求进行解析后，调用相应控制函数实现对设备的控制。系统中视频监控直播的功能首先捕获到摄像头对象，并不断的从摄像头中读取图像，再将得到的图像转换为字节流并不断将其传回前台页面，将后面采集到的图片覆盖前面采集的图片以达到动画的效果。系统基于wxpy库实现基于微信的远程视频监控及入侵检测。在所述的实时检测模型检测到人体目标后，通过微信将检测到的人体目标图片以及检测时间、检测人数等信息发送给指定账号。同时，系统可接收来自指定账号的消息实现蜂鸣器报警。图9为本发明基于视频图像的人体目标检测系统的控制软件流程图。控制端检测程序采用多线程的方式，实现检测程序与视频流获取相互协调达到实时检测的目的，如图10所示，图10为本发明基于视频图像的人体目标检测系统的控制端web页面截图。其原理是在目标检测算法检测这一帧图像的同时，程序去捕获来自摄像头的下一帧图像放入缓冲区，使得检测程序和捕获视频的程序相互配合，运行速度快，不会产生较为明显的延迟现象。

嵌入式移动端对视频图像进行实时获取以及对人体目标进行实时检测、预警。具体的，控制端检测程序采用多线程的方式，实现检测程序与视频流获取相互协调，达到实时检测的目的。图11为本发明视频图像人体目标实时检测结果图。其中，(a)部分为单目标简单场景检测效果，(b)部分为逆光场景检测效果，(c)部分为远近距离层次场景检测效果，如图11所示，针对不同距离层次场景、单目标场景、逆光场景等不同检测场景下，可以得到嵌入式检测系统的人体目标检测效果。图12为本发明的预警效果图，如图12所示，系统实时检测到人体目标后，启动预警功能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视频图像的人体目标检测方法，其特征在于，包括：

获取带有标注信息的视频图像人体目标数据集；

采用迁移学习算法，提取TINYYOLOv3模型的部分网络层，得到预训练模型；

采用所述带有标注信息的视频图像人体目标数据集和所述预训练模型，对所述TINYYOLOv3模型进行训练，得到训练好的人体目标检测模型；

将所述人体目标检测模型部署至树莓派设备；

获取待检测的视频图像；

2.根据权利要求1所述的基于视频图像的人体目标检测方法，其特征在于，所述获取带有标注信息的视频图像人体目标数据集，具体包括：

在PASCALVOC标准目标检测数据集中选取多张包含人体目标的图片，得到第一数据集；

3.根据权利要求1所述的基于视频图像的人体目标检测方法，其特征在于，所述采用迁移学习算法，提取TINYYOLOv3模型的部分网络层，得到预训练模型，之前还包括：

对所述TINYYOLOv3模型的先验检测框进行重新测算，使用K-Means聚类算法生成适用于人体目标检测的多组先验检测框。

4.根据权利要求1所述的基于视频图像的人体目标检测方法，其特征在于，所述将所述人体目标检测模型部署至树莓派设备，具体包括：

将所述.pb模型转化为Movidius框架支持的IR模型；

将所述IR模型部署至树莓派设备。

5.根据权利要求1所述的基于视频图像的人体目标检测方法，其特征在于，还包括：

6.一种基于视频图像的人体目标检测系统，其特征在于，包括：

预训练模型获取模块，用于采用迁移学习算法，提取TINYYOLOv3模型的部分网络层，得到预训练模型；

训练模块，用于采用所述带有标注信息的视频图像人体目标数据集和所述预训练模型，对所述TINYYOLOv3模型进行训练，得到训练好的人体目标检测模型；

待检测的视频图像获取模块，用于获取待检测的视频图像；

7.根据权利要求6所述的基于视频图像的人体目标检测系统，其特征在于，所述视频图像人体目标数据集获取模块具体包括：

第一数据集获取单元，用于在PASCALVOC标准目标检测数据集中选取多张包含人体目标的图片，得到第一数据集；

8.根据权利要求6所述的基于视频图像的人体目标检测系统，其特征在于，还包括：

先验检测框获取模块，用于在所述采用迁移学习算法，提取TINYYOLOv3模型的部分网络层，得到预训练模型之前，对所述TINYYOLOv3模型的先验检测框进行重新测算，使用K-Means聚类算法生成适用于人体目标检测的多组先验检测框。

9.根据权利要求6所述的基于视频图像的人体目标检测系统，其特征在于，所述部署模块具体包括：

部署单元，用于将所述IR模型部署至树莓派设备。

10.根据权利要求6所述的基于视频图像的人体目标检测系统，其特征在于，还包括：