CN109829428B

CN109829428B - 基于改进YOLOv2的视频图像行人检测方法及系统

Info

Publication number: CN109829428B
Application number: CN201910097521.6A
Authority: CN
Inventors: 党建武; 王松; 王阳萍; 兰文博; 高德勇; 赵庶旭; 张振海; 闵永智; 金静; 苏翔宇
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-01-17
Anticipated expiration: 2039-01-31
Also published as: CN109829428A

Abstract

本发明公开了一种基于改进YOLOv2的视频图像行人检测方法及系统，涉及视频图像处理技术领域，包括利用K‑Means++聚类算法对视频图像行人数据集进行聚类处理确定初始候选框，确定更新值；然后用更新值替换原YOLOv2算法的原始值；在更新后YOLOv2算法的网络结构的基础上添加了3个Passthrough层得到改进后的YOLOv2网络结构；利用视频图像行人数据集对改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型，进行行人检测。应用本发明，能够提高检测速度和检测精度，改善行人检测中出现的漏检、误检、遮挡等现象，满足实时性的要求。

Description

基于改进YOLOv2的视频图像行人检测方法及系统

技术领域

本发明涉及视频图像处理技术领域，具体为一种基于改进YOLOv2的视频图像行人检测方法及系统。

背景技术

在手工设计特征的方法中，基于方向梯度直方图(Histogram ofOrientedGradient，HOG)算法和支持向量机(SupportVectorMachine，SVM)算法的行人检测是行人检测领域最经典的算法，它是速度和效果综合平衡性较好的一种行人检测方法。后来，虽然很多研究人员也提出了很多改进的行人检测算法，但基本都以该算法为基础框架。因此，HOG+SVM也成为一个里程表式的算法被写入到OpenCV(一个基于BSD许可(开源)发行的跨平台计算机视觉库)中。HOG算法是一种解决人体目标检测的图像描述子，通过计算局部区域上的梯度方向直方图来表示人体特征，但是它对光照变化和微小的偏移不敏感。

R-CNN的全称是Region-CNN，是第一个成功将深度学习应用到目标检测上的算法，R-CNN基于卷积神经网络(CNN)，线性回归和支持向量机(SVM)等算法实现目标检测的技术。R-CNN的进阶版Fast-RCNN就是在R-CNN的基础上采纳了SPP Net方法，对R-CNN作了改进，使得性能进一步提高。Faster-RCNN是在Fast-RCNN的基础上加入一个提取边缘的神经网络，主要贡献是设计了提取候选区域的网络RPN，代替了费时的选择性搜索，使得检测速度大幅提高。这类方法的一般步骤是：候选区域生成->深度网络提取特征->分类器分类，回归修正。但是这三种方法都不是端到端的网络结构，在实时性上还是不能达到视频图像的要求。

发明内容

本发明的目的在于，针对上述问题，提出一种基于改进YOLOv2的视频图像行人检测方法及系统，以提高检测速度，并改善行人检测中出现的漏检、误检、遮挡等现象，提高行人检测的位置精度，在视频检测中可以达到25帧每秒，满足实时性的要求。

为实现上述目的，本发明提供了如下方案：

一种基于改进YOLOv2的视频图像行人检测方法，包括：

制备带有标注信息的视频图像行人数据集；所述视频图像行人数据集由视频帧行人图像数据集和INRIA行人数据集组成；所述视频帧行人图像数据集为在TUD视频数据集中截取的视频帧行人图像所组成的数据集；

利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框；

根据所述初始候选框计算更新值，并用所述更新值替换原YOLOv2算法的原始值，得到更新后的YOLOv2算法；

在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构；

利用所述视频图像行人数据集，对所述改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型；

将实时获取的视频帧行人图像输入到所述训练好的行人检测模型中进行行人检测。

可选的，所述制备带有标注信息的视频图像行人数据集，具体包括：

在所述TUD视频数据集中截取视频帧行人图像，得到初始视频帧行人图像数据集；

采用LabelImage软件对所述初始视频帧行人图像数据集中每帧视频帧行人图像进行标注，得到视频帧行人图像数据集；

将所述视频帧行人图像数据集和所述INRIA行人数据集合并，得到视频图像行人数据集。

可选的，所述利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框，具体包括：

利用所述K-Means++聚类算法对所述视频图像行人数据集进行聚类，得到N个聚类结果；

选取与每个所述聚类结果中图像的行人宽高比最相近的初始候选框。

可选的，所述更新值包括两个数值，分别为第一数值和第二数值；所述第一数值为所述初始候选框的高除以所述初始候选框对应的图像的高的值；所述第二数值为所述初始候选框的宽除以所述初始候选框对应的图像的宽的值。

可选的，所述在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构，具体包括：

在所述更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，得到改进后的YOLOv2网络结构。

可选的，所述Passthrough层由Route层和Reorg层组成，所述Route层的作用是将指定层的行人特征信息传入到当前层；所述Reorg层的作用是根据所述行人特征信息重组特征图，并与后一层的特征图相匹配。

一种基于改进YOLOv2的视频图像行人检测系统，包括：

视频图像行人数据集制备模块，用于制备带有标注信息的视频图像行人数据集；所述视频图像行人数据集由视频帧行人图像数据集和INRIA行人数据集组成；所述视频帧行人图像数据集为在TUD视频数据集中截取的视频帧行人图像所组成的数据集；

初始候选框确定模块，用于利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框；

YOLOv2算法更新模块，用于根据所述初始候选框计算更新值，并用所述更新值替换原YOLOv2算法的原始值，得到更新后的YOLOv2算法；

YOLOv2网络结构改进模块，用于在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构；

行人检测模型训练模块，用于利用所述视频图像行人数据集，对所述改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型；

行人检测模块，用于将实时获取的视频帧行人图像输入到所述训练好的行人检测模型中进行行人检测。

可选的，所述视频图像行人数据集制备模块，具体包括：

视频帧行人图像截取单元，用于在所述TUD视频数据集中截取视频帧行人图像，得到初始视频帧行人图像数据集；

视频帧行人图像标注单元，用于采用LabelImage软件对所述初始视频帧行人图像数据集中每帧视频帧行人图像进行标注，得到视频帧行人图像数据集；

视频图像行人数据集得到单元，用于将所述视频帧行人图像数据集和所述INRIA行人数据集合并，得到视频图像行人数据集。

可选的，所述初始候选框确定模块，具体包括：

聚类单元，用于利用所述K-Means++聚类算法对所述视频图像行人数据集进行聚类，得到N个聚类结果；

初始候选框选取单元，用于选取与每个所述聚类结果中图像的行人宽高比最相近的初始候选框。

可选的，所述YOLOv2网络结构改进模块，具体包括：

YOLOv2网络结构改进单元，用于在所述更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，得到改进后的YOLOv2网络结构。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于改进YOLOv2的视频图像行人检测方法及系统。本发明对视频图像行人数据集重新聚类，得到与视频图像行人数据集中行人宽高比最相近的N组初始候选框；然后根据得到的初始候选框计算更新值，并将更新值替换原YOLOv2算法中的原始值，更新YOLOv2算法；最后在更新后的YOLOv2算法的网络结构上添加3个Passthough层，用以将浅层行人特征传入深层，防止浅层行人特征传入深层后出现特性丢失现象。本发明改善了行人检测过程中的漏检、误检、遮挡等现象，提高了行人检测的位置精度，并且速度能达到25帧每秒，满足实时性的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于改进YOLOv2的视频图像行人检测方法的流程示意图；

图2为本发明实施例原YOLOv2算法的网络结构和改进后的YOLOv2网络在训练过程中的Loss曲线比较图；

图3为本发明实施例YOLOv2算法的行人检测流程图；

图4为本发明实施例视频图像行人检测结果图对比图；其中，(a)、(b)、(c)、(g)、(h)、(i)为原YOLOv2算法的网络结构的检测结果，(d)、(e)、(f)、(j)、(k)、(l)为本发明训练好的行人检测模型的检测结果；

图5为本发明实施例基于改进YOLOv2的视频图像行人检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

YOLO，英文全称You Only Look Once:Unified，Real-Time Object Detection。YOLOv2算法是通过它的网络结构去实现的，也就是YOLOv2算法设计的一个目标检测的网络结构，YOLOv2算法是对网络结构的一个理论上的详细说明。

图1为本发明实施例基于改进YOLOv2的视频图像行人检测方法的流程示意图，如图1所示，本发明实施例提供的一种基于改进YOLOv2的视频图像行人检测方法，包括以下步骤：

步骤101：制备带有标注信息的视频图像行人数据集；所述视频图像行人数据集由视频帧行人图像数据集和INRIA行人数据集组成；所述视频帧行人图像数据集为在TUD视频数据集中截取的视频帧行人图像所组成的数据集。

在步骤101中，在TUD视频数据集中截取视频帧行人图像，得到初始视频帧行人图像数据集，共截取了750张视频帧行人图像，即初始视频帧行人图像数据集中共有750张视频帧行人图像。该数据集主要为了评估运动信息在行人检测中的作用，以便计算光流信息，评估跟踪器的性能。

采用LabelImage软件对初始视频帧行人图像数据集中每帧视频帧行人图像进行标注，得到视频帧行人图像数据集。标注完后会得到一个训练用的XML格式的文档，里面包含了行人在图像中的位置坐标信息。

由于同一个视频片段背景单一，相邻多帧的图像差异较小，可能存在大量数据冗余，并且数据多样性较差，所以对视频图像行人数据集进行扩充，即在视频帧行人图像数据集添加INRIA行人数据集。

该INRIA行人数据集是目前使用最多的静态行人检测数据库，提供了原始图片及相应的标注文件。该INRIA行人数据集中的训练集有正样本614张(包含2416个行人)，负样本1218张，验证集有正样本288张(包含1126个行人)，负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。本发明实施例只选取了INRIA行人数据集中的正样本614张图像作为视频图像行人数据集的扩充数据集。

步骤102：利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框。

在步骤102中，利用所述K-Means++聚类算法对视频图像行人数据集进行聚类，得到N个聚类结果。

选取与每个所述聚类结果中图像的行人宽高比最相近的初始候选框。在本实施例中共有N个初始候选框。

步骤103：根据所述初始候选框计算更新值，并用所述更新值替换原YOLOv2算法的原始值，得到更新后的YOLOv2算法。

本发明实施例中，总共得到N个初始候选框也就是N组更新值。每组更新值均包含两个数值，分别为第一数值和第二数值；第一数值为初始候选框的高除以该初始候选框对应的图像的高的值；第二数值为初始候选框的宽除以该初始候选框对应的图像的宽的值。然后用更新值替换掉原YOLOv2算法中的原始值。因为原始值是在PascalVOC数据集上进行聚类得到的候选框的值，为了更符合本发明实施例中视频图像行人数据集的行人宽高比的特点，需要对视频图像行人数据集重新聚类，以加速网络训练，提高行人检测的位置精度。

步骤104：在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构。

针对原YOLOv2算法的网络结构浅层行人特征图传入深层后，会产生部分行人特征丢失的现象，检测时会出现行人的漏检、误检、遮挡等现象。本发明实施例在更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，改善了视频图像行人检测过程中出现的漏检、误检、遮挡等现象，提高视频图像行人检测的位置精度。

Passthrough层由Route层和Reorg层组成，Route层的作用是将指定层的行人特征信息传入到当前层，然后使用Reorg层重组特征图，使当前传入的Route层特征能够与后一层的特征图相匹配。

步骤105：利用所述视频图像行人数据集，对所述改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型。

步骤106：将实时获取的视频帧行人图像输入到所述训练好的行人检测模型中进行行人检测。

本发明的核心创新为：首先，采用K-Means++算法对视频图像行人数据集重新聚类，得到与图像中行人宽高比最相近的初始候选框。其次，根据初始候选框计算更新值，并用更新值替换掉原YOLOv2算法中的原始值。然后，在更新后的YOLOv2算法的网络结构上添加3个Passthough层，具体的在更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，将浅层的行人特征图连接到深层，把高低分辨率的行人特征图做特征融合。最后将视频图像行人数据集送入改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型，最后进行行人检测。

实施例二

本发明实施例提供的一种基于改进YOLOv2的视频图像行人检测方法，包括以下步骤：

步骤1：制备符合YOLOv2算法训练用的带有标注信息的视频图像行人数据集。

本发明实施例对选用公开的TUD-Stadtmitte视频数据集和TUD-Crossing视频数据集进行截图，每秒截取30帧图像，总共截取了750帧图像。从这750帧图像中随机选取了75帧图像做验证集，剩下675帧做训练集。

由于同一个视频片段中背景单一，相邻多帧的图像差异较小，可能存在大量数据冗余，并且数据多样性较差，所以对其进行了扩充。扩充的数据集选取了INRIA行人数据集，INRIA行人数据集中训练集有614张图片，从训练集614张图片中随机选取了61张图片做为验证集，剩余553张图片作为训练集。所以视频图像行人数据集的训练集总共由1228张图片组成，验证集由136张图片组成。

由于INRIA行人数据集已经有了标注好的文档，所以本实施例仅对TUD-Stadtmitte视频数据集和TUD-Crossing视频数据集截取的视频图像进行了标注，标注用的是LabelImage软件，标注完后会得到一个训练用的XML格式的文档，里面包含了行人在图像中的位置坐标信息。

步骤2：利用K-Means++聚类算法对视频图像行人数据集聚类，得到与图像中行人宽高比最相近的初始候选框，然后根据初始候选框计算更新值，并用更新值替换原YOLOv2算法的原始值。

在步骤2中，通过采用K-Means++算法对行人数据集重新聚类，得到N个与图像中行人宽高比最相近的初始候选框。本实施例中选择5个初始候选框，进而得到5组更新值，然后用更新值替换掉原YOLOv2算法中的原始值。此步骤能够加快YOLOv2网络训练的收敛速度，提高行人检测的位置精度。

步骤3：在更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构。

针对原YOLOv2算法的网络结构浅层行人特征图传入深层后，会产生部分行人特征丢失的现象，检测时会出现行人的漏检、误检、遮挡等现象，本发明实施例在更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，改善了视频图像行人检测过程中出现的漏检、误检、遮挡等现象，提高视频图像行人检测的位置精度。

具体的在更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，将浅层行人特征传入深层，把高低分辨率的行人特征图做特征融合。Passthrough层由Route层和Reorg层组成，Route层的作用是将指定层的行人特征信息传入到当前层，然后使用Reorg层重组特征图，使当前传入的Route层特征能够与后一层的特征图相匹配。

改进后的YOLOv2的网络结构如表1所示。本发明在第21层前加入Passthrough层，由Route层(第19层)和Reorg层(第20层)组成，将第11层最大池化后的浅层特征图和第21层的深层特征图做特征融合。在第25层前加入Passthrough层，由Route层(第23层)和Reorg层(第24层)组成，将第11层最大池化后的浅层特征图和第25层的深层特征图做特征融合。在第30层前加入Passthrough层，由Route层(第28层)和Reorg层(第29层)组成，将第11层最大池化后的浅层特征图和第30层的深层特征图做特征融合。

表1改进后的YOLOv2网络结构

步骤4：采用视频图像行人数据集，对改进后的YOLOv2网络进行训练，得到训练好的行人检测模型，然后进行行人检测。

在步骤4中，图2显示了原YOLOv2算法的网络结构和改进后的YOLOv2网络在训练过程中的Loss曲线比较，本发明实施例选择经过45000次训练的行人检测模型作为行人检测的最终权重模型。由图2可以看出采用改进后的YOLOv2网络结构得到的最终Loss值要小于采用原YOLOv2算法的网络结构的Loss值。

Loss函数公式如下式(1)所示：

式(1)中，y为模型的真实值，

为模型的输出值，当模型的预测值和真实值的差别越小时，即Loss函数值越小时，行人检测的精度也就越高。

YOLOv2网络的行人检测过程如图3所示，主要包括以下详细过程：

1、首先将视频图像划分成SxS的网格，如果行人处在了某个网格中，那么这个网格就负责检测该行人。每个网格预测B个检测框以及预测这些检测框的置信度，每张图片的检测框数量为SxSxB。

2、每个检测框都有5个预测值(X，Y，W，H，Conf)。其中，X，Y代表检测框中心，相当于网格边框的坐标，W，H代表视频图像的尺寸，Conf代表检测框的置信度。

置信度的计算公式如下式(2)所示：

式(2)中，IOU代表预测框和真实框的交并比，如式(3)所示。

DetecionResult表示预测框的面积，GroundTruth表示真实框的面积。IOU的值越大，行人定位的准确性就越高。

3、每个网格预测行人的条件概率为P_r(class|object)，条件为已知网格中包含的行人。

4、在检测时，将条件概率和不同检测框置信度的预测值相乘，得到每个检测框行人的置信得分，这些置信得分也包含了检测框中出现行人的概率以及检测框和行人目标的匹配程度。

5、通过非极大值抑制(NMS)过滤掉多余的检测框，得到最终的行人检测结果。

在图4中，(a)、(b)、(c)、(g)、(h)、(i)为原YOLOv2算法的网络结构的检测结果，(d)、(e)、(f)、(j)、(k)、(l)为本发明训练好的行人检测模型的检测结果。其中，(a)、(b)、(c)、(d)、(e)、(f)的原始数据来自为TUD-Stadtmitte数据集，(g)、(h)、(i)、(j)、(k)、(l)的原始数据来自为TUD-Crossing数据集。

(a)和(d)的原始数据为TUD-Stadtmitte数据集中的第11帧图像，将(a)和(d)做比较，(a)图右侧出现了行人的漏检现象，(d)图则将漏检的行人检测了出来。(b)和(e)原始数据为TUD-Stadtmitte数据集中的第18帧图像，(b)和(e)作比较可以看出，(b)右侧的行人还未被检测出，(e)则将未检测出的行人检测了出来。(c)和(f)的原始数据为TUD-Stadtmitte数据集中的第88帧图像，(c)和(f)做对比可以看出，(c)左侧出现了行人的误检现象，而(f)则未出现行人的误检现象。

(g)和(j)的原始数据为TUD-Crossing数据集的第20帧图像，(g)和(j)做比较可以看出，(g)图左侧出现漏检的行人，(j)图检测出了漏检的行人。(h)和(k)的原始数据为TUD-Crossing数据集的第29帧图像，(h)和(k)做比较可以看出，(h)左侧出现行人漏检现象，(k)则检测出了左侧漏检的行人。(i)和(l)的原始数据为TUD-Crossing数据集的第50帧图像，(i)和(l)做比较可以看出，(i)出现行人遮挡的现象，(l)则检测出了被遮挡的行人。

表2是原YOLOv2算法的网络结构和训练好的行人检测模型在验证集上的实验结果比较，训练好的行人检测模型在准确率、召回率和IOU方面都要优于原YOLOv2算法的网络结构。

表2实验结果对比

准确率和召回率的计算公式分别如下式(4)、(3)所示：

上式中，TP、FP和FN分别代表将行人正确识别为行人的样本数、将非行人错误识别为行人的样本数、将行人错误识别为非行人的样本数。

表3实验软硬件平台

图5为本发明实施例基于改进YOLOv2的视频图像行人检测系统的结构示意图，如图5所示，本发明实施例提供的基于改进YOLOv2的视频图像行人检测系统，包括：

视频图像行人数据集制备模块100，用于制备带有标注信息的视频图像行人数据集；所述视频图像行人数据集由视频帧行人图像数据集和INRIA行人数据集组成；所述视频帧行人图像数据集为在TUD视频数据集中截取的视频帧行人图像所组成的数据集。

初始候选框确定模块200，用于利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框。

YOLOv2算法更新模块300，用于根据所述初始候选框计算更新值，并用所述更新值替换原YOLOv2算法的原始值，得到更新后的YOLOv2算法。

YOLOv2网络结构改进模块400，用于在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构。

行人检测模型训练模块500，用于利用所述视频图像行人数据集，对所述改进后的YOLOv2网络结构进行训练，得到训练好的行人检测模型。

行人检测模块600，用于将实时获取的视频帧行人图像输入到所述训练好的行人检测模型中进行行人检测。

所述视频图像行人数据集制备模块100，具体包括：

视频帧行人图像截取单元，用于在所述TUD视频数据集中截取视频帧行人图像，得到初始视频帧行人图像数据集。

视频帧行人图像标注单元，用于采用LabelImage软件对所述初始视频帧行人图像数据集中每帧视频帧行人图像进行标注，得到视频帧行人图像数据集。

所述初始候选框确定模块200，具体包括：

聚类单元，用于利用所述K-Means++聚类算法对所述视频图像行人数据集进行聚类，得到N个聚类结果。

所述YOLOv2网络结构改进模块400，具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于改进YOLOv2的视频图像行人检测方法，其特征在于，所述视频图像行人检测方法包括：

在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构，具体包括：在所述更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，得到改进后的YOLOv2网络结构；所述Passthrough层由Route层和Reorg层组成，所述Route层的作用是将指定层的行人特征信息传入到当前层；所述Reorg层的作用是根据所述行人特征信息重组特征图，并与后一层的特征图相匹配；

2.根据权利要求1所述的基于改进YOLOv2的视频图像行人检测方法，其特征在于，所述制备带有标注信息的视频图像行人数据集，具体包括：

3.根据权利要求1所述的基于改进YOLOv2的视频图像行人检测方法，其特征在于，所述利用K-Means++聚类算法对所述视频图像行人数据集进行聚类处理，确定初始候选框，具体包括：

4.根据权利要求3所述的基于改进YOLOv2的视频图像行人检测方法，其特征在于，所述更新值包括两个数值，分别为第一数值和第二数值；所述第一数值为所述初始候选框的高除以所述初始候选框对应的图像的高的值；所述第二数值为所述初始候选框的宽除以所述初始候选框对应的图像的宽的值。

5.一种基于改进YOLOv2的视频图像行人检测系统，其特征在于，所述视频图像行人检测系统包括：

YOLOv2网络结构改进模块，用于在所述更新后的YOLOv2算法的网络结构的基础上添加3个Passthrough层，得到改进后的YOLOv2网络结构，具体包括：

YOLOv2网络结构改进单元，用于在所述更新后的YOLOv2算法的网络结构的第21层、第25层、第30层前分别添加1个Passthrough层，得到改进后的YOLOv2网络结构；所述Passthrough层由Route层和Reorg层组成，所述Route层的作用是将指定层的行人特征信息传入到当前层；所述Reorg层的作用是根据所述行人特征信息重组特征图，并与后一层的特征图相匹配；

6.根据权利要求5所述的基于改进YOLOv2的视频图像行人检测系统，其特征在于，所述视频图像行人数据集制备模块，具体包括：

7.根据权利要求5所述的基于改进YOLOv2的视频图像行人检测系统，其特征在于，所述初始候选框确定模块，具体包括：