CN111079540A

CN111079540A - 一种基于目标特性的分层可重构车载视频目标检测方法

Info

Publication number: CN111079540A
Application number: CN201911131918.9A
Authority: CN
Inventors: 郑可尧; 赵雪梦; 郑红; 梁航; 张栋; 刘书珍
Original assignee: Beijing University Of Aeronautics And Astronautics Aerospace Industry Research Institute Co Ltd Danyang
Current assignee: Beijing University Of Aeronautics And Astronautics Aerospace Industry Research Institute Co Ltd Danyang
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-04-28
Anticipated expiration: 2039-11-19
Also published as: CN111079540B

Abstract

本发明提供了一种车载视频目标快速检测方法，属于计算机视觉、深度学习技术领域，包括如下步骤：步骤一：制作样本集；步骤二：确定模型先验边界框的初始化参数；步骤三：构建改进的tiny‑yolo‑v2目标检测网络模型，将原始9层网络结构简化为7层结构的卷积神经网络模型，前6层均为网络结构块，最后1层为卷积层；步骤四：训练模型；步骤五：检测目标。通过上述方法，可以实现车载视频每帧图像中设定目标的快速检测，相比于原tiny‑yolo‑v2网络结构，减少了网络层数和全网络卷积核数，使得所构建网络在保证目标检测精度与tiny‑yolo‑v2一致的条件下，检测速度增加、占用存储空间与计算资源减少，可满足车载视频目标检测要求。

Description

一种基于目标特性的分层可重构车载视频目标检测方法

技术领域

本发明涉及计算机视觉、深度学习技术等领域，具体涉及一种基于目标类数、目标边框特性的分层可重构的改进tiny-yolo-v2车载视频目标检测方法。

背景技术

深度神经网络在基于图像信息的目标检测方面正在获得越来越广泛的应用。与传统特征表达的方法相比，其特性的丰富性和健壮性表现突出，并且，可以在同一模型中通过学习，实现特征提取、选择和目标分类。

基于深度神经网络的目标检测算法主要分成两类：

(1)似物性采样目标检测网络，首先，利用特征相似性原理在图像中提取目标位置候选区域，然后，以候选区域为目标，学习分类网络模型；其代表网络包括：R-CNN，FastR-CNN，FasterR-CNN等。

(2)回归目标检测网络，构造目标分类与边框定位误差的联合损失函数，直接通过学习回归网络模型；其代表网络包括：YOLO系列和SSD等。

YOLO(YouOnlyLookOnce)是一种回归目标检测网络，其突出的特点在于速度快，但是，其检测精度稍低于似物性采样目标网络模型。YOLO系列包括：yolo-v1、yolo-v2、yolo-v3，其中，v2和v3版的精度相较于v1有较大提升。

深度神经网络的应用普遍面临网络规模大、运行速度慢，同时，无法针对具体应用修改网络结构以适应实际应用的问题。尤其是，车载目标检测任务，对于运行速度、资源占用更为敏感，因为车载设备均为嵌入式系统，其存储空间和计算资源均受到车载设备性能限制，而且，车辆驾驶的速度快慢限制了视频连续帧检测的时间间隔，通常视频帧频约25帧/秒，当车辆行驶速度达到120km/h时，其检测时间间隔可能要求更短。这样的要求，即使是轻量级tiny-yolo-v2的9层结构网络也难以实现。因此，如何根据实际应用修改网络，以根据使用要求设计合适的深度网络及其卷积核数量，是目前深度神经网络落地面临的严峻挑战。

中国专利文献CN107134144A公开了一种用于交通监控的车辆检测方法，其包括步骤：S1、首先将收集到的交通监控图片拆分成上下两部分，上半部分图片的车辆离监控摄像头较远，车辆呈现小而模糊的状态，裁剪出其中的车辆并标注车辆类别信息，组成第一训练样本集；下半部分图片的车辆离监控摄像头较近，车辆呈现大而清晰的状态，直接在下半部分图片中标注出车辆类别信息和位置信息，并组成第二训练样本集；S2、构建并训练卷积神经网络；S3、构建并训练YOLO神经网络；S4、结合卷积神经网络和YOLO神经网络输出结果，检测出整张交通监控图片中的车辆。该发明虽然解决了原YOLO神经网络召回率低等特点，但其使用的是10层的卷积神经网络和11层的YOLO神经网络，其运算速度仍然受到一定限制。因此在应用于车载视频监控时，仍然存在一定弊端，无法完全满足车载视频检测所需的快速、高精度要求。

发明内容

本发明旨在针对车载目标检测应用，通过改进tiny-yolo-v2的深度网络结构、学习损失函数调整，可以在检测精度与tiny-yolo-v2一致的条件下，增加目标检测速度，减少运算与存储资源占用，并可应用于行人街景检测系统、自动驾驶系统。

本发明针对车载目标检测问题，在tiny-yolo-v2的基础上，研究了分层数、卷积核数、损失函数结构、网络检测性能评估等方面的改进策略，在目标检测精度不变的条件下，改进后网络模型的运行时间和资源占用情况得到了明显提升。

一种车载视频目标快速检测方法，其特征在于，包括如下步骤：

步骤一：制作样本集

采集包含A种特定目标类型的车载视频作为训练和测试的样本集，将视频拆分为连续图像帧，标注每帧图像中出现的上述A种特定目标的类别和位置，随机选取部分有效样本作为训练样本集，剩余样本作为测试样本集，用于网络训练和测试网络模型性能；其中，A为1-10之间的整数；

步骤二：确定模型先验边框初始化参数

在网络模型中引入先验边框机制，使用K-means聚类算法，统计训练样本集中的所述A类特定目标的边框宽和高的均值和分布，用于初始化目标边框参数值w和h，w和h分别表示目标边界框的宽和高；计算训练样本集中每类目标的真实边框和先验边框的交并比IOU，其计算公式如下：

式中，Area ofoverlap是目标真实边框与先验边框的重叠部分面积；Areaofunion是目标真实边框与先验边框的总面积；

步骤三：构建改进的tiny-yolo-v2目标检测网络模型，所述网络模型包括如下内容：

(1)改进tiny-yolo-v2网络模型结构，构建含有7层结构的卷积神经网络，并对每一层结构的卷积核个数进行调整，前6层均为网络结构块，后1层为卷积层；

前6层网络结构块可以从训练数据中习得深层目标特征，第7层的卷积层为回归模型；

(2)构建损失函数；

步骤四：配置网络训练和测试所需环境，训练网络模型：

步骤五：输入测试集的视频连续帧图像序列，加载步骤四训练所得网络模型，使用该模型检测测测试样本集中的目标，利用非极大值抑制检测出测试样本中目标的位置和/或类别。

优选地，所述含有7层结构的tiny-yolo-v2卷积神经网络中，每个结构块中：

第一层为3×3卷积层，使用BatchNormalization归一化处理输入数据；

第二层为池化层，使用Leaky ReLU激活函数处理，如式(2)所示：

其中，x为池化层中间数据，a取(1，+∞)区间内的任意数值。

优选地，所述构建损失函数包括：

在原有损失函数的基础上增加两个学习目标权重系数，构造新的网络学习损失函数如式(3)所示

Loss＝λ_coordLoss_coord+Loss_obj+λ_noobjLoss_noobj (3)

式中，λ_coord为位置误差调整权重系数，λ_noobj为不含目标边框置信度权重系数，Loss_coord为位置误差损失函数，Loss_obj为目标分类误差函数，Loss_noobj为不含目标边框损失函数；各类误差函数定义如式(4)-(6)所示：

式中，x、y、w、h分别为预测边框的中心坐标及其宽和高，

分别为真值边框的中心坐标及其宽和高；C_i为预测边框内包含目标i的置信度，

为真值边框包含目标i的置信度；p_i(c)为预测边框的分类概率，

为真值边框的分类概率；

在第i个网格中第j个目标预测边框时为1，否则为0，

在目标中心位于第i个网格时为1，否则为0。

优选地，所述损失函数式(3)中引入了两个调整因子λ_coord和λ_noobj，其取值如式(7)、(8)所示：

λ_coord＝5.0 (7)

λ_noobj＝0.5 (8)

优选地，步骤四中所述训练网络模型包括：

按照步骤二聚类得出的先验边框，初始化网络边框参数；按照步骤三构建的网络模型及损失函数，初始化网络学习模型；不断向网络输入训练样本，计算损失函数值，根据损失函数值调整网络各层权重系数，如此循环，直至损失函数值达到设计要求。

优选地，步骤四中，所述训练网络模型的过程中，通过损失函数的下降学习网络权重，直到损失函数值下降到允许范围内，停止训练并保存训练得到的目标检测网络模型；

网络模型训练过程如下：

样本图像通过网络生成特征图，特征图上的每个网格中生成B个预测边框，每个预测边框由(A+C)个参数表示，前A个参数分别表示预测边框的中心坐标及其宽和高(x，y，w，h)；C为目标分类参数，包括目标置信度P_c和目标类别C_o(i＝1,2,3,4,5……A)；

其中，目标置信度P_c表示网格内是否有目标与预测边框和真值边框IOU的乘积，如式(9)所示：

式中，P_r(Object)为预测边框内存在目标的概率，如果预测边框框住了整个目标，则P_r(Object)＝1，如果预测边框内无目标，则P_r(Object)＝0；

为预测边框与真值边框的交并比，这个值越大，则预测边框与真值边框重合的置信度就越高，目标检测的定位误差就越小；

目标类别C_i(i＝1,2,3,4,5……A)表示每个预测边框中包含目标类别不同，用目标类别的条件概率表示P_r(Class_i|Object)，如式(10)所示：

网络输出B×(S×S)预测边框数，每个边框由(A+C)个参数表示，因此，网络输出的总参数量为：B×(S×S)×(A+C)。

优选地，所述步骤四中，选择训练批处理数量为32，学习率设置1e^-3，使用Adam优化器训练网络结构的权重参数，对整个训练集迭代200个epoch，损失函数值下降到4～5范围内，停止训练并保存训练得到的目标检测网络模型。

优选地，所述A种特定目标类型包括汽车类、行人类、自行车类、公交车类、摩托车类共五种类型。

优选地，所述步骤二中，使用K-means聚类算法时，该模型的距离函数采用IOU距离计算，公式如下：

D(box，centroid)＝1-IOU(box，centroid) (11)

式中，box为边框边界，centroid为边框中心。

优选地，所述步骤五中使用步骤四训练得到的网络模型，批量检测测试样本集，批量输出目标检测结果，并统计该模型的平均检测精度mAP指标，如果mAP不满足预期设计要求，调整网络层数或卷积核数量，重新训练网络，直至达到与tiny-yolo-v2相同的指标。

本发明提供的技术方案可简述如下：

使用步骤一制作的车载视频训练样本集，训练本发明提供的改进后的tiny-yolo-v2网络，导出其训练模型，再使用测试样本集测试tiny-yolo-v2的mAP_old值，并记录。

按照步骤三所公开的内容，改进tiny-yolo-v2网络并训练和测试的过程：

1)去掉原9层网络中的第7、8层，保留原网络的第1-6层；

2)在原损失函数的位置误差项和目标不存在项前加入调整系数5和0.5；

3)使用训练tiny-yolo-v2的样本集，训练改进的7层网络，导出其训练模型，再使用测试样本集测试改进网络模型的mAP_new值，并记录；

4)如果(mAP_old-mAP_new)≥ε，则增加每层的卷积核数量，更新改进的网络结构；

5)返回3)，直至(mAP_oId-mAP_new)≤ε，得到改进网络模型；

6)使用相同测试集分别测试新旧两个模型的单帧检测速度、总参数量。

7)对改进后的网络进行检测性能评估。

相对于现有技术，本发明提供的技术方案具有如下优点：

(1)基于目标特性的网络层数与每层卷积核数量调整，相比于原tiny-yolo-v2网络结构，减少了网络层数和全网络卷积核数，使得所构建网络在保证目标检测精度与tiny-yolo-v2一致的条件下，检测速度增加、占用存储空间与计算资源减少，可满足车载视频目标的检测要求，检测精度更高，检测速度更快。

(2)本发明中损失函数增加了两个系数，能够保证检测精度更高。且本发明中增加了批量指标检测结果mAP，能够有效验证网络模型泛化能力，可以通过mAP指标反应网络的综合目标检测能力，如果网络泛化能力不够，需要重新组织训练样本集合，继续训练网络，直到满足预期的泛化能力。

附图说明

图1展示了本发明提供的基于目标特性的可重构深度神经网络设计流程图。

图2展示了测试例1所示的两种网络结构检测精度对比。

图3a展示了测试例1所示原tiny-yolo-v2网络检测的检测结果。

图3b展示了测试例1所示本发明提供的改进后网络的检测结果。

具体实施方式

下面结合附图和具体实施方式，对本发明提供的基于目标特性的分层可重构车载视频目标检测方法做进一步说明。

本实施例提供的车载视频目标快速检测方法，包括如下步骤：

步骤一：制作样本集

采集包含包含汽车类、行人类、自行车类、公交车类、摩托车类五种类型的车载视频作为训练和测试的样本集，将视频拆分为连续图像帧，标注每帧图像中出现的上述五类特定目标的类别和位置，随机选取部分有效样本作为训练样本集，剩余样本作为测试样本集，用于网络训练和测试网络模型性能；

步骤二：确定模型先验边框初始化参数

在网络模型中引入先验边框机制，使用K-means聚类算法，统计训练样本集中的汽车类、行人类、自行车类、公交车类、摩托车类五类特定目标的边框宽和高的均值和分布，用于初始化目标边框参数值w和h，w和h分别表示目标边界框的宽和高；计算训练样本集中每类目标的真实边框和先验边框的交并比IOU，其计算公式如下：

由于传统的K-means聚类算法使用欧式距离函数，为了防止聚类结果偏离真实边框，本实施例中该模型的距离函数采用IOU距离计算公式如下：

D(box，centroid)＝1-IOU(box，centroid) (11)

式中，box为边框边界，centroid为边框中心。

步骤三：构建改进的tiny-yolo-v2目标检测网络模型，对卷积层数与卷积核数进行调整，本实施例构建的改进后的新网络模型包括如下内容：

(1)对tiny-yolo-v2网络模型结构进行改进，构建含有7层结构的卷积神经网络，并对每一层结构的卷积核个数进行调整，前6层均为网络结构块，后1层为卷积层，前6层网络结构块可以从训练数据中习得深层目标特征，第7层的卷积层为回归模型。

每个结构块中，第一层为3×3卷积层，使用BatchNormalization归一化处理输入数据；第二层为池化层，使用Leaky ReLU激活函数，如式(2)所示：

其中，x为池化层中间数据，a取值范围为(1，+∞)区间内的任意数值。

相比于原9层卷积网络结构，改进之后的7层结构更精简，检测速度相比原网络提升；同时，通过合理调整每层结构的卷积核个数，保证了检测精度的稳定性。修改之后的卷积层结构见表1：

表1.改进后的网络结构

网络结构	卷积核个数	卷积核尺寸	步长
				卷积层1(Conv1)	32	3×3	1
池化层1(MaxPooling1)	—	2×2	2
				卷积层2(Conv2)	64	3×3	1
池化层2(MaxPooling2)	—	2×2	2
				卷积层3(Conv3)	128	3×3	1
池化层3(MaxPooling3)	—	2×2	2
				卷积层4(Conv4)	256	3×3	1
池化层4(MaxPooling4)	—	2×2	2
				卷积层5(Conv5)	512	3×3	1
卷积层6(Conv6)	1024	3×3	1
				卷积层7(Conv7)	50	1×1	1

(2)构建损失函数：

针对原网络学习过程中，目标定位准确性较差的问题，在原有损失函数的基础上增加两个学习目标权重系数，本实施例构造了新的网络学习损失函数如式(3)所示：

Loss＝λ_coordLoss_coord+Loss_obj+λ_noobjLoss_noobj (3)

式中，x、y、w、h为预测边框的中心坐标及其宽和高，

为真值边框的中心坐标及其宽和高；C_i为预测边框内包含目标i的置信度，

为真值边框的分类概率；

在第i个网格中第j个目标预测边框时为1，否则为0，

在目标中心位于第i个网格时为1，否则为0。

由于损失函数式(3)中引入了两个调整因子和，本实施例中其取值如式(7)、(8)所示：

λ_coord＝5.0 (7)

λ_noobj＝0.5 (8)

步骤四：配置网络训练和测试所需TensorFlow环境，训练网络模型：按照步骤二聚类得出的先验边框，初始化网络边框参数；按照步骤三构建改进网络模型及损失函数，初始化网络学习模型；不断向网络输入训练样本，计算损失函数值，根据损失函数值调整网络各层权重系数，如此循环，直至损失函数值达到设计要求。

网络模型训练过程中，通过损失函数的下降学习网络权重，直到损失函数值下降到允许范围内，停止训练并保存训练得到的目标检测网络模型。网络模型具体训练过程如下：

样本图像通过网络生成特征图，特征图上的每个网格中生成B个预测边框，每个预测边框由(5+c)个参数表示，前5个参数分别表示预测边框的中心坐标及其宽和高(x，y，w，h)；C为目标分类参数，包括：

目标置信度P_c：表示为网格内是否有目标与预测边框和真值边框IOU的乘积，如式(9)所示：

为预测边框与真值边框的交并比，这个值越大，则预测边框与真值边框重合的置信度就越高，目标检测的定位误差就越小。

目标类别C_i(i＝1,2,3,4,5)：每个预测边框中包含目标类别不同，用目标类别的条件概率表示P_r(Class_i|object)如式(10)所示：

网络输出B×(S×S)预测边框数，每个边框由(5+C)个参数表示，因此，网络输出的总参数量为：B×(S×S)×(5+C)。

在本发明专利所使用的网络模型中S＝13，B＝5。

本实施例选择训练批处理数量32，学习率设置1e^-3，使用Adam优化器训练网络结构的权重参数，对整个训练集迭代200个epoch，损失函数值下降到4～5范围内，停止训练并保存训练得到的目标检测网络模型。

步骤五：批量输入测试集的视频连续帧图像序列，加载步骤四训练所得网络模型，使用该模型检测测测试样本集中的目标，利用非极大值抑制检测出测试样本中目标的位置和/或类别，并统计该模型的平均检测精度mAP指标，如果mAP不满足预期设计要求，调整网络层数或卷积核数量，重新训练网络，直至达到与tiny-yolo-v2相同的指标。

下面对目标检测方法性能评估指标的物理意义及其计算说明：

一、若干概念

(1)二分类问题：问题可以表达为正例和反例两类集合，正例集合为P，反例集合为N。

(2)二分类检测集合：正例检测正确数量为TP，正例检测错误数量为FN，反例检测正确数量为TN，反例检测错误数量为FP。

二、检测与评价指标

(1)准确率Precision，如公式(12)所示：

Precision是指检测集合中所有正例中检测正确的比率。

(2)召回率，如公式(13)所示：

Recall是指检测为正例的样本中检测正确的比率。

(3)PR曲线：使用准确率和召回率绘制PR曲线。

以准确率Precision为纵轴P，以召回率Recall为横轴R，以目标的检测边框与真值边框的IOU为参变量，分别给定IOU＝[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]，计算每个IOU线的值(p_i，r_i)i＝1,2,……,10，得到O-PR坐标系下第一象限中的10个点，以R从小到大顺序连接10个点，得到PR曲线。

(4)mAP：每类目标C_i得到一条PR曲线PR_i与坐标轴围成一个区域，该区域的面积为其AP_i值，如式(14)所示：

k＝1,2,……,

所有五类目标的AP值求平均得到网络模型的综合检测性能mAP，如式(15)所示：

其离散近似值为：

计算所有目标类的AP平均值得到mAP，如式(17)所示

下面通过两个测试例展示本发明改进后的网络与传统tiny-yolo-v2相比，在检测精度和运行速度上的提升效果。

测试例1本发明提供的改进网络与tiny-yolo-v2的检测精度比较

图2为在相同测试集下，本实施例所提供改进后的网络与原tiny-yolo-v2的检测精度比较结果，图中横轴为检测目标类别，包括：car(汽车)、bus(公交车)、motorbike(摩托车)、person(人)、bicycle(自行车)五类；纵轴为检测精度(查全率)，左侧柱为tiny-yolo-v2的统计平均检测精度，右侧柱为本发明专利改进网络的统计平均检测精度。

如图2所示，汽车、行人类目标检测精度两者相同，公交车类改进网络检测精度降低了8％，摩托车类改进网络检测精度提升了8％，自行车类改进网络检测精度提升了5％，tiny-yolo-v2五类目标的平均检测精度mAP_old＝59.23％，改进网络五类目标的平均精度值为60.32％，平均精度提升了1.1％。

图3a-图3b为在同一场景下，tiny-yolo-v2与改进后网络的检测效果比较，图3a为tiny-yolo-v2的检测效果，图3b为本发明改进网络的检测效果，图中白色边框为检测出的目标，显然，tiny-yolo-v2漏检了右边路上的1个摩托车，本发明提供的改进网络除了有一个较大的虚警边框外，车辆和行人、骑自行车的人都检测正确。

测试例2改进网络与tiny-yolo-v2的运行速度比较

表2为在相同测试集下，改进网络与tiny-yolo-v2的检测速度比较结果。

表2两种网络结构检测单帧图像检测时间

网络结构	tiny-yolo-v2	本发明网络结构
			单帧图像检测时间/ms	4.1	3.3

由表2可知，tiny-yolo v2检测单帧图像时间为4.1ms，本发明改进网络检测单帧图像仅需要3.3ms，相比原tiny-yolo-v2检测时间缩短了20％。

本发明提供的改进网络与tiny-yolo-v2的资源占用比较：在相同测试集下，本实施例所提供的改进网络与tiny-yolo-v2的检测运算资源占用比较，改进网络的模型权重系数数量减少了50％。

本发明提供的改进网络与tiny-yolo-v2相比，检测精度提升了1.1％，检测速度提升了20％，权重模型参数减少了一半，满足车载目标的快速检测需求。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种车载视频目标快速检测方法，其特征在于，包括如下步骤：

步骤一：制作样本集

步骤二：确定模型先验边框初始化参数

式中，Area of overlap是目标真实边框与先验边框的重叠部分面积；Area of union是目标真实边框与先验边框的总面积；

(1)改进tiny-yolo-v2网络模型结构，构建含有7层结构的卷积神经网络，并对每一层结构的卷积核个数进行调整，前6层均为网络结构块，后1层为卷积层；前6层网络结构块可以从训练数据中习得深层目标特征，第7层的卷积层为回归模型；

(2)构建损失函数；

步骤四：配置网络训练和测试所需环境，训练网络模型；

步骤五：输入测试集的视频连续帧图像序列，加载步骤四训练所得网络模型，使用该模型检测测试样本集中的目标，利用非极大值抑制检测出测试样本中目标的位置和/或类别。

2.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述含有7层结构的tiny-yolo-v2卷积神经网络中，每个结构块中：

第一层为3×3卷积层，使用Batch Normalization归一化处理输入数据；

第二层为池化层，使用Leaky ReLU激活函数处理，如式(2)所示：

其中，x为池化层中间数据，a取(1，+∞)区间内的任意数值。

3.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述构建损失函数包括：

在原有损失函数的基础上增加两个学习目标权重系数，构造新的网络学习损失函数如式(3)所示：

Loss＝λ_coordLoss_coord+Loss_obj+λ_noobjLoss_noobj (3)

式中，x、y、w、h分别为预测边框的中心坐标及其宽和高，

为真值边框的分类概率；

在第i个网格中第j个目标预测边框时为1，否则为0，

在目标中心位于第i个网格时为1，否则为0。

4.一种如权利要求3所述的车载视频目标快速检测方法，其特征在于，所述损失函数式(3)中引入了两个调整因子λ_coord和λ_noobj，其取值如式(7)、(8)所示：

λ_coord＝5.0 (7)

λ_noobj＝0.5 (8)。

5.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，步骤四中所述训练网络模型包括：

6.一种如权利要求5所述的车载视频目标快速检测方法，其特征在于，步骤四中，所述训练网络模型的过程中，通过损失函数的下降学习网络权重，直到损失函数值下降到允许范围内，停止训练并保存训练得到的目标检测网络模型；

网络模型训练过程如下：

样本图像通过网络生成特征图，特征图上的每个网格中生成B个预测边框，每个预测边框由(A+C)个参数表示，前A个参数分别表示预测边框的中心坐标及其宽和高(x，y，w，h)；C为目标分类参数，包括目标置信度P_c和目标类别C_i(i＝1，2，3，4，5......A)；

目标类别C_i(i＝7，2，3，4，5......A)表示每个预测边框中包含目标类别不同，用目标类别的条件概率表示P_r(Class_i|Object)，如式(10)所示：

7.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述步骤四中，选择训练批处理数量为32，学习率设置1e^-3，使用Adam优化器训练网络结构的权重参数，对整个训练集迭代200个epoch，损失函数值下降到4～5范围内，停止训练并保存训练得到的目标检测网络模型。

8.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述A种特定目标类型包括汽车类、行人类、自行车类、公交车类、摩托车类共五种类型。

9.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述步骤二中，使用K-means聚类算法时，该模型的距离函数采用IOU距离计算，公式如下：

D(box，centroid)＝1-IOU(box，centroid) (11)

式中，box为边框边界，centroid为边框中心。

10.一种如权利要求1所述的车载视频目标快速检测方法，其特征在于，所述步骤五中使用步骤四训练得到的网络模型，批量检测测试样本集，批量输出目标检测结果，并统计该模型的平均检测精度mAP指标，如果mAP不满足预期设计要求，调整网络层数或卷积核数量，重新训练网络，直至达到与tiny-yolo-v2相同的指标。