CN110929670A

CN110929670A - 基于yolo3技术的渣土车洁净度视频识别分析方法

Info

Publication number: CN110929670A
Application number: CN201911210960.XA
Authority: CN
Inventors: 施星靓; 刘胜军; 李晓洁; 孟虎; 孙浪
Original assignee: HEFEI CITY CLOUD DATA CENTER Co Ltd
Current assignee: HEFEI CITY CLOUD DATA CENTER Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-03-27

Abstract

本发明涉及基于yolo3技术的渣土车洁净度视频识别分析方法，与现有技术相比解决了难以实现渣土车洁净度视频识别的缺陷。本发明包括以下步骤：渣土车实时视频采集图像的获取和预处理；洁净度识别模型的构建与训练；渣土车洁净度的识别分析。本发明利用渣土车图像数据学习训练网络，直接输出识别结果，相比传统的检测识别过程，避免了对渣土车和复杂背景特征人工建模复杂、适用性不强等问题，能够大大提高复杂背景下运动目标检测识别跟踪的速度和准确度。

Description

基于yolo3技术的渣土车洁净度视频识别分析方法

技术领域

本发明涉及视频识别技术领域，具体来说是基于yolo3技术的渣土车洁净度视频识别分析方法。

背景技术

渣土车管理是城市管理中的难点，特别是渣土车运输作业时灰尘对环境造成重大污染，因此渣土车出施工现场后的洁净度一直是主管部门监测的重点。

现有技术中，多采用传感器进行渣土车清洁度的监测，但其难以实现对渣土车清洁度的高准确率识别。虽有部分技术提出，利用传统的图像特征提取技术进行监测，但其仍存在构建过程繁琐、泛化能力不强等问题。特别是，渣土车的行驶在视频过程中属于动态过程，并且随着渣土车的行驶过程，经过甩泥、清洗等过程后，其清洁度也属于实时变化的过程。针对其进行视频识别分析，涉及复杂背景下的运动目标检测识别跟踪，技术难度较大。

因此，如何开发出一种渣土车洁净度视频实现识别方法已经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中难以实现渣土车洁净度视频识别的缺陷，提供一种基于yolo3技术的渣土车洁净度视频识别分析方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于yolo3技术的渣土车洁净度视频识别分析方法，包括以下步骤：

11)渣土车实时视频采集图像的获取和预处理：获取渣土车实时视频采集图像，并按照视频帧进行处理，每视频帧均按标准VOC数据格式对采集的图像数据进行处理；

12)洁净度识别模型的构建与训练：利用darknet网络搭建渣土目标检测网络框架，对搭建后的渣土目标检测网络框架进行训练，得到训练后洁净度识别模型；

13)渣土车洁净度的识别分析：将预处理后的视频帧输入训练后的洁净度识别模型，通过洁净度识别模型提取出特征，输出渣土位置预测值和渣土类别概率预测值。

所述洁净度识别模型的构建与训练包括以下步骤：

21)搭建yolo3网络构建洁净度识别模型，洁净度识别模型包括yolo3分类网络和yolo3检测网络；yolo3分类网络使用darknet结构，由一系列的1*1、3*3的卷积层组成，每个卷积层后接BN层和LeakyReLu层，网络主干由52个卷积层组成；yolo3检测网络采用多尺度预测结构；

22)yolo3网络使用darknet结构，darknet结构为一个全卷积网络，无全连接层，其网络的损失函数定义如下：

xy_loss＝confindence*(2-w*h)*crossentropy，

wh_loss＝confdence*(2-w*h)*(wh_True-wh_pred)，

confidence_loss＝confidence*crossentropy+(1-confidence)*crossentropy*ignore，

class_loss＝confidence*crosstropy，

total_loss＝xy_loss+wh_loss+confidence_loss+class_loss，

式中，xy_loss表示物体中心点坐标损失，wh_loss表示anchor长宽回归值的损失，confidence_loss表示置信度损失，class_loss表示类别损失；

23)设定Yolo3采用上采样法和融合法，融合f*f、2f*2f、4f*4f共3个尺度的先验框，在3个尺度的融合特征图上分别进行独立检测；

24)设定Yolo3中每个单元格预测3个包含渣土信息的边界框，每个边界框包含(4+1+c)*3个值，其中4表示坐标信息、1表示对象置信度、c表示目标类别概率；

边界框中坐标预测如下：

t_x＝(G_x-C_X)，

t_y＝(G_y-C_y)，

t_w＝log(G_w-P_w)，

t_h＝log(G_h-P_h)，

b_x＝σ(t_x)+c_x，

b_y＝σ(t_y)+c_y，

b_h＝P_he^h，

其中，Cx、Cy是特征图中单元格的左上角坐标，yolov3中每个单位格在特征图中的宽和高均为1，即公式中Cx、Cy均为1，Pw、Ph是预设的边界框映射到特征图中的宽和高，Gx、Gy是目标实际框在这个特征图上的中心点坐标，

Gw、Gh是目标实际框在这个特征图上的宽和高，tx、ty是预测的坐标偏移值，tw、th是尺度缩放，最终得到的边框坐标值是bx、by、bw、bh即边界框相对于特征图的位置和大小；

25)设定Confindence反映了当前边界框是否含有渣土以及渣土位置的准确性，计算方式如下：

confidence＝P(Object)*IOU(pred*groudtruth)

其中，当P(Object)＝1表示bounding box包含目标物体渣土，

P(Object)＝0表示不包含目标物体渣土，

IOU为交并比，为预测边界框与真实区域的面积，面积以像素面积计算；

26)设定Yolo预测阶段，类别概率为类别的条件概率与confidence的乘积，计算公式如下：

class＝Pr(Classi|Object)*confidence

其中，Pr(Classi|Object)表示对象类别的条件概率，class反映了bounding box是否包含目标渣土和边界框坐标的准确度；

27)对yolo3网络进行超参数设定，将采用随机梯度下降法训练网络，训练出洁净度识别模型，其中初始学习率设定为0.001，梯度下降动量为0.9，权重衰减正则为0.0001。

还包括渣土车视频目标的跟踪处理步骤；

所述的渣土车视频目标的跟踪处理步骤分析通过渣土位置预测值和渣土类别概率预测值，并利用deep-sort方法进行渣土车视频目标的跟踪。

所述的分析通过渣土位置预测值和渣土类别概率预测值包括以下步骤：

41)引入一个离散控制过程系统，过程和观测噪声都属于高斯白噪声，该系统可以使用线性随机微分方程进行描述，公式如下：

X_k＝AX_k-1+BU_k+W_k-1 (3.1)

Z_k＝HX_k+V_k (3.2)，

其中，式(3.1)为系统状态方程，X_k和X_k-1分别为系统k时刻的k-1时刻的状态矩阵，U_k和W_k为系统k时刻的控制矩阵和过程噪声，A和B为系统的相关状态转移矩阵，式(3.2)为系统的观测方程，Z_k和V_k分为为系统k时刻的观测矩阵和观测噪声，H为系统观测矩阵；

42)设过程噪声和观测噪声不会随着系统状态的变化而变化，公式如下：

Cov[W_k，W_j]＝0 (3.5)

其中Q和R为噪声的协方差矩阵；

43)通过系统k-1时刻状态预测系统k时刻状态，可以得到状态预测方程和协方差预测方程，公式如下：

X_k|k-1＝AX_k-1|k-1+BU_k (3.6) P_k|k-1＝P_k-1|k-1A^T+Q (3.7)

44)由状态预测获得系统状态预测结果，然后再结合状态的观测结果就可以得到状态的最优结果，公式如下：

X_k|k＝X_k|k-1+K_k(Z_k-HX_k|k-1) (3.8)

K_k＝P_k|k-1H^T(HP_k|k-1H^T+R)^-1 (3.9)

其中，X_k|k为k时刻状态最优结果，K_k为卡尔曼增益矩阵。

对k时刻状态的协方差进行估计更新，公式如下：

P_k|k＝(I-K_kH)P_k1k-1 (3.10)

其中，P_k|k是k时刻状态的协方差更新结果；

通过一定的度量规则将目标检测信息与目标跟踪信息进行数据关联匹配，构建以两部分信息总量为大小的数据关联矩阵，最后通过级联匹配算法对其进行预测匹配，得出最终的预测跟踪结果。

所述的利用deep-sort方法进行渣土车视频目标的跟踪包括以下步骤：

51)使用检测框与跟踪器预测框之间的马氏距离来描述运动的关联程度，其公式如下：

d⁽¹⁾(i，j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

其中，dj表示第j个检测框的位置，yi表示第i个跟踪器对目标的预测位置，Si表示检测位置与平均跟踪位置之间的协方差矩阵；

deep sort通过以从逆χ²分布计算得来的95％置信区间对马氏距离进行阈值化处理，

当关联的马氏距离小于指定的阈值t，则设置运动状态的关联成功；

52)采用最小余弦距离来进行目标关联，公式如下：

d⁽²⁾(i，j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

其中d⁽²⁾(i，j)小于指定阈值，则设置运动状态的关联成功；

53)使用两种度量方式的线性加权作为最终的度量，公式如下：

c_i，j＝λd⁽¹⁾(i，j)+(1-λd⁽²⁾(i，j))

其中，c_i，j为两种匹配度量的加权融合值，若c_i，j越小则两者越相似，反之则越不相似；

54)采用级联匹配的策略来提高匹配精度，其具体步骤如下：

541)输入物体跟踪集合T、物体检测集合D；

542)C矩阵存放所有物体跟踪i与物体检测j之间距离的计算结果；

543)B矩阵存放所有物体跟踪i与物体检测j之间是否关联的判断(0/1)；

544)关联集合M初始化为{}；

545)将找不到匹配的物体检测集合初始化为D；

546)从刚刚匹配成功的跟踪器循环遍历到最多已经有Amax次没有匹配的跟踪器；

547)选择满足条件的跟踪器集合Tn；

548)根据最小成本算法计算出Tn与物体检测j关联成功产生集合[x_i，j]；

549)更新M为匹配成功的(物体跟踪i，物体检测j)集合；

550)从U中去除已经匹配成功的物体检测j；

551)循环处理；

552)返回M、U两个集合。

有益效果

本发明的基于yolo3技术的渣土车洁净度视频识别分析方法，与现有技术相比利用实际的渣土车图像数据学习训练网络，直接输出识别结果，相比传统的检测识别过程，避免了对渣土车和复杂背景特征人工建模复杂、适用性不强等问题，能够大大提高复杂背景下运动目标检测识别跟踪的速度和准确度。

相比现有技术，本发明具有如下优点：

1、本发明考虑到基于深度学习的目标检测跟踪识别方法是将特征构建与分类融合成一个模型，即输入原始图像数据、直接输出分类结果，不需要人工构建特征，更适用于复杂场景下运动目标的识别与跟踪问题；

2、本发明适用于工地等复杂应用场景下渣土车快速发现、高准确率检测与识别，为渣土车清洁出场提供技术支持。

附图说明

图1为本发明的方法顺序图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

本发明所述方法，首先，针对实时视频流采集渣土车的每帧图像，并按照标准VOC数据格式对采集的数据进行处理；其次，设计darknet网络框架并搭建模型，对网络框架进行训练，生成最终目标检测模型；最后，采用deep-sort算法对检测结果进行跟踪，解决实时运动目标检测和跟踪问题。

如图1所示，本发明所述的一种基于yolo3技术的渣土车洁净度视频识别分析方法，包括以下步骤：

第一步，渣土车实时视频采集图像的获取和预处理。

获取渣土车实时视频采集图像，并按照视频帧进行处理，每视频帧均按标准VOC数据格式对采集的图像数据进行处理。

第二步，洁净度识别模型的构建与训练。

利用darknet网络搭建渣土目标检测网络框架，对搭建后的渣土目标检测网络框架进行训练，得到训练后洁净度识别模型。yolo3能够保证在一定准确度下，达到22ms执行完一帧图片，能够满足渣土车实时检测的目的。

其具体步骤如下：

(1)搭建yolo3网络构建洁净度识别模型，洁净度识别模型包括yolo3分类网络和yolo3检测网络；yolo3分类网络使用darknet结构，由一系列的1*1、3*3的卷积层组成，每个卷积层后接BN层和LeakyReLu层，网络主干由52个卷积层组成；yolo3检测网络采用多尺度预测结构。

(2)yolo3网络使用darknet结构，darknet结构为一个全卷积网络，无全连接层，其网络的损失函数定义如下：

xy_loss＝confindence*(2-w*h)*crossentropy，

wh_loss＝confidence*(2-w*h)*(wh_True-wh_pred)，

confidence_loss＝confidence*crossentropy+(1-confidence)*crossentropy*ignore，

class_loss＝confidence*crosstropy，

total_loss＝xy_loss+wh_loss+confidence_loss+class_loss，

式中，xy_loss表示物体中心点坐标损失，wh_loss表示anchor长宽回归值的损失，confidence_loss表示置信度损失，class_loss表示类别损失。

(3)设定Yolo3采用上采样法和融合法，融合f*f、2f*2f、4f*4f共3个尺度的先验框，在3个尺度的融合特征图上分别进行独立检测。

(4)设定Yolo3中每个单元格预测3个包含渣土信息的边界框，每个边界框包含(4+1+c)*3个值，其中4表示坐标信息、1表示对象置信度、c表示目标类别概率；

边界框中坐标预测如下：

t_x＝(G_x-C_x)，

t_y＝(G_y-C_y)，

t_w＝log(G_w-P_w)，

t_h＝log(G_h-P_h)，

b_x＝σ(t_x)+c_x，

b_y＝σ(t_y)+c_y，

b_h＝P_he^h，

Gw、Gh是目标实际框在这个特征图上的宽和高，tx、ty是预测的坐标偏移值，tw、th是尺度缩放，最终得到的边框坐标值是bx、by、bw、bh即边界框相对于特征图的位置和大小。

(5)设定Confindence反映了当前边界框是否含有渣土以及渣土位置的准确性，计算方式如下：

confidence＝P(Object)*IOU(pred*groudtruth)

其中，当P(Object)＝1表示bounding box包含目标物体渣土，

P(Object)＝0表示不包含目标物体渣土，

IOU为交并比，为预测边界框与真实区域的面积，面积以像素面积计算。

(6)设定Yolo预测阶段，类别概率为类别的条件概率与confidence的乘积，计算公式如下：

class＝Pr(Classi|Object)*confidence

其中，Pr(Classi|Object)表示对象类别的条件概率，class反映了bounding box是否包含目标渣土和边界框坐标的准确度。

(7)对yolo3网络进行超参数设定，将采用随机梯度下降法训练网络，训练出洁净度识别模型，其中初始学习率设定为0.001，梯度下降动量为0.9，权重衰减正则为0.0001。

第三步，渣土车洁净度的识别分析。

将预处理后的视频帧输入训练后的洁净度识别模型，通过洁净度识别模型提取出特征，输出渣土位置预测值和渣土类别概率预测值。

由于渣土车是实时行进过程中，因此为了进一步增加技术实用性，还可以包括渣土车视频目标的跟踪处理步骤，通过渣土位置预测值和渣土类别概率预测值，并利用deep-sort方法进行渣土车视频目标的跟踪，更新渣土车上的洁净度状况。当视频中出现渣土车时，首先通过检测网络检测出渣土车的检测框，根据当前物体的检测框预测出下一帧画面的物体轨迹，得到物体的跟踪框，利用级联匹配算法将检测框与跟踪框进行匹配，得到匹配结果。

其中，分析通过渣土位置预测值和渣土类别概率预测值包括以下步骤：

(1)引入一个离散控制过程系统，过程和观测噪声都属于高斯白噪声，该系统可以使用线性随机微分方程进行描述，公式如下：

X_k＝AX_k-1+BU_k+W_k-1 (3.1)

Z_k＝HX_k+V_k(3.2)，

(2)设过程噪声和观测噪声不会随着系统状态的变化而变化，公式如下：

Cov[W_k，W_j]＝0 (3.5)

其中Q和R为噪声的协方差矩阵；

(3)通过系统k-1时刻状态预测系统k时刻状态，可以得到状态预测方程和协方差预测方程，公式如下：

X_k|k-1＝AX_k-1|k-1+BU_k (3.6) P_k|k-1＝P_k-1|k-1A^T+Q (3.7)

(4)由状态预测获得系统状态预测结果，然后再结合状态的观测结果就可以得到状态的最优结果，公式如下：

X_k|k＝X_k|k-1+K_k(Z_k-HX_k|k-1) (3.8)

K_k＝P_k|k-1H^T(HP_k|k-1H^T+R)^-1 (3.9)

其中，X_k|k为k时刻状态最优结果，K_k为卡尔曼增益矩阵。

对k时刻状态的协方差进行估计更新，公式如下：

P_k|k＝(I-K_kH)P_k|k-1 (3.10)

其中，P_k|k是k时刻状态的协方差更新结果；

利用deep-sort方法进行渣土车视频目标的跟踪包括以下步骤：

(1)使用检测框与跟踪器预测框之间的马氏距离来描述运动的关联程度，其公式如下：

d⁽¹⁾(i，j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

(2)由于马氏距离不能很好的解决物体被长时间遮挡后关联不正确导致ID跳变的问题，采用最小余弦距离来进行目标关联，公式如下：

d⁽²⁾(i，j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

(3)使用两种度量方式的线性加权作为最终的度量，公式如下：

c_i，j＝λd⁽¹⁾(i，j)+(1-λd⁽²⁾(i，j))

(4)当运动目标被遮挡很长时间，kalman滤波的不确定性就会增加，本发明采用级联匹配的策略来提高匹配精度。采用级联匹配的策略来提高匹配精度，其具体步骤如下：

A1)输入物体跟踪集合T、物体检测集合D；

A2)C矩阵存放所有物体跟踪i与物体检测j之间距离的计算结果；

A3)B矩阵存放所有物体跟踪i与物体检测j之间是否关联的判断(0/1)；

A4)关联集合M初始化为{}；

A5)将找不到匹配的物体检测集合初始化为D；

A6)从刚刚匹配成功的跟踪器循环遍历到最多已经有Amax次没有匹配的跟踪器；

A7)选择满足条件的跟踪器集合Tn；

A8)根据最小成本算法计算出Tn与物体检测j关联成功产生集合[x_i，j]；

A9)更新M为匹配成功的(物体跟踪i，物体检测j)集合；

A10)从U中去除已经匹配成功的物体检测j；

A11)循环处理；

A12)返回M、U两个集合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于yolo3技术的渣土车洁净度视频识别分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于yolo3技术的渣土车洁净度视频识别分析方法，其特征在于，所述洁净度识别模型的构建与训练包括以下步骤：

xy_loss＝confindence*(2-w*h)*crossentropy，

wh_loss＝confidence*(2-w*h)*(wh_True-wh_Pred)，

confidence_loss＝confidence*crossentropy+(1-confidence)*crossentropy*ignore，

class_loss＝confidence*crosstropy，

total_loss＝xy_loss+wh_loss+confidence_loss+class_loss，

边界框中坐标预测如下：

t_x＝(G_x-C_X)，

t_y＝(G_y-C_y)，

t_w＝log(G_w-P_w)，

t_h＝log(G_h-P_h)，

b_x＝σ(t_x)+c_x，

b_y＝σ(t_y)+c_y，

b_h＝P_he^h，

confidence＝P(Object)*IOU(pred*groudtruth)

其中，当P(Object)＝1表示bounding box包含目标物体渣土，

P(Object)＝0表示不包含目标物体渣土，

class＝Pr(Classi|Object)*confidence

3.根据权利要求1所述的基于yolo3技术的渣土车洁净度视频识别分析方法，其特征在于：还包括渣土车视频目标的跟踪处理步骤；

4.根据权利要求3所述的基于yolo3技术的渣土车洁净度视频识别分析方法，其特征在于，所述的分析通过渣土位置预测值和渣土类别概率预测值包括以下步骤：

X_k＝AX_k-1+BU_k+W_k-1 (3.1)

Z_k＝HX_k+V_k(3.2)，

Cov[W_k,W_j]＝0 (3.5)

其中Q和R为噪声的协方差矩阵；

X_k|k-1＝AX_k-1|k-1+BU_k (3.6)P_k|k-1＝P_k-1|k-1A^T+Q (3.7)

X_k|k＝X_k|k-1+K_k(Z_k-HX_k|k-1) (3.8)

K_k＝P_k|k-1H^T(HP_k|k-1H^T+R)^-1 (3.9)

其中，X_k|k为k时刻状态最优结果，K_k为卡尔曼增益矩阵。

对k时刻状态的协方差进行估计更新，公式如下：

P_k|k＝(I-K_kH)P_k|k-1 (3.10)

其中，P_k|k是k时刻状态的协方差更新结果；

5.根据权利要求3所述的基于yolo3技术的渣土车洁净度视频识别分析方法，其特征在于，所述的利用deep-sort方法进行渣土车视频目标的跟踪包括以下步骤：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)

52)采用最小余弦距离来进行目标关联，公式如下：

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}

其中d⁽²⁾(i,j)小于指定阈值，则设置运动状态的关联成功；

c_i,j＝λd⁽¹⁾(i,j)+(1-λd⁽²⁾(i,j))

其中，c_i,j为两种匹配度量的加权融合值，若c_i,j越小则两者越相似，反之则越不相似；

54)采用级联匹配的策略来提高匹配精度，其具体步骤如下：

541)输入物体跟踪集合T、物体检测集合D；

544)关联集合M初始化为{}；

545)将找不到匹配的物体检测集合初始化为D；

547)选择满足条件的跟踪器集合Tn；

548)根据最小成本算法计算出Tn与物体检测j关联成功产生集合[x_i,j]；

549)更新M为匹配成功的(物体跟踪i，物体检测j)集合；

550)从U中去除已经匹配成功的物体检测j；

551)循环处理；

552)返回M、U两个集合。