CN110766726A

CN110766726A - 复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法

Info

Publication number: CN110766726A
Application number: CN201910988849.7A
Authority: CN
Inventors: 欧阳奇; 曹晨光; 王媛媛; 张涛; 李乐; 张建; 韩林
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-07
Anticipated expiration: 2039-10-17
Also published as: CN110766726B

Abstract

本发明公开了一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，包括以下步骤：摄取料罐筒口并含有卸料通孔的采集视频；取2000张优质图片组成图片集，将卸料孔用红色矩形标注出，并按照0.7:0.3的比例将图片集分成训练数据集和验证数据集；利用K‑means聚类分析算法计算出训练数据集在进行tiny_yolov3网络模型训练时所需要的尺寸；采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络权重文件。将工业相机所采集到的待识别的图片输入tiny_yolov3网络；设定识别率阈值和IOU阈值，用于对初始目标识别集合进行筛选，得出可识别目标和不可识别目标；对不可识别目标框识别集合，采用获取运动轨迹方法对目标框进行检测。有益效果：检测结果好，可对遮挡的目标进行识别。

Description

复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法

技术领域

本发明涉及大钟料罐容器视觉跟踪技术领域，具体的说是一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法。

背景技术

大钟料罐容器，在工业生产中是一种常见的生产设备。在工件的表面热处理工艺中，常见的有粉末渗锌工艺，即粉末渗锌是将钢铁构件、锌粉及惰性冲击介质混合填充在密封的不锈钢容器中，将容器放置在热处理炉中，在旋转容器下加热到350～450℃并保温一段时间，利用金属原子的热扩散作用，活性锌原子则由钢铁制件的表面向内部渗透，同时铁原子则由内向外扩散，在制件表层形成了一个均匀的锌—铁化合物即渗锌层。工业化粉末渗锌过程是在不断滚动状态下进行加热处理，粉末混合物与工件之间的机械摩擦、冲击作用，不仅有利于新鲜扩散渗剂与被处理界面的紧密接触，而且使得被加热介质温度场均匀化，并有效促进冶金扩散化学反应。加工之前，通常是将待加工钢铁构件提前放入料罐容器后，通过吊装工具将多个料罐容器逐一吊装至竖向安装在热处理炉内的料罐筒内，使所有料罐容器都叠放在料罐筒内。经高温处理后，需要将料罐容器一一从料罐筒内取出，但是由于温度高、现在粉尘大，在吊装连接时，找不到吊装点，并且危险系数高，不适合工人近距离接触。为克服上述问题，人们提出将料罐筒放倒后，从料罐筒口一一将料罐容器逐一拉出的方式，将料罐容器取出。为了达到上述目的，人们在所有料罐容器上均开设卸料通孔，并在加工前吊装时，将所有料罐容器上的卸料通孔一一正对。则在取出料罐容器时，由于工艺要求，需要将通孔和收拉杆处于同一直线上，用于将收拉杆从料罐筒口的一端经卸料通孔伸入到料罐筒底部后，拖动所有料罐容器向料罐筒口方向移动。

但是由于即使料罐筒放倒后，由于工艺要求，料罐筒带动料罐容器在旋转，收拉杆在伸入卸料通孔时无法定位，并且由于料罐筒口粉尘烟雾大，安全视野范围内，卸料通孔有时可见，有时又不可见，收拉杆在工作时，不能找到卸料通孔的位置，无法完成料罐容器的取出操作。

利用视觉定位技术来检测大罐的卸料孔是一个很好的选择，然而对于传统算法而言，需要利用大罐表面的灰度值与卸料孔灰度值的差异进行分割。烟尘会对光线有阻挡作用。在粉尘的干扰下，目标看起来比较模糊，尤其是目标与邻近区域边界变得不清晰，当空气中粉尘浓度较高时，还会完全遮挡目标。此外，厂房中的光照强度是不稳定的，因此传统算法在粉尘环境下容易失效。

发明内容

针对上述问题，本发明提供了一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，通过建立tiny_yolov3网络模型，以料罐上的卸料通孔作为目标识别，并且通过设定阈值，筛选出不可识别的目标框，并对不可识别的目标采用运动轨迹的方式对目标进行检测，最终模拟得到的检测效果好，识别度高。

为达到上述目的，本发明采用的具体技术方案如下：

一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其关键技术在于包括以下步骤：S1：采用摄像设备，正对料罐筒口，摄取料罐筒口并含有卸料通孔的采集视频；并从中获取P张图片组成图片集，将卸料孔用红色矩形标注出，按照比例将图片集分成训练数据集和验证数据集；S2：利用K-means聚类分析算法计算出训练数据集在进行tiny_yolov3网络模型训练时所需要的候选框尺寸；S3：采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络的权重文件；S4：将摄像设备所采集到的验证数据集的图片输入tiny_yolov3网络，经过卷积层处理后，得到多尺度特征图；采用logistic函数对网络预测的x、y、置信度、类别概率进行激活；S5：设定识别率阈值

和IOU阈值用于对步骤S4得到的预测值进行判定；S6：针对步骤S5的判定结果，如果满足阈值要求，将上述结果通过非极大值抑制处理产生最终的目标检测框和识别结果；若不满足阈值结果，采用获取运动轨迹方法对目标框进行检测。

其中，步骤S2中，计算候选框尺寸的具体步骤为：

S21：对所述训练数据集中的图片进行标注，得到训练数据集中所有标注框的参数bbox＝(x,y,H,W,c,s)。

其中x,y表示目标框中心点坐标；H,W为目标框的高和宽，c为目标框类型，s为目标框的识别率；S22：将所有目标框随机分成h类，并设定h类目标框的预设类尺寸，h为正整数；S22：计算所有目标框的尺寸与h个预设类尺寸的距离；S23：对训练数据集的所有目标框进行归类：将目标框归类至其尺寸与预设类尺寸距离最小的一类，得到h类新的目标框；S24：获取h类新的目标框的尺寸，将该新的目标框的尺寸作为所述目标框尺寸。

再进一步的技术方案为：在步骤S3中，采用训练数据集和验证数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络权重文件，具体为：设置训练参数和环境配置参数，运用tiny_yolov3模型的Keras代码对训练数据集，以十折交叉法进行tiny_yolov3网络模型训练。

再进一步的技术方案为：所述训练参数至少包括目标框分类数、训练次数、批处理大小数、一批数据中的样本数量、学习率、输入图片大小和训练次数；环境配置包括操作系统、Python版本、GPU版本、CUDA版本、CUDNN版本。

再进一步的技术方案为：在步骤S5中，筛选步骤为：

S51：根据步骤S4初始目标框识别集合，得到识别率最高的目标框p，并得到目标框p的中心点坐标为(x_p,y_p)；宽高分别为W_p,H_p；则识别率最高的目标框p左上角和右下角的坐标可以表示为：

设任意其他的目标框a的中心点坐标为(x_a,y_a)，宽高分别为为W_a,H_a，该目标框a左上角和右下角的坐标可以表示为：

S52：目标框p与目标框a重合的面积为：

其中S_a表示目标框a的面积，S_p表示识别率最高目标框p的面积；S_a∩S_p表示目标框a与目标框p的交集；

S53：计算IOU：

其中，S_a∪S_p表示两个面积的并集S_a∪S_p＝W_a×H_a+W_p×H_p-S_a∩S_p；IOU表示预测出的识别率最高的框与预测出的其他框的参数面积的重合度；S54：设定识别率阈值

和IOU阈值

若目标框a满足

且则目标框a为可识别目标；否则目标框a为不可识别目标。

再进一步的技术方案为：在步骤S6中，不可识别目标结合运动偏移，进行视频动态预测的步骤为；

S6A1：获取测试数据集中所有目标框的参数获取所有目标框的中心坐标；

S6A2：假设料罐筒口上的目标框中心的遵循椭圆圆周运动；采用路径拟合方法，对步骤S6A1的所有中心目标进行椭圆拟合，得到拟合的中心坐标路径方程：Ax²+Bxy+Cy²+Dx+Ey+F＝0和该椭圆中心(x_c,y_c)；其中，

S6A3：对不可识别目标i，通过步骤S6A1中获取的目标框的参数，得到该目标框前两个目标框的中心坐标(x_i-1,y_i-1),(x_i-2,y_i-2)；

S6A4：计算目标框i-1、i-2的横坐标之差，得到目标框i的基本坐标值

计算公式为：

S6A5：穿过目标框i的基本坐标

和椭圆中心(x_c,y_c)的直线与椭圆有两个交点，选定距离基本坐标的交点作为不可识别目标i的包围框的中心点。

再进一步的技术方案为：在步骤S6A2：中，在步骤S6A2：中，路径拟合方法或采用为最小二乘法进行拟合。具体步骤为：椭圆的一般形式Ax²+Bxy+Cy²+Dx+Ey+F＝0可以用矩阵表示为：F(X)＝bX；

其中b＝[A B C D E F]^T，X＝[x² xy y² x y 1]^T。假设有n个输入数据样本，用D表示输入6n维，每一行计算如X^T的样本矩阵。这时拟合椭圆的问题可以变成求解方程：min||Db||²；

并可以理解为最小化点与二次曲线的距离，通常的做法是将每一个点的距离加起来，迭代多次，得到最优解。为了使求得的曲线确实为椭圆曲线，通常加的约束条件是4AC-B²＞0，但这个约束在Kuhn-Tucker条件下，很难求确定解，因为这个约束使得可以任意缩放参数。此时可以强制4AC-B²＝1，用矩阵可以表示为：其中

0为大小3×3的零矩阵。

为了使问题能够直接由特征值系统解出，而不是最小化点于二次曲线的距离，则先对问题方程和约束方程做一次微分，可得2D^TDb，2Cb＝0。因为b矩阵不能解出为全零，根据拉格朗日乘数法，在约束条件的微分方程中引入拉格朗日因子λ，即可直接由特征值系统解出。

这时结合之前的条件，问题可以表示求解为：

为了使得解出来的b不是全零矩阵，可以加入一些约束，使得它能够直接由特征值系统解出。拉格朗日因子是一个不确定的数，因为b矩阵解出来是二次曲线的参数，这些参数乘以任意一个值，所得到的二次曲线都是一样的。

虽然是第一个求解方程是由第二个求解方程的微分方程得到，但他们是完全不同的两个求解方程。而第一个求解方程只是恰好利用了第二个求解方程微分等式右边为零的特点。令D^TD＝S，这时上面的式子可以写为Sb＝λCb，现在可以求解这个方程的特征值和特征向量(λ_m,u_m)，这里的特征向量是指单位特征向量。为了和帧数相区别，原文已修改为m，因为在求矩阵方程时，特征值和特征向量有多个，所以带下标表示。由矩阵特征值特征向量的特性可知，(λ_m,μu_m)也是这个方程的特征解，μ为任意实数。这时就可以很容易地找到一个μ，来满足第二个求解方程。则μ可以表示为：

此时可以得到6组解，因为S一般是正值，又要开平方，所以u_i ^TSu_i必须是正的。只需要找到特征值λ_m为正的特征解，就能够保证问题有最后解。而需要的椭圆参数(A_j,B_j,C_j,D_j,E_j,F_j)就是这个特征解对应的特征向量的一个确切的解，也就是公式求得的值乘以计算所得的单位特征向量，所得特征向量的六个值与椭圆参数一一对应。

再进一步的技术方案为：在步骤S6中，不可识别目标框的检测步骤中，采用扩展卡尔曼滤波方法进行检测。在本步骤中，假设以目标框的中心作为观测值，对目标框的中心坐标进行最优化估计；并假设目标框运动轨迹呈圆周运动，其圆周半径为r，中心(cx,cy)；目标框p运动到i状态时，其状态矩阵为：

x_pi表示x轴的坐标，y_pi表示y轴坐标，θ_i表示转过的角度，ω_i表示旋转的角速度；目标框的运动公式为：

将目标框的运动公式转化为线性模型，经运动状态转换行数写成状态转换形式为：

其雅可比矩阵为：

则观测值目标框中心点的观测矩阵H为：

再分别为线性估计和观测加入噪声，线性估计的噪声为Q矩阵，观测为R矩阵。

根据卡尔曼滤波原理计算预测估计值：根据状态i-1预测状态i，

其中

表示状态i-1，已知的圆的运动方程，而f则表示所述运动状态转换函数；计算状态i的协方差矩阵：P_i＝F_iP_i-1F_i ^T+Q_i

P_i-1为上一状态协方差矩阵，因为卡尔曼滤波是基于预测值呈现高斯分布，假设给每一个分部中的点都乘以一个转换矩阵，计算它们的协方差，那么可以得到P_i＝F_iP_i-1F_i ^T，再加上预测的噪声，就可以得到状态i的协方差矩阵P_i；

假设H_i表示估计观测转换矩阵，并设置成单位矩阵，

因为是从当前估计值估计得到的观测值，所以同样可以用估计观测值的协方差表示观测值预测的精度。与预测值的协方差矩阵相同地，用此时的协方差矩阵乘以观测值转换矩阵：

此时为了得到最优估计，就是在预测观测值的高斯分布和观测值的高斯分部之间求得一个最佳高斯分布，这两个高斯分布叠加是又一个高斯分布，新的高斯分布均值和方差可以表示为这里的σ₀,μ₀,σ₁,μ₁两个观测值高斯分布的方差和中值，可以得到重合高斯分布的状态值为：

可以得到协方差矩阵

其中，R_i表示实际观测值的误差，z_i表示实际观测值矩阵。采用两边同时除H_i进行化简后，可以将它们相同的部分

提出来，写做相同的一个式子，

就是卡尔曼增益。结合式

设

卡尔曼增益矩阵K′_i可以用转换矩阵和协方差矩阵计算得到：

最优状态估计为

也就是重合部分的状态值和协方差矩阵通过卡尔曼增益计算得到。

P′_i＝(I-K′_iH_i)P_i

其中I为单位矩阵，

是重合部分状态值，P′_i状态对应的分布，也可以说是估计误差；P′_i是重合部分协方差矩阵。在神经网络能够检测到的图像帧，就用观测值来纠正卡尔曼模型，在不能检测到的关键帧，利用卡尔曼滤波的预测功能，则可以预测出此时的方孔中心。

本发明的有益效果：在基本模型检测失败时，提供持续的检测，实验表明选取的基本模型正确，结合运动特征的方法表现效果有明显提高，特别是在于有长期遮挡的检测上。

附图说明

图1是本发明的方法流程图；

图2是6分类目标框中心分布示意图；

图3是3分类目标框中心分布示意图；

图4是验证loss下降曲线示意图；

图5是遮挡检测结果图；

图6是直接拟合椭圆计算目标框中心点值示意图；

图7是Tiny-yolov3网络模型连续强遮挡检测效果示意图；

图8是Offset-yolov3网络模型连续强遮挡检测效果示意图；

图9是Fit-yolov3网络模型连续强遮挡检测效果示意图；

图10是Kalman-yolov3网络模型连续强遮挡检测效果示意图；

图11是位置偏移计算目标框参数示意图；

图12是yolo视频检测参数列表示意图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，结合图1可以看出，包括以下步骤：：S1：采用摄像设备，正对料罐筒口，摄取料罐筒口并含有卸料通孔的图片；取2000张优质图片组成图片集，将卸料孔用红色矩形标注出，并按照0.7:0.3的比例将图片集分成训练数据集和验证数据集；在本实施例中，总共有1000个从视频分割采集而来的样本数据我们采用随机分类的方法，将1400张图片作为训练数据集，600张图片作为验证数据集。

S2：利用K-means聚类分析算法计算出训练数据集在进行tiny_yolov3网络模型训练时所需要的目标框中心；步骤S2中，计算候选框尺寸(即锚框尺寸)的具体步骤为：

S21：对所述训练数据集中的图片进行目标框检测，得到训练数据集中所有目标框的参数bbox＝(x,y,H,W,c,s)，其中x,y表示目标框中心点坐标；H,W为目标框的高和宽，c为目标框类型，s为目标框的识别率；结合图12可以看出，为yolo视频检测列表。图12中，输入为一个视频经过序列分割成多张图片，每张图片经过训练好的yolov3目标检测网络进行检测，假定每张图片只含有一种检测物，这种检测物在每张图片只有一个，类似于单目标跟踪。与单目标跟踪不同在于，训练时已知检测物，而不是在第一帧指定。由视频序列的特性可知，在检测时，形状规则变化物体的运动轨迹与目标框中心的运动轨迹相同，在运动目标运动轨迹大致可知的情况下，可以通过对目标框中心的轨迹估计目标的轨迹。目标框大小的变化，也就是目标框的宽和高则可以通过最接近目标中心的已知目标框宽高获得。在本研究中，只存在一类物体，所以当检测到物体时c为1,未检测到物体时c为0。检测识别率代表检测到的物体的可信程度，识别率越高，则越有可能是这个物体。

S22：将所有目标框随机分成h类，并设定h类目标框的预设类尺寸，h为正整数；

S23：对训练数据集的所有目标框进行归类：将目标框归类至其尺寸与预设类尺寸距离最小的一类，得到h类新的目标框；

S24：获取h类新的目标框的尺寸，将该新的目标框的尺寸作为所述目标框尺寸。

S3：采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络模型；在步骤S3中，采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络模型，具体为：设置训练参数和环境配置参数，运用tiny_yolov3模型的Keras代码对训练数据集，以十折交叉法进行tiny_yolov3网络模型训练，并将验证的误差值val_loss作为训练的目标。

所述训练参数至少包括目标框分类数、训练次数、批处理大小数、一批数据中的样本数量、学习率、输入图片大小和训练次数；环境配置包括操作系统、Python版本、GPU版本、CUDA版本、Cudnn版本。

在本实施例中，作为一种实施方式，结合图2可以看出，目标框随机直接分为h＝6类，应用于训练；其中训练参数详见表一；原始的目标框中心(即锚框值)(10,14 23,27 37,58 81,82 135,169 344,319)。图2为6分类的结果，从图中可以看出目标框中心为(146,198)(179,217)(186,150)(205,185)(208,227)和(217,212)。

表一六分类训练参数表

由于原始的目标框尺寸(10,14)(23,27)(37,58)(81,82)(135,169)(344,319)，后三个预测锚框与总的数据集平均相近。所以想到利用K-means进行3分类，其中训练参数详见表二；在图中用不同的颜色表示不同的分类，从图3可以看出，三类的尺寸分别为(154,202)、(195,163)和(211,220)，即三分类后目标框中心为(10,14)(23,27)(37,58)(154,202)(195,163)(211,220)，并将每个分类的尺寸值放入训练的锚框中进行训练。

表二六分类训练参数表

表一中，第一行是6分类的锚框参数，表二中，第一行则是3分类的锚框参数。在表一表二中，用不同的锚框，在系统条件允许的情况下，使用两个不同的批处理大小值，对tiny_yolov3进行全网络直接训练，不使用预训练值和冻结训练，而且不是tiny_yolov3预训练的类型中的任何一类，因为图片特征较为简单，数据量不大，所以只使用tiny_yolov3即可满足要求，而且不能使用过多的训练次数，否则容易造成过拟合，最后选择训练次数里面验证loss最好的一个模型。环境配置参数详见表三：

表三环境配置参数表

Items	Configuration
		操作系统	Ubuntu16.04.6
Python版本	3.5
		GPU版本	GTX-1060
CUDA版本	9.0
		CuDnn版本	7.5

训练后我们对不同训练参数所得的模型进行了测试集上进行了实验。利用AP-50和平均识别率AS来比较测试的好坏，因为AP需要一个参数值来表征精确率和召回率，我们采用的是IOU阈值的方式，在检测出的结果中先验目标框与预测框之间的IOU阈值为0.5，只有大于这个阈值才表示检测出目标。AS则表示的是检测出目标的图片中，他们的的平均得分。测试结果如表四所示。

表四训练测试结果表

NO.	Configuration配置	AP-50	AS
				1	批量尺寸batch_size＝4,all	0.9866	0.9546
2	批量尺寸batch_size＝4,half	0.9932	0.9719
				3	批量尺寸batch_size＝6,all	0.9633	0.9254
4	批量尺寸batch_size＝6,half	0.9742	0.9302

四类训练的验证loss下降曲线如图4所示。根据曲线走势，可以看到，这四类在一开始，0～5个epoch都下降明显，到达10时慢慢变得平缓，虽然有些许的波动，呈一定锯齿状，但看曲线下边缘，还是呈现下降趋势。符合交叉验证loss的下降趋势。通过表格可以看到训练次数epoch和对AP和AS的影响不大，但有一定影响。在我们的实验中，小的批量尺寸batch_size值能够得到更好的结果，虽然在训练时间上要长一点，但是也是在两个小时左右，可以接受，并且已经能够得到非常好的AP值，所以不需要更小。在锚框方面，一开始可能会觉得全部使用来自于训练集的锚框会好一些，但实验显示只使用一半的来自于训练集实验效果更佳。最后我们选用第二个训练模型。

S4：将工业相机所采集到的待识别的图片输入tiny_yolov3网络，经过多个卷积层，得到多尺度的特征图；采用logistic函数对网络预测的x、y、置信度、类别概率进行激活；

S5：设定识别率阈值

和IOU阈值

用于对步骤S4得到的预测值进行判定；在步骤S5中，判定步骤为：

S52：目标框p与目标框a重合的面积为：

S53：计算IOU：

其中，S_a∪S_p表示两个面积的并集S_a∪S_p＝W_a×H_a+W_p×H_p-S_a∩S_p；

IOU表示预测出的识别率最高的框与预测出的其他框的参数面积的重合度；

S54：设定IOU阈值thre_IOU和识别率阈值thre_s；若目标框a满足

且目标框a为可识别目标框；否则目标框a为不可识别目标框。

其中，目标框随机直接分为h＝6类时，经计算分类平均IOU为93.96％。

其中，目标框随机直接分为h＝3类时，经计算分类平均IOU为90.38％。

运动偏移：建立在快速目标检测的基础上，当前目标帧未检测到检测物时，直接采用前一帧检测得到的参数，直接赋值给当前帧，因为快速，所以变化不大。但是这样在非常短的时间内，误差还是可控的，但是一旦时间稍微长一些，就变得很大了。所以此时可以选择计算前帧的运动偏移，目标检测在快速检测过程中，无论此时检测物体的运动路径是如何变化，在很短的时间内，可以被认为是在做匀速直线运动。此时被测物体的运动可以表示为：s＝vt

s表示物体移动的距离，v表示运动速度，t表示运动时间，在这里以帧数代替。从式中可以看出，只要获得了移动的距离，就可以从前帧已知的目标框位置预测到后帧未检测出的位置。

结合识别率与检测时间，决定采用序列长度为8的队列作为采样队列，每次保留与检测帧时间序列最近的8个目标框参数。如果此检测帧检测失败，则选择8个目标框参数中识别率最高的帧，获得此帧目标框的参数。

利用此帧的目标框中心点坐标与当前帧前一帧目标框中心点，计算出物体的运动速度，也就是每一帧的位移，前一帧中心点参数加上这个位移就是当前帧中心点的参数。整体结构如图11所示。图11中，i表示第i帧，k表示距离当前帧的时间(以帧数表示)。offx表示x的偏移量，offy表示y方向的偏移量。yolov3网络图片检测逐帧输出结果序列，直到当前帧检测失败，设总共有n帧，当前帧为第i帧，存入的邻近的帧的存储下标用j表示，则此时存入的目标框参数序列可表示为Bbox＝{bbox_j＝(x_i-k,y_i-k,H_i-k,W_i-k,c_i-k,s_i-k)|i∈[3,n],k∈[1,8],j＝8-k,i＞k,k,n,i,j∈N}。

n表示总共的帧数；N表示自然数集合；

位置偏移预测具体实现可以分为以下四个步骤：

(1)将最邻近的8个前序帧依次存入队列。如果没有8帧，则有多少帧存多少帧，但最好是能够在8帧以后再做预测。队列的性质决定了，这个序列中始终都是存入的最邻近的8个帧的参数，此时的参数序列用存入下标表示原来帧序列的下标为Bbox＝{bbox_i-(8-j)|i∈[3,n],j∈[0,7],n,i,j∈N}。可以看出，离当前帧越近的帧数跟接近队列尾部，越远的越接近头部，因为近的从尾部入队列，远的要从头部出队列。

(2)找出计算帧。当目标检测网络失效时，从8个前序帧中找出识别率最高的帧的下标值K＝Index(max{s_i-(8-j)|i∈[3,n],j∈[0,7],i,j,n∈N})。

(3)计算偏移量。利用得到的最大识别率的帧数和当前帧前一帧差值计算，根据式

x和y的位移为其差值，时间是忽略每一帧检测时间的帧数相减，相除所得为速度，也就是x和y一帧移动的距离，则x，y偏移量计算可以表示为：一帧移动的距离

(4)计算当前目标框参数。目标框参数可以表示为：

其中x_i,y_i是利用当前检测帧的上一帧的中心点值加上通过最高识别率计算出来的偏移值得到。因为这8个帧都接近与当前帧，而识别率最高的一帧我们认为是目标框的参数是最好的，所以直接赋值给当前帧。

获得当前帧的值之后，将当前目标框参数加入队列中，距离较远的前序帧出队，帧数加一，进行下一个检测的循环。

S6：针对步骤S5的判定结果，如果满足阈值要求，将上述结果通过非极大值抑制处理产生最终的目标检测框和识别结果。不满足阈值结果，采用获取运动轨迹方法对目标框进行检测；

通过图5的图像可以看出，遮挡与识别率存在一定关系。图5(a)为未遮挡识别状态，有雾气遮挡的存在会使得识别率下降，例如图5(b)，甚至无法识别的情况，例如图5(c)。这就是的我们需要通过运动的结合方式将由于雾气遮挡未能检测出的方孔，进行进一步的检测。

在步骤S6中，不可识别目标框结合运动偏移，进行视频动态预测的步骤为；

S6A1：获取测试数据集中所有目标框的参数获取所有目标框的尺寸；

S6A3：选定任意不可识别目标框i，通过步骤S6A1中获取的目标框的参数，得到该目标框前两个目标框的中心坐标(x_i-1,y_i-1),(x_i-2,y_i-2)；

结合图6可以看出，S6A4：计算目标框i-1、i-2的横坐标之差，得到目标框i的基本坐标值

计算公式为：

S6A5：穿过目标框i的基本坐标和椭圆中心(x_c,y_c)的直线与椭圆有两个交点，选定距离基本坐标

的交点作为不可识别目标框i的中心点。

其中，在步骤S6A2：中，在步骤S6A2：中，路径拟合方法或采用为最小二乘法进行拟合。具体步骤为：

椭圆的一般形式Ax²+Bxy+Cy²+Dx+Ey+F＝0可以用矩阵表示为：F(X)＝bX；

其中b＝[A B C D E F]^T，X＝[x² xy y² x y 1]^T。假设有n个输入数据样本，用D表示输入6n维，每一行计算如X^T的样本矩阵。

这时拟合椭圆的问题可以变成求解方程：min||Db||²；

0为大小3×3的零矩阵。

这时结合之前的条件，问题可以表示求解为：

虽然是第一个求解方程是由第二个求解方程的微分方程得到，但他们是完全不同的两个求解方程。而第一个求解方程只是恰好利用了第二个求解方程微分等式右边为零的特点。令D^TD＝S，这时上面的式子可以写为Sb＝λCb，现在可以求解这个方程的特征值和特征向量(λ_m,u_m)，这里特征向量是指单位特征向量。

为了和帧数相区别，原文已修改为m，因为在求矩阵方程时，特征值和特征向量有多个，所以带下标表示。

由矩阵特征值特征向量的特性可知，(λ_m,μu_m)也是这个方程的特征解，μ为任意实数。这时就可以很容易地找到一个μ，来满足第二个求解方程。则μ可以表示为：

此时可以得到6组解，因为S一般是正值，又要开平方，所以u_i ^TSu_i必须是正的。只需要找到特征值λ_m为正的特征解，就能够保证问题有最后解。而需要的椭圆参数(A_j,B_j,C_j,D_j,E_j,F_j)就是这个特征解对应的特征向量的一个确切的解，也就是公式

求得的值乘以计算所得的单位特征向量，所得特征向量的六个值与椭圆参数一一对应。

作为另一种实施方式，在步骤S6中，不可识别目标框的检测步骤中，采用扩展卡尔曼滤波方法进行检测。

在本步骤中，假设以目标框的中心作为观测值，对目标框的中心坐标进行最优化估计；并假设目标框运动轨迹呈圆周运动，其圆周半径为r，中心(cx,cy)；

目标框p运动到i状态时，其状态矩阵为：

x_pi表示x轴的坐标，y_pi表示y轴坐标，θ_i表示转过的角度，ω_i表示旋转的角速度；

目标框的运动公式为：

其雅可比矩阵为：

则观测值目标框中心点的观测矩阵H为：

根据卡尔曼滤波原理计算预测估计值：

根据状态i-1预测状态i，

其中

表示状态i-1，已知的圆的运动方程，而f则表示所述运动状态转换函数；

计算状态i的协方差矩阵：P_i＝F_iP_i-1F_i ^T+Q_i

假设H_i表示估计观测转换矩阵，并设置成单位矩阵，

此时为了得到最优估计，就是在预测观测值的高斯分布和观测值的高斯分部之间求得一个最佳高斯分布，这两个高斯分布叠加是又一个高斯分布，新的高斯分布均值和方差可以表示为

这里的σ₀,μ₀,σ₁,μ₁两个观测值高斯分布的方差和中值，可以得到重合高斯分布的状态值为：

可以得到协方差矩阵

其中，R_i表示实际观测值的误差，z_i表示实际观测值矩阵。

采用两边同时除H_i进行化简后，可以将它们相同的部分

提出来，写做相同的一个式子，

就是卡尔曼增益。

结合式

设

最优状态估计为

P′_i＝(I-K′_iH_i)P_i

其中I为单位矩阵，

在本实施例中，对未能识别的物体做进一步的检测，所以会带来时间的消耗，我们对三个不同的结合方式做了时间和效果上的探究，并对他们自我结合做出实验。其中，三个不同的结合方式分别为：结合运动偏移，进行视频动态预测；结合最小二乘法路径拟合，进行视频动态预测；结合扩展卡尔曼滤波进行视频动态预测。

为了更好地表示我们的结合方式在解决遮挡问题上的优势，我们特别选取了数据集中有明显雾气遮挡的图片序列作为结合方法的检测测试。在时间上我们计算了最大最小和平均检测时间，在效果上同样利用平均精确度AP和不均识别率AS作为比较标准，检测结果如表五所示。

表五运动结合检测结果

结合表5、图7-10可以看出，实验结果显示增加运动信息会加强检测效果，使得每一张图片都能够被重新检测，增加检测出的效果。就所用时间来讲，因为最短的时间都是根据神经网络直接检测出来，所以最短时间相近，而最长时间相近则是因为在检测第一张图片时需要时间反应，所以我们在计算平均时间时减去了最大时间。由于运动偏移和卡尔曼滤波在神经网络之后的处理是线性时间，在GPU的运行上几乎可以忽略不计，所以他们的平均时长与神经网络检测时间相近。而通过路径拟合，拟合点越多则越费时间，为此在经过一周之后要替换已存储点，使点保持在一定数量，时间主要消耗在于计算拟合好椭圆上的点。在效果上来讲，运动偏移是根据直线的运动偏移得出结果，在遮挡时长较短时，有较好的效果。结合图8可以看出，一旦遮挡时长增加，运动偏移检测就会出现偏移，致使检测失败。结合图10可以看出，卡尔曼滤波在解决最优问题上效果很好，但是在预测方面，如果运动变化过快，观测值缺失，则效果欠佳。结合图9可以看出，虽然路径拟合在时间上由于计算点，会慢0.02s，但因为计算精确，所以即使是长时间地被遮挡，依然可以较准确地预测到方孔的位置。

为了比较本文的方法在检测大料钟方孔上的优势，我们选取了基于深度学习的目标检测算法中的Faster-RCNN和SSD这两个常用的网络，做了速度和效果上的比较。在本实验中，我们对于识别率和AP需要使用计算的IOU阈值均为0.5，大于这个阈值表示检测出，在检测出的样本范围内，计算了他们的平均识别率AS和平均交并比AIOU，实验结果如表六所示。

表六不同模型检测结果

Method	FPS	AP(％)	AS(％)	AIOU
					Faster-RCNN	3	88.75	79.88	0.71
SSD300	29	77.20	61.03	0.61
					Tiny-yolov3	38	93.31	86.08	0.79
Offset-yolov3	38	95.44	88.19	0.81
					Fit-yolov3	19	97.57	88.70	0.83
Kalman-yolov3	37	94.52	86.64	0.80

通过比较不同的模型在相同的测试集上的表现，可以看出，Tiny-yolo在时间上是表现最好的，从三个基本模型Faster-RCNN、SSD300、Tiny-yolov3来看，符合论文趋势，SSD300比Faster-RCNN快近十倍，但效果不如它好，而yolov3则在效果和时间上都胜于其他两个模型。

而加入运动特征的模型，则在基本模型不能检测出的时候，都能以运动特征加以重测，所以在时间上会增加，但效果上会变好。结合表六和图7-10进行分析，在实际应用中，如是没有长期遮挡(两个测试帧时长)或者物体运动速度较慢时，则可选用Offset-yolov3进行实测。若是存在长期遮挡或物体运动速度较快时，则可以增加硬件设施，保证检测速度，采用Fit-yolov3检测

应当指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换，也应属于本发明的保护范围。

Claims

1.一种复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其特征在于包括以下步骤：

S1：采用摄像设备，正对料罐筒口，摄取料罐筒口并含有卸料通孔的采集视频；并从中获取P张图片组成图片集，将卸料孔用红色矩形标注出，按照比例将图片集分成训练数据集和验证数据集；

S2：利用K-means聚类分析算法计算出训练数据集在进行tiny_yolov3网络模型训练时所需要的候选框尺寸；

S3：采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络的权重文件；

S4：将摄像设备所采集到的验证数据集的图片输入tiny_yolov3网络，经过卷积层处理后，得到多尺度特征图；采用logistic函数对网络预测的x、y、置信度、类别概率进行激活；

S5：设定识别率阈值

和IOU阈值

用于对步骤S4得到的预测值进行判定；

S6：针对步骤S5的判定结果，如果满足阈值要求，将上述结果通过非极大值抑制处理产生最终的目标检测框和识别结果；若不满足阈值结果，采用获取运动轨迹方法对目标框进行检测。

2.根据权利要求1所述的复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其特征在于：步骤S2中，计算候选框尺寸的具体步骤为：

S21：对所述训练数据集中的图片进行标注，得到训练数据集中所有标注框的参数bbox＝(x,y,H,W,c,s)，其中x,y表示目标框中心点坐标；H,W为目标框的高和宽，c为目标框类型，s为目标框的识别率；

S22：计算所有目标框的尺寸与h个预设类尺寸的距离；

3.根据权利要求2所述的复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其特征在于：在步骤S3中，采用训练数据集对tiny_yolov3网络模型进行训练，得到tiny_yolov3网络模型，具体为：设置训练参数和环境配置参数，运用tiny_yolov3模型的Keras代码对训练数据集，以十折交叉法进行tiny_yolov3网络模型训练。

4.根据权利要求3所述的复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其特征在于：所述训练参数至少包括目标框分类数、训练次数、批处理大小数、一批数据中的样本数量、学习率、输入图片大小和训练次数；

环境配置包括操作系统、Python版本、GPU版本、CUDA版本、CUDNN版本。

5.根据权利要求1所述的复杂背景下的大钟料罐容器移动目标视觉定位与动态跟踪方法，其特征在于：在步骤S5中，筛选步骤为：