CN107622507A

CN107622507A - 一种基于深度学习的空中目标跟踪方法

Info

Publication number: CN107622507A
Application number: CN201710676396.5A
Authority: CN
Inventors: 蔺素珍; 郑瑶; 任之俊
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2017-08-09
Filing date: 2017-08-09
Publication date: 2018-01-23
Anticipated expiration: 2037-08-09
Also published as: CN107622507B

Abstract

本发明涉及空中目标跟踪方法，具体为基于深度学习的空中目标跟踪方法，本方法按如下步骤进行：MDNet采集第一帧图像的正样本并进行随机取样，将随机取样后的样本作为数据集训练bounding‑box模型；其次，训练利用最小信息准则和最小二乘法确定阶数和参数的AR模型，估计目标运动轨迹并预测目标位置；然后，将该目标位置作为MDNet的采样中心，再利用bounding‑box回归模型调整目标位置，精确完成跟踪。本方法可以自适应提取空中目标特征，并结合AR模型有效利用目标的运动信息，可极大改善MDNet对目标特征的依赖性，在解决伪目标干扰的同时，提高跟踪精度。

Description

一种基于深度学习的空中目标跟踪方法

技术领域

本发明涉及目标跟踪方法，具体为一种基于深度学习的空中目标跟踪方法。

背景技术

空中目标跟踪是航空航天等各类探测系统的关键技术之一，由于观测距离较远，该类目标在地面观测和跟踪过程中，往往因缺少形状和纹理特征而呈现为小目标甚至点目标状态，造成检测和跟踪困难。光流法、相邻帧差法和背景减法是当前采用的主要方法，但往往仅针对特定目标，需要根据先验知识选择合适的跟踪算法，不利于工程化应用。

新近，深度学习在图像分类、目标检测等许多领域均已成功突破了固定状态模型的约束，在目标跟踪领域也有少许探索性的研究，如基于深度学习的双层卷积神经网络、深度卷积神经网络以及多域卷积神经网络，均通过自适应提取目标特征，来区分目标与背景信息，在降低跟踪误差同时提高了算法的鲁棒性，但都较注重不同类物体的特征提取，未述及同类目标如何区分，不利于存在伪目标时的高精度跟踪。总的来说，这些研究证实深度人工神经网络学习得到的参数更多、更全，可以降低对先验知识的依赖，但未解决目标跟踪中目标与伪目标交会时往往存在的跟踪漂移问题。

为此，需要有一种新的方法来解决基于卷积神经网络方法跟踪目标时过分依赖目标特征难以区分目标与伪目标所导致的跟踪漂移问题。

发明内容

本发明为了解决基于卷积神经网络跟踪空中目标时存在的跟踪漂移问题，提出了一种基于深度学习的空中目标跟踪方法。

本发明是采用如下的技术方案实现的：一种基于深度学习的空中目标跟踪方法，包括以下步骤：

1.构建多域卷积神经网络(MDNet)

网络包含五层隐藏层和一层二分类层，五层隐藏层分别是conv1、 conv2、conv3、fc4和fc5，其中，conv1、conv2、conv3为卷积层，对应VGG-M网络的结构自适应提取特征，fc4、fc5为全连接层，将特征图表示转换为一维向量并对其进行特征组合，二分类层为fc6，对目标和背景进行分类。

2.训练多域卷积神经网络中bounding-box回归模型

(1)标定第一帧图像目标位置

标定第一帧图像目标位置为x₁、y₁为目标位置坐标值，s_w、s_h为目标矩形框的宽和高；

(2)选择样本

MDNet以为中心采样生成W个回归样本，每个回归样本与目标实际位置重叠率的计算方法如下：

式中，R_t为输出跟踪框区域，R_g为实际目标区域，area表示R_t和 R_g的运算结果面积，N为视频序列帧数；

设置重叠率的阈值为L，大于等于L的样本为正样本，小于L的样本为负样本，然后从正样本中随机选取Q个样本输入网络训练bounding-box回归模型；

(3)微调网络

提取第一帧图像的正负样本经conv3得到特征图表示，将其中重叠率为[L-0.1,L)的负样本的特征图作为难例样本与正样本一同输入 fc4实现网络微调。

3.自回归模型(AR模型)训练与预测

(1)训练AR模型

AR模型表示为：

式中，{z_t|t＝1,2,…,T}是一个时间序列的目标位置的观测值，z为 x或y，T为时间序列的长度，z_t-1,z_t-2,…,z_t-p为t时刻前1到p时刻的观测值，ε_t为预测误差，p为模型的阶数，为模型的参数；

p和的确定方法如下：

1)利用最小信息准则函数AIC(p)计算p，p＝{1,2,…,p_max}，其中p_max为模型阶数的上界，当AIC(p)最小时对应的p即为式(2)最终的p值， AIC(p)的确定方法如下：

式中，是用最小二乘法对式(2)拟合的残差方差估计，其计算方法为：

式中，为误差方差；

2)根据最小二乘法：β＝(Z^TZ)^-1Z^TY (5)

计算出不同T值对应的参数矩阵β，当残差方差估计为最小值时，对应的β即为最佳参数式中Z为T时刻前的观测值矩阵， Y为T+1时刻预测值的矩阵。

(2)预测目标位置

将第n帧的前p帧目标位置的x、y坐标值分别代入训练好的AR 模型，即为预测到第n帧目标的位置。

4.网络测试

MDNet以预测到的第n帧目标位置为中心采样，采用多维高斯分布采样M个候选样本，并按照以下方式选择置信度最高的样本：

式中，E^*为置信度最高的样本，Eⁱ为当前候选样本；

将E^*输入至bounding-box回归模型进行调整使E^*的区域和目标区域更接近，最终确定目标位置。

上述的基于深度学习的空中目标跟踪方法，目标矩形框宽和高的取值通常在10-20之间，AR模型的阶数取值为4，时间序列的长度为16。

基于MDNet跟踪目标的优势在于：一是自适应提取目标特征，通过训练各种场景的视频序列，提高了网络的泛化能力；二是通过训练海量数据，得到目标通用的特征表达，有效区分了目标和背景，但该方法的缺点是对目标位置不敏感，不利于能区分伪目标，故而存在伪目标时跟踪精度难以保证；AR模型是一种常用的时间序列预测模型，较适用于具有自相关且基于前期大量数据的视频序列跟踪，该模型可充分利用全部历史数据，以保证预测精度和可连续性。因此本发明通过AR模型对MDNet提取到的目标运动信息进行目标运动轨迹估计，进而预测目标位置，可以综合二者的优势，解决跟踪过程中伪目标对目标干扰造成的跟踪漂移问题，极大提高跟踪精确度。

附图说明

图1为本发明的流程图。

图2 MDNet的网络结构图。

图3为本发明的部分目标跟踪图像，图中1为目标，其他均为伪目标。

具体实施方式

基于深度学习的空中目标跟踪方法，包括以下步骤：

1.构建多域卷积神经网络(MDNet)

MDNet输入107×107像素的样本图像，包含的五层隐藏层分别是conv1、conv2、conv3、fc4和fc5，还包含一个fc6，其中，conv1-3 为卷积层，fc4、fc5为全连接层；全连接层采用relu激活函数和dropout 防止过拟合；fc6层为二分类层有K个分支，每个分支输出一个二维向量，均利用softmax函数对目标和背景进行分类。

2.训练多域卷积神经网络中bounding-box回归模型

(1)标定第一帧目标位置

标定第一帧目标位置为x₁、y₁为目标位置坐标值，s_w、s_h为目标矩形框的宽和高，取值通常在10-20之间；

(2)选择样本

MDNet以为中心采样生成10000个回归样本，每个回归样本与目标实际位置重叠率的计算方法如下：

设重叠率的阈值为L＝0.60，大于等于0.60的样本为正样本，小于0.60的样本为负样本，然后从正样本中随机选取1000个样本输入网络训练bounding-box回归模型；

(3)微调网络

提取第一帧图像的正负样本经conv3得到特征图表示，将重叠率为[0.50,0.60)的负样本特征图作为难例样本与正样本一同输入fc4实现网络微调。

3.AR模型训练与预测

(1)训练AR模型

AR模型表示为：

p和的确定方法如下：

式中，为误差方差；

2)根据最小二乘法：β＝(Z^TZ)^-1Z^TY (5)

根据式(3)计算得在p＝4时AIC(p)＝min，则确定模型为AR(4)；根据式(4)、(5)得T＝16时最小，确定了模型参数。

(2)预测目标位置

将第n帧(n≥17)的前4帧目标位置的x、y坐标值分别代入训练好的AR模型，预测第n帧目标的位置为(x_n′,y_n′)。

4.网络测试

MDNet以(x_n′,y_n′)为中心采样，采用多维高斯分布采样 M(M＝256)个候选样本并按照以下方式选择置信度最高的样本：

式中，E^*为置信度最高的样本，Eⁱ为当前候选样本；

将E^*输入至bounding-box回归模型进行调整使E^*的区域更接近实际目标区域，最终确定目标位置。

Claims

1.基于深度学习的空中目标跟踪方法，其特征在于包括以下步骤：

(1)构建多域卷积神经网络

多域卷积神经网络包含五层隐藏层和一层二分类层，五层隐藏层分别是conv1、conv2、conv3、fc4和fc5，其中，conv1、conv2、conv3为卷积层，fc4、fc5为全连接层，二分类层为fc6，对目标和背景进行分类；

(2)训练多域卷积神经网络中bounding-box回归模型

1)标定第一帧图像目标位置

2)选择样本

多域卷积神经网络以为中心采样生成W个回归样本，每个回归样本与目标实际位置重叠率的计算方法如下：式中，R_t为输出跟踪框区域，R_g为实际目标区域，area表示R_t和R_g的运算结果面积，N为视频序列帧数；

设重叠率的阈值为L，大于等于L的样本为正样本，小于L的样本为负样本，然后从正样本中随机选取Q个样本输入网络训练bounding-box回归模型；

3)微调网络

提取第一帧图像的正负样本经conv3得到特征图表示，将其中重叠率为[L-0.1,L)的负样本的特征图作为难例样本与正样本一同输入fc4实现网络微调；

(3)自回归模型训练与预测

1)训练自回归模型

自回归模型表示为：式中，{z_t|t＝1,2,…,T}是一个时间序列的目标位置的观测值，z为x或y，T为时间序列的长度，z_t-1,z_t-2,…,z_t-p为t时刻前1到p时刻的观测值，ε_t为预测误差，p为模型的阶数，为模型的参数；

其中p和的确定方法如下：

①利用最小信息准则函数AIC(p)计算p，p＝{1,2,…,p_max}，其中p_max为模型阶数的上界，当AIC(p)最小时对应的p即为最终的p值，AIC(p)的确定方法如下：式中，是用最小二乘法对自回归模型拟合的残差方差估计，其计算方法为：式中，为误差方差；

②根据最小二乘法：β＝(Z^TZ)^-1Z^TY计算出不同T值对应的参数矩阵β，当残差方差估计为最小值时，对应的β即为最佳参数式中Z为T时刻前的观测值矩阵，Y为T+1时刻预测值的矩阵；

2)预测目标位置

将第n帧的前p帧目标位置的x、y坐标值分别代入训练好的自回归模型，即为预测到第n帧目标的位置；

(4)网络测试

多域卷积神经网络以预测到的第n帧目标位置为中心采样，采用多维高斯分布采样M个候选样本，并按照以下方式选择置信度最高的样本：式中，E^*为置信度最高的样本，Eⁱ为当前候选样本；将E^*输入至bounding-box回归模型进行调整使E^*的区域和目标区域更接近，最终确定目标位置。

2.根据权利要求1所述的基于深度学习的空中目标跟踪方法，其特征在于目标矩形框宽和高的取值通常在10-20之间，AR模型的阶数取值为4，时间序列的长度为16。