CN110458867B

CN110458867B - 一种基于注意力循环网络的目标跟踪方法

Info

Publication number: CN110458867B
Application number: CN201910753716.1A
Authority: CN
Inventors: 马占宇; 宋泽宇; 司中威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2020-07-24
Anticipated expiration: 2039-08-15
Also published as: CN110458867A

Abstract

本发明一种基于注意力循环网络的目标跟踪方法，通过在目标跟踪框架中引入局部位置注意力机制以及外观注意力机制，设立三个深度模型，并采用循环卷积神经网络进行时序预测，在跟踪框架中加入不确定度评估机制等技术手段，大大提高了基于计算机算法的视觉目标跟踪的效率和准确度，具有较高的可靠性和可推广价值，相较于其他的时序预测方法，参数量少，速度快，准确度较高；在跟踪过程中使用了不确定度评估机制，能够保证跟踪结果的质量，并在质量下降时及时初始化跟踪器或停止跟踪，避免给出过多错误的结果，具有更高的可靠性。

Description

一种基于注意力循环网络的目标跟踪方法

技术领域

本发明涉及视觉目标跟踪算法技术领域，尤其是一种基于注意力循环网络的目标跟踪方法。

背景技术

目标跟踪是计算机视觉的重要问题之一，主要目的为跟踪视频画面中的多个目标，给出目标的运动轨迹；目标跟踪的典型场景为：对于连续的视频序列，人为给定一个或多个目标，在后续的视频帧中找到并区分标定的多个目标；

计算机视觉进行目标跟踪的算法模型主要分为生成模型与判别模型两种，其中：

①生成模型：学习数据的联合概率分布，通过求条件概率分布进行判断，能够学习数据生成的方式；

②判别模型：直接学习数据的条件概率分布进行判断；

对于目标跟踪而言，绝大多数的方法都为判别模型方法；判别模型在跟踪问题中可以具体为：已知跟踪模板，模型在视频帧中采样，判断采样图像与跟踪结构的相似程度，相似程度高的区域即可认作为跟踪目标；

计算机视觉中获取图像特征的常用模型通常采用卷积神经网络，该网络能够从原始图像中提取具有语义信息的特征向量；卷积神经网络具有层次结构，预先采用大量的数据训练得到模型参数，在提取特征向量时，原始图像以及与卷积神经网络的各层卷积核进行卷积运算，最终得到固定维度的特征向量；

现有技术中，存在一种基于孪生卷积网络的目标跟踪方法，例如公开号为：CN109829934A的发明专利，该方法确定跟踪模板后，将跟踪模板与视频帧分别输入到相同参数的卷积神经网络中，获取到两个不同尺寸的特征图；通过两个特征图之间的相似度比较，取相似度最大的区域作为跟踪目标预测区域；该方法虽然很好的解决了视觉目标跟踪计算难题，但仍存在如下不足：

缺点1：目标的时序特征为目标跟踪中的重要特征，目前绝大多数方法仅考虑目标的外观特征，且假设跟踪目标的外观特征不随时间变化，丢失了目标跟踪问题中的重要先验；

针对此缺点，本发明采用目标局部位置注意力机制与目标外观注意力机制，通过时序特征预测跟踪目标的位置及外观变化；

缺点2：部分引入时间信息的目标跟踪方法采用长短时记忆神经网络(LSTM)进行时序预测，参数量大，速度慢且不能预测图像信息；

针对此缺点，本发明采用循环卷积网络，通过卷积核进行时序预测，通过特征选择网络进行长时记忆选择，在能够进行时序预测的同时减少了参数，并能很好的处理图像时序信息；

缺点3：绝大多数目标跟踪方法没有跟踪结果评估机制，不能给出模型对预测结果的确信程度，很难在对可靠性要求较高的场合应用；

针对此缺点，本发明根据局部位置注意力向量及全局位置注意力向量的差异变化获取预测的不确定度，当不确定度低于阈值时重新初始化跟踪或放弃跟踪。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于注意力循环网络的目标跟踪方法，通过在目标跟踪框架中引入局部位置注意力机制以及外观注意力机制，并采用循环卷积神经网络进行时序预测，在跟踪框架中加入不确定度评估机制等技术手段，大大提高了基于计算机算法的视觉目标跟踪的效率和准确度，具有较高的可靠性和可推广价值。

一种基于注意力循环网络的目标跟踪方法，包括如下步骤：

步骤一、设立模型一：模型一为注意力孪生卷积网络，表示为f₁，用于获取全局注意力位置向量及目标外观特征向量；

进一步的，所述模型一的输入为跟踪模板bⁱ、跟踪图像B_t、目标外观特征注意力向量

输出全局位置注意力向量

以及目标外观特征向量

其中，所述跟踪模板bⁱ及跟踪图像B_t经过共享参数的第一卷积神经网络，得到目标外观特征向量

以及跟踪图像特征

进一步的，所述目标外观特征向量

与目标外观特征注意力向量

相乘得到跟踪模板特征；

通过跟踪模板特征与跟踪图像特征的相似度比较可以得到跟踪图像中模板相似度相应最大的位置，即全局位置注意力向量

步骤二、跟踪目标初始化：根据人为划定的跟踪目标进行初始化，获取目标局部位置注意力向量

目标外观特征向量

目标外观特征注意力向量

全局位置注意力向量

其中：上标i为目标编号，下标t为时间，跟踪目标初始化具体流程包括：

给出跟踪目标的初始化位置向量

其中，x,y为目标初始位置在x轴,y轴的坐标,w,h为目标矩形表示框的宽度及长度；

作为一种举例说明，所述t为时间，代表时间变量，T代表时间变量的取值；

从初始化跟踪图像B₀中按照位置向量截取跟踪模板bⁱ,初始化目标外观特征注意力向量

为全1矩阵，通过所述模型一获取初始化全局位置注意力向量

初始化目标外观特征向量

即：

作为一种举例说明，所述

是指模型一所拟合的函数形式；对于深度模型而言，深度模型本身可以视为函数，函数的具体形式由于深度模型的黑箱特性未知，深度模型的求解即函数的拟合采用大量数据监督的统计学习方法；在本发明中，此类公式只是为了方便理解模型的输入输出作用，并不是模型的解。

计算初始不确定度

计算目标局部位置注意力向量

与全局位置注意力向量

之间的交并比“IOU”，作为不确定度度量方式：

步骤三、设立模型二：模型二为局部位置注意力循环网络，通过共享参数的卷积核建立不同时刻跟踪目标局部位置向量的联系，预测下一时刻跟踪目标的局部位置；

作为一种举例说明，所述模型二进行了T次有效预测，预测T时刻目标局部位置的过程；依次输入初始化位置向量

至位置向量

即模型二在0至T-1时刻预测的局部位置向量；

每次输入的局部位置向量经过第二卷积神经网络处理后，得到下一时刻的位置预测；下一时刻的位置预测经过第一特征选择网络，丢弃不必要的长时信息，循环经过相同参数的第二卷积神经网络，共循环T-1次得到最终的局部位置预测结果；

步骤四、预测目标局部位置注意力向量

(设时间t＝T)；

根据T时刻前的T个有效目标局部位置注意力向量，根据所述模型二预测T时刻的目标局部位置注意力向量；

进一步的，T时刻前的目标局部位置注意力向量为

其中，t＝0，...，T-1，每一个目标局部位置注意力向量均包含四个位置坐标值，将所有目标局部位置注意力向量拼接，得到先验局部位置注意力向量

根据模型二，得到所述预测目标局部位置注意力向量

即：

步骤五、设立模型三：模型三为目标外观注意力循环网络，通过循环卷积预测每个时间步的外观注意力矩阵，表征跟踪目标外观特征随时间的变化；

进一步的，所述模型三进行了T次有效预测，预测T时刻目标外观特征的过程；模型三依次输入0至T-1时刻的目标外观特征注意力向量

至

每次输入的外观特征注意力向量经过第三卷积神经网络，得到并输出下一时刻的外观特征注意力向量，通过第二特征选择网络丢弃不必要的长时信息后，进入下一次循环；

卷积网络循环T次得到T时刻的外观特征注意力向量结果；

作为一种举例说明，所述模型三与模型二的主要区别为：向量的维度不同，导致神经网络的结构有差异；同时由于训练数据不同，模型三与模型二参数不同；

步骤六、预测目标外观特征注意力向量

(设时间t＝T)；

根据T时刻前的T个有效目标外观特征注意力向量，根据模型三预测T时刻的目标外观特征注意力向量，T时刻前的目标外观特征注意力向量为

t＝0，...，T-1，每一个目标外观特征注意力向量均为3维张量，表示图像的特征图；

将所有目标外观特征注意力向量第0维度拼接，得到先验外观特征注意力向量

根据模型三，得到目标外观特征注意力向量

即：

步骤七、预测目标全局位置注意力向量

(设时间t＝T)；

根据获取的目标外观特征注意力向量

以及T时刻的跟踪图像B_T,预测目标全局位置注意力向量

即：

步骤八、计算不确定度；

(设时间t＝T)；

若不确定度

大于阈值∈₁，将目标外观特征注意力向量

初始化为全1矩阵，通过所述模型一获取目标全局位置注意力向量

以及目标外观特征向量

同时令T＝0，重新初始化，失败计数器加1，若失败计数器大于阈值∈₂,则跟踪失败；

若不确定度

小于阈值∈₁，跟踪结果有效，失败计数器清零，循环执行步骤三至八。

有益效果：

1、本发明采用目标局部位置注意力机制与目标外观注意力机制，通过时序特征预测跟踪目标的位置及外观变化，对于线性运动的跟踪目标或外观随时间变化的跟踪目标有较好的效果；

2、本发明采用循环卷积神经网络进行预测，能够同时处理序列预测以及图像特征预测；相较于其他的时序预测方法，参数量少，速度快，准确度较高；

3、本发明在跟踪过程中使用了不确定度评估机制，能够保证跟踪结果的质量，并在质量下降时及时初始化跟踪器或停止跟踪，避免给出过多错误的结果，具有更高的可靠性。

附图说明

图1为本发明一种基于注意力循环网络的目标跟踪方法之注意力孪生卷积网络的原理结构图

图2为本发明一种基于注意力循环网络的目标跟踪方法之局部位置注意力循环网络的原理结构图

图3为本发明一种基于注意力循环网络的目标跟踪方法之目标外观注意力循环网络的原理结构图

具体实施方式

下面对本发明的技术方案进行具体阐述，需要指出的是，本发明的技术方案不限于实施例所述的实施方式，本领域的技术人员参考和借鉴本发明技术方案的内容，在本发明的基础上进行的改进和设计，应属于本发明的保护范围。

一种基于注意力循环网络的目标跟踪方法，包括如下步骤：

进一步的，所述模型一的输入为跟踪模板bⁱ101、跟踪图像B_t102、目标外观特征注意力向量

103，输出全局位置注意力向量

104以及目标外观特征向量

105；

其中，所述跟踪模板bⁱ101及跟踪图像B_t102经过共享参数的第一卷积神经网络107，得到目标外观特征向量

105以及跟踪图像特征

106；

进一步的，所述目标外观特征向量

105与目标外观特征注意力向量

103相乘得到跟踪模板特征；

104；

目标外观特征向量

105，目标外观特征注意力向量

103，目标全局位置注意力向量

104；

给出跟踪目标的初始化位置向量

为全1矩阵，通过所述模型一获取初始化全局位置注意力向量

初始化目标外观特征向量

即：

作为一种举例说明，所述

是指模型一所拟合的函数形式；对于深度模型而言，模型本身可以视为函数，函数的具体形式由于深度模型的黑箱特性未知，模型的求解即函数的拟合采用大量数据监督的统计学习方法；在本发明中，此类公式只是为了方便理解模型的输入输出作用，并不是模型的解。

计算初始不确定度

计算目标局部位置注意力向量

与全局位置注意力向量

之间的交并比“IOU”，作为不确定度度量方式：

至位置向量

201,即模型二在0至T-1时刻预测的局部位置向量；

每次输入的局部位置向量经过第二卷积神经网络处理后，得到下一时刻的位置预测；下一时刻的位置预测经过第一特征选择网络203，丢弃不必要的长时信息，循环经过相同参数的第二卷积神经网络204，共循环T-1次得到最终的局部位置预测结果；

步骤四、预测目标局部位置注意力向量

202；(设时间t＝T)；

进一步的，T时刻前的目标局部位置注意力向量为

202,其中，t＝0，...，T-1，每一个目标局部位置注意力向量均包含四个位置坐标值，将所有目标局部位置注意力向量拼接，得到先验局部位置注意力向量

根据模型二，得到所述预测目标局部位置注意力向量

202，即：

至

301，每次输入的外观特征注意力向量经过第三卷积神经网络302，得到并输出下一时刻的外观特征注意力向量，通过第二特征选择网络303丢弃不必要的长时信息后，进入下一次循环；

卷积网络循环T次得到T时刻的外观特征注意力向量结果；

步骤六、预测目标外观特征注意力向量

(设时间t＝T)；根据T时刻前的T个有效目标外观特征注意力向量，根据模型三预测T时刻的目标外观特征注意力向量，T时刻前的目标外观特征注意力向量为

根据模型三，得到目标外观特征注意力向量

即：

步骤七、预测目标全局位置注意力向量

(设时间t＝T)；

根据获取的目标外观特征注意力向量

以及T时刻的跟踪图像B_T,预测目标全局位置注意力向量

即：

步骤八、计算不确定度；

(设时间t＝T)；

若不确定度

大于阈值∈₁，将目标外观特征注意力向量

以及目标外观特征向量

若不确定度

作为一种举例说明，所述模型一、模型二与模型三均为深度模型；

本发明采用目标局部位置注意力机制与目标外观注意力机制，通过时序特征预测跟踪目标的位置及外观变化，对于线性运动的跟踪目标或外观随时间变化的跟踪目标有较好的效果；本发明采用循环卷积神经网络进行预测，能够同时处理序列预测以及图像特征预测；相较于其他的时序预测方法，参数量少，速度快，准确度较高；本发明在跟踪过程中使用了不确定度评估机制，能够保证跟踪结果的质量，并在质量下降时及时初始化跟踪器或停止跟踪，避免给出过多错误的结果，具有更高的可靠性。

以上所述的仅为本发明的优选实施例，所应理解的是，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限定本发明的保护范围，凡在本发明的思想和原则之内所做的任何修改、等同替换等等，均应包含在本发明的保护范围之内。