CN109492524A

CN109492524A - 用于视觉跟踪的内结构关联性网络

Info

Publication number: CN109492524A
Application number: CN201811099119.3A
Authority: CN
Inventors: 孙彦景; 石韫开; 云霄; 董锴文; 黄翰; 侯晓峰; 张徵
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-19
Anticipated expiration: 2038-09-20
Also published as: CN109492524B

Abstract

本发明公开一种用于视觉跟踪的内结构关联性网络，可在保障跟踪精度和稳定性的同时，实现实时跟踪，其包括：内结构特征获取单元，内结构特征获取单元包括由内结构网络与卷积神经网络组成的互联网络，互联网络用于获取视频序列中当前搜索图像与目标图像的内结构特征，其中，目标图像包括当前搜索图像的前一帧图像和第一帧图像；关联性系数组合单元，用于根据内结构特征分别计算当前搜索图像与各个目标图像之间的关联性分数，并根据在当前搜索图像的前一帧图像作为搜索图像时计算得到的系数对当前搜索图像与各个目标图像之间的关联性分数进行系数占比求和，以便根据求和结果实现对物体位置的跟踪。

Description

用于视觉跟踪的内结构关联性网络

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种用于视觉跟踪的内结构关联性网络。

背景技术

视觉跟踪是指在连续帧之间估计目标运动的过程，它涉及到目标的活动分析、分类和识别等多个任务，在智能监控，视频会议，人机交互，交通控制，导航和医疗等领域得到了广泛的应用。然而视觉跟踪仍面临着诸多挑战，如目标变形，光照变化，目标遮挡或消失，目标快速运动和复杂背景等。

判别式模型则将跟踪问题转化为二分类问题，通过构建二进制分类器来表示目标与其背景之间的边界，能够最大化区分目标和杂乱的背景。如多示例学习、基于核结构化输出的目标跟踪、跟踪-学习-检测算法和长时跟踪算法等。基于深度学习的跟踪方法也属于判别式模型。陈等人提出了一种自适应决策跟踪器，处理简单帧时利用低级特征，处理复杂帧时使用深度特征，以提高跟踪速度而不损失准确性。李提出的算法在电脑高配置环境下能实现实时跟踪，但在一些遮挡和重叠的情况下仍需进一步提升精度。宋等人提出的算法利用对抗训练提升了跟踪精度。由于需要大量的标注数据进行训练，无法满足实时跟踪的要求，同时在线学习复杂度较高，基于深度学习的方法受到了一定限制。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种用于视觉跟踪的内结构关联性网络，能有效应对复杂的视频环境，在保障跟踪精度和稳定性的同时，实现实时性跟踪。

为达到上述目的，本发明提出了一种用于视觉跟踪的内结构关联性网络，包括：内结构特征获取单元，所述内结构特征获取单元包括由内结构网络与卷积神经网络组成的互联网络，所述互联网络用于获取视频序列中当前搜索图像与目标图像的内结构特征，其中，所述目标图像包括所述当前搜索图像的前一帧图像和第一帧图像；关联性系数组合单元，所述关联性系数组合单元用于根据内结构特征分别计算当前搜索图像与各个目标图像之间的关联性分数，并根据在当前搜索图像的前一帧图像作为搜索图像时计算得到的系数对当前搜索图像与各个目标图像之间的关联性分数进行系数占比求和，以便根据求和结果实现对物体位置的跟踪。

根据本发明实施例的用于视觉跟踪的内结构关联性网络，通过由内结构网络与卷积神经网络组成的互联网络获取视频序列中当前搜索图像与目标图像的内结构特征，并根据获取的内结构特征分别计算当前搜索图像与上一帧目标图像和第一帧目标图像之间的关联性分数，以及根据当前搜索图像与上一帧目标图像和第一帧目标图像之间的关联性分数进行系数占比求和，由此，算法能有效应对复杂的视频环境，在保障跟踪精度和稳定性的同时，实现实时性跟踪。

另外，根据本发明上述实施例提出的用于视觉跟踪的内结构关联性网络还可以具有如下附加的技术特征：

所述互联网络包括顺次连接的第一卷积层、内结构网络层、第二至第五卷积层。

在所述第一卷积层和所述第二卷积层之后还分别连接有第一池化层和第二池化层。

将所述视频序列中当前搜索图像与目标图像变换为有向循环图后输入所述互联网络，并通过变换后的网络获取所述内结构特征。

所述互联网络的输出为：

其中，U_m、W_m、V_m是每一个存在两个维度的方向图的相关系数，c是最终输出的偏差项，表示每一个存在两个维度的方向图v_i点的上一个点集合集合。

所述关联性分数根据以下公式计算：

其中，分别表示所述目标图像和所述当前搜索图像经过所述互联网络进行特征获取后的输出。

进行系数占比求和的结果为：

其中，分别表示所述当前搜索图像与前一帧图像之间的关联性分数和所述当前搜索图像与所述第一帧图像之间的关联性分数，为在所述当前搜索图像的前一帧图像作为搜索图像时计算得到的占比系数。

利用两方向三次插值算法对根据所述求和结果得到的分数图进行向上采样操作，从而定位被跟踪物体位置。

采用经典方法训练所述内结构关联性网络，对各个图像中的位置点进行正负样本的区分。

在将所述当前搜索图像与目标图像输入所述互联网络之前还对各个图像进行尺寸变换处理。

附图说明

图1为根据本发明一个实施例的用于视觉跟踪的内结构关联性网络的结构示意图；

图2为根据本发明一个实施例的图像变换示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面结合附图来描述本发明实施例的用于视觉跟踪的内结构关联性网络。

如图1所示，本发明实施例的用于视觉跟踪的内结构关联性网络，包括内结构特征获取单元和关联性系数组合单元。内结构特征获取单元包括由内结构网络与卷积神经网络组成的互联网络，互联网络用于获取视频序列中当前搜索图像与目标图像的内结构特征，其中，目标图像包括当前搜索图像的前一帧图像和第一帧图像；关联性系数组合单元用于根据内结构特征分别计算当前搜索图像与各个目标图像之间的关联性分数，并根据在当前搜索图像的前一帧图像作为搜索图像时计算得到的系数对当前搜索图像与各个目标图像之间的关联性分数进行系数占比求和，以便根据求和结果实现对物体位置的跟踪。

在本发明的一个具体实施例中，如图1所示，当前搜索图像的输入为红绿蓝三个通道的图像，目标图像当前搜索图像的前一帧图像和第一帧图像的输入为红绿蓝三个通道的图像。

互联网络包括顺次连接的第一卷积层、内结构网络层、第二至第五卷积层。进一步地，在第一卷积层和第二卷积层之后还分别连接有第一池化层和第二池化层。

针对卷积神经网络处理图像内部关联特征能力较弱的特性，本发明实施例在对图像进行多层卷积特征获取之后，还利用内结构网络对其自身对象内部进行构造，获取图像自身具备的内结构特征，并将其与卷积神经网络结合，从而找寻图像结构点之间的联系，减少相近物体的影响。网络主要针对于连续数据中的相互关系进行构造。一般的网络公式如下：对于一个时长为T的集合{x^(t)}，t＝1，2，...，T，s^(t)和o^(t)分别是中间层和最终层，U、V、W分别表示公式参数，b、c为函数系数，f、g是中间处理函数。由于初始层与中间层的关系具有一定的方向性，因此网络可以对顺序数据之间的相邻关系进行函数构造，如公式(1)所示：

s^(t)＝f(Ux^(t)+Ws^(t-1)+b)

o^(t)＝g(Vs^(t)+c) (1)

与顺序数据不同，视频库中的每一帧图像存在两个维度，两个维度的图像数据的内在构成被认为是一个不存在方向的图像，如图2中的(c)。由于两个维度不存在方向的图像构成为环状，一个维度的网络不能直接适用于两个维度不存在方向的图像之中。为了解决这个问题，如图2所示，本发明实施例中将视频库中当前搜索图像与目标图像转变为存在两个维度的方向图后输入互联网络，并通过转变后的网络获取内结构特征。

对于图2中的一个存在两个维度的方向图其中ν表示点组成，ε表示各连线组成，它包含了每一个点之间的存在方向的连线。本发明实施例的内结构网络正是基于此组成建立的。对于其正方向计算，它从最初点开始找寻每一个存在两个维度的方向图由于考虑图像存在方向，各个点与其存在联系的上一个点集合均有相关性。因此，对于每一个点v_i，计算中间层应同时包含点输入和点v_i的上一个点集合的中间层总和两部分。计算中间层和最终层公式如下式(2)：

其中，pre表示中点v_i的上一个点集合。

对于网络反方向计算，计算其中各个点的导数是必须的。即对于存在两个维度的方向图中的各个点，需按照逆向的顺序进行计算。点v_i处的导数值在计算时需要找到点v_i与其后面关联点之间的相关性，计算v_i后面关联点v_k中间层和最终层的公式如下式(3)：

其中，表示除v_i之外v_k的上一个点集合。

由公式(2)、(3)可以看出，v_i点逆向计算到中间层的梯度主要有两部分组成：v_i点中间层自身具有的梯度和v_i之后关联点组合{v_k}中间层产生的梯度计算点v_i的导数公式如下式(4)：

其中°是圈点乘，是衡量错误函数L相对于映射函数g的导数，是中间层对于映射函数f的导数，T表示矩阵变换。

使用公式(2)和(4)，网络可以在存在两个维度的方向图中进行正方向和反方向计算。如图2所示，可将不存在方向的图像转换为东南、西南、东北、西北四个方向的存在两个维度的方向图。G_m＝{G₁，G₂，G₃，G₄}表示不存在方向的图像，G₁，G₂，G₃，G₄表示不同的存在两个维度的方向图。针对各个G_m，可以使用网络分别计算其关于的中间层，所有中间层的来表示最终层。

由此，得到互联网络的输出为：

其中，U_m、W_m、V_m是每一个存在两个维度的方向图的相关系数，c是最终的偏差项，表示每一个存在两个维度的方向图v_i点的上一个点集合。

在v_i点反方向传播到输入x的梯度计算公式如下：

通过上述由内结构网络与卷积神经网络组成的互联网络，其对帧图像进行特征获取后再进行关联性计算，关联性分数可根据以下公式计算：

其中，分别表示目标图像和当前搜索图像经过互联网络运算后的输出。

通过计算函数将目标图像与搜索图像使用3维卷积实现关联性度量，如果两幅图像在对象上有关联性，则有高分，否则为低分。

在进行图像关联性获取时，由于视频跟踪的内结构性质，图像帧之间的关联可能会使最后的跟踪结果发生改变。同时，为了防止视频跟踪过程中被跟踪物体可能发生突然变化，或者是跟踪框出现移动的情况，需考虑被跟踪图像帧与视频第一帧图像之间的关系作为补充。因此，对于一个n帧的视频序列，不考虑视频第一帧，每一个搜索图像需分别与上一帧视频图像和第一帧图像进行关联性计算，之后进行系数占比求和处理，进行系数占比求和的结果为：

其中，分别代表当前搜索图像与前一帧图像之间的关联性分数和当前搜索图像与第一帧图像之间的关联性分数，为在当前搜索图像的前一帧图像作为搜索图像时计算得到的占比系数。由于当前搜索图像与上一帧目标图像和第一帧目标图像之间的关联性分数百分比与视频帧相关，所以利用进行系数占比处理，即根据当前帧计算两者的结果，为下一帧两者的比例作出判断。

对于网络训练，在本发明的实施例中可采用经典方法训练该内结构关联性网络，各个图像中的位置点对应相应的正负样本。图1中各个分数图的左上角为正样本，其为当前搜索图像中的被跟踪区域，剩下的为负样本。本发明实施例的衡量错误函数，如下式(9)：

其中，为分数图中各个点基准值，对于分数图综合的衡量错误函数，采用所有点的衡量错误平均值表示，是该点所对应的标志，+1，-1的选择方式如下式(10)：

其中，c为被跟踪物体区域中心，R表示被跟踪物体区域圆的直径1/2值。即在网络训练时，如果搜索图像中的点处于以c为中心，R为直径1/2的圆中，则值为+1，否则为-1。

在网络训练时，将当前搜索图像与目标图像输入互联网络之前还对各个图像进行尺寸变换。对当前搜索图像和目标图像包含的被跟踪物体位置进行尺寸变换处理方式如下，如果被跟踪物体位置尺寸为a和b，则对其边界各变换Δw，其中Δw＝(a+b)/4。公式如下式(11)：

s(a+2Δw)×s(b+2Δw)＝1 (11)

其中，新的被跟踪物体位置边界各变化(a+b)/2，s含义是在大小不变的前提下填充原图三通道中各通道均值像素。

因提高算法的跟踪速度，本发明实施例的内结构关联性网络只进行离线训练，没有进行在线跟踪训练，但是在在线跟踪的过程中，被跟踪视频帧与相邻帧、第一帧之间仍然具有很强的联系。因此，可使用与网络训练相同的方式将待搜索区域分别与相邻帧图像特征和第一帧图像特征关联性计算后进行系数占比组合。

总体而言，基于本发明实施例的内结构关联性网络进行视觉跟踪的算法包括：

输入：最初物体位置x₀；

输出：估计的物体位置x_t。

从视频第一帧到视频最后一帧：

1、//帧图像尺寸变换

使用上述公式(11)对第m帧搜索图像和第1、第m-1帧目标图像进行尺寸变换。

2、//获取内结构特征

通过由内结构网络与卷积神经网络组成的互联网络，即使用上述公式(5)，分别获取第m帧搜索图像和第1、第m-1帧目标图像的内结构特征。

3、//关联性计算

利用上述公式(7)计算第m帧待搜索特征图与第1、第m-1帧目标特征图的关联性分数

4、//关联性组合

利用公式(8)对采取系数占比计算，其中跟踪m-1帧时计算

5、//计算组合系数值

如果视频不是处于最后一帧：

利用公式(8)计算为m+1帧搜索图像关联性提供组合系数。

结束如果。

6、//预测物体位置

利用两方向三次插值算法对步骤4，即根据求和结果得到的分数图进行向上采样，从而定位被跟踪物体的位置x_t。

结束算法。

综上所述，根据本发明实施例的用于视觉跟踪的内结构关联性网络，通过由内结构网络与卷积神经网络组成的互联网络获取视频序列中当前搜索图像与目标图像的内结构特征，并根据获取的内结构特征分别计算当前搜索图像与上一帧目标图像和第一帧目标图像之间的关联性分数，以及根据占比系数对当前搜索图像与上一帧目标图像和第一帧目标图像之间的关联性分数进行系数占比求和，由此，能有效应对复杂的视频环境，在保障跟踪精度和稳定性的同时，实现实时性跟踪。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于视觉跟踪的内结构关联性网络，其特征在于，包括：

内结构特征获取单元，所述内结构特征获取单元包括由内结构网络与卷积神经网络组成的互联网络，所述互联网络用于获取视频序列中当前搜索图像与目标图像的内结构特征，其中，所述目标图像包括所述当前搜索图像的前一帧图像和第一帧图像；

关联性系数组合单元，所述关联性系数组合单元用于根据内结构特征分别计算当前搜索图像与各个目标图像之间的关联性分数，并根据在当前搜索图像的前一帧图像作为搜索图像时计算得到的系数对当前搜索图像与各个目标图像之间的关联性分数进行系数占比求和，以便根据求和结果实现对物体位置的跟踪。

2.根据权利要求1所述的用于视觉跟踪的内结构关联性网络，其特征在于，所述互联网络包括顺次连接的第一卷积层、内结构网络层、第二至第五卷积层。

3.根据权利要求2所述的用于视觉跟踪的内结构关联性网络，其特征在于，在所述第一卷积层和所述第二卷积层之后还分别连接有第一池化层和第二池化层。

4.根据权利要求3所述的用于视觉跟踪的内结构关联性网络，其特征在于，将所述视频序列中当前搜索图像与目标图像变换为存在两个维度的方向图后输入所述互联网络，并通过变换后的网络获取所述内结构特征。

5.根据权利要求4所述的用于视觉跟踪的内结构关联性网络，其特征在于，所述互联网络的输出为：

其中，U_m、W_m、V_m是每一个存在两个维度的方向图的相关系数，c是最终输出的偏差项，表示每一个存在两个维度的方向图v_i点的上一个点集合。

6.根据权利要求5所述的用于视觉跟踪的内结构关联性网络，其特征在于，所述关联性值根据以下公式计算：

7.根据权利要求6所述的用于视觉跟踪的内结构关联性网络，其特征在于，进行系数占比求和的结果为：

8.根据权利要求7所述的用于视觉跟踪的内结构关联性网络，其特征在于，利用两方向三次插值算法对根据所述求和结果得到的分数图进行向上采样操作，从而定位被跟踪物体位置。

9.根据权利要求8所述的用于视觉跟踪的内结构关联性网络，其特征在于，采用经典方法训练所述内结构关联性网络，对各个图像中的位置点进行正负样本的区分。

10.根据权利要求9所述的用于视觉跟踪的内结构关联性网络，其特征在于，在将所述当前搜索图像与目标图像输入所述互联网络之前还对各个图像进行尺寸变换处理。