CN111428566B

CN111428566B - 一种形变目标跟踪系统及方法

Info

Publication number: CN111428566B
Application number: CN202010118377.2A
Authority: CN
Inventors: 谢英红; 韩晓微; 唐璐; 冯云; 涂斌斌
Original assignee: Shenyang University
Current assignee: Shenyang University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-09-01
Anticipated expiration: 2040-02-26
Also published as: CN111428566A

Abstract

本发明提供一种形变目标跟踪系统及方法，涉及计算机视觉技术领域。本申请通过读入当前跟踪帧图像，以及上一帧跟踪到的目标框及仿射参数，若当前图像是第一帧图像，初始化中心坐标和仿射参数；根据所确定的上一帧目标框及仿射参数和目标框位置，在当前帧画出相同位置相同形状的目标框并产生多个建议框；将建议框分别输入预训练好的卷积神经元网络中，分别获取该图像中目标框的候选特征图；将候选特征图进行多尺度池化操作，获得图像的多个感兴趣区域；将多个感兴趣区域的特征进行全链接操作，回归方法采用仿射回归，从而获得的目标对象的多个跟踪仿射框；以及对多个跟踪仿射框进行非极大值抑制，得到当前帧的目标对象的跟踪结果。

Description

一种形变目标跟踪系统及方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种形变目标跟踪系统及方法。

背景技术

视觉目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控，人机交互，无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步，特别是最近两年利用深度学习的目标跟踪方法取得了令人满意的效果，使目标跟踪技术获得了突破性的进展。

视觉跟踪是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，如位置、速度、加速度和运动轨迹等，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务。

现有技术中给出了基于区域的跟踪算法、基于特征的跟踪方法、基于轮廓的跟踪方法、基于模型的跟踪方法以及基于检测的跟踪算法。进来随着人工智能的迅猛发展，也有人提出将神经网络技术应用到跟踪算法中，然而，目前上述的或其它流行的深度学习网络，针对形变目标的准确定位没有特殊的解决方案。

发明内容

针对现有技术的不足，本发明提供一种形变目标跟踪系统及方法。通过将仿射变换应用到深度学习网络中，获得形变目标的准确跟踪。

为解决上述技术问题，本发明所采取的技术方案是：

一方面，本发明提供一种形变目标跟踪系统，其特征在于：包括存储器和处理器；

所述存储器用来存储有计算机可执行的指令；

所述处理器用来执行所述可执行指令，通过读入当前跟踪帧图像，以及上一帧跟踪到的目标框及仿射参数，若当前图像是第一帧图像，初始化中心坐标和仿射参数；根据所确定的上一帧目标框及仿射参数和目标框位置，在当前帧画出相同位置相同形状的目标框并产生多个建议框；将建议框分别输入预训练好的卷积神经元网络中，分别获取该图像中目标框的候选特征图；将候选特征图进行多尺度池化操作，获得图像的多个感兴趣区域；将多个感兴趣区域的特征进行全链接操作，回归方法采用仿射回归，获得的目标对象的多个跟踪仿射框；以及对多个跟踪仿射框进行非极大值抑制，得到当前帧的目标对象的跟踪结果。

另一方面，本发明还提供一种形变目标跟踪方法，采用上述的一种形变目标跟踪系统实现，该方法包括以下步骤：

步骤1：手动初始化第一帧图像待跟踪目标中心坐标和仿射参数，获取当前帧的图像以及上一帧图像中目标的目标框以及仿射参数；

步骤2：根据上一帧图像中确定的目标框，在当前帧图像中画出包括待跟踪目标的目标框；在当前帧图像的对应位置上画出对应的边界框，使得当前帧图像中包括所述目标对象的初始边界框与所述上一帧图像中跟踪到的目标框的边界框形状和坐标相同；

步骤3：根据上一帧图像中确定的仿射参数和目标框位置，生成多个建议框；

步骤4：调整建议框的大小，将经过调整的多个建议框分别输入预训练好的卷积神经元网络中，分别获取所述当前帧图像中的目标框的候选特征图；

步骤4.1：将所述多个建议框调整为相同的大小；

步骤4.2：将经过调整的多个建议框分别输入到预训练好的VGG-16网络，获取所述当前帧图像中的目标框的多个所述候选特征图。

步骤5：将所述的候选特征图进行多尺度池化操作，通过不同大小的多个卷积核将所述多个目标候选区域的特征进行池化操作，获得针对所述目标对象的多个感兴趣区域。

所述多个不同大小的卷积核包括三个卷积核；

步骤6：基于所述多个感兴趣区域得到所述当前帧的所述目标对象的跟踪结果。

步骤6.1：将所述多个感兴趣区域的特征进行全链接操作，以区分所述目标对象和背景，得到类别为所述目标对象的所有仿射框；

步骤6.2：对所述目标对象的多个跟踪仿射框采用仿射回归处理，获得所述目标对象的多个跟踪仿射框；

步骤6.2.1：对所述目标对象的多个跟踪仿射框进行类别回归处理获得第一回归跟踪仿射框；

步骤6.2.2：对所述目标对象的多个跟踪仿射框进行矩形边框回归处理获得第二回归跟踪仿射框；

步骤6.2.3：对所述目标对象的多个跟踪仿射框进行仿射参数回归处理获得第三回归跟踪仿射框。

步骤6.3：分别对所述第一回归跟踪仿射框、所述第二回归跟踪仿射框和所述第三回归跟踪仿射框的边界框上进行非极大值抑制处理，得到所述当前帧的根据所述目标对象的跟踪结果。

采用上述技术方案所产生的有益效果在于：

(1)由仿射变换采样获得目标位置的候选区域，能够在卷积神经元网络提取特征之前，较好的估计出目标的有效范围，提高计算效率。

(2)由卷积神经元网络最顶层的输出作为目标的语义特征，与由仿射变换描述的目标空间特征相结合，形成优势互补。加强跟踪的可靠性。

(3)多任务仿射回归函数的设计，能够在回归矩形边界框的同时，对仿射参数回归，优化仿射边界框。

(4)不同尺寸的采样核，有助于描述目标的形变。

附图说明

图1为本发明实施例的使用计算机架构实现时的系统框图。

图2为本发明实施例的的形变目标跟踪方法的流程图。

图3为本发明实施例的流程示意性框图。

图4为本发明实施例的使用的仿射变换采样流程图。

图5为本发明实施例的的水平NMS和仿射变换NMS效果对比图。

图6为本发明实施例的的VGG-16的网络结构。

图7为本发明实施例的跟踪结果图。

图8 为本发明实施例的的重叠度计算示意图。

具体实施方式

下面结合附图对本发明具体实施方式加以详细的说明。

一方面，本发明提供一种形变目标跟踪系统，包括包括存储器和处理器；

所述存储器用来存储有计算机可执行的指令；

下面参考图1，其示出了适于用来实现本公开的实施例的电子系统600的结构示意图。图1示出的电子系统仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图1所示，电子系统600可以包括处理装置（例如中央处理器、图形处理器等）601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储装置608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子系统600与其他设备进行无线或有线通信以交换数据。虽然图1示出了具有各种装置的电子系统600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图1中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子系统（在本文中还称为“形变目标跟踪系统”）中所包含的；也可以是单独存在，而未装配入该电子系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子系统：1）获取当前帧的图像、上一帧图像中包括所述目标的目标框、以及仿射参数，其中，对于第一帧图像，手动初始化待跟踪目标中心坐标和仿射参数；2）根据在上一帧图像中确定的目标框，在当前帧图像中画出包括所述对象的目标框；3）根据在所述上一帧图像的中确定的仿射参数和目标框位置，生成多个建议框；4）将所述多个建议框调分别输入预训练好的卷积神经元网络中，分别获取所述当前帧图像中的目标框的候选特征图；5）将所述的候选特征图进行多尺度池化操作，获得所述当前帧图像的多个感兴趣区域；6）基于所述多个感兴趣区域得到所述当前帧的所述目标对象的跟踪结果。

另一方面，本发明还提供一种形变目标跟踪方法，如图2所示，采用上述的一种形变目标跟踪系统实现，该方法包括以下步骤：

本实施例中，设当前为第t帧，读入当前跟踪帧图像，以及上一帧跟踪到的目标框，及仿射参数。如果当前图像是第一帧图像，手动初始化目标框和仿射参数S _t= [r ₁,r ₂,r ₃,r ₄,r ₅,r ₆]^T，如图3中标号301所示。

本实施例中，根据第t-1帧图像的跟踪到的目标边界框的位置，在第t帧图像对应位置上画出边界框。也就是令第t帧的初始边界框与第t-1帧跟踪得到的边界框形状和坐标完全相同。

本实施例中，根据上一帧图像边界框对应的仿射变换参数S _t-1，产生M个仿射变换建议框。该M个建议框是目标可能存在的所有候选位置。如图4所示，标号401为第t-1帧跟踪到的目标框。标号402所示为t-1帧跟踪到的仿射变换矩阵。根据t-1帧的仿射变换矩阵，产生M个仿射采样矩阵，如标号403所示。然后，在t帧图像上，画出得到的采样矩阵对应的边界框，如标号404所示。

由于仿射变换矩阵是一个正定对称流形,它是一个李群,不再服从欧几里得空间,因此两个相邻帧之间的几何变化可以看作是仿射矩阵在Riemann流形上的对应点的运动。在此方法中,利用流形上的点的切线向量来描述这种关系。在黎曼流形和切向空间中分别建立了目标变形模型，以生成M个仿射变换建议框:

S _t=S _t-1exp( v _t-1) (4)

v _t=av _t-1+μ _t-1 (5)

其中，S _t= [r ₁,r ₂,r ₃,r ₄,r ₅,r ₆]^T为目标几何变形的仿射变换参数；r ₁,r ₂,r ₃,r ₄,r ₅,r ₆是仿射流形结构参数，t为图像帧数，t等于1，2……M，v _t表示在切线空间上从S _t-1点到S _t点的速度矢量，用于描述目标的运动，即流形上从S _t点开始的切线矢量。假设v _t服从高斯分布，μ _t-1是高斯白噪声，a是自回归系数。

步骤4：调整建议框的大小，将经过调整的M个建议框分别输入预训练好的卷积神经元网络中，分别获取所述当前帧图像中的目标框的候选特征图；

步骤4.1：将所述M个建议框调整为相同的大小,如图4标号404所示；

所述多个不同大小的卷积核包括三个卷积核；

考虑到目标的变形，在池化层中设计多个不同大小的卷积核，本实施例中设计三个卷积核，分别为：7×7，5×9和9×5。例如图3中标号为303所示。多个不同的池化核可以初略描述目标的形变。例如：7×7，5×9可以描述不同摄像头下站立的人，9×5可以描述人的弯腰等动作。当然也可以根据不同应用场景设计不同大小的池化核。

将上述池化的结果，即多个感兴趣区域（ROI）的特征进行全链接操作。分类和回归。在这里，全链接操作是将多个ROI特征依次串联起来，如图3中标号为304所示。

对上述全链接操作和回归后的结果，即得到的多个仿射边界框进行非极大值抑制，如图3中标号为306所述，通过计算两个仿射框所圈定区域的重叠度（IoU）来表示两个仿射框的相似程度，将得到的多个仿射边界框所标定的区域，依次同上一帧所标定的跟踪框的区域进行计较，计算重叠度。得到具有最大重叠度的区域，即为跟踪到的当前帧目标区域。对应的仿射边界框为跟踪到的边界框。

最后，确定t+1的个数是否小于视频总帧数时，如果是回到步骤2，进行第t+1帧图像的跟踪。直到所有视频的帧跟踪完毕，算法结束。部分跟踪结果边框如图7中701，702，703，704箭头所指示黑色边框所示。

重叠度（IoU）的计算如图8所示。设四边形ABCD表示上一帧跟踪到的目标仿射边界框。四边形DEFG表示待比较的仿射边界框。两者的重叠区域为多边形AECGH。设△表示面积，后接图形名称，表示对应图形的面积。例如：△AECGH表示多边形AECGH的面积。则△AECGH=△AEC+△ACG+△AGH.

四边形ABCD与四边形DEFG的重叠度IoU 定义为，即两者重叠面积占据两种总面积减去重叠面积的比例。

通过执行NMS后得到t帧图像（当前帧图像）的跟踪结果，即其对应的仿射参数和边框，例如图3中标号为307所示。

首先，计算损失和回归，优化仿射变换参数，得到t帧图像的可能跟踪结果，如图3中标号为305所示。其中，损失函数设计为：

（1）

其中，α₁和α₂为学习率。p为类别tc的对数损失，公式如（2）所示。

L _c（p,tc）=-logp _tc （2）

i表示正在计算损失的回归框的序号;

tc表示是类别标签，例如：tc=1表示目标，tc=0表示背景；

x，y，w，h和其它变量组合使用，分别表示横坐标/纵坐标/宽/高。

参数 v _i=（v _x， v _y， v _w， v _h）是真实矩形边界框元组，包括中心点横坐标、纵坐标、宽和高；是预测到的目标框元组，包括中心点横坐标、纵坐标、宽和高；

u _i=（r1,r2,r3,r4,r5,r6）为真实目标区域的仿射参数元组；

为预测到目标区域的仿射参数元组；

（r1，r2，r3，r4，r5，r6）为真实目标区域的仿射变换固定结构的六个分量的值；

（r1^*，r2^*，r3^*，r4^*，r5^*，r6^*）为预测到目标区域的仿射变换固定结构的六个分量的值；

表示仿射边界框参数损失函数；

表示矩形边界框参数损失函数；

令（w，w*）表示或者 , 定义为:

（3）

（4）

其中x为实数。

本文采用仿射变换表示目标几何变形。第t帧的仿射变换参数记作S _t，其结构为：S _t = [r ₁,r ₂,r ₃,r ₄,r ₅,r ₆]^T。对应的仿射变换矩阵具有李群结构，ga（2）是对应于仿射李群GA（2）的李代数，矩阵G _j（）是GA（2）的生成元以及矩阵ga（2）的基。对于矩阵GA（2）的生成元为：

(5)

对于李群矩阵，黎曼距离定义为矩阵对数运算:

(6)

其中X和Y是李群矩阵的元素，给出了N的对称正定矩阵的内均值定义：

(7)

其中，q为常数；

对上述多个跟踪仿射框进行非极大值抑制，得到第t帧图像的跟踪结果。通过回归可能得到多个不同的目标区域，为了正确的得到一个精确度最高的检测算法，本申请采用仿射变换非极大值抑制方法来筛选出最后的跟踪结果。另外，上述损失函数的设计，将目标仿射形变考虑进去，提高了预测目标位置的准确性。

当前的对象检测方法，非极大值抑制(NMS)被广泛地用于后处理检测候选。在估计轴对齐边界框和倾斜边界框的同时，可以在轴对齐的边界框上执行正常的NMS，也可以在仿射变换边界框上执行倾斜NMS。在仿射变换非极大值抑制中，计算两个仿射边界框之间的IoU。算法效果如图5所示。在图5中，编号为501 的各个边框为非极大值抑制之前的候选跟踪框，编号为502的边框为进行正常的NMS抑制后得到的跟踪框，编号为503的边框为本申请进行仿射变换非极大值抑制得到的跟踪框。可以看出本申请得到的跟踪框更为准确。

在实施例中，综合考虑系统的准确性与运行效率，采用经典的VGG-16网络结构来实现本申请的各个实施方式。如图6所示为示例性的VGG-16网络结构。如图6所示，该网络结构包括 13个卷积层（201）和3个全连接层（203）。具体地，如图6所示，首先用3×3、步幅为1的过滤器构建卷积层，假设网络输入大小为m×n×3，为了保证卷积之后的特征矩阵的前两维与输入矩阵的前两维维数相同即：m×n。即在输入矩阵外加一圈0。将输入矩阵的维数变为(m+2)×(n+2), 再3×3卷积。这样卷积之后的特征矩阵的前两维仍为：m×n。然后用一个2×2，步幅为2的过滤器构建最大池化层（202）。接着再用256个相同的过滤器进行三次卷积操作，然后再池化，然后再卷积三次，再池化。此前所用所有激活函数都使用relu。如此进行几轮操作后，将最后得到的7×7×512的特征图进行全连接操作（203），得到4096个单元，然后进行softmax激活（204），输出从1000个对象中识别的结果。虽然在这里给出一个具体的VGG-16网络结构，但是本领域技术人员应该理解，在未背离本申请教导的情况下还可以采用其它的网络架构。

再构架上述网络后，通过使用ImageNet数据集对其进行训练。该ImageNet数据集分为训练集和测试集。该数据集对应例如1000个类别。每个数据有对应的标签向量，每个标签向量对应一个不同的类别。本申请不关心输入图像的具体分类，只是应用该数据集训练VGG-16网络的权重。具体地，将上述ImageNet训练集调整成224×224×3大小，然后输入VGG-16网络以对该网络进行训练，得到网络各层或各单元的权重参数信息。然后，向训练得到的VGG-16网络结构中输入预先确定的测试数据集以及对应类别的标签向量。测试数据集的大小可例如同样为224×224×3。通过向VGG-16网络输入上述测试数据集以及对应类别的标签向量，可对VGG-16网络的输出结果进行检测，所检测的结果与标准数据进行比对，以根据比对的误差对VGG-16网络的参数（权重）进行调整。重复上面步骤，直到得到测试准确率达到预定的标准，例如准确率为98%以上。

本申请中，利用仿射变换预测表示目标的形变信息，可以标定非长方体的目标区域，可以使得跟踪结果更准确。利用仿射变换获得的多个候选区域边界框，在输入到CNN网络之前，能够更有效的标定目标的可能有效范围。CNN的最高层输出的特征作为语义模型，利用仿射变换结果作为空间模型，两者形成优势互补。因为最高层的特征包含较多的语义信息，而较少的空间信息。另外，包括仿射变换参数回归的多任务损失函数，优化了网络性能。多个不同尺度的RoI池化核可以更好的描述目标可能的变形形状。仿射变换极大值抑制保证了结果跟踪框具有最大的IoU值。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种形变目标跟踪系统，其特征在于：包括存储器和处理器；

所述存储器用来存储有计算机可执行的指令；

所述处理器用来执行所述可执行指令，通过读入当前跟踪帧图像，以及上一帧跟踪到的目标框及仿射参数，若当前图像是第一帧图像，初始化中心坐标和仿射参数；根据所确定的上一帧目标框及仿射参数和目标框位置，在当前帧画出相同位置相同形状的目标框并产生多个建议框；将建议框分别输入预训练好的卷积神经元网络中，分别获取该图像中目标框的候选特征图；将候选特征图进行多尺度池化操作，获得图像的多个感兴趣区域；将多个感兴趣区域的特征进行全链接操作，回归方法采用仿射回归，获得的目标对象的多个跟踪仿射框；以及对多个跟踪仿射框进行非极大值抑制，得到当前帧的目标对象的跟踪结果；

所述一种形变目标跟踪系统，用于实现一种形变目标跟踪方法，包括以下步骤：

步骤1：获取当前帧的图像、上一帧图像中包括所述目标的目标框、以及仿射参数，其中，对于第一帧图像，手动初始化待跟踪目标中心坐标和仿射参数；

步骤2：根据在上一帧图像中确定的目标框，在当前帧图像中画出包括所述对象的目标框；在所述当前帧图像的对应位置上画出对应的边界框，以使得所述当前帧图像中包括所述目标对象的初始边界框与所述上一帧图像中跟踪到的目标框的边界框形状和坐标相同；

步骤3：根据所述上一帧图像中确定的仿射参数和目标框位置，生成多个建议框；

步骤4：调整所述多个建议框的大小；将经过调整的多个建议框分别输入预训练好的卷积神经元网络中，分别获取所述当前帧图像中的目标框的候选特征图；

步骤4.1：调整所述多个建议框为相同的大小；

步骤4.2：将经过调整的多个建议框分别输入到预训练好的VGG-16网络，获取所述当前帧图像中的目标框的多个所述候选特征图；

步骤5：将所述的候选特征图进行多尺度池化操作，通过不同大小的多个卷积核将所述多个目标候选区域的特征进行池化操作，获得针对所述目标对象的多个感兴趣区域；

所述多个不同大小的卷积核包括三个卷积核；

步骤6：基于所述多个感兴趣区域得到所述当前帧的所述目标对象的跟踪结果；

步骤6.2.3：对所述目标对象的多个跟踪仿射框进行仿射参数回归处理获得第三回归跟踪仿射框；