CN111612816B

CN111612816B - 运动目标跟踪的方法、装置、设备及计算机存储介质

Info

Publication number: CN111612816B
Application number: CN202010362011.XA
Authority: CN
Inventors: 唐志鸿; 张超溢; 彭力
Original assignee: Jiangsu Mobile Information System Integration Co ltd; China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: Jiangsu Mobile Information System Integration Co ltd; China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-10-31
Anticipated expiration: 2040-04-30
Also published as: CN111612816A

Abstract

本发明实施例提供了一种运动目标跟踪的方法、装置、设备及计算机存储介质，该方法包括：获取运动目标的第一图像；根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，并根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征，其中，卷积神经网络包括五层卷积层，第一特征为第二层卷积层输出的卷积特征，第二特征为第五层卷积层输出的卷积特征；提取第一图像的方向梯度直方图特征；根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型；根据多个子模型得到第一图像的跟踪结果。本发明能够利用包含五层卷积层的卷积神经网络剔除冗余通道，减少模型参数量和计算量，满足实时性要求。

Description

运动目标跟踪的方法、装置、设备及计算机存储介质

技术领域

本发明涉及视频监控技术领域，尤其涉及一种运动目标跟踪的方法、装置、设备及计算机存储介质。

背景技术

传统的视频运动目标跟踪方法主要包括目标特征提取和模型建立两大步骤。

随着深度学习的兴起，卷积神经网络(Convolutional Neural Networks，CNN)在进行目标特征提取时表现十分优异，而VGGNet作为卷积神经网络中的经典算法模型受到人们的青睐，因此，现有技术中的跟踪器通常使用VGGNet作为目标特征提取骨架，由于VGGNet在大规模的图像识别(ImageNet)数据集上进行了训练，因此利用VGGNet提取目标特征，相较于传统手工提取特征具备更强的语义信息，对目标的描述也更具鲁棒性。

然而，由于VGGNet过于庞大，其在第三、第四以及第五个特征层上都具有512个通道数，因此无论是模型大小还是计算量都过于庞大，导致跟踪器的处理速度非常缓慢，进行目标跟踪时的效率低下，无法满足实时性要求。

发明内容

本发明实施例提供了一种运动目标跟踪的方法、装置、设备及计算机存储介质，在进行目标特征提取时，能够利用包含五层卷积层的卷积神经网络剔除冗余通道，减少模型参数量和计算量，从而加快跟踪器的处理速度，满足实时性要求。

第一方面，提供了一种运动目标跟踪的方法，该方法包括：获取运动目标的第一图像；根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，并根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征，其中，卷积神经网络包括五层卷积层，第一特征为第二层卷积层输出的卷积特征，第二特征为第五层卷积层输出的卷积特征；提取第一图像的方向梯度直方图特征；根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型；根据多个子模型得到第一图像的跟踪结果，第一图像的跟踪结果包括第一图像的下一帧图像中运动目标的位置信息。

在第一方面的一些可实现方式中，多个子模型包括第一子模型、第二子模型和第三子模型，根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型，包括：对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型；对三个第一子模型分别进行两两结合，得到三个第二子模型；对三个第一子模型进行结合，得到一个第三子模型。

在第一方面的一些可实现方式中，根据多个子模型得到第一图像的跟踪结果，包括：根据三个第一子模型、三个第二子模型和一个第三子模型分别对下一帧图像中运动目标的位置进行跟踪，得到第一图像的跟踪结果。

在第一方面的一些可实现方式中，根据三个第一子模型、三个第二子模型和一个第三子模型建立集成模型；将每个第一图像的跟踪结果分别输入到集成模型进行计算，得到每个第一图像的跟踪结果的评估分数；将评估分数最高的第一图像的跟踪结果作为最终跟踪结果，最终跟踪结果包括下一帧图像中运动目标的最终位置信息。

在第一方面的一些可实现方式中，多个子模型共享第一图像的最终跟踪结果。

在第一方面的一些可实现方式中，当第一图像为第一帧图像时，根据第一图像和卷积神经网络，得到第一特征和第二特征，包括：第一帧图像包括运动目标的初始位置信息；根据初始位置信息建立第一矩形区域，第一矩形区域还包括运动目标的初始周边背景信息；将第一矩形区域输入到卷积神经网络，输出第一帧图像的第一特征和第二特征。

在第一方面的一些可实现方式中，在根据降维矩阵对第一图像的第二特征进行降维之前，还包括：对第一帧图像的第二特征进行主成分分析，得到降维矩阵。

在第一方面的一些可实现方式中，当第一图像不是第一帧图像时，根据第一图像和卷积神经网络，得到第一特征和第二特征，包括：第一图像包括上一帧图像的跟踪结果，上一帧图像的跟踪结果包括第一图像中运动目标的位置信息；根据第一图像中运动目标的位置信息建立第二矩形区域，第二矩形区域还包括第一图像中运动目标的周边背景信息；将第二矩形区域输入到卷积神经网络，输出第一图像的第一特征和第二特征。

在第一方面的一些可实现方式中，为多个子模型设置不同的学习率和高斯分布标签；第一图像的第一特征对应的子模型的学习率高于第一图像的第二特征对应的子模型的学习率。

在第一方面的一些可实现方式中，利用线性插值更新多个子模型，其中，第一图像的第一特征对应的子模型的更新速率高于第一图像的第二特征对应的子模型的更新速率。

第二方面，提供了一种运动目标跟踪的装置，该装置包括：特征提取模块，用于获取运动目标的第一图像；根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，并根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征，其中，卷积神经网络包括五层卷积层，第一特征为第二层卷积层输出的卷积特征，第二特征为第五层卷积层输出的卷积特征；特征提取模块，还用于提取第一图像的方向梯度直方图特征；确定模块，用于根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型；跟踪模块，用于根据多个子模型得到第一图像的跟踪结果，第一图像的跟踪结果包括第一图像的下一帧图像中运动目标的位置信息。

在第二方面的一些可实现方式中，确定模块具体用于：对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型；对三个第一子模型分别进行两两结合，得到三个第二子模型；对三个第一子模型进行结合，得到一个第三子模型。

在第二方面的一些可实现方式中，跟踪模块具体用于：根据三个第一子模型、三个第二子模型和一个第三子模型分别对下一帧图像中运动目标的位置进行跟踪，得到第一图像的跟踪结果。

在第二方面的一些可实现方式中，还包括评估模块，用于：根据三个第一子模型、三个第二子模型和一个第三子模型建立集成模型；将每个第一图像的跟踪结果分别输入到集成模型进行计算，得到每个第一图像的跟踪结果的评估分数；将评估分数最高的第一图像的跟踪结果作为最终跟踪结果，最终跟踪结果包括下一帧图像中运动目标的最终位置信息。

在第二方面的一些可实现方式中，多个子模型共享第一图像的最终跟踪结果。

在第二方面的一些可实现方式中，当第一图像为第一帧图像时，特征提取模块具体用于：第一帧图像包括运动目标的初始位置信息；根据初始位置信息建立第一矩形区域，第一矩形区域还包括运动目标的初始周边背景信息；将第一矩形区域输入到卷积神经网络，输出第一帧图像的第一特征和第二特征。

在第二方面的一些可实现方式中，在根据降维矩阵对第一图像的第二特征进行降维之前，确定模块还用于：对第一帧图像的第二特征进行主成分分析，得到降维矩阵。

在第二方面的一些可实现方式中，当第一图像不是第一帧图像时，特征提取模块具体用于：第一图像包括上一帧图像的跟踪结果，上一帧图像的跟踪结果包括第一图像中运动目标的位置信息；根据第一图像中运动目标的位置信息建立第二矩形区域，第二矩形区域还包括第一图像中运动目标的周边背景信息；将第二矩形区域输入到卷积神经网络，输出第一图像的第一特征和第二特征。

在第二方面的一些可实现方式中，还包括设置模块，用于：为多个子模型设置不同的学习率和高斯分布标签；第一图像的第一特征对应的子模型的学习率高于第一图像的第二特征对应的子模型的学习率。

在第二方面的一些可实现方式中，还包括更新模块，用于：利用线性插值更新多个子模型，其中，第一图像的第一特征对应的子模型的更新速率高于第一图像的第二特征对应的子模型的更新速率。

第三方面，提供了一种运动目标跟踪的设备，该设备包括：处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪的方法。

第四方面，提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪的方法。

本发明实施例的运动目标跟踪的方法，使用了一个包含五层卷积层的小型卷积神经网络进行特征提取，在保证跟踪准确率的前提下，大幅缩短特征提取过程，使得处理速度满足实时性要求。同时，将卷积特征与传统的方向梯度直方图特征进行自适应融合，从多个角度描述运动目标，更加丰富运动目标的特征信息，有利于实现运动目标的准确定位。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种运动目标跟踪的方法的流程示意图；

图2是本发明实施例提供的一种卷积神经网络的结构示意图；

图3是本发明实施例提供的一种不同标准差对应的高斯分布的示意图；

图4是本发明实施例提供的另一种运动目标跟踪的方法的流程示意图；

图5是本发明实施例提供的将运动目标跟踪的方法应用于车辆跟踪场景的效果示意图；

图6是本发明实施例提供的将运动目标跟踪的方法应用于行人跟踪场景的效果示意图；

图7是本发明实施例提供的一种运动目标跟踪的装置的结构示意图；

图8是本发明实施例提供的一种运动目标跟踪的设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

运动目标跟踪是视频监控系统中不可缺少的环节，主要应用于环境监控、自动驾驶、人机交互以及防盗安防等领域。

其中，目标特征提取又分为两种：传统手工特征和卷积特征。

传统手工特征，如方向梯度直方图(Histogram of Oriented Gradient，HOG)、颜色名字特征、图像的灰度信息特征等等。但是由于传统手工特征的局限性，当运动目标发生剧烈的变化，如：旋转，光照变化，形变或者相机产生抖动时，极易产生目标漂移，并且再也无法找回运动目标，影响到跟踪结果的准确性。

卷积特征，现有技术中的跟踪器通常使用VGGNet作为目标特征提取骨架进行卷积特征的提取，然而，由于VGGNet过于庞大，其在第三、第四以及第五个特征层上都具有512个通道数，因此无论是模型大小还是计算量都过于庞大，导致跟踪器的处理速度非常缓慢，进行目标跟踪时的效率低下，无法满足实时性要求。

在模型建立方面，现有跟踪器大多使用单一的判别模型用于区分目标与背景。但跟踪任务是一个增量学习的过程，当目标发生剧烈的变化，例如，旋转、光照变化、形变或者相机产生抖动时，极易产生目标漂移，导致单模型识别到非目标特征，同时因为不具备纠错能力，导致这种误差逐渐累积，无法保证跟踪的稳健性，从而严重影响到目标跟踪的效率。

为了解决现有技术中运动目标跟踪方法的跟踪效率低以及跟踪结果不够准确的问题，本发明实施例提供了一种运动目标跟踪的方法、装置、设备及计算机存储介质。下面结合附图对本发明实施例的技术方案进行描述。

图1是本发明实施例提供的一种运动目标跟踪的方法的流程示意图，如图1所示，该方法的执行主体可以是运动目标跟踪的设备，该运动目标跟踪的方法包括：

S101，获取运动目标的第一图像。

第一图像中包含所要跟踪的运动目标的位置信息。

其中，第一图像可以为视频序列或图像序列。

在一个实施例中，可以根据第一图像的上一帧图像中是否包括该运动目标，判断该第一图像是否为第一帧图像。

当上一帧图像中不包含该运动目标时，判断该第一图像为第一帧图像，此时，第一图像中包括运动目标的初始位置信息，其中，初始位置信息包括运动目标的初始中心坐标和初始尺度。

当上一帧图像中包含该运动目标时，判断该第一图像不是第一帧图像时，此时，第一图像中包括上一帧图像的跟踪结果，跟踪结果中包括第一图像中运动目标的位置信息，其中，位置信息包括运动目标在第一图像中的中心坐标和尺度。

S102，根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征。

其中，卷积神经网络包括五层卷积层，第一特征为第二层卷积层输出的卷积特征，第二特征为第五层卷积层输出的卷积特征。

可选地，在一个实施例中，当第一图像为第一帧图像时，根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，可以包括以下几个步骤：

步骤1，根据初始位置信息建立第一矩形区域。

初始位置信息包括运动目标的初始中心坐标(x₁，y₁)和初始尺度(w₁，h₁)，w₁为运动目标的初始宽度，h₁为运动目标的初始高度。

以初始位置信息中的初始中心坐标(x₁，y₁)为中心，以宽度为w₁+1.5×padding，以高度为h₁+1.5×padding建立第一矩形区域。

其中，padding表示增加的运动目标的周边背景信息范围，即，该第一矩形区域不仅包含运动目标的自身区域，也包含运动目标的周边背景信息，这样使得模型能够学习到目标与背景的差异，进而提升模型的判别力。

步骤2，将第一矩形区域输入到卷积神经网络，输出第一帧图像的第一特征和第二特征。

在一个实施例中，当第一图像不是第一帧图像时，根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，包括：根据第一图像中运动目标的位置信息建立第二矩形区域，其中，第二矩形区域还包括第一图像中运动目标的周边背景信息；将第二矩形区域输入到卷积神经网络，输出第一图像的第一特征和第二特征。

在一个实施例中，卷积特征在不同层的语义等级不一致，第二层卷积层输出的卷积特征可以为浅层特征，第五层卷积层输出的卷积特征可以为深层特征。其中，浅层特征更关注运动目标的细节信息，比较具体，分辨率也更大；而深层特征则更关注运动目标的类间信息，更具鲁棒性，因此在运动目标产生巨大变化时依旧有能力识别出运动目标。如果单单用浅层特征，则当运动目标发生变化后，特征不具备鲁棒性，导致跟踪漂移；如果单单用深层特征，则分辨率太小无法进行运动目标的准确定位。

图2是本发明实施例提供的一种卷积神经网络的结构示意图，如图2所示，该卷积神经网络的第一层包括输入层；第二层包括第一卷积层、激活层和池化层，其中，第一卷积层中的卷积核大小k、步长s、输出通道数c分别为7、2、96；第三层包括第一最大池化层，其中，第一最大池化层中的卷积核大小k、步长s分别为3、2；第四层包括第二卷积层、激活层和池化层，其中，第二卷积层中的卷积核大小k、步长s、输出通道数c分别为5、2、256；第五层包括第二最大池化层，其中，第二最大池化层中的卷积核大小k、步长s分别为3、2；第六层包括第三卷积层、激活层和池化层，其中，第三卷积层中的卷积核大小k、步长s、输出通道数c分别为3、1、512；第七层包括第四卷积层、激活层和池化层，其中，第四卷积层中的卷积核大小k、步长s、输出通道数c分别为3、1、512；第八层包括第五卷积层、激活层和池化层，其中，第五卷积层中的卷积核大小k、步长s、输出通道数c分别为3、1、512。

在一个实施例中，从卷积神经网络中提取出的第一图像的第一特征为256维，第二特征为512维。

卷积神经网络中第五层卷积层输出的第二特征中包含了大量的不相关信息，因此接下来根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征。

在一个实施例中，降维矩阵是对第一帧图像的第二特征进行主成分分析得到的。其中，主成分分析(Principal Component Analysis，PCA)是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

在一个实施例中，以第一帧图像的第二特征为512维为例，第一帧图像的第二特征为H×W×C，H与W分别表示第二特征对应特征图的高度与宽度，C表示特征图的通道数(512)，确定降维矩阵，可以包括以下几个步骤：

步骤1，将第二特征H×W×C转化成HW×C，并记为矩阵M’。

其中，矩阵M’的每一列对应一个通道的特征。

步骤2，对M’进行奇异值分解，得到特征值，将特征值由大到小排列，取前K个大的特征值对应的特征向量组成降维矩阵M。

其中，M的大小为C×K。

在一个实施例中，K的取值可以为64。

在一个实施例中，根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征，包括：

根据降维矩阵M和公式(1)对第一图像的第二特征F进行降维，得到降维后的第二特征F’。

F’＝F×M (1)

在一个实施例中，因为第一帧图像中运动目标的初始位置信息是绝对准确的，因此保证降维矩阵M不变，对后续每一帧图像提取的512维的第二特征都用降维矩阵M进行降维，筛选特征，降维后的第二特征与最初的512维冗余的特征相比，特征的凝练度会更高，不会让模型学习到无用的甚至有干扰性的特征。

S103，获取第一图像的方向梯度直方图特征。

由于手工特征的提取速度较快，维数也很低，因此在特征提取时，获取第一图像的方向梯度直方图特征，结合卷积特征和手工特征，从多个角度更加丰富运动目标的特征信息。

在一个实施例中，也可以将卷积特征与其他手工特征进行结合，例如结合颜色名字特征、图像的灰度信息特征，同样可以丰富运动目标的特征信息。

S104，根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型。

可选地，在一个实施例中，根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型，可以包括以下几个步骤：

步骤1，对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型。

根据公式(2)对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型。

其中，X为提取出的特征，w为第一子模型E要学习的参数，y为第一子模型E的一个高斯分布，y在目标中心最大为1，然后向四周衰减，λ为控制过拟合参数。

在一个实施例中，对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型，包括：

根据公式(3)建立方向梯度直方图特征的岭回归模型，得到第一子模型E_l。

其中，X₁为方向梯度直方图特征，w₁为第一子模型E_l要学习的参数，y₁为第一子模型E_l的一个高斯分布，y₁在目标中心最大为1，然后向四周衰减，λ为控制过拟合参数。

根据公式(4)建立第一特征的岭回归模型，得到第一子模型E_m。

其中，X₂为第一特征，w₂为第一子模型E_m要学习的参数，y₂为第一子模型E_m的一个高斯分布。

根据公式(5)建立降维后的第二特征的岭回归模型，得到第一子模型E_h。

其中，X₃为降维后的第二特征，w₃为第一子模型E_h要学习的参数，y₃为第一子模型E_h的一个高斯分布。

步骤2，对三个第一子模型分别进行两两结合，得到三个第二子模型。

根据公式(6)建立方向梯度直方图特征和第一特征的岭回归模型，得到第二子模型E_l+m。

其中，X₄为方向梯度直方图特征和第一特征，w₄为第二子模型E_l+m要学习的参数，y₄为第二子模型E_l+m的一个高斯分布。

根据公式(7)建立方向梯度直方图特征和降维后的第二特征的岭回归模型，得到第二子模型E_l+h。

其中，X₅为方向梯度直方图特征和降维后的第二特征，w₅为第二子模型E_l+h要学习的参数，y₅为第二子模型E_l+h的一个高斯分布。

根据公式(8)建立第一特征和降维后的第二特征的岭回归模型，得到第二子模型E_m+h。

其中，X₆为第一特征和降维后的第二特征，w₆为第二子模型E_m+h要学习的参数，y₆为第二子模型E_m+h的一个高斯分布。

步骤3，对三个第一子模型进行结合，得到一个第三子模型。

根据公式(9)建立方向梯度直方图特征、第一特征和降维后的第二特征的岭回归模型，得到第三子模型E_l+m+h。

其中，X₇为方向梯度直方图特征、第一特征和降维后的第二特征，w₇为第三子模型E_l+m+h要学习的参数，y₇为第三子模型E_l+m+h的一个高斯分布。

在一个实施例中，考虑到方向梯度直方图特征、第一特征与第二特征的语义等级不同，并且初始分辨率也不一致，因此为每个子模型设置不同的学习率和高斯分布标签，让更加抽象的第二特征更关注运动目标的鲁棒性，即运动目标发生大变化时依旧能辨识出来，而具体的细节的方向梯度直方图特征与第一特征侧重于目标的精细定位。通过为不同的子模型搭配不一样的参数，保证了子模型的多样性。

在一个实施例中，第一特征对应的子模型的学习率高于第二特征对应的子模型的学习率。

在一个实施例中，由于方向梯度直方图特征和第一特征不具备语义信息，所以相对于第二特征来说更需要快速地适应目标的变化，所以赋予以方向梯度直方图特征和第一特征建立的子模型较大的学习率。

在一个实施例中，第二特征的鲁棒性更强，需要以绝对正确的第一帧图像为模板缓慢更新，因此以第二特征建立的子模型学习率较小。

在一个实施例中，方向梯度直方图特征对应的第一子专家模型的学习率为0.025，标准差为1/16；第一特征对应的第一子专家模型的学习率为0.025，标准差为1/16；降维后的第二特征对应的第一子专家模型的学习率为0.0075，标准差为1/4；方向梯度直方图特征和第一特征对应的第二子模型的学习率为0.0375，标准差为3/32；方向梯度直方图特征和降维后的第二特征对应的第二子模型的学习率为0.02，标准差为9/32；第一特征和降维后的第二特征对应的第二子模型的学习率为0.02，标准差为9/32；方向梯度直方图特征、第一特征和降维后的第二特征对应的第三子模型的学习率为0.0075，标准差为1/4。

图3是本发明实施例提供的一种不同标准差对应的高斯分布的示意图，如图3所示，甲对应的标准差σ＝0.5，乙对应的标准差σ＝1，丙对应的标准差σ＝2，标准差越小，高斯分布越尖锐，靠近中心的正样本就越少，贴近边缘的负样本越多，标准差越大，高斯分布越平缓，靠近中心的正样本就越多，贴近边缘的负样本越少。

在一个实施例中，对于第二特征来说，其空间分辨率很小，且具备平移不变形，所以赋予它更多的正样本，因此，第二特征对应的高斯分布标签应该更加平缓，对应较大的标准差，例如1/4；而对于第一特征来说，其生成的特征向量会随着目标的平移会产生巨大的变化，所以赋予的正样本相对较少，只能集中在中心很小的一个范围内，因此第一特征对应的高斯分布应该更加尖锐，对应较小的标准差，例如1/16。

S105，根据多个子模型得到第一图像的跟踪结果。

在一个实施例中，根据三个第一子模型、三个第二子模型和一个第三子模型分别对下一帧图像中运动目标的位置进行跟踪，得到第一图像的跟踪结果。

其中，第一图像的跟踪结果包括第一图像的下一帧图像中运动目标的位置信息。

在一个实施例中，根据子模型得到第一图像的跟踪结果，可以包括以下几个步骤：

步骤1，根据公式(10)计算公式(1)的闭式解的频域表示。

其中，D为总通道数，^表示取傅里叶变换，*表示取共轭复数，为第d个通道的特征，/>为第i个通道的特征，这里要对所有通道的特征进行累加，/>表示高斯分布y的频域表示，/>表示矩阵乘法中的对应元素相乘，λ为控制过拟合参数，/>表示第d个通道的特征的共轭复数，/>表示第i个通道的特征的共轭复数。

步骤2，根据公式(11)求响应图R。

其中，F表示傅里叶变换，F^-1表示傅里叶逆变换，t表示图像的帧数，D表示总通道数，d表示当前通道，这里要对所有通道的特征进行累加，X_t+1表示第t+1帧图像的特征，R表示响应图，大小与高斯分布一致，R中的每一个元素表示运动目标中心在该点的概率。

步骤3，根据公式(12)计算响应图R的最大值，R的最大值为运动目标在下一帧图像中的中心坐标(或位置)。

(x，y)＝argmax(R) (12)

其中，(x，y)为运动目标在下一帧图像中的中心坐标，argmax是对函数求参数(集合)的函数。

在一个实施例中，可以采用线性插值的方式，根据公式(13)更新多个子模型的学习参数

其中，D为总通道数，表示第t-1个子模型的第d个通道的分子部分，/>表示第t-1个子模型的第d个通道的分母部分，η为子模型的更新速率，/>表示高斯分布y的频域表示，/>表示矩阵乘法中的对应元素相乘，λ为控制过拟合参数，/>表示第t-1个子模型的第d个通道的特征，/>表示第t-1个子模型的第i个通道的特征，/>表示/>的共轭复数。

在一个实施例中，利用线性插值更新多个子模型，第一特征对应的子模型的更新速率高于第一图像的第二特征对应的子模型的更新速率。

在一个实施例中，在得到运动目标的中心坐标后，还包括：对目标区域的图像块进行缩放，构建图像金字塔完成多尺度采样，并计算运动目标在下一帧图像中的最佳尺度缩放因子，得到运动目标对应的宽度和高度，完成尺度估计，可以包括以下步骤：

步骤4，在得到运动目标的中心坐标后，根据公式(14)求每个图像块的大小。

S_k，t＝a^(k)w_t-1×a^(k)h_t-1 (14)

其中，S_k，t表示第t帧图像第k个图像块的大小，其中n表示采样数目，a是尺度因子，w_t-1和h_t-1分别表示第t-1帧图像中运动目标的宽度和高度。

步骤5，提取不同尺度图像块的方向梯度直方图特征，根据公式(15)构建尺度滤波器H_s。

其中，G_s是尺度滤波器的标签经傅里叶变换后的频域表示，F_s是图像块的方向梯度直方图特征经傅里叶变换后的频域表示，是F_s的共轭复数，λ_s是尺度正则项系数。

步骤6，提取不同尺度因子下图像块的方向梯度直方图特征，根据公式(16)求取不同尺度因子的响应值f_s。

其中，F^-1表示傅里叶逆变换，D表示总的通道数，d表示当前通道，F_s是图像块的方向梯度直方图特征经傅里叶变换后的频域表示，是F_s的共轭复数，H_s为尺度滤波器。

步骤7，根据最大响应值对应的尺度因子，确定运动目标在下一帧图像中的宽度和高度。

可选地，在一个实施例中，如图4所示，在S105根据多个子模型得到第一图像的跟踪结果之后，该运动目标跟踪的方法还可以包括以下步骤：

S106，根据多个子模型建立集成模型。

S107，将每个第一图像的跟踪结果分别输入到集成模型进行计算，得到每个第一图像的跟踪结果的评估分数。

其中，评估分数可以包括自评分数和互评分数两部分。

在一个实施例中，计算每个第一图像的跟踪结果的自评分数，可以包括以下几个步骤：

步骤1，根据公式(17)计算子模型E_i在第t帧图像与第t+1帧图像的中心位置误差CE_i。

其中，i用于标识子模型，x_i，t为子模型E_i输出的第t帧图像的跟踪结果中中心坐标的横坐标，y_i，t为子模型E_i输出的第t帧图像的跟踪结果中中心坐标的纵坐标，x_i，t+1为子模型E_i输出的第t+1帧图像的跟踪结果中中心坐标的横坐标，y_i，t+1为子模型E_i输出的第t+1帧图像的跟踪结果中中心坐标的纵坐标。

步骤2，根据公式(18)计算子模型E_i在第t帧图像与第t+1帧图像的交并比IOU_i。

其中，B_i，t，B_i，t+1分别表示第i个子模型在第t帧图像与t+1帧图像预测的运动目标边界框，∩表示2个边界框重叠大小，∪表示2个边界框全部包含的大小。

步骤3，考虑时间连续性，应该增加第t帧图像与之前多帧图像的跟踪结果，但也要为不同的时间点赋予不同的权重，越靠近第t帧图像的权重应该占比越大，因此最终自评的方式为结合时间平滑W_t，i、中心位置误差CE_T,i与重叠IOU_T,i这3个指标，根据公式(19)计算子模型E_i输出的跟踪结果的自评分数S_l,t,i：

S_l,t,i＝W_t,i×CE_T,i×IOU_T,i (19)

其中，T为增加的时间连续性集合，如T＝{1,2,…t}。

步骤4，根据公式(20)计算权重系数W。

W＝ρ^t (20)

其中，ρ为固定值，W为不同时间点的权重系数，越靠近当前时间点t，W越大，反之则小，因此可以产生时间平滑的效果。

在一个实施例中，计算每个第一图像的跟踪结果的互评分数，可以包括以下几个步骤：

步骤1，在第t时刻，7个子模型分别会预测出7个不同的运动目标边界框，首先根据公式(21)分别计算出这7个边界框的两两交并比。

其中，i，j分别表示两个不同的子模型索引，B_i表示第i个子模型预测的运动目标边界框，B_j表示第j个子模型预测的运动目标边界框，IOU(B_i,B_j)表示B_i边界框与B_j边界框的交并比。

步骤2，为了减少IOU(B_i,B_j)的最大值与最小值之间的差距，根据公式(22)平滑两个极值之间的差距，得到边界框B_i与边界框B_j的平滑极值后的交并比IOU′(B_i,B_j)。

其中，e为指数函数。

步骤3，7个边界框的两两交并比的均值反映了运动目标的运动轨迹的连续性，交并比的方差反映了运动目标的运动随时间的波动性，相邻的两帧图像中，其运动目标的运动轨迹应该是较连续的，因此根据公式(23)定义Δt时间间隔内运动目标的运动波动性F_t,i。

其中，表示Δt时间内，7个边界框的两两交并比的均值，N表示子模型的数目。

步骤4，根据公式(24)为不同时间点的运动波动性F_t,i赋予不一样的权重系数W，得到时间轴上的运动轨迹波动程度F′_t,i。

F′_t,i＝W_Δt,iF_t,i (24)

对于某一个子模型E_p来说，如果其预测的跟踪结果B_p与其它子模型预测的跟踪结果越接近，那么跟踪结果B_p为异常值的可能性就越小，跟踪结果B_p的可靠性就越高；如果某一个子模型E_q预测的跟踪结果B_q与其它子模型预测的跟踪结果相差很大，那么跟踪结果B_q就很有可能为异常值。

步骤5，考虑到时间平滑性，根据公式(25)定义子模型预测的跟踪结果的可靠性系数R′_t,i。

其中，W为权重系数，N表示子模型的数目，IOU′_t,i(B_t,i,B_t,j)表示边界框B_i与边界框B_j平滑极值后的交并比。

步骤6，基于上述公式得到的可靠性系数R′_t,i和运动轨迹波动程度F′_t,i，根据公式(26)计算跟踪结果的互评分数。

其中，ε为极小数值常量，防止除法运算时分母为0。

在一个实施例中，基于每个跟踪结果的自评分数S_l,t,i和互评分数S_2,i,t，采用线性结合的方式，根据公式(27)得到跟踪结果最终的评估分数E_t,i。

E_t,i＝ζS_1,i,t+(1-ζ)S_2,i,t (27)

其中，ζ为结合系数。

S108，将评估分数最高的第一图像的跟踪结果作为最终跟踪结果。

其中，最终跟踪结果包括下一帧图像中运动目标的最终位置信息。

可选地，在一个实施例中，最终跟踪结果中包括运动目标的预测边界框。

在一个实施例中，每一帧图像的最终跟踪结果都是采用评估分数最高的，而这个最终跟踪结果与其它子模型预测的跟踪结果具有较大的重叠率，表明了最终跟踪结果为异常值的概率不大，同时在时间轴上也没有较大的波动性，因此采用最终跟踪结果作为下一帧的目标搜索范围是可靠的。

在一个实施例中，对于其它评估分数比较低的跟踪结果来说，这些跟踪结果是相对不可信的，如果不纠正他们的感受野，即如果还用评估分数比较低的跟踪结果划分搜索区域进行运动目标的查找，很难在该搜索区域内找到运动目标。因此，多个子模型共享第一图像的最终跟踪结果，使用评估分数最高的最终跟踪结果作为所有子模型在下一时刻的感受野，使得所有子模型能在一个最有可能的范围内搜索运动目标，赋予了跟踪结果不准确的子模型纠错能力，不会让弱的子模型一错再错，学习到非运动目标特征，从而污染集成的总模型框架。

在一个实施例中，若每一个子模型都用它自己预测到的跟踪结果划分的搜索区域去提取运动目标特征，速度是比较慢的，若所有的子模型用同一个搜索区域(根据最终跟踪结果划分的搜索区域)提取运动目标在不同层面的特征，速度为前者的1/K，其中，K为子模型数目。因此，通过共享感受野的方式还能够大幅度提升算法的处理速度，从而提高运动目标的跟踪效率。

在一个实施例中，可以将车辆作为运动目标，通过多个子模型进行跟踪，得到该车辆的多个预测边界框，对多个预测边界框进行评估，将评估分数最高的预测边界框作为该车辆的最终预测边界框。

图5是本发明实施例提供的将运动目标跟踪的方法应用于车辆跟踪场景的效果示意图，如图5所示，通过本发明实施例的运动目标跟踪的方法，即使在模糊不清的图像中，也能够准确跟踪到目标车辆。

在一个实施例中，可以将行人作为运动目标，通过多个子模型进行跟踪，得到行人的多个预测边界框，对多个预测边界框进行评估，将评估分数最高的预测边界框作为行人的最终预测边界框。

图6是本发明实施例提供的将运动目标跟踪的方法应用于行人跟踪场景的效果示意图，如图6所示，通过本发明实施例的运动目标跟踪的方法，即使图像中存在干扰目标，也能够准确跟踪到行人。

本发明实施例的运动目标跟踪的方法，将多个子模型通过“自评”与“互评”机制自适应的融合为一个集成模型，并将评估分数最高的跟踪结果作为最终跟踪结果，能够提高跟踪结果的准确性。

图7是本发明实施例提供的一种运动目标跟踪的装置的结构示意图，如图7所示，该运动目标跟踪的装置200可以包括：特征提取模块210、确定模块220、跟踪模块230。

其中，特征提取模块210，用于获取运动目标的第一图像；根据第一图像和卷积神经网络，得到第一图像的第一特征和第二特征，并根据降维矩阵对第一图像的第二特征进行降维，得到降维后的第二特征，其中，卷积神经网络包括五层卷积层，第一特征为第二层卷积层输出的卷积特征，第二特征为第五层卷积层输出的卷积特征。

特征提取模块210，还用于提取第一图像的方向梯度直方图特征。

确定模块220，用于根据第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型。

跟踪模块230，用于根据多个子模型得到第一图像的跟踪结果，第一图像的跟踪结果包括第一图像的下一帧图像中运动目标的位置信息。

在一些实施例中，确定模块220具体用于：对第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型；对三个第一子模型分别进行两两结合，得到三个第二子模型；对三个第一子模型进行结合，得到一个第三子模型。

在一些实施例中，跟踪模块230具体用于：根据三个第一子模型、三个第二子模型和一个第三子模型分别对下一帧图像中运动目标的位置进行跟踪，得到第一图像的跟踪结果。

在一些实施例中，还包括评估模块240，用于：根据三个第一子模型、三个第二子模型和一个第三子模型建立集成模型；将每个第一图像的跟踪结果分别输入到集成模型进行计算，得到每个第一图像的跟踪结果的评估分数；将评估分数最高的第一图像的跟踪结果作为最终跟踪结果，最终跟踪结果包括下一帧图像中运动目标的最终位置信息。

在一些实施例中，多个子模型共享第一图像的最终跟踪结果。

在一些实施例中，当第一图像为第一帧图像时，特征提取模块210具体用于：第一帧图像包括运动目标的初始位置信息；根据初始位置信息建立第一矩形区域，第一矩形区域还包括运动目标的初始周边背景信息；将第一矩形区域输入到卷积神经网络，输出第一帧图像的第一特征和第二特征。

在一些实施例中，在根据降维矩阵对第一图像的第二特征进行降维之前，确定模块220还用于：对第一帧图像的第二特征进行主成分分析，得到降维矩阵。

在一些实施例中，当第一图像不是第一帧图像时，特征提取模块210具体用于：第一图像包括上一帧图像的跟踪结果，上一帧图像的跟踪结果包括第一图像中运动目标的位置信息；根据第一图像中运动目标的位置信息建立第二矩形区域，第二矩形区域还包括第一图像中运动目标的周边背景信息；将第二矩形区域输入到卷积神经网络，输出第一图像的第一特征和第二特征。

在一些实施例中，还包括设置模块250，用于：为多个子模型设置不同的学习率和高斯分布标签；第一图像的第一特征对应的子模型的学习率高于第一图像的第二特征对应的子模型的学习率。

在一些实施例中，还包括更新模块260，用于：利用线性插值更新多个子模型，其中，第一图像的第一特征对应的子模型的更新速率高于第一图像的第二特征对应的子模型的更新速率。

本发明实施例的运动目标跟踪的装置，通过一个包含五层卷积层的小型卷积神经网络进行特征提取，在保证跟踪准确率的前提下，大幅缩短特征提取过程，使得处理速度满足实时性要求。同时，将卷积特征与传统的方向梯度直方图特征进行自适应融合，从多个角度描述运动目标，更加丰富运动目标的特征信息，有利于实现运动目标的准确定位。

图8是本发明实施例提供的一种运动目标跟踪的设备的硬件结构示意图。

如图8所示，本实施例中的运动目标跟踪的设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中，输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接，输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接，进而与运动目标跟踪的设备300的其他组件连接。

具体地，输入设备301接收来自外部的输入信息，并通过输入接口302将输入信息传送到中央处理器303；中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器304中，然后通过输出接口305将输出信息传送到输出设备306；输出设备306将输出信息输出到运动目标跟踪的设备300的外部供用户使用。

在一个实施例中，图8所示的运动目标跟踪的设备300包括：存储器304，用于存储程序；处理器303，用于运行存储器中存储的程序，以执行本发明实施例提供的图1或图4所示实施例的方法。

本发明实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的图1或图4所示实施例的方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种运动目标跟踪的方法，其特征在于，所述方法包括：

获取运动目标的第一图像；

根据所述第一图像和卷积神经网络，得到所述第一图像的第一特征和第二特征，并根据降维矩阵对所述第一图像的第二特征进行降维，得到降维后的第二特征，其中，所述卷积神经网络包括五层卷积层，所述第一特征为第二层卷积层输出的卷积特征，所述第二特征为第五层卷积层输出的卷积特征；

提取所述第一图像的方向梯度直方图特征；

根据所述第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型；

根据所述多个子模型得到所述第一图像的跟踪结果，所述第一图像的跟踪结果包括所述第一图像的下一帧图像中所述运动目标的位置信息；

所述方法还包括：

为所述多个子模型设置不同的学习率和高斯分布标签；

所述第一图像的第一特征对应的子模型的学习率高于所述第一图像的第二特征对应的子模型的学习率。

2.根据权利要求1所述的方法，其特征在于，所述多个子模型包括第一子模型、第二子模型和第三子模型，所述根据所述第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型，包括：

对所述第一图像的第一特征、降维后的第二特征和方向梯度直方图特征分别建立独立的岭回归模型，得到三个第一子模型；

对所述三个第一子模型分别进行两两结合，得到三个第二子模型；

对所述三个第一子模型进行结合，得到一个第三子模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个子模型得到所述第一图像的跟踪结果，包括：

根据所述三个第一子模型、所述三个第二子模型和所述一个第三子模型分别对所述下一帧图像中所述运动目标的位置进行跟踪，得到所述第一图像的跟踪结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述三个第一子模型、所述三个第二子模型和所述一个第三子模型建立集成模型；

将每个所述第一图像的跟踪结果分别输入到所述集成模型进行计算，得到每个所述第一图像的跟踪结果的评估分数；

将所述评估分数最高的所述第一图像的跟踪结果作为最终跟踪结果，所述最终跟踪结果包括所述下一帧图像中所述运动目标的最终位置信息。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述多个子模型共享所述第一图像的最终跟踪结果。

6.根据权利要求1所述的方法，其特征在于，当所述第一图像为第一帧图像时，所述根据所述第一图像和卷积神经网络，得到第一特征和第二特征，包括：

所述第一帧图像包括所述运动目标的初始位置信息；

根据所述初始位置信息建立第一矩形区域，所述第一矩形区域还包括所述运动目标的初始周边背景信息；

将所述第一矩形区域输入到所述卷积神经网络，输出所述第一帧图像的第一特征和第二特征。

7.根据权利要求6所述的方法，其特征在于，在根据降维矩阵对所述第一图像的第二特征进行降维之前，所述方法还包括：

对所述第一帧图像的第二特征进行主成分分析，得到所述降维矩阵。

8.根据权利要求1所述的方法，其特征在于，当所述第一图像不是第一帧图像时，所述根据所述第一图像和卷积神经网络，得到第一特征和第二特征，包括：

所述第一图像包括上一帧图像的跟踪结果，所述上一帧图像的跟踪结果包括所述第一图像中所述运动目标的位置信息；

根据所述第一图像中所述运动目标的位置信息建立第二矩形区域，所述第二矩形区域还包括所述第一图像中所述运动目标的周边背景信息；

将所述第二矩形区域输入到所述卷积神经网络，输出所述第一图像的第一特征和第二特征。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用线性插值更新所述多个子模型，其中，所述第一图像的第一特征对应的子模型的更新速率高于所述第一图像的第二特征对应的子模型的更新速率。

10.一种运动目标跟踪的装置，其特征在于，所述装置包括：

获取模块，用于获取运动目标的第一图像；

特征提取模块，用于根据所述第一图像和卷积神经网络，得到所述第一图像的第一特征和第二特征，并根据降维矩阵对所述第一图像的第二特征进行降维，得到降维后的第二特征，其中，所述卷积神经网络包括五层卷积层，所述第一特征为第二层卷积层输出的卷积特征，所述第二特征为第五层卷积层输出的卷积特征；

所述特征提取模块，还用于提取所述第一图像的方向梯度直方图特征；

确定模块，用于根据所述第一图像的第一特征、降维后的第二特征和方向梯度直方图特征，确定多个子模型；

跟踪模块，用于根据所述多个子模型得到所述第一图像的跟踪结果，所述第一图像的跟踪结果包括所述第一图像的下一帧图像中所述运动目标的位置信息；

设置模块，用于为所述多个子模型设置不同的学习率和高斯分布标签；

11.一种运动目标跟踪的设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-9任意一项所述的运动目标跟踪的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-9任意一项所述的运动目标跟踪的方法。