CN113763420A

CN113763420A - 一种目标跟踪方法、系统及存储介质和终端设备

Info

Publication number: CN113763420A
Application number: CN202110495900.8A
Authority: CN
Inventors: 徐僖禧; 祁仲昂; 单瀛; 薛向阳; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-12-07

Abstract

本发明实施例公开了一种目标跟踪方法、系统及存储介质和终端设备，应用于基于人工智能的信息处理技术领域。目标跟踪系统会基于图像静态的外观特征对目标对象进行定位，即根据目标图片块和待处理帧图像的第一特征信息和第二特征信息，确定目标对象的第一候选位置信息；然后结合基于图像的运动特征对目标对象的定位，即根据参考帧图像和待处理帧图像的第一光流信息和第二光流信息及目标图片块的参考位置信息，确定目标对象的第二候选位置信息，进而根据第一候选位置信息和第二候选位置信息可以实现对目标对象的最终定位。这样通过图像的运动特征可以尽可能地抵消图像静态的外观特征在目标对象定位过程中的噪声，使得最终对目标对象的定位更准确。

Description

一种目标跟踪方法、系统及存储介质和终端设备

技术领域

本发明涉及基于人工智能的信息处理技术领域，特别涉及一种目标跟踪方法、系统及存储介质和终端设备。

背景技术

目标跟踪技术从上世纪六十年代开始发展以来，主要的目标跟踪算法分为两类，一类是基于相关滤波的跟踪算法，另一类是基于深度学习的跟踪算法。其中，基于相关滤波的跟踪算法主要是通过两张图片的互相关性来定位目标，并应用傅里叶变换将空域的卷积运算转换到频域，大大提升运算速度；而基于深度学习的跟踪算法主要是采用人工智能的机器学习模型对图片进行特征提取，并基于提取的特征对图片中的目标对象进行定位。

但是实际应用中，由于有些视频场景中背景复杂、视频界面小、视频中多个物体进出界面频繁、物体间遮挡及视频拍摄时拍摄装置的晃动等多种因素干扰，通过现有的目标跟踪方法对视频中目标对象的跟踪效果差强人意。

发明内容

本发明实施例提供一种目标跟踪方法、系统及存储介质和终端设备，实现了更精确地实现目标对象的跟踪。

本发明一个实施例提供一种目标跟踪方法，包括：

获取待处理视频中参考帧图像所包含的目标图片块的第一特征信息，及获取待处理视频中待处理帧图像的第二特征信息；其中，所述目标图片块是包含目标对象的图像；

根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象的第一候选位置信息；

获取所述参考帧图像的第一光流信息，根据所述待处理帧图像获取第二光流信息，及获取所述目标图片块在参考帧图像中的参考位置信息；

根据第一光流信息、第二光流信息及参考位置信息，确定所述待处理帧图像中目标对象的第二候选位置信息；

根据所述第一候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

本发明另一个实施例提供一种目标跟踪系统，包括：

特征获取单元，用于获取待处理视频中参考帧图像所包含的目标图片块的第一特征信息，及获取待处理视频中待处理帧图像的第二特征信息；其中，所述目标图片块是包含目标对象的图像；

第一候选单元，用于根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象的第一候选位置信息；

光流信息单元，用于获取所述参考帧图像的第一光流信息，根据所述待处理帧图像获取第二光流信息，及获取所述目标图片块在参考帧图像中的参考位置信息；

第二候选单元，用于根据第一光流信息、第二光流信息及参考位置信息，确定所述待处理帧图像中目标对象的第二候选位置信息；

位置确定单元，用于根据所述第一候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本发明一个实施例所述的目标跟踪方法。

本发明实施例另一方面还提供一种终端设备，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本发明一个实施例所述的目标跟踪方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，在本实施例的方法中，目标跟踪系统会基于图像静态的外观特征对目标对象进行定位，即根据目标图片块和待处理帧图像的第一特征信息和第二特征信息，确定待处理帧图像中目标对象的第一候选位置信息；然后结合基于图像的运动特征对目标对象的定位，即根据参考帧图像和待处理帧图像的第一光流信息和第二光流信息及目标图片块的参考位置信息，确定待处理帧图像中目标对象的第二候选位置信息，进而根据第一候选位置信息和第二候选位置信息可以实现对目标对象的最终定位。这样通过图像的运动特征可以尽可能地抵消图像静态的外观特征在目标对象定位过程中的噪声，比如目标对象的遮挡和背景干扰等，使得最终对目标对象的定位更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标跟踪方法的示意图；

图2是本发明一个实施例提供的一种目标跟踪方法的流程图；

图3是本发明一个实施例中将目标图片块与候选框内图像进行匹配的示意图；

图4是本发明一个实施例中训练外观特征模型的方法流程图；

图5是本发明一个实施例中外观特征模型的逻辑结构示意图；

图6是本发明一个实施例中训练运动特征模型的方法流程图；

图7是本发明一个应用实施例中目标跟踪系统的结构示意图；

图8是本发明另一应用实施例中目标跟踪方法所应用于的分布式系统的示意图；

图9是本发明另一应用实施例中区块结构的示意图；

图10是本发明实施例提供的一种目标跟踪系统的结构示意图；

图11是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种目标跟踪方法，主要可以应用于对视频(特别是小视频)中各帧的目标对象进行跟踪，如图1所示，本发明实施例中，目标跟踪系统可以按照如下方法实现对目标对象的跟踪：

获取待处理视频中参考帧图像所包含的目标图片块的第一特征信息，及获取待处理视频中待处理帧图像的第二特征信息；其中，所述目标图片块是包含目标对象的图像；根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象的第一候选位置信息；获取所述参考帧图像的第一光流信息，根据所述待处理帧图像获取第二光流信息，及获取所述目标图片块在参考帧图像中的参考位置信息；根据第一光流信息、第二光流信息及参考位置信息，确定所述待处理帧图像中目标对象的第二候选位置信息；根据所述第一候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

上述确定第一候选位置信息可以通过外观特征模型来实现，而第二候选位置信息可以通过运动特征模型来实现，而外观特征模型和运动特征模型都是一种基于人工智能的机器学习模型。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

这样通过图像的运动特征可以尽可能地抵消图像静态的外观特征在目标对象定位过程中的噪声，比如目标对象的遮挡和背景干扰等，使得最终对目标对象的定位更准确。

本发明一个实施例提供一种目标跟踪方法，主要是上述的目标跟踪系统所执行的方法，流程图如图2所示，包括：

步骤101，获取待处理视频中参考帧图像所包含的目标图片块的第一特征信息，及获取待处理视频中待处理帧图像的第二特征信息，其中，目标图片块是包含目标对象的图像。

可以理解，本发明实施例的目标跟踪方法主要是对待处理视频中的目标对象进行跟踪，将待处理视频中的某一帧图像(比如第一帧图像)作为参考帧图像，并指定参考帧图像中的目标图片块，通过本实施例的方法，可以对待处理视频中除参考帧图像之外的其它各帧图像(即上述的待处理帧图像)进行目标对象的跟踪定位。

具体地，目标跟踪系统在获取目标图片块的第一特征信息和待处理帧图像的第二特征信息时，可以通过卷积神经网络进行特征的提取。

步骤102，根据第一特征信息及第二特征信息，确定待处理帧图像中目标对象的第一候选位置信息。

具体地，目标跟踪系统会先根据第一特征信息及第二特征信息，确定待处理帧图像中目标对象所在的多个候选框，然后将各个候选框内图像的特征信息与参考帧图像中目标图片块的第一特征信息进行匹配，分别得到各个候选框对应的匹配度，最后根据各个候选框对应的匹配度确定待处理帧图像中目标对象的第一候选位置信息，比如可以直接将匹配度最高的候选框的位置信息确定为待处理帧图像中目标对象的第一候选位置信息。

其中，目标跟踪系统在将各个候选框内图像的特征信息与第一特征信息进行匹配时，可以多粒度地进行特征匹配，即通过全局特征的匹配和局部特征的匹配，具体地，将各个候选框内图像的全局特征信息与第一特征信息进行匹配，得到第一子匹配度；将各个候选框内图像和目标图片块按照同一策略划分为多个区域，分别将各个候选框内图像中每个区域的局部特征信息与目标图片块中相应区域的局部特征信息进行匹配，得到第二子匹配度；根据第一子匹配度和第二子匹配度，确定各个候选框对应的匹配度，比如，将一个候选框对应的第一子匹配度与第二子匹配度的加权和值作为该候选框对应的匹配度等。

例如图3所示，将目标图片块和一个候选框内图像都划分为上下两个区域的图像，在计算过程中，将目标图片块的全局特征1与候选框内图像的全局特征2进行匹配得到第一子匹配度，将目标图片块上面区域的局部特征11与候选框内图像上面区域的局部特征21进行匹配得到第二子匹配度1，将目标图片块下面区域的局部特征12与候选框内图像下面区域的局部特征22进行匹配得到第二子匹配度2，进而可以根据第一子匹配和第二子匹配度1和2即可得到该候选框图像与目标图片块之间的匹配度。

需要说明的是，目标跟踪系统在执行上述步骤101与102时，可以采用训练好的外观特征模型来执行，该外观特征模型主要用于根据待处理帧图像静态的特征来确定待处理帧图像中的目标对象。其中，外观特征模型是一种基于人工智能的机器学习模型，一般可以通过一定的方法训练得到，并将训练好的外观特征模型的运行逻辑储存在目标跟踪系统中。

步骤103，获取参考帧图像的第一光流信息，根据待处理帧图像获取第二光流信息，及获取目标图片块在参考帧图像中的参考位置信息。

这里，目标图片块在参考帧图像中的参考位置信息可以是目标图片块轮廓线上点的坐标信息等，一般情况下，目标图片块的轮廓线的形状为长方形，则参考位置信息具体为长方形四个顶点在参考帧图像中的坐标信息。

而任一图像的光流是指空间运动物体在观察成像平面上的像素运动的瞬时速度，利用图像序列中像素在时间域上的变化以及相邻帧图像之间的相关性来找到上一帧图像跟当前帧图像之间存在的对应关系，从而可以根据图像的光流计算出相邻帧图像之间物体的运动信息。本实施例中，获取的第一光流信息和第二光流信息可以是稠密光流，即针对图像中每个像素点的光流信息，这样不会丢失图像的信息，其中，第二光流信息可以是待处理帧图像的光流信息，或者是对待处理帧图像进行预处理后得到的图像的流光信息，这里的预处理可以包括将待处理帧图像转化到参考帧图像的坐标系下等处理。

其中，由于拍摄装置在拍摄待处理视频的过程中，拍摄装置可能会运动，这样上述步骤103中获取的各帧图像的光流信息不仅包含了图像中物体的运动状态，还包含了拍摄装置的运动状态。为了尽量消除拍摄装置运动的干扰，本实施例中，目标跟踪系统会对待处理帧图像进行预处理，即将处理帧图像转化到参考帧图像的坐标系下，得到转化后的处理帧图像，再获取转化后的处理帧图像的第二光流信息。

具体地，目标跟踪系统在将处理帧图像转化到参考帧图像的坐标系下时，可以先根据参考帧图像中背景区域特征点的信息与待处理帧图像中背景区域特征点的信息，计算参考帧图像与待处理帧图像之间的单应矩阵，然后根据计算的单应矩阵将待处理帧图像转化到参考帧图像的坐标系下。

其中，如果两架相机拍同一空间上得到两幅图像AB，其中一幅A在另一幅B存在一种变换而且是一一对应的关系，这种关系可以用矩阵表示，这个矩阵即为单应矩阵，本实施例中，单应矩阵是指参考帧图像与待处理帧图像之间变换的对应关系。参考帧图像中背景区域特征点是指参考帧图像中除目标图片块之外的区域中的像素点，而待处理帧图像中背景区域特征点是指待处理帧帧图像中除目标对象之外的区域中的像素点，而各个特征点的信息可以采用多种描述方法进行描述，比如加速稳健特征(Speeded Up Robust Features，SURF)特征点等。

记H_r,i为参考帧图像f_r和第i帧图像f_i(即上述的待处理帧图像)之间的单应矩阵，特征点集记为

f_r ^b,f_i ^b分别为参考帧图像和第i帧图像中背景区域特征点的信息，单应矩阵可以通过如下公式1-1中所示的随机样本一致性(Random SampleConsensus，RANSAC)算法求得，且可以通过如下公式1-2将待处理帧图像转化到参考帧图像的坐标系下。

H_r,i＝RANSAC(P(f_r ^b,f_i ^b)) (1-1)

H_r,i×f_r ^b＝f_i ^b (1-2)

步骤104，根据第一光流信息、第二光流信息及参考位置信息，确定待处理帧图像中目标对象的第二候选位置信息。

可以理解，目标跟踪系统在执行上述步骤103与104时，可以采用训练好的运动特征模型来执行，该运动特征模型主要用于根据待处理帧图像运动的特征来确定待处理帧图像中的目标对象。其中，运动特征模型是一种基于人工智能的机器学习模型，一般可以通过一定的方法训练得到，并将训练好的运动特征模型的运行逻辑储存在目标跟踪系统中。

步骤105，根据第一候选位置信息及第二候选位置信息，确定待处理帧图像中目标对象的位置信息。

具体地，一种情况下，目标跟踪系统可以将直接将第一候选位置信息与第二候选位置信息进行一定计算，即可得到目标对象的位置信息。

另一种情况下，目标跟踪系统会先对第一候选位置信息进行更新后，得到更新后候选位置信息，并将更新后候选位置信息与第二候选位置信息进行一定计算，得到最终的目标对象的位置信息。具体地：

目标跟踪系统会设定第一候选位置信息的多个更新率；根据更新率、第一候选位置信息及待处理帧图像的上一帧图像中对象目标的位置信息，分别计算每个更新率下的更新后候选位置信息；分别计算待处理帧图像中，每个更新后候选位置信息对应子图像与目标图片块之间的距离，并选取距离最小的子图像对应的更新后候选位置信息；根据选取的更新后候选位置信息及第二候选位置信息，确定待处理帧图像中目标对象的位置信息。

其中，为了增加根据待处理帧图像的外观特征(即上述第二特征信息)确定目标对象的位置信息的稳定性，特别是在目标对象在遇到短期遮挡和突然干扰时，可以保证对目标对象进行定位的稳定性，目标跟踪系统会根据上一帧图像中目标对象的位置信息对第一候选位置信息进行更新，比如可以采用如下供2-1和2-2得到更新后的目标对象所在框的大小，进而可以得到更新后候选位置信息：

τ(w,lr)＝w'*(1-lr)+w*lr (2-1)

τ(h,lr)＝h'*(1-lr)+h*lr (2-2)

其中，w'和h'分别为待处理帧图像的上一帧图像中目标对象所在框的宽和高，w和h分别为待处理帧图像中目标对象所在框的宽高；lr为加权比例，即为更新率，本实施例中，该更新率可以设定多个，并从多个更新率中自适应地选取一个最合适的更新率来得到更新后候选位置信息。

当针对每个更新率得到一个更新后候选位置信息后，可以按照如下公式2-3来计算待处理帧图像中，每个更新后候选位置信息对应子图像与目标图片块之间的距离，其中，

为更新后候选位置信息对应子图像的特征信息，

为目标图片块的特征信息：

然后选择距离最小的子图像对应的更新后候选位置信息，如公式2-4和2-5得到距离最小的子图像所在框的大小，进而可以得到相应的更新后候选位置信息，其中，多个更新率分别为lr、

和lr*γ：

需要说明的是，由于目标对象在遇到相似背景干扰及短暂遮挡时，如果只通过上述步骤101和102的方式，获取的待处理帧图像静态的外观特征(即上述第二特征信息)必然会损失部分信息，进而使得对待处理帧图像的目标对象定位不是很准确。本实施例中，目标跟踪系统不仅需要考虑到待处理帧图像的外观特征，还需要结合待处理帧图像的运动特征，即通过步骤103和104的方法，获取待处理帧图像的第二光流信息，使得最终获取的目标对象的位置信息更准确，提高了对待处理帧图像中目标对象定位的准确率。

在一个具体的实施例中，上述步骤101和102可以由基于人工智能的外观特征模型来实现，而该外观特征模型可以通过如下步骤来训练，流程图如图4所示，包括：

步骤201，确定初始外观特征模型，初始外观特征模型包括外观特征提取模块、位置回归模块、分类模块和预测模块。

可以理解，目标跟踪系统在确定初始外观特征模型时，会确定初始外观特征模型所包括的多层结构和各层结构中参数的初始值。其中，各层结构中的参数是指初始外观特征模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

如图5所示，初始外观特征模型的结构具体可以包括：外观特征提取模块，用于分别提取待处理帧图像和目标图片块的特征信息，一般为孪生网络；位置回归模块，用于根据特征提取模块提取的待处理帧图像和目标图片块的特征信息，确定待处理帧图像中目标对象所在的候选框的位置信息；预测模块，用于选取某一候选框的位置信息作为样本图像中样本对象的位置信息，具体地，可以计算各个候选框内图像与目标图片块之间的匹配分数，如果某一候选框对应的匹配分数大于某一阈值，则将该候选框的位置信息作为目标对象的位置信息；分类模块，用于确定位置回归模块确定的目标对象所在的候选框内图像是否属于目标对象，具体地可以输出目标对象所在的候选框内图像属于目标对象的概率信息，如果该概率信息大于预置值，则目标对象所在框内图像属于目标对象。

需要说明的是，如图5所示，一般在具体实现时，初始外观特征模型中的分类模块可以包括两个，即在位置回归模块之后连接一个分类模块，且该分类模块在进行分类时还需要基于上述外观特征提取模块提取的特征信息来分类；在预测模块之后还会连接另一分类模型，用于确定预测模块预测的位置信息对应图像是否属于样本对象。

步骤202，确定第一训练样本，第一训练样本中包括多个第一样本图像组，每个第一样本图像组包括样本对象图片块、至少一个样本图像及样本图像中多个样本框的位置标注信息和各个样本框是否属于样本对象所在框的类型标注。

步骤203，通过外观特征提取模块分别获取样本对象图片块和样本图像的特征信息，位置回归模块根据样本对象图片块和样本图像的特征信息确定样本图像中样本对象所在的候选框的位置信息，预测模块选取某一候选框的位置信息作为样本图像中样本对象的位置信息，分类模块确定位置回归模块确定的样本对象所在的候选框内图像是否属于样本对象的类型信息。

其中，预测模块具体可以将各个候选框内图像与样本对象图片块之间进行特征匹配，并计算样本对象所在的各个候选框内图像与样本对象图片块之间的匹配分数，如果某一候选框对应的匹配分数大于某一阈值，则将该候选框的位置信息作为样本对象的位置信息。具体地，在将各个候选框内图像与样本对象图片块之间进行特征匹配时，可以分别将候选框内图像与样本对象图片块之间的全局特征和局部特征进行匹配。

步骤204，根据预测模块得到的位置信息及第一训练样本中的位置标注信息，及分类模块确定的类型信息及第一训练样本中的类型标注，调整初始外观特征模型，以得到最终的外观特征模型。

具体地，目标跟踪系统会先根据预测模块得到的位置信息和第一训练样本中的位置标注信息，计算与外观特征提取模块、位置回归模块和预测模块相关的第一损失函数，该第一损失函数用于指示外观特征提取模块、位置回归模块和预测模块得到的样本对象的位置信息，与第一训练样本中各个样本图像中样本对象实际的位置信息(根据位置标注信息得到)之间的误差，比如交叉熵损失函数等；根据分类模块得到的类型信息和第一训练样本中的类型标注，计算与外观特征提取模块、位置回归模块和分类模块相关的第二损失函数，该第二损失函数用于指示外观特征提取模块、位置回归模块得到的类型信息，与第一训练样本中各个样本图像中候选框内图像实际的类型(根据类型标注得到)之间的误差；然后再根据第一损失函数和第二损失函数计算一个整体损失函数，比如整体损失函数为第一损失函数和第二损失函数的加权和值等；进而再根据整体损失函数调整上述初始外观特征模型中参数的参数值。

而外观特征模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的初始外观特征模型中参数的参数值，并使得上述整体损失函数的计算值降至最低。

具体地，当计算的整体损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的整体损失函数的函数值减小。

在具体的实现过程中，如上述图5所示，本实施例的外观特征模型主要分为两个阶段，在第一阶段，通过外观特征提取模块和位置回归模块得到样本对象所在的候选框的位置信息，同时用一个分类模型对位置回归模块确定的候选框内图像进行分类；在第二阶段通过预测模块得到样本对象的位置信息，同时也可以用另一个分类模型对预测模块确定的候选框内图像进行分类。这样，目标跟踪系统计算的整体损失函数可以分为即第一阶段和第二阶段的损失函数，而每个阶段的损失函数又可以包括两个部分，即位置回归模块(或预测模块)的部分和分类模型的部分，这样可以通过两个部分的监督，使得对外观特征模型中参数值的调整更准确。

具体地，第一阶段中基于位置回归模块的损失函数L_1,reg和第二阶段中基于预测模块的损失函数L_2,reg可以通过如下公式3-1到公式3-5来计算，而整体损失函数可以通过如下公式3-6来计算，其中，L_1,cls和L_2,cls分为两个阶段中基于分类模块的损失函数：

L＝γ₁L_1,cls+γ₂L_1,reg+γ₃L_2,cls+γ₄L_2,reg (3-6)

其中，A_x，A_y，A_ω，A_h分别为通过初始外观特征模型得到的位置信息，具体为样本对象所在框的中心点坐标和宽高，T_x，T_y，T_ω，T_h分别为第一训练样本中标注的样本框的中心点坐标和宽高，γ₁，γ₂，γ₃，γ₄为权重值。

另外需要说明的是，上述步骤203到204是通过初始外观特征模型得到的位置信息及分类模块得到的类型信息对初始外观特征模型中参数的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对参数值的调整满足一定的停止条件为止。

因此，目标跟踪系统在执行了上述实施例步骤201到204之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的初始外观特征模型，返回执行上述步骤203到204。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

在另一个具体的实施例中，上述步骤103和104可以由基于人工智能的运动特征模型来实现，而该运动特征模型可以通过如下步骤来训练，流程图如图6所示，包括：

步骤301，确定初始运动特征模型，初始运动特征模型包括运动特征提取模块和位置确定模块。

可以理解，目标跟踪系统在确定初始运动特征模型时，会确定初始运动特征模型所包括的多层结构和各层结构中参数的初始值。其中，各层结构中的参数是指初始运动特征模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如参数规模、网络层数、用户向量长度等参数。

而初始运动特征模型的结构具体可以包括：运动特征提取模块，用于分别提取任意两帧图像的光流信息的特征及目标图片块在某一帧图像中的参考位置信息的特征；位置确定模块，用于根据运动特征提取模块提取的特征，确定目标对象在上述任意两帧图像中另一帧图像中的位置信息。

步骤302，确定第二训练样本，第二训练样本中包括多个第二样本图像组，每个第二样本图像组包括两个样本图像分别对应的光流信息及样本对象分别在两个样本图像中的位置标注信息。

步骤303，通过运动特征提取模块分别提取第二样本图像组中每个样本图像的光流信息的特征，及样本对象在某一样本图像中的位置标注信息的特征，位置确定模块根据运动特征提取模块提取的特征确定第二样本图像组内样本对象在另一样本图像中的位置信息。

步骤304，根据位置确定模块得到的位置信息及第二训练样本中的位置标注信息，调整初始运动特征模型，以得到最终的运动特征模型。

具体地，目标跟踪系统会先根据位置确定模块得到的位置信息和第二训练样本中的位置标注信息，计算与运动特征提取模块和位置确定模块相关的损失函数，该损失函数用于指示运动特征提取模块和位置确定模块得到的样本对象的位置信息，与第二训练样本中各个样本图像中样本对象实际的位置信息(根据位置标注信息得到)之间的差别，进而再根据计算的损失函数调整上述初始运动特征模型中参数的参数值。

而运动特征模型的训练过程就是需要尽量减少上述差别的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤301中确定的初始运动特征模型中参数的参数值，并使得上述计算的损失函数的计算值降至最低。具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变参数值，比如将某个神经元连接的权重值减小等，使得按照调整后的参数值计算的损失函数的函数值减小。

在一个具体的实施中，目标跟踪系统计算的基于运动特征模型的损失函数采用(D-IOU)损失，具体地，可以采用如下公式4来表示：

其中，ρ为欧式距离，b和b^gt分别为位置确定模块确定的位置信息(具体为样本对象所在框即预测框的中心坐标)和第二训练标样本中的位置标注信息(具体为第二训练样本中样本对象所在框即标注框的中心坐标)，c为包围预测框和标注框的最小矩形的对角线长度。

另外需要说明的是，上述步骤303到304是通过初始运动特征模型得到的位置信息对初始运动特征模型中参数的参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤303到304，直到对参数值的调整满足一定的停止条件为止。

因此，目标跟踪系统在执行了上述实施例步骤301到304之后，还需要判断当前对参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整参数值后的初始运动特征模型，返回执行上述步骤303到304。其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的参数值与上一次调整的参数值的差值小于一阈值，即调整的参数值达到收敛；及对参数值的调整次数等于预置的次数等。

以下以一个具体的应用实例来说明本发明中目标跟踪方法，如图7所示，本实施例中的目标跟踪系统为多线索两阶段跟踪器，记为M-SPM，可以包括外观特征模型、运动特征模型、自适应更新模块和输出模块，其中：

外观特征模型，用于提取目标图片块和待处理帧图像的特征信息，并根据提取的特征信息确定目标对象在待处理帧图像中的第一候选位置信息。

具体地，该外观特征模块具体为孪生网络，具体结构如上述图5所示，在第一阶段，可以通过外观特征提取模块分别提取目标图片块的第一特征信息和待处理帧图像的第二特征信息，第一特征信息作为卷积核在第二特征信息上进行卷积，确定出待处理帧图像中目标对象所在的多个候选框的位置信息，同时得到各个候选框内图像是否属于目标对象的概率信息，进而将概率信息最高的k个候选框的位置信息，即

传入第二阶段，k可以为48。

在第二阶段，预测模块具体可以通过感兴趣区域对齐(region of interestalign，RoIAlign)操作截取各个候选框c_i内图像的第四层和第六层的特征得到各个候选框的特征信息

且将各个候选框的特征信息

与目标图片块的特征信息

进行匹配，匹配的网络具体可以为两层卷积全连接层，得到每个候选框的匹配分数，进而根据匹配分数确定其中一个候选框为目标对象所在框。其中，在将各个候选框的特征信息

与目标图片块的特征信息

进行匹配时，主要可以采用多粒度的特征匹配，即全局特征信息的匹配及局部特征信息的匹配，分别得到相应的匹配分数，并将各个匹配分数融合集合得到任一候选框对应的匹配分数。这样，可以对抗待处理帧图像中复杂背景的干扰，使得最终预测得到的第一候选位置信息更准确。

自适应更新模块，用于自适应地确定更新率，并基于确定的更新率、外观特征模型确定的目标对象在待处理帧图像的上一帧图像的位置信息，对外观特征模型确定的第一候选位置信息进行更新得到更新后候选位置信息，并传输给输出模块。

其中，在实际应用的可视化结果中，可以发现通过自适应更新模块自适应选择的更新率基本与目标对象的运动速度相关，运动速度较大时，目标对象在前后两帧图像之间的位置变化较大，则自适应更新模块在更新上述第一候选位置信息时，考虑目标对象在当前的待处理帧图像中位置信息的比率较大，反之亦然。

运动特征模型，用于根据参考帧图像的第一光流信息、目标对象在参考帧图像中的参考位置信息及待处理帧图像(或者预处理后的待处理帧图像)的第二光流信息，确定目标对象在待处理帧图像中的第二候选位置信息。则在一个具体的实施例中，目标跟踪系统还可以包括预处理模块，用于对待处理帧图像进行预处理，比如，将待处理帧图像转化到参考帧图像的坐标系下，这样可以消除待处理帧图像与参考帧图像之间由于拍摄装置运动带来的干扰。

其中，第一光流信息和第二光流信息可以采用Gunnar Farneback算法来计算，得到稠密光流。第一光流信息与参考位置信息进入长短期记忆网络(Long Short-TermMemory，LSTM)后，包括编码器和解码器，而第二光流信息进入LSTM的解码器后，输出目标对象在待处理帧图像中的第二候选位置信息。

输出模块，用于根据上述自适应更新模块得到的更新后候选位置信息及运动特征模型得到的第二候选位置信息，确定目标对象在待处理帧图像中的位置信息。

本实施例的目标跟踪方法主要包括如下两个部分：

(一)训练得到外观特征模型和运动特征模型。

一方面，在训练外观特征模型时，可以采用上述图4所示的方法进行训练，其中，在确定第一训练样本时，可以从四个公开的数据集中选择，包括：视频数据集VID和YoutubeBB，及检测数据集DET和COCO。

具体地，可以先在视频数据集中随机选取某个视频片段，再从视频片段纵随机抽取一帧图像作为样本对象图片块所在的参考帧图像，进而可以得到样本对象图片块，还可以加入模糊翻转等增强方法对样本对象图片块进行预处理。之后在选取样本图像时，由于视频数据集VID中每帧图像均进行了标注，因此，在选取样本图像时，可以在某一参考帧图像前后100帧的范围内随机抽取一帧图像作为样本图像；而视频数据集YoutubeBB中的图像为每秒标注一帧图像，因此在选取样本图像时，可以在参考帧图像前后有标注信息的多帧(比如3帧)图像中抽取一帧图像作为样本图像。进一步地，为了避免由于网络较深，边缘增加的填白过多带来的中心偏好，在选取样本图像后，可以加入随机平移等方法对样本图像进行预处理，即将样本对象从样本图像的中心随机移动一定的距离以增强外观特征模型的学习。

在训练外观特征模型的过程中，可以选择检测集对训练的外观特征模型进行检测，该检测集可以从检测数据集中选取，具体地，可以直接选择同类或者不同类的图片组成正负图片对输入训练好的外观特征模型。

在调整初始外观特征模型中参数值的过程中，可以采用梯度更新规则(Stochastic Gradient Descent，SGD)优化器进行调整，学习率为0.0001。且为了使网络更稳定地收敛，可以采用前10个时期(epoch)先冻住主干网络(即上述的外观特征提取模块)中的参数值，即不对主干网络中的参数值进行调整，仅训练第二阶段的网络(即预测模块)以及第一阶段的分类分支和回归分支(即分类模块和位置回归模块)，在第11个时期开始训练主干网络中的参数值。

另外一方面，在训练运动特征模型时，可以采用上述图6所示的方法进行训练，其中，在选择第二训练样本时，可以采用数据集VID，对数据集VID中每个视频片段，随机选取连续7帧图像的视频小片段，前6帧图像为观测帧，第7帧图像为预测帧，以预测第7帧图像中样本对象的位置信息。且在训练运动特征模型时，可以采用自适应矩估计(Adaptivemoment estimation，ADAM)优化器对初始运动特征模型中的参数值进行调整，学习率可以为0.001。

(二)对任意视频中的目标对象进行跟踪。

对于任一视频来说，在对该视频中进行目标对象的跟踪时，可以将视频的某一帧图像(一般为第一帧图像)作为参考帧图像，并从参考帧图像中进行图像截取，得到包括目标对象的目标图片块，然后可以将目标图片块及视频中除参考帧图像之外的其它帧图像输入到上述目标跟踪系统中，这样目标跟踪系统可以将其它帧图像作为待处理帧图像，得到目标对象的位置信息。

其中，在对视频进行目标对象的跟踪过程中，目标跟踪系统可以先用视频中的第一帧图像作为参考帧图像，并确定第一帧图像中目标对象所在框的位置信息，而第一帧图像后续的5帧图像采用外观特征模型加自适应更新模块得到预测结果，从第7帧图像开始启动运动特征模型即采用外观特征模型、运动特征模型和自适应更新模型得到预测结果，可观测帧数取为6，即通过前6帧图像的光流信息及特征信息推测后续任一帧图像中目标对象的位置信息，运动特征模型和外观特征模型的结构同样以ROI Align的形式截图候选框在主干网络(即上述的外观特征提取模块)提取的特征并分别跟目标特征计算余弦距离，取余弦距离较小的作为最终的预测输出。

在具体实践过程中，一方面，采用现有的基线模型对视频进行目标跟踪，及在基线模型上增加某些特定功能(比如增加多粒度的特征匹配等)后再对视频进行目标跟踪后，分别计算评价指标即准确性、鲁棒性和平均期望重叠率，如下表1所示，其中，准确率为平均交并比，鲁棒性为跟踪器跟踪失败的总帧数，平均期望重叠率为一个视频中，无重新初始化情况下，以不同帧为最大帧求得的交并比的均值，可见，在基线模型上增加运动特征模型后，性能得到很大的提升，即准确率得到提升，鲁棒性降低，且平均期望重叠率也得到提高。

表1

另一方面，采用现有跟踪器的模型对视频进行目标跟踪，及采用本发明实施例中的跟踪器即M-SPM对视频进行目标跟踪后，分别计算评价指标即成功率和精度(或者归一化精度)，如下表2所示。其中，成功率指从0到1区间内各个阈值下评测视频中成功帧的比例的平均，一般取间隔为0.05，共计算20个阈值下的成功帧比例的平均；精度也称准确率，指通过跟踪器模型确定的位置与训练样本中标注的位置之间的欧式距离小于指定距离阈值的帧的比例，这里阈值一般取值从0到51，间隔为1；归一化精度是将计算的精度进行归一化处理，而归一化精度主要考虑到原精度指标的计算对图像分辨率及框的大小较为敏感，因此进行归一化。

其中，现有跟踪器的模型可以包括：SINT、ECO、DSiam、VITAL、StructSiam、Siam-BM、DaSiamRPN、ATOM、SPM、SiamRPN++、DiMP、SiamBAN、MAML和ROAM，而训练各个跟踪器的模型时，分别从数据集OTB100和LaSOT中选取训练样本，可见，无论通过哪个数据集来训练得到本发明实施例中跟踪器的模型M-SPM，并采用M-SPM进行目标跟踪后，得到的成功率和精度都得到较大的提升，且采用数据集OTB100训练模型M-SPM时效果更优。

表2

另一方面，采用现有跟踪器的模型对视频进行目标跟踪，及采用本发明实施例中的跟踪器即M-SPM对视频进行目标跟踪后，分别计算评价指标即准确性、鲁棒性和平均期望重叠率，如下表3所示。其中，现有跟踪器的模型可以包括：LADCF、MFT、SiamRPN、SiamDW、SPM、ATOM、SiamRPN++、SiamMask、SiamBAN、SiamR-CNN和MAML，而训练各个跟踪器的模型时，分别从数据集VOT2018和VOT2019中选取训练样本，可见，无论通过哪个数据集来训练得到本发明实施例中跟踪器的模型M-SPM，并采用M-SPM进行目标跟踪后，得到的准确率和平均期望重叠率都得到较大的提升，且鲁棒性降低，其中采用数据集VOT2018训练模型M-SPM时效果更优。

表3

另一方面，采用现有跟踪器的模型对视频进行目标跟踪，及采用本发明实施例中的跟踪器即M-SPM对视频进行目标跟踪后，分别计算评价指标即成功率和精度，如下表4所示。其中，现有跟踪器的模型可以包括：SiamRPN、SiamMask和DROL，而训练各个跟踪器的模型时，从自构的数据集中选取训练样本，可见，采用本发明实施例中跟踪器的模型M-SPM进行目标跟踪后，得到的冲功率和精度得到较大的提升。

跟踪器	成功率(↑)	精度(↑)
			SiamRPN	0.616	0.406
SiamMask	0.641	0.441
			DROL	0.643	0.441
M-SPM	0.649	0.469

表4

以下以另一具体的应用实例来说明本发明中目标跟踪方法，本发明实施例中的目标跟踪系统主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图8是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图8示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务还包括实现目标跟踪功能的代码，该目标跟踪功能主要包括：

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图9为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例还提供一种目标跟踪系统，其结构示意图如图10所示，具体可以包括：

特征获取单元10，用于获取待处理视频中参考帧图像所包含的目标图片块的第一特征信息，及获取待处理视频中待处理帧图像的第二特征信息；其中，所述目标图片块是包含目标对象的图像。

第一候选单元11，用于根据所述特征获取单元10获取的第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象的第一候选位置信息。

该第一候选单元11，具体用于根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象所在的多个候选框；将所述各个候选框内图像的特征信息与所述参考帧图像中目标图片块的第一特征信息进行匹配，分别得到各个候选框对应的匹配度；根据各个候选框对应的匹配度确定所述待处理帧图像中目标对象的第一候选位置信息。

其中，第一候选单元11在将所述各个候选框内图像的特征信息与所述参考帧图像中目标图片块的第一特征信息进行匹配，分别得到各个候选框对应的匹配度时，具体用于将所述各个候选框内图像的全局特征信息与所述第一特征信息进行匹配，得到第一子匹配度；将所述各个候选框内图像和目标图片块按照同一策略划分为多个区域，分别将各个候选框内图像中每个区域的局部特征信息与所述目标图片块中相应区域的局部特征信息进行匹配，得到第二子匹配度；根据所述第一子匹配度和第二子匹配度，确定所述各个候选框对应的匹配度。

光流信息单元12，用于获取所述参考帧图像的第一光流信息，根据所述待处理帧图像获取第二光流信息，及获取所述目标图片块在参考帧图像中的参考位置信息。

第二候选单元13，用于根据光流信息单元12获取的第一光流信息、第二光流信息及参考位置信息，确定所述待处理帧图像中目标对象的第二候选位置信息。

位置确定单元14，用于根据所述第一候选单元11确定的第一候选位置信息及第二候选单元13确定第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

该位置确定单元14，具体用于设定所述第一候选位置信息的多个更新率；根据所述更新率、第一候选位置信息及所述待处理帧图像的上一帧图像中对象目标的位置信息，分别计算每个更新率下的更新后候选位置信息；分别计算所述待处理帧图像中，每个更新后候选位置信息对应子图像与所述目标图片块之间的距离，并选取距离最小的子图像对应的更新后候选位置信息；根据所述选取的更新后候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

进一步地，本实施例的目标跟踪系统还可以包括：

训练单元15，用于确定初始外观特征模型，所述初始外观特征模型包括外观特征提取模块、位置回归模块、预测模块和分类模块；确定第一训练样本，所述第一训练样本中包括多个第一样本图像组，每个第一样本图像组包括样本对象图片块、至少一个样本图像及样本图像中多个样本框的位置标注信息和各个样本框是否属于样本对象所在框的类型标注；通过所述外观特征提取模块分别获取所述样本对象图片块和样本图像的特征信息，所述位置回归模块根据所述样本对象图片块和样本图像的特征信息确定样本图像中样本对象所在的候选框的位置信息，所述预测模块选取某一候选框的位置信息作为所述样本图像中样本对象的位置信息，分类模块确定位置回归模块确定的样本对象所在的候选框内图像是否属于样本对象的类型信息；根据所述预测模块得到的位置信息及所述第一训练样本中的位置标注信息，及所述分类模块确定的类型信息及所述第一训练样本中的类型标注，调整所述初始外观特征模型，以得到最终的外观特征模型。这样，上述特征获取单元10和第一候选单元11则可以采用训练单元15训练的外观特征模型确定第一候选位置信息。

该训练单元15，还用于当对所述参数值的调整次数等于预置的次数时，或若当前调整的参数值与上一次调整的参数值的差值小于一阈值时，则停止对所述参数值的调整。

进一步地，本实施例的目标跟踪系统还可以包括：

预处理单元16，用于将所述待处理帧图像转化到参考帧图像的坐标系下，得到转化后的处理帧图像；则所述光流信息单元12根据所述待处理帧图像获取第二光流信息时，具体用于获取转化后的处理帧图像的第二光流信息。

其中，预处理单元16在将所述待处理帧图像转化到参考帧图像的坐标系下，得到转化后的处理帧图像时，具体用于根据所述参考帧图像中背景区域特征点的信息与待处理帧图像中背景区域特征点的信息，计算所述参考帧图像与待处理帧图像之间的单应矩阵；根据所述单应矩阵将所述待处理帧图像转化到参考帧图像的坐标系下。

本实施例中，目标跟踪系统可以通过图像的运动特征可以尽可能地抵消图像静态的外观特征在目标对象定位过程中的干扰，比如目标对象的遮挡和背景干扰等，使得最终对目标对象的定位更准确。

本发明实施例还提供一种终端设备，其结构示意图如图11所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括目标跟踪的应用程序，且该程序可以包括上述目标跟踪系统中的特征获取单元10，第一候选单元11，光流信息单元12，第二候选单元13，位置确定单元14，训练单元15和预处理单元16，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中储存的目标跟踪的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作系统223，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由目标跟踪统所执行的步骤可以基于该图11所示的终端设备的结构。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如上述目标跟踪系统所执行的目标跟踪方法。

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如上述目标跟踪系统所执行的目标跟踪方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的一种目标跟踪方法、系统及存储介质和终端设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标跟踪方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中所述目标对象的第一候选位置信息，具体包括：

根据所述第一特征信息及第二特征信息，确定所述待处理帧图像中目标对象所在的多个候选框；

将所述各个候选框内图像的特征信息与所述参考帧图像中目标图片块的第一特征信息进行匹配，分别得到各个候选框对应的匹配度；

根据各个候选框对应的匹配度确定所述待处理帧图像中目标对象的第一候选位置信息。

3.如权利要求2所述的方法，其特征在于，所述将所述各个候选框内图像的特征信息与所述参考帧图像中目标图片块的第一特征信息进行匹配，分别得到各个候选框对应的匹配度，具体包括：

将所述各个候选框内图像的全局特征信息与所述第一特征信息进行匹配，得到第一子匹配度；

将所述各个候选框内图像和目标图片块按照同一策略划分为多个区域，分别将各个候选框内图像中每个区域的局部特征信息与所述目标图片块中相应区域的局部特征信息进行匹配，得到第二子匹配度；

根据所述第一子匹配度和第二子匹配度，确定所述各个候选框对应的匹配度。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定初始外观特征模型，所述初始外观特征模型包括外观特征提取模块、位置回归模块、预测模块和分类模块；

确定第一训练样本，所述第一训练样本中包括多个第一样本图像组，每个第一样本图像组包括样本对象图片块、至少一个样本图像及样本图像中多个样本框的位置标注信息和各个样本框是否属于样本对象所在框的类型标注；

通过所述外观特征提取模块分别获取所述样本对象图片块和样本图像的特征信息，所述位置回归模块根据所述样本对象图片块和样本图像的特征信息确定样本图像中样本对象所在的候选框的位置信息，所述预测模块选取某一候选框的位置信息作为所述样本图像中样本对象的位置信息，分类模块确定位置回归模块确定的样本对象所在的候选框内图像是否属于样本对象的类型信息；

根据所述预测模块得到的位置信息及所述第一训练样本中的位置标注信息，及所述分类模块确定的类型信息及所述第一训练样本中的类型标注，调整所述初始外观特征模型，以得到最终的外观特征模型。

5.如权利要求4所述的方法，其特征在于，当对所述参数值的调整次数等于预置的次数时，或若当前调整的参数值与上一次调整的参数值的差值小于一阈值时，则停止对所述参数值的调整。

6.如权利要求1至5任一项所述的方法，其特征在于，所述根据所述待处理帧图像获取第二光流信息之前，所述方法还包括：将所述待处理帧图像转化到参考帧图像的坐标系下，得到转化后的处理帧图像；

则所述根据所述待处理帧图像获取第二光流信息，具体包括：获取转化后的处理帧图像的第二光流信息。

7.如权利要求6所述的方法，其特征在于，所述将所述待处理帧图像转化到参考帧图像的坐标系下，得到转化后的处理帧图像，具体包括：

根据所述参考帧图像中背景区域特征点的信息与待处理帧图像中背景区域特征点的信息，计算所述参考帧图像与待处理帧图像之间的单应矩阵；

根据所述单应矩阵将所述待处理帧图像转化到参考帧图像的坐标系下。

8.如权利要求1至5任一项所述的方法，其特征在于，所述根据所述第一候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息，具体包括：

设定所述第一候选位置信息的多个更新率；

根据所述更新率、第一候选位置信息及所述待处理帧图像的上一帧图像中对象目标的位置信息，分别计算每个更新率下的更新后候选位置信息；

分别计算所述待处理帧图像中，每个更新后候选位置信息对应子图像与所述目标图片块之间的距离，并选取距离最小的子图像对应的更新后候选位置信息；

根据所述选取的更新后候选位置信息及第二候选位置信息，确定所述待处理帧图像中目标对象的位置信息。

9.一种目标跟踪系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至4任一项所述的目标跟踪方法。

11.一种终端设备，其特征在于，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如权利要求1至4任一项所述的目标跟踪方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。