CN116188535A

CN116188535A - 基于光流估计的视频跟踪方法、装置、设备及存储介质

Info

Publication number: CN116188535A
Application number: CN202211625990.9A
Authority: CN
Inventors: 饶怡; 李骈臻; 刘洛麒
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-30

Abstract

本申请提供了一种基于光流估计的视频跟踪方法、装置、设备及存储介质，其中，该方法包括：首先将视频中相邻两帧的图像，即第一帧图像和第二帧图像首先输入稠密光流预测网络中，得到第一帧图像的第一预测图像，并将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，得到目标预测图像作为第二帧图像的跟踪结果。通过稠密光流预测网络可以实现对第一帧图像中跟踪对象发生的明显变化进行跟踪，再通过稀疏光流预测网络对第一预测图像进行精细的微调和校正，提高了光流预测的准确性，并且根据稠密光流预测网络和稀疏光流预测网络预测到的光流对第一帧图像上的跟踪标识进行相应的形变，提高了视频跟踪的准确性与可靠性。

Description

基于光流估计的视频跟踪方法、装置、设备及存储介质

技术领域

本申请涉及视频跟踪技术领域，具体而言，涉及一种基于光流估计的视频跟踪方法、装置、设备及存储介质。

背景技术

光流估计利用图像序列中像素的变化以及相邻帧之间的相关性，来找到上一帧跟当前帧的像素点之间存在的对应关系，从而计算出相邻帧之间像素点的运动信息。光流估计有许多应用，如动作识别、自动驾驶、视频编辑、视频跟踪等。

近年来，卷积神经网络((Convolutional Neural Networks,CNN))在很大程度上促进了计算机视觉领域的发展，针对光流估计问题，目前也提出了多种光流CNN模型，这些方法可以通过训练网络直接预测光流。

但是，利用现有的光流CNN模型进行光流估计时，针对快速移动的物体进行光流预测的准确度较低，因此基于光流进行视频跟踪的可靠性也难以保证。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种基于光流估计的视频跟踪方法、装置、设备及存储介质，以解决现有技术中视频跟踪的可靠性难以保证的问题。

为实现上述目的，本申请采用的技术方案如下：

第一方面，本申请提供了一种基于光流估计的视频跟踪方法，所述方法包括：

获取第一帧图像和第二帧图像，所述第一帧图像为所述第二帧图像的前一个帧图像，所述第一帧图像中包括：跟踪对象以及依附在所述跟踪对象上的跟踪标识；

将所述第一帧图像和所述第二帧图像输入稠密光流预测网络中，预测所述第一帧图像和所述第二帧图像的稠密光流信息，并根据所述稠密光流信息得到所述第一帧图像的第一预测图像，所述第一预测图像中包括：所述跟踪对象以及依附在所述跟踪对象上的所述跟踪标识的第一形变标识；

将所述第一预测图像、所述第一帧图像和所述第二帧图像输入稀疏光流预测网络中，预测所述第一帧图像和所述第二帧图像的稀疏光流信息，并基于所述稀疏光流信息和所述第一预测图像预测得到所述第一帧图像的目标预测图像，将所述目标预测图像作为所述第二帧图像的跟踪结果，所述目标预测图像中包括：所述跟踪对象以及依附在所述跟踪对象上的所述跟踪标识的目标形变标识。

可选的，所述稠密光流预测网络中包括：依次连接的多个稠密光流预测子网络；

所述将所述第一帧图像和所述第二帧图像输入稠密光流预测网络中，预测所述第一帧图像和所述第二帧图像的稠密光流信息，并根据所述稠密光流信息得到所述第一帧图像的第一预测图像，包括：

将所述第一帧图像和所述第二帧图像输入首个稠密光流预测子网络中，预测所述第一帧图像和所述第二帧图像的初始稠密光流信息；

根据所述初始稠密光流信息以及所述第一帧图像，得到所述首个稠密光流预测子网络的初始预测图像；

将所述初始预测图像以及所述第二帧图像输入所述首个稠密光流预测子网络的后一稠密光流预测子网络中，并由所述首个稠密光流预测子网络后的各稠密光流预测子网络依次进行预测处理，得到所述第一帧图像和所述第二帧图像的稠密光流信息；

根据所述稠密光流信息得到所述第一帧图像的第一预测图像。

可选的，所述根据所述初始稠密光流信息以及所述第一帧图像，得到所述首个稠密光流预测子网络的初始预测图像，包括：

对所述初始稠密光流信息以及所述第一帧图像进行插值运算，得到所述首个稠密光流预测子网络的初始预测图像。

可选的，所述对所述初始稠密光流信息以及所述第一帧图像进行插值运算，得到所述首个稠密光流预测子网络的初始预测图像，包括：

根据所述初始稠密光流信息对所述第一帧图像进行插值计算，确定所述第一帧图像中各像素点的形变后位置；

将各像素点移动到对应的形变后位置，得到所述初始预测图像。

可选的，所述将所述第一预测图像、所述第一帧图像和所述第二帧图像输入稀疏光流预测网络中，预测所述第一帧图像和所述第二帧图像的稀疏光流信息，并基于所述稀疏光流信息和所述第一预测图像预测得到所述第一帧图像的目标预测图像，包括：

将所述第一预测图像、所述第一帧图像和所述第二帧图像输入稀疏光流预测网络中，由所述稀疏光流预测网络根据所述第一帧图像和所述第二帧图像预测得到所述稀疏光流信息；

根据所述稀疏光流信息对所述第一预测图像进行插值处理，得到所述第一帧图像的目标预测图像。

可选的，所述由所述稀疏光流预测网络根据所述第一帧图像和所述第二帧图像预测得到所述稀疏光流信息，包括：

由所述稀疏光流预测网络对所述第一帧图像和所述第二帧图像进行特征点检测，得到所述第一帧图像中的多个第一特征点和各所述第一特征点在所述第二帧图像中对应的第二特征点，并根据各所述第一特征点和各第二特征点的距离确定所述稀疏光流信息。

可选的，所述将所述第一帧图像和所述第二帧图像输入稠密光流预测网络中之前，包括：

获取预先标注的第一样本图像和预先标注的第二样本图像，其中，所述第一样本图像和所述第二样本图像中分别标注有跟踪对象以及对应的跟踪标识；

将所述第一样本图像和所述第二样本图像输入初始稠密光流预测网络中，得到所述第一样本图像的第一预测样本图像；

将所述第一预测样本图像、所述第一样本图像和所述第二样本图像输入初始稀疏光流预测网络中，得到所述样本图像的目标预测样本图像；

根据所述目标预测样本图像和所述第二样本图像确定损失值，并根据所述损失值对所述初始稠密光流预测网络和所述初始稀疏光流预测网络进行迭代修正，得到所述稠密光流预测网络和所述稀疏光流预测网络。

第二方面，本申请提供了一种基于光流估计的视频跟踪装置，所述装置包括：

获取模块，用于：获取第一帧图像和第二帧图像，所述第一帧图像为所述第二帧图像的前一个帧图像，所述第一帧图像中包括：跟踪对象以及依附在所述跟踪对象上的跟踪标识；

稠密光流预测模块，用于：将所述第一帧图像和所述第二帧图像输入稠密光流预测网络中，预测所述第一帧图像和所述第二帧图像的稠密光流信息，并根据所述稠密光流信息得到所述第一帧图像的第一预测图像，所述第一预测图像中包括：所述跟踪对象以及依附在所述跟踪对象上的所述跟踪标识的第一形变标识；

稀疏光流预测模块，用于：将所述第一预测图像、所述第一帧图像和所述第二帧图像输入稀疏光流预测网络中，预测所述第一帧图像和所述第二帧图像的稀疏光流信息，并基于所述稀疏光流信息和所述第一预测图像预测得到所述第一帧图像的目标预测图像，将所述目标预测图像作为所述第二帧图像的跟踪结果，所述目标预测图像中包括：所述跟踪对象以及依附在所述跟踪对象上的所述跟踪标识的目标形变标识。

所述稠密光流预测模块还用于：

可选的，所述稠密光流预测模块还用于：

可选的，所述稀疏光流预测模块还用于：

第三方面，本申请提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述基于光流估计的视频跟踪方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述基于光流估计的视频跟踪方法的步骤。

本申请的有益效果是：通过稠密光流预测网络可以实现对第一帧图像中跟踪对象发生的明显变化(例如较大的运动位移或较大的形变等)进行跟踪，再通过稀疏光流预测网络对第一预测图像进行精细的微调和校正，提高了光流预测的准确性，并且根据稠密光流预测网络和稀疏光流预测网络预测到的光流对第一帧图像上的跟踪标识进行相应的形变，提高了视频跟踪的准确性与可靠性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种应用场景的示意图；

图2示出了本申请实施例提供的一种基于光流估计的视频跟踪方法的流程图；

图3示出了本申请实施例提供的一种确定第一预测图像的流程图；

图4示出了本申请实施例提供的一种稠密光流预测网络的结构示意图；

图5示出了本申请实施例提供的一种确定初始预测图像的流程图；

图6示出了本申请实施例提供的一种确定目标预测图像的流程图；

图7示出了本申请实施例提供的一种训练稠密光流预测网络和稀疏光流预测网络的流程图；

图8示出了本申请实施例提供的又一种训练稠密光流预测网络和稀疏光流预测网络的流程图；

图9示出了本申请实施例提供的一种基于光流估计的视频跟踪装置的结构示意图；

图10示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

近年来，卷积神经网络在很大程度上促进了计算机视觉领域的发展。受深度学习在高级视觉任务中的成功启发，本领域人员已经提出了多种光流CNN模型，这些模型可以直接预测一对帧之间的光流，避免了传统光流方法(能量最小化优化函数)的优化问题。

然而，利用现有的光流CNN模型进行光流估计，例如对视频中的相邻两帧图片中的对象进行光流估计时，前一帧图片中的每个像素都可以与另一帧图片中的数千个点合理配对，计算量很大，针对快速移动的物体进行光流预测的准确度也较低。

因此，在基于上述方法预测出的光流进行视频跟踪时，就会出现光流准确度低造成的视频跟踪效果不可靠的问题。

基于上述问题，本申请提出一种基于光流估计的视频跟踪方法，通过从粗到细的预测光流，以及检测特征点去微调优化光流，可以充分利用相邻两帧图片之间的信息，得到高精度、光滑的光流场，并基于光流场实现可靠的视频跟踪效果。

图1是本申请给出的一种该方法的应用场景示意图，如图1所示，一个健身视频中相邻的两帧图片输入电子设备，并在前一帧图片上选择人员甲的背部作为跟踪对象并在跟踪对象上添加贴图，电子设备就可以基于本申请的方法对输入的后一帧图片上的甲的背部添加贴图，并实现贴图随着甲的背部的运动或形变产生相应的变化。

接下来结合图2对本申请的基于光流估计的视频跟踪方法作进一步说明，该方法的执行主体可以是电子设备，如图2所示，该方法包括：

S201：获取第一帧图像和第二帧图像，第一帧图像为第二帧图像的前一个帧图像，第一帧图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识。

可选的，第一帧图像可以是从视频中任意位置采样得到的图像，第二帧图片可以是与第一帧图像相邻且在第一帧图像之后的该视频中的图像。

可选的，跟踪对象可以是第一帧图像中用户希望进行跟踪的对象。示例性的，假设用户希望跟踪一个健身视频中人员甲的背部的运动信息，参照图1，那么这里的跟踪对象就可以使甲的背部，跟踪标识就可以是在第一帧图片中甲的背部添加的“贴图标识”。

可选的，跟踪标识可以是文字、贴图等可以对视频中跟踪对象位置、形状、大小发生的变化进行具象化展示的标识，例如假设跟踪对象的逐渐变小，那么跟踪标识也可以随着跟踪对象等比例缩小。跟踪标识具体的表现形式本申请在此不做限制。

示例性的，电子设备可以从视频中采样相邻两帧的图像，并对图像进行光度增强、空间增强和遮挡增强等预处理，得到第一帧图像和第二帧图像，并向第一帧图像中的跟踪对象上添加跟踪标识。其中，光度增强可以是以0.2的概率随机对图像调整亮度、对比度、饱和度和色调；空间增强可以是以0.8的概率随机对图像尺度变化和拉伸，遮挡增强可以是以0.5的概率随机对图像擦除矩形区域以模拟遮挡情况。

S202：将第一帧图像和第二帧图像输入稠密光流预测网络中，预测第一帧图像和第二帧图像的稠密光流信息，并根据稠密光流信息得到第一帧图像的第一预测图像，第一预测图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识的第一形变标识。

可选的，稠密光流预测网络可以是对输入的第一帧图像和第二帧图像进行稠密光流预测的网络或模型。

稠密光流预测网络可以包括解码器和编码器，用于提取第一帧图像和第二帧图像中的特征，预测出第一帧图像和第二帧图像的至少一个稠密光流，并根据稠密光流对第一帧图片进行形变处理，得到第一帧图像的第一预测图像。

可选的，稠密光流信息可以是第一帧图像和第二帧图像上所有的点的偏移量组成的光流场，根据稠密光流信息可以进行点到点的、像素级别的图像配准。

可选的，第一预测图像可以是对第一帧图像中的跟踪标识根据稠密光流信息进行形变处理之后得到的图像。

值得说明的是，第一帧图像中跟踪标识的形状、大小、位置等应当随着第一帧图像中跟踪对象的变化而改变为第一形变标识。

S203：将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，预测第一帧图像和第二帧图像的稀疏光流信息，并基于稀疏光流信息和第一预测图像预测得到第一帧图像的目标预测图像，将目标预测图像作为第二帧图像的跟踪结果，目标预测图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识的目标形变标识。

可选的，稀疏光流预测网络可以是对输入的第一帧图像和第二帧图像进行稀疏光流预测的网络或模型。

可选的，稀疏光流信息可以用于根据图像中的对应的关键点实现图像配准。根据稀疏光流信息可以对第一预测图像中的跟踪标识再次进行形变处理，得到目标预测图像。

可选的，目标预测图像可以是对第一预测图像中的第一形变标识根据稀疏光流信息进行形变处理之后得到的图像。

作为一种可能的实施方式，将目标预测图像作为第二帧图像的跟踪结果，可以是将目标预测图像中的跟踪标识复制到第二帧图像中的对应位置上。

值得说明的是，上述步骤中根据稠密光流信息以及稀疏光流信息对图像进行预测，可以理解为根据稀疏光流信息以及稠密光流信息对跟踪标识进行形变处理，得到最终的目标形变标识，即完成视频的跟踪。

本申请中，首先将视频中相邻两帧的图像，即第一帧图像和第二帧图像首先输入稠密光流预测网络中，得到第一帧图像的第一预测图像，并将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，得到目标预测图像作为第二帧图像的跟踪结果。通过稠密光流预测网络可以实现对第一帧图像中跟踪对象发生的明显变化(例如较大的运动位移或较大的形变等)进行跟踪，再通过稀疏光流预测网络对第一预测图像进行精细的微调和校正，提高了光流预测的准确性，并且根据稠密光流预测网络和稀疏光流预测网络预测到的光流对第一帧图像上的跟踪标识进行相应的形变，提高了视频跟踪的准确性与可靠性。

接下来对本申请中的稠密光流预测网络进行说明，稠密光流预测网络中可以包括：依次连接的多个稠密光流预测子网络。

如图3所示，上述S202步骤中将第一帧图像和第二帧图像输入稠密光流预测网络中，预测第一帧图像和第二帧图像的稠密光流信息，并根据稠密光流信息得到第一帧图像的第一预测图像，包括：

S301：将第一帧图像和第二帧图像输入首个稠密光流预测子网络中，预测第一帧图像和第二帧图像的初始稠密光流信息。

可选的，稠密光流预测网络中可以包括多个依次连接的稠密光流预测子网络，示例性的，图4给出了一种包括三个稠密光流预测子网络的稠密光流预测网络的结构示意图，首个稠密光流预子网络可以根据输入的第一帧图像和第二帧图像输出初始稠密光流信息。

可选的，初始稠密光流信息可以是精度较低的稠密光流信息，可以表征第一帧图像和第二帧图像之间精度较低的光流场。

S302：根据初始稠密光流信息以及第一帧图像，得到首个稠密光流预测子网络的初始预测图像。

可选的，继续参照图4，根据初始稠密光流信息以及第一帧图像，可以得到首个稠密光流预测子网络的初始预测图像，初始预测图像可以理解为根据初始稠密光流信息对第一帧图像中的跟踪标识进行形变得到的图像。

S303：将初始预测图像以及第二帧图像输入首个稠密光流预测子网络的后一稠密光流预测子网络中，并由首个稠密光流预测子网络后的各稠密光流预测子网络依次进行预测处理，得到第一帧图像和第二帧图像的稠密光流信息。

值得说明的是，在首个稠密光流预测子网络之后，各稠密光流预测子网络可以将上一个稠密光流预测子网络输出的稠密光流信息，以及第二帧图像都作为输入，最终得到第一帧图像和第二帧图像的稠密光流信息。

可选的，各稠密光流预测子网络输出的稠密光流信息的精度可以依次增大，即越靠后的稠密光流预测子网络输出的稠密光流信息的精度越高。

示例性的，参照图4，将第一帧图像和第二帧图像输入首个稠密光流预测子网络中之后，可以得到一个稠密光流信息1，根据稠密光流信息1对第一帧图像进行预测，得到初始预测图像，也就是图4中的预测图像1。将预测图像1和第二帧图像继续作为第二个稠密光流预测子网络的输入，可以得到稠密光流信息2，接下来根据稠密光流信息2对预测图像1进行预测，可以得到预测图像2，然后将预测图像2和第二帧图像作为第三个稠密光流预测子网络的输入，可以得到稠密光流信息3，最后根据稠密光流信息3对预测图像2进行预测，可以得到预测图像3(即第一预测图像)。

需要说明的是，图4中稠密光流信息3的精度大于稠密光流信息2的精度，稠密光流信息2的精度大于稠密光流信息1的精度。这样可以实现对光流由粗到细的迭代细化，使得生成的预测图像更加准确、可靠。

S304：根据稠密光流信息得到第一帧图像的第一预测图像。

示例性的，图4中根据稠密光流信息3以及预测图像2，可以得到第一帧图像的第一预测图像，即预测图像3。

值得说明的是，本申请中稠密光流预测网络中的各稠密光流预测子网络可以不共享参数，除首个稠密光流预测子网络之外的其他稠密光流预测子网络，都可以在上一个稠密光流预测子网络的参数的基础上进行微调优化，从而加快收敛速度。

在本申请实施例中，通过稠密光流预测子网络对输入的第一帧图像和第二帧图像进行预测，得到的第一预测图像可以快速捕捉到跟踪对象的明显位移和形状变化，实现快速的跟踪对象检测。

接下来对上述根据初始稠密光流信息以及第一帧图像，得到首个稠密光流预测子网络的初始预测图像的步骤进行说明，上述S302步骤包括：

对初始稠密光流信息以及第一帧图像进行插值运算，得到首个稠密光流预测子网络的初始预测图像。

可选的，插值运算可以是最近邻插值法、双三次插值法或双线性插值方法，其中，双线性插值法可以作为优选的一种方法。

参照图4，初始稠密光流信息可以是图中的稠密光流信息1，根据稠密光流信息1对第一帧图像进行插值运算，可以得到预测图像1，即初始预测图像。

如图5所示，是上述对初始稠密光流信息以及第一帧图像进行插值运算，得到首个稠密光流预测子网络的初始预测图像的步骤说明，该步骤包括：

S501：根据初始稠密光流信息对第一帧图像进行插值计算，确定第一帧图像中各像素点的形变后位置。

可选的，根据初始稠密光流信息对第一帧图像中的各像素点进行插值计算，需要说明的是，由于计算出的值可能是浮点型，而图像中像素位置要求是整型，所以可以采用插值算法，例如双线性插值算法进行插值计算，从而确定第一帧图像中各像素点的形变后位置。

S502：将各像素点移动到对应的形变后位置，得到初始预测图像。

可选的，在得到第一帧图像中各像素点的形变后位置之后，可以将第一帧图像中的各像素点移动到对应的形变后位置上，得到初始预测图像。

示例性的，假设对第一帧图像中点A进行插值计算后得到的形变后位置为A’，那么就可以将第一帧图像中的点A移动到A’上，并对第一帧图像上的所有点都进行该操作，从而得到初始预测图像。

值得说明的是，图4中根据稠密光流信息对图像进行预测得到预测图像，都可以通过上述S501-S502步骤实现，即图4中可以根据稠密光流信息2对预测图像1进行插值计算，得到预测图像2，然后根据稠密光流信息3对预测图像2进行插值计算，得到预测图像3，也就是前述的第一预测图像。

在上述通过稠密光流网络进行预测得到第一预测图像之后，本申请可以将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，预测第一帧图像和第二帧图像的稀疏光流信息，并基于稀疏光流信息和第一预测图像预测得到第一帧图像的目标预测图像，如图6所示，上述S203步骤包括：

S601：将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，由稀疏光流预测网络根据第一帧图像和第二帧图像预测得到稀疏光流信息。

可选的，稀疏光流信息可以是第一帧图像和第二帧图像中的对应点的偏移量组成的光流。示例性的，参照图1，第一帧图像和第二帧图像中的对应点可以是跟踪对象(甲的背部)上的关键点。

S602：根据稀疏光流信息对第一预测图像进行插值处理，得到第一帧图像的目标预测图像。

可选的，根据稀疏光流信息对第一预测图像进行插值处理的步骤可以参照上述S501-S502步骤，得到第一帧图像的目标预测图像，即图1中的跟踪后的后一帧图片，具体过程本申请在此不做赘述。

以下是对上述由稀疏光流预测网络根据第一帧图像和第二帧图像预测得到稀疏光流信息的步骤的进一步说明，上述S601步骤包括：

由稀疏光流预测网络对第一帧图像和第二帧图像进行特征点检测，得到第一帧图像中的多个第一特征点和各第一特征点在第二帧图像中对应的第二特征点，并根据各第一特征点和各第二特征点的距离确定稀疏光流信息。

可选的，可以首先采用特征点检测算法对第一帧图像和第二帧图像进行特征点检测，得到第一帧图像中的多个第一特征点和各第一特征点在第二帧图像中对应的第二特征点。

示例性的，特征点检测算法可以是加速稳健特征算法(Speeded Up RobustFeature,SURF)、尺度不变特征转换算法(Scalelnvariant Feature Transform,SIFT)、加速分割测试获得特征算法(Features from Accelerated Segment Test，FAST)等，本申请在此不作限制。

在上述基于光流估计进行视频跟踪之前，可以先训练得到本申请的稠密光流预测网络和稀疏光流预测网络，如图7所示，是对训练过程的具体说明：

S701：获取预先标注的第一样本图像和预先标注的第二样本图像，其中，第一样本图像和第二样本图像中分别标注有跟踪对象以及对应的跟踪标识。

可选的，第一样本图像和第二样本图像可以是相邻两帧的图像。其中，第一样本图像中包括标注的跟踪对象以及依附在跟踪对象上的跟踪标识，第二样本图像中可以预先标注好跟踪对象，并在跟踪对象上预先标注好跟踪标识。

S702：将第一样本图像和第二样本图像输入初始稠密光流预测网络中，得到第一样本图像的第一预测样本图像。

可选的，初始稠密光流预测网络中可以包括依次连接的多个初始稠密光流预测子网络，用于根据输入的图像预测稠密光流信息。

可选的，第一预测样本图像可以是根据稠密光流信息对第一样本图像进行插值处理得到的形变后的图像。

S703：将第一预测样本图像、第一样本图像和第二样本图像输入初始稀疏光流预测网络中，得到样本图像的目标预测样本图像。

可选的，初始稀疏光流预测网络可以用于根据第一样本图像和第二样本图像生成稀疏光流信息，并根据稀疏光流信息对第一预测样本图像进行插值处理，得到最终形变后的目标预测样本图像。

S704：根据第一预测样本图像、目标预测样本图像和第二样本图像确定损失值，并根据损失值对初始稠密光流预测网络和初始稀疏光流预测网络进行迭代修正，得到所述稠密光流预测网络和所述稀疏光流预测网络。

可选的，根据第一预测样本图像预测得到的跟踪标识以及目标预测样本图像中预测得到的跟踪标识，可以确定出初始稀疏光流预测网络的损失值，并根据该损失值对初始稀疏光流预测网络进行迭代修正，得到稀疏光流预测网络。

可选的，根据第二样本图像中预先标注好的跟踪标识以及第一预测样本图像预测得到的跟踪标识，可以定出初始稠密光流预测网络的损失值，并根据该损失值对初始稠密光流预测网络进行迭代修正，得到稠密光流预测网络。

参照图8，损失函数可以包括两部分，其一是图像相似性，通过最大化第一预测样本图像和第二样本图像以及目标预测样本图像和第二样本图像之间的相关值，来保证预测光流的准确性；其二是约束光流平滑性，对稀疏光流信息以及稠密光流信息施加正则化项。公式如下：

L_ncc＝ncc(frame1’,frame2)+ncc(frame1”,frame2)

L_smooth＝l1(Flow^l)+l1(Flow^m)+l1(Flow^h)+l1(Flow^s)

L＝L_ncc+ɑL_smooth

其中ɑ为参数，示例性的，ɑ可以设置为1000。frame1’可以是第一预测样本图像，frame2可以是第二样本图像，frame1’可以是目标预测样本图像，Flow^l、Flow^m、Flow^h可以分别为低精度稠密光流信息、中精度稠密光流信息以及高精度稠密光流信息，Flow^s可以为稀疏光流信息。

基于同一发明构思，本申请实施例中还提供了与基于光流估计的视频跟踪方法对应的基于光流估计的视频跟踪装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述基于光流估计的视频跟踪方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图9所示，为本申请实施例提供的一种基于光流估计的视频跟踪装置的示意图，所述装置包括：获取模块901、稠密光流预测模块902以及稀疏光流预测模块903，其中：

获取模块901，用于：获取第一帧图像和第二帧图像，第一帧图像为第二帧图像的前一个帧图像，第一帧图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识；

稠密光流预测模块902，用于：将第一帧图像和第二帧图像输入稠密光流预测网络中，预测第一帧图像和第二帧图像的稠密光流信息，并根据稠密光流信息得到第一帧图像的第一预测图像，第一预测图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识的第一形变标识；

稀疏光流预测模块903，用于：将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，预测第一帧图像和第二帧图像的稀疏光流信息，并基于稀疏光流信息和第一预测图像预测得到第一帧图像的目标预测图像，将目标预测图像作为第二帧图像的跟踪结果，目标预测图像中包括：跟踪对象以及依附在跟踪对象上的跟踪标识的目标形变标识。

可选的，稠密光流预测网络中包括：依次连接的多个稠密光流预测子网络；

稠密光流预测模块902还用于：

将第一帧图像和第二帧图像输入首个稠密光流预测子网络中，预测第一帧图像和第二帧图像的初始稠密光流信息；

根据初始稠密光流信息以及第一帧图像，得到首个稠密光流预测子网络的初始预测图像；

将初始预测图像以及第二帧图像输入首个稠密光流预测子网络的后一稠密光流预测子网络中，并由首个稠密光流预测子网络后的各稠密光流预测子网络依次进行预测处理，得到第一帧图像和第二帧图像的稠密光流信息；

根据稠密光流信息得到第一帧图像的第一预测图像。

可选的，稠密光流预测模块902还用于：

根据初始稠密光流信息对第一帧图像进行插值计算，确定第一帧图像中各像素点的形变后位置；

将各像素点移动到对应的形变后位置，得到初始预测图像。

可选的，稀疏光流预测模块903还用于：

将第一预测图像、第一帧图像和第二帧图像输入稀疏光流预测网络中，由稀疏光流预测网络根据第一帧图像和第二帧图像预测得到稀疏光流信息；

根据稀疏光流信息对第一预测图像进行插值处理，得到第一帧图像的目标预测图像。

可选的，稀疏光流预测模块903还用于：

可选的，本申请的装置还可以包括训练模块，用于：

获取预先标注的第一样本图像和预先标注的第二样本图像，其中，第一样本图像和第二样本图像中分别标注有跟踪对象以及对应的跟踪标识；

将第一样本图像和第二样本图像输入初始稠密光流预测网络中，得到第一样本图像的第一预测样本图像；

将第一预测样本图像、第一样本图像和第二样本图像输入初始稀疏光流预测网络中，得到样本图像的目标预测样本图像；

根据目标预测样本图像和第二样本图像确定损失值，并根据损失值对初始稠密光流预测网络和初始稀疏光流预测网络进行迭代修正，得到稠密光流预测网络和稀疏光流预测网络。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例通过稠密光流预测网络可以实现对第一帧图像中跟踪对象发生的明显变化(例如较大的运动位移或较大的形变等)进行跟踪，再通过稀疏光流预测网络对第一预测图像进行精细的微调和校正，提高了光流预测的准确性，并且根据稠密光流预测网络和稀疏光流预测网络预测到的光流对第一帧图像上的跟踪标识进行相应的形变，提高了视频跟踪的准确性与可靠性。

本申请实施例还提供了一种电子设备，如图10所示，为本申请实施例提供的电子设备结构示意图，包括：处理器1001、存储器1002和总线。所述存储器1002存储有所述处理器1001可执行的机器可读指令(比如，图9中的装置中获取模块901、稠密光流预测模块902以及稀疏光流预测模块903对应的执行指令等)，当计算机设备运行时，所述处理器1001与所述存储器1002之间通过总线通信，所述机器可读指令被所述处理器1001执行时执行上述基于光流估计的视频跟踪方法的处理。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述基于光流估计的视频跟踪方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种基于光流估计的视频跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述稠密光流预测网络中包括：依次连接的多个稠密光流预测子网络；

3.根据权利要求2所述的方法，其特征在于，所述根据所述初始稠密光流信息以及所述第一帧图像，得到所述首个稠密光流预测子网络的初始预测图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述初始稠密光流信息以及所述第一帧图像进行插值运算，得到所述首个稠密光流预测子网络的初始预测图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一预测图像、所述第一帧图像和所述第二帧图像输入稀疏光流预测网络中，预测所述第一帧图像和所述第二帧图像的稀疏光流信息，并基于所述稀疏光流信息和所述第一预测图像预测得到所述第一帧图像的目标预测图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述由所述稀疏光流预测网络根据所述第一帧图像和所述第二帧图像预测得到所述稀疏光流信息，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述将所述第一帧图像和所述第二帧图像输入稠密光流预测网络中之前，包括：

8.一种基于光流估计的视频跟踪装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至7任一所述的基于光流估计的视频跟踪方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的基于光流估计的视频跟踪方法的步骤。