CN112861652A

CN112861652A - 基于卷积神经网络的视频目标跟踪与分割方法及系统

Info

Publication number: CN112861652A
Application number: CN202110076328.1A
Authority: CN
Inventors: 胡卫明; 王强; 高晋; 刘凯文
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-28
Anticipated expiration: 2041-01-20
Also published as: CN112861652B

Abstract

本发明属于视频目标跟踪与分割领域，具体涉及了一种基于卷积神经网络的视频目标跟踪与分割方法及系统，旨在解决现有图像检测方法难以实现大规模视频的多目标跟踪与分割的问题。本发明包括：对输入视频进行目标检测、分割、图像裁剪等图像预处理操作；通过多种数据组织方式对视频跟踪进行训练，分别是预训练、迁移学习和精细训练，使得卷积神经网络具备对复杂场景的适应能力，同时，利用视频检测结果进行不断的初始化以及重新初始化；通过重分类器对视频目标轨迹进行重新的类别判断与打分，获得输入视频各设定类别目标的分类结果。本发明在保证效率的前提下，实现了大规模视频中高精度、高准确性的像素级多目标跟踪与分割。

Description

基于卷积神经网络的视频目标跟踪与分割方法及系统

技术领域

本发明属于视频目标跟踪与分割领域，具体涉及了一种基于卷积神经网络的视频目标跟踪与分割方法及系统。

背景技术

视频实例分割(VIS)任务的主要特征在于，它不提供用于初始化跟踪器的标签信息，并且需要一种算法来输出多个目标的跟踪轨迹。该任务需要在整个视频中分割和定位任意数量的目标对象，并区分多个目标对象，为每个对象分配一个唯一的标识号，该标识号在不同帧之间保持一致。视频实例分割与视频对象分割密切相关，可以通过图像实例检测方法初始化和统一视频对象分割算法。同时，与单目标视觉目标跟踪算法相比，视频实例分割极具挑战性，后者要求算法同时跟踪多个目标对象。

目前大多数的检测算法主要适用于图像场景，而现实中存在丰富的视频输入场景。对于这种场景，直接将图像检测算法迁移过来会带来较大的精度损失。一般来说，将图像检测算法直接应用于视频场景中将会使召回率(recall)大幅度降低，视频场景中的运动模糊等特殊属性使得检测目标的模态和静止图像的样本分布非常不一致。同时，如果在视频中进行像素级的跟踪分割也是非常具有挑战性的。对于视频跟踪，需要大量的视频集的标注样本，而大规模的视频标注成本非常昂贵。如何通过数据增强的方式，生成具有多样性的训练样本，以及如何在视频序列中进行数据增强具有重大意义

总的来说，现有大规模视频的标注成本过于昂贵，使得视频目标跟踪与分割模型不具备大量的多样性的训练样本，从而限制了模型在视频中进行像素级的目标跟踪与分割的性能。

发明内容

为了解决现有技术中的上述问题，即现有图像检测方法难以实现大规模视频的多目标跟踪与分割的问题，本发明提供了一种基于卷积神经网络的视频目标跟踪与分割方法，该视频目标跟踪与分割方法包括：

步骤S10，通过训练好的检测器对待处理视频序列中每一个图像进行设定类别目标的检测分割；所述检测器基于CNN卷积神经网络构建；

步骤S20，放弃序列中不包含设定类别目标的图像，并将检测分割获得的各设定类别目标图像扩展为设定比例后裁剪成设定大小，获得预处理视频序列；

步骤S30，初始化训练好的跟踪器，选取所述预处理视频序列中第t帧作为当前帧，分别进行当前帧的已有类别的目标跟踪，获得第1帧至当前帧的已有类别目标跟踪轨迹；所述跟踪器基于CNN卷积神经网络构建；

步骤S40，若当前帧存在新的目标，则初始化新的训练好的跟踪器，进行新的目标跟踪，获得第1帧至当前帧的新的目标跟踪轨迹；

步骤S50，令t＝t+1并跳转步骤S30，直至所述预处理视频序列中每一帧图像目标跟踪完成，获得待处理视频序列对应的各设定类别目标的跟踪轨迹；

步骤S60，基于所述各设定类别目标的跟踪轨迹，通过训练好的重分类器进行前向传递，获得各设定类别目标的分类预测结果；所述重分类器基于CNN卷积神经网络构建；

步骤S70，对于各设定类别目标，分别对其分类预测结果求平均，获得待处理视频序列中各设定类别目标的分类结果。

在一些优选的实施例中，所述检测器，其训练方法为：

步骤A10，获取带mask标签的训练图像，并通过图像修补技术将目标区域填充，获得目标图像和背景图像；

步骤A20，将所述目标图像移动到所述背景图像中预设数量的设定位置，获得训练样本集；

步骤A30，通过所述训练样本集和目标图像的标签进行检测器的迭代训练，并根据损失函数值下降方向更新检测器参数，直至损失函数值低于设定阈值或达到预设训练次数，获得训练好的检测器。

在一些优选的实施例中，步骤S20中“将检测分割获得的目标图像扩展为设定比例后裁剪成设定大小”，其方法为：

将检测分割获得的目标图像扩展为原尺寸的1.5倍，并将扩展后的图像裁剪成224*224大小。

在一些优选的实施例中，所述跟踪器，其训练方法为：

步骤B10，获取大量带标签网络图像作为预学习样本集；

步骤B20，基于所述预学习样本集，结合基于分类的损失函数迭代进行跟踪器预学习，获得具有基础物体识别性能的第一跟踪器；

步骤B30，获取大规模视频跟踪数据作为迁移学习样本集；

步骤B40，基于所述迁移学习样本集，结合基于分类和回归的损失函数迭代进行第一跟踪器迁移学习，获得具有视频跟踪性能的第二跟踪器；

步骤B50，将获取的视频实例数据通过步骤A10-步骤A20对应的方法处理，获得精细学习样本集；

步骤B60，基于所述精细学习样本集，结合基于分类和回归的损失函数迭代进行第二跟踪器精细学习，获得训练好的跟踪器。

在一些优选的实施例中，步骤S30中“分别进行当前帧的已有类别的目标跟踪”的目标跟踪过程还包括：

对于各设定类别目标，计算当前目标的跟踪mask与检测mask之间的重叠率，若所述重叠率大于设定阈值，则将当前目标对应的跟踪器重新初始化。

在一些优选的实施例中，所述重分类器，其训练方法为：

步骤C10，将获取的视频实例数据通过步骤S10-步骤S50对应的方法处理，获得各设定类别目标的跟踪轨迹的集合作为重分类器训练样本集；

步骤C20，基于所述重分类器训练样本集，结合基于分类和回归的损失函数迭代进行重分类器训练，获得训练好的重分类器。

在一些优选的实施例中，所述基于分类的损失函数为Softmax函数或A-Softmax函数；所述基于分类和回归的损失函数为Contrastive函数或Triplet函数。

本发明的另一方面，提出了一种基于卷积神经网络的视频目标跟踪与分割系统，该视频目标跟踪与分割系统包括视频检测单元、视觉目标跟踪单元和重分类单元；

所述视频检测单元，配置为通过训练好的检测器对待处理视频序列中每一个图像进行设定类别目标的检测分割，放弃序列中不包含设定类别目标的图像，并将检测分割获得的各设定类别目标图像扩展为设定比例后裁剪成设定大小，获得预处理视频序列；

所述视觉目标跟踪单元，配置为初始化训练好的跟踪器，依次进行预处理视频序列各帧的已有类别的目标跟踪，若当前跟踪的帧中存在新的目标，则初始化新的训练好的跟踪器，进行新的目标跟踪，直至所述预处理视频序列中每一帧图像目标跟踪完成，获得待处理视频序列对应的各设定类别目标的跟踪轨迹；

所述重分类单元，配置为基于所述各设定类别目标的跟踪轨迹，通过训练好的重分类器进行前向传递，获得各设定类别目标的分类预测结果，并分别对各设定类别目标的分类预测结果求平均，获得待处理视频序列中各设定类别目标的分类结果。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络的视频目标跟踪与分割方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络的视频目标跟踪与分割方法。

本发明的有益效果：

本发明基于卷积神经网络的视频目标跟踪与分割方法，以CNN卷积神经网络为基础，针对现有图像检测分割方法在视频目标分割中进行扩展，提出整个视频实例分割框架，并在数据增强方面提出基于掩码差异感知的视频检测跟踪变换，在保证效率的前提下，实现了大规模视频中高精度、高准确性的像素级多目标跟踪与分割。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于卷积神经网络的视频目标跟踪与分割方法的流程示意图；

图2是本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的跟踪器训练流程示意图；

图3是本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的视频实例分割过程示例图；

图4是本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的视频目标跟踪与分割的网络结构与实施过程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于卷积神经网络的视频目标跟踪与分割方法，该视频目标跟踪与分割方法包括：

为了更清晰地对本发明基于卷积神经网络的视频目标跟踪与分割方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于卷积神经网络的视频目标跟踪与分割方法，包括步骤S10-步骤S70，各步骤详细描述如下：

步骤S10，通过训练好的检测器对待处理视频序列中每一个图像进行设定类别目标的检测分割；所述检测器基于CNN卷积神经网络构建。

在离线过程中对检测器进行训练，其训练方法为：

步骤A10，获取带mask标签的训练图像，并通过图像修补技术(inpainting)将目标区域填充，获得目标图像和背景图像。图像修补技术包括逐像素填充法、逐区块填充法和基于深度学习的填充法等，可以根据需要选择相应的填充方法，本发明在此不一一详述。

步骤A20，将所述目标图像移动到所述背景图像中预设数量的设定位置，即在背景图像中各个设定的位置放置目标图像，获得多个带有不同位置目标的图像作为检测器的训练样本集；

通过训练好的检测器进行待处理视频序列中每一帧图像的各设定类别的目标进行检测分割。

步骤S20，放弃序列中不包含设定类别目标的图像，并将检测分割获得的各设定类别目标图像扩展为设定比例后裁剪成设定大小，获得预处理视频序列。

若图像中不包含设定类别目标，则舍弃该图像。在本发明一个实施例中，将检测分割获得的各设定类别目标图像按照1.5倍进行扩展，并将图像裁剪为224*224大小，输出对齐后的图像作为预处理视频序列。在其他的实施例中，可以根据需要选择其他合适的扩展倍数和裁剪大小进行图像的扩展和裁剪，本发明对此不作限定。

步骤S30，初始化训练好的跟踪器，选取所述预处理视频序列中第t帧作为当前帧，分别进行当前帧的已有类别的目标跟踪，获得第1帧至当前帧的已有类别目标跟踪轨迹；所述跟踪器基于CNN卷积神经网络构建。

步骤S40，若当前帧存在新的目标，则初始化新的训练好的跟踪器，进行新的目标跟踪，获得第1帧至当前帧的新的目标跟踪轨迹。

步骤S50，令t＝t+1并跳转步骤S30，直至所述预处理视频序列中每一帧图像目标跟踪完成，获得待处理视频序列对应的各设定类别目标的跟踪轨迹。

如图2所示，为本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的跟踪器训练流程示意图，跟踪器通过三阶段的方式进行训练，包括预学习阶段、迁移学习阶段和精细学习阶段，其训练过程为：

步骤B10，获取大量带标签网络图像作为预学习样本集。

步骤B20，基于所述预学习样本集，结合基于分类的损失函数迭代进行跟踪器预学习，获得具有基础物体识别性能的第一跟踪器。

使用大量网络图像(如imagenet)训练一个初始CNN网络(即跟踪器)，选用常用的基于分类的损失函数来进行网络训练，使得跟踪器具有基础物体识别性能。本发明一个实施例中，选用Softmax函数或A-Softmax函数作为基于分类的损失函数进行网络训练，在其他实施例中，也可以根据需要选择其他损失函数，本发明对此不作限定。

步骤B30，获取大规模视频跟踪数据作为迁移学习样本集。

步骤B40，基于所述迁移学习样本集，结合基于分类和回归的损失函数迭代进行第一跟踪器迁移学习，获得具有视频跟踪性能的第二跟踪器。

使用上述训练获得的第一跟踪器使用基于分类和回归的损失函数，在大规模视频跟踪数据库上进行进一步训练。这样，模型经过训练后在视觉跟踪的性能得到提升，即将模型在网络图片上的识别性能迁移到视觉跟踪问题上。本发明一个实施例中，选用Contrastive函数或Triplet函数作为基于分类和回归的损失函数进行网络训练，在其他实施例中，也可以根据需要选择其他损失函数，本发明对此不作限定。

步骤B50，将获取的视频实例数据通过步骤A10-步骤A20对应的方法处理，获得精细学习样本集。

使用上述训练获得的第二跟踪器继续使用大规模视频实例数据集来微调(fine-tune)，其中的数据增强方式为本发明提出的Video Mask Flash，即上述步骤A10-步骤A20对应的方法，训练过程中，通过将视频图像中目标位置(Mask)进行修补(inpainting)，然后在图像中的其他位置置放目标来提升数据量，这样可以进一步提升模型在跟踪分割上的性能。即通过在视频序列中采用掩膜修复的方式来提升训练的鲁棒性，随机的选择视频图像中的两帧作为模版帧和搜索帧。对于搜索帧，将目标位置的掩膜进行修复，然后，在图像中随机的位置设置目标模版。

通过训练完成获得的跟踪器对预处理视频序列进行目标跟踪，初始化跟踪器，目标跟踪过程还包括：

在视频结束后，将跟踪信息汇总，保留跟踪的轨迹信息，以及中间预测的mask结果。

步骤S60，基于所述各设定类别目标的跟踪轨迹，通过训练好的重分类器进行前向传递，获得各设定类别目标的分类预测结果；所述重分类器基于CNN卷积神经网络构建。

重分类器的训练过程为：

如图3所示，为本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的视频实例分割过程示例图，视频实例分割的主要步骤包括：

步骤(1)，对于视频输入的每一帧图像，我们首先使用图像实例检测器HTC得到候选分割结果

步骤(2)，对于现有的跟踪轨迹

通过两阶段孪生分割网络SiamMask估计轨迹段

在当前帧的分割结果

(即进行分割跟踪)。

步骤(3)，算法通过计算当前帧检测器得到的分割结果

(即跟踪提议)与跟踪器预测的分割结果

(即实例检测提议)的分割重叠比例距离计算分配代价矩阵(分割IoU度量匹配)。

步骤(4)，通过匈牙利算法进行优化求解(即目标关联与类别判别)，最终视频实例分割输出person-①：0.99以及skateboard-①：0.98。

如图4所示，为本发明基于卷积神经网络的视频目标跟踪与分割方法一种实施例的视频目标跟踪与分割的网络结构与实施过程示意图，包括步骤1的粗定位与步骤2的精细化分割：

步骤1，SiamMask的矩形框回归分支生成了目标对象位置的初始位置估计p1。

步骤2，利用p1重新截取搜索区域用于预测对象的细化分割掩码。

其中，127*127*3为目标模板的尺寸，255*255*3为搜索区域的尺寸，f_θ代表骨干卷积网络(backbone)，b_σ代表矩形框回归分支对应的卷积网络，

代表矩形框分类分支对应的卷积网络，

代表掩膜生成分支对应的卷积网络，*d代表depth-wise卷积操作；15*15*256代表由骨干卷积网络backbone提取的模板图像的特征张量(Tensor)，15*15代表提取的特征的空间尺寸，256代表特征的通道数；31*31*256代表由骨干卷积网络backbone提取的当前帧搜索区域对应的特征张量，31*31代表该特征的空间尺寸，256代表该特征的通道数；17*17*256代表模板特征和搜索区域特征进行depth-wise卷积操作后得到的特征，17*17该特征的空间尺寸，256代表该特征的通道数，将该特征记作Tensor A；17*17*4k代表将Tensor A经过矩形框回归分支卷积网络得到的输出，17*17代表17*17个空间位置响应输出，每个位置的通道数为4k，代表k个anchor box对应的回归量，每个回归量包含4个回归分量，共有4k个值，记作Tensor B；17*17*2k代表将Tensor B经过矩形框分类分支卷积网络得到的输出，17*17代表17*17个空间位置响应输出，每个位置的通道数为2k，代表k个anchorbox对应的分类概率输出值，包含“是目标”的概率和“是背景”的概率2个值，共计2k个值，记作Tensor C；RoW:1*1*256代表代表的提取的搜索区域的局部小窗特征与模板特征进行depth-wise操作后得到的输出，对应Tensor A的某个位置的输出响应，1*1*(63*63)代表Tensor A经过分割掩膜(mask)生成分支卷积网络输出的结果，1*1*4k代表对应Tensor B某个位置的输出响应，1*1*2k代表对应Tensor C某个位置的输出响应，127*127*1为分割结果的尺寸。

本发明第二实施例的基于卷积神经网络的视频目标跟踪与分割系统，该视频目标跟踪与分割系统包括视频检测单元、视觉目标跟踪单元和重分类单元；

所述视频检测单元，配置为通过训练好的检测器对待处理视频序列中每一个图像进行设定类别目标的检测分割，放弃序列中不包含设定类别目标的图像，并将检测分割获得的各设定类别目标图像扩展为设定比例后裁剪成设定大小，获得预处理视频序列。

在检测器训练完成之后，通过预处理单元首先对输入视频图像进行特定类别目标检测，将检测得到的矩形框和分割结果以及类别属性进行保存，并将图像裁剪成特定大小。这个预处理单元也应用到了后续的视觉跟踪单元和重分类单元中。

所述视觉目标跟踪单元，配置为初始化训练好的跟踪器，依次进行预处理视频序列各帧的已有类别的目标跟踪，若当前跟踪的帧中存在新的目标，则初始化新的训练好的跟踪器，进行新的目标跟踪，直至所述预处理视频序列中每一帧图像目标跟踪完成，获得待处理视频序列对应的各设定类别目标的跟踪轨迹。

跟踪器训练完成之后，遍历视频序列，通过检测结果和当前的跟踪结果进行重叠率匹配：对于匹配率低于一定阈值(例如0.1)的目标，初始化一个新的跟踪器；对于匹配率较高的目标，利用检测结果来修正跟踪器，对跟踪器进行重新初始化。在后续帧中利用跟踪器预测目标的掩膜和矩形框位置。

将预测目标的轨迹片段输入到上述的预处理单元中进行处理，再将处理后的图片输入到已训练好的分类器，得到每个目标的分类打分结果，从而实现整个视频目标的分类。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于卷积神经网络的视频目标跟踪与分割系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络的视频目标跟踪与分割方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络的视频目标跟踪与分割方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，该视频目标跟踪与分割方法包括：

2.根据权利要求1所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，所述检测器，其训练方法为：

3.根据权利要求1所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，步骤S20中“将检测分割获得的目标图像扩展为设定比例后裁剪成设定大小”，其方法为：

4.根据权利要求2所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，所述跟踪器，其训练方法为：

步骤B10，获取大量带标签网络图像作为预学习样本集；

步骤B30，获取大规模视频跟踪数据作为迁移学习样本集；

5.根据权利要求1所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，步骤S30中“分别进行当前帧的已有类别的目标跟踪”的目标跟踪过程还包括：

6.根据权利要求1所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，所述重分类器，其训练方法为：

7.根据权利要求4或6所述的基于卷积神经网络的视频目标跟踪与分割方法，其特征在于，所述基于分类的损失函数为Softmax函数或A-Softmax函数；所述基于分类和回归的损失函数为Contrastive函数或Triplet函数。

8.一种基于卷积神经网络的视频目标跟踪与分割系统，其特征在于，该视频目标跟踪与分割系统包括视频检测单元、视觉目标跟踪单元和重分类单元；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于卷积神经网络的视频目标跟踪与分割方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于卷积神经网络的视频目标跟踪与分割方法。