CN110827292B

CN110827292B - 一种基于卷积神经网络的视频实例分割方法及设备

Info

Publication number: CN110827292B
Application number: CN201911013997.3A
Authority: CN
Inventors: 何毅; 杨晓云
Original assignee: Zhongke Zhiyun Technology Co ltd
Current assignee: Zhongke Zhiyun Technology Co ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2021-08-10
Anticipated expiration: 2039-10-23
Also published as: CN110827292A

Abstract

本申请的目的是提供一种基于卷积神经网络的视频实例分割方法及设备，本申请通过获取视频序列并确定待检测目标对象；通过跟踪器对视频序列进行目标对象的跟踪，得到视频序列中的目标对象的跟踪结果；判断跟踪结果是否大于跟踪阈值，若是，则将跟踪结果确定为目标对象的分类结果，若否，则对视频序列重新进行分类检测，以得到目标对象的重分类结果，通过对视频序列中的目标对象进行跟踪得到跟踪结果，并对跟踪结果进行分类结果准确度判定，若不符合准确度要求则对视频序列重新进行分类检测，以得到更为精确的视频序列的目标对象的分类结果，实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

Description

一种基于卷积神经网络的视频实例分割方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种基于卷积神经网络的视频实例分割方法及设备。

背景技术

现有技术中，目前大多数的检测算法主要适用于图像场景，而现实中存在丰富的视频输入场景。对于这种场景，直接将图像检测算法迁移过来会带来较大的精度损失。一般来说，将图像检测算法直接应用于视频场景中将会使召回率(recall)大幅度降低，视频场景中的运动模糊等特殊属性使得检测目标的模态和静止图像的样本分布非常不一致。同时，如果在视频中进行像素级的跟踪分割也是非常具有挑战性的。对于视频跟踪，需要大量的视频集的标注样本，而大规模的视频标注成本非常昂贵。即如何通过数据增强的方式，生成具有多样性的训练样本，以及如何在视频序列中进行数据增强研究有很重要的价值。

因此，提高整个视频实例分割处理性能和视频分割的精确度，同时减少投入成本，得到一个优化的视频实例分割方法是本领域技术人员需要继续研究的方向。

发明内容

本申请的一个目的是提供一种基于卷积神经网络的视频实例分割方法及设备，以解决现有技术中如何克服视频实例分割的缺陷，提高整个视频实例分割处理性能和视频分割的准确度的问题。

根据本申请的一个方面，提供了一种基于卷积神经网络的视频实例分割方法包括：

获取视频序列并确定待检测目标对象；

通过跟踪器对所述视频序列进行所述目标对象的跟踪，得到所述视频序列中的目标对象的跟踪结果；

判断所述跟踪结果是否大于跟踪阈值，

若是，则将所述跟踪结果确定为所述目标对象的分类结果，

若否，则对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果。

进一步地，上述基于卷积神经网络的视频实例分割方法中，所述对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果，包括：

对所述视频序列中的每一帧视频图像依序进行目标对象的检测、分割和裁剪，得到所述视频序列对应的轨迹片段图像，其中，所述轨迹片段图像包括每一帧所述视频图像对应的目标对象片段图像；

将所述视频序列对应的轨迹片段图像输入至卷积神经网络CNN中进行所述CNN前向传递，得到每一帧所述目标对象片段图像中的目标对象的预测分类结果，所述预测分类结果包括至少一个预测分类及各所述预测分类的预测值；

基于所有目标对象片段图像中的目标对象的预测分类结果，分别计算各所述预测分类的预测平均值；

基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值，得到所述目标对象的重分类结果。

进一步地，上述基于卷积神经网络的视频实例分割方法中，所述基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值，得到所述目标对象的重分类结果，包括：

将所述视频序列中的目标对象对应的各所述预测分类的预测平均值中的、最高预测平均值对应的预测分类确定为所述目标对象的重分类结果。

进一步地，上述基于卷积神经网络的视频实例分割方法中还包括：

通过检测器对所述视频序列的每一帧视频图像依序进行所述目标对象的检测、分割，得到所述视频序列中的目标对象的检测结果；

对检测分割得到的目标对象所在区域进行预设比例的扩展后，进行预设范围的图像裁剪，得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像。

获取网络图像的训练集、检测集及具有至少两个对象类别的检测分割图像集；

基于分类的损失函数对所述训练集进行图像分类训练，得到初始卷积神经网络CNN检测模型；

利用所述检测集对所述初始卷积神经网络CNN检测模型进行检测任务上的迁移学习，得到迁移学习后的检测模型；

利用所述检测分割图像集对所述迁移学习后的检测模型进行微调，形成所述检测器。

获取网络图像的所述训练集和所述检测集及具有至少两个对象类别的跟踪视频；

基于分类的损失函数对所述训练集进行图像分类训练，得到初始卷积神经网络CNN跟踪模型；

利用所述检测集对所述初始卷积神经网络CNN跟踪模型进行跟踪任务上的迁移学习，得到迁移学习后的跟踪模型；

利用所述跟踪视频对所述迁移学习后的跟踪模型进行微调，形成所述跟踪器。

将所述检测结果和所述跟踪结果进行重叠匹配，得到所述检测结果和所述跟踪结果之间的匹配率；

判断所述匹配率是否小于所述匹配率阈值；

若是，则基于所述视频序列及所述目标对象进行初始化处理，得到一个新的跟踪器；

若否，则基于所述检测结果对所述跟踪器进行修正，得到修正后的跟踪器。

进一步地，上述基于卷积神经网络的视频实例分割方法中所述训练集和所述检测集均分别包括至少两个训练样本图像；其中，所述方法还包括：

确定所述训练样本图像中至少一个训练目标及各所述训练目标所在的区域；

基于所述训练样本图像的掩膜标签，将所述训练样本图像中的至少一个所述训练目标所在区域分别进行填充；

将填充后的所述训练目标对象所在区域分别移动至所述训练集和所述检测集中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像；

基于所述新的练样本图像对所述训练集和所述检测集进行更新。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述任一项所述的方法。

根据本申请的另一方面，还提供了一种基于卷积神经网络的视频实例分割设备，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一项所述的方法。

与现有技术相比，本申请通过获取视频序列并确定待检测目标对象；通过跟踪器对所述视频序列进行所述目标对象的跟踪，得到所述视频序列中的目标对象的跟踪结果；判断所述跟踪结果是否大于跟踪阈值，若是，则将所述跟踪结果确定为所述目标对象的分类结果，若否，则对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果，通过对所述视频序列中的目标对象进行跟踪得到跟踪结果，并对所述跟踪结果进行分类结果准确度(跟踪阈值)判定，若不符合准确度要求则对所述视频序列重新进行分类检测，以得到更为精确的视频序列的目标对象的分类结果，实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法的流程图；

图2示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法中的跟踪器的训练流程图；

图3示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法的框架示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种基于卷积神经网络的视频实例分割方法的流程图。应用于该方法包括步骤S11、步骤S12及步骤S13，其中，具体包括：

步骤S11，获取视频序列并确定待检测目标对象；

步骤S12，通过跟踪器对所述视频序列进行所述目标对象的跟踪，得到所述视频序列中的目标对象的跟踪结果；

步骤S13，判断所述跟踪结果是否大于跟踪阈值，

若是，则将所述跟踪结果确定为所述目标对象的分类结果，

上述步骤S11至步骤S13，通过对所述视频序列中的目标对象进行跟踪得到跟踪结果，并对所述跟踪结果进行分类结果准确度(跟踪阈值)判定，若不符合精确度要求则对所述视频序列重新进行分类检测，以得到更为精确的视频序列的目标对象的分类结果，实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

例如，获取视频序列P并确定待检测目标对象，所述待检测目标对象是小狗；通过跟踪器W对所述视频序列进行所述目标对象小狗的跟踪，得到所述视频序列中的目标对象小狗的跟踪结果K；若所述跟踪结果K中对应的小狗的分类分数为96。判断所述跟踪结果K是否大于跟踪阈值T，所述跟踪阈值T＝95；小狗的分类分数＝96＞跟踪阈值T＝95，则将所述跟踪结果K确定为所述目标对象的分类结果V。

又例如，若所述跟踪结果K中对应的小狗的分类分数为90。判断所述跟踪结果K是否大于跟踪阈值T，所述跟踪阈值T＝95；小狗的分类分数＝90＜跟踪阈值T＝95，则对所述视频序列重新进行分类检测，以得到所述目标对象小狗的重分类结果V。实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

接着本申请的上述实施例，步骤S13中所述对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果，包括：

对所述视频序列中的每一帧视频图像依序进行目标对象的检测、分割和裁剪，得到所述视频序列对应的轨迹片段图像，其中，所述轨迹片段图像包括每一帧所述视频图像对应的目标对象片段图像；在此，所述目标对象片段图像为统一大小的片段图像。

基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值，得到所述目标对象的重分类结果。实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

例如，对所述视频序列P中的每一帧视频图像P1、P2、P3......Pn依序进行目标对象小狗的检测、分割和裁剪，得到所述视频序列对应的轨迹片段图像P’，其中，所述轨迹片段图像P’包括每一帧所述视频图像对应的目标对象片段图像P1’、P2’、P3’......Pn’；

将所述视频序列对应的轨迹片段图像P’输入至卷积神经网络CNN中进行所述CNN前向传递，得到每一帧所述目标对象片段图像P1’、P2’、P3’......Pn’中的目标对象的预测分类结果P1’(score1、score2、score3、score4、......scoren)、P2’(score1、score2、score3、score4、......scoren)、P3’(score1、score2、score3、score4、......scoren)......Pn’(score1、score2、score3、score4、......scoren)，所述预测分类结果包括至少一个预测分类及各所述预测分类的预测值，在此，预测分类包括：小狗、小熊和小鸭，所述预测分类依序对应的序号为1、2和3，即P1’(score1、score2、score3)、P2’(score1、score2、score3)、P3’(score1、score2、score3)......Pn’(score1、score2、score3)＝P1’(92、80、70)、P2’(93、81、68)、P3’(80、78、65)......Pn’(97、79、73)。

基于所有目标对象片段图像P1’、P2’、P3’......Pn’中的目标对象的预测分类结果P1’(92、80、70)、P2’(93、81、68)、P3’(80、78、65)......Pn’(97、79、73)，分别计算各所述预测分类的预测平均值

(91、79、69)。所述视频序列中的目标对象对应的各所述预测分类的预测平均值

(91、79、69)，得到所述目标对象的重分类结果V。实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

接着本申请的上述实施例，所述基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值，得到所述目标对象的重分类结果，包括：

将所述视频序列中的目标对象对应的各所述预测分类的预测平均值中的、最高预测平均值对应的预测分类确定为所述目标对象的重分类结果。实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

例如，所述视频序列中的目标对象对应的各所述预测分类的预测平均值

(91、79、69)中score1＝91的分数最高对应预测分类为小狗即为所述目标对象的重分类结果V。实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

接着本申请的上述实施例，所述方法还包括：

对检测分割得到的目标对象所在区域进行预设比例的扩展后，进行预设范围的图像裁剪，得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像。在此，对检测分割得到的目标对象所在区域进行预设比例的扩展有利于获取更多所述目标对象的信息，该方法实现了对所述视频序列的分割检测，提高了视频分割处理的准确度。

例如，通过检测器对所述视频序列P的每一帧视频图像P1、P2、P3......Pn依序进行所述目标对象小狗的检测、分割，得到所述视频序列中的目标对象的检测结果Q，其中包括将不包括所述目标对象的视频图像放弃；

对检测分割得到的目标对象小狗所在区域进行预设比例的扩展有利于获取更多所述目标对象的信息，得到扩展后的所述目标对象的视频；然后，进行预设范围的图像裁剪，得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像，现了对所述视频序列的分割检测，提高了视频分割处理的准确度。

接着本申请的上述实施例，所述方法还包括获取网络图像的训练集、检测集及具有至少两个对象类别的检测分割图像集；在此，所述检测分割图像集是使用大规模类别检测后得到的检测分割图像形成的，包括至少两张检测分割图像。

基于分类的损失函数对所述训练集进行图像分类训练，得到初始卷积神经网络CNN检测模型；在此，所述损失函数可以是但不限于Softmax。所述初始卷积神经网络CNN检测模型具有很高的网络图片的类别识别性能，以便后续对所述初始卷积神经网络CNN检测模型进行迁移学习。

利用所述检测分割图像集对所述迁移学习后的检测模型进行微调，形成所述检测器，优化了检测器，有利于提高视频分割的准确度。

例如，获取网络图像的训练集A、检测集B及具有至少两个对象类别的检测分割图像集C；基于分类的损失函数Softmax对所述训练集A进行图像分类训练，得到初始卷积神经网络CNN检测模型M1；利用所述检测集B对所述初始卷积神经网络CNN检测模型M1进行检测任务上的迁移学习，得到迁移学习后的检测模型M2；利用所述检测分割图像集C对所述迁移学习后的检测模型M2进行微调，形成所述检测器M3，实现了对检测器的建立并优化了检测器，有利于提高视频分割的准确度。

接着本申请的上述实施例，所述方法述还包括：

基于分类的损失函数对所述训练集进行图像分类训练，得到初始卷积神经网络CNN跟踪模型；在此，所述分类的损失函数可以是Softmax或ASoftmax等。初始卷积神经网络CNN跟踪模型具有基础物体识别性能。

利用所述检测集对所述初始卷积神经网络CNN跟踪模型进行跟踪任务上的迁移学习，得到迁移学习后的跟踪模型；在此，迁移学习的过程中会使用到基于验证和回归的损失函数，比如：contrastive loss、triplet loss，经过迁移学习后的跟踪模型的视觉跟踪的性能得到提升，即将初始卷积神经网络CNN跟踪模型在网络图片上的识别性能迁移到视觉跟踪问题上。

利用所述跟踪视频对所述迁移学习后的跟踪模型进行微调，形成所述跟踪器，实现了对跟踪器的性能优化，有利于提高视频分割的准确度。

例如，获取网络图像的所述训练集A和所述检测集B及具有至少两个对象类别的跟踪视频D；基于分类的损失函数Softmax对所述训练集A进行图像分类训练，得到初始卷积神经网络CNN跟踪模型W1；利用所述检测集B对所述初始卷积神经网络CNN跟踪模型W1进行跟踪任务上的迁移学习，得到迁移学习后的跟踪模型W2；利用所述跟踪视频D对所述迁移学习后的跟踪模型进行微调，形成所述跟踪器W，如图2所示，实现了对跟踪器的性能优化，有利于提高视频分割的准确度。

接着本申请的上述实施例，所述方法还包括：

判断所述匹配率是否小于所述匹配率阈值；

若否，则基于所述检测结果对所述跟踪器进行修正，得到修正后的跟踪器。在此，通过检测器得到的检测结果对所述跟踪器进行优化，得到修正后的跟踪器，提高了所述跟踪的性能，从而实现了对视频分割处理的准确度。

例如，将所述检测结果Q和所述跟踪结果K进行重叠匹配，得到所述检测结果Q和所述跟踪结果K之间的匹配率L；

判断所述匹配率是否小于所述匹配率阈值Z；

若是，则基于所述视频序列及所述目标对象进行初始化处理，得到一个新的跟踪器W3，如图3所示；

若否，则基于所述检测结果Q对所述跟踪器W进行修正，得到修正后的跟踪器W’。

接着本申请的上述实施例，所述方法中所述训练集和所述检测集均分别包括至少两个训练样本图像；其中，所述方法还包括：

基于所述新的练样本图像对所述训练集和所述检测集进行更新，实现了对训练集和检测集的数据增强，节约了成本，同时，实现了更佳高效的对检测器和跟踪器进行优化从而有利于视频分割处理的准确度。

例如，所述训练集A包括训练样本图像F1、F2、F3，所述检测集B包括训练样本图像F4、F5；其中，所述方法还包括：

确定所述训练样本图像F1、F2、F3、F4、F5中训练目标小狗、小熊和小鸭及各所述训练目标小狗、小熊和小鸭所在的区域；

基于所述训练样本图像F1、F2、F3、F4、F5的掩膜(MASK)标签，将所述训练样本图像F1、F2、F3、F4、F5中的所述训练目标小狗、小熊和小鸭所在区域分别进行填充；

将填充后的所述训练目标小狗所在区域分别移动至所述训练集A中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F6，移动至所述检测集B中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F7；

将填充后的所述训练目标小熊所在区域分别移动至所述训练集A中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F8，移动至所述检测集B中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F9、F10；

将填充后的所述训练目标小鸭所在区域分别移动至所述训练集A中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F11，移动至所述检测集B中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像F12；

基于所述新的练样本图像得到新的训练集A’(F1、F2、F3、F6、F7、F8、F9、F10、F11、F12)和新的检测集B’(F4、F5、F6、F7、F8、F9、F10、F11、F12)。

又例如，基于所述新的练样本图像得到新的训练集A’(F1、F2、F3、F6、F8、F11)和新的检测集B’(F4、F5、F7、F9、F10、F12)。所述新的训练集新的检测集包括但不限于上述组合方式。该方法实现了对训练集和检测集的数据增强，节约了成本，同时，实现了更佳高效的对检测器和跟踪器进行优化从而有利于视频分割处理的准确度。

根据本申请的另一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述控制用户对垒方法。

根据本申请的另一个方面，还提供了一种基于卷积神经网络的视频实例分割设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。

在此，所述设备的各实施例的详细内容，具体可参见上述设备端的控制用户对垒方法实施例的对应部分，在此，不再赘述。

综上所述，本申请通过获取视频序列并确定待检测目标对象；通过跟踪器对所述视频序列进行所述目标对象的跟踪，得到所述视频序列中的目标对象的跟踪结果；判断所述跟踪结果是否大于跟踪阈值，若是，则将所述跟踪结果确定为所述目标对象的分类结果，若否，则对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果，通过对所述视频序列中的目标对象进行跟踪得到跟踪结果，并对所述跟踪结果进行分类结果准确度(跟踪阈值)判定，若不符合准确度要求则对所述视频序列重新进行分类检测，以得到更为精确的视频序列的目标对象的分类结果，实现了对整个视频序列的目标对象的分类，提高了视频实例分割处理的性能和视频分割的准确度。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于卷积神经网络的视频实例分割方法，其特征在于，所述方法包括：

获取视频序列并确定待检测目标对象；

判断所述跟踪结果是否大于跟踪阈值，

若是，则将所述跟踪结果确定为所述目标对象的分类结果，

若否，则对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果；

其中，所述方法还包括：

对检测分割得到的目标对象所在区域进行预设比例的扩展后，进行预设范围的图像裁剪，得到所述视频序列中包含所述目标对象的每一帧所述视频图像对应的对齐图像；

其中，所述对所述视频序列重新进行分类检测，以得到所述目标对象的重分类结果，包括：

2.根据权利要求1所述的方法，其中，所述基于所述视频序列中的目标对象对应的各所述预测分类的预测平均值，得到所述目标对象的重分类结果，包括：

3.根据权利要求1所述的方法，其中，所述方法还包括：

4.根据权利要求3所述的方法，其中，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述方法还包括：

判断所述匹配率是否小于所述匹配率阈值；

6.根据权利要求3或4所述的方法，其中，所述训练集和所述检测集均分别包括至少两个训练样本图像；其中，所述方法还包括：

将填充后的所述训练目标所在区域分别移动至所述训练集和所述检测集中的、不包含所述训练目标的训练样本图像中，得到对应的新的训练样本图像；

7.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至6中任一项所述的方法。

8.一种基于卷积神经网络的视频实例分割设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。