CN115810164A

CN115810164A - 视频实例分割方法、实例分割模型训练方法、装置及介质

Info

Publication number: CN115810164A
Application number: CN202211450799.5A
Authority: CN
Inventors: 何飞; 张昊飏; 高乃钰; 单言虎; 武锐; 苏治中; 赵鑫; 黄凯奇
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-17

Abstract

公开了一种视频实例分割方法、实例分割模型训练方法、装置及介质。视频实例分割方法包括：对待处理视频中的当前帧进行特征提取，得到当前帧的当前特征图；基于待处理视频中位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列；基于当前特征图、参考实例特征序列以及至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定当前帧的当前实例特征序列；历史实例候选框信息序列包括：预定帧的历史特征图中的多个历史实例候选框各自对应的候选框信息；基于当前特征图和当前实例特征序列，经由实例分割模型，生成当前帧的视频实例分割结果。本公开可以降低视频实例分割算法的复杂度，提高视频实例分割速度。

Description

视频实例分割方法、实例分割模型训练方法、装置及介质

技术领域

本公开涉及计算机视觉技术，尤其是一种视频实例分割方法、实例分割模型训练方法、装置及介质。

背景技术

视频实例分割是计算机视觉领域的重要问题，目前的视频实例分割方案通常有两种：一种是先通过图片实例分割模型得到每帧的实例预测，然后通过额外的多目标跟踪模型进行跨帧实例关联；另一种是先将视频划分为多个重叠的片段，得到每个片段的实例预测，然后通过实例匹配算法将这些片段关联起来，其中，每个片段可以包括视频中的连续多帧，任意相邻两个片段重叠至少一帧。

发明内容

为了解决目前的实例视频分割方案需要执行显式的关联步骤，算法复杂度高、视频实例分割速度慢的技术问题，提出了本公开。本公开的实施例提供了一种视频实例分割方法、实例分割模型训练方法、装置及介质。

根据本公开实施例的一个方面，提供了一种视频实例分割方法，包括：

对待处理视频中的当前帧进行特征提取，得到所述当前帧的当前特征图；

基于所述待处理视频中位于所述当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列；

基于所述当前特征图、所述参考实例特征序列以及所述至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定所述当前帧的当前实例特征序列；其中，所述历史实例候选框信息序列包括：所述预定帧的历史特征图中的多个历史实例候选框各自对应的候选框信息；

基于所述当前特征图和所述当前实例特征序列，经由实例分割模型，生成所述当前帧的视频实例分割结果。

根据本公开实施例的另一个方面，提供了一种实例分割模型训练方法，包括：

对训练视频中的当前训练帧进行特征提取，得到所述当前训练帧的当前训练特征图；

基于所述训练视频中位于所述当前训练帧之前的至少一个历史训练帧各自对应的历史训练实例特征序列，确定参考训练实例特征序列；

基于所述当前训练特征图、所述参考训练实例特征序列以及所述至少一个历史训练帧中的预定训练帧对应的历史训练实例候选框信息序列，确定所述当前训练帧的当前训练实例特征序列；其中，所述历史训练实例候选框信息序列包括：所述预定训练帧的历史训练特征图中的多个历史实例候选框各自对应的候选框信息；

基于所述当前训练特征图和所述当前训练实例特征序列，经由初始实例分割模型，生成所述当前训练帧的视频实例分割结果；

基于所述当前训练帧的视频实例分割结果、所述当前训练帧的标注信息以及所述预定训练帧的标注信息，对所述初始实例分割模型进行训练；

响应于训练后的所述初始实例分割模型符合预设训练结束条件，将训练后的所述初始实例分割模型确定为实例分割模型。

根据本公开实施例的再一个方面，提供了一种视频实例分割装置，包括：

第一特征提取模块，用于对待处理视频中的当前帧进行特征提取，得到所述当前帧的当前特征图；

第一确定模块，用于基于所述待处理视频中位于所述当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列；

第二确定模块，用于基于所述第一特征提取模块得到的所述当前特征图、所述第一确定模块确定的所述参考实例特征序列以及所述至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定所述当前帧的当前实例特征序列；其中，所述历史实例候选框信息序列包括：所述预定帧的历史特征图中的多个历史实例候选框各自对应的候选框信息；

第一生成模块，用于基于所述第一特征提取模块得到的所述当前特征图和所述第二确定模块确定的所述当前实例特征序列，经由实例分割模型，生成所述当前帧的视频实例分割结果。

根据本公开实施例的又一个方面，提供了一种实例分割模型训练装置，包括：

第二特征提取模块，用于对训练视频中的当前训练帧进行特征提取，得到所述当前训练帧的当前训练特征图；

第三确定模块，用于基于所述训练视频中位于所述当前训练帧之前的至少一个历史训练帧各自对应的历史训练实例特征序列，确定参考训练实例特征序列；

第四确定模块，用于基于所述第二特征提取模块得到的所述当前训练特征图、所述第三确定模块确定的所述参考训练实例特征序列以及所述至少一个历史训练帧中的预定训练帧对应的历史训练实例候选框信息序列，确定所述当前训练帧的当前训练实例特征序列；其中，所述历史训练实例候选框信息序列包括：所述预定训练帧的历史训练特征图中的多个历史实例候选框各自对应的候选框信息；

第二生成模块，用于基于所述第二特征提取模块得到的所述当前训练特征图和所述第四确定模块确定的所述当前训练实例特征序列，经由初始实例分割模型，生成所述当前训练帧的视频实例分割结果；

训练模块，用于基于所述第二生成模块生成的所述当前训练帧的视频实例分割结果、所述当前训练帧的标注信息以及所述预定训练帧的标注信息，对所述神经网络模型进行训练；

第五确定模块，用于响应于所述训练模块训练后的所述初始实例分割模型符合预设训练结束条件，将训练后的所述初始实例分割模型确定为实例分割模型。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述视频实例分割方法或者实例分割模型训练方法。

根据本公开实施例的又一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述视频实例分割方法或者实例分割模型训练方法。

基于本公开上述实施例提供的视频实例分割方法、实例分割模型训练方法、装置、介质及电子设备，可以对待处理视频中的当前帧进行特征提取，得到当前帧的当前特征图，基于待处理视频中位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列，并将当前特征图、参考实例特征序列以及至少一个历史帧中的预定帧对应的历史实例候选框信息序列用于当前帧的当前实例特征序列的确定，这样，当前实例特征序列的确定过程已经有效地运用了从历史帧传播过来的信息，参考当前特征图和当前实例特征序列，经由实例分割模型能够高效可靠地生成当前帧的视频实例分割结果，而无需再执行显式的关联步骤，由此能够降低视频实例分割算法的复杂度，提高视频实例分割速度。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的视频实例分割方法的流程示意图。

图2是本公开的实施例中实现视频实例分割的系统框图。

图3是本公开另一示例性实施例提供的视频实例分割方法的流程示意图。

图4是本公开再一示例性实施例提供的视频实例分割方法的流程示意图。

图5是本公开的实施例中实例查询-物体框传播模块的工作流程示意图。

图6是本公开一示例性实施例提供的实例分割模型训练方法的流程示意图。

图7是本公开另一示例性实施例提供的实例分割模型训练方法的流程示意图。

图8是本公开的实施例中框损失值的计算原理图。

图9是本公开的实施例中模型训练过程中标签分配策略的示意图。

图10是本公开一示例性实施例提供的视频实例分割装置的流程示意图。

图11是本公开另一示例性实施例提供的视频实例分割装置的流程示意图。

图12是本公开一示例性实施例提供的实例分割模型训练装置的流程示意图。

图13是本公开另一示例性实施例提供的实例分割模型训练装置的流程示意图。

图14是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备等，不代表特定技术含义，也不表示必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可存在三种关系，例如，A和/或B，可表示：单独存在A，同时存在A和B，单独存在B这三种情况。本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等，它们执行特定任务或实现特定抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

视频实例分割是计算机视觉领域的重要问题，视频实例分割可以用于预测视频的每帧中的每个像素点的语义类别，区分属于同一类别的不同物体(也可以称为不同实例)，并将不同帧中的同一物体进行关联。

在实现本公开的过程中，发明人发现，目前的视频实例分割方案通常有两种，分别是逐帧处理的视频实例分割方案和逐片段处理的视频实例分割方案；其中，逐帧处理的视频实例分割方案的原理是：先通过图片实例分割模型得到每帧的实例预测结果，然后通过额外的多目标跟踪模型进行跨帧实例关联；逐片段处理的视频实例分割方案的原理是：先将视频划分为多个重叠的片段，得到每个片段的实例预测结果，然后通过实例匹配算法将这些片段关联起来。

在采用逐片段处理的视频实例分割方案时，假设视频中图片的帧数总共为9帧，则可以将这9帧中的第1至3帧作为一个片段，将这9帧中的第3至5帧作为另一个片段，将这9帧中的第5至7帧作为再一个片段，将这9帧中的第7至9帧作为又一个片段，由此总共可以得到4个片段，通过分别得到这4个片段各自对应的实例预测结果，然后进一步通过实例匹配算法进行片段的关联，能够实现对视频的实例分割。

容易看出，无论是逐帧处理的视频实例分割方案，还是逐片段处理的视频实例分割方案，均需要执行一个显式的关联步骤，这样会增加算法复杂度，降低视频实例分割速度。

示例性方法

图1是本公开一示例性实施例提供的视频实例分割方法的流程示意图。图1所示的方法包括步骤110、步骤120、步骤130和步骤140，下面分别对各步骤进行说明。

步骤110，对待处理视频中的当前帧进行特征提取，得到当前帧的当前特征图。

需要说明的是，可以预先通过模型训练，得到本公开的实施例中的实例分割模型，如图2所示，实例分割模型可以包括：特征提取子网络、实例查询与物体框传播子网络、实例解码子网络；其中，特征提取子网络包括但不限于残差网络(Residual Network，ResNet)等卷积神经网络。

可选地，待处理视频可以基于设置于第一车辆的摄像头(例如前视摄像头、后视摄像头等)采集的视频数据得到，例如，可以通过图2中的视频帧采集模块，对视频数据进行转换，以得到包括连续视频帧的待处理视频。

可选地，当前帧可以为待处理视频中除了首帧之外的任一帧，通过利用特征提取子网络对当前帧进行特征提取，可以得到当前帧的特征表示，当前帧的特征表示可以呈特征图的形式，此时，当前帧的特征表示即可作为当前帧的当前特征图。

具体实施时，可以依次将待处理视频中除了首帧之外的其余帧依次作为当前帧，例如，可以先将待处理视频中的第2帧作为当前帧，通过执行步骤110至步骤140得到第2帧的视频实例分割结果之后，将待处理视频中的第3帧作为当前帧，通过执行步骤110至步骤140得到第3帧的视频实例分割结果之后，再将待处理视频中的第4帧作为当前帧，后续以此类推。

步骤120，基于待处理视频中位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列。

需要说明的是，在待处理视频中的首帧作为一个历史帧时，可以将在后文中的模型训练阶段学习到的一实例特征序列作为首帧对应的历史实例特征序列；在待处理视频中的某一非首帧作为一个历史帧时，可以获取该非首帧作为当前帧时，通过执行步骤110至步骤140得到的当前实例特征序列，并将所获取的当前实例特征序列作为该非首帧对应的历史实例特征序列。

需要说明的是，本公开的实施例中的每个实例特征序列均可以包括：顺序排列的N个实例特征；其中，N可以为预设的每帧中的最大实例数量，例如为20、30或者其他数值；每个实例特征可以包括：多个特征维度各自对应的特征值，这里的多个特征维度具体可以为C个特征维度，C可以为128、256或者其他数值。

如果待处理视频中位于当前帧之前的历史帧的总数量大于或等于T(其可以为一预设的栈长度)，则在步骤120中，可以获取待处理视频中位于当前帧之前，且紧挨着当前帧的连续T个历史帧各自对应的历史实例特征序列，并基于所获取的历史实例特征序列，确定参考实例特征序列。

如果待处理视频中位于当前帧之前的历史帧的总数量小于T，则在步骤120中，可以获取待处理视频中位于当前帧之前的所有历史帧各自对应的历史实例特征序列，并基于所获取的历史实例特征序列，确定参考实例特征序列。

可选地，基于所获取的历史实例特征序列，可以经由实例查询与物体框传播子网络，确定参考实例特征序列。

步骤130，基于当前特征图、参考实例特征序列以及至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定当前帧的当前实例特征序列；其中，历史实例候选框信息序列包括：预定帧的历史特征图中的多个历史实例候选框各自对应的候选框信息。

可选地，预定帧可以为至少一个历史帧中的末尾帧。在一些情况下，预定帧也可以为至少一个历史帧中的次末尾帧或者其他帧，为了便于理解，本公开的实施例中均以预定帧为至少一个历史帧中的末尾帧的情况为例进行说明。

在待处理视频中的任一非首帧作为预定帧时，在步骤130之前，可以将预定帧的历史特征图和预定帧对应的历史实例特征序列作为输入数据提供给实例解码子网络，实例解码子网络可以据此进行解码处理，以得到预定帧的视频实例分割结果；其中，预定帧对应的历史实例特征序列可以包括：N个历史实例特征，预定帧的视频实例分割结果可以包括：与该N个历史实例特征一一对应的N个历史实例预测信息。

可选地，每个历史实例预测信息均可以包括以下至少一项：实例类别信息、实例位置信息，实例跟踪标识信息；其中，每个实例位置信息可以包括：四组角点坐标，每组角点坐标可以代表一个角点，通过四组角点坐标可以确定一矩形框；每个实例跟踪标识信息可以为一跟踪ID。这样，可以认为每个历史实例预测信息表示预定帧的历史特征图中的一个历史实例候选框对应的候选框信息，由此可以得到预定帧的历史特征图中的N个历史实例候选框各自对应的候选框信息，从而形成预定帧对应的历史实例候选框信息序列。

在待处理视频中的首帧作为预定帧时，可以将模型训练阶段学习到的一实例候选框信息序列作为预定帧对应的历史实例候选框信息序列。

在步骤130中，可以基于步骤110中确定的当前特征图，步骤120中确定的参考实例特征序列，以及采用上述方式得到的历史实例候选框信息序列，经由实例查询与物体框传播模块，确定当前帧的当前实例特征序列。

步骤140，基于当前特征图和当前实例特征序列，经由实例分割模型，生成当前帧的视频实例分割结果。

在步骤140中，可以将当前特征图和当前实例特征序列作为输入数据提供给实例解码子网络，实例解码子网络可以据此进行解码处理，以得到当前帧的视频实例分割结果，当前帧的视频实例分割结果的组成参照上文中对预定帧的视频实例分割结果的相关说明即可，在此不再赘述。

基于本公开上述实施例提供的视频实例分割方法，可以对待处理视频中的当前帧进行特征提取，得到当前帧的当前特征图，基于待处理视频中位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列，并将当前特征图、参考实例特征序列以及至少一个历史帧中的预定帧对应的历史实例候选框信息序列用于当前帧的当前实例特征序列的确定，这样，当前实例特征序列的确定过程已经有效地运用了从历史帧传播过来的信息，参考当前特征图和当前实例特征序列，经由实例分割模型能够高效可靠地生成当前帧的视频实例分割结果，而无需再执行显式的关联步骤，由此能够降低视频实例分割算法的复杂度，提高视频实例分割速度。

在图1所示实施例的基础上，如图3所示，步骤120，包括步骤1201、步骤1203和步骤1205。

步骤1201，分别确定历史实例特征集合中的至少一个历史实例特征与第一历史实例特征的第一相似度，得到至少一个第一相似度；其中，第一历史实例特征为预定帧对应的历史实例特征序列中的一个历史实例特征，历史实例特征集合包括：第一历史实例特征，以及至少一个历史帧中的每个非预定帧对应的历史实例特征序列中的一个历史实例特征，并且，历史实例特征集合中的任意两个历史实例特征在各自所位于的历史实例特征序列中的相对位置一致。

需要说明的是，至少一个历史帧与至少一个历史实例特征序列一一对应，由于历史实例特征集合中的任意两个历史实例特征在各自所位于的历史实例特征序列中的相对位置一致，如果第一历史实例特征为预定帧对应的历史实例特征序列中的第i个历史实例特征，历史实例特征集合可以包括：至少一个历史实例特征序列中的每个历史实例特征序列中的第i个历史实例特征。

在步骤1201中，针对历史实例特征集合中的每个历史实例特征，实例查询与物体框传播子网络可以按照预设的特征相似度算法，计算该历史实例特征与第一历史实例特征的第一相似度，由此可以得到与历史实例特征集合中的至少一个历史实例特征一一对应的至少一个第一相似度；其中，预设的特征相似度算法包括但不限于余弦相似度算法、欧式距离算法等。

步骤1203，基于历史实例特征集合和至少一个第一相似度，确定第一参考实例特征。

在一种可选的实施方式中，步骤1203，包括：

基于至少一个第一相似度，分别为历史实例特征集合中的至少一个历史实例特征分配第一权重，得到至少一个第一权重；

利用至少一个第一权重，对历史实例特征集合中的至少一个历史实例特征进行加权，得到第一加权实例特征；

对第一加权实例特征与第一历史实例特征进行特征融合，得到第一参考实例特征。

可选地，至少一个第一权重与至少一个第一相似度之间可以为一一对应的关系，至少一个第一权重与历史实例特征集合中的至少一个历史实例特征之间也可以为一一对应的关系。

在一个例子中，历史实例特征集合中的至少一个历史实例特征具体为6个历史实例特征，依次是c1、c2、c3、c4、c5、c6，c1至c6对应的第一相似度依次是g1、g2、g3、g4、g5、g6，c1至c6对应的第一权重依次是w1、w2、w3、w4、w5、w6，则w1至w6可以采用如下公式计算：

w1＝e^g1/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

w2＝e^g2/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

w3＝e^g3/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

w4＝e^g4/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

w5＝e^g5/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

w6＝e^g6/(e^g1+e^g2+e^g3+e^g4+e^g5+e^g6)

或者，w1至w6可以采用如下公式计算：

w1＝g1/(g1+g2+g3+g4+g5+g6)

w2＝g2/(g1+g2+g3+g4+g5+g6)

w3＝g3/(g1+g2+g3+g4+g5+g6)

w4＝g4/(g1+g2+g3+g4+g5+g6)

w5＝g5/(g1+g2+g3+g4+g5+g6)

w6＝g6/(g1+g2+g3+g4+g5+g6)

接下来，可以利用w1至w6，对c1至c6进行加权求和，以得到第一加权实例特征。假设第一加权实例特征表示为c，第一加权实例特征可以采用如下公式计算：

c＝w1*c1+w2*c2+w3*c3+w4*c4+w5*c5+w6*c6

需要说明的是，在确定上面的w1至w6时，也可以直接令w1至w6满足：

w1＝g1

w2＝g2

w3＝g3

w4＝g4

w5＝g5

w6＝g6

这种情况下，可以利用w1至w6，对c1至c6进行加权平均，以得到作为第一加权实例特征的c。这时，第一加权实例特征可以采用如下公式计算：

之后，可以通过第一加权实例特征与第一历史实例特征的特征融合，得到第一参考实例特征。假设第一参考实例特征表示为c6^*，第一参考实例特征可以采用如下公式计算：

c6^*＝c+c6

这种实施方式中，参考至少一个第一相似度，可以合理进行权重分配，通过利用经权重分配得到的至少一个第一权重，对历史实例特征集合中的至少一个历史实例特征进行加权，再通过加权结果与第一历史实例特征的融合，能够高效可靠地得到第一参考实例特征，并且，第一参考实例特征的确定过程有效地运用了从历史帧传播过来的信息，由此能够有效地保证第一参考实例特征的特征质量。

步骤1205，基于第一参考实例特征，确定参考实例特征序列，第一参考实例特征在参考实例特征序列中的相对位置与第一历史实例特征在预定帧对应的历史实例特征序列中的相对位置一致。

需要说明的是，上文中介绍了与第一历史实例特征对应的第一参考实例特征的确定方式，按照类似的方式，还可以确定预定帧对应的历史实例特征序列中的其余历史实例特征各自对应的参考实例特征，通过将得到的这些参考实例特征顺次排列，可以形成参考实例特征序列。

由于第一参考实例特征在参考实例特征序列中的相对位置与第一历史实例特征在预定帧对应的历史实例特征序列中的相对位置一致，如果第一历史实例特征为预定帧对应的历史实例特征序列中的第i个历史实例特征，则第一参考实例特征为参考实例特征序列中的第i个参考实例特征。

可选地，参考实例特征序列可以采用下述公式确定：

其中，i∈[1,N]，

表示参考实例特征序列中的第i个参考实例特征，

可以作为第一参考实例特征，

表示历史实例特征集合中的一个历史实例特征，

表示与

对应的第一权重，

表示预定帧对应的历史实例特征序列中的第i个历史实例特征，

可以作为第一历史实例特征。

本公开的实施例中，通过分别确定历史实例特征集合中的至少一个历史实例特征与第一历史实例特征的第一相似度，可以参考得到的至少一个第一相似度以及历史实例特征集合，高效合理地确定第一参考实例特征，从而得到特征质量优良的参考实例特征序列，以将得到的参考实例特征序列用于当前实例特征序列的确定，这样，通过有效地运用从历史帧传播过来的信息，能够较好地保证当前实例特征序列的可靠性，从而有利于保证当前帧的视频实例分割结果的准确性和可靠性。

在图1所示实施例的基础上，如图4所示，步骤130，包括步骤1301、步骤1303、步骤1305和步骤1307。

步骤1301，按照历史实例候选框信息序列，在当前特征图中确定多个实例候选框。

结合上文中对历史实例候选框信息序列的介绍可知，历史实例候选框信息序列可以包括：N个实例位置信息，每个实例位置信息均可以包括：四组角点坐标，这样，利用历史实例候选框信息序列中顺序排列的N个实例位置信息，可以在当前特征图中顺序确定N个实例候选框；其中，N个实例候选框与参考实例特征序列中的N个参考实例特征之间可以为一一对应的关系。

步骤1303，确定多个实例候选框中，与参考实例特征序列中的第二参考实例特征对应的第一实例候选框中的多个像素点各自的像素特征，得到多个像素特征。

需要说明的是，第二参考实例特征可以为参考实例特征序列中的任一参考实例特征。

在步骤1303中，可以先从多个实例候选框中，确定与第二参考实例特征对应的第一实例候选框，然后确定第一实例候选框中的多个像素点各自的像素特征，由此得到与多个像素点一一对应的多个像素特征；其中，与每个实例特征类似，每个像素特征也可以包括：多个特征维度各自对应的特征值。

步骤1305，基于第二参考实例特征和多个像素特征，确定第一当前实例特征。

在一种可选的实施方式中，步骤1305，包括：

分别确定多个像素特征与第二参考实例特征的第二相似度，得到多个第二相似度；

基于多个第二相似度，分别为多个像素点分配第二权重，得到多个第二权重；

利用多个第二权重，对多个像素特征进行加权，得到第一当前实例特征。

可选地，针对多个像素特征中的每个像素特征，可以分别按照预设的特征相似度算法，计算该像素特征与第二参考实例特征的第二相似度，由此可以得到与多个像素特征一一对应的多个第二相似度。

接下来，可以基于多个第二相似度，进行权重分配，以得到多个第二权重，并利用多个第二权重，对多个像素特征进行加权，以得到第一当前实例特征，具体权重分配方式和加权方式均参照上文中对步骤1203的实施方式的相关介绍即可，在此不再赘述。

这样，通过第二相似度的确定，并参照确定出的多个第二相似度合理进行权重分配，再结合加权处理，能够高效可靠地得到第一当前实例特征，并且，第一当前实例特征可以认为是对第二参考实例特征进行修正后得到的结果，第一当前实例特征的特征质量能够得到较好的保证。

步骤1307，基于第一当前实例特征，确定当前帧的当前实例特征序列，第一当前实例特征在当前实例特征序列中的相对位置与第二参考实例特征在参考实例特征序列中的相对位置一致。

需要说明的是，步骤1307的具体实施方式参照上文中对步骤1205的相关介绍即可，在此不再赘述。

由于视频的连续性，上一帧中的物体会在下一帧中相似的位置重新出现，有鉴于此，本公开的实施例中，可以按照历史实例候选框信息序列，在当前特征图中确定多个实例候选框，并利用所确定的实例候选框中的像素点的像素特征，对参考实例特征序列中的参考实例特征进行修正，从而得到特征质量优良的当前实例特征序列，以将得到的当前实例特征序列用于当前帧的视频实例分割结果的生成，从而有利于保证当前帧的视频实例分割结果的准确性和可靠性。

在一个可选示例中，对于待处理视频，可以通过卷积神经网络提取当前帧的特征表示(相当于上文中的当前特征图)，将当前特征图输入实例查询与物体框传播子网络，再利用从历史帧传播过来的信息，实例查询与物体框传播子网络可以生成当前实例特征序列。

具体地，如图5所示，实例查询与物体框传播子网络可以利用上一帧物体框检测结果b_t-1(相当于上文中的历史实例候选框信息序列)，在当前特征图x_t上提取可能存在物体的候选区域的区域特征roi_t(相当于上文中的多个像素特征)，另外，实例查询与物体框传播子网络可以利用位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列

并利用区域特征roi_t，对参考实例特征序列进行修正，以得到当前实例特征序列q_t。对于参考实例特征序列中的任一参考实例特征，可以基于多个像素特征和该参考实例特征，通过预设的特征相似度算法，得到多个第二权重，并利用多个第二权重，对多个像素特征进行加权，得到的加权结果可以认为是对该参考实例特征的修正结果，该修正结果可以作为当前实例特征序列q_t中与该参考实例特征对应的当前实例特征。

之后，可以将当前特征图和当前实例特征序列q_t输入实例解码子网络进行解码，从而生成当前帧的视频实例分割结果。需要说明的是，本公开的实施例中，任一实例特征序列中的多个实例特征均顺序排列，同一实例的实例特征在不同帧对应的当前实例特征序列中的相对位置是一致的，这样，同一实例在不同帧上会在相同位序解码，例如，当前实例特征序列q_t中的

与

将解码同一实例，由此可以实现隐式的实例关联。

本公开实施例提供的任一种视频实例分割方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频实例分割方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频实例分割方法。下文不再赘述。

图6是本公开一示例性实施例提供的实例分割模型训练方法的流程示意图。图6所示的方法包括步骤610、步骤620、步骤630、步骤640、步骤650和步骤660，下面分别对各步骤进行说明。

步骤610，对训练视频中的当前训练帧进行特征提取，得到当前训练帧的当前训练特征图。

步骤620，基于训练视频中位于当前训练帧之前的至少一个历史训练帧各自对应的历史训练实例特征序列，确定参考训练实例特征序列。

步骤630，基于当前训练特征图、参考训练实例特征序列以及至少一个历史训练帧中的预定训练帧对应的历史训练实例候选框信息序列，确定当前训练帧的当前训练实例特征序列；其中，历史训练实例候选框信息序列包括：预定训练帧的历史训练特征图中的多个历史实例候选框各自对应的候选框信息。

步骤640，基于当前训练特征图和当前训练实例特征序列，经由初始实例分割模型，生成当前训练帧的视频实例分割结果。

需要说明的是，步骤610至步骤640的具体实施过程参照对步骤110至步骤140的相关介绍即可，在此不再赘述。

步骤650，基于当前训练帧的视频实例分割结果、当前训练帧的标注信息以及预定训练帧的标注信息，对初始实例分割模型进行训练。

需要说明的是，初始实例分割模型是指待训练的实例分割模型，这样，初始实例分割模型也可以包括：特征提取子网络、实例查询与物体框传播子网络、实例解码子网络。当前训练帧的视频实例分割结果的组成参照上文中对预定帧的视频实例分割结果的相关说明即可，在此不再赘述。

可选地，当前训练帧的标注信息可以包括：当前训练帧中的多个实例各自的实例类别信息、实例位置信息、实例跟踪标识信息。

类似地，预定训练帧的标注信息可以包括：预定训练帧中的多个实例各自的实例类别信息、实例位置信息、实例跟踪标识信息。

在步骤650中，可以参考当前训练帧的视频实例分割结果、当前训练帧的标注信息以及预定训练帧的标注信息，进行多次迭代处理，在每次迭代处理过程中，均对初始实例分割模型进行参数更新，以不断优化初始实例分割模型的模型参数。

步骤660，响应于训练后的初始实例分割模型符合预设训练结束条件，将训练后的初始实例分割模型确定为实例分割模型。

如果在某一时刻检测到训练后的初始实例分割模型收敛，则可以判定训练后的初始实例分割模型符合预设训练结束条件，此时可以直接将训练后的初始实例分割模型确定为已训练好的实例分割模型。

当然，预设训练结束条件并不局限于此，例如，也可以在迭代处理次数达到预设次数(例如10000次、20000次)的情况下，确定训练后的初始实例分割模型符合预设训练结束条件。

本公开的实施例中，可以对训练视频中的当前训练帧进行特征提取，得到当前训练帧的当前训练特征图，基于训练视频中位于当前训练帧之前的至少一个历史训练帧各自对应的历史训练实例特征序列，确定参考训练实例特征序列，并将当前训练特征图、参考训练实例特征序列以及至少一个历史训练帧中的预定训练帧对应的历史训练实例候选框信息序列用于当前训练帧的当前训练实例特征序列的确定，这样，当前训练实例特征序列的确定过程有效地运用了从历史训练帧传播过来的信息，参考当前训练特征图和当前训练实例特征序列，经由初始实例分割模型能够高效可靠地生成当前训练帧的视频实例分割结果。之后，通过将当前训练帧的视频实例分割结果、当前训练帧的标注信息以及预定训练帧的标注信息用于初始实例分割模型的训练，能够高效可靠地得到训练好的实例分割模型，在模型实际使用阶段，无需再执行显式的关联步骤即可高效可靠地生成视频实例分割结果，由此能够降低视频实例分割算法的复杂度，提高视频实例分割速度。

在图6所示实施例的基础上，如图7所示，步骤650，包括步骤6501、步骤6503、步骤6505、步骤6507和步骤6509。

步骤6501，基于当前训练帧的视频实例分割结果，确定当前训练帧的当前实例预测信息序列；其中，当前实例预测信息序列包括：多个当前实例预测信息，多个当前实例预测信息对应多个实例候选框。

可选地，当前训练帧的视频实例分割结果可以包括：当前训练帧的当前实例预测信息序列，当前实例预测信息序列可以包括：顺序排列的N个实例预测信息，实例预测信息的组成参照上文中对历史实例预测信息的相关说明即可，在此不再赘述。

在步骤6501中，可以直接从当前训练帧的视频实例分割结果中提取当前实例预测信息序列。

步骤6503，基于当前训练帧的标注信息、预定训练帧的标注信息以及预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息，为当前实例预测信息序列进行跟踪标识分配。

可选地，预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息可以用于表示：历史实例预测信息序列包括的N个实例预测信息中的哪些历史实例预测信息被分配了历史跟踪标识，分配的具体历史跟踪标识等。

在一种可选的实施方式中，步骤6503，包括：

响应于基于历史跟踪标识分配情况信息，确定当前实例预测信息序列中的第一当前实例预测信息对应的第一历史实例预测信息未分配跟踪标识，将第一当前实例预测信息添加至新增实例预测信息集合；其中，第一当前实例预测信息与第一历史实例预测信息对应表示：第一历史实例预测信息在历史实例预测信息序列中的相对位置与第一当前实例预测信息在当前实例预测信息序列中的相对位置一致；

响应于基于历史跟踪标识分配情况信息，确定第一历史实例预测信息已分配不同于预设跟踪标识的第一跟踪标识，且当前训练帧的标注信息中存在第一跟踪标识，为第一当前实例预测信息分配第一跟踪标识；

响应于基于历史跟踪标识分配情况信息，确定第一历史实例预测信息已分配第一跟踪标识，且当前训练帧的标注信息中不存在第一跟踪标识，为第一当前实例预测信息分配预设跟踪标识；

通过比对当前训练帧的标注信息与预定训练帧的标注信息，确定新增实例标注信息集合；

将新增实例标注信息集合与新增实例预测信息集合进行匹配，并基于匹配结果，为新增实例预测信息集合中的至少部分当前实例预测信息分配跟踪标识。

可选地，新增实例预测信息集合可以表示为

新增实例标注信息集合可以表示为

预设跟踪标识可以为预设的背景标识。

需要说明的是，第一当前实例预测信息可以为当前实例预测信息序列中的任一当前实例预测信息。由于第一当前实例预测信息与第一历史实例预测信息对应，如果第一当前实例预测信息为当前实例预测信息序列中的第i个当前实例预测信息，则第一历史实例预测信息可以为历史实例预测信息序列中的第i个历史实例预测信息。

这种实施方式中，可以通过对历史跟踪标识分配情况信息进行分析，确定第一历史实例预测信息是否分配了跟踪标识，分配的跟踪标识的具体表示。

如果第一历史实例预测信息未分配跟踪标识，则可以将第一当前实例预测信息添加至

中。

如果第一历史实例预测信息已分配不同于预设跟踪标识的第一跟踪标识，且当前训练帧的标注信息中存在第一跟踪标识，这说明第一历史实例预测对应的实例是预定训练帧中已出现过的实例，且当前序列帧中仍存在该实例，那么，可以为第一当前实例预测信息分配第一跟踪标识，以使第一当前实例预测信息复用之前已为其分配过的跟踪标识。

如果第一历史实例预测信息已分配第一跟踪标识，且当前训练帧的标注信息中不存在第一跟踪标识，这说明第一历史实例预测对应的实例是预定训练帧中已出现过的实例，且当前序列帧并不存在该实例，也即，该实例在当前训练帧中消失了，那么，可以为第一当前实例预测信息分配预设跟踪标识，以表征第一当前实例预测信息对应当前训练帧的图像背景部分。

另外，还可以比对当前训练帧的标注信息与预定训练帧的标注信息，以确定当前训练帧的标注信息相比于预定训练帧的标注信息增加了哪些实例标注信息，这些实例标注信息的集合即可作为新增实例标注信息集合。

之后，可以通过匈牙利匹配算法，将新增实例标注信息集合与新增实例预测信息集合进行匹配，以确定新增实例预测信息集合中的哪些实例预测信息能够与新增实例标注信息集合中的实例预测信息匹配上。

假设新增实例预测信息集合包括：新增实例预测信息a1、新增实例预测信息a2、新增实例预测信息a3，新增实例标注信息集合包括：新增实例标注信息b1、新增实例标注信息b2，且b1与a1能够匹配上，b2与a3能够匹配上，则可以将针对b1标注的跟踪标识h1分配给a1，将针对b2标注的跟踪标识h2分配给a3，且不为a2分配跟踪标识。

这种实施方式中，通过在模型训练阶段，给重复出现的实例复用之前已为其分配过的跟踪标识，为之前出现过但又消失的实例分配表征背景的跟踪标识，并基于匈牙利匹配算法为新出现的实例分配合适的跟踪标识，在模型实际使用阶段，实例分割模型能够准确地为每帧中的每个实例自动分配合适的跟踪标识，以关联不同帧中的同一实例，由此能够较好地保证视频实例分割结果的准确性和可靠性。

步骤6505，基于当前实例预测信息序列的当前跟踪标识分配情况信息，将多个当前实例预测信息对应的多个实例候选框划分为正样本框集合和负样本框集合。

在一种可选的实施方式中，步骤6505，包括：

确定当前实例预测信息序列中，分配有不同于预设跟踪标识的跟踪标识的各个当前实例预测信息；

将确定的各个当前实例预测信息各自对应的实例候选框组成的集合作为正样本框集合，并将剩余实例候选框组成的集合作为负样本框集合。

假设当前实例预测信息序列包括20个当前实例预测信息，这20个当前视频实例预测信息中仅5个当前视频实例预测信息分别被分配了不同于预设跟踪标识的跟踪标识，则可以将与这5个当前视频实例预测信息一一对应的5个实例候选框组成的集合作为正样本框集合，并将与剩余15个当前视频实例预测信息一一对应的15个实例候选框组成的集合作为负样本框集合。

采用这种实施方式，能够高效可靠地将多个实例候选框划分为正样本框集合和负样本框集合，并且，正样本框集合中的每个实例候选框可以认为是与真实标注信息匹配的正样本，负样本框集合中的每个实例候选框可以认为是与真实标注信息不匹配的负样本。

在一些情况下，多个实例候选框还可以具有各自对应的置信度(其可以由初始实例预测模型预测得到)，在步骤6505中，可以结合当前实例预测信息序列的当前跟踪标识分配情况信息，以及多个实例候选框各自对应的置信度，将多个实例候选框划分为正样本框集合和负样本框集合。

步骤6507，基于正样本框集合和负样本框集合，确定模型损失值。

在一种可选的实施方式中，步骤6507，包括：

从负样本框集合中，确定与正样本框集合中的第二实例候选框的交并比最大的第三实例候选框；

确定第二实例候选框与第三实例候选框的中心距离；

确定第二实例候选框的对角线长度；

基于中心距离、对角线长度、第一预设数值和第二预设数值，确定模型损失值。

需要说明的是，第二实例候选框可以为正样本框集合中的任一实例候选框。

假设正样本框集合包括：V1个实例候选框，负样本框集合包括：V2个实例候选框，V1和V2均大于1，则可以分别确定负样本框集合中的每个实例候选框与正样本框集合中的第二实例候选框的交并比，由此可以得到与负样本框集合中的V2个实例候选框一一对应的V2个交并比。

接下来，可以从V2个交并比中，选择数值最大的交并比，负样本框集合中与该交并比对应的实例候选框即可作为第三实例候选框。

之后，可以计算第二实例候选框与第三实例候选框的中心距离，以及第二实例候选框的对角线长度，并将中心距离和对角线长度用于模型损失值的确定。

可选地，基于中心距离、对角线长度、第一预设数值和第二预设数值，确定模型损失值，包括：

对中心距离进行幂运算，得到第一运算值；

对对角线长度进行幂运算，得到第二运算值；

计算第一运算值与第二运算值的比值；

计算第一预设数值与比值的差值；

从差值与第二预设值中选取较大值；

基于较大值，确定模型损失值。

假设第二实例候选框如图8中的实线框bⁱ(其可以认为是真实框)所示，第三实例候选框如图8中的虚线框

所示，则中心距离可以表示为

对角线长度可以表示为d(bⁱ)。

假设幂运算为二次幂运算，则第一运算值可以表示为

第二运算值可以表示为d²(bⁱ)，第一运算值与第二运算值的比值可以表示为

假设第一预设数值表示为β，第二预设数值为0，则第一预设数值与比值的插值可以表示为

假设较大值表示为L_dedup，则较大值可以采用如下公式计算：

在得到较大值之后，可以将较大值作为第二实例候选框对应的框损失值，按照类似的方式，还可以得到正样本框集合中其余实例候选框各自对应的框损失值，这样总共可以得到V1个框损失值，之后可以计算多个框损失值的平均值，计算出的平均值可以作为模型损失值。

这样，通过幂运算、除法运算、减法运算、大小比较运算等简单的运算逻辑，能够高效可靠地计算出模型损失值。

当然，模型损失值的确定方式并不局限于此，例如，还可以通过其他类型的损失函数，计算模型损失值，只需保证模型损失值与中心距离之间呈负相关即可。

这种实施方式中，通过从负样本框集合中，确定与正样本框集合中的第二实例候选框的交并比最大的第三实例候选框，并结合第二实例候选框与第三实例候选框的中心距离，第二实例候选框的对角线长度，以及第一预设数值和第二预设数值，能够高效可靠地确定模型损失值，并且，在将确定出的模型损失值用于模型训练时，有利于拉开负样本框与真实框之间的中心距离，使该中心距离大于第一预设数值，从而有利于减弱冗余框聚集的情况。

步骤6509，基于模型损失值，对初始实例分割模型进行训练。

在步骤6509中，参考模型损失值，可以利用梯度下降算法(例如随机梯度下降算法)，对初始实例分割模型进行参数调整。

本公开的实施例中，参考当前训练帧的视频实例分割结果，可以高效可靠地确定当前训练帧的当前实例预测信息序列，参考当前训练帧的标注信息、预定训练帧的标注信息以及预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息，可以合理地为当前实例预测信息序列进行跟踪标识分配，基于得到的当前实例预测信息序列的当前跟踪标识分配情况信息，可以将多个当前实例预测信息对应的多个实例候选框合理划分为正样本框集合和负样本框集合，以通过框损失值的计算，得到模型损失值以用于初始实例分割模型的训练，这样有利于降低训练好的实例分割模型产生重复预测框的可能性，减小冗余，提升实例分割模型的准确性和可靠性。

在一个可选示例中，在得到当前训练特征图和当前训练帧的当前训练实例特征序列之后，可以将当前训练特征图和当前训练实例特征序列作为输入数据提供给初始实例分割模型的实例解码子网络，实例解码子网络可以据此进行解码处理，以得到当前训练帧的视频实例分割结果，当前训练帧的视频实例分割结果可以包括：当前实例预测信息序列，当前实例预测信息序列可以包括：N个当前实例预测信息，当前实例预测信息序列中的第i个当前实例预测信息可以表示为图9中的

假设当前训练特征图是第t帧训练特征图，如图9所示，可以判断当前实例预测信息

对应的实例是否出现在第t-1帧训练特征图(即预定训练帧的历史训练特征图)。

如果当前实例预测信息

对应的实例出现在第t-1帧训练特征图，第t-1帧训练特征图中该实例对应的跟踪ID为ID1，且当前训练帧的标注信息中存在ID1，则可以复用第t-1帧训练特征图的标签分配结果，即将ID1分配给当前实例预测信息

如果当前实例预测信息

对应的实例出现在第t-1帧训练特征图，第t-1帧训练特征图中该实例对应的跟踪ID为ID1，且当前训练帧的标注信息中不存在ID1，则可以将作为预设跟踪ID的ID2分配给当前实例预测信息

如果当前实例预测信息

对应的实例未出现在第t-1帧训练特征图，则可以将当前实例预测信息

添加至新增实例预测信息集合

中，后续可以通过匈牙利匹配算法，为新增实例预测信息集合的

中的至少部分新增实例预测信息分配跟踪ID。

在完成跟踪ID的分配之后，可以参考分配结果，确定正样本框集合和负样本框集合，以将正样本框集合和负样本框集合用于框损失值的确定，以便利用框损失值，对初始实例分割模型进行参数优化。

综上，本公开的实施例能够将实例分割和实例关联的过程合二为一，二者相互促进，从而提升视频实例分割算法的准确性，降低视频实例分割算法的复杂度。

本公开实施例提供的任一种实例分割模型训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种实例分割模型训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种实例分割模型训练方法。下文不再赘述。

示例性装置

图10是本公开一示例性实施例提供的视频实例分割装置的结构示意图。图10所示的装置包括第一特征提取模块1010、第一确定模块1020、第二确定模块1030和第一生成模块1040。

第一特征提取模块1010，用于对待处理视频中的当前帧进行特征提取，得到当前帧的当前特征图；

第一确定模块1020，用于基于待处理视频中位于当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列；

第二确定模块1030，用于基于第一特征提取模块1010得到的当前特征图、第一确定模块1020确定的参考实例特征序列以及至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定当前帧的当前实例特征序列；其中，历史实例候选框信息序列包括：预定帧的历史特征图中的多个历史实例候选框各自对应的候选框信息；

第一生成模块1040，用于基于第一特征提取模块1010得到的当前特征图和第二确定模块1030确定的当前实例特征序列，经由实例分割模型，生成当前帧的视频实例分割结果。

在一个可选示例中，如图11所示，第一确定模块1020，包括：

第一确定子模块10201，用于分别确定历史实例特征集合中的至少一个历史实例特征与第一历史实例特征的第一相似度，得到至少一个第一相似度；其中，第一历史实例特征为预定帧对应的历史实例特征序列中的一个历史实例特征，历史实例特征集合包括：第一历史实例特征，以及至少一个历史帧中的每个非预定帧对应的历史实例特征序列中的一个历史实例特征，并且，历史实例特征集合中的任意两个历史实例特征在各自所位于的历史实例特征序列中的相对位置一致；

第二确定子模块10203，用于基于历史实例特征集合和第一确定子模块10201得到的至少一个第一相似度，确定第一参考实例特征；

第三确定子模块10205，用于基于第二确定子模块10203确定的第一参考实例特征，确定参考实例特征序列，第一参考实例特征在参考实例特征序列中的相对位置与第一历史实例特征在预定帧对应的历史实例特征序列中的相对位置一致。

在一个可选示例中，第二确定子模块10203，包括：

第一分配单元，用于基于第一确定子模块10201得到的至少一个第一相似度，分别为历史实例特征集合中的至少一个历史实例特征分配第一权重，得到至少一个第一权重；

第一加权单元，用于利用第一分配单元得到的至少一个第一权重，对历史实例特征集合中的至少一个历史实例特征进行加权，得到第一加权实例特征；

融合单元，用于对第一加权单元得到的第一加权实例特征与第一历史实例特征进行特征融合，得到第一参考实例特征。

在一个可选示例中，如图11所示，第二确定模块1030，包括：

第四确定子模块10301，用于按照历史实例候选框信息序列，在当前特征图中确定多个实例候选框；

第五确定子模块10303，用于确定第四确定子模块10301确定的多个实例候选框中，与第三确定子模块10205确定的参考实例特征序列中的第二参考实例特征对应的第一实例候选框中的多个像素点各自的像素特征，得到多个像素特征；

第六确定子模块10305，用于基于第二参考实例特征和第五确定子模块10303得到的多个像素特征，确定第一当前实例特征；

第七确定子模块10307，用于基于第六确定子模块10305确定的第一当前实例特征，确定当前帧的当前实例特征序列，第一当前实例特征在当前实例特征序列中的相对位置与第二参考实例特征在参考实例特征序列中的相对位置一致。

在一个可选示例中，第六确定子模块10305，包括：

第一确定单元，用于分别确定第五确定子模块10303得到的多个像素特征与第二参考实例特征的第二相似度，得到多个第二相似度；

第二分配单元，用于基于第一确定单元得到的多个第二相似度，分别为多个像素点分配第二权重，得到多个第二权重；

第二加权单元，用于利用第二分配单元得到的多个第二权重，对第五确定子模块10303得到的多个像素特征进行加权，得到第一当前实例特征。

图12是本公开一示例性实施例提供的视频实例分割装置的结构示意图。图12所示的装置包括第二特征提取模块1210、第三确定模块1220、第四确定模块1230、第二生成模块1240、训练模块1250和第五确定模块1260。

第二特征提取模块1210，用于对训练视频中的当前训练帧进行特征提取，得到当前训练帧的当前训练特征图；

第三确定模块1220，用于基于训练视频中位于当前训练帧之前的至少一个历史训练帧各自对应的历史训练实例特征序列，确定参考训练实例特征序列；

第四确定模块1230，用于基于第二特征提取模块1210得到的当前训练特征图、第三确定模块1220确定的参考训练实例特征序列以及至少一个历史训练帧中的预定训练帧对应的历史训练实例候选框信息序列，确定当前训练帧的当前训练实例特征序列；其中，历史训练实例候选框信息序列包括：预定训练帧的历史训练特征图中的多个历史实例候选框各自对应的候选框信息；

第二生成模块1240，用于基于第二特征提取模块1210得到的当前训练特征图和第四确定模块1230确定的当前训练实例特征序列，经由初始实例分割模型，生成当前训练帧的视频实例分割结果；

训练模块1250，用于基于第二生成模块1240生成的当前训练帧的视频实例分割结果、当前训练帧的标注信息以及预定训练帧的标注信息，对神经网络模型进行训练；

第五确定模块1260，用于响应于训练模块1250训练后的初始实例分割模型符合预设训练结束条件，将训练后的初始实例分割模型确定为实例分割模型。

在一个可选示例中，如图13所示，训练模块1250，包括：

第八确定子模块12501，用于基于当前训练帧的视频实例分割结果，确定当前训练帧的当前实例预测信息序列；其中，当前实例预测信息序列包括：多个当前实例预测信息，多个当前实例预测信息对应多个实例候选框；

分配子模块12503，用于基于第二生成模块1240生成的当前训练帧的视频实例分割结果、预定训练帧的标注信息以及预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息，为当前实例预测信息序列进行跟踪标识分配；

划分子模块12505，用于基于分配子模块12503得到的当前实例预测信息序列的当前跟踪标识分配情况信息，将多个当前实例预测信息对应的多个实例候选框划分为正样本框集合和负样本框集合；

第九确定子模块12507，用于基于划分子模块12505划分得到的正样本框集合和负样本框集合，确定模型损失值；

训练子模块12509，用于基于第九确定子模块12507确定的模型损失值，对初始实例分割模型进行训练。

在一个可选示例中，分配子模块12503，包括：

第一处理单元，用于响应于基于历史跟踪标识分配情况信息，确定第八确定子模块12501确定的当前实例预测信息序列中的第一当前实例预测信息对应的第一历史实例预测信息未分配跟踪标识，将第一当前实例预测信息添加至新增实例预测信息集合；其中，第一当前实例预测信息与第一历史实例预测信息对应表示：第一历史实例预测信息在历史实例预测信息序列中的相对位置与第一当前实例预测信息在当前实例预测信息序列中的相对位置一致；

第二处理单元，用于响应于基于历史跟踪标识分配情况信息，确定第一历史实例预测信息已分配不同于预设跟踪标识的第一跟踪标识，且当前训练帧的标注信息中存在第一跟踪标识，为第一当前实例预测信息分配第一跟踪标识；

第三处理单元，用于响应于基于历史跟踪标识分配情况信息，确定第一历史实例预测信息已分配第一跟踪标识，且当前训练帧的标注信息中不存在第一跟踪标识，为第一当前实例预测信息分配预设跟踪标识；

第二确定单元，用于通过比对当前训练帧的标注信息与预定训练帧的标注信息，确定新增实例标注信息集合；

第四处理单元，用于将第二确定单元确定的新增实例标注信息集合与新增实例预测信息集合进行匹配，并基于匹配结果，为新增实例预测信息集合中的至少部分当前实例预测信息分配跟踪标识。

在一个可选示例中，划分子模块12505，包括：

第三确定单元，用于确定第八确定子模块12501确定的当前实例预测信息序列中，分配有不同于预设跟踪标识的跟踪标识的各个当前实例预测信息；

划分单元，用于将确定的各个当前实例预测信息各自对应的实例候选框组成的集合作为正样本框集合，并将剩余实例候选框组成的集合作为负样本框集合。

在一个可选示例中，第九确定子模块12507，包括：

第四确定单元，用于从划分子模块12505得到的负样本框集合中，确定与划分子模块12505得到的正样本框集合中的第二实例候选框的交并比最大的第三实例候选框；

第五确定单元，用于确定第二实例候选框与第四确定单元确定的第三实例候选框的中心距离；

第六确定单元，用于确定第二实例候选框的对角线长度；

第七确定单元，用于基于第五确定单元确定的中心距离、第六确定单元确定的对角线长度、第一预设数值和第二预设数值，确定模型损失值。

在一个可选示例中，第七确定单元，包括：

第一运算子单元，用于对第五确定单元确定的中心距离进行幂运算，得到第一运算值；

第二运算子单元，用于对第六确定单元确定的对角线长度进行幂运算，得到第二运算值；

第一计算子单元，用于计算第一运算子单元得到的第一运算值与第二运算子单元得到的第二运算值的比值；

第二计算子单元，用于计算第一预设数值与第一计算子单元得到的比值的差值；

选取子单元，用于从第二计算子单元得到的差值与第二预设值中选取较大值；

确定子单元，用于基于选择子单元选取的较大值，确定模型损失值。

示例性电子设备

下面，参考图14来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图14图示了根据本公开实施例的电子设备的框图。

如图14所示，电子设备1400包括一个或多个处理器1401和存储器1402。

处理器1401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1400中的其他组件以执行期望的功能。

存储器1402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1401可以运行所述程序指令，以实现上文所述的本公开的各个实施例的图像生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1400还可以包括：输入装置1403和输出装置1404，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置1403可以是上述的麦克风或麦克风阵列。在该电子设备是单机设备时，该输入装置1403可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置1403还可以包括例如键盘、鼠标等等。

该输出装置1404可以向外部输出各种信息，包括确定距离信息、方向信息等。该输出装置1404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备1400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1400还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频实例分割方法中的步骤，或者根据本公开各种实施例的实例分割模型训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频实例分割方法中的步骤，或者根据本公开各种实施例的实例分割模型训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种视频实例分割方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述待处理视频中位于所述当前帧之前的至少一个历史帧各自对应的历史实例特征序列，确定参考实例特征序列，包括：

分别确定历史实例特征集合中的至少一个历史实例特征与第一历史实例特征的第一相似度，得到至少一个第一相似度；其中，所述第一历史实例特征为所述预定帧对应的历史实例特征序列中的一个历史实例特征，所述历史实例特征集合包括：所述第一历史实例特征，以及所述至少一个历史帧中的每个非预定帧对应的历史实例特征序列中的一个历史实例特征，并且，所述历史实例特征集合中的任意两个历史实例特征在各自所位于的历史实例特征序列中的相对位置一致；

基于所述历史实例特征集合和所述至少一个第一相似度，确定第一参考实例特征；

基于所述第一参考实例特征，确定参考实例特征序列，所述第一参考实例特征在所述参考实例特征序列中的相对位置与所述第一历史实例特征在所述预定帧对应的历史实例特征序列中的相对位置一致。

3.根据权利要求2所述的方法，其中，所述基于所述历史实例特征集合和所述至少一个第一相似度，确定第一参考实例特征，包括：

基于所述至少一个第一相似度，分别为所述历史实例特征集合中的至少一个历史实例特征分配第一权重，得到至少一个第一权重；

利用所述至少一个第一权重，对所述历史实例特征集合中的至少一个历史实例特征进行加权，得到第一加权实例特征；

对所述第一加权实例特征与所述第一历史实例特征进行特征融合，得到第一参考实例特征。

4.根据权利要求1所述的方法，其中，所述基于所述当前特征图、所述参考实例特征序列以及所述至少一个历史帧中的预定帧对应的历史实例候选框信息序列，确定所述当前帧的当前实例特征序列，包括：

按照所述历史实例候选框信息序列，在所述当前特征图中确定多个实例候选框；

确定所述多个实例候选框中，与所述参考实例特征序列中的第二参考实例特征对应的第一实例候选框中的多个像素点各自的像素特征，得到多个像素特征；

基于所述第二参考实例特征和所述多个像素特征，确定第一当前实例特征；

基于所述第一当前实例特征，确定所述当前帧的当前实例特征序列，所述第一当前实例特征在所述当前实例特征序列中的相对位置与所述第二参考实例特征在所述参考实例特征序列中的相对位置一致。

5.根据权利要求4所述的方法，其中，所述基于所述第二参考实例特征和所述多个像素特征，确定第一当前实例特征，包括：

分别确定所述多个像素特征与所述第二参考实例特征的第二相似度，得到多个第二相似度；

基于所述多个第二相似度，分别为所述多个像素点分配第二权重，得到多个第二权重；

利用所述多个第二权重，对所述多个像素特征进行加权，得到第一当前实例特征。

6.一种实例分割模型训练方法，包括：

7.根据权利要求6所述的方法，其中，所述基于所述当前训练帧的视频实例分割结果、所述当前训练帧的标注信息以及所述预定训练帧的标注信息，对所述神经网络模型进行训练，包括：

基于所述当前训练帧的视频实例分割结果，确定所述当前训练帧的当前实例预测信息序列；其中，所述当前实例预测信息序列包括：多个当前实例预测信息，所述多个当前实例预测信息对应多个实例候选框；

基于所述当前训练帧的标注信息、所述预定训练帧的标注信息以及所述预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息，为所述当前实例预测信息序列进行跟踪标识分配；

基于所述当前实例预测信息序列的当前跟踪标识分配情况信息，将所述多个当前实例预测信息对应的多个实例候选框划分为正样本框集合和负样本框集合；

基于所述正样本框集合和所述负样本框集合，确定模型损失值；

基于所述模型损失值，对所述初始实例分割模型进行训练。

8.根据权利要求7所述的方法，其中，所述基于所述当前训练帧的标注信息、所述预定训练帧的标注信息以及所述预定训练帧的历史实例预测信息序列的历史跟踪标识分配情况信息，为所述当前实例预测信息序列进行跟踪标识分配，包括：

响应于基于所述历史跟踪标识分配情况信息，确定所述当前实例预测信息序列中的第一当前实例预测信息对应的第一历史实例预测信息未分配跟踪标识，将所述第一当前实例预测信息添加至新增实例预测信息集合；其中，所述第一当前实例预测信息与所述第一历史实例预测信息对应表示：所述第一历史实例预测信息在所述历史实例预测信息序列中的相对位置与所述第一当前实例预测信息在所述当前实例预测信息序列中的相对位置一致；

响应于基于所述历史跟踪标识分配情况信息，确定所述第一历史实例预测信息已分配不同于预设跟踪标识的第一跟踪标识，且所述当前训练帧的标注信息中存在所述第一跟踪标识，为所述第一当前实例预测信息分配所述第一跟踪标识；

响应于基于所述历史跟踪标识分配情况信息，确定所述第一历史实例预测信息已分配所述第一跟踪标识，且所述当前训练帧的标注信息中不存在所述第一跟踪标识，为所述第一当前实例预测信息分配所述预设跟踪标识；

通过比对所述当前训练帧的标注信息与所述预定训练帧的标注信息，确定新增实例标注信息集合；

将所述新增实例标注信息集合与所述新增实例预测信息集合进行匹配，并基于匹配结果，为所述新增实例预测信息集合中的至少部分当前实例预测信息分配跟踪标识。

9.根据权利要求8所述的方法，其中，所述基于所述当前实例预测信息序列的当前跟踪标识分配情况信息，将所述多个当前实例预测信息对应的多个实例候选框划分为正样本框集合和负样本框集合，包括：

确定所述当前实例预测信息序列中，分配有不同于所述预设跟踪标识的跟踪标识的各个当前实例预测信息；

将确定的各个所述当前实例预测信息各自对应的所述实例候选框组成的集合作为正样本框集合，并将剩余所述实例候选框组成的集合作为负样本框集合。

10.根据权利要求7所述的方法，其中，所述基于所述正样本框集合和所述负样本框集合，确定模型损失值，包括：

从所述负样本框集合中，确定与所述正样本框集合中的第二实例候选框的交并比最大的第三实例候选框；

确定所述第二实例候选框与所述第三实例候选框的中心距离；

确定所述第二实例候选框的对角线长度；

基于所述中心距离、所述对角线长度、第一预设数值和第二预设数值，确定模型损失值。

11.根据权利要求10所述的方法，其中，所述基于所述中心距离、所述对角线长度、第一预设数值和第二预设数值，确定模型损失值，包括：

对所述中心距离进行幂运算，得到第一运算值；

对所述对角线长度进行幂运算，得到第二运算值；

计算所述第一运算值与所述第二运算值的比值；

计算第一预设数值与所述比值的差值；

从所述差值与所述第二预设值中选取较大值；

基于所述较大值，确定模型损失值。

12.一种视频实例分割装置，包括：

13.一种实例分割模型训练装置，包括：

14.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5中任一所述的视频实例分割方法，或者执行上述权利要求6-11中任一所述的实例分割模型训练方法。

15.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5中任一所述的视频实例分割方法，或者执行上述权利要求6-11中任一所述的实例分割模型训练方法。