CN116129310A

CN116129310A - 一种视频目标分割系统、方法、电子设备及介质

Info

Publication number: CN116129310A
Application number: CN202310019422.2A
Authority: CN
Inventors: 刘渭滨; 王辉; 邢薇薇
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-16

Abstract

本申请公开了一种视频目标分割系统、方法、电子设备及介质，涉及视频处理的领域，包括接收原始视频和目标注释信息；特征提取模块包括骨干网络和结构特征提取模块，结构特征提取模块对骨干网络中对应阶段的视频帧嵌入特征中的结构信息增强得到增强嵌入特征；记忆模块存储第一帧以及历史帧的分割信息；匹配模块将原始视频中当前帧的增强嵌入特征与记忆模块的分割信息进行匹配；基于匹配到的分割嵌入张量，得到视频目标分割结果。本申请通过对视频帧嵌入特征的增强，以及通过构建包含压缩记忆单元的记忆模块，有效利用了目标结构信息，降低了记忆模块中的存储占用，同时降低了具有相似外观特征点对点对点匹配过程的影响从而增强匹配过程的鲁棒性。

Description

一种视频目标分割系统、方法、电子设备及介质

技术领域

本申请涉及视频处理的技术领域，具体涉及一种视频目标分割系统、方法电子设备及介质。

背景技术

目前，视频目标分割技术可以应用于目标跟踪、视频编辑、视频会议和自动驾驶等基于计算机视觉的产品和应用，其技术主旨在于分割出视频序列中的感兴趣目标。目标分割结果可以是单目标也可以是多目标，待分割的目标称为前景，其他区域称为背景。根据所需要的监督的级别，视频目标分割技术分为无监督技术、半监督技术和有监督技术。无监督目标分割(Unsupervised Video object segmentation,UVOS)技术自动分割主要目标，无需手动注释，通常他们假设要分割的目标的运动与周围环境不同。半监督目标分割(Semi-supervised Video object segmentation,SVOS)技术需要在第一帧进行手动注释，标注出感兴趣目标区域，然后使用该手动标签在后续视频帧中分割和跟踪目标。由于只需要第一帧及其掩膜作为指导，半监督视频目标分割也称为单镜头视频目标分割(One-shot Videoobject segmentation,OVOS)，监督技术基于特定场景，它们需要在分割过程中人工反复修正分割结果。

现有的半监督视频目标分割技术可分为基于在线学习的目标分割技术、基于传播的目标分割技术和基于匹配的目标分割技术。其中，基于匹配的视频目标分割技术存在以下问题：

(1)忽略目标结构特征，现有技术使用卷积神经网络或者基于图像块的模型或基于图像块的多层感知机来提取视频帧特征，没有考虑如杆、绳等目标的结构形状特征；

(2)点对点匹配过程中易受具有相似外观特征点干扰，现有技术执行特征间点对点的匹配，容易受到视频帧内一些噪声点的干扰产生误匹配；

(3)现有技术除了第一帧及上一帧外还周期性将历史帧分割信息存储到记忆单元以执行后续的匹配过程，然而随着处理视频长度的增加会导致记忆单元存储过大。

发明内容

为了解决上述背景技术中提到的至少一个问题，本申请提供了视频目标分割系统、方法、电子设备及介质，通过设计和引入最小生成树和图卷积神经网络提取视频帧中各目标的结构特征，然后构建由第一帧特征、时空特征和算法聚类得到的原型特征组成的压缩记忆单元以改进原有的长期记忆单元，从而解决现有技术匹配过程易受具有相似外观特征点干扰、记忆单元存储占用过大的问题。

本申请实施例提供的具体技术方案如下：

第一方面，提供一种视频目标分割系统，所述系统包括：

数据输入模块，所述数据输入模块接收原始视频和目标注释信息；

特征提取模块，所述特征提取模块包括骨干网络和设置在所述骨干网络不同阶段中的结构特征提取模块，所述骨干网络提取所述原始视频中每一帧的视频帧嵌入特征，并通过所述结构特征提取模块对骨干网络中对应阶段的所述视频帧嵌入特征中的结构信息进行增强，得到增强嵌入特征；

记忆模块，所述记忆模块存储有根据所述目标注释信息得到的第一帧以及历史帧的分割信息；

匹配模块，所述匹配模块将原始视频中当前帧的增强嵌入特征与所述记忆模块的分割信息进行匹配，得到分割嵌入张量；

基于所述分割嵌入张量，得到视频目标分割结果。

在一个具体的实施例中，所述系统还包括：

所述骨干网络设置有至少四个阶段；

所述结构特征提取模块插设在所述骨干网络中的第二阶段和第三阶段。

在一个具体的实施例中，所述结构特征提取模块包括图结构生成模块和图特征提取模块：

图结构生成模块，所述图结构生成模块获取所述骨干网络当前阶段的当前帧的所述视频帧嵌入特征；

构建初始图结构，通过算法计算得到所述初始图结构上的最小生成树；

所述最小生成树捕获所述视频帧嵌入特征中的目标结构形状信息，以输出包含有目标结构信息的图数据的邻接矩阵和边权重矩阵；

图特征提取模块，所述图特征提取模块进行图数据的节点特征编码、节点位置编码、边权重编码，使用图卷积神经网络进行图数据的目标结构特征提取并与所述视频帧嵌入特征加和得到所述增强嵌入特征。

在一个具体的实施例中，所述记忆模块包括长期记忆单元、短期记忆单元和压缩记忆单元；

获取第一帧的嵌入特征和目标注释信息，并结合所述第一帧的嵌入特征和目标注释信息计算得到第一帧的分割信息，将所述第一帧的分割信息存入所述长期记忆单元；

获取前一帧的分割信息，将所述前一帧的分割信息存入所述短期记忆单元；

获取第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征组成所述压缩记忆单元。

在一个具体的实施例中，所述匹配模块包括全局匹配模块、局部匹配模块和压缩匹配模块；

将当前帧的增强嵌入特征与所述长期记忆单元中的分割信息进行匹配得到当前帧的全局分割嵌入张量；

将当前帧的增强嵌入特征与所述短期记忆单元中的分割信息进行匹配得到当前帧的局部分割嵌入张量；

将当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量；

结合所述当前帧的全局分割嵌入张量、所述当前帧的局部分割嵌入张量和所述当前帧的重建分割张量得到所述分割嵌入张量。

在一个具体的实施例中，将当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量，具体包括：

所述压缩记忆单元包括：第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征；

对所述第一帧的分割信息、所述周期帧的分割信息、所述时空分割信息和所述累积原型特征执行所述压缩匹配模块中的聚类操作，得到原型特征和原型嵌入张量；

对所述当前帧的增强嵌入特征、所述原型特征和所述原型嵌入张量执行所述压缩匹配模块中的传播操作和重建操作，得到所述当前帧的重建分割张量。

在一个具体的实施例中，所述系统还包括：

特征解码模块，所述特征解码模块对所述分割嵌入张量进行特征解码得到视频目标分割结果；

结果输出模块，所述结果输出模块对所述视频目标分割结果进行存储或者进行传输。

第二方面，提供一种视频目标分割方法，所述方法包括：

接收原始视频和目标注释信息；

提取所述原始视频中每一帧的视频帧嵌入特征，并对骨干网络中对应阶段的所述视频帧嵌入特征进行增强，得到增强嵌入特征；

获取所述原始视频中的当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与记忆模块中的分割信息进行匹配，得到分割嵌入张量；

对所述分割嵌入张量进行特征解码，得到所述视频目标分割结果。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

步骤A：接收原始视频和目标注释信息；

步骤B：提取所述原始视频中每一帧的视频帧嵌入特征，并对骨干网络中对应阶段的所述视频帧嵌入特征进行增强，得到增强嵌入特征；

步骤C：获取所述原始视频中的当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与记忆模块中的分割信息进行匹配，得到分割嵌入张量；

步骤D：对所述分割嵌入张量进行特征解码，得到所述视频目标分割结果。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

步骤A：接收原始视频和目标注释信息；

本申请实施例具有如下有益效果：

1.本申请实施例提供的数据输入模块、特征提取模块、记忆模块和匹配模块得到分割嵌入张量，基于分割嵌入张量得到视频目标分割结果；具体的，数据输入模块用于接收原始视频和目标注释信息并统一原始视频的格式，存储该原始视频第一帧给定的视频目标注释文件，通常为单通道格式；特征提取模块，特征提取模块包括骨干网络和结构特征提取模块，所述骨干网络提取所述原始视频中每一帧的视频帧嵌入特征，并通过所述结构特征提取模块对骨干网络中对应阶段的所述视频帧嵌入特征中的结构信息进行增强，得到每一帧增强后的嵌入特征，由于骨干网络一般设置了多个阶段，将结构特征提取模块插设在骨干网络的不同阶段中，通过结构特征提取模块实现对骨干网络中不同阶段的视频帧特征中的结构信息的增强，得到每一帧增强后的嵌入特征；在记忆模块中存储有第一帧以及历史帧的分割信息，所述匹配模块获取原始视频中当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与所述记忆模块的分割信息进行匹配，得到分割嵌入张量；对分割嵌入张量进行特征解码，得到最终的视频目标分割结果；本申请中通过对视频帧嵌入特征的增强，以及通过构建包含压缩记忆单元的记忆模块，有效利用了目标结构信息，降低了记忆模块中的存储占用，同时降低了具有相似外观特征点对点对点匹配过程的影响从而增强匹配过程的鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本申请中的视频分割系统的示意图；

图2示出根据本申请中的特征提取模块的结构示意图；

图3示出根据本申请中的记忆模块与匹配模块的结构示意图；

图4示出根据本申请中的特征解码模块的结构示意图；

图5示出根据本申请中的图结构生成模块输出的示例图片的示意图；

图6示出根据本申请中的视频目前分割系统分割得到的结果的示意图；

图7示出根据本申请中的视频目标分割方法的示意图；

图8示出根据本申请中的电子设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所述，其中，基于在线学习的视频目标分割技术使用第一帧和给定的目标掩膜来微调网络以学习视频目标的外观特征，从而实现对视频目标的分割。在此基础上，基于元学习的视频目标分割技术发展起来的，同样属于在线学习的范式，与先前的基于在线学习的目标分割技术不同的是，它利用第一帧和给定的目标掩膜以及历史帧和分割结果来构建支撑集微调部分的网络层而不是所有层。通过这种方式提高了基于在线学习的目标分割技术的时间性能。基于传播的目标分割技术通过利用视频帧之间的对应关系将上一帧的分割结果传播到当前帧，一些此类技术除第一帧外还将第一帧及历史帧的分割结果进行传播以更充分利用历史分割信息，视频目标跟踪方法也被引入此类技术以实现上一帧到当前帧的区域传播。基于匹配的视频目标分割技术中存在忽略目标结构特征、点对点匹配过程中易受具有相似外观特征点干扰以及记忆单元的存储数据量较大的问题，本申请提出了一种视频目标分割系统、方法、电子设备及介质。

实施例一

一种视频目标分割系统，如图1所示，所述系统包括：

(1)数据输入模块，所述数据输入模块接收原始视频和目标注释信息。

具体的，数据输入模块将传入的待处理的视频数据和对应的目标注释信息调整为统一格式，如文件命名和存储，每一条视频有对应的标注文件夹，存储该视频第一帧给定的视频目标注释文件，通常为单通道格式。并且，本发明提出的视频目标分割技术支持除输入视频第一帧注释外，在视频中间帧给出新的目标注释。

(2)特征提取模块，所述特征提取模块包括骨干网络和设置在所述骨干网络不同阶段中的特征提取模块，所述骨干网络提取所述原始视频中每一帧的视频帧嵌入特征，并通过所述特征提取模块对骨干网络中对应阶段的所述视频帧嵌入特征进行增强，得到每一帧的增强嵌入特征。

具体的，特征提取模块由骨干网络和两个视频目标结构特征提取模块组成，骨干网络是指ResNet-50、ResNet-101、Swin Transformer等计算机视觉通用骨干网络。现有视频目标分割技术都是利用通用骨干网络提取视频帧的嵌入特征，但是这些通用骨干网络仍然存在不足，所以许多增强骨干网络的模块被提出。具体的，计算机视觉通用骨干网络一般分为四个阶段，即第一阶段、第二阶段、第三阶段和第四阶段，综合考虑各阶段的网络深度及特征分辨率，在第二阶段和第三阶段中都放置视频目标结构特征提取模块可避免过大的计算量从而高效利用骨干网络不同阶段信息，即在骨干网络的第二阶段和第三阶段分别并行插入视频目标结构特征提取模块以当前阶段提取视频帧嵌入特征从而增强原有的嵌入特征。视频目标结构特征提取模块由图结构生成模块和图特征提取模块组成。嵌入特征进行维度变换后由二维变为一维用于特征匹配。

在一个具体的实施例中，特征提取模块中还包括图结构生成模块，图结构生成模块与所述图特征提取模块对应连接，并且与所述图特征提取模块成对存在。图结构生成模块获取所述骨干网络当前阶段的当前帧的所述视频帧嵌入特征；构建初始图结构，通过算法计算得到所述初始图结构上的最小生成树；所述最小生成树捕获所述视频帧嵌入特征中的目标结构形状信息，以输出包含有目标结构信息的图数据结构的邻接矩阵和边权重矩阵。

具体的，如图2所示，通过向图结构生成模块中输入骨干网络当前阶段的视频帧嵌入特征，构建初始的图结构，对于每一个位置上的特征点连接其上下左右及左上、左下、右上、右下八邻域特征点，使用负平方距离计算边权重，然后使用Boruvka算法求得在初始图结构上的最小生成树。最小生成树使特征相似的特征点相连接从而可以捕获目标结构形状信息。并使用一种自适应阈值方法使一些相似性差异大的边断开，得到一系列子最小生成树，从而使不同性质的区域被分开。在实际使用过程中，为了避免陷入局部极值，在网络训练阶使用随机生成树来生成图结构。

进一步的，所述图特征提取模块进行图数据的节点特征编码、节点位置编码、边权重编码，使用图卷积神经网络进行图数据的目标结构特征提取并与所述视频帧嵌入特征加和得到所述增强嵌入特征。

具体的，图结构生成模块的输出包含有目标结构特征的图数据的邻接矩阵和边权重矩阵，骨干网络提取出来的当前阶段的视频帧嵌入特征可得到图数据的节点特征，首先分别进行图数据的节点特征编码、节点位置编码、边权重编码，再使用图卷积神经网络完成图结构上的消息传递从而将目标结构特征引入到输入的视频帧嵌入特征中，从而获得增强嵌入特征。具体的，节点特征编码和边权重编码通过多层感知器完成，节点位置编码可由SignNet与多层感知器完成，也可由图拉普拉斯矩阵完成，或由随机游走方法完成。本发明使用了GINE图卷积神经网络，其他的支持边特征输入的图卷积网络都可以使用，不作具体的限制。

(3)记忆模块，所述记忆模块存储有所述记忆模块存储有根据所述目标注释信息得到的第一帧以及历史帧的分割信息。

在一个具体的实施例中，如图3所示，记忆模块由长期记忆单元、短期记忆单元和压缩记忆单元三部分构成，用于存储第一帧以及历史帧的分割信息。其中，获取第一帧的嵌入特征和目标注释信息，并结合所述第一帧的嵌入特征和目标注释信息计算得到第一帧的分割信息，将所述第一帧的分割信息存入所述长期记忆单元；获取前一帧的分割信息，将所述前一帧的分割信息存入所述短期记忆单元；获取第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征组成所述压缩记忆单元。

具体的，长期记忆单元中的每一帧的分割信息由成对的键-值(K-V)组成，称为分割特征-分割嵌入张量，通过对每一帧的嵌入特征应用Transformer中的自注意力得到。K用于特征间匹配的相似性计算，V保留了当前帧特征的完整信息并根据K之间的相似性值更新。K还进行了位置嵌入以引入图像二维空间内的位置信息，V进行了身份嵌入以同时进行多目标的匹配。其中，身份嵌入机制采用AOT技术汇总的身份嵌入方法，即通过构建身份矩阵和置换矩阵来实现身份嵌入，身份矩阵中每一行为一身份向量即对应一个目标的身份，列为身份向量的维度，通过身份矩阵和置换矩阵将目标注释信息转换到V相同的维度并与V进行加和实现身份嵌入。

长期记忆单元存储有第一帧的分割信息，由视频的第一帧的嵌入特征和目标注释信息计算得到，如果除第一帧还有其他帧提供目标注释信息，则长期记忆单元在处理注释帧时更新，即将新的注释帧的分割信息与原有分割信息级联。短期记忆单元存储上一帧的分割信息，每处理完一帧后根据该帧的K值和对应的分割结果更新短期记忆单元。

压缩记忆单元具体包括第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征；第一帧的分割信息即长期记忆单元存储的分割信息。周期帧的分割信息以一定周期进行更新，即每间隔5帧将短期记忆信息替换原来周期帧的分割信息。与分割信息类似，原型特征及对应的原型嵌入张量是成对的键-值(K-V)，不同的是特征点的数量，分割信息中特征点数量为HxW，H和W对应了当前特征对应二维空间内的高和宽，而原型特征及对应的原型值张量中特征点的数量为设定的聚类数，小于HxW。对当前帧特征、原型特征及对应的原型嵌入张量执行特征匹配压缩匹配子模块中的传播操作、重建操作可得到压缩匹配后的当前帧的分割信息，即重建的分割特征及重建分割嵌入张量。将新的原型特征与累积原型特征以一定比例加和以更新累积原型特征以供处理下一帧时使用。将特征匹配压缩匹配子模块中的传播操作中当前帧分割特征归属原型特征的后验概率值高的前P个特征点的特征保留，处理完当前帧后，可由该帧的分割结果经身份嵌入后得到该帧分割特征对应的分割嵌入张量，如果该帧为非周期帧，则将该帧的选出的前P个特征点向量及对应的特征嵌入向量存储到时空分割信息中，其中对应前P个特征点的分割嵌入向量由前P个特征点与该帧分割特征中所有特征点的相似性权重、该帧分割嵌入张量经加权聚合计算得到。时空分割信息存储的特征点向量及对应的分割嵌入向量的个数为L。时空分割信息支持处理较长的视频，但是随着处理视频长度的不断增加，时空分割信息存储的特征点向量及对应的分割嵌入向量不断增加，当达到L时，从时空分割信息中前T个特征点中移除P个非频繁特征点向量及对应的分割嵌入向量以存入新的特征点向量及对应的分割嵌入向量。特征点的非频繁程度根据保存的选择特征点时使用的相似性权重值得到。

(4)匹配模块

所述匹配模块获取原始视频中当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与所述记忆模块的分割信息进行匹配，得到分割嵌入张量。

在一个具体的实施例中，匹配模块包括所述匹配模块包括全局匹配模块、局部匹配模块和压缩匹配模块；将当前帧的增强嵌入特征与所述长期记忆单元中的分割信息进行匹配得到当前帧的全局分割嵌入张量；将当前帧的增强嵌入特征与所述短期记忆单元中的分割信息进行匹配得到当前帧的局部分割嵌入张量；将当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量；结合所述当前帧的全局分割嵌入张量、所述当前帧的局部分割嵌入张量和所述当前帧的重建分割张量得到所述分割嵌入张量。

具体的，如图3所示，全局匹配表示当前帧的分割特征与长期记忆单元中的分割信息的匹配过程，局部匹配表示当前帧的分割特征与短期记忆单元中的分割信息的匹配过程，压缩匹配表示当前帧的分割特征与压缩记忆单元的匹配过程。特征匹配模块是在包含多头自注意力的Transformer模块基础上插入设计的全局匹配、局部匹配和压缩匹配子模块得到的。具体的，输入当前帧的增强嵌入特征首先经过多头自注意力层处理再经过线性变换得到分割特征，当前帧的分割特征与长期记忆单元中的分割信息进行全局匹配从而得到当前帧的全局分割嵌入张量，该操作使用多头交叉注意力完成且不再重复使用线性变换转换分割特征和分割嵌入张量。

当前帧的分割特征与短期记忆单元中的分割信息进行局部匹配从而得到当前帧的局部分割嵌入张量，该操作同样采用多头交叉注意力完成，与全局匹配不同的时，局部匹配限制了当前分割特征中特征点与短期记忆单元中分割信息中特征点的匹配范围，为当前分割特征中每个特征点设置了以该特征点为中心的相同大小的局部窗口，每个特征点只能与短期记忆单元中分割信息中处在该局部窗口的特征点匹配。

压缩匹配，将所述当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量，具体包括：所述压缩记忆单元包括：第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征；对所述第一帧的分割信息、所述周期帧的分割信息、所述时空分割信息和所述累积原型特征执行所述压缩匹配模块中的聚类操作，得到原型特征和原型嵌入张量；对所述当前帧的增强嵌入特征、所述原型特征和所述原型嵌入张量执行所述压缩匹配模块中的传播操作和重建操作，得到所述当前帧的重建分割张量。

具体的，压缩匹配包括聚类、传播和重建三种操作。首先将压缩记忆单元中的第一帧的分割信息、周期帧的分割信息、时空分割信息级联后与累积原型特征一同执行聚类操作得到新的原型特征及对应的原型嵌入张量。聚类操作是求级联后分割信息的类中心即原型特征和对应的原型嵌入张量。使用混合高斯(GMM)来建模分割信息中的特征分布，聚类数即为混合高斯的个数，通过EM算法迭代求得聚类中心即原型特征。输入的累积原型特征即为初始的聚类中心。对当前帧分割特征和EM算法得到的原型特征执行传播操作可求得当前帧分割特征属于原型特征中每个聚类中心的后验概率矩阵。对原型特征及对应的原型嵌入张量分别执行重建操作可得到当帧的重建分割特征及重建分割嵌入张量。聚类、传播、重建三种操作主要包括矩阵乘法和归一化运算，其中矩阵乘法通过爱因斯坦求和公式实现。

聚类操作通过混合高斯(GMM)来建模分割信息中的特征分布，如公式(1)、(2)所示：

其中，k^m表示压缩记忆单元中第一帧分割特征、周期帧分割特征、时空分割特征级联后的分割特征，其包含的总的特征点的数量为B，b＝1、2…,B,b为特征点索引编号；

表示压缩记忆单元分割特征k^m中第b个特征点向量

的概率；j＝1,2,…,N，j表示高斯模型的索引编号；

表示特征点向量

在第j个高斯模型中的概率值；z为隶属度隐变量。

表示特征点向量

在第j个高斯模型中的概率值，z为隶属度隐变量。

公式(3)进一步给出了

的计算方法，计算公式如下：

其中，E为分割特征中每个特征点向量的维度大小；σ为高斯模型的方差；

为第j个高斯模型的类中心；N为混合高斯的个数。

根据贝叶斯规则可求得隶属度隐变量z的后验概率，实现对分割特征的软聚类如公式(3)所示。

表示第b个特征点向量

属于第j个高斯模型的后验概率。p(z＝j)表示所有高斯模型中第j个高斯模型出现的概率，为均匀分布即

j，l＝1，2...，N，均为高斯模型的索引编号，N为高斯模型的数量。

表示特征点向量

在第j个高斯模型中的概率值。通过使用负的聚类距离

和温度系数2σ²，公式(3)可使用Softmax操作实现。通过EM算法迭代求得个N聚类中心即所有的原型特征k^o。输入的累积原型特征作为初始的聚类中心。

使用公式(3)得到的z的后验概率

和压缩记忆单元中第一帧分割嵌入张量、周期帧分割嵌入张量、时空分割嵌入张量级联后的分割嵌入张量计算对应的原型嵌入张量v^o，原型嵌入张量第j个特征点向量

的计算方法如公式(4)所示，j＝1，2...，N，为原型特征的索引编号，N为原型特征包含的特征点数量，也对应了高斯模型和聚类数量。b＝1，2...，B，为特征点索引编号，B为级联后的分割嵌入张量v^m包含的总的特征点的数量。如前所述k^m和v^m分别表示压缩记忆单元中级联后的分割特征和分割嵌入张量，它们组成了成对的键-值(K-V)，并被称为分割信息。

为分割特征中第b个特征点向量，

为分割嵌入张量中第b个特征点向量。

表示第b个特征点

属于第j个高斯模型的后验概率。原型嵌入张量第j个特征点向量

由分割嵌入张量中所有的特征点向量加权得到，

后验概率为

对应的权重。

其中，j为原型特征的索引编号；N为原型特征包含的特征点数量；b为特征点索引编号；k^m为压缩记忆单元中级联后的分割特征；v^m为压缩记忆单元中级联后的分割嵌入张量；

为分割特征中第b个特征点向量，

为分割嵌入张量中第b个特征点向量；

表示第b个特征点

属于第j个高斯模型的后验概率。

对当前帧分割特征k^c和EM算法得到的原型特征k^o执行传播操作可求得当前帧分割特征属于原型特征中每个聚类中心的后验概率矩阵

i＝1，2...，H×W为当前帧分割特征中特征点的索引编号，H和W对应了当前特征对应二维空间内的高和宽，j＝1，2...，N，为原型特征的索引编号。

将后验概率矩阵

结合原型特征k^o及对应的原型嵌入张量v^o分别执行重建操作可得到当帧的重建分割特征及重建分割嵌入张量v^r。重建分割嵌入张量v^r中第i个特征点向量

的重建过程如公式(5)所示。

可进一步展开为公式(5)的最右侧中

计算方法与公式(3)中的分子相同，即

为

在第j个高斯模型中的概率值，

为当前帧分割特征中第i个特征点向量，

为原型特征中第j个特征点向量，为第j个高斯模型的类中心。聚类、传播、重建三种操作主要包括矩阵乘法和归一化运算，其中矩阵乘法通过爱因斯坦求和公式实现。

其中，

为

在第j个高斯模型中的概率值；

为当前帧分割特征中第i个特征点向量；

为原型特征中第j个特征点向量。

将通过压缩匹配模块得到的当前帧的重建分割嵌入张量与全局嵌入张量、局部嵌入张量加和经过前馈层和激活层等得到最终的分割嵌入张量。为了增加网络性能，特征匹配过程中使用了三个堆叠的特征匹配模块实现，每个特征匹配模块有其对应的记忆单元。

基于所述分割嵌入张量，得到视频目标分割结果。在一个具体的实施例中，所述系统还包括特征解码模块和结果输出模块，所述特征解码模块对所述分割嵌入张量进行特征解码得到视频目标分割结果；所述结果输出模块对所述视频目标分割结果进行存储或者进行传输；具体的，结果输出模块负责将分割技术得到的视频目标分割结果存储到硬盘中或传输出去，每一帧的视频目标分割结果为单通道格式。

在一个具体的实施例中的，经过特征匹配模块得到的分割嵌入张量进行维度变换由一维变成二维得到匹配后特征。同时通过跳连接将骨干网络的多尺度特征输入到特征解码模块。如图4所示，然后使用基于特征金字塔(FPN)的卷积解码网络逐渐提高分辨率并同时减少通道数，即由视频帧图像分辨率的1/16，依次上升到1/8、1/4分辨率。经过一层卷积后再通过AOT技术中身份嵌入机制中的置换矩阵恢复分割结果中的目标身份信息，最后上采样到原始视频帧图像分辨大小，然后经Softmax操作并取概率最大时的目标编号得到最终的视频目标分割结果。

在一个具体的实施例中，除了上述提出的结构特征增强的视频目标分割技术与系统的主要模块，整个系统中的深度神经网络可以被端到端地训练，给定视频数据集，对每个视频序列以随机间隔取预设数量的视频帧用于训练。进一步地，可以通过数据增强技术使用语义分割数据集、显著性检测数据集合成视频序列，使用合成的视频序列对网络进行预训练，再进行真实视频数据集上的训练可进一步提升系统性能。

如图5所示，为通过本实施例中的分割方案中的图结构生成模块输出的结果，分别从三个视频序列中选取了一些视频帧。为了便于展示，略去了图中一些小区域中的图结构。从这些结果中可以看出，输出的图结构在目标和背景区域内部是连通的，对应了不同的子最小生成树，在不同区域的边界处是断开的，将不同的子最小生成树分开。如第一条视频中骆驼与背景区域的边界处，第三条视频中四轮车和背景区域的边界处，第四条视频中搬东西的人与背景区域的边界处。利用得到的图结构可以实现同时对视频中相似外观区域的特征进行增强。

如图6所示，为通过本实施例中的分割方法分割得到的视频序列的处理结果。左侧为视频第一帧及其目标注释信息，右侧为后续视频帧的分割结果。可以看出，本发明提出的视频分割技术可以区分相似目标，没有受到第一条视频后续时刻出现的第二匹骆驼的影响；可以有效处理人互交互的场景，如第三条视频中人与四轮车，第四条视频中人与被搬运的箱子；可以准确分割第二条视频中冲浪中迁引用的绳、第四条视频中四轮车扶手等枝条状目标；可以处理复杂背景，如第四条视频中有较为复杂的背景干扰。

通过本实施例中的系统，使用最小生成树来生视频帧特征的图结构，为了避免陷入局部极值，在网络训练阶段使用随机生成树来生成图结构,在生成图结构的基础上，使用图卷积神经网络提取和增强视频帧特征的结构特征；进一步的，使用基于EM算法聚类得到第一帧、上一帧及历史帧的原型(prototype)特征，使用原型特征与当前帧特征进行压缩匹配以增强原有的匹配过程，对应的压缩记忆单元在每次处理完当前视频帧后进行更新以及通过构建包含压缩记忆单元的记忆模块，降低了记忆模块中的存储占用，同时降低了具有相似外观特征点对点对点匹配过程的影响从而增强匹配过程的鲁棒性。

实施例二

对应上述实施例，本申请提供了一种视频目标分割方法，如图7所示，所述方法包括以下步骤：

步骤S1：接收原始视频和目标注释信息。

通过数据输入模块将传入的待处理的视频数据和目标注释信息调整为统一格式，如文件命名和存储，每一条视频有对应的标注文件夹，存储该视频第一帧给定的视频目标注释文件，通常为单通道格式。并且，本发明提出的视频目标分割技术支持除输入视频第一帧注释外，在视频中间帧给出新的目标注释。

步骤S2：提取所述原始视频中每一帧的视频帧嵌入特征，并对骨干网络中对应阶段的所述视频帧嵌入特征中的结构信息进行增强，得到每一帧的增强嵌入特征。

具体的，所述骨干网络设置有至少四个阶段；所述特征提取模块插设在所述骨干网络中的第二阶段和第三阶段。所述结构特征提取模块包括图结构生成模块和图特征提取模块。具体包括以下步骤：

步骤2.1：图结构生成模块，所述图结构生成模块获取所述骨干网络当前阶段的当前帧的所述视频帧嵌入特征；

步骤2.2：构建初始图结构，通过算法计算得到所述初始图结构上的最小生成树；

步骤2.3：所述最小生成树捕获所述视频帧嵌入特征中的目标结构形状信息，以输出包含有目标结构信息的图数据的邻接矩阵和边权重矩阵；

步骤2.4：图特征提取模块，所述图特征提取模块进行图数据的节点特征编码、节点位置编码、边权重编码，使用图卷积神经网络进行图数据的目标结构特征提取并与所述视频帧嵌入特征加和得到所述增强嵌入特征。

步骤S3：获取所述原始视频中的当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与记忆模块中的分割信息进行匹配，得到分割嵌入张量。

具体的，所述记忆模块包括长期记忆单元、短期记忆单元和压缩记忆单元；

获取第一帧的嵌入特征和目标注释信息，并结合所述第一帧的嵌入特征和目标注释信息计算得到第一帧的分割信息，将所述第一帧的分割信息存入所述长期记忆单元；获取前一帧的分割信息，将所述前一帧的分割信息存入所述短期记忆单元；获取第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征组成所述压缩记忆单元。

在一个具体的实施例中，所述匹配模块包括全局匹配模块、局部匹配模块和压缩匹配模块；将当前帧的增强嵌入特征与所述长期记忆单元中的分割信息进行匹配得到当前帧的全局分割嵌入张量；将当前帧的增强嵌入特征与所述短期记忆单元中的分割信息进行匹配得到当前帧的局部分割嵌入张量；将当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量；结合所述当前帧的全局分割嵌入张量、所述当前帧的局部分割嵌入张量和所述当前帧的重建分割张量得到所述分割嵌入张量。

在一个具体的实施例中，将所述当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量，具体包括：

所述压缩记忆单元包括：第一帧的分割信息、周期帧的分割信息、时空分割信息和累积原型特征；对所述第一帧的分割信息、所述周期帧的分割信息、所述时空分割信息和所述累积原型特征执行所述压缩匹配模块中的聚类操作，得到原型特征和原型嵌入张量；对所述当前帧的增强嵌入特征、所述原型特征和所述原型嵌入张量执行所述压缩匹配模块中的传播操作和重建操作，得到所述当前帧的重建分割张量。

步骤S4：对所述分割嵌入张量进行特征解码，得到所述视频目标分割结果。

具体的，通过特征解码模块对所述分割嵌入张量进行特征解码得到视频目标分割结果，结果输出模块对所述视频目标分割结果进行存储或者进行传输。

实施例三

提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

步骤101：接收原始视频和目标注释信息。

步骤102：提取所述原始视频中每一帧的视频帧嵌入特征，并对骨干网络中对应阶段的所述视频帧嵌入特征进行增强，得到增强嵌入特征；

步骤103：获取所述原始视频中的当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与记忆模块中的分割信息进行匹配，得到分割嵌入张量；

步骤104：对所述分割嵌入张量进行特征解码，得到所述视频目标分割结果。在一个具体的实施例中，步骤102中的骨干网络设置有至少四个阶段；所述特征提取模块插设在所述骨干网络中的第二阶段和第三阶段。所述结构特征提取模块包括图结构生成模块和图特征提取模块：图结构生成模块，所述图结构生成模块获取所述骨干网络当前阶段的当前帧的所述视频帧嵌入特征；构建初始图结构，通过算法计算得到所述初始图结构上的最小生成树；所述最小生成树捕获所述视频帧嵌入特征中的目标结构形状信息，以输出包含有目标结构信息的图数据的邻接矩阵和边权重矩阵；图特征提取模块，所述图特征提取模块进行图数据的节点特征编码、节点位置编码、边权重编码，使用图卷积神经网络进行图数据的目标结构特征提取并与所述视频帧嵌入特征加和得到所述增强嵌入特征。

在一个具体的实施例中，步骤103中的具体的，所述记忆模块包括长期记忆单元、短期记忆单元和压缩记忆单元；

在一个具体的实施例中，步骤104具体包括通过特征解码模块对所述分割嵌入张量进行特征解码得到视频目标分割结果，结果输出模块对所述视频目标分割结果进行存储或者进行传输。

在一个实施例中，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储原始视频数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频目标分割方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

实施例四

在一个本实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

步骤201：接收原始视频和目标注释信息。

步骤202：提取所述原始视频中每一帧的视频帧嵌入特征，并对骨干网络中对应阶段的所述视频帧嵌入特征进行增强，得到增强嵌入特征；

步骤203：获取所述原始视频中的当前帧的增强嵌入特征，将所述当前帧的增强嵌入特征与记忆模块中的分割信息进行匹配，得到分割嵌入张量；

步骤204：对所述分割嵌入张量进行特征解码，得到所述视频目标分割结果。

在一个具体的实施例中，步骤202中的骨干网络设置有至少四个阶段；所述特征提取模块插设在所述骨干网络中的第二阶段和第三阶段。所述结构特征提取模块包括图结构生成模块和图特征提取模块：图结构生成模块，所述图结构生成模块获取所述骨干网络当前阶段的当前帧的所述视频帧嵌入特征；构建初始图结构，通过算法计算得到所述初始图结构上的最小生成树；所述最小生成树捕获所述视频帧嵌入特征中的目标结构形状信息，以输出包含有目标结构信息的图数据的邻接矩阵和边权重矩阵；图特征提取模块，所述图特征提取模进行图数据的节点特征编码、节点位置编码、边权重编码，使用图卷积神经网络进行图数据的目标结构特征提取并与所述视频帧嵌入特征加和得到所述增强嵌入特征。

在一个具体的实施例中，步骤203中的具体的，所述记忆模块包括长期记忆单元、短期记忆单元和压缩记忆单元；

在一个具体的实施例中，步骤204具体包括通过特征解码模块对所述分割嵌入张量进行特征解码得到视频目标分割结果，结果输出模块对所述视频目标分割结果进行存储或者进行传输。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频目标分割系统，其特征在于，所述系统包括：

基于所述分割嵌入张量，得到视频目标分割结果。

2.根据权利要求1所述的视频目标分割系统，其特征在于，所述系统还包括：

所述骨干网络设置有至少四个阶段；

3.根据权利要求2所述的视频目标分割系统，其特征在于，所述结构特征提取模块包括图结构生成模块和图特征提取模块：

4.根据权利要求1所述的视频目标分割系统，其特征在于，所述记忆模块包括长期记忆单元、短期记忆单元和压缩记忆单元；

获取第一帧的嵌入特征，并结合所述第一帧的嵌入特征和所述目标注释信息计算得到第一帧的分割信息，将所述第一帧的分割信息存入所述长期记忆单元；

5.根据权利要求4所述的视频目标分割系统，其特征在于，所述匹配模块包括全局匹配模块、局部匹配模块和压缩匹配模块；

6.根据权利要求5所述的视频目标分割系统，其特征在于，将当前帧的增强嵌入特征与所述压缩记忆单元中的分割信息进行聚类、传播和重建，得到当前帧的重建分割张量，具体包括：

7.根据权利要求6所述的视频目标分割系统，其特征在于，所述系统还包括：

8.一种基于权利要求1～7中任一项所述的视频目标分割方法，其特征在于，所述方法包括：

接收原始视频和目标注释信息；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求8中所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求8中所述的方法的步骤。