CN117788492B

CN117788492B - 视频目标分割方法、系统、电子设备及存储介质

Info

Publication number: CN117788492B
Application number: CN202410218833.9A
Authority: CN
Inventors: 张开华; 董刚; 赵雅倩; 梁玲燕
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-04-26
Anticipated expiration: 2044-02-28
Also published as: CN117788492A

Abstract

本发明提供一种视频目标分割方法、系统、电子设备及存储介质，涉及计算机视觉技术领域，该方法包括：获取待分割视频序列数据；将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。本发明提高了无监督视频目标分割在复杂场景下的可靠性、鲁棒性和抗噪性。

Description

视频目标分割方法、系统、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频目标分割方法、系统、电子设备及存储介质。

背景技术

无监督视频目标分割任务旨在没有任何人工干预和任何先验信息提示的前提下，完全由算法本身去决定要分割视频中的哪些目标，这些目标一般都是视频中运动最为显著的前景目标。

受到拍摄条件的影响，视频往往会呈现帧率过高或过低、相机抖动、目标遮挡以及光照不断变化等特点，带来目标运动过快或者运动不显著、目标外观形变较大、目标本身与周围环境在颜色形状上较相似等情况，增加了无监督视频目标分割任务的难度。相关技术主要依靠人工设计的特征对运动目标信息进行提取，如边缘信息和显著信息等容易提取到的先验性特征。然而，在面对复杂多样且千变万化的现实场景时，相关技术算法将无法很好地适应和泛化，鲁棒性较差，导致视频数据中目标分割的准确性不足。

因此，现在亟需一种视频目标分割方法、系统、电子设备及存储介质来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种视频目标分割方法、系统、电子设备及存储介质。

本发明提供一种视频目标分割方法，包括：

获取待分割视频序列数据；

将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；

其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。

根据本发明提供的一种视频目标分割方法，所述视频目标分割模型通过以下步骤训练得到：

获取所述样本视频序列数据对应的多个光流图；

提取各个所述光流图中的目标连通区域；

根据所述目标连通区域，获取所述样本视频序列数据对应的所述光流定位信息；

基于所述分割一切模型，对所述样本视频序列数据和所述光流定位信息进行编解码处理，得到所述样本视频序列数据对应的所述样本目标定位结果；

通过所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果，对细化分割模型进行训练，得到所述视频目标分割模型，其中，所述细化分割模型是基于混合转换器MiT构建得到的。

根据本发明提供的一种视频目标分割方法，所述获取所述样本视频序列数据对应的多个光流图，包括：

对所述样本视频序列数据中相邻两帧视频图像进行光流图像估计，获取所述样本视频序列数据对应的多个所述光流图；

或，对所述样本视频序列数据中预设间隔帧数的两帧视频图像进行光流图像估计，获取所述样本视频序列数据对应的多个所述光流图。

根据本发明提供的一种视频目标分割方法，所述提取各个所述光流图中的目标连通区域，包括：

基于所有所述光流图，计算各个所述光流图中每个像素点对应的全局显著性值；

基于各个所述光流图对应的灰度图的边缘信息，得到各个所述灰度图中的区域约束矩形框；

根据所述全局显著性值和预设显著性阈值，确定各个所述光流图中由目标像素点构成的多个待定连通区域；

基于所述区域约束矩形框，在对应的多个所述待定连通区域中确定显著性连通区域；

基于所述显著性连通区域的区域分值从高到低的顺序，对各个所述光流图中的所述显著性连通区域进行排序，并根据排序结果，将各个所述光流图中前k个区域分值对应的所述显著性连通区域作为目标连通区域，其中，所述区域分值是根据所述显著性连通区域的尺寸信息计算得到的。

根据本发明提供的一种视频目标分割方法，所述根据所述目标连通区域，获取所述样本视频序列数据对应的所述光流定位信息，包括：

根据所述目标连通区域的像素信息，确定各个所述光流图对应的定位点坐标信息；

根据各个所述光流图中所有所述目标连通区域对应的目标外接矩形，得到各个所述光流图对应的目标外接矩形框坐标信息；

根据所述定位点坐标信息和所述目标外接矩形框坐标信息，得到所述样本视频序列数据对应的所述光流定位信息。

根据本发明提供的一种视频目标分割方法，所述基于所有所述光流图，计算各个所述光流图中每个像素点对应的全局显著性值，包括：

对所有所述光流图进行求平均操作，得到所有所述光流图对应的像素平均值；

根据各个所述光流图与所述像素平均值之间的差值，计算各个所述光流图中每个像素点对应的全局显著性值。

根据本发明提供的一种视频目标分割方法，所述基于各个所述光流图对应的灰度图的边缘信息，得到各个所述灰度图中的区域约束矩形框，包括：

将各个所述光流图转换为对应的灰度图；

通过Canny算法，对各个所述灰度图进行边缘提取处理，得到各个所述灰度图中的边缘信息；

构建各个所述灰度图中所述边缘信息对应的外接矩形框，得到各个所述灰度图中的所述区域约束矩形框。

根据本发明提供的一种视频目标分割方法，所述根据所述全局显著性值和预设显著性阈值，确定各个所述光流图中由目标像素点构成的多个待定连通区域，包括：

获取各个所述光流图中的最大全局显著性值和全局显著性平均值；

根据所述最大全局显著性值和所述全局显著性平均值，确定各个所述光流图对应的所述预设显著性阈值；

基于各个所述光流图对应的所述预设显著性阈值，将各个所述光流图中所述全局显著性值大于或等于对应的所述预设显著性阈值的像素点作为目标像素点，将各个所述光流图中所述全局显著性值小于对应的所述预设显著性阈值的像素点的像素作为非目标像素点；

通过所述目标像素点，构建各个所述光流图中的多个所述待定连通区域。

根据本发明提供的一种视频目标分割方法，所述基于所述区域约束矩形框，在对应的多个所述待定连通区域中确定显著性连通区域，包括：

将处于所述灰度图中所述区域约束矩形框范围内的所述待定连通区域确定为所述显著性连通区域。

根据本发明提供的一种视频目标分割方法，所述方法还包括：

获取第一尺寸信息和第二尺寸信息，其中，所述第一尺寸信息为所述显著性连通区域的外接矩形框对应的坐标信息，所述第二尺寸信息为所述光流图的尺寸信息；

根据所述显著性连通区域中所述目标像素点的数量、所述第一尺寸信息和所述第二尺寸信息，计算得到所述显著性连通区域的所述区域分值。

根据本发明提供的一种视频目标分割方法，所述根据所述目标连通区域的像素信息，确定各个所述光流图对应的定位点坐标信息，包括：

将所述目标连通区域中各个所述目标像素点的横坐标进行求和处理，得到横坐标求和结果；

根据所述横坐标求和结果与所述目标连通区域中所述目标像素点的数量之间的比值，得到重心横坐标信息；

将所述目标连通区域中各个所述目标像素点的纵坐标进行求和处理，得到纵坐标求和结果；

根据所述纵坐标求和结果与所述目标连通区域中所述目标像素点的数量之间的比值，得到重心纵坐标信息；

根据所述重心横坐标信息和所述重心纵坐标信息，得到所述光流图的所述定位点坐标信息。

根据本发明提供的一种视频目标分割方法，所述根据所述定位点坐标信息和所述目标外接矩形框坐标信息，得到所述样本视频序列数据对应的所述光流定位信息，包括：

基于光流定位公式，根据所述定位点坐标信息和所述目标外接矩形框坐标信息，计算得到所述样本视频序列数据对应的所述光流定位信息，其中，所述光流定位公式为：

；

其中，表示所述光流定位信息，/>为所述目标外接矩形框坐标信息，/>为所述定位点坐标信息，/>表示求取各个所述光流图中k个所述目标连通区域各自对应的所述定位点坐标信息/>和各个所述光流图中所有所述目标连通区域对应的所述目标外接矩形框坐标信息/>的操作，/>表示保留各个所述光流图中区域分值从高到低的前k个所述显著性连通区域作为所述目标连通区域的操作，/>表示所述区域约束矩形框，表示通过所述区域约束矩形框在对应的多个所述待定连通区域中确定得到的所述显著性连通区域，/>表示对各个所述光流图中所有所述显著性连通区域进行打分的操作，/>表示所述预设显著性阈值，/>表示由所述目标像素点构建得到的多个所述待定连通区域，D表示所述全局显著性值，/>表示所述最大全局显著性值，/>表示所述全局显著性平均值，/>表示权重系数，/>表示绘制矩形框的操作，/>表示将所述光流图转换为所述灰度图的操作，/>表示通过Canny算法对所述灰度图进行边缘提取处理，/>表示所述光流图，/>表示求平均操作，/>表示在通道维度进行求和操作，H表示所述光流图的高度信息，W表示所述光流图的宽度信息，/>表示所述显著性连通区域的外接矩形框的左上角坐标信息，/>表示所述显著性连通区域的外接矩形框的右下角坐标信息，N表示所述显著性连通区域中所述目标像素点的数量。

根据本发明提供的一种视频目标分割方法，所述基于所述分割一切模型，对所述样本视频序列数据和所述光流定位信息进行编解码处理，得到所述样本视频序列数据对应的所述样本目标定位结果，包括：

通过所述分割一切模型的图片编码器，对所述样本视频序列数据进行编码，得到所述样本视频序列数据中各个视频帧对应的样本图片特征；

通过所述分割一切模型的提示编码器，对所述光流定位信息进行编码，得到提示特征向量；

将所述样本图片特征和所述提示特征向量输入至所述分割一切模型的解码器，基于解码器公式进行解码，得到所述样本视频序列数据对应的所述样本目标定位结果。

根据本发明提供的一种视频目标分割方法，所述解码器公式为：

；

其中，表示所述样本目标定位结果，/>表示所述样本图片特征，/>表示提示特征向量，/>表示可学习向量，/>表示拼接操作，/>表示自注意力操作，/>表示解码操作，/>表示所述提示编码器，/>为所述目标外接矩形框坐标信息，/>为所述定位点坐标信息，/>表示所述图片编码器；/>表示所述样本视频序列数据，。

根据本发明提供的一种视频目标分割方法，所述通过所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果，对细化分割模型进行训练，得到所述视频目标分割模型，包括：

将所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果输入到所述细化分割模型，得到所述样本视频序列数据中的样本分割预测结果；

根据所述样本视频序列数据对应的样本分割真实结果与所述样本分割预测结果之间的差异，计算损失值，若所述损失值满足预设阈值，得到所述视频目标分割模型。

根据本发明提供的一种视频目标分割方法，在所述将所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果输入到所述细化分割模型之后，所述方法还包括：

基于所述细化分割模型中的多层转换器块，得到由各层转换器块输出的所述样本视频序列数据在不同分辨率下对应的特征张量；

将不同分辨率的特征张量分别与对应的所述样本目标定位结果进行逐元素相乘操作，得到定位引导后的特征张量；

基于所述细化分割模型中的残差跳跃连接分支，获取残差跳跃连接特征张量，所述残差跳跃连接特征张量为当前层转换器块的前一层转换器块对应的特征张量；

基于特征融合公式，将当前层转换器块对应的特征张量、所述定位引导后的特征张量和所述残差跳跃连接特征张量进行拼接操作，得到融合后的特征张量；

基于解码预测公式，根据每一层转换器块对应的所述融合后的特征张量进行掩码预测，得到所述样本视频序列数据中的样本分割预测结果。

根据本发明提供的一种视频目标分割方法，所述特征融合公式为：

；

其中，表示采样操作，/>表示前一层转换器块对应的特征张量，/>表示定位引导后的特征张量，/>表示样本目标定位结果，/>表示当前层转换器块对应的特征张量，/>表示拼接操作，/>表示融合后的特征张量。

根据本发明提供的一种视频目标分割方法，所述解码预测公式为：

；

其中，表示样本分割预测结果，/>表示上采样操作，/>表示最后一层转换器输出的融合后的特征张量。

本发明还提供一种视频目标分割系统，包括：

视频数据获取模块，用于获取待分割视频序列数据；

目标分割模块，用于将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频目标分割方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频目标分割方法。

本发明提供的视频目标分割方法、系统、电子设备及存储介质，基于分割一切模型，根据样本视频序列数据对应的光流定位信息，对样本视频序列数据中的样本目标进行定位，进而通过得到的样本目标定位结果和样本视频序列数据对神经网络模型进行训练，从而通过训练得到的视频目标分割模型对视频序列数据进行目标分割，得到更为准确的目标分割结果，提高了无监督视频目标分割在复杂场景下的可靠性、鲁棒性和抗噪性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的视频目标分割方法的流程示意图；

图2为本发明提供的视频目标分割方法的整体流程示意图；

图3为本发明提供的基于光流提示的目标定位结果的流程示意图；

图4为本发明提供的基于分割一切模型的视频目标定位引导过程的整体示意图

图5为本发明提供的基于主干网络的外观特征编码过程的示意图；

图6为本发明提供的特征融合过程的示意图；

图7为本发明提供的卷积注意力计算过程的示意图；

图8为本发明提供的预测解码过程的示意图；

图9为本发明提供的视频目标分割系统的结构示意图；

图10为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

无监督视频目标分割算法可应用于包括但不限于自动驾驶（例如，行人和车辆发现等）、视频编辑（例如，抠图和目标提取等）、运动分析和目标检测等众多领域和场景，受拍摄条件的影响，增加了无监督视频目标分割任务的难度。

在相关技术中，主要依靠连续的视频序列去挖掘目标的外观和运动信息，或者，使用单张视频帧和其对应的光流图去提取目标的外观和运动信息，然后融合外观和运动信息。然而，前者没有显式使用运动信息，完全依靠模型去挖掘运动信息，再对挖掘成功的区域进行匹配，这种方式对模型的设计要求较高，对于运动信息的挖掘有限，一旦运动信息挖掘不充分，就会导致部分区域无法成功分割；后者虽然显式使用了运动信息（即光流图），将其作为一种额外的模态信息去使用，与视频帧分别进行编码后再融合，这样对于模型而言，更容易提取到目标的运动信息，但是这种方式比较依赖光流图的质量，若光流噪声较多，外观会过拟合噪声部分，导致噪声区域被当作目标的一部分被分割。

针对相关技术中存在的问题，本发明提供了一种基于分割一切模型（SegmentAnything Model，简称SAM）引导视频帧和光流图分开学习和作用的无监督视频目标分割解耦网络。该网络将连续的视频序列作为输入，接着进行光流估计，从而将光流估计得到的光流图作为提示信息引导目标的定位，而不是直接编码，进而对视频帧进一步细化分割结果，这样将视频帧和光流图分开使用，分别起到不同的作用，可以降低目标分割网络对光流质量的依赖，可以将目标与环境很好地区分开，减少外观对运动信息过拟合，从而引导网络更好地定位目标并且分割目标，提高目标分割精度。

图1为本发明提供的视频目标分割方法的流程示意图，如图1所示，本发明提供了一种视频目标分割方法，包括：

步骤101，获取待分割视频序列数据。

在本发明中，从视频文件或者流媒体中获取连续的视频数据，这些数据将用于后续的目标分割处理。具体地，待分割的视频数据可以通过从本地视频文件中读取，也可从流媒体中获取。

步骤102，将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；

图2为本发明提供的视频目标分割方法的整体流程示意图，可参考图2所示，在本发明中，基于分割一切模型，通过运动引导提示过程，使得视频帧和光流图分开学习和作用，得到的无监督视频目标分割解耦网络，即视频目标分割模型。具体地，在模型训练过程中，先要通过样本目标定位的方法，对样本视频序列数据中的目标进行定位，这个过程是通过分割一切模型，对样本视频序列数据对应的光流定位信息进行处理，得到样本目标定位结果。这些样本目标定位结果可以用来训练神经网络模型，以便使其能够更好地对目标进行定位和分割。

进一步地，使用这些样本目标定位结果和样本视频序列数据对神经网络模型进行训练，使得训练得到的视频目标分割模型对输入的待分割视频序列数据进行相应处理，输出对应的目标分割结果，即将视频数据中的目标物体从背景中分离出来，从而实现对视频中目标物体的分割定位和识别。

本发明提供的视频目标分割方法，基于分割一切模型，根据样本视频序列数据对应的光流定位信息，对样本视频序列数据中的样本目标进行定位，进而通过得到的样本目标定位结果和样本视频序列数据对神经网络模型进行训练，从而通过训练得到的视频目标分割模型对视频序列数据进行目标分割，得到更为准确的目标分割结果，提高了无监督视频目标分割在复杂场景下的可靠性、鲁棒性和抗噪性。

在上述实施例的基础上，所述视频目标分割模型通过以下步骤训练得到：

获取所述样本视频序列数据对应的多个光流图；

提取各个所述光流图中的目标连通区域；

在本发明中，通过光流估计网络得到样本视频序列数据中相邻两帧之间的光流信息，并将这些光流信息生成多个光流图。这个过程可以使用各种光流算法进行实现，例如，基于卷积神经网络的光流算法和金字塔法算法等。

进一步地，通过对光流进行全局计算和处理，得到每个光流图中与目标相关的连通区域，这些目标连通区域表示目标在不同帧之间的位置和运动轨迹，进而得到一系列点和框的坐标作为光流定位信息，以提示目标所在；接着，将点和框的坐标信息提供给分割一切模型去定位目标，通过将样本视频序列数据和光流定位信息输入到分割一切模型中进行编解码处理，从而得到对应的样本目标定位结果；最后，将定位结果以掩码的形式，逐级引导细化分割模型中的解码器去细化分割结果，得到最终的结果，在本发明中，细化分割模型中的主干网络是基于混合转换器（Mix Transformer，简称MiT）构建得到的。在训练过程中，将样本视频序列数据和对应的目标定位结果作为细化分割模型的输入，训练细化分割模型以输出对应的视频目标分割结果。

本发明将视频帧和光流图分开使用，分别起到不同的作用，可以降低目标分割网络对光流质量的依赖，通过将目标与环境区分开，减少外观对运动信息过拟合，从而引导目标分割网络更好地定位目标并且分割目标。

在上述实施例的基础上，所述获取所述样本视频序列数据对应的多个光流图，包括：

在本发明中，训练过程中将获取到的连续样本视频序列数据作为输入，以及生成对应的光流图。具体地，在一实施例中，获取包含目标二值掩码的连续L帧（本发明L取值为4）样本视频序列数据对应的数据集，进一步地，将相邻帧（即第一帧和第二帧）的视频数据分别通过光流估计网络生成对应的光流图像；在另一实施例中，基于预设间隔帧数，例如，第一帧和第三帧，或第一帧和第四帧分别通过光流估计网络生成对应的光流图像，本发明通过隔帧光流估计操作，可捕获目标的长程运动信息，学习到更加鲁棒的时间特征，缓解运动不显著场景下目标的运动信息的提取，使得运动提示信息的计算更加准确。

在本发明中，将获取到的样本视频序列数据，/>作为光流估计网络的输入，进行相邻帧或者预设间隔帧数的光流图生成过程，得到的光流图记作/>，其中，预设间隔帧数的光流图生成过程是为了捕获目标的长程运动信息，缓解运动不显著场景下目标的运动信息的提取。

在上述实施例的基础上，所述提取各个所述光流图中的目标连通区域，包括：

基于所有所述光流图，计算各个所述光流图中每个像素点对应的全局显著性值。

图3为本发明提供的基于光流提示的目标定位结果的流程示意图，可参考图3所示，首先，根据光流图进行显著性计算，得到每个像素值的显著性值大小，记作全局显著性值；接着，求取全局显著性值/>中的最大全局显著性值/>和全局显著性平均值/>，然后定义一个参数系数/>来平衡最大全局显著性值/>和全局显著性平均值/>，计算得到阈值/>，将全局显著性值大于或等于阈值/>的像素置为1，其它像素置为0，得到大小不规则的多个待定连通区域，具体可参考图3中的（b）所示；进一步地，对光流图进行灰度图转换，再用Canny算法求取灰度图的边缘信息，具体可参考图3中的（a）所示；进一步地，用边缘信息对应的外接矩形约束待定连通区域，具体可参考图3中的（c）；然后，对图3的（c）中显著性连通区域求取外接矩形和重心点坐标，并计算显著性连通区域的区域得分，得到每个显著性连通区域的得分；最后，假设本实施例要保留得分最高的前2个显著性连通区域，直接根据得分保留最高的前2个即可，具体可参考图3中的（e）所示。

具体地，在本发明中，对上述实施例中得到的光流图全局进行计算和处理，得到各个光流图中每个像素点相对于全局的显著性值，即全局显著性值/>。

在上述实施例的基础上，所述基于所有所述光流图，计算各个所述光流图中每个像素点对应的全局显著性值，包括：

在本发明中，通过以下公式计算得到光流图中每个像素点对应的全局显著性值：

；

其中，表示光流图，/>表示对所有光流图进行求平均操作，/>表示在通道维度进行求和操作。

基于各个所述光流图对应的灰度图的边缘信息，得到各个所述灰度图中的区域约束矩形框。

在上述实施例的基础上，所述基于各个所述光流图对应的灰度图的边缘信息，得到各个所述灰度图中的区域约束矩形框，包括：

将各个所述光流图转换为对应的灰度图；

在本发明中，首先将光流图转换为灰度图/>，公式为：

；

其中，表示将光流图转换为灰度图的操作。

接着，通过Canny算法对灰度图进行边缘的提取，得到对应的边缘信息/>，再根据边缘信息/>计算出灰度图中的一个区域约束矩形框/>，公式为：

；

其中，表示绘制矩形框的操作，/>表示通过Canny算法对灰度图进行边缘提取处理。区域约束矩形框/>用于后续对待定连通区域进行约束，减少一部分噪声。

根据所述全局显著性值和预设显著性阈值，确定各个所述光流图中由目标像素点构成的多个待定连通区域。

在本发明中，将各个光流图中全局显著性值大于或等于预设显著性阈值的像素置为1，确定为目标像素点，将各个光流图中全局显著性值小于预设显著性阈值/>的像素置为0，确定为非目标像素点。

在上述实施例的基础上，所述根据所述全局显著性值和预设显著性阈值，确定各个所述光流图中由目标像素点构成的多个待定连通区域，包括：

在本发明中，首先，获取全局显著性值中的最大全局显著性值/>和全局显著性平均值/>；然后定义一个参数系数/>，即权重系数，用于平衡最大全局显著性值/>和全局显著性平均值/>的贡献程度，进而计算得到预设显著性阈值/>，公式为：

；

进一步地，将各个光流图中全局显著性值大于或等于预设显著性阈值的像素置为1（即目标像素点），将小于预设显著性阈值/>的像素置为0，从而得到各个光流图中由目标像素点构成的大小不规则的多个待定连通区域/>，公式为/>。

基于所述区域约束矩形框，在对应的多个所述待定连通区域中确定显著性连通区域。

在上述实施例的基础上，所述基于所述区域约束矩形框，在对应的多个所述待定连通区域中确定显著性连通区域，包括：

在本发明中，通过上述实施例中得到的区域约束矩形框，对光流图中多个待定连通区域/>进行区域约束，仅保留在区域约束矩形框/>范围内的所有待定连通区域，从而确定光流图中的显著性连通区域/>，公式为/>。

在本发明中，遍历上述实施例得到的显著性连通区域，根据显著性连通区域/>的尺寸信息，例如，显著性连通区域/>在对应光流图中的位置、大小以及外接矩形的长宽比来进行打分，得到区域分值/>。

在上述实施例的基础上，所述方法还包括：

在本发明中，根据显著性连通区域中目标像素点的数量、第一尺寸信息和第二尺寸信息，通过以下公式，计算得到显著性连通区域的区域分值：

；

其中，H表示光流图的高度信息，W表示光流图的宽度信息，即第二尺寸信息；表示显著性连通区域的外接矩形框的左上角坐标信息，/>表示显著性连通区域的外接矩形框的右下角坐标信息，即第一尺寸信息；N表示显著性连通区域中目标像素点的数量。

进而按照得分降序排序，并将各个光流图中排序结果前k个区域分值对应的显著性连通区域作为目标连通区域。

在上述实施例的基础上，所述根据所述目标连通区域，获取所述样本视频序列数据对应的所述光流定位信息，包括：

根据所述目标连通区域的像素信息，确定各个所述光流图对应的定位点坐标信息。

在本发明中，遍历上述实施例得到的k个目标连通区域，将每个目标连通区域中所有像素值为1的横坐标相加，再除以像素值为1的像素个数，从而得到该目标连通区域的重心横坐标。重心纵坐标同理，进而得到了k个点坐标，即定位点坐标信息/>。

具体地，在上述实施例的基础上，所述根据所述目标连通区域的像素信息，确定各个所述光流图对应的定位点坐标信息，包括：

在本发明中，将目标连通区域中各个目标像素点的横坐标进行求和处理，得到横坐标求和结果。然后，根据横坐标求和结果与目标连通区域中目标像素点的数量之间的比值，得到重心横坐标信息。通过将横坐标求和结果除以目标像素点的数量，可以得到重心的横坐标位置，这个位置代表了目标在横向上的重心位置。

同时，将目标连通区域中各个目标像素点的纵坐标进行求和处理，得到纵坐标求和结果，进而根据纵坐标求和结果与目标连通区域中目标像素点的数量之间的比值，得到重心纵坐标信息。通过将纵坐标求和结果除以目标像素点的数量，可以得到重心的纵坐标位置，这个位置代表了目标在纵向上的重心位置。

最后，将重心的横坐标和纵坐标组合在一起，就可以得到目标在光流图中的定位点坐标信息，这个信息可以用来表示目标的位置和运动状态。

进一步地，根据各个所述光流图中所有所述目标连通区域对应的目标外接矩形，得到各个所述光流图对应的目标外接矩形框坐标信息；

在本发明中，构建k个目标连通区域对应的一个目标外接矩形，该目标外接矩形可将k个目标连通区域全部包围，进而计算得到目标连通区域的框坐标，即目标外接矩形框坐标信息。最后，将定位点坐标信息/>和目标外接矩形框坐标信息/>作为最终的提示，构建得到样本视频序列数据对应的光流定位信息，在单目标和多目标场景下都能够计算得到准确的提示信息，从而提供比光流图更加精确的边缘信息，以引导提示SAM进行准确的目标定位。

在上述实施例的基础上，所述根据所述定位点坐标信息和所述目标外接矩形框坐标信息，得到所述样本视频序列数据对应的所述光流定位信息，包括：

；

其中，表示所述光流定位信息，/>为所述目标外接矩形框坐标信息，/>为所述定位点坐标信息，/>表示求取各个所述光流图中k个所述目标连通区域各自对应的所述定位点坐标信息/>和各个所述光流图中所有所述目标连通区域对应的所述目标外接矩形框坐标信息/>的操作，/>表示保留各个所述光流图中区域分值从高到低的前k个所述显著性连通区域作为所述目标连通区域的操作，/>表示所述区域约束矩形框，/>表示通过所述区域约束矩形框在对应的多个所述待定连通区域中确定得到的所述显著性连通区域，/>表示对各个所述光流图中所有所述显著性连通区域进行打分的操作，/>表示所述预设显著性阈值，/>表示由所述目标像素点构建得到的多个所述待定连通区域，D表示所述全局显著性值，/>表示所述最大全局显著性值，/>表示所述全局显著性平均值；/>表示权重系数，用于权衡最大全局显著性值/>和全局显著性平均值/>的经验性参数；/>表示绘制矩形框的操作，/>表示将所述光流图转换为所述灰度图的操作，/>表示通过Canny算法对所述灰度图进行边缘提取处理，/>表示所述光流图，/>表示求平均操作，/>表示在通道维度进行求和操作；H表示所述光流图的高度信息，W表示所述光流图的宽度信息，即第二尺寸信息；/>表示所述显著性连通区域的外接矩形框的左上角坐标信息，/>表示所述显著性连通区域的外接矩形框的右下角坐标信息，即第一尺寸信息；N表示所述显著性连通区域中所述目标像素点的数量，即显著性连通区域的面积大小。

在本发明中，根据光流图先计算全局显著性值的大小，再根据设定的阈值大小舍弃非目标像素点，最后对保留的目标像素点进行最终提示的计算，得到对应的点和框的提示信息，以用于引导SAM进一步构建样本视频序列数据对应的样本目标定位结果。

在上述实施例的基础上，所述基于所述分割一切模型，对所述样本视频序列数据和所述光流定位信息进行编解码处理，得到所述样本视频序列数据对应的所述样本目标定位结果，包括：

在本发明中，将样本视频序列数据输入到SAM模型中，通过SAM模型中的图片编码器（Vision Transformer，简称ViT）对视频帧进行编码，得到样本图片特征。

进一步地，通过SAM模型中的提示编码器，将上述实施例中得到的定位点坐标信息和目标外接矩形框坐标信息/>作为光流定位提示信息进行编码，得到提示特征向量/>。

最后，将样本图片特征和提示特征向量/>同时送入掩码解码器中进行目标的定位，得到样本视频序列数据对应的样本目标定位结果/>。

在上述实施例的基础上，所述解码器公式为：

；

其中，表示所述样本目标定位结果；/>表示所述样本图片特征，/>表示提示特征向量，/>表示可学习向量；/>表示拼接操作，可以让提示更加灵活；/>表示自注意力操作；/>表示解码操作，在一实施例中，提示特征向量/>与可学习向量/>进行拼接操作后，与样本图片特征/>进行注意力操作，最后进行解码，得到256/>256的样本目标定位结果/>；/>表示所述提示编码器，用于对定位点坐标信息/>和目标外接矩形框坐标信息/>进行编码，在一实施例中，定位点坐标信息/>和目标外接矩形框坐标信息/>经过提示编码器进行编码后，最终得到k个256维的提示特征向量/>；/>为所述目标外接矩形框坐标信息，/>为所述定位点坐标信息；/>表示所述图片编码器，用于对视频帧进行编码，在一实施例中，样本视频帧经过图片编码器编码后，最终得到256/>64/>64的样本特征张量/>；/>表示所述样本视频序列数据，/>。

图4为本发明提供的基于分割一切模型的视频目标定位引导过程的整体示意图，可参考图4所示，在本发明中，首先将样本视频帧输入图片编码器ViT，得到图像编码特征张量，即样本图片特征；然后，对光流定位信息进行编码，得到提示编码特征向量，即提示特征向量，再与可学习向量进行拼接，使得提示更加灵活；接着，经可学习向量拼接后的提示编码特征向量，通过自注意力层加强自身的表达，再与图像编码特征张量进行交叉注意力进行相关性计算，之后再经过前馈全连接层进行特征映射，同时加强特征的表达，然后，再与图像编码特征张量进行交叉注意力计算，得到相关性结果。最后，对得到结果进行特征解码，通过解码会得到三个掩码，以及三个掩码对应的交并比（Intersection overUnion，简称IOU）得分，后续通过IOU得分最高的掩码进行引导即可。

在上述实施例的基础上，所述通过所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果，对细化分割模型进行训练，得到所述视频目标分割模型，包括：

在本发明中，细化分割模型是一个用于处理视频序列数据和目标定位结果的模型，它能够将输入的视频数据和目标定位结果进行处理，并输出样本分割预测结果。

在训练过程中，细化分割模型根据样本视频序列数据对应的样本分割真实结果与样本分割预测结果之间的差异，计算损失值。通过比较模型预测的分割结果和实际的分割结果，计算它们之间的差异，从而反映模型预测的准确度和实际情况之间的偏差程度。

进一步地，若损失值满足预设阈值，得到视频目标分割模型。在本发明中，可以设定一个预设的损失阈值，当计算得到的损失值低于或等于该阈值时，就可以认为训练得到了一个满意的视频目标分割模型，该模型已经学习到了样本视频序列数据中的目标分割特征和规律，得到一个基于混合转换器MiT的视频目标分割模型，该模型能够根据输入的视频序列数据生成目标分割预测结果。

在上述实施例的基础上，在所述将所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果输入到所述细化分割模型之后，所述方法还包括：

图5为本发明提供的基于主干网络的外观特征编码过程的示意图，可参考图5所示，在本发明中，细化分割模型中的主干网络是通过MiT（后续简称MiT主干网络）构建得到的，将样本视频帧作为输入，经过MiT主干网络中的四个阶段的特征提取，输出得到分辨率由高到低的外观特征，/>，/>，/>。在本发明中，细化分割模型接收多个不同维度的特征张量作为输入，然后将所有张量在通道维度进行拼接，最后再将通道变换到指定的维度大小作为输出，并且，对于接收到的特征张量，通过插值进行插值采样，可将特征采样到任意分辨率大小。

进一步地，基于样本目标定位结果进行掩码引导。具体地，在本发明中，通过将外观特征，/>，/>，/>这四个不同分辨率特征中各个特征张量/>与上述实施例得到的样本目标定位结果/>逐元素进行相乘，得到定位引导后的特征张量/>，其中，。在本发明中，可基于细化分割模型中的残差跳跃连接分支结构，通过跳跃连接将前一层的特征直接传递给后续层，缓解梯度消失问题，这样可以使梯度更容易在网络中传播，让网络更容易收敛，同时提高网络性能。

进一步地，当时，将/>、/>以及/>三个特征张量进行融合，首先在通道维度将三个张量进行拼接，然后再将拼接后的张量通过变换维度到指定大小，记作融合后的特征张量/>，其中，/>是通过残差跳跃连接分支由上一层传递到当前层的特征。当/>时，只将/>和/>进行融合即可。

具体地，可参考图5所示，在本发明中，将样本视频帧输入至MiT主干网络，首先通过块嵌入（PatchEmbed）操作对视频帧进行块的划分，每个块之间会有重叠部分，以可以保证块与块之间有关联；然后，将每个块展平成一个向量，经过转换器块1、转换器块2、转换器块3和转换器块4（即Transformer Block1、Transformer Block2、Transformer Block3和Transformer Block4），得到四种分辨率不同的特征张量，/>，/>，/>，这些特征的分辨率由大到小逐渐降低。每个Transformer Block主要包括自注意力层、前馈全连接层和块合并模块，其中，自注意力层主要是加强特征自身的表达，前馈全连接层主要是对特征进行映射，增加特征表达的多样性。由于四个转换器块的过程都是类似的，在本实施例中，以转换器块1的过程进行说明，具体如下：

；/>

；

其中，表示对输入的样本视频帧进行7/>7大小块（patch）的划分，每个块之间会有3个像素的重叠部分；然后，对每个块进行编码，得到各自的编码向量。

接着，使用重复堆叠的block1对这些编码向量进行特征映射、变换和注意力计算，加强特征，具体过程如下：

；

其中，表示为转换器块1中的自注意力操作，用于加强上下文的关联性；/>为前馈全连接层，用于加强特征变换，增加特征的多样性；/>为归一化层，可以减少特征内部偏移、减小梯度消失和爆炸的问题，并提高模型的泛化能力。

进一步地，通过特征融合公式将当前层转换器块对应的特征张量、定位引导后的特征张量/>和残差跳跃连接特征张量/>进行拼接操作，得到融合后的特征张量。图6为本发明提供的特征融合过程的示意图，可参考图6所示，在本发明中，需要融合的特征有三个，一是当前层的特征/>，二是定位引导后的特征张量/>，三是通过残差跳跃连接分支得到的前层特征/>，经过融合后得到/>。具体过程可通过特征融合公式实现：

；

其中，表示张量特征的上下采样操作，可通过插值操作将张量采样到指定尺寸大小；/>表示前一层转换器块对应的特征张量，/>表示定位引导后的特征张量，表示样本目标定位结果，/>表示当前层转换器块对应的特征张量，/>表示拼接操作，/>表示第i层转换器块对应的融合后的特征张量，/>为张量之间的逐元素相乘操作。

在一实施例中，对上述得到的融合后的特征张量进行卷积注意力计算和多级特征金字塔融合处理。图7为本发明提供的卷积注意力计算过程的示意图，可参考图7所示，在本发明中，卷积注意力计算过程如下：

；

其中，为张量拼接操作，可将张量在通道维度进行拼接；/>为卷积注意力计算操作，可对特征张量进行通道和全局空间注意力计算后，再变换到指定维度输出。

进一步地，由于融合处理的四个阶段过程都是类似的，以其中一个阶段为例，具体过程如下：

；

其中，为卷积核/>的卷积操作，/>为卷积核/>的卷积操作，/>为/>激活函数，/>为最大池化操作，/>为平均池化操作，/>为在通道维度求取平均值的操作，/>为在通道维度求取最大值操作，/>为sigmoid激活函数。

在本发明中，对融合后的特征张量进行空间和通道注意力计算。首先，融合后的特征张量/>经过一系列卷积层后，分别进行全局最大池化和全局平均池化的操作，池化操作是为了进行特征空间上的注意力计算，然后在通道上求取最大值和平均值，通过拼接后经过卷积层，这步操作是为了在特征通道上进行注意力计算，让重要的通道表达更强。

图8为本发明提供的预测解码过程的示意图，可参考图8所示，在本发明中，将最后一层经过卷积注意力计算后的特征直接经过一个卷积层，从而得到通道数为2的预测结果；然后，经过插值到预设设置的分辨率。在本发明中，因为模型输出是两通道的，二值掩码是单通道的，为了方便使用交叉熵损失进行计算，所以再经过一个/>操作，得到单通道的二值掩码，即得到最终预测结果/>。在上述实施例的基础上，所述解码预测公式为：

；

其中，表示样本分割预测结果，/>表示上采样操作，/>表示最后一层转换器输出的融合后的特征张量，即/>。

本发明提供的视频目标分割方法，通过将外观和运动信息进行解耦学习，避免两者之间直接进行交互和融合，可以提高模型的鲁棒性和抗噪声能力，其中，运动信息可以用于辅助定位目标，引导外观特征聚焦到目标所在的位置，然后细化目标的分割结果，这种解耦的方式可以将目标与周围环境进行很好地区分开来，并且能准确定位目标。进一步地，在本发明中，为了提取长程运动信息，更多地捕捉静态场景下目标的运动信息，本发明采用隔帧进行光流估计。

下面对本发明提供的视频目标分割系统进行描述，下文描述的视频目标分割系统与上文描述的视频目标分割方法可相互对应参照。

图9为本发明提供的视频目标分割系统的结构示意图，如图9所示，本发明提供了一种视频目标分割系统，包括视频数据获取模块901和目标分割模块902，其中，视频数据获取模块901用于获取待分割视频序列数据；目标分割模块902用于将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。

本发明提供的视频目标分割系统，基于分割一切模型，根据样本视频序列数据对应的光流定位信息，对样本视频序列数据中的样本目标进行定位，进而通过得到的样本目标定位结果和样本视频序列数据对神经网络模型进行训练，从而通过训练得到的视频目标分割模型对视频序列数据进行目标分割，得到更为准确的目标分割结果，提高了无监督视频目标分割在复杂场景下的可靠性、鲁棒性和抗噪性。

本发明提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图10为本发明提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器（Processor）1001、通信接口（Communications Interface）1002、存储器（Memory）1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行视频目标分割方法，该方法包括：获取待分割视频序列数据；将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的视频目标分割方法，该方法包括：获取待分割视频序列数据；将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的视频目标分割方法，该方法包括：获取待分割视频序列数据；将所述待分割视频序列数据输入到视频目标分割模型中，得到由所述视频目标分割模型输出的所述待分割视频序列数据中对应的目标分割结果；其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频目标分割方法，其特征在于，包括：

获取待分割视频序列数据；

其中，所述视频目标分割模型是根据样本目标定位结果和样本视频序列数据对神经网络模型进行训练得到的，所述样本目标定位结果是基于分割一切模型，根据所述样本视频序列数据对应的光流定位信息，对所述样本视频序列数据中的样本目标进行定位得到的；

所述方法还包括：

基于光流定位公式，根据定位点坐标信息和目标外接矩形框坐标信息，计算得到样本视频序列数据对应的光流定位信息，其中，光流定位公式为：

；

其中，表示光流定位信息，/>为目标外接矩形框坐标信息，/>为定位点坐标信息，/>表示求取各个光流图中k个目标连通区域各自对应的定位点坐标信息/>和各个光流图中所有目标连通区域对应的目标外接矩形框坐标信息/>的操作，/>表示保留各个光流图中区域分值从高到低的前k个显著性连通区域作为目标连通区域的操作，/>表示区域约束矩形框，/>表示通过区域约束矩形框在对应的多个待定连通区域中确定得到的显著性连通区域，/>表示对各个光流图中所有显著性连通区域进行打分的操作，/>表示预设显著性阈值，/>表示由目标像素点构建得到的多个待定连通区域，D表示全局显著性值，/>表示最大全局显著性值，/>表示全局显著性平均值，/>表示权重系数，/>表示绘制矩形框的操作，/>表示将光流图转换为灰度图的操作，表示通过Canny算法对灰度图进行边缘提取处理，/>表示光流图，/>表示求平均操作，/>表示在通道维度进行求和操作，H表示光流图的高度信息，W表示光流图的宽度信息，/>表示显著性连通区域的外接矩形框的左上角坐标信息，/>表示显著性连通区域的外接矩形框的右下角坐标信息，N表示显著性连通区域中目标像素点的数量。

2.根据权利要求1所述的视频目标分割方法，其特征在于，所述视频目标分割模型通过以下步骤训练得到：

获取所述样本视频序列数据对应的多个光流图；

提取各个所述光流图中的目标连通区域；

3.根据权利要求2所述的视频目标分割方法，其特征在于，所述获取所述样本视频序列数据对应的多个光流图，包括：

4.根据权利要求2所述的视频目标分割方法，其特征在于，所述提取各个所述光流图中的目标连通区域，包括：

5.根据权利要求4所述的视频目标分割方法，其特征在于，所述根据所述目标连通区域，获取所述样本视频序列数据对应的所述光流定位信息，包括：

6.根据权利要求5所述的视频目标分割方法，其特征在于，所述基于所有所述光流图，计算各个所述光流图中每个像素点对应的全局显著性值，包括：

7.根据权利要求6所述的视频目标分割方法，其特征在于，所述基于各个所述光流图对应的灰度图的边缘信息，得到各个所述灰度图中的区域约束矩形框，包括：

将各个所述光流图转换为对应的灰度图；

8.根据权利要求7所述的视频目标分割方法，其特征在于，所述根据所述全局显著性值和预设显著性阈值，确定各个所述光流图中由目标像素点构成的多个待定连通区域，包括：

9.根据权利要求8所述的视频目标分割方法，其特征在于，所述基于所述区域约束矩形框，在对应的多个所述待定连通区域中确定显著性连通区域，包括：

10.根据权利要求9所述的视频目标分割方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的视频目标分割方法，其特征在于，所述根据所述目标连通区域的像素信息，确定各个所述光流图对应的定位点坐标信息，包括：

12.根据权利要求11所述的视频目标分割方法，其特征在于，所述基于所述分割一切模型，对所述样本视频序列数据和所述光流定位信息进行编解码处理，得到所述样本视频序列数据对应的所述样本目标定位结果，包括：

13.根据权利要求12所述的视频目标分割方法，其特征在于，所述解码器公式为：

；

其中，表示所述样本目标定位结果，/>表示所述样本图片特征，/>表示提示特征向量，/>表示可学习向量，/>表示拼接操作，/>表示自注意力操作，/>表示解码操作，/>表示所述提示编码器，/>为所述目标外接矩形框坐标信息，/>为所述定位点坐标信息，/>表示所述图片编码器；/>表示所述样本视频序列数据，/>。

14.根据权利要求2或13所述的视频目标分割方法，其特征在于，所述通过所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果，对细化分割模型进行训练，得到所述视频目标分割模型，包括：

15.根据权利要求14所述的视频目标分割方法，其特征在于，在所述将所述样本视频序列数据和所述样本视频序列数据对应的所述样本目标定位结果输入到所述细化分割模型之后，所述方法还包括：

16.根据权利要求15所述的视频目标分割方法，其特征在于，所述特征融合公式为：

；

17.根据权利要求16所述的视频目标分割方法，其特征在于，所述解码预测公式为：

；

其中，表示样本分割预测结果，/>表示采样操作，/>表示最后一层转换器输出的融合后的特征张量。

18.一种视频目标分割系统，其特征在于，包括：

视频数据获取模块，用于获取待分割视频序列数据；

所述系统还用于：

；

19.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至17任一项所述视频目标分割方法。

20.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述视频目标分割方法。