CN116630869A

CN116630869A - 一种视频目标分割方法

Info

Publication number: CN116630869A
Application number: CN202310922338.1A
Authority: CN
Inventors: 王田; 张奇鹏; 陈俊智; 傅瑶; 吕金虎; 张宝昌
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS; Beihang University
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS; Beihang University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22
Anticipated expiration: 2043-07-26
Also published as: CN116630869B

Abstract

本发明公开了一种视频目标分割方法，包括以下步骤：根据参考视频帧图像提取获得参考帧图像特征，根据当前视频帧图像提取获得当前帧搜索特征；将参考帧图像特征和当前帧搜索特征进行匹配，根据匹配对参考帧掩膜特征进行特征融合，获得当前帧掩膜特征；将当前帧掩膜特征和参考帧掩膜特征进行目标对比增强，从而减少当前帧图像中的目标误匹配。本发明公开的视频目标分割方法，提高了目标分割的准确性和识别准确率。

Description

一种视频目标分割方法

技术领域

本发明涉及视频目标分割方法，属于视觉识别技术领域。

背景技术

视频目标分割（Video Object Segmentation, VOS）是完成对视频序列帧中的物体进行分割，在实际生活中有着重要的意义，包括自动驾驶场景下的车辆与人体分割、在线会议场景下的虚拟背景增强以及影视视觉增强等多方面应用。

视频分割方法的种类有很多，其中最为常用的是半监督视频目标分割方法，即给出视频中一帧（通常是视频中的第一帧）的感兴趣物体的分割掩膜（Mask），来预测后续视频帧中该目标的mask，也叫做像素跟踪。

然而传统的半监督视频目标分割方法，普遍存在目标误匹配背景、多目标间误匹配的问题，导致目标分割准确率较低。

因此，有必要研究一种视频目标分割方法，以解决上述问题。

发明内容

为了克服上述问题，本发明人进行了深入研究，设计出一种视频目标分割方法，包括以下步骤：

S1、根据参考视频帧图像提取获得参考帧图像特征，根据当前视频帧图像提取获得当前帧搜索特征；

S2、将参考帧图像特征和当前帧搜索特征进行匹配，根据匹配对参考帧掩膜特征进行特征融合，获得当前帧掩膜特征；

S3、将当前帧掩膜特征和参考帧掩膜特征进行目标对比增强，从而减少当前帧图像中的目标误匹配。

在一个优选的实施方式中，S2中，所述融合包括以下子步骤：

S21、融合连续的参考帧图像特征，获得参考帧编码；

S22、融合当前帧搜索特征获得搜索帧编码；

S23、匹配搜索帧编码和参考帧编码，根据匹配结果融合参考帧掩膜特征，获得当前帧掩膜特征。

在一个优选的实施方式中，S21中，采用注意力机制将连续的参考帧图像特征进行时空融合。

在一个优选的实施方式中，通过第一融合器实现连续参考帧图像特征的融合，所述第一融合器为L层融合层串联形成，每个融合层包括一个自注意力模型和一个前馈网络。

在一个优选的实施方式中，所述融合层表示为：

其中，表示第一融合器的输入，即连续的参考帧图像特征；/>表示第 />层融合层，/>表示输入为 />时第/>层融合层的输出；

表示自注意力模型， />表示第/>层融合层中自注意力模型的输出值，/>为中间参量， />为权重系数， />表示位置编码；

表示第/>层融合层中前馈网络输出值。

在一个优选的实施方式中，S22中，采用注意力机制将多个当前帧搜索特征进行空间融合。

在一个优选的实施方式中，S23中，通过第三融合器融合搜索帧编码、参考帧编码和参考帧掩膜特征，

所述第三融合器表示为：

其中，表示交叉注意力模型， />表示当前帧掩膜特征，其包含多个目标特征， />表示当前帧掩膜特征中第/>个目标的掩膜特征。

在一个优选的实施方式中，S3中，所述目标对比增强通过目标分割匹配进行，

在目标分割匹配过程中，获得背景掩膜特征，将背景掩膜特征与当前帧掩膜特征连接，将连接后的特征作为新的当前帧掩膜特征进行目标分割匹配。

在一个优选的实施方式中，S3中，在进行目标分割匹配前，对当前帧掩膜特征进行预处理，缩小当前帧掩膜特征中目标与历史帧掩膜特征中对应目标的差异。

本发明还提供了一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

本发明还提供了一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述任一项所述的方法。

本发明所具有的有益效果包括：

（1）提高了目标分割准确性；

（2）多目标分割误匹配概率低。

附图说明

图1示出根据本发明一种优选实施方式的一种视频目标分割方法流程示意图；

图2示出根据本发明一种优选实施方式的一种视频目标分割方法结构示意图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

根据本发明提供的一种视频目标分割方法，包括以下步骤：

S3、将当前帧掩膜特征和参考帧研磨特征进行目标对比增强，从而减少当前帧图像中的目标误匹配。

在本发明中，可以采用已知的任意一种图像特征提取网络进行图像特征的提取，优选地，采用ResNet网络进行。

S1中，通过ResNet网络进行参考帧图像特征、当前帧搜索特征的提取；

传统的图像特征提取，一般采用卷积神经网络进行，然而卷积神经网络不能在保持原有准确率的同时增加网络层数，这一现象是不合常理的。ResNet网络解决了这一问题，通过残差结构将网络输入输出联系起来，很容易增加其网络层数，从而提高特征提取准确性。

在一个更优选的实施方式中，采用ResNet50网络进行，ResNet50能够兼顾性能与计算开销。

进一步地，S1中，通过变形ResNet网络进行当前帧掩膜特征的提取，所述变形ResNet网络为将ResNet网络的第一个卷积层的输入通道改为1，以适应掩膜帧图像实际通道数。

根据本发明，S1中，由于参考视频帧图像为连续图像，则获得的参考帧图像特征为多个连续特征；进一步地，由于参考掩膜帧图像为连续图像，则参考帧掩膜特征为多个连续特征；

由于当前视频帧图像中可能具有多个目标，则当前帧搜索特征可能具有多个。

S2中，所述融合包括以下子步骤：

S21、融合连续的参考帧图像特征，获得参考帧编码；

S22、融合当前帧搜索特征获得搜索帧编码；

S23、匹配搜索帧编码、参考帧编码，根据匹配结果融合参考帧掩膜特征，获得当前帧掩膜特征。

S21中，采用注意力机制将连续的参考帧图像特征进行时空融合，所述注意力机制是视觉识别中常用的一种信息提取方法。

在一个优选的实施方式中，通过第一融合器实现连续参考帧图像特征的融合，所述第一融合器为L层融合层串联形成，每个融合层包括一个自注意力模型和一个前馈网络，下一融合层的输入为上一融合层的输出，优选地，在本发明中L的取值为3。

进一步优选地，所述融合层表示为：

表示第/>层融合层中前馈网络输出值。

进一步地，L个融合层串联后获得的参考帧编码表示为：

其中，符号表示级联。

S22中，采用注意力机制将多个当前帧搜索特征进行空间融合。

通过第二融合器实现当前帧搜索特征的空间融合，优选地，所述第二融合器的结构与第一融合器的结构相同。

更优选地，第二融合器中权重系数与第一融合器中的权重系数相同，增强当前帧中的空间信息。

优选地，获得的搜索帧编码表示为：

其中，表示当前帧搜索特征。

S23中，通过第三融合器匹配搜索帧编码和参考帧编码，进而根据匹配结果融合参考帧掩膜特征，

所述第三融合器表示为：

其中，表示交叉注意力模型， />表示当前帧掩膜特征，其包含多个目标特征，/>表示当前帧掩膜特征中第/>个目标的掩膜特征，/> 表示目标的总数。

S3中，所述目标对比增强通过目标分割匹配进行，优选采用论文[Oh S W, Lee JY, Sunkavalli K, et al. Fast video object segmentation by reference-guidedmaskpropagation[C]//Proceedings of the IEEE conference on computer visionandpattern recognition. 2018: 7376-7385.]中的方法进行目标分割匹配。

多目标分割，总会不可避免地出现一些重叠、遮挡、相似物体等情况，传统的多目标分割方法，只考虑单目标之间的信息交互，并不会去对比多目标之间的信息差异，误匹配的错误会经常发生，导致多目标分割结果较差。

S3中，对多个目标特征进行单独对比增强，从而减少当前帧图像中的目标误匹配。

根据本发明一个优选的实施方式，S3中，获得背景掩膜特征，将背景掩膜特征与当前帧掩膜特征连接，将连接后的特征作为新的当前帧掩膜特征进行目标分割匹配。

在本发明中，通过增加背景掩膜特征，增强了当前帧掩膜特征的特征对比。

传统的多目标特征分割匹配，通常会将多个目标特征单独进行掩膜匹配，而后在后处理时将多目标掩膜给融合到一起，但是这种处理方式并没有考虑到特征之间的差异。进一步优选地，在本发明中，将当前帧掩膜特征作为一个整体进行掩膜匹配。

具体地，S3中，在进行目标分割匹配前，对当前帧掩膜特征进行预处理，缩小当前帧掩膜特征中目标与历史帧掩膜特征中对应目标的差异。

所述预处理包括以下两个子步骤：

S31、将当前帧掩膜特征存储至库中，并从库中挑选出多个掩膜特征作为历史参考帧特征；

S32、根据历史参考帧特征，对当前帧掩膜特征进行优化，使得当前帧掩膜特征中目标与历史参考帧特征中对应目标的向量距离减小。

优选地，在S31中，还将掩膜特征对应的时刻存储至库中，以便于后期从库中挑选出合适的历史参考帧特征。

更优选地，从第一帧时刻起，每隔k时间选择一个掩膜特征作为历史参考帧特征。理论上，当前时刻之前所有的帧都可以作为当前时刻的参考，但是为了计算量和实时性的考虑，需要选取部分帧作为参考，每隔k时间选择一个掩膜特征的方式，既能够减少选取的总数量，又能够拥有全局的视频时序信息。

优选地，k的取值为5。

更优选地，历史参考帧特征还包括第一帧时刻的掩膜特征以及当前帧前一时刻的掩膜特征。

对于半监督视频目标分割任务，第一帧的特征是由给出的真值标签确定的，因此它能够给出最准确的目标信息；而前一帧的选择主要是因为在视频中，前一帧的目标信息一般不会和当前帧差异过大，因此其应该和当前帧的目标特征最为相似。

S32包括以下子步骤：

S321、对当前帧掩膜特征和历史参考帧特征进行向量化；

S322、采用对比学习法处理向量化后的当前帧掩膜特征和历史参考帧特征，完成对当前帧掩膜特征优化。

S321中，利用向量化网络对输入的当前帧掩膜特征进行向量化，可以表示为：

其中，表示当前帧掩膜特征， />表示历史参考帧特征， />表示当前帧掩膜特征的向量， />表示历史参考帧特征的向量。

进一步地，对于对同一个目标的不同历史参考帧特征，取历史参考帧特征中多帧距离的平均值作为当前帧和参考帧目标之间的距离。

S322中，采用对比学习法对当前帧掩膜特征进行优化，拉近同个目标的特征之间的距离。

对比学习法是视觉识别中常用的一种神经网络方法，在本发明中，对具体的方法不做特别限定，可以采用任意一种已知的对比学习法，例如SIMCLR、CPC等。

在一个优选的实施方式中，对比学习法的损失函数设置为

其中，表示第不同的目标， />表示当前帧第 />个目标掩膜特征的向量， />表示参考帧第/>个目标掩膜特征的向量， />表示参考帧第/>个目标掩膜特征的向量。

实施例

实施例1

采用DAVIS 2017数据集进行视频目标分割实验，包括以下步骤：

S1中，通过ResNet50网络进行参考帧图像特征、当前帧搜索特征的提取；

S2中，所述融合包括以下子步骤：

S21、融合连续的参考帧图像特征，获得参考帧编码；

S22、融合当前帧搜索特征获得搜索帧编码；

S21中，采用注意力机制将连续的参考帧图像特征进行时空融合，通过第一融合器实现，第一融合器为L层融合层串联形成，融合层表示为：

L个融合层串联后获得的参考帧编码表示为：

其中，L=3。

S22中，采用注意力机制将多个当前帧搜索特征进行空间融合，通过第二融合器实现，第二融合器中权重系数与第一融合器中的权重系数相同，获得的搜索帧编码表示为：

S23中，通过第三融合器匹配搜索帧编码和参考帧编码，进而根据匹配结果融合参考帧掩膜特征，所述第三融合器表示为：

S3中，获得背景掩膜特征，将背景掩膜特征与当前帧掩膜特征连接，将连接后的特征作为新的当前帧掩膜特征进行目标分割匹配，并在进行目标分割匹配前，对当前帧掩膜特征进行预处理，缩小当前帧掩膜特征中目标与历史帧掩膜特征中对应目标的差异。

所述预处理包括以下两个子步骤：

S32包括以下子步骤：

S321、对当前帧掩膜特征和历史参考帧特征进行向量化；

S322中，采用对比学习法对当前帧掩膜特征进行优化，拉近同个目标的特征之间的距离；

对比学习法的损失函数设置为

。

实施例2

进行与实施例1相同的实验，区别在于，采用Youtube-VOS数据集进行。

对比例1

进行与实施例1相同的实验，区别在于，采用AGSSVO方法进行，AGSSVO具体过程参见论文[Lin H, Qi X, Jia J. Agss-vos: Attention guided single-shot videoobjectsegmentation[C]//Proceedings of the IEEE/CVF International ConferenceonComputer Vision. 2019: 3949-3957.]。

对比例2

进行与实施例1相同的实验，区别在于，采用RGMP方法进行，RGMP具体过程参见论文[Oh S W, Lee J Y, Sunkavalli K, et al. Fast video object segmentation byreference-guided maskpropagation[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. 2018: 7376-7385.]。

对比例3

进行与实施例1相同的实验，区别在于，采用FRTM方法进行，FRTM具体过程参见论文[Robinson A, Lawin F J, Danelljan M, et al. Learning fast and robust targetmodels for videoobject segmentation[C]//Proceedings of the IEEE/CVFConference on ComputerVision and Pattern Recognition. 2020: 7406-7415.]。

对比例4

进行与实施例1相同的实验，区别在于，采用STM方法进行，STM具体过程参见论文[Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-timememorynetworks[C]//Proceedings of the IEEE/CVF International Conference onComputerVision. 2019: 9226-9235.]。

对比例5

进行与实施例1相同的实验，区别在于，采用LWL方法进行，LWL具体过程参见论文[Bhat G, Lawin F J, Danelljan M, et al. Learning what to learn for videoobject segmentation[C]//European Conference on Computer Vision. Springer,Cham, 2020: 777-794.]。

对比例6

进行与实施例1相同的实验，区别在于，采用CFBI方法进行，CFBI具体过程参见论文[Yang L, Wang Y, Xiong X, et al. Efficient video object segmentation vianetworkmodulation[C]//Proceedings of the IEEE Conference on Computer VisionandPattern Recognition. 2018: 6499-6507.]。

对比例7

进行与实施例1相同的实验，区别在于，采用KMNVOS方法进行，KMNVOS具体过程参见论文[Seong H, Hyun J, Kim E. Kernelized memory network for video objectsegmentation[C]//European Conference on Computer Vision. Springer, Cham,2020: 629-645.]。

对比例8

进行与实施例2相同的实验，区别在于，采用AGSSVO方法进行，AGSSVO具体过程参见论文[Lin H, Qi X, Jia J. Agss-vos: Attention guided single-shot videoobjectsegmentation[C]//Proceedings of the IEEE/CVF International ConferenceonComputer Vision. 2019: 3949-3957.]。

对比例9

进行与实施例2相同的实验，区别在于，采用AGAME方法进行，AGAME具体过程参见论文[Johnander J, Danelljan M, Brissman E, et al. A generative appearancemodel for end-to-endvideo object segmentation[C]//Proceedings of the IEEE/CVFConference onComputer Vision and Pattern Recognition. 2019: 8953-8962.]。

对比例10

进行与实施例2相同的实验，区别在于，采用FEELVOS方法进行，FEELVOS具体过程参见论文[Voigtlaender P, Chai Y, Schroff F, et al. Feelvos: Fast end-to-endembedding learning for videoobject segmentation[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition. 2019: 9481-9490.]。

对比例11

进行与实施例2相同的实验，区别在于，采用FRTM方法进行，FRTM具体过程参见论文[Robinson A, Lawin F J, Danelljan M, et al. Learning fast and robust targetmodels for videoobject segmentation[C]//Proceedings of the IEEE/CVFConference on ComputerVision and Pattern Recognition. 2020: 7406-7415.]。

对比例12

进行与实施例2相同的实验，区别在于，采用LWL方法进行，LWL具体过程参见论文[Bhat G, Lawin F J, Danelljan M, et al. Learning what to learn for videoobject segmentation[C]//European Conference on Computer Vision. Springer,Cham, 2020: 777-794.]。

对比例13

进行与实施例2相同的实验，区别在于，采用STM方法进行，STM具体过程参见论文[Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-timememorynetworks[C]//Proceedings of the IEEE/CVF International Conference onComputerVision. 2019: 9226-9235.]。

对比例14

进行与实施例2相同的实验，区别在于，采用CFBI方法进行，CFBI具体过程参见论文[Yang L, Wang Y, Xiong X, et al. Efficient video object segmentation vianetworkmodulation[C]//Proceedings of the IEEE Conference on Computer VisionandPattern Recognition. 2018: 6499-6507.]。

实验例1

对比实施例1与对比例1-7的结果，采用公认的度量标准，使用区域相似度J和轮廓相似度F来分别度量，并使用J&F来表示J和F的平均值表征不同方法的分割效果，对比结果如表一所示。

表一

从表一上可以看出，在DAVIS 2017数据集下，实施例1中的方法，相比于其它方法，目标分割准确性更高，多目标分割误匹配率更低。

实验例2

对比实施例2与对比例8-14的结果，采用公认的度量标准，使用区域相似度J和轮廓相似度F来分别度量，并使用J&F来表示J和F的平均值表征不同方法的分割效果，对比结果如表二所示。

表二

从表二上可以看出，在Youtube-VOS数据集下，实施例2中的方法，相比于其它方法，目标分割准确性更高，多目标分割误匹配率更低，即不同数据集下，实施例中的方法均能够获得更高的准确性。

本发明中以上描述的方法的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的方法和装置，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的方法和装置实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与V P S服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

Claims

1.一种视频目标分割方法，其特征在于，包括以下步骤：

S3、将当前帧掩膜特征和参考帧掩膜特征进行目标对比增强，从而减少当前帧图像中的目标误匹配；

S2中，所述融合包括以下子步骤：

S21、融合连续的参考帧图像特征，获得参考帧编码；

S22、融合当前帧搜索特征获得搜索帧编码；

2.根据权利要求1所述的视频目标分割方法，其特征在于，

S21中，采用注意力机制将连续的参考帧图像特征进行时空融合。

3.根据权利要求2所述的视频目标分割方法，其特征在于，

通过第一融合器实现连续参考帧图像特征的融合，所述第一融合器为L层融合层串联形成，每个融合层包括一个自注意力模型和一个前馈网络。

4.根据权利要求3所述的视频目标分割方法，其特征在于，

所述融合层表示为：

；

其中，表示第一融合器的输入，即连续的参考帧图像特征；/>表示第/>层融合层，表示输入为/>时第/>层融合层的输出；

表示自注意力模型，/>表示第/>层融合层中自注意力模型的输出值，/>为中间参量，/>为权重系数，/>表示位置编码；

表示第/>层融合层中前馈网络输出值。

5.根据权利要求3所述的视频目标分割方法，其特征在于，

6.根据权利要求1所述的视频目标分割方法，其特征在于，

S23中，通过第三融合器融合搜索帧编码、参考帧编码和参考帧掩膜特征，

所述第三融合器表示为：

；

其中，表示交叉注意力模型，/>表示当前帧掩膜特征，其包含多个目标特征，/>表示当前帧掩膜特征中第/>个目标的掩膜特征。

7.根据权利要求1所述的视频目标分割方法，其特征在于，

S3中，所述目标对比增强通过目标分割匹配进行，

8.根据权利要求7所述的视频目标分割方法，其特征在于，

S3中，在进行目标分割匹配前，对当前帧掩膜特征进行预处理，缩小当前帧掩膜特征中目标与历史帧掩膜特征中对应目标的差异。

9. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

10.一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。