CN115984307A

CN115984307A - 视频对象分割方法、装置、电子设备及存储介质

Info

Publication number: CN115984307A
Application number: CN202310027129.0A
Authority: CN
Inventors: 王伟农; 戴宇荣; 陶鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-18

Abstract

本公开关于一种视频对象分割方法、装置、电子设备及存储介质，该方法包括：获取待预测视频帧，并提取出待预测视频帧对应的多尺度图像特征；对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像；融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；根据融合图像特征，生成第一掩膜图像对应的区域分割特征，以及，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征；根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域。采用本公开可以提高视频物体分割的效果。

Description

视频对象分割方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种视频对象分割方法、装置、电子设备及存储介质。

背景技术

视频对象分割(Video Object Segmentation,VOS)是视频场景理解和视频编辑的基础技术。该视频对象分割技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。

相关技术在对视频中的对象进行分割的过程中，往往是通过对掩膜图像进行多次卷积操作，并利用该多次卷积操作得到的结果来对待预测视频帧中的对象进行分割；然而，对掩膜图像进行多次卷积操作过程中往往容易出现信息丢失的情况，无法实现准确地对视频帧中的目标对象进行分割，不利于提高对视频物体分割效果。

因此，相关技术中存在视频物体分割效果不佳的问题。

发明内容

本公开提供一种视频对象分割方法、装置、电子设备及存储介质，以至少解决相关技术中视频物体分割效果不佳的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频对象分割方法，包括：

获取待预测视频帧，并提取出所述待预测视频帧对应的多尺度图像特征；

对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像；所述第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，所述目标视频帧与所述待预测视频帧均归属于同一视频；

融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；

根据所述融合图像特征，生成所述第一掩膜图像对应的区域分割特征，以及，根据所述多尺度图像特征，生成所述待预测视频帧对应的区域分割特征；

根据所述第一掩膜图像对应的区域分割特征和所述待预测视频帧对应的区域分割特征，预测所述目标对象在所述待预测视频帧中所对应的分割区域。

在一种可能实现方式，所述提取出所述待预测视频帧对应的多尺度图像特征，包括：对所述待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为所述多尺度图像特征；其中，第1个视频图像特征为对所述待预测视频帧进行特征提取处理得到的结果；第N个视频图像特征为对第N-1个视频图像特征进行特征提取处理得到的结果；N大于或等于2。

在一种可能实现方式，在所述N个不同尺度的视频图像特征按照尺度降序排列的情况下，所述对第一掩膜图像进行至少一次逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像，包括：对所述第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将所述第一掩膜图像和所述N-1个变换后掩膜图像，作为N个所述目标掩膜图像；其中，第1个目标掩膜图像为所述第一掩膜图像，第N个目标掩膜图像为第N-1个所述变换后掩膜图像。

在一种可能实现方式，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：根据各所述目标掩膜图像对应的图像特征和所述N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为所述融合图像特征；其中，第1个特征融合结果为将所述第1个目标掩膜图像对应的图像特征与所述第1个视频图像特征进行融合操作得到的结果；第N个特征融合结果为将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作得到的结果。

在一种可能实现方式，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：对所述第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定所述图像卷积结果对应的激活结果，作为所述第1个目标掩膜图像对应的图像特征；所述第1个目标掩膜图像对应的图像特征对应于第一分辨率；所述第一分辨率为所述第1个视频图像特征对应的分辨率；将所述第1个目标掩膜图像对应的图像特征和所述第1个视频图像特征进行融合操作，得到所述第1个特征融合结果。

在一种可能实现方式，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：对所述第N-1个特征融合结果进行卷积操作，得到所述特征融合结果的卷积结果，并通过预设的激活函数确定所述特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；所述第N-1个融合特征对应于第二分辨率；所述第二分辨率为所述第N个视频图像特征对应的分辨率；提取出所述第N个目标掩膜图像对应的图像特征；所述第N个目标掩膜图像对应的图像特征对应于所述第二分辨率；将所述第N-1个融合特征、所述第N个目标掩膜图像对应的图像特征和所述第N个视频图像特征进行融合操作，得到所述第N个特征融合结果。

在一种可能实现方式，所述区域分割特征为键值对特征，所述键值对特征包括掩膜寻址信息和掩膜生成信息，所述根据所述第一掩膜图像对应的区域分割特征和所述待预测视频帧对应的区域分割特征，预测所述目标对象在所述待预测视频帧中所对应的分割区域，包括：根据所述第一掩膜图像对应的掩膜寻址信息与所述待预测视频帧对应的掩膜寻址信息间的相似度，调整所述第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；对所述调整后的掩膜生成信息和所述待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像；所述第二掩膜图像用于表征所述目标对象在待预测视频帧中所对应的分割区域。

在一种可能实现方式，所述根据所述多尺度图像特征，生成所述待预测视频帧对应的区域分割特征，包括：对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为所述待预测视频帧对应的掩膜寻址信息；对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为所述待预测视频帧对应的掩膜生成信息；其中，所述第一通道数小于所述第二通道数。

在一种可能实现方式，所述根据所述融合图像特征，生成所述第一掩膜图像对应的区域分割特征，包括：对所述融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定所述卷积操作结果对应的卷积特征激活结果；对所述卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为所述第一掩膜图像对应的掩膜寻址信息；对所述卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为所述第一掩膜图像对应的掩膜生成信息；其中，所述第三通道数小于所述第四通道数。

根据本公开实施例的第二方面，提供一种视频对象分割装置，包括：

获取单元，被配置为执行获取待预测视频帧，并提取出所述待预测视频帧对应的多尺度图像特征；

变换单元，被配置为执行对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像；所述第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，所述目标视频帧与所述待预测视频帧均归属于同一视频；

融合单元，被配置为执行融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；

生成单元，被配置为执行根据所述融合图像特征，生成所述第一掩膜图像对应的区域分割特征，以及，根据所述多尺度图像特征，生成所述待预测视频帧对应的区域分割特征；

分割单元，被配置为执行根据所述第一掩膜图像对应的区域分割特征和所述待预测视频帧对应的区域分割特征，预测所述目标对象在所述待预测视频帧中所对应的分割区域。

在一种可能实现方式，所述获取单元，具体被配置为执行对所述待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为所述多尺度图像特征；其中，第1个视频图像特征为对所述待预测视频帧进行特征提取处理得到的结果；第N个视频图像特征为对第N-1个视频图像特征进行特征提取处理得到的结果；N大于或等于2。

在一种可能实现方式，在所述N个不同尺度的视频图像特征按照尺度降序排列的情况下，所述变换单元，具体被配置为执行对所述第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将所述第一掩膜图像和所述N-1个变换后掩膜图像，作为N个所述目标掩膜图像；其中，第1个目标掩膜图像为所述第一掩膜图像，第N个目标掩膜图像为第N-1个所述变换后掩膜图像。

在一种可能实现方式，所述融合单元，具体被配置为执行根据各所述目标掩膜图像对应的图像特征和所述N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为所述融合图像特征；其中，第1个特征融合结果为将所述第1个目标掩膜图像对应的图像特征与所述第1个视频图像特征进行融合操作得到的结果；第N个特征融合结果为将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作得到的结果。

在一种可能实现方式，所述融合单元，具体被配置为执行对所述第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定所述图像卷积结果对应的激活结果，作为所述第1个目标掩膜图像对应的图像特征；所述第1个目标掩膜图像对应的图像特征对应于第一分辨率；所述第一分辨率为所述第1个视频图像特征对应的分辨率；将所述第1个目标掩膜图像对应的图像特征和所述第1个视频图像特征进行融合操作，得到所述第1个特征融合结果。

在一种可能实现方式，所述融合单元，具体被配置为执行对所述第N-1个特征融合结果进行卷积操作，得到所述特征融合结果的卷积结果，并通过预设的激活函数确定所述特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；所述第N-1个融合特征对应于第二分辨率；所述第二分辨率为所述第N个视频图像特征对应的分辨率；提取出所述第N个目标掩膜图像对应的图像特征；所述第N个目标掩膜图像对应的图像特征对应于所述第二分辨率；将所述第N-1个融合特征、所述第N个目标掩膜图像对应的图像特征和所述第N个视频图像特征进行融合操作，得到所述第N个特征融合结果。

在一种可能实现方式，所述区域分割特征为键值对特征，所述键值对特征包括掩膜寻址信息和掩膜生成信息，所述分割单元，具体被配置为执行根据所述第一掩膜图像对应的掩膜寻址信息与所述待预测视频帧对应的掩膜寻址信息间的相似度，调整所述第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；对所述调整后的掩膜生成信息和所述待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像；所述第二掩膜图像用于表征所述目标对象在待预测视频帧中所对应的分割区域。

在一种可能实现方式，所述生成单元，具体被配置为执行对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为所述待预测视频帧对应的掩膜寻址信息；对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为所述待预测视频帧对应的掩膜生成信息；其中，所述第一通道数小于所述第二通道数。

在一种可能实现方式，所述生成单元，具体被配置为执行对所述融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定所述卷积操作结果对应的卷积特征激活结果；对所述卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为所述第一掩膜图像对应的掩膜寻址信息；对所述卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为所述第一掩膜图像对应的掩膜生成信息；其中，所述第三通道数小于所述第四通道数。

根据本公开实施例的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的视频对象分割方法。

根据本公开实施例的第四方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的视频对象分割方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一种可能实现方式所述的视频对象分割方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取待预测视频帧，并提取出待预测视频帧对应的多尺度图像特征；再通过对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像，该第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，目标视频帧与待预测视频帧均归属于同一视频；并融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；再通过根据融合图像特征，生成第一掩膜图像对应的区域分割特征，以及，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征；再根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域；如此，通过对第一掩膜图像进行多尺度地逆亚像素变换，可以实现在不丢失图像信息的情况下得到分辨率尺度与待预测视频帧对应的多尺度图像特征相匹配的多个目标掩膜图像，并通过将多个目标掩膜图像与待预测视频帧对应的多尺度图像特征进行融合，实现有效地挖掘和整合掩膜图像中的位置关联信息来对待预测视频帧中的目标对象进行准确地分割，从而有效地避免相关技术需要对掩膜图像进行多次卷积操作而出现信息丢失的情况，有效地实现准确地对视频帧中的目标对象进行分割，提高对视频物体分割效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频对象分割方法的流程图。

图2是根据一示例性实施例示出的另一种视频对象分割方法的流程图。

图3是根据一示例性实施例示出的一种逆亚像素变换的示意图。

图4是根据一示例性实施例示出的一种亚像素点的示意图。

图5是根据一示例性实施例示出的一种视频对象分割方法的模型框架图。

图6是根据一示例性实施例示出的一种视频对象分割装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种视频对象分割方法的流程图，如图1所示，该视频对象分割方法用于电子设备中，包括以下步骤。

在步骤S102中，获取待预测视频帧，并提取出待预测视频帧对应的多尺度图像特征。

其中，待预测视频帧可以是指需要预测出目标对象的分割区域的视频帧。

其中，目标对象可以是视频帧中的物体、人物等对象。

其中，多尺度图像特征可以是指包括至少两个尺度的图像特征。

具体实现中，当需要确定出目标对象在待预测视频帧所处的图像区域时，可以将待预测视频帧输入至电子设备，电子设备获取到该待预测视频帧后，提取出该待预测视频帧对应的多尺度图像特征。其中，该多尺度图像特征包括至少两个不同尺度下的视频图像特征。

具体来说，电子设备可以将该待预测视频帧输入至预训练的多尺度特征提取模型，通过该预训练的多尺度特征提取模型提取出至少两个尺度的图像特征，得到该待预测视频帧对应的多尺度图像特征。实际应用中，该多尺度特征提取模型可以采用ResNet50(一种卷积神经网络)，电子设备通过该ResNet50提取出待预测视频帧对应的多尺度图像特征。

在步骤S102中，对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像。

其中，第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，目标视频帧与待预测视频帧均归属于同一视频。

具体实现中，电子设备可以确定与该待预测视频帧均归属于同一视频的目标视频帧，且该目标视频帧预先具有对应的掩膜图像(mask)，该掩膜图像用于表征该目标对象在目标视频帧中所对应的分割区域。实际应用中，该目标视频帧可以是记忆帧。

电子设备获取到该目标视频帧对应的掩膜图像即第一掩膜图像后，电子设备则对该第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像。

其中，逆亚像素变换可以是指亚像素变换的逆过程，是指将一个特征(feature)上的单位拆分重排成多通道的特征(feature)的过程中；其中，r可以是缩放倍数。为了便于本领域技术人员的理解，图2实例性地提供了一种逆亚像素变换的示意图。请参见图2，逆亚像素变换可以将高分辨率大小为rH×rW×C的图像或特征，重排成生成低分辨率H×W×C的图像或特征。

其中，亚像素可以是指存在于两个实际物理像素之间的像素。在相机成像的过程中，获得的图像数据是将图像进行了离散化的处理，由于感光元件本身的能力限制，到成像面上每个像素只代表附近的颜色。例如两个感官原件上的像素之间有4.5um的间距，宏观上它们是连在一起的，微观上它们之间还有无数微小的东西存在，这些存在于两个实际物理像素之间的像素，就被称为“亚像素”。

需要说明的是，亚像素实际上是存在的，只是缺少更小的传感器将其检测出来而已，因此只能在软件上将其近似计算出来。为了便于本领域技术人员的理解，图3实例性地提供了一种亚像素点的示意图；如图3所示,每四个矩形点围成的矩形区域为实际原件上的像素点，圆形点为亚像素点。

在步骤S104中，融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征。

具体实现中，电子设备获取到第一掩码图像的各目标掩膜图像，电子设备则可以获取出各目标掩膜图像对应的图像特征；具体来说，电子设备可以将各目标掩膜图像输入至卷积神经网络，通过该卷积神经网络提取出各目标掩膜图像对应的图像特征；电子设备融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征。

需要说明的是，下文将会对上文中融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征的步骤进行详细说明，在此不做过多说明。

在步骤S106中，根据融合图像特征，生成第一掩膜图像对应的区域分割特征，以及，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征。

其中，区域分割特征可以是指用于确定出目标对象在视频帧中的分割区域的特征。实际应用中，区域分割特征可以是指键值对特征。该键值对特征包括键信息(key)和值信息(value)；其中，键信息用于寻址；值信息用于生成掩膜图像中更加细节的信息。

具体实现中，电子设备可以将融合图像特征进行预设的卷积操作，得到满足预设条件的卷积特征，作为第一掩膜图像对应的区域分割特征。电子设备可以将多尺度图像特征进行预设的卷积操作，得到满足预设条件的卷积特征，作为待预测视频帧对应的区域分割特征。

在步骤S108中，根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域。

具体实现中，电子设备可以根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域。

具体来说，电子设备可以根据第一掩膜图像对应的区域分割特征与待预测视频帧对应的区域分割特征间的相似度，对该待预测视频帧对应的区域分割特征进行调整，得到调整后的区域分割特征；电子设备再将该调整后的区域分割特征输入至预训练的解码网络，通过该预训练的解码网络对调整后的区域分割特征进行解码，得到用于表征该目标对象在待预测视频帧中所对应的分割区域的掩膜图像mask，从而实现预测目标对象在待预测视频帧中所对应的分割区域。

上述视频对象分割方法中，通过获取待预测视频帧，并提取出待预测视频帧对应的多尺度图像特征；再通过对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像，该第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，目标视频帧与待预测视频帧均归属于同一视频；并融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；再通过根据融合图像特征，生成第一掩膜图像对应的区域分割特征，以及，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征；再根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域；如此，通过对第一掩膜图像进行多尺度地逆亚像素变换，可以实现在不丢失图像信息的情况下得到分辨率尺度与待预测视频帧对应的多尺度图像特征相匹配的多个目标掩膜图像，并通过将多个目标掩膜图像与待预测视频帧对应的多尺度图像特征进行融合，实现有效地挖掘和整合掩膜图像中的位置关联信息来对待预测视频帧中的目标对象进行准确地分割，从而有效地避免相关技术需要对掩膜图像进行多次卷积操作而出现信息丢失的情况，有效地实现准确地对视频帧中的目标对象进行分割，提高对视频物体分割效果。

在一示例性实施例中，提取出待预测视频帧对应的多尺度图像特征，包括：对待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为多尺度图像特征。

其中，第1个视频图像特征为对待预测视频帧进行特征提取处理得到的结果；第N个视频图像特征为对第N-1个视频图像特征进行特征提取处理得到的结果；N大于或等于2。

具体实现中，电子设备在提取出待预测视频帧对应的多尺度图像特征的过程中，电子设备可以对待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征；具体来说，电子设备可以对待预测视频帧进行特征提取处理得到具有第1个视频图像特征；电子设备对第1个视频图像特征进行特征提取处理得到第2个视频图像特征；以此类推，直至电子设备对第N-1个视频图像特征进行特征提取处理得到第N个视频图像特征；电子设备将第1个视频图像特征至第N个视频图像特征作为多尺度图像特征。其中，第N-1个视频图像特征的分辨率尺度大于第N个视频图像特征；且第N-1个视频图像特征的分辨率可以是第N个视频图像特征的分辨率的两倍。

举例来说，假设N等于4，电子设备可以将待预测视频帧输入至预训练的多尺度特征提取模型，该多尺度特征提取模型可以包括卷积层、第一残差网络层、第二残差网络层、第三残差网络层和第四残差网络层；电子设备可以将待预测视频帧输入至卷积层，得到待预测视频帧的1/2分辨率下的第一视频图像特征；电子设备可以将该第一视频图像特征输入至第一残差网络层，得到待预测视频帧的1/4分辨率下的第二视频图像特征；电子设备可以将第二视频图像特征输入至第二残差网络层，得到待预测视频帧的1/8分辨率下的第三视频图像特征；电子设备将第三视频图像特征输入至第三残差网络层，得到待预测视频帧的1/16分辨率下的第四视频图像特征；电子设备将上述第一视频图像特征、第二视频图像特征、第三视频图像特征和第四视频图像特征，作为该待预测视频帧对应的多尺度图像特征。

本实施例的技术方案，通过对待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，从而可以实现有效地提取出该待预测视频帧对应的在不同分辨率尺度下的多尺度图像特征。

在一示例性实施例中，在N个不同尺度的视频图像特征按照尺度降序排列的情况下，对第一掩膜图像进行至少一次逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像，包括：对第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将第一掩膜图像和N-1个变换后掩膜图像，作为N个目标掩膜图像。

其中，第1个目标掩膜图像为第一掩膜图像，第N个目标掩膜图像为第N-1个变换后掩膜图像。实际应用中，第N个目标掩膜图像对应的缩放倍数可以是第N-1个目标掩膜图像对应的缩放倍数的两倍。

具体实现中，在N个不同尺度的视频图像特征按照尺度降序排列的情况下，电子设备在对第一掩膜图像进行至少一次逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像的过程中，电子设备可以对对第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将第一掩膜图像和N-1个变换后掩膜图像，作为N个目标掩膜图像。

举例来说，假设电子设备对待预测视频帧进行4次不同尺度的特征提取处理，电子设备则可以对第一掩膜图像进行3次逆亚像素变换，得到3个不同尺度的变换后掩膜图像；具体来说，电子设备可以将第一掩膜图像进行第一缩放倍数R₁的逆亚像素变换，得到第一变换后掩膜图像；电子设备可以将第一掩膜图像进行第二缩放倍数R₂的逆亚像素变换，得到第二变换后掩膜图像；电子设备可以将第一掩膜图像进行第三缩放倍数R₃的逆亚像素变换，得到第三变换后掩膜图像。电子设备将第一掩膜图像、第一变换后掩膜图像、第二变换后掩膜图像和第三变换后掩膜图像作为目标掩膜图像。

本实施例的技术方案，在N个不同尺度的视频图像特征按照尺度降序排列的情况下，通过对第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将第一掩膜图像和N-1个变换后掩膜图像，作为N个目标掩膜图像，使得目标掩膜图像的数量与多尺度图像特征的数量相匹配。

在一示例性实施例中，融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：根据各目标掩膜图像对应的图像特征和N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为融合图像特征。

其中，第1个特征融合结果为将第1个目标掩膜图像对应的图像特征与第1个视频图像特征进行融合操作得到的结果；第N个特征融合结果为将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作得到的结果。

具体实现中，电子设备在融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征的过程中，电子设备可以根据各目标掩膜图像对应的图像特征和N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为融合图像特征。

具体来说，电子设备可以将第1个目标掩膜图像对应的图像特征与第1个视频图像特征进行融合操作，得到第1个特征融合结果；电子设备可以将第1个特征融合结果、第2个目标掩膜图像对应的图像特征和第2个视频图像特征进行融合操作，得到第2个特征融合结果；以此类推，直至电子设备将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作，得到第N个特征融合结果。电子设备将该第N个特征融合结果作为融合图像特征。

本实施例的技术方案，通过根据各目标掩膜图像对应的图像特征和N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，可以实现将不同尺度下的视频图像特征与不同尺度下的目标掩膜图像进行融合，使视频对象预测过程充分挖掘出掩膜中的位置关联信息，如，语义、形状等信息，实现准确地对待预测视频帧中的目标对象进行分割，提高对视频物体分割效果。

在一示例性实施例中，融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：对第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定图像卷积结果对应的激活结果，作为第1个目标掩膜图像对应的图像特征；将第1个目标掩膜图像对应的图像特征和第1个视频图像特征进行融合操作，得到第1个特征融合结果。

其中，第1个目标掩膜图像对应的图像特征对应于第一分辨率；第一分辨率为第1个视频图像特征对应的分辨率。

具体实现中，电子设备在融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征的过程中，电子设备可以对第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定图像卷积结果对应的激活结果，作为第1个目标掩膜图像对应的图像特征；将第1个目标掩膜图像对应的图像特征和第1个视频图像特征进行融合操作，得到第1个特征融合结果。

接上例，电子设备可以将第一掩码图像输入至卷积神经网络，该卷积神经网络的参数为卷积核为7×7，步长stride＝2；电子设备通过该卷积神经网络对第一掩码图像进行卷积操作，得到该第一掩码图像的1/2分辨率下的图像卷积结果，并通过预设的激活函数PReLU确定图像卷积结果对应的激活结果，作为第1个目标掩膜图像对应的图像特征；电子设备将该第1个目标掩膜图像对应的图像特征和第一视频图像特征进行融合操作，得到第1个特征融合结果。

本实施例的技术方案，可以实现将不同尺度下的视频图像特征与不同尺度下的目标掩膜图像进行融合，使视频对象预测过程充分挖掘出掩膜中的位置关联信息，实现准确地对待预测视频帧中的目标对象进行分割，提高对视频物体分割效果。

在一示例性实施例中，融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：对第N-1个特征融合结果进行卷积操作，得到特征融合结果的卷积结果，并通过预设的激活函数确定特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；提取出第N个目标掩膜图像对应的图像特征；第N个目标掩膜图像对应的图像特征对应于第二分辨率；将第N-1个融合特征、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作，得到第N个特征融合结果。

其中，第N-1个融合特征对应于第二分辨率；第二分辨率为第N个视频图像特征对应的分辨率。

具体实现中，电子设备融合各目标掩膜图像对应的图像特征与多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征的过程中，电子设备可以对第N-1个特征融合结果进行卷积操作，得到特征融合结果的卷积结果，并通过预设的激活函数确定特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；电子设备可以将第N-1个融合特征、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作，得到第N个特征融合结果。

再接上例，电子设备获取到第1个特征融合结果后，电子设备可以将第1个特征融合结果输入至卷积神经网络，该卷积神经网络的参数为卷积核为3×3，步长stride＝2；电子设备通过该卷积神经网络对第1个特征融合结果进行卷积操作，得到在该第一掩码图像的1/4分辨率下的特征融合结果的卷积结果，并通过预设的激活函数PReLU确定特征融合结果的卷积结果对应的激活结果，作为第1个融合特征；电子设备将该第1个融合特征、第2个目标掩膜图像对应的图像特征和第2个视频图像特征进行融合操作，得到第2个特征融合结果。

本实施例的技术方案，通过将多个目标掩膜图像与待预测视频帧对应的多尺度图像特征进行融合，实现有效地挖掘和整合掩膜图像中的位置关联信息来对待预测视频帧中的目标对象进行准确地分割，从而有效地避免相关技术需要对掩膜图像进行多次卷积操作而出现信息丢失的情况，有效地实现准确地对视频帧中的目标对象进行分割，提高对视频物体分割效果。

在一示例性实施例中，根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域，包括：根据第一掩膜图像对应的掩膜寻址信息与待预测视频帧对应的掩膜寻址信息间的相似度，调整第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；对调整后的掩膜生成信息和待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像。

其中，第二掩膜图像用于表征目标对象在待预测视频帧中所对应的分割区域。

其中，区域分割特征为键值对特征，键值对特征包括掩膜寻址信息和掩膜生成信息。实际应用中，掩膜寻址信息也可以命名为键信息Key,掩膜生成信息也可以命名为值信息Value。

具体实现中，电子设备在根据第一掩膜图像对应的区域分割特征和待预测视频帧对应的区域分割特征，预测目标对象在待预测视频帧中所对应的分割区域的过程中，电子设备可以根据第一掩膜图像对应的掩膜寻址信息与待预测视频帧对应的掩膜寻址信息间的相似度，调整第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；电子设备可以对调整后的掩膜生成信息和待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像。

具体来说，电子设备可以将第一掩膜图像对应的键信息Key与待预测视频帧对应的键信息Key进行内积运算以计算相似度，得到表征这两个键信息Key之间相似度的相似度图；从而可以实现了相当于一种时空的注意力机制，为不同时间和区域的value分配权重。

电子设备再将该相似度图与该第一掩膜图像对应的值信息Value相乘，得到调整后的掩膜生成信息(即Space-time Memory Read(时空记忆读取)结果)；电子设备对该时空记忆读取结果与待预测视频帧对应的值信息Value进行拼接，并将得到的融合信息送入预训练的解码器；电子设备可以采用预训练的解码器对该时空记忆读取结果进行解码操作，从而还原出用于表征目标对象在待预测视频帧中所对应的分割区域的第二掩膜图像，进而实现准确地预测出目标对象在待预测视频帧中所对应的分割区域。

在一示例性实施例中，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征，包括：对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为待预测视频帧对应的掩膜寻址信息；对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为待预测视频帧对应的掩膜生成信息。

其中，第一通道数小于第二通道数。

具体实现中，电子设备在根据多尺度图像特征，生成待预测视频帧对应的区域分割特征的过程中，电子设备可以将对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为待预测视频帧对应的掩膜寻址信息；电子设备可以对对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为待预测视频帧对应的掩膜生成信息。

再接上例，电子设备将第三视频图像特征输入至第四残差网络层，得到待预测视频帧的1/16分辨率下的第四视频图像特征后，电子设备可以利用3×3的卷积核对第四视频图像特征进行卷积操作，得到通道数为128的卷积特征，作为待预测视频帧的1/16分辨率下的掩膜寻址信息Key；电子设备再利用3×3的卷积核对第四视频图像特征进行卷积操作，得到通道数为512的卷积特征，作为待预测视频帧的1/16分辨率下的掩膜生成信息Value。

本实施例的技术方案，通过对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为待预测视频帧对应的掩膜寻址信息，并对多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为待预测视频帧对应的掩膜生成信息；可以实现有效地从多尺度图像特征提炼出该待预测视频帧对应的区域分割特征，便于电子设备后续进行视频对象分割。

在一示例性实施例中，根据融合图像特征，生成第一掩膜图像对应的区域分割特征，包括：对融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定卷积操作结果对应的卷积特征激活结果；对卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为第一掩膜图像对应的掩膜寻址信息；对卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为第一掩膜图像对应的掩膜生成信息。

其中，第三通道数小于第四通道数。

具体实现中，电子设备在根据融合图像特征，生成第一掩膜图像对应的区域分割特征的过程中，可以对融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定卷积操作结果对应的卷积特征激活结果；对卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为第一掩膜图像对应的掩膜寻址信息；电子设备对卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为第一掩膜图像对应的掩膜生成信息。

举例来说，电子设备可以将融合图像特征输入至卷积神经网络，该卷积神经网络的参数为卷积核为3×3，步长stride＝2；电子设备通过该卷积神经网络对融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数PReLU确定卷积操作结果对应的卷积特征激活结果；电子设备再利用3×3的卷积核对卷积特征激活结果进行卷积操作，得到通道数为128的卷积特征，作为第一掩膜图像的1/16分辨率下的掩膜寻址信息Key；电子设备再利用3×3的卷积核对卷积特征激活结果进行卷积操作，得到通道数为512的卷积特征，作为第一掩膜图像的1/16分辨率下的掩膜生成信息Value。

本实施例的技术方案，通过对融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定卷积操作结果对应的卷积特征激活结果；对卷积特征激活结果进行卷积操作，有效地基于该融合图像特征提炼出第一掩膜图像对应的区域分割特征。

图4是根据一示例性实施例示出的另一种视频对象分割方法的流程图，如图4所示，该方法用于电子设备中，包括以下步骤。

在步骤S402中，获取待预测视频帧，并对待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为多尺度图像特征。

在步骤S404中，获取第一掩膜图像；第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，目标视频帧与待预测视频帧均归属于同一视频。

在步骤S406中，对第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将第一掩膜图像和N-1个变换后掩膜图像，作为N个目标掩膜图像。

在步骤S408中，根据各目标掩膜图像对应的图像特征和N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为融合图像特征。

在步骤S410中，根据融合图像特征，生成第一掩膜图像对应的区域分割特征。

在步骤S412中，根据多尺度图像特征，生成待预测视频帧对应的区域分割特征；区域分割特征为键值对特征，键值对特征包括掩膜寻址信息和掩膜生成信息。

在步骤S414中，根据第一掩膜图像对应的掩膜寻址信息与待预测视频帧对应的掩膜寻址信息间的相似度，调整第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息。

在步骤S416中，对调整后的掩膜生成信息和待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像；第二掩膜图像用于表征目标对象在待预测视频帧中所对应的分割区域。

需要说明的是，上述步骤的具体限定可以参见上文对一种视频对象分割方法的具体限定，在此不再赘述。

为了便于本领域技术人员的理解，图5实例性地提供了一种视频对象分割方法的模型框架图；如图5所示，视频对象分割模型包括记忆编码器(Memory Encoder,Enc_M)和查询编码器(Query Encoder,Enc_Q)；其中，该记忆编码器包括第一逆亚像素卷积模块、第二逆亚像素卷积模块、第三逆亚像素卷积模块、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第一卷积核和第二卷积核；查询编码器包括多尺度特征提取模型、第三卷积核和第四卷积核；其中，该多尺度特征提取模型包括卷积层、第一残差网络层、第二残差网络层和第三残差网络层。

其中，当需要确定出目标对象在待预测视频帧所处的图像区域时，电子设备获取待预测视频帧，以及确定与该待预测视频帧均归属于同一视频的目标视频帧，且该目标视频帧预先具有对应的掩膜图像即第一掩膜图像。

针对查询编码器，电子设备将该待预测视频帧输入至多尺度特征提取模型；其中，电子设备可以将待预测视频帧输入至卷积层，得到在待预测视频帧的1/2分辨率下的，且通道数为64的第一视频图像特征；电子设备可以将该第一视频图像特征输入至第一残差网络层，得到在待预测视频帧的1/4分辨率下的，且通道数为256的第二视频图像特征；电子设备可以将第二视频图像特征输入至第二残差网络层，得到在待预测视频帧的1/6分辨率下的，且通道数为512的第三视频图像特征；电子设备将第三视频图像特征输入至第四残差网络层，得到在待预测视频帧的1/16分辨率下的，且通道数为1024的第四视频图像特征；电子设备将第四视频图像特征输入至第三卷积核，通过第三卷积核利用3×3的卷积核对第四视频图像特征进行卷积操作，得到通道数为128的卷积特征，作为待预测视频帧的1/16分辨率下的掩膜寻址信息Key；电子设备再将第四视频图像特征输入至第四卷积核，通过第四卷积核利用3×3的卷积核对第四视频图像特征进行卷积操作，得到通道数为512的卷积特征，作为待预测视频帧的1/16分辨率下的掩膜生成信息Value。

针对记忆编码器，电子设备通过第一逆亚像素卷积模块将第一掩膜图像进行缩放倍数r＝4的逆亚像素变换，得到第一变换后掩膜图像；并通过第一逆亚像素卷积模块将第一变换后掩膜图像进行卷积操作、BN(batch normalization,批标准化)操作和激活操作，得到第一变换后掩膜图像对应的图像特征；通过第二逆亚像素卷积模块将第一掩膜图像进行缩放倍数r＝4的逆亚像素变换，得到第二变换后掩膜图像；并通过第二逆亚像素卷积模块将第二变换后掩膜图像进行卷积操作、BN(batch normalization)操作和激活操作，得到第二变换后掩膜图像对应的图像特征；通过第二逆亚像素卷积模块将第一掩膜图像进行缩放倍数r＝4的逆亚像素变换，得到第二变换后掩膜图像；并通过第二逆亚像素卷积模块将第二变换后掩膜图像进行卷积操作、BN(batch normalization)操作和激活操作，得到第二变换后掩膜图像对应的图像特征。

电子设备可以将第一掩码图像输入至第一卷积模块，该第一卷积模块的参数为卷积核为7×7，步长stride＝2；电子设备通过该第一卷积模块对第一掩码图像进行卷积操作，得到在第一掩码图像的1/2分辨率下且通道数为64的图像卷积结果，并通过预设的激活函数PReLU确定图像卷积结果对应的激活结果，作为第一掩码图像对应的图像特征；电子设备将该第一掩码图像对应的图像特征和第一视频图像特征进行融合操作，得到第一特征融合结果。

接着，电子设备将第一特征融合结果输入至第二卷积模块，该第二卷积模块的参数为卷积核为3×3，步长stride＝2；电子设备通过该第二卷积模块对第一特征融合结果进行卷积操作，得到在该第一掩码图像的1/4分辨率下，且通道数为256的卷积结果，并通过预设的激活函数如PReLU(Parametric Rectified Linear Unit，带参数的线性整流函数)，确定特征融合结果的卷积结果对应的激活结果，作为第一融合特征；电子设备将该第一融合特征、第一变换后掩膜图像对应的图像特征和第二视频图像特征进行融合操作，得到第二特征融合结果。

接着，电子设备将第二特征融合结果输入至第三卷积模块，该第三卷积模块的参数为卷积核为3×3，步长stride＝2；电子设备通过该第三卷积模块对第二特征融合结果进行卷积操作，得到在该第一掩码图像的1/8分辨率下，且通道数为512的卷积结果，并通过预设的激活函数PReLU确定特征融合结果的卷积结果对应的激活结果，作为第二融合特征；电子设备将该第二融合特征、第二变换后掩膜图像对应的图像特征和第三视频图像特征进行融合操作，得到第三特征融合结果。

接着，电子设备将第三特征融合结果输入至第四卷积模块，该第四卷积模块的参数为卷积核为3×3，步长stride＝2；电子设备通过该第四卷积模块对第三特征融合结果进行卷积操作，得到在该第一掩码图像的1/16分辨率下，且通道数为1024的卷积结果，并通过预设的激活函数PReLU确定该卷积结果对应的激活结果，作为第三融合特征；电子设备将该第三融合特征、第三变换后掩膜图像对应的图像特征和第四视频图像特征进行融合操作，得到第四特征融合结果。

再接着，电子设备将第四特征融合结果输入至第一卷积核，通过第一卷积核利用3×3的卷积核对第四特征融合结果进行卷积操作，得到通道数为128的卷积特征，作为第一掩码图像的1/16分辨率下的掩膜寻址信息Key；电子设备再将第四特征融合结果输入至第二卷积核，通过第二卷积核利用3×3的卷积核对第四特征融合结果进行卷积操作，得到通道数为512的卷积特征，作为第一掩码图像的1/16分辨率下的掩膜生成信息Value。

最后，电子设备利用第一掩码图像对应的掩膜寻址信息Key和掩膜生成信息Value，以及，待预测视频帧对应的掩膜寻址信息Key和掩膜生成信息Value，预测，预测目标对象在待预测视频帧中所对应的分割区域。

应该理解的是，虽然图1和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图6是根据一示例性实施例示出的一种视频对象分割装置框图。参照图6，该装置包括：

获取单元610，被配置为执行获取待预测视频帧，并提取出所述待预测视频帧对应的多尺度图像特征；

变换单元620，被配置为执行对第一掩膜图像进行逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像；所述第一掩膜图像用于表征目标对象在目标视频帧中所对应的分割区域，所述目标视频帧与所述待预测视频帧均归属于同一视频；

融合单元630，被配置为执行融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征；

生成单元640，被配置为执行根据所述融合图像特征，生成所述第一掩膜图像对应的区域分割特征，以及，根据所述多尺度图像特征，生成所述待预测视频帧对应的区域分割特征；

分割单元650，被配置为执行根据所述第一掩膜图像对应的区域分割特征和所述待预测视频帧对应的区域分割特征，预测所述目标对象在所述待预测视频帧中所对应的分割区域。

在一示例性实施例中，所述获取单元610，具体被配置为执行对所述待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为所述多尺度图像特征；其中，第1个视频图像特征为对所述待预测视频帧进行特征提取处理得到的结果；第N个视频图像特征为对第N-1个视频图像特征进行特征提取处理得到的结果；N大于或等于2。

在一示例性实施例中，在所述N个不同尺度的视频图像特征按照尺度降序排列的情况下，所述变换单元620，具体被配置为执行对所述第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将所述第一掩膜图像和所述N-1个变换后掩膜图像，作为N个所述目标掩膜图像；其中，第1个目标掩膜图像为所述第一掩膜图像，第N个目标掩膜图像为第N-1个所述变换后掩膜图像。

在一示例性实施例中，所述融合单元630，具体被配置为执行根据各所述目标掩膜图像对应的图像特征和所述N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为所述融合图像特征；其中，第1个特征融合结果为将所述第1个目标掩膜图像对应的图像特征与所述第1个视频图像特征进行融合操作得到的结果；第N个特征融合结果为将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作得到的结果。

在一示例性实施例中，所述融合单元630，具体被配置为执行对所述第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定所述图像卷积结果对应的激活结果，作为所述第1个目标掩膜图像对应的图像特征；所述第1个目标掩膜图像对应的图像特征对应于第一分辨率；所述第一分辨率为所述第1个视频图像特征对应的分辨率；将所述第1个目标掩膜图像对应的图像特征和所述第1个视频图像特征进行融合操作，得到所述第1个特征融合结果。

在一示例性实施例中，所述融合单元630，具体被配置为执行对所述第N-1个特征融合结果进行卷积操作，得到所述特征融合结果的卷积结果，并通过预设的激活函数确定所述特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；所述第N-1个融合特征对应于第二分辨率；所述第二分辨率为所述第N个视频图像特征对应的分辨率；提取出所述第N个目标掩膜图像对应的图像特征；所述第N个目标掩膜图像对应的图像特征对应于所述第二分辨率；将所述第N-1个融合特征、所述第N个目标掩膜图像对应的图像特征和所述第N个视频图像特征进行融合操作，得到所述第N个特征融合结果。

在一示例性实施例中，所述区域分割特征为键值对特征，所述键值对特征包括掩膜寻址信息和掩膜生成信息，所述分割单元650，具体被配置为执行根据所述第一掩膜图像对应的掩膜寻址信息与所述待预测视频帧对应的掩膜寻址信息间的相似度，调整所述第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；对所述调整后的掩膜生成信息和所述待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像；所述第二掩膜图像用于表征所述目标对象在待预测视频帧中所对应的分割区域。

在一示例性实施例中，所述生成单元640，具体被配置为执行对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为所述待预测视频帧对应的掩膜寻址信息；对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为所述待预测视频帧对应的掩膜生成信息；其中，所述第一通道数小于所述第二通道数。

在一示例性实施例中，所述生成单元640，具体被配置为执行对所述融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定所述卷积操作结果对应的卷积特征激活结果；对所述卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为所述第一掩膜图像对应的掩膜寻址信息；对所述卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为所述第一掩膜图像对应的掩膜生成信息；其中，所述第三通道数小于所述第四通道数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行上述视频对象分割方法的电子设备700的框图。例如，电子设备700可以为服务器。参照图7，电子设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述方法。

电子设备700还可以包括：电源组件724被配置为执行电子设备700的电源管理，有线或无线网络接口726被配置为将电子设备700连接到网络，和输入输出(I/O)接口728。电子设备700可以操作基于存储在存储器722的操作系统，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器722，上述指令可由电子设备700的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备700的处理器执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频对象分割方法，其特征在于，包括：

2.根据权利要求1所述的视频对象分割方法，其特征在于，所述提取出所述待预测视频帧对应的多尺度图像特征，包括：

对所述待预测视频帧进行N次特征提取处理，得到N个不同尺度的视频图像特征，作为所述多尺度图像特征；

其中，第1个视频图像特征为对所述待预测视频帧进行特征提取处理得到的结果；第N个视频图像特征为对第N-1个视频图像特征进行特征提取处理得到的结果；N大于或等于2。

3.根据权利要求2所述的视频对象分割方法，其特征在于，在所述N个不同尺度的视频图像特征按照尺度降序排列的情况下，所述对第一掩膜图像进行至少一次逆亚像素变换，获得至少两个不同尺度下的目标掩膜图像，包括：

对所述第一掩膜图像进行N-1次逆亚像素变换，得到N-1个不同尺度的变换后掩膜图像，并将所述第一掩膜图像和所述N-1个变换后掩膜图像，作为N个所述目标掩膜图像；

其中，第1个目标掩膜图像为所述第一掩膜图像，第N个目标掩膜图像为第N-1个所述变换后掩膜图像。

4.根据权利要求3所述的视频对象分割方法，其特征在于，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：

根据各所述目标掩膜图像对应的图像特征和所述N个不同尺度的视频图像特征，依次执行N次融合操作，得到N个特征融合结果，并将第N个特征融合结果作为所述融合图像特征；

其中，第1个特征融合结果为将所述第1个目标掩膜图像对应的图像特征与所述第1个视频图像特征进行融合操作得到的结果；第N个特征融合结果为将第N-1个特征融合结果、第N个目标掩膜图像对应的图像特征和第N个视频图像特征进行融合操作得到的结果。

5.根据权利要求4所述的视频对象分割方法，其特征在于，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：

对所述第1个目标掩膜图像进行卷积操作，得到图像卷积结果，并通过预设的激活函数确定所述图像卷积结果对应的激活结果，作为所述第1个目标掩膜图像对应的图像特征；所述第1个目标掩膜图像对应的图像特征对应于第一分辨率；所述第一分辨率为所述第1个视频图像特征对应的分辨率；

将所述第1个目标掩膜图像对应的图像特征和所述第1个视频图像特征进行融合操作，得到所述第1个特征融合结果。

6.根据权利要求4所述的视频对象分割方法，其特征在于，所述融合各所述目标掩膜图像对应的图像特征与所述多尺度图像特征中至少两个不同尺度下的视频图像特征，得到融合图像特征，包括：

对所述第N-1个特征融合结果进行卷积操作，得到所述特征融合结果的卷积结果，并通过预设的激活函数确定所述特征融合结果的卷积结果对应的激活结果，作为第N-1个融合特征；所述第N-1个融合特征对应于第二分辨率；所述第二分辨率为所述第N个视频图像特征对应的分辨率；

提取出所述第N个目标掩膜图像对应的图像特征；所述第N个目标掩膜图像对应的图像特征对应于所述第二分辨率；

将所述第N-1个融合特征、所述第N个目标掩膜图像对应的图像特征和所述第N个视频图像特征进行融合操作，得到所述第N个特征融合结果。

7.根据权利要求1所述的视频对象分割方法，其特征在于，所述区域分割特征为键值对特征，所述键值对特征包括掩膜寻址信息和掩膜生成信息，所述根据所述第一掩膜图像对应的区域分割特征和所述待预测视频帧对应的区域分割特征，预测所述目标对象在所述待预测视频帧中所对应的分割区域，包括：

根据所述第一掩膜图像对应的掩膜寻址信息与所述待预测视频帧对应的掩膜寻址信息间的相似度，调整所述第一掩膜图像对应的掩膜生成信息，得到调整后的掩膜生成信息；

对所述调整后的掩膜生成信息和所述待预测视频帧对应的掩膜生成信息间的融合信息进行解码操作，得到第二掩膜图像；所述第二掩膜图像用于表征所述目标对象在待预测视频帧中所对应的分割区域。

8.根据权利要求7所述的视频对象分割方法，其特征在于，所述根据所述多尺度图像特征，生成所述待预测视频帧对应的区域分割特征，包括：

对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第一通道数的卷积特征，作为所述待预测视频帧对应的掩膜寻址信息；

对所述多尺度图像特征中最小尺度下的视频图像特征进行卷积操作，得到具有第二通道数的卷积特征，作为所述待预测视频帧对应的掩膜生成信息；

其中，所述第一通道数小于所述第二通道数。

9.根据权利要求7所述的视频对象分割方法，其特征在于，所述根据所述融合图像特征，生成所述第一掩膜图像对应的区域分割特征，包括：

对所述融合图像特征进行卷积操作，得到卷积操作结果，并通过预设的激活函数确定所述卷积操作结果对应的卷积特征激活结果；

对所述卷积特征激活结果进行卷积操作，得到具有第三通道数的卷积特征，作为所述第一掩膜图像对应的掩膜寻址信息；

对所述卷积特征激活结果进行卷积操作，得到具有第四通道数的卷积特征，作为所述第一掩膜图像对应的掩膜生成信息；

其中，所述第三通道数小于所述第四通道数。

10.一种视频对象分割装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的视频对象分割方法。

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的视频对象分割方法。