CN116630355B

CN116630355B - 一种视频分割方法、电子设备、存储介质及程序产品

Info

Publication number: CN116630355B
Application number: CN202310906170.5A
Authority: CN
Inventors: 田宇桐; 任海涛; 李英俊; 张兰兰; 冯向鹤
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-11-07
Anticipated expiration: 2043-07-24
Also published as: CN116630355A

Abstract

本申请实施例提供了一种视频分割方法、电子设备、存储介质及程序产品，涉及视频处理技术领域，上述方法包括：对视频中目标视频帧进行信息压缩，得到第一特征；基于所述第一特征进行特征重建，对重建后的第一特征和所述视频的隐藏状态信息进行融合并更新所述隐藏状态信息，得到融合结果；基于所述融合结果获得所述目标视频帧中对象的目标掩膜图像；根据所述目标掩膜图像，对所述目标视频帧进行区域分割，得到分割结果。应用本申请实施例提供的视频分割方案，能够提高视频分割的准确性。

Description

一种视频分割方法、电子设备、存储介质及程序产品

技术领域

本申请涉及视频处理技术领域，尤其地涉及一种视频分割方法、电子设备、存储介质及程序产品。

背景技术

视频分割是计算机视觉领域中一个重要的研究方向，其主要是从视频帧中提取出人、车辆等对象的轮廓，并基于上述轮廓将对象所在区域与背景所在区域分离。

相关技术中进行视频分割时，一般基于背景差分方式或者传统图像分割方式进行视频分割。然而这些方式主要适用于静态图像，对视频进行分割时分割的准确度较低。

发明内容

有鉴于此，本申请提供一种视频分割方法、电子设备、存储介质及程序产品，以提高视频分割的准确性。

第一方面，本申请实施例提供了一种视频分割方法，所述方法包括：

对视频中目标视频帧进行信息压缩，得到第一特征；

基于所述第一特征进行特征重建，对重建后的第一特征和所述视频的隐藏状态信息进行融合并更新所述隐藏状态信息，得到融合结果，其中，所述隐藏状态信息表征：在所述目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征；

基于所述融合结果获得所述目标视频帧中对象的目标掩膜图像；

根据所述目标掩膜图像，对所述目标视频帧进行区域分割，得到分割结果。

本实施例提供的方案中，在对目标视频帧的第一特征进行特征重建后，对重建后的第一特征和视频的隐藏状态信息进行融合，得到融合结果，再基于融合结果获得目标视频帧中对象的目标掩膜图像。由于隐藏状态信息表征目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征，第一特征对目标视频帧的图像信息具有表征性，因此，上述融合信息不仅融合进了目标视频帧的图像信息，也融合进了在目标视频帧之前进行分割的视频帧中对象的信息，又由于视频中视频帧之间往往具有时域相关性，这样基于融合结果获得目标掩膜图像时，在目标视频帧的基础上考虑了具有时域相关性的视频帧中对象的信息，进而能够提高所获得目标掩膜图像的准确度，在此基础上根据目标掩膜图像，能够准确对目标视频帧进行区域分割。可见，应用本申请实施例提供的视频分割方案，能够提高视频分割的准确性。

另外，在获得目标掩膜图像时考虑了目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征，也就是考虑了这些视频帧中对象的图像信息，而并非仅考虑目标视频帧自身的图像信息，这样能够提高视频内各视频帧的掩膜图像中对象区域变化的帧间平滑性，从而能够提高各视频帧对应的分割结果中对象区域变化的帧间平滑性。

本申请的一个实施例中，所述隐藏状态信息包括：多个子隐藏状态信息，每一子隐藏状态信息表征一种尺度的掩膜图像的融合特征；

所述基于所述第一特征进行特征重建，对重建后的第一特征和所述视频的隐藏状态信息进行融合并更新所述隐藏状态信息，得到融合结果，包括：

按照以下方式进行预设数量次信息融合，将最后一次进行信息融合得到的特征确定为融合结果：

基于目标特征进行特征重建，得到尺度增大的第二特征，其中，第一次进行信息融合时所述目标特征为所述第一特征，其他次进行信息融合时所述目标特征为上一次信息融合得到的特征；

对所述第二特征和所述隐藏状态信息包括的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到第三特征，其中，所述目标子隐藏状态信息表征的融合特征所对应掩膜图像的尺度与所述第二特征的尺度相同。

本实施例提供的方案中，在获得第一特征之后进行多次信息融合，每一次信息融合过程均包含特征重建、特征与子隐藏状态信息融合以及更新子隐藏状态信息这三种处理过程，这样相比于仅进行一次特征重建、一次特征与隐藏状态信息融合以及一次更新子隐藏状态信息，能够提高最终获得的融合结果的准确性，从而基于较为准确的融合结果获得目标掩膜图像，并根据目标掩膜图像对目标视频帧进行区域分割，能够提高对目标视频帧进行区域分割的准确性，从而提高视频分割的准确性。

本申请的一个实施例中，所述第一特征包括多个第一子特征；

所述对视频中目标视频帧进行信息压缩，得到第一特征，包括：

对视频中目标视频帧进行级联信息压缩，得到尺度依次减小的各第一子特征；

第一次进行信息融合时所述目标特征为尺度最小的第一子特征；

所述基于目标特征进行特征重建，得到尺度增大的第二特征，包括：

所述其它次进行信息融合时，基于目标特征和尺度与所述目标特征相同的第一子特征，进行特征重建，得到尺度增大的第二特征。

本实施例提供的方案中，对目标视频帧进行级联信息压缩，得到尺度依次减小的各第一子特征，在后续除第一次外的其他次信息融合过程中，可以基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建，这样能够提高特征重建的准确性，从而能够提高信息融合后最终获得的融合结果的准确性，进而能够提高视频分割的准确性。

本申请的一个实施例中，所述对所述第二特征和所述隐藏状态信息包括的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到第三特征，包括：

对所述第二特征进行切分，得到第二子特征和第三子特征；

对所述第二子特征和所述隐藏状态信息包括的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到融合所得的第四子特征；

拼接所述第四子特征和所述第三子特征，得到第三特征。

本实施例提供的方案中，将对第二特征进行切分，得到第二子特征和第三子特征，第二子特征和第三子特征的数据量均小于第二特征的数据量，这样将第二子特征和目标子隐藏状态信息进行融合，能够减小融合的计算量，提高融合效率，从而能够提高得到第三特征的效率，进而能够提高视频分割的效率，同时也节省了终端的计算资源，从而能够实现在终端中轻量化应用视频分割方案。

本申请的一个实施例中，所述预设数量为：4、5或6。

本实施例提供的方案中，上述预设数量为4、5或6。这样既能提高视频分割的准确性，也能避免获得融合结果的计算量过大，从而保证以较高效率实现视频分割，同时也节省了终端的计算资源，因此，本申请实施例提供的方案能够适用于终端，对在终端上应用该方案友好，从而能够实现在终端中轻量化应用视频分割方案。

本申请的一个实施例中，所述对视频中目标视频帧进行信息压缩，得到第一特征，包括：

将视频中目标视频帧输入预先训练的视频分割模型中信息压缩网络，获得所述信息压缩网络输出的第一特征，其中，所述视频分割模型还包括多组掩膜特征生成网络和结果输出网络，每组掩膜特征生成网络与一种掩膜图像的尺度相对应，包括特征重构子网络以及特征融合子网络；

将目标特征输入目标掩膜特征生成网络中特征重构子网络，得到所述特征重构子网络输出的尺度增大的第二特征，其中，所述目标掩膜特征生成网络对应的掩膜图像的尺度与所述第二特征的尺度相同；

所述对所述第二特征和所述隐藏状态信息包括的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到第三特征，包括：

将所述第二特征输入所述目标掩膜特征生成网络中特征融合子网络，以使得所述特征融合子网络对所述第二特征和自身提供的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到所述特征融合子网络输出的第三特征；

所述基于所述融合结果获得所述目标视频帧中对象的目标掩膜图像，包括：

将所述融合结果输入所述结果输出网络，获得所述结果输出网络输出的所述目标视频帧中对象的目标掩膜图像。

本实施例提供的方案中，利用视频分割模型中包含的各个网络、子网络进行视频分割，由于视频分割模型为预先训练的视频分割模型，因此，利用该视频分割模型，能够提高视频分割的准确性，并且，该视频分割模型无需与其他设备进行任何交互，因此，可以将该视频分割模型部署于离线设备中，这样能够提高视频分割的便捷性。

本申请的一个实施例中，所述特征融合子网络为：门控循环单元GRU或长短时记忆LSTM单元。

本实施例提供的方案中，GRU和LSTM单元这两种单元均具有信息记忆功能，将这两种单元中任一种作为特征融合子网络，该单元自身能够存储有表征已进行分割的视频帧中对象的掩膜图像的融合特征的隐藏状态信息，从而能够准确对第二特征和自身提供的的目标子隐藏状态信息进行融合，提高第三特征的准确性，从而提高视频分割的准确性。

本申请的一个实施例中，所述特征重构子网络基于QARepVGG网络结构实现。

本实施例提供的方案中，由于QARepVGG网络的量化计算精度较高，因此，基于QARepVGG网络结构实现上述特征重构子网络，能够提高特征重构子网络的量化计算能力，从而提高特征重构子网络基于目标特征进行特征重建的准确性，进而能够提高视频分割的准确性。

本申请的一个实施例中，特定掩膜特征生成网络中的特征重构子网络基于QARepVGG网络结构实现，其中，所述特定掩膜特征生成网络为：所对应掩膜图像的尺度小于预设尺度的掩膜特征生成网络。

本实施例提供的方案中，由于基于QARepVGG网络结构构建特定掩膜特征生成网络中U型残差块的计算量随着网络对应的掩膜图像的尺度增大而增大，因此，在构建各掩膜特征生成网络时，可以仅针对所对应掩膜图像的尺度小于预设尺度的特定掩膜特征生成网络，基于QARepVGG网络结构实现特定掩膜特征生成网络中的特征重构子网络，这样能够降低各掩膜特征生成网络的计算量，提高获得融合结果的效率，从而提高视频分割的效率，并且也能够在终端中轻量化部署上述视频分割模型。

本申请的一个实施例中，所述视频分割模型按照以下方式训练得到：

将样本视频中第一样本视频帧输入初始模型进行处理，获得所述初始模型输出的所述第一样本视频帧中对象的第一样本掩膜图像；

获得所述第一样本视频帧对应的标注掩膜图像与第二样本视频帧对应的标注掩膜图像之间的第一差异，其中，所述第二样本视频帧为：所述样本视频中在所述第一样本视频帧之前且间隔预设帧数的视频帧；

获得所述第一样本掩膜图像与第二样本掩膜图像之间的第二差异，其中，所述第二样本掩膜图像为：所述初始模型对所述第二样本视频帧进行处理输出的掩膜图像；

基于所述第一差异和第二差异计算训练损失；

基于所述训练损失，对所述初始模型进行模型参数调整，得到所述视频分割模型。

本实施例提供的方案中，由于第一样本视频帧与间隔预设帧数的第二样本视频帧之间往往具有时域相关性，这样获得第一样本视频帧对应的标注掩膜图像和第二样本视频帧对应的标注掩膜图像之间的第一差异，并获得第一样本掩膜图像与第二样本掩膜图像之间的第二差异，基于第一差异和第二差异计算训练损失，基于该训练损失对初始模型进行模型参数调整时，能够使得初始模型学习到视频的不同视频帧之间的时域相关性，从而能够提高训练所得模型的准确性，进而利用该模型进行视频分割，能够提高视频分割的准确性。

本申请的一个实施例中，所述第一样本掩膜图像包括：标识所述第一样本视频帧中对象所在区域的第一掩膜子图和标识所述第一样本视频帧中对象之外区域的第二掩膜子图；

所述第二样本掩膜图像包括：标识所述第二样本视频帧中对象所在区域的第三掩膜子图和标识所述第二样本视频帧中对象之外区域的第四掩膜子图；

所述获得所述第一样本掩膜图像与第二样本掩膜图像之间的第二差异，包括：

获得所述第一掩膜子图与第三掩膜子图间的差异，并获得所述第二掩膜子图和第四掩膜子图间的差异，得到包含所获得差异的第二差异。

本实施例提供的方案中，由于视频帧中的区域由对象所在区域和对象之外区域这两种区域构成，不同视频帧中对象所在区域的差异越大，不同视频帧中对象之外区域的差异也越大，可见，对象之外区域的差异也可以反映对象所在区域的差异，因此，根据第一掩膜子图与第三掩膜子图间的差异以及第二掩膜子图和第四掩膜子图间的差异这两种差异来获得第二差异，是从两个不同角度综合计算上述第二差异，这样能够提高第二差异的准确性，从而能够提高模型训练的准确性，进行能够提高利用模型进行视频分割的准确性。

对视频中目标视频帧进行卷积变换，得到第四特征；

基于卷积核对所述第四特征进行线性变换，得到第五特征；

对所述第五特征进行批量标准化处理，得到第六特征；

对所述第六特征进行非线性变换，得到第七特征；

基于卷积核对所述第七特征进行线性变换，得到所述目标视频帧的第一特征。

本实施例提供的方案中，在对目标视频帧进行信息压缩时，对目标视频帧进行卷积变换、线性变换、批量标准化处理、非线性变换等多种处理，这样能够实现对目标视频进行较为准确的信息压缩，从而能够提高第一特征的准确性，进而基于第一特征进行视频分割，能够提高视频分割的准确性。

另外，本申请实施例提供的方案中，先对第五特征进行批量标准化处理后再对处理所得第六特征进行非线性变换，这样能够防止信息压缩时损失特征的量化精度，从而提高信息压缩的量化精度，进一步提高第一特征的准确性以及视频分割的准确性。

本申请实施例提供的方案应用于终端，卷积变换、线性变换、批量标准化处理、非线性变换等处理对终端计算能力较为友好，因此，在终端中进行卷积变换、线性变换、批量标准化处理、非线性变换等处理，能够便于终端进行信息压缩，从而能够促进在终端侧轻量化实现视频分割。

本申请的一个实施例中，所述卷积核为：1x1的卷积核。

本实施例提供的方案中，由于1x1的卷积核自身数据量较小，这样基于1x1的卷积核对第四特征进行线性变换，在能够实现对第四特征进行线性变换的前提下，还能够减小线性变换的计算量，提高线性变换的计算效率，从而能够提高视频分割效率。并且，本实施例提供的视频分割方案应用于终端，在终端中基于1x1的卷积核对第四特征进行线性变换，无需占用终端较多计算资源，从而能够便于终端实现线性变换，促进在终端侧轻量化实现视频分割。

本申请的一个实施例中，所述对所述第六特征进行非线性变换，得到第七特征，包括：

基于RELU激活函数对所述第六特征进行非线性变换，得到第七特征。

本实施例提供的方案中，由于采用RELU激活函数处理数据的量化效果较好，因此，采用RELU激活函数对第六特征进行非线性变换，能够提高非线性变换的变换效果，从而提高第七特征的准确性。

第二方面，本申请实施例还提供了一种电子设备，包括：

一个或多个处理器和存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行上述第一方面任一项所述的方法。

第三方面，本申请实施例还提供了一种计算机可读存储介质，包括计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行上述第一方面任一项所述的方法。

第四方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包含可执行指令，当所述可执行指令在计算机上执行时，使得计算机执行上述第一方面任一项所述的方法。

第五方面，本申请实施例还提供了一种芯片系统，所述芯片系统应用于终端，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述终端将数据输入芯片系统，并执行上述第一方面任一项所述的方法对数据进行处理后输出处理结果。

上述第二方面、第三方面、第四方面以及第五方面中各实施例所提供方案的有益效果可参见上述第一方面中各实施例所提供方案的有益效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种终端的结构示意图；

图2为本申请实施例提供的一种终端的软件结构框图；

图3为本申请实施例提供的一种终端界面示意图；

图4为本申请实施例提供的第一种视频分割方法的流程示意图；

图5为本申请实施例提供的第一种图像变化示意图；

图6为本申请实施例提供的第二种视频分割方法的流程示意图；

图7为本申请实施例提供的第一种信息融合方法的流程示意图；

图8为本申请实施例提供的第二种信息融合方法的流程示意图；

图9为本申请实施例提供的一种特征融合方法的流程示意图；

图10为本申请实施例提供的第一种视频分割模型的结构示意图；

图11为本申请实施例提供的第三种视频分割方法的流程示意图；

图12为本申请实施例提供的第一种信息压缩网络的结构示意图；

图13为本申请实施例提供的第二种视频分割模型的结构示意图；

图14为本申请实施例提供的第三种视频分割模型的结构示意图；

图15为本申请实施例提供的第一种模型训练方法的流程示意图；

图16为本申请实施例提供的第二种图像变化示意图；

图17为本申请实施例提供的第二种模型训练方法的流程示意图；

图18为本申请实施例提供的第一种掩膜图像；

图19a为本申请实施例提供的第二种掩膜图像；

图19b为本申请实施例提供的第三种掩膜图像；

图20为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一指令和第二指令是为了区分不同的用户指令，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例可应用于手机、平板电脑、个人计算机（Personal Computer，PC）、个人数字助理（Personal Digital Assistant，PDA）、智能手表、上网本、可穿戴电子设备、增强现实技术（Augmented Reality，AR）设备、虚拟现实（Virtual Reality，VR）设备、车载设备、智能汽车、机器人、智能眼镜、智能电视等具有通信功能的终端中。

示例性的，图1示出了终端100的结构示意图。终端100可以包括处理器110，显示屏120，摄像头130，内部存储器140，SIM（Subscriber Identification Module，用户标识模块）卡接口150，USB（Universal Serial Bus，通用串行总线）接口160，充电管理模块170，电源管理模块171，电池172，传感器模块180，移动通信模块190，无线通信模块200，天线1以及天线2等。其中传感器模块180可以包括压力传感器180A，指纹传感器180B，触摸传感器180C，环境光传感器180D等。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括中央处理器（Central Processing Unit，CPU）、应用处理器（Application Processor，AP），调制解调处理器，图形处理器（graphics processing unit，GPU），图像信号处理器（Image SignalProcessor，ISP），控制器，视频编解码器，数字信号处理器（Digital Signal Processor，DSP），基带处理器，和/或神经网络处理器（Neural-network Processing Unit，NPU）等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，终端100也可以包括一个或多个处理器110。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。在其他一些实施例中，处理器110中还可以设置存储器，用于存储指令和数据。示例性地，处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。这样就避免了重复存取，减少了处理器110的等待时间，因而提高了终端100处理数据或执行指令的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路间（Inter-Integrated Circuit，I2C）接口、集成电路间音频（Inter-Integrated CircuitSound，I2S）接口、脉冲编码调制（Pulse Code Modulation，PCM）接口、通用异步收发传输器（Universal Asynchronous Receiver/Transmitter，UART）接口、移动产业处理器接口（Mobile Industry Processor Interface，MIPI）、用输入输出（General-Purpose Input/Output，GPIO）接口、SIM卡接口和/或USB接口等。其中，USB接口160是符合USB标准规范的接口，具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口160可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。该USB接口160也可以用于连接耳机，通过耳机播放音频。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，用于示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

终端100的无线通信功能可以通过天线1、天线2、移动通信模块190、无线通信模块200、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

终端100通过GPU，显示屏120，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏120和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏120用于显示图像、视频等。显示屏120包括显示面板。显示面板可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-EmittingDiode，OLED）、有源矩阵有机发光二极体或主动矩阵有机发光二极体（Active-MatrixOrganic Light Emitting Diode，AMOLED）、柔性发光二极管（Flex Light-EmittingDiode，FLED）、Miniled、MicroLed、Micro-oLed、量子点发光二极管（Quantum Dot LightEmitting Diodes，QLED）等。在一些实施例中，终端100可以包括1个或多个显示屏120。

在本申请的一些实施例中，当显示面板采用OLED、AMOLED、FLED等材料时，上述图1中的显示屏120可以被弯折。这里，上述显示屏120可以被弯折是指显示屏可以在任意部位被弯折到任意角度，并可以在该角度保持，例如，显示屏120可以从中部左右对折。也可以从中部上下对折。

终端100的显示屏120可以是一种柔性屏，目前，柔性屏以其独特的特性和巨大的潜力而备受关注。柔性屏相对于传统屏幕而言，具有柔韧性强和可弯曲的特点，可以给用户提供基于可弯折特性的新交互方式，可以满足用户对于终端的更多需求。对于配置有可折叠显示屏的终端而言，终端上的可折叠显示屏可以随时在折叠形态下的小屏和展开形态下大屏之间切换。因此，用户在配置有可折叠显示屏的终端上使用分屏功能，也越来越频繁。

终端100可以通过ISP、摄像头130、视频编解码器、GPU、显示屏120以及应用处理器等实现拍摄功能，其中，摄像头130包括前置摄像头和后置摄像头。

ISP用于处理摄像头130反馈的数据。例如，拍摄时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头130中。

摄像头130用于拍摄照片或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（Charge Coupled Cevice，CCD）或互补金属氧化物半导体（Complementary Metal-Oxide-Semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝（Red Green Blue，RGB），YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头130，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组（Moving Picture Experts Group，MPEG）1、MPEG2、MPEG3和MPEG4。

NPU为神经网络（Neural-Network，NN）计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别、人脸识别、语音识别、文本理解等。

内部存储器140可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器140的上述指令，从而使得终端100执行本申请一些实施例中所提供的视频分割方法，以及各种应用以及数据处理等。内部存储器140可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用（比如图库、联系人等）等。存储数据区可存储终端100使用过程中所创建的数据（比如照片，联系人等）等。此外，内部存储器140可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器（Universal Flash Storage，UFS）等。在一些实施例中，处理器110可以通过运行存储在内部存储器140的指令，和/或存储在设置于处理器110中的存储器的指令，来使得终端100执行本申请实施例中所提供的视频分割方法，以及其他应用及数据处理。

内部存储器140可以用于存储本申请实施例中提供的视频分割方法的相关程序，处理器110可以用于在展示信息时调用内部存储器140中存储的视频分割方法的相关程序，执行本申请实施例的视频分割方法。

传感器模块180可以包括压力传感器180A、指纹传感器180B、触摸传感器180C、环境光传感器180D等。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏120。压力传感器180A的种类很多，例如可以是电阻式压力传感器、电感式压力传感器或电容式压力传感器。电容式压力传感器可以是包括至少两个具有导电材料的平行板，当力作用于压力传感器180A，电极之间的电容改变，终端100根据电容的变化确定压力的强度。当触摸操作作用于显示屏120时，终端100根据压力传感器180A检测触摸操作。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令；当触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

指纹传感器180B用于采集指纹。终端100可以利用采集的指纹特性实现解锁、访问应用锁、拍摄和接听来电等功能。

触摸传感器180C，也称为触控器件。触摸传感器180C可以设置于显示屏120，由触摸传感器180C与显示屏120组成触摸屏，触摸屏也称为触控屏。触摸传感器180C用于检测作用于其上或其附近的触摸操作。触摸传感器180C可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏120提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180C也可以设置于终端100的表面，并且与显示屏120设置于不同的位置。

环境光传感器180D用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏120亮度。环境光传感器180D也可用于拍摄时自动调节白平衡。环境光传感器180D还可以将设备所处的环境信息传入GPU。

环境光传感器180D还用于获取摄像头130采集图像的采集环境的亮度、光比、色温等。

图2为本申请实施例适用的终端的一种软件结构框图。终端的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。

分层架构将终端的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，可以将软件系统分为五层，分别为应用程序层（applications）、应用程序框架层（application framework）、系统库、硬件抽象层（Hardware Abstract Layer，HAL）以及内核层（kernel）。

应用程序层可以包括一系列应用程序包，应用程序层通过调用应用程序框架层所提供的应用程序接口（Application Programming Interface，API）运行应用程序。如图2所示，应用程序包可以包括浏览器、图库、音乐以及视频等应用程序。可以理解地，上述的每个应用程序的端口均可以用于接收数据。

应用程序框架层为应用程序层的应用程序提供API和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示，应用程序框架层可以包括窗口管理器、内容提供器、视图系统、资源管理器、通知管理器以及DHCP（Dynamic Host Configuration Protocol，动态主机配置协议）模块等。

系统库可以包括多个功能模块，如表面管理器、三维图形处理库、二维图形引擎以及文件库等。

硬件抽象层，可以包含多个库模块，库模块如可以为显示器库模块以及马达库模块等。终端系统可以为设备硬件加载相应的库模块，进而实现应用程序框架层访问设备硬件的目的。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动、音频驱动、传感器驱动以及马达驱动等，本申请实施例对此不做限制。可以理解地，显示驱动、音频驱动、传感器驱动以及马达驱动等均可以视为一个驱动节点。上述的每个驱动节点均包括可以用于接收数据的接口。

下面对本申请实施例提供的视频分割方案进行说明。

首先，对视频分割过程进行说明。

视频包含多帧视频帧，待进行分割的视频帧称为目标视频帧，这样来看，目标视频帧可以是视频中的任一需要进行分割的视频帧。视频分割是指，从视频的视频帧中分割出对象所在的区域。上述对象可以是人、动物、车辆、车道线等等。

在视频分割过程中，首先，确定第一个目标视频帧，该第一个目标视频帧可以是视频中第一帧视频帧或者其他帧视频帧，对所确定的目标视频帧进行分割，确定目标视频帧中对象所在的区域，进而得到目标视频帧的分割结果；然后，确定该目标视频帧的下一视频帧为新的目标视频帧，对新的目标视频帧进行分割；这样每次得到目标视频帧的分割结果后，确定下一视频帧为新的目标视频帧，直至得到视频最后一帧视频帧的分割结果，则对整个视频完成针对对象的分割。

接下来，对本申请实施例所提供视频分割方案的应用场景进行举例说明。

1、实时视频场景

本场景中，对待播放的视频进行视频分割，得到视频内各视频帧中对象所在的区域，这样在播放视频时，可以仅播放视频内各视频帧中对象所在区域的区域内容。

2、视频剪辑场景

本场景中，在对视频进行视频分割得到视频内各视频帧中对象所在的区域后，可以根据视频帧中对象所在区域的位置、画面内容等信息，对视频中视频帧进行替换背景、对象擦除、背景虚化、色彩保留等剪辑处理，从而得到新的视频。另外，在对视频中视频帧进行剪辑处理得到新的视频后，还可以基于新的视频实现其他应用，例如，视频创作、终端锁屏等应用。

例如，如图3所示，图3为一种终端的界面示意图，图3中终端所显示的视频帧进行背景虚化后的视频帧。

在将视频剪辑得到的新视频应用在终端锁屏的场景中，在对视频进行视频分割得到视频内各视频帧中对象所在区域、并根据视频帧中对象所在区域的信息对视频进行剪辑得到新的视频后，可以根据新的视频内各视频帧的画面内容，生成终端的动态锁屏壁纸，从而在终端处于锁屏状态的情况下，展示该动态锁屏壁纸。

3、视频监控场景

本场景中，监控设备采集到特定区域的视频后，可以通过对该视频进行视频分割，实现检测特定区域内的对象。

再接下来，下面通过具体实施例对本申请实施例提供的视频分割方案进行详细说明。

本申请的一个实施例中，参见图4，提供了第一种视频分割方法的流程示意图，本实施例中，上述方法包括以下步骤S401-S404。

步骤S401：对视频中目标视频帧进行信息压缩，得到第一特征。

其中，目标视频帧可以是视频所包含视频帧中的任一视频帧。

对目标视频帧进行信息压缩可以理解为：对目标视频帧进行特征提取，得到尺度小于目标视频帧的尺度的第一特征。对目标视频帧进行特征提取可以提取出图像中内容的边缘信息，这些边缘信息能够反映视频帧中对象所在的区域。

另外，对目标视频帧进行特征提取时，可以进行级联的多次特征提取，随着特征提取次数增加，所得特征的尺度越来越小。从尺度的角度上来讲，第一特征的尺度越大，所包含的细节边缘信息越多，细节边缘信息过多，在一些情况下不利于确定出视频帧中对象所在的区域；反之，第一特征的尺度越小，所包含的宏观边缘信息越多，这样越有利于确定出视频帧中对象所在的区域。

再者，上述第一特征的维度可以与目标视频帧的维度相同，也就是，目标视频帧为二维图像，这样其维度为2，那么第一特征也可以是2维数据，这种情况下，也可以认为第一特征为特征图。

本申请的一个实施例中，在对目标视频帧进行信息压缩时，可以基于编码方式实现，例如，基于编码网络实现。

本申请的另一个实施例中，可以通过对目标视频帧进行卷积变换的方式对目标视频帧进行信息压缩。在对目标视频帧进行卷积变换的过程中，可以对目标视频帧进行多次卷积变换，从而不断缩小卷积变换得到的特征的尺度。

另外，还可以结合卷积变换、线性变换、批量标准化处理、非线性变换等处理对目标视频帧进行信息压缩，具体可参见后续图6所示实施例中步骤S401A-S401E，这里暂不详述。

步骤S402：基于第一特征进行特征重建，对重建后的第一特征和视频的隐藏状态信息进行融合并更新隐藏状态信息，得到融合结果。

其中，隐藏状态信息表征：在目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征。

这里所提及的在目标视频帧之前进行分割的视频帧包括至少两帧视频帧，当然，也可以是在目标视频帧之前进行分割的所有视频帧。

在目标视频帧为视频中第一个视频帧的情况下，该目标视频帧没有在其之前进行分割的视频帧，这种情况下，上述隐藏状态信息可以为预设数据，例如，预设的全零数据。

具体的，上述隐藏状态信息可以以张量形式表示，也可以以矩阵的形式表示。

从针对步骤S401的描述可以看出，第一特征为相对于目标视频帧尺度变小的特征，且第一特征能够反映目标视频帧中对象所在的区域。为了后续能够顺利从目标视频帧中分割出对象所在的区域，需要对上述小尺度的第一特征进行特征映射，最终目的是映射至目标视频帧，进而得到目标视频帧中对象所在的区域。鉴于此，需要对上述第一特征进行上采样处理。

具体的，基于第一特征进行特征重建，进而重建出尺度增大的特征，然后对重建所得的特征和上述隐藏状态信息进行融合，得到融合结果。由于隐藏状态信息表征的是在目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征，也就是，隐藏状态信息能够表征目标视频帧之前的视频帧中对象所在的区域，这样对重建所得特征和隐藏状态信息进行融合之后，所得融合结果不仅能够反映目标视频帧中对象所在的区域，还能够结合之前的视频帧中对象所在的区域对目标视频帧中对象所在的区域进行调整，进而保证相邻视频帧之间对象所在区域的平滑性，或者说时间相关性。

因为隐藏状态信息还需在后续视频帧进行分割时使用，因此，需基于目标视频帧中对象的信息进行更新。具体的，可以基于上述第一特征对上述隐藏状态信息进行更新，也可以基于上述融合结果去隐藏状态信息进行更新。

具体的，在基于第一特征进行特征重建时，可以采用上采样算法对第一特征进行变换，得到重建后的第一特征；可以对上述第一特征进行反卷积变换，得到重建后的第一特征；可以基于解码网络对第一特征进行重建，得到重建后的第一特征，例如，上述解码网络可以是U-Net网络架构中的解码部分，也可以是U²-Net网络架构中的解码器部分。

可以通过以下两种实现方式中任一种对重建后的第一特征和上述隐藏状态信息进行融合。

第一种实现方式中，可以利用融合算法、网络等对重建后的第一特征和隐藏状态信息进行融合，得到融合结果。

例如，利用长短时记忆（Long Short-Term Memory，LSTM）网络、门控循环单元（Gated Recurrent Unit，GRU）等对重建后的第一特征和隐藏状态信息进行融合，得到融合结果。

第二种实现方式中，可以直接将重建后的第一特征和隐藏状态信息进行叠加、拼接或点乘等运算处理，得到处理结果，作为融合结果。

上述步骤S402的其他实现方式，可以参见后续实施例，这里暂不详述。

步骤S403：基于融合结果获得目标视频帧中对象的目标掩膜图像。

具体的，上述目标掩膜图像可以是二值图像，且其尺度与目标视频帧的尺度相同。

本申请的一种实现方式中，上述融合结果中可以包括目标视频帧中各个像素点属于对象的置信度，这种情况下，在获得上述融合结果之后，可以基于预设阈值，对融合结果进行二值化处理，得到目标掩膜图像。

其中，进行上述二值化处理时，可以将融合结果中大于预设阈值的数值设置为0，将不大于预设阈值的数值设置为1。当然，也可以将融合结果中小于预设阈值的数值设置为0，将不小于预设阈值的数值设置为1。本申请实施例并不对此进行限定。

步骤S404：根据目标掩膜图像，对目标视频帧进行区域分割，得到分割结果。

在目标掩膜图像为二值图像的情况下，目标掩膜图像中像素点的像素值表征该像素点是否为对象所在区域内的像素点。根据目标掩膜图像，可以确定目标视频帧中属于对象所在区域的像素点，从而将所确定区域从目标视频帧中分割出来，得到分割结果。

在目标掩膜图像中像素值为“1”的像素点表示对象所在区域内的像素点、像素值为“0”的像素点表示为不是对象所在区域内的像素点时，可以将目标视频帧与目标掩膜图像按照各像素点的位置进行对应相乘，得到相乘结果，作为分割结果，实现对目标视频帧进行区域分割。

另外，参见图5，示出了从目标视频帧到目标掩膜图像，再到分割结果的示意图。

由以上可见，本实施例提供的方案中，在对目标视频帧的第一特征进行特征重建后，对重建后的第一特征和视频的隐藏状态信息进行融合，得到融合结果，再基于融合结果获得目标视频帧中对象的目标掩膜图像。由于隐藏状态信息表征目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征，第一特征对目标视频帧的图像信息具有表征性，因此，上述融合信息不仅融合进了目标视频帧的图像信息，也融合进了在目标视频帧之前进行分割的视频帧中对象的信息，又由于视频中视频帧之间往往具有时域相关性，这样基于融合结果获得目标掩膜图像时，在目标视频帧的基础上考虑了具有时域相关性的视频帧中对象的信息，进而能够提高所获得目标掩膜图像的准确度，在此基础上根据目标掩膜图像，能够准确对目标视频帧进行区域分割。可见，应用本申请实施例提供的视频分割方案，能够提高视频分割的准确性。

下面对上述步骤S401中结合卷积变换、线性变换、批量标准化处理、非线性变换等处理对目标视频帧进行信息压缩的实现方式进行说明。

本申请的一个实施例中，参见图6，提供了第二种视频分割方法的流程示意图，本实施例中，上述步骤S401可以通过以下步骤S401A-S401E实现。

步骤S401A：对视频中目标视频帧进行卷积变换，得到第四特征。

具体的，可以利用预先设置的卷积核，对目标视频帧进行卷积计算，得到第四特征，也可以利用训练完成的卷积神经网络对目标视频帧进行卷积变换，得到模型输出的第四特征。

步骤S401B：基于卷积核对第四特征进行线性变换，得到第五特征。

其中，上述卷积核为预先设置的卷积核。

具体的，基于卷积核，可以以对第四特征进行卷积变换的方式实现对第四特征进行线性变换。由于终端中的网络处理器（Network Processing Unit，NPU）进行卷积变换的计算能力较强，因此，采用卷积变换的方式进行线性变换能够缩短线性变换的耗时，从而能够缩短视频分割的耗时，提高视频分割效率。

本申请的一个实施例中，上述卷积核为：1x1的卷积核。由于1x1的卷积核自身数据量较小，这样基于1x1的卷积核对第四特征进行线性变换，在能够实现对第四特征进行线性变换的前提下，还能够减小线性变换的计算量，提高线性变换的计算效率，从而能够提高视频分割效率。并且，本实施例提供的视频分割方案应用于终端，在终端中基于1x1的卷积核对第四特征进行线性变换，无需占用终端较多计算资源，从而能够便于终端实现线性变换，促进在终端侧轻量化实现视频分割。

步骤S401C：对第五特征进行批量标准化处理，得到第六特征。

具体的，可以利用批量标准化算法、模型等，对第五特征进行批量标准化处理，得到第六特征。

例如，可以利用BatchNorm2d算法，对第五特征进行批量标准化处理。

步骤S401D：对第六特征进行非线性变换，得到第七特征。

具体的，可以利用非线性变换函数、算法或激活函数等，对第六特征进行非线性变换，得到第七特征。

例如，可以利用GELU激活函数或RELU激活函数对第六特征进行非线性变换。在采用RELU激活函数对第六特征进行非线性变换的情况下，由于采用RELU激活函数处理数据的量化效果较好，因此，采用RELU激活函数对第六特征进行非线性变换，能够提高非线性变换的变换效果，从而提高第七特征的准确性。

步骤S401E：基于卷积核对第七特征进行线性变换，得到目标视频帧的第一特征。

本步骤中进行线性变换的实现方式与上述步骤S401B中进行线性变换的实现方式相同，这里不再赘述。

另外，在获得上述第一特征时，可以执行一次步骤S401A-S401E所示的处理流程，也可以执行多次步骤S401A-S401E所示的处理流程。例如，可以执行4次、5次或者其他数量次步骤S401A-S401E所示的处理流程。

在执行多次步骤S401A-S401E所示的处理流程的情况下，第一次处理流程的输入为视频中的目标视频帧，其他次处理流程的输入为上一次处理流程输出的特征，最后一次处理流程输出的特征即为上述第一特征，并且，这种情况下，随着上述处理流程的多次执行，每一次处理流程输出的特征的尺度不断变小。

由以上可见，本实施例提供的方案中，在对目标视频帧进行信息压缩时，对目标视频帧进行卷积变换、线性变换、批量标准化处理、非线性变换等多种处理，这样能够实现对目标视频进行较为准确的信息压缩，从而能够提高第一特征的准确性，进而基于第一特征进行视频分割，能够提高视频分割的准确性。

下面对上述步骤S402中基于第一特征进行特征重建，对重建后的第一特征和视频的隐藏状态信息进行融合并更新隐藏状态信息，得到融合结果的其他实现方式进行说明。

本申请的一个实施例中，上述隐藏状态信息包括：多个子隐藏状态信息，每一子隐藏状态信息表征一种尺度的掩膜图像的融合特征。多个子隐藏状态信息表征的可以是尺度依次增大的掩膜图像的融合特征，例如，上述隐藏状态信息可以包括三个子隐藏状态信息，这三个子隐藏状态信息表征的可以是尺度依次为24*24、28*28、32*32的掩膜图像的融合特征。

这种情况下，在进行特征重建、特征与隐藏状态信息融合、更新隐藏状态信息时，可以按照以下方式进行预设数量次信息融合，将最后一次进行信息融合得到的特征确定为融合结果：

基于目标特征进行特征重建，得到尺度增大的第二特征；对第二特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息，得到第三特征。

其中，第一次进行信息融合时目标特征为第一特征。

其他次进行信息融合时目标特征为上一次信息融合得到的特征，即上一次信息融合过程中得到的第三特征。

其中，目标子隐藏状态信息表征的融合特征所对应掩膜图像的尺度与第二特征的尺度相同。

上述预设数量为预先设置的任意数量，例如，上述预设数量可以是3、4、5或者其他数量。

每一次进行信息融合时均需要使用表征一种尺度的掩膜图像的融合特征的子隐藏状态信息，预设数量次信息融合过程则需使用预设数量种子隐藏状态信息，因此，上述子隐藏状态信息的数量与信息融合次数相同，均为预设数量。

每一次信息融合过程包含一次特征重建、一次特征与子隐藏状态信息融合以及一次更新子隐藏状态信息的处理，预设数量次信息融合过程则是重复预设数量次上述三种处理过程。并且，在预设数量次信息融合过程中，每进行一次特征重建，都会使得特征的尺度增大，因此，不同信息融合过程中使用的目标子隐藏状态信息为表征不同尺度的掩膜图像的融合特征的子隐藏状态信息。

具体的，在基于目标特征进行特征重建时，可以基于目标特征，利用特征重建算法、模型进行尺度增大的特征重建，得到第二特征。

下面以上述预设数量为3为例，结合图7，对上述信息融合的过程进行展开说明。

参见图7，提供了一种信息融合方法的流程示意图。图7中，在获得第一特征后，进行第一次信息融合。在第一次信息融合过程中，目标特征为第一特征，基于目标特征进行特征重建，也就是，基于第一特征进行特征重建，得到尺度增大的第二特征1，对该第二特征1和与该第二特征1对应的目标子隐藏状态信息1进行融合并更新该目标子隐藏状态信息1，得到第三特征1，此时，第一次信息融合过程结束。

得到第一次信息融合过程中的第三特征1之后，进行第二次信息融合。在第二次信息融合过程中，目标特征为上述第三特征1，基于目标特征进行特征重建，也就是，基于第三特征1进行特征重建，得到尺度再增大的第二特征2，对该第二特征2和与该第二特征2对应的目标子隐藏状态信息2进行融合并更新该目标子隐藏状态信息2，得到第三特征2，此时，第二次信息融合过程结束。

得到第二次信息融合过程中的第三特征2之后，进行第三次信息融合。在第三次信息融合过程中，目标特征为上述第三特征2，基于目标特征进行特征重建，也就是，基于第三特征2进行特征重建，得到尺度再增大的第二特征3，对该第二特征3和与该第二特征3对应的目标子隐藏状态信息3进行融合并更新该目标子隐藏状态信息3，得到第三特征3，此时，第三次信息融合过程结束，该过程中得到的第三特征3即为最终获得的融合结果。

每一次对第二特征与目标子隐藏状态信息进行融合并更新目标子隐藏状态信息的实现方式，可参见前述图4所示实施例中步骤S402中对重建后第一特征和视频的隐藏状态信息进行融合并更新隐藏状态信息的实现方式，这里不再赘述。

由以上可见，本实施例提供的方案中，在获得第一特征之后进行多次信息融合，每一次信息融合过程均包含特征重建、特征与子隐藏状态信息融合以及更新子隐藏状态信息这三种处理过程，这样相比于仅进行一次特征重建、一次特征与隐藏状态信息融合以及一次更新子隐藏状态信息，能够提高最终获得的融合结果的准确性，从而基于较为准确的融合结果获得目标掩膜图像，并根据目标掩膜图像对目标视频帧进行区域分割，能够提高对目标视频帧进行区域分割的准确性，从而提高视频分割的准确性。

根据上述内容可知，上述信息融合过程次数越多，则所获得的融合结果越准确，视频分割的准确性越高，然而计算量也越大。

鉴于此，本申请的一个实施例中，上述预设数量为4、5或6。这样既能提高视频分割的准确性，也能避免获得融合结果的计算量过大，从而保证以较高效率实现视频分割，同时也节省了终端的计算资源，因此，本申请实施例提供的方案能够适用于终端，对在终端上应用该方案友好，从而能够实现在终端中轻量化应用视频分割方案。

在进行特征重建时，除了可以基于目标特征进行特征重建外，还可以结合目标特征以及其他信息进行特征重建。

本申请的一个实施例中，上述第一特征包括多个第一子特征。

在对视频中目标视频帧进行信息压缩时，可以对目标视频帧进行级联信息压缩，得到尺度依次减小的各第一子特征。

级联信息压缩可以理解为多次信息压缩，每一次信息压缩的结果为一个第一子特征，并且，第一次信息压缩的对象为目标视频帧，其他次信息压缩的对象为上一次信息压缩得到的第一子特征。

每一次进行信息压缩的实现方式可参见前述图4所示步骤S401中对目标视频帧进行信息压缩的实现方式。

例如，每一次信息压缩时可以对信息压缩的对象进行多次卷积变换。

又例如，每一次信息压缩时，可以通过执行一次或多次上述图6所示实施例中步骤S401A-S401E所示的处理流程来实现信息压缩。

在获得尺度依次减小的各第一子特征后，可以基于各第一子特征进行预设数量次信息融合。

在第一次信息融合过程中进行特征重建时，可以将各第一子特征中尺度最小的第一子特征作为目标特征，基于目标特征进行特征重建。

在其他次信息融合过程中进行特征重建时，可以将上一次信息融合得到的特征作为目标特征，基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建，得到尺度增大的第二特征。

在基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建时，可以通过叠加、点乘等融合方式，将目标特征以及尺度与目标特征相同的第一子特征融合为一个特征，再基于融合得到的特征进行特征重建。

下面以上述预设数量为3为例，结合图8，对上述信息融合的过程进行展开说明。

参见图8，提供了另一种信息融合方法的流程示意图。图8中，在获得尺度依次减小的各第一子特征后，进行第一次信息融合。在第一次信息融合过程中，目标特征为各第一子特征中尺度最小的第一子特征1，基于目标特征进行特征重建，也就是，基于第一子特征1进行特征重建，得到尺度增大的第二特征4，对该第二特征4和与该第二特征4对应的目标子隐藏状态信息4进行融合并更新该目标子隐藏状态信息4，得到第三特征4，此时，第一次信息融合过程结束。

得到第一次信息融合过程中的第三特征4之后，进行第二次信息融合。在第二次信息融合过程中，目标特征为上述第三特征4，尺度与目标特征相同的第一子特征为第一子特征2，基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建，也就是，基于第三特征4以及第一子特征2进行特征重建，得到尺度再增大的第二特征5，对该第二特征5和与该第二特征5对应的目标子隐藏状态信息5进行融合并更新该目标子隐藏状态信息5，得到第三特征5，此时，第二次信息融合过程结束。

得到第二次信息融合过程中的第三特征5之后，进行第三次信息融合。在第三次信息融合过程中，目标特征为上述第三特征5，尺度与目标特征相同的第一子特征为第一子特征3，基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建，也就是，基于第三特征5以及第一子特征3进行特征重建，得到尺度再增大的第二特征6，对该第二特征6和与该第二特征6对应的目标子隐藏状态信息6进行融合并更新该目标子隐藏状态信息6，得到第三特征6，此时，第三次信息融合过程结束，该过程中得到的第三特征6即为最终获得的融合结果。

由以上可见，本实施例提供的方案中，对目标视频帧进行级联信息压缩，得到尺度依次减小的各第一子特征，在后续除第一次外的其他次信息融合过程中，可以基于目标特征以及尺度与目标特征相同的第一子特征进行特征重建，这样能够提高特征重建的准确性，从而能够提高信息融合后最终获得的融合结果的准确性，进而能够提高视频分割的准确性。

在对第二特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息时，由于第二特征本身的数据量较为庞大，因此，进行融合的计算量通常较大。

为解决上述问题，本申请的一个实施例中，参见图9，提供了一种特征融合方法的流程示意图，本实施例中，可以通过以下步骤S901-S903实现对第二特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息。

步骤S901：对第二特征进行切分，得到第二子特征和第三子特征。

特征可以以矩阵、张量的形式表示。以张量为例，对第二特征进行切分可以理解为在表示第二特征的特征张量的任一维度方向上，将该特征张量切分为两个子张量。

例如，对于尺度为H*C*W的特征张量，可以在W维度方向上对该特征张量进行切分，获得尺度分别为H*C*W1以及H*C*W2的两个子特征张量，其中，W1+W2=W。

在对第二特征进行切分时，可以对第二特征进行等比例切分，得到尺度相同的两个子特征，也可以对第二特征进行任意比例切分，得到尺度不同的两个子特征。并且，在对第二特征进行切分得到两个子特征后，可以确定其中任一子特征为第二子特征，确定另一子特征为第三子特征。

步骤S902：对第二子特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息，得到融合所得的第四子特征。

对第二子特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息的实现方式，可参见前述实施例中对第二特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息的实现方式，这里不再赘述。

步骤S903：拼接第四子特征和第三子特征，得到第三特征。

具体的，拼接特征可以看做是特征切分的反处理，对第二特征进行切分为在一个特征维度上将第二特征切分为两个子矩阵，在拼接第四子特征和第三子特征时，可以在相同特征维度方向上将第四子特征和第三子特征拼接为一个特征，即在相同特征维度方向上，将第三子特征拼接在第四子特征后面，或者将第四子特征拼接在第三子特征后面，这样拼接所得特征即为第三特征。

例如，若第三子特征的尺度为H*C*W3，第四子特征的尺度为H*C*W4，则在拼接第四子特征和第三子特征时，可以在W维度方向上将第四子特征和第三子特征拼接为一个尺度为H*C*W5的特征，其中，W3+W4=W5。

由以上可见，本实施例提供的方案中，将对第二特征进行切分，得到第二子特征和第三子特征，第二子特征和第三子特征的数据量均小于第二特征的数据量，这样将第二子特征和目标子隐藏状态信息进行融合，能够减小融合的计算量，提高融合效率，从而能够提高得到第三特征的效率，进而能够提高视频分割的效率，同时也节省了终端的计算资源，从而能够实现在终端中轻量化应用视频分割方案。

本申请实施例提供的视频分割方案还可以基于神经网络模型实现，下面结合神经网络模型，对视频分割方案进行说明。

本申请的一个实施例中，可以利用预先训练的视频分割模型实现上述各步骤。

参见图10，提供了第一种视频分割模型的结构示意图，从图10中可以看出，该视频分割模型包括信息压缩网络、三组掩膜特征生成网络和结果输出网络，每组掩膜特征生成网络包括特征重构子网络以及特征融合子网络，其中，每组掩膜特征生成网络与一种掩膜图像的尺度相对应。

图10是以所包含的掩膜特征生成网络的数量为三为例示出的视频分割模型，除此之外，视频分割模型所包含的掩膜特征生成网络的数量还可以是四、五或者其他数量，本实施例对此并不限定。

下面对图10所示的视频分割模型中各网络的连接关系进行说明。

视频分割模型中三组掩膜特征生成网络分别为所对应掩膜图像尺度依次增大的掩膜特征生成网络1、掩膜特征生成网络2以及掩膜特征生成网络3，每组掩膜特征生成网络中包含的特征重构子网络以及特征融合子网络这两个子网络相连。视频分割模型的第一层网络为信息压缩网络，信息压缩网络与掩膜特征生成网络1包括的特征重构子网络1相连，掩膜特征生成网络1包括的特征融合子网络1与掩膜特征生成网络2包括的特征重构子网络2相连，掩膜特征生成网络2包括的特征融合子网络2与掩膜特征生成网络3包括的特征重构子网络3相连，掩膜特征生成网络3包括的特征融合子网络3与结果输出网络相连。

下面对视频分割模型中各网络、子网络的作用分别进行说明。

对于信息压缩网络，在利用视频分割模型进行视频分割的过程中，在对目标视频帧进行信息压缩时，可以将目标视频帧输入信息压缩网络，由信息压缩网络对目标视频帧进行信息压缩，从而获得信息压缩网络输出的第一特征。

信息压缩网络对目标视频帧进行信息压缩的实现方式可参见前述内容，这里不再赘述。

对于目标掩膜特征生成网络中的特征重构子网络，在基于目标特征进行特征重建时，可以将目标特征输入目标掩膜特征生成网络中的特征重构子网络，由该特征重构子网络基于目标特征进行特征重建，从而得到该特征重构子网络输出的尺度增大的第二特征，其中目标掩膜特征生成网络对应的掩膜图像的尺度与第二特征的尺度相同。

特征重构子网络基于目标特征进行特征重建的实现方式可参见前述内容，这里不再赘述。

本申请的一个实施例中，上述特征重构子网络基于QARepVGG网络结构实现。

由于QARepVGG网络的量化计算精度较高，因此，基于QARepVGG网络结构实现上述特征重构子网络，能够提高特征重构子网络的量化计算能力，从而提高特征重构子网络基于目标特征进行特征重建的准确性，进而能够提高视频分割的准确性。

本申请的另一实施例中，特定掩膜特征生成网络中的特征重构子网络基于QARepVGG网络结构实现。

其中，特定掩膜特征生成网络为：所对应掩膜图像的尺度小于预设尺度的掩膜特征生成网络。

上述预设尺度可以是预先设置的尺度。

在构建上述视频分割模型时，可以确定每组掩膜特征生成网络对应的掩膜图像尺度，这样可以确定所对应掩膜图像尺度小于预设尺度的掩膜特征生成网络为特定掩膜特征生成网络，从而在构建特定掩膜特征生成网络时，基于QARepVGG网络结构构建特定掩膜特征生成网络。而对于其他掩膜特征生成网络，可以基于其他网络结构构建。

由于基于QARepVGG网络结构构建特定掩膜特征生成网络中U型残差块的计算量随着网络对应的掩膜图像的尺度增大而增大，因此，在构建各掩膜特征生成网络时，可以仅针对所对应掩膜图像的尺度小于预设尺度的特定掩膜特征生成网络，基于QARepVGG网络结构实现特定掩膜特征生成网络中的特征重构子网络，这样能够降低各掩膜特征生成网络的计算量，提高获得融合结果的效率，从而提高视频分割的效率，并且也能够在终端中轻量化部署上述视频分割模型。

对于目标掩膜特征生成网络中的特征融合子网络，在对第二特征和隐藏状态信息包括的目标子隐藏状态信息进行融合并更新目标子隐藏状态信息时，可以将第二特征输入目标掩膜特征生成网络中的特征融合子网络，由特征融合子网络对第二特征和自身提供的目标子隐藏状态信息进行融合并更新自身提供的目标子隐藏状态信息，从而得到特征融合子网络输出的第三特征。

特征融合子网络对第二特征和自身提供的目标子隐藏状态信息进行融合并更新自身提供的目标子隐藏状态信息可参见前述内容，这里不再赘述。

本申请的一个实施例中，上述特征融合子网络为：门控循环单元（GatedRecurrent Unit，GRU）或长短时记忆（Long Short-Term Memory，LSTM）单元。

GRU和LSTM单元这两种单元均具有信息记忆功能，将这两种单元中任一种作为特征融合子网络，该单元自身能够存储有表征已进行分割的视频帧中对象的掩膜图像的融合特征的隐藏状态信息，从而能够准确对第二特征和自身提供的的目标子隐藏状态信息进行融合，提高第三特征的准确性，从而提高视频分割的准确性。

对于结果输出网络，在基于融合结果获得目标视频帧中对象的目标掩膜图像时，可以将融合结果输入结果输出网络，由结果输出网络基于融合结果生成目标视频帧中对象的目标掩膜图像，从而获得结果输出网络输出的目标视频帧中对象的目标掩膜图像。

结果输出网络基于融合结果生成目标视频帧中对象的目标掩膜图像可参见前述内容，这里不再赘述。

由以上可见，本实施例提供的方案中，利用视频分割模型中包含的各个网络、子网络进行视频分割，由于视频分割模型为预先训练的视频分割模型，因此，利用该视频分割模型，能够提高视频分割的准确性，并且，该视频分割模型无需与其他设备进行任何交互，因此，可以将该视频分割模型部署于离线设备中，这样能够提高视频分割的便捷性。

本申请的一个实施例中，参见图11，提供了第三种视频分割方法的流程示意图，图11中，视频分割模型依次对视频包含的视频帧1和视频帧2进行处理。视频分割模型在处理视频帧1时，视频帧1分别经模型中信息压缩网络、掩膜特征生成网络中特征重构子网络、掩膜特征生成网络中特征融合子网络以及结果输出网络进行处理，得到视频帧1对应的掩膜图像1，其中，特征融合子网络一方面向结果输出网络输出信息，另一方面更新自身包含的隐藏状态信息，用于视频分割模型对下一帧视频帧2进行处理时特征融合子网络进行融合。视频分割模型对视频帧2进行处理时，视频帧2分别经模型中信息压缩网络、掩膜特征生成网络中特征重构子网络、掩膜特征生成网络中特征融合子网络以及结果输出网络进行处理，得到视频帧2对应的掩膜图像2。

本申请的一个实施例中，参见图12，提供了第一种信息压缩网络的结构示意图，图12所示信息压缩网络中，各网络层从上至下依次为：卷积层、线性层1、批量标准化层、非线性层以及线性层2。

其中，卷积层用于对目标视频帧进行卷积变换，得到第四特征。

线性层1用于基于卷积核对第四特征进行线性变换，得到第五特征。

批量标准化层用于对第五特征进行批量标准化处理，得到第六特征。

非线性层用于对第六特征进行非线性变换，得到第七特征。

线性层2用于基于卷积核对第七特征进行线性变换，得到第一特征。

本申请的一个实施例中，在视频分割模型包含较多数量组掩膜特征生成网络的情况下，视频分割模型处理视频帧的计算量也较大。鉴于此，可以摘除视频分割模型所包含的最后一组或多组掩膜特征生成网络中特征融合子网络，从而降低视频分割模型处理视频帧的计算量，并且也能够在终端中轻量化部署该视频分割模型。

参见图13，提供了第二种视频分割模型的结构示意图，与图10所示视频分割模型相比，图13所示视频分割模型中最后一组掩膜特征生成网络中仅包含特征重构子网络，即掩膜特征生成网络3仅包含特征冲机构子网络3，该特征重构子网络3的输出结果即为融合结果。

本申请的一个实施例中，参见图14，提供了第三种视频分割模型的结构示意图，图14所示视频分割模型包含多层级联的信息压缩网络，每一层信息压缩网络的输出结果为一个第一子特征，且一层信息压缩网络与一组掩膜特征生成网络中的特征重构子网络相连，最后一层信息压缩网络与第一组掩膜特征生成网络相连，相连的信息压缩网络输出的第一子特征的尺度与掩膜特征生成网络待处理的目标特征的尺度相同。这样最后一层信息压缩网络输出的第一子特征作为第一组掩膜特征生成网络待处理的目标特征，其他组掩膜特征生成网络中特征重构子网络基于目标特征以及与该网络所相连的信息压缩网络输出的第一子特征进行特征重建，从而能够提高特征重建的准确性，进行提高视频分割准确性。

下面对上述视频分割模型的训练过程进行说明。

本申请的一个实施例中，参见图15，提供了第一种模型训练方法的流程示意图，本实施例中，上述方法包括以下步骤S1501-S1505。

步骤S1501：将样本视频中第一样本视频帧输入初始模型进行处理，获得初始模型输出的第一样本视频帧中对象的第一样本掩膜图像。

上述样本视频可以是通过网络、视频库或者其他渠道获取的任意视频。另外，在通过网络、视频库或者其他渠道获取到视频之后，可以将多个视频拼接为一个视频，得到拼接的视频作为样本视频。

上述第一样本掩膜图像与第一样本视频帧的尺度相同，上述第一样本掩膜图像中像素点的像素值表征模型预测的第一样本视频帧中相同位置的像素点属于对象所在区域的置信度。

上述初始模型用于根据自身配置的未训练完成的模型参数，对输入模型的视频帧进行处理，得到视频帧中对象的掩膜图像。

具体的，将第一样本视频帧输入初始模型后，初始模型可以根据自身配置的模型参数，对第一样本视频帧进行处理，输出处理所得图像，作为第一样本视频帧中对象的第一样本掩膜图像。

步骤S1502：获得第一样本视频帧对应的标注掩膜图像与第二样本视频帧对应的标注掩膜图像之间的第一差异。

其中，第二样本视频帧为：样本视频中在第一样本视频帧之前且间隔预设帧数的视频帧。

上述预设帧数为预先设置的帧数，例如，3帧、4帧或其他数值的帧数。

上述第一样本视频帧可以是样本视频中第预设帧数视频帧或第预设帧数视频帧之后的任意视频帧。

上述第一差异可以是终端自身计算得到的，也可以是其他设备计算得到的，终端设备再从该其他设备中获取计算所得第一差异。

下面对终端或其他设备计算第一差异的实现方式进行说明。

终端或其他设备可以获得样本视频内各样本视频帧对应的标注掩膜图像，样本视频帧对应的标注掩膜图像可以理解为样本视频帧中对象的实际掩膜图像，这样在根据第一样本视频帧所在帧数以及预设帧数确定第二样本视频帧之后，可以在所获得的各样本视频帧对应的标注掩膜图像中，获得第一样本视频帧对应的标注掩膜图像和第二样本视频帧对应的标注掩膜图像，从而计算所获得的这两种标注掩膜图像之间的第一差异。

在计算两种标注掩膜图像之间的第一差异时，一种实现方式中，可以将这两种图像相同位置的像素点的像素值相减，统计各像素点的运算结果中不是“0”的结果的数量，作为上述第一差异，或者将不是“0”的结果的数量占标注掩膜图像的像素点总数的比例，作为上述第一差异；另一种实现方式中，可以计算这两种图像的相似度，并用1减去计算出的相似度，得到运算结果，作为上述第一差异。

步骤S1503：获得第一样本掩膜图像与第二样本掩膜图像之间的第二差异，其中，第二样本掩膜图像为：初始模型对第二样本视频帧进行处理输出的掩膜图像。

具体的，与前述视频分割过程相类似，在模型训练过程中，可以将样本视频中的各样本视频帧逐帧输入模型中，得到模型输出的各样本视频帧中对象的样本掩膜图像。在获得第一样本掩膜图像之后，可以在第一样本视频帧之前、模型已处理的视频帧中，确定与第一样本视频帧检测预设帧数的第二样本视频帧，并获得模型对第二样本视频帧进行处理输出的第二样本掩膜图像，计算第一样本掩膜图像与第二样本掩膜图像之间的第二差异。

计算上述第二差异的实现方式与前述步骤S1502中计算第一差异的实现方式相同，这里不再赘述。

步骤S1504：基于第一差异和第二差异计算训练损失。

基于第一差异和第二差异，可以利用损失函数、算法等计算训练损失。

例如，基于第一差异和第二差异，可以利用以下表达式表示的平均平方误差（MeanSquared Error，MSE）损失函数，计算训练损失。

其中，表示训练损失，表示第一样本视频帧对应的标注掩膜图像，表示第二样本视频帧对应的标注掩膜图像，表示第一样本掩膜图像，表示第二样本掩膜图像，表示平均平方误差运算。

步骤S1505：基于训练损失，对初始模型进行模型参数调整，得到视频分割模型。

具体的，基于训练损失，可以通过以下三种实现方式中任一种对初始模型进行模型参数调整。

第一种实现方式中，针对初始模型中每一模型参数，可以预先设置训练损失与该模型参数调整幅度之间的对应关系，这样在基于第一差异和第二差异计算出训练损失后，可以根据该对应关系，计算对该模型参数进行调整的实际调整幅度，从而按照该实际调整幅度对该模型参数进行调整。

第二种实现方式中，初始模型通常需要使用大量样本数据进行训练，在训练过程中需要不断计算训练损失，并基于训练损失不断对初始模型进行模型参数调整，鉴于此，在计算出训练损失后，可以根据该训练损失以及之前计算出的训练损失，确定训练损失变化差异，再根据该变化差异，对初始模型进行模型参数调整。

第三种实现方式中，基于训练损失，可以利用模型参数调整算法、函数等对初始模型进行模型参数调整。

由以上可见，本实施例提供的方案中，由于第一样本视频帧与间隔预设帧数的第二样本视频帧之间往往具有时域相关性，这样获得第一样本视频帧对应的标注掩膜图像和第二样本视频帧对应的标注掩膜图像之间的第一差异，并获得第一样本掩膜图像与第二样本掩膜图像之间的第二差异，基于第一差异和第二差异计算训练损失，基于该训练损失对初始模型进行模型参数调整时，能够使得初始模型学习到视频的不同视频帧之间的时域相关性，从而能够提高训练所得模型的准确性，进而利用该模型进行视频分割，能够提高视频分割的准确性。

如图16所示，示出了拼接视频到利用训练完成的视频分割模型对拼接视频进行处理得到的各视频帧对应的眼膜图像的示意图。

在获得上述第二差异时，除了可以利用上述步骤S1503中提及的方式外，还可以通过以下图17所示实施例中步骤S1503A提及的方式获得。

本申请的一个实施例中，参见图17，提供了第二种模型训练方法的流程示意图。

本实施例中，上述第一样本掩膜图像包括：标识第一样本视频帧中对象所在区域的第一掩膜子图和标识第一样本视频帧中对象之外区域的第二掩膜子图。

上述第一掩膜子图中像素点的像素值表征模型预测的第一样本视频帧中相同位置的像素点属于对象所在区域的置信度，上述第二掩膜子图中像素点的像素值表征模型预测的第一样本视频帧中相同位置的像素点属于对象之外区域的置信度。

如图18所示，图18为本申请实施例提供的一种掩膜图像，该掩膜图像为一种第一样本掩膜图像。

图18所示掩膜图像中包括两个子图，分别为：标识第一样本视频帧中对象所在区域的第一掩膜子图和标识第一样本视频帧中对象之外区域的第二掩膜子图。

上述第二样本掩膜图像包括：标识第二样本视频帧中对象所在区域的第三掩膜子图和标识第二样本视频帧中对象之外区域的第四掩膜子图。

上述第三掩膜子图中像素点的像素值表征模型预测的第二样本视频帧中相同位置的像素点属于对象所在区域的置信度，上述第四掩膜子图中像素点的像素值表征模型预测的第二样本视频帧中相同位置的像素点属于对象之外区域的置信度。

这种情况下，上述步骤S1503可以通过以下步骤S1503A实现。

步骤S1503A：获得第一掩膜子图与第三掩膜子图间的差异，并获得第二掩膜子图和第四掩膜子图间的差异，得到包含所获得差异的第二差异。

获得第一掩膜子图与第三掩膜子图间的差异以及第二掩膜子图和第四掩膜子图间的差异的实现方式与前述获得第一差异或第二差异的实现方式相同，这里不再赘述。

在获得第一掩膜子图与第三掩膜子图间的差异以及第二掩膜子图和第四掩膜子图间的差异这两种差异后，可以将这两种差异累加，得到包含这两种差异的第二差异，也可以将这两种差异的平均值作为第二差异，还可以确定这两种差异中较大的差异作为第二差异等。

由以上可见，本实施例提供的方案中，由于视频帧中的区域由对象所在区域和对象之外区域这两种区域构成，不同视频帧中对象所在区域的差异越大，不同视频帧中对象之外区域的差异也越大，可见，对象之外区域的差异也可以反映对象所在区域的差异，因此，根据第一掩膜子图与第三掩膜子图间的差异以及第二掩膜子图和第四掩膜子图间的差异这两种差异来获得第二差异，是从两个不同角度综合计算上述第二差异，这样能够提高第二差异的准确性，从而能够提高模型训练的准确性，进行能够提高利用模型进行视频分割的准确性。

另外，上述视频分割模型中特征融合子网络对目标特征和自身提供的隐藏状态信息进行融合时可以保证在对目标视频帧进行分割过程中考虑视频已分割的视频帧对应的掩膜图像的特征，即保证视频帧之间的时域连续性，然而，这种情况下，若模型中结果输出网络无硬性限制所输出的图像为二值图像，则模型最终输出的图像中可能存在半透明区域，如图19a所示，而应用本实施例提供的模型训练方案时，由于可以从两个不同角度综合计算上述第二差异，这样能够在训练阶段使得模型既能够学习到对象的特性，也能够学习到作为对象背景的特性，从而能够避免模型输出的掩膜图像出现半透明区域，如图19b所示。

本申请实施例中所涉及的用户信息均为用户已授权的信息，用户信息的获取、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行上述实施例中的部分或全部步骤。上述的存储介质可为磁碟、光盘、只读存储器（Read-Only Memory，ROM）或随机存储器（Random Access Memory，RAM）等。

具体实现中，本申请实施例还提供了一种计算机程序产品，上述计算机程序产品包含可执行指令，当所述可执行指令在计算机上执行时，使得计算机执行上述方法实施例中的部分或全部步骤。

如图20所示，本申请还提供了一种芯片系统，该芯片系统应用于终端100，芯片系统包括一个或多个处理器2001，处理器2001用于调用计算机指令以使得终端100将待处理的数据输入芯片系统，芯片系统基于本申请实施例提供的视频分割方法对数据进行处理后输出处理结果。

在一种可能的实现方式中，芯片系统还包括输入和输出接口，用于输入和输出数据。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器（Digital Signal Processor，DSP）、微控制器、专用集成电路（Application Specific Integrated Circuit ，ASIC）或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读（例如，计算机可读）存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器（例如，计算机）可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、光盘只读存储器（Compact Disc Read Only Memory，CD-ROMs）、磁光盘、只读存储器、随机存储器、可擦除可编程只读存储器（Erasable Programmable Read Only Memory ，EPROM）、电可擦除可编程只读存储器（Electrically Erasable Programmable Read Only Memory ，EEPROM）、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息（例如，载波、红外信号数字信号等）的有形的机器可读存储器。因此，机器可读介质包括适合于以机器（例如，计算机）可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明书附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种视频分割方法，其特征在于，所述方法包括：

对视频中目标视频帧进行信息压缩，得到第一特征；

基于所述第一特征进行特征重建，对重建后的第一特征和所述视频的隐藏状态信息进行融合并更新所述隐藏状态信息，得到融合结果，其中，所述隐藏状态信息表征：在所述目标视频帧之前进行分割的视频帧中对象的掩膜图像的融合特征，在所述目标视频帧之前进行分割的视频帧包括至少两帧视频帧；

根据所述目标掩膜图像，对所述目标视频帧进行区域分割，得到分割结果；

基于预设阈值，对所述融合结果进行二值化处理，得到目标掩膜图像，其中，所述融合结果中包括目标视频帧中各个像素点属于对象的置信度。

2.根据权利要求1所述的方法，其特征在于，所述隐藏状态信息包括：多个子隐藏状态信息，每一子隐藏状态信息表征一种尺度的掩膜图像的融合特征；

3.根据权利要求2所述的方法，其特征在于，所述第一特征包括多个第一子特征；

其它次进行信息融合时，基于目标特征和尺度与所述目标特征相同的第一子特征，进行特征重建，得到尺度增大的第二特征。

4.根据权利要求2所述的方法，其特征在于，所述对所述第二特征和所述隐藏状态信息包括的目标子隐藏状态信息进行融合并更新所述目标子隐藏状态信息，得到第三特征，包括：

对所述第二特征进行切分，得到第二子特征和第三子特征；

拼接所述第四子特征和所述第三子特征，得到第三特征。

5.根据权利要求2至4中任一项所述的方法，其特征在于，

所述预设数量为：4、5或6。

6.根据权利要求2所述的方法，其特征在于，所述对视频中目标视频帧进行信息压缩，得到第一特征，包括：

7.根据权利要求6所述的方法，其特征在于，

所述特征融合子网络为：门控循环单元GRU或长短时记忆LSTM单元；

和/或

所述特征重构子网络基于QARepVGG网络结构实现，或，特定掩膜特征生成网络中的特征重构子网络基于QARepVGG网络结构实现，其中，所述特定掩膜特征生成网络为：所对应掩膜图像的尺度小于预设尺度的掩膜特征生成网络。

8.根据权利要求6所述的方法，其特征在于，所述视频分割模型按照以下方式训练得到：

基于所述第一差异和第二差异计算训练损失；

9.根据权利要求8所述的方法，其特征在于，

所述第一样本掩膜图像包括：标识所述第一样本视频帧中对象所在区域的第一掩膜子图和标识所述第一样本视频帧中对象之外区域的第二掩膜子图；

10.根据权利要求1至4中任一项所述的方法，其特征在于，所述对视频中目标视频帧进行信息压缩，得到第一特征，包括：

对视频中目标视频帧进行卷积变换，得到第四特征；

基于卷积核对所述第四特征进行线性变换，得到第五特征；

对所述第五特征进行批量标准化处理，得到第六特征；

对所述第六特征进行非线性变换，得到第七特征；

11.根据权利要求10所述的方法，其特征在于，

所述卷积核为：1x1的卷积核；

和/或

所述对所述第六特征进行非线性变换，得到第七特征，包括：

12.一种电子设备，其特征在于，包括：

一个或多个处理器和存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至11中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至11中任一项所述的方法。

14.一种芯片系统，其特征在于，所述芯片系统应用于终端，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述终端将数据输入芯片系统，并执行权利要求1至11中任一项所述的方法对数据进行处理后输出处理结果。