CN114125462A

CN114125462A - 视频处理方法及装置

Info

Publication number: CN114125462A
Application number: CN202111446346.0A
Authority: CN
Inventors: 王伟农; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01
Anticipated expiration: 2041-11-30
Also published as: CN114125462B

Abstract

本公开关于一种视频处理方法及装置，方法包括：获取待处理视频，其中，待处理视频中包括多个图像帧；从多个图像帧中提取第一图像帧，并基于第一图像帧的掩膜，确定多个图像帧的第一掩膜；从多个图像帧中提取第二图像帧，并基于第二图像帧的掩膜，确定多个图像帧的第二掩膜；基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜；基于目标图像帧的掩膜对目标图像帧进行处理。

Description

视频处理方法及装置

技术领域

本公开涉及图像处理领域，尤其涉及一种视频处理方法及装置。

背景技术

视频处理技术(如视频目标分割、视频目标屏蔽等)是当下热门的业务，但是上述视频处理技术无法准确的融合两次处理的掩膜。下面以视频目标分割为例进行说明，视频目标分割(Video Object Segmentation，缩写为VOS)是视频场景理解和视频编辑的基础能力，根据用户输入类型的不同可以划分为不同的视频目标分割算法，如交互式视频目标分割(interactive VOS，缩写为iVOS)，用户可以不断迭代交互优化目标分割结果。目前，iVOS可以看做如下两个任务的组合：交互式感知(interaction understanding)和帧间掩膜传播(temporal propogation)，该iVOS算法通常利用互连的编码器(inter-connectedencoders)或记忆增强的交互特征(memory-augmented interactionfeatures)，将上述两个任务放在一起共同执行。而在帧间掩膜传播过程中，如出现不满足要求的掩膜时，会二次执行上述两个任务，由于两次执行过程中获取的掩膜之间存在一定的冲突，需要对两次得到的掩膜进行融合，目前是通过简单的使用线性加权的方式进行融合，该方法没有很好的考虑到用户的指示信息(如二次执行上述两个任务的触发条件)，导致无法准确的融合掩膜。

发明内容

本公开提供一种视频处理方法及装置，以至少解决相关技术无法准确的融合掩膜的问题。

根据本公开实施例的第一方面，提供一种视频处理方法，包括：获取待处理视频，其中，待处理视频中包括多个图像帧；从多个图像帧中提取第一图像帧，并基于第一图像帧的掩膜，确定多个图像帧的第一掩膜；从多个图像帧中提取第二图像帧，并基于第二图像帧的掩膜，确定多个图像帧的第二掩膜；基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜；基于目标图像帧的掩膜对目标图像帧进行处理。

可选地，基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜，包括：基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜。

可选地，基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜，包括：对第二图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；将目标图像帧、第二图像帧的第一掩膜和第二掩膜输入到时空记忆器，得到目标图像帧中目标对象的掩膜；将差异矩阵与目标图像帧中目标对象的掩膜相乘，得到目标图像帧的差异信息；将目标图像帧对应的第一掩膜和第二掩膜、目标图像帧、差异信息输入到单层卷积网络，得到目标图像帧的掩膜。

可选地，单层卷积网络的输入还包括：线性系数，其中，线性系数是基于目标图像帧的帧索引和第二图像帧的帧索引确定的。

可选地，在基于第一图像帧的掩膜，确定多个图像帧的第一掩膜之前，还包括：获取第一图像帧对应的第一交互信息，其中，第一交互信息为标示出第一图像帧的目标对象的区域的信息；基于第一图像帧、第一交互信息和第一预定掩膜，得到第一图像帧的掩膜，其中，第一预定掩膜是零或者第一图像帧通过随机膨胀腐蚀操作后的真值。

可选地，在基于第二图像帧的掩膜，确定多个图像帧的第二掩膜之前，还包括：获取第二图像帧对应的第二交互信息，其中，第二交互信息为标示出第二图像帧的目标对象的区域的信息；基于第二图像帧、第二交互信息和第二预定掩膜，得到第二图像帧的掩膜，其中，第二预定掩膜是基于第二图像帧对应的第一掩膜确定的。

可选地，基于第一图像帧的掩膜，确定多个图像帧的第一掩膜，包括：将多个图像帧中除第一图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第一图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第一组合矩阵；对于第一组合矩阵中每一列，获取第一组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第一组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第一组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第一组合矩阵分别与第一图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第一级联矩阵；基于其他图像帧中每个图像帧的第一级联矩阵，得到其他图像帧中每个图像帧的第一掩膜。

可选地，基于第二图像帧的掩膜，确定多个图像帧的第二掩膜，包括：将多个图像帧中除第二图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第二图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第二组合矩阵；对于第二组合矩阵中每一列，获取第二组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第二组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第二组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第二组合矩阵分别与第二图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第二级联矩阵；基于其他图像帧中每个图像帧的第二级联矩阵，得到其他图像帧中每个图像帧的第二掩膜。

可选地，从多个图像帧中提取第一图像帧，包括：从多个图像帧中随机抽取一个图像帧，作为第一图像帧。

可选地，从多个图像帧中提取第二图像帧，包括：确定多个图像帧中第一掩膜不满足预设条件的图像帧；从第一掩膜不满足预设条件的图像帧中提取一个图像帧，作为第二图像帧。

根据本公开实施例的第二方面，提供一种一种视频处理装置，包括：视频获取单元，被配置为获取待处理视频，其中，待处理视频中包括多个图像帧；第一掩膜获取单元，被配置为从多个图像帧中提取第一图像帧，并基于第一图像帧的掩膜，确定多个图像帧的第一掩膜；第二掩膜获取单元，被配置为从多个图像帧中提取第二图像帧，并基于第二图像帧的掩膜，确定多个图像帧的第二掩膜；第三掩膜获取单元，被配置为基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜；处理单元，被配置为基于目标图像帧的掩膜对目标图像帧进行处理。

可选地，第三掩膜获取单元，还被配置为基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜。

可选地，第三掩膜获取单元，还被配置为对第二图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；将目标图像帧、第二图像帧的第一掩膜和第二掩膜输入到时空记忆器，得到目标图像帧中目标对象的掩膜；将差异矩阵与目标图像帧中目标对象的掩膜相乘，得到目标图像帧的差异信息；将目标图像帧对应的第一掩膜和第二掩膜、目标图像帧、差异信息输入到单层卷积网络，得到目标图像帧的掩膜。

可选地，第一掩膜获取单元，还被配置为在基于第一图像帧的掩膜，确定多个图像帧的第一掩膜之前，获取第一图像帧对应的第一交互信息，其中，第一交互信息为标示出第一图像帧的目标对象的区域的信息；基于第一图像帧、第一交互信息和第一预定掩膜，得到第一图像帧的掩膜，其中，第一预定掩膜是零或者第一图像帧通过随机膨胀腐蚀操作后的真值。

可选地，第二掩膜获取单元，还被配置为在基于第二图像帧的掩膜，确定多个图像帧的第二掩膜之前，获取第二图像帧对应的第二交互信息，其中，第二交互信息为标示出第二图像帧的目标对象的区域的信息；基于第二图像帧、第二交互信息和第二预定掩膜，得到第二图像帧的掩膜，其中，第二预定掩膜是基于第二图像帧对应的第一掩膜确定的。

可选地，第一掩膜获取单元，还被配置为将多个图像帧中除第一图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第一图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第一组合矩阵；对于第一组合矩阵中每一列，获取第一组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第一组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第一组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第一组合矩阵分别与第一图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第一级联矩阵；基于其他图像帧中每个图像帧的第一级联矩阵，得到其他图像帧中每个图像帧的第一掩膜。

可选地，第二掩膜获取单元，还被配置为将多个图像帧中除第二图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第二图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第二组合矩阵；对于第二组合矩阵中每一列，获取第二组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第二组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第二组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第二组合矩阵分别与第二图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第二级联矩阵；基于其他图像帧中每个图像帧的第二级联矩阵，得到其他图像帧中每个图像帧的第二掩膜。

可选地，第一掩膜获取单元，还被配置从多个图像帧中随机抽取一个图像帧，作为第一图像帧。

可选地，第二掩膜获取单元，还被配置确定多个图像帧中第一掩膜不满足预设条件的图像帧；从第一掩膜不满足预设条件的图像帧中提取一个图像帧，作为第二图像帧。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的视频处理方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的视频处理方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的视频处理方法及装置，目标图像帧的掩膜的确定不仅考虑了两次处理得到的第一掩膜和第二掩膜，还考虑了参考图像帧(即第二图像帧)的差异信息，也即考虑到了用户的指示信息，使得本公开目标图像帧的掩膜的确定过程可以通过用户的意图来调和分割网络和传播网络，相比较于简单的线性相加，可以获取很好的融合结果，提高了所获取的掩膜的准确性。因此，本公开解决了相关技术无法准确的融合掩膜的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的视频处理方法的实施场景示意图；

图2是根据一示例性实施例示出的一种视频处理方法的流程图；

图3是根据一示例性实施例示出的一种传播网络示意图；

图4是根据一示例性实施例示出的一种融合网络示意图

图5是根据本公开实施例示出的可选地视频处理方法示意图；

图6是根据本公开实施例示出的视频处理方法的试验结果图；

图7是根据本公开实施例示出的数据集-BL30K示例图；

图8是根据一示例性实施例示出的一种视频处理装置的框图；

图9是根据本公开实施例的一种电子设备900的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

针对上述问题，本公开提供了一种视频处理方法，能够准确的融合掩膜，可以应用于视频目标分割、视频目标屏蔽的技术中，下面以图像分割中的人脸分割的场景为例进行说明。

图1是示出根据本公开的示例性实施例的视频处理方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装获取人脸图像的摄像头，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

用户终端110、120通过摄像机拍摄包含人脸的待处理视频，该待处理视频中包括多个图像帧，然后将该待处理视频的多个图像帧发送给服务器100，服务器100从多个图像帧中提取第一图像帧，并基于第一图像帧的人脸掩膜，确定多个图像帧的第一人脸掩膜；从多个图像帧中提取第二图像帧，并基于第二图像帧的人脸掩膜，确定多个图像帧的第二人脸掩膜；基于第二图像帧的第一人脸掩膜和第二人脸掩膜、与第二图像帧相邻的目标图像帧对应的第一人脸掩膜和第二人脸掩膜，确定目标图像帧的最终的人脸掩膜，基于目标图像帧的人脸掩膜对目标图像帧进行人脸分割处理。目标图像帧最终的人脸掩膜的确定不仅考虑了两次处理得到的第一人脸掩膜和第二人脸掩膜，还考虑了参考图像帧(即第二图像帧)的差异信息，也即考虑到了用户的指示信息，使得本公开目标图像帧的人脸掩膜的确定过程可以通过用户的意图来调和分割网络和传播网络，相比较于简单的线性相加，可以获取很好的融合结果，提高了所获取的掩膜的准确性，是的分割结果既准确又高效。因此，本公开解决了相关技术无法准确的融合掩膜的问题。

下面，将参照图2至图8详细描述根据本公开的示例性实施例的视频处理方法及装置。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，包括以下步骤：

在步骤S201中，获取待处理视频，其中，待处理视频中包括多个图像帧。该待处理视频可以是终端通过摄像头拍摄到的视频，也可以是预先存储在本地的摄像头，本公开对此并不进行限定。

在步骤S202中，从多个图像帧中提取第一图像帧，并基于第一图像帧的掩膜，确定多个图像帧的第一掩膜。

根据本公开的示例性实施例，从多个图像帧中提取第一图像帧，包括：从多个图像帧中随机抽取一个图像帧，作为第一图像帧。根据本实施例，可以方便、快速的获取第一图像帧。另外，还可以从多个图像帧中指定一个图像帧，作为第一图像帧。

根据本公开的示例性实施例，在基于第一图像帧的掩膜，确定多个图像帧的第一掩膜之前，还包括：获取第一图像帧对应的第一交互信息，其中，第一交互信息为标示出第一图像帧的目标对象的区域的信息；基于第一图像帧、第一交互信息和第一预定掩膜，得到第一图像帧的掩膜，其中，第一预定掩膜是零或者第一图像帧通过随机膨胀腐蚀操作后的真值。根据本实施例，可以方便、快速的得到第一图像帧的掩膜。

根据本公开的示例性实施例，基于第一图像帧的掩膜，确定多个图像帧的第一掩膜，包括：将多个图像帧中除第一图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第一图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第一组合矩阵；对于第一组合矩阵中每一列，获取第一组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第一组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第一组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第一组合矩阵分别与第一图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第一级联矩阵；基于其他图像帧中每个图像帧的第一级联矩阵，得到其他图像帧中每个图像帧的第一掩膜。通过本实施例，引入了top-k策略，减少了噪声的影响，提高了获取第一掩膜的速度。需要说明的是，第一图像帧的第一掩膜可以采用上述获取的第一图像帧的掩膜。

例如，获取第一掩膜的过程可以通过传播网络实现，即可以将第一图像帧的掩膜、多个图像帧输入到传播网络，得到多个图像帧中除第一图像帧以外的其他图像帧的第一掩膜。具体地，将多个图像帧中除第一图像帧以外的其他图像帧分别输入到传播网络的查询编码器，得到其他图像帧中每个图像帧的key矩阵(即上述键矩阵)和value矩阵(即上述键值矩阵)；将第一图像帧和第一图像帧的掩膜输入到传播网络的记忆编码器，得到第一图像帧的key矩阵和value矩阵；将其他图像帧中每个图像帧的key矩阵分别和第一图像帧的key矩阵相乘，得到其他图像帧中每个图像帧的第一组合矩阵；对于第一组合矩阵中每一列，获取第一组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第一组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第一组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第一组合矩阵分别与第一图像帧的value矩阵相乘后，再分别与对应的图像帧的value矩阵进行级联，得到其他图像帧中每个图像帧的第一级联矩阵；将第一级联矩阵分别输入到传播网络的解码器，得到其他图像帧中每个图像帧的第一掩膜。通过本实施例，传播网络中引入了top-k策略，减少了噪声的影响，提高了传播网络的性能和速度。

又例如，以图像分割为例，可以将过去带有分割结果的若干帧作为记忆帧(即上述第一图像帧)，然后利用该记忆帧通过基于注意力机制的记忆读取操作来预测当前图像帧(即上述其他图像帧)的目标掩膜(object mask，即上述第一掩膜)。具体地，如图3所示，传播网络可以采用STM算法，并在STM算法中集成top-k策略，该操作无需复杂的训练技巧，同时可提高算法预测性能和速度。传播网络的可以使用两个编码器和一个解码器，两个编码器Encoder：Memory Encoder和Query Encoder，其分别提取记忆帧和当前图像帧的特征，其中，Memory Encoder除了输入了记忆帧地RGB image以外，还输入了对应的object mask，需要说明的是，图3所示的Top-k框所做操作为将KM和KQ相乘的结果(即上述第一组合矩阵)的每一列的值从大到小进行排序，并得到排序后的前K个值；Softmax框所作操作是通过Softmax函数对每一列的前K个值进行归一化处理；Scatter框所作的操作是将上述组合矩阵中原始K个值的位置替换为各自位置归一化处理后的值(位置指示信息指示了K个值的位置)，并将其他位置的值设置为0。本实施例通过Top-k筛选，可以减少噪声的影响，提升性能和速度。

根据本公开的示例性实施例，上述传播网络可以通过如下训练得到的：获取第二训练样本集，其中，第二训练样本集包括多个训练图像、多个训练图像分别对应的目标掩膜、至少一个参考图像和参考图像对应的目标掩膜，至少一个参考图像具有相同的目标对象，训练图像对应的目标掩膜是训练图像中目标对象的区域的真值，参考图像对应的目标掩膜是参考图像中目标对象的区域的真值；将训练图像输入到传播网络的查询编码器，得到训练图像的key矩阵和value矩阵；将至少一个参考图像和对应的目标掩膜输入到传播网络的记忆编码器，得到至少一个参考图像的key矩阵和value矩阵；将训练图像的key矩阵和至少一个参考图像的key矩阵相乘，得到组合矩阵；对于组合矩阵中每一列，获取组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将组合矩阵中前K个值所在位置以外的位置上的值设为零；将处理后的组合矩阵与至少一个参考图像的value矩阵相乘后，再与训练图像的value矩阵进行级联，得到级联矩阵；将级联矩阵输入到传播网络的解码器，得到训练图像中目标对象的预估掩膜；基于预估掩膜和训练图像对应的目标掩膜，确定目标损失函数；通过目标损失函数调整查询编码器、记忆编码器和解码器的参数，对传播网络进行训练。通过本实施例，可以快速的完成训练且训练过程中引入了top-k策略，减少了噪声的影响，提高训练后的网络的性能和速度。

例如，可以将过去带有分割结果的若干帧作为记忆帧(即上述至少一个参考图像)，然后利用它们通过基于注意力机制的记忆读取操作来预测当前帧(即上述训练图像)的目标掩膜(object mask)。具体地，如图3所示，传播网络可以采用STM算法，并在STM算法中集成top-k策略，该操作无需复杂的训练技巧，同时可提高算法预测性能和速度。传播网络的基础网络可以使用两个编码器和一个解码器，两个编码器Encoder为记忆编码器(Memory Encoder)和查询编码器(Query Encoder)，其分别提取记忆帧和训练图像的特征，其中，Memory Encoder除了输入了记忆帧地RGB image以外，还输入了对应的object mask，需要说明的是，图3所示的Top-k框所做操作为将K^M和K^Q相乘的结果(即上述组合矩阵)的每一列的值从大到小进行排序，并得到排序后的前K个值；Softmax框所作操作是通过Softmax函数对每一列的前K个值进行归一化处理；Scatter框所作的操作是将上述组合矩阵中原始K个值的位置替换为各自位置归一化处理后的值(位置指示信息指示了K个值的位置)，并将其他位置的值设置为0。本实施例通过Top-k筛选，可以减少噪声的影响，提升性能和速度。

在步骤S203中，从多个图像帧中提取第二图像帧，并基于第二图像帧的掩膜，确定多个图像帧的第二掩膜。

根据本公开的示例性实施例，从多个图像帧中提取第二图像帧，包括：确定多个图像帧中第一掩膜不满足预设条件的图像帧；从第一掩膜不满足预设条件的图像帧中提取一个图像帧，作为第二图像帧。这里预设条件根据实际需要设定，可以是用户基于得到第一掩膜输入的指示，但是本公开对预设的条件并不限定。再有，从第一掩膜不满足预设条件的图像帧中提取一个图像帧，作为第二图像帧可以包括：从第一掩膜不满足预设条件的图像帧中指定一个图像帧，作为第二图像帧，或者，从第一掩膜不满足预设条件的图像帧中随机抽取一个图像帧，作为第二图像帧。通过本实施例，第二图像帧的确定考虑到了上一次处理的结果，可以提高后续目标图像帧的掩膜的准确度。

根据本公开的示例性实施例，在基于第二图像帧的掩膜，确定多个图像帧的第二掩膜之前，还包括：获取第二图像帧对应的第二交互信息，其中，第二交互信息为标示出第二图像帧的目标对象的区域的信息；基于第二图像帧、第二交互信息和第二预定掩膜，得到第二图像帧的掩膜，其中，第二预定掩膜是基于第二图像帧对应的第一掩膜确定的。通过本实施例，第二预定掩膜的确定考虑到了上一次处理的结果，基于该第二预定掩膜获取第二图像帧的掩膜，从而获取的第二图像帧的掩膜可以提高后续目标图像帧的掩膜的准确度。

根据本公开的示例性实施例，基于第二图像帧的掩膜，确定多个图像帧的第二掩膜，包括：将多个图像帧中除第二图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第二图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第二组合矩阵；对于第二组合矩阵中每一列，获取第二组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第二组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第二组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第二组合矩阵分别与第二图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第二级联矩阵；基于其他图像帧中每个图像帧的第二级联矩阵，得到其他图像帧中每个图像帧的第二掩膜。通过本实施例，引入了top-k策略，减少了噪声的影响，提高了获取第一掩膜的速度。需要说明的是，第二图像帧的第二掩膜可以采用上述获取的第二图像帧的掩膜。

对于第二掩膜的获取过程与第一掩膜的获取过程类似，具体过程可以参考第一掩膜的获取，此处不再展开论述。

在步骤S204中，基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜。

根据本公开的示例性实施例，基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜，包括：基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜。根据本实施例，第一掩膜和第一掩膜的融合不再是简单的线性融合，其考虑了第二图像帧的第一掩膜和第二掩膜，也就是考虑到了参考图像帧的差异信息，可以获取很好的融合结果，提高了所获取的掩膜的准确性。

根据本公开的示例性实施例，基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜，包括：对第二图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；将目标图像帧、第二图像帧的第一掩膜和第二掩膜输入到时空记忆器，得到目标图像帧中目标对象的掩膜；将差异矩阵与目标图像帧中目标对象的掩膜相乘，得到目标图像帧的差异信息；将目标图像帧对应的第一掩膜和第二掩膜、目标图像帧、差异信息输入到单层卷积网络，得到目标图像帧的掩膜。通过本实施例，融合过程中利用了时空记忆器机制，可以获取更精细的感兴趣目标。

根据本公开的示例性实施例，单层卷积网络的输入还包括：线性系数，其中，线性系数是基于目标图像帧的帧索引和第二图像帧的帧索引确定的。通过本实施例，引入了线性系数，可以缓解传播过程中(也即获取)的衰退现象。

例如，上述融合过程可以通过融合网络实现，即将目标图像帧的第一掩膜、目标图像帧在当前处理中传播网络输出的第二掩膜、目标图像帧、第二图像帧的第一掩膜和在当前处理中如下的分割网络输出的第二掩膜输入到融合网络中，得到目标图像帧融合后的掩膜。具体地，对第一图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；将目标图像帧、第二图像帧的第一掩膜和第二掩膜输入到融合网络中的时空记忆器，得到目标图像帧中目标对象的掩膜；将差异矩阵与目标图像帧中目标对象的掩膜相乘，得到目标图像帧的差异信息；将目标图像帧的第一掩膜和第二掩膜、目标图像帧、差异信息输入到融合网络中的单层卷积网络，得到融合后的掩膜。通过本实施例，融合过程利用了时空记忆器机制，可以获取更精细的感兴趣目标的分割结果。

又例如，上述融合网络(也可以称为Difference-Aware Fusion)，可准确捕捉用户的意图来调和交互和传播，并且可以减轻解耦过程中的信息损失，从而使分割结果既准确又高效。下面结合图4对上述融合过程进行详细论述，为了方便理解，下面对后续会使用到的元素进行介绍：当前交互回合记为r(即当前处理过程)，第r回合中用户交互的图像帧索引记为t^r，第r回合的目标掩膜mask记为M^r，第r回合中第j帧的mask记为

第r回合中第j帧图像帧记为I_j，第r回合中预定图像帧(也即交互帧)为第a帧。

如图4所示，在预定图像帧

交互前后mask difference的引导下，当前回合的每个图像帧的目标掩膜

和前一回合每个图像帧的目标掩膜

进行融合：

首先，用户的修正(即上述差异矩阵)可以通过预定图像帧前后两个回合的目标掩膜来进行获取：

其次，为了将预定图像帧前后两回合的目标掩膜对齐到当前图像帧中，此时可以使用之前的STM模块的部分，将预定图像帧作为memory(即记忆帧)，而当前帧作为query，此时，便可得到对齐后的当前帧的mask差异信息：

A⁺＝WD⁺ A^-＝WD^- (2)

再有，如图4所示，上述融合过程中传统的线性系数也可以使用，以缓解传播过程中可能的衰退现象，具体地线性系数可以通过如下公式确定：

其中，

是第r回合的预定图像帧的索引，

是第r回合的当前图像帧的索引，

是第r-1回合的预定图像帧的索引。

最终，得到的多个特征将会送入一个五层残差网络(即上述单层卷积网络)中得到当前帧的目标掩膜：

根据本公开的示例性实施例，上述融合网络可以通过如下训练得到的：获取第三训练样本集，其中，第三训练样本集包括多个训练视频、多个训练视频中每个图像帧分别对应的目标掩膜、多个训练视频中每个图像帧分别对应的交互信息和预定掩膜，目标掩膜是图像帧中目标对象的区域的真值，交互信息为标示出训练图像的目标对象的区域的信息；针对训练视频执行两次以下处理，以得到训练视频的每一个图像帧两次处理对应的预估掩膜：将训练视频中预定图像帧、预定图像帧对应的交互信息和预定掩膜输入到分割网络，得到预定图像帧在当前处理中得到的预估掩膜；将预定图像帧的预估掩膜、训练视频中所有图像帧输入到传播网络，得到训练视频中除预定图像帧以外的其他图像帧在当前处理中得到的预估掩膜；对于与第二次处理中的预定图像帧相邻的预定个数的图像帧中的每个图像帧，将图像帧在上一次处理得到中的掩膜、图像帧在当前处理中传播网络输出的预估掩膜、图像帧、预定图像帧在上一次处理中得到的预估掩膜和在当前处理中分割网络输出的预估掩膜输入到融合网络中，得到融合后的预估掩膜；基于融合后的预估掩膜和预定个数的图像帧对应的目标掩膜，确定目标损失函数；通过目标损失函数调整融合网络的参数，对传播网络进行训练。通过本实施例，可以快速的完成训练。

需要说明的是，如图2所示的方法只表述两次处理(即只获取了第一掩膜和第二掩膜)，实际应用中不仅限于两次处理，在获取第二掩膜后，还有可能获取第三掩膜，而只要在第二次处理后的每次处理均进行融合操作，也即上述步骤S204，只是将原来的第一掩膜替换为原来的第二掩膜，原来的第二掩膜替换为第三掩膜，同时第二图像帧替换为第三图像帧，第三图像帧获取的方式与第二图像帧获取的方式相似，此处不再展开论述。

具体地，针对待处理视频，执行至少一次以下处理，以得到待处理视频的每一个图像帧的至少一个目标掩膜：将待处理视频中预定图像帧(也即上述第一图像帧或第二图像帧)、预定图像帧对应的交互信息和预定掩膜输入到分割网络，得到预定图像帧在当前处理中得到的目标掩膜；将预定图像帧的目标掩膜、待处理视频中所有图像帧输入到传播网络，得到待处理视频中除预定图像帧以外的其他图像帧在当前处理中得到的目标掩膜(也即上述第二掩膜)；其中，在针对待处理视频执行了至少两次处理的情况下，在第二次处理开始的每一次处理后，还执行：对于与当前处理中预定图像帧相邻的预定个数的图像帧中每个图像帧，将图像帧在上一次处理中得到的目标掩膜(也即第一掩膜)、图像帧在当前处理中传播网络输出的目标掩膜(也即第二图像帧)、图像帧、预定图像帧在上一次处理中得到的目标掩膜和在当前处理中分割网络输出的目标掩膜输入到融合网络中，得到融合后的目标掩膜，作为图像帧在当前处理中得到的目标掩膜(也即上述目标图像帧的掩膜)；将最后一次处理中得到的每一个图像帧的目标掩膜作为待处理视频的每一个图像帧的目标掩膜(包括目标图像帧的掩膜和除目标图像帧以外的图像帧的掩膜)。需要说明的是，在本步骤中，执行至少一次处理时每次处理之间的触发条件可以是当待处理视频中所有图像帧的在当前处理中的目标掩膜中任一个不满足用户预设的条件时(这里预设的条件可以是用户基于得到目标掩膜而输入的指示)，则进行下一次处理。下次处理的预定图像帧可以是目标掩膜不满足用户预设的条件的图像帧中的一个。再有，在针对待处理视频执行了至少两次处理的情况下，如果当前处理对应的融合后的目标掩膜和待处理视频中除预定个数的图像帧以外的其他图像帧在当前处理中所述传播网络输出的目标掩膜均满足预定条件，将当前处理对应的融合后的目标掩膜和待处理视频中除预定个数的图像帧以外的其他图像帧在当前处理中所述传播网络输出的目标掩膜，确定为待处理视频的最终的目标掩膜，也即此时的当前处理未最后一次处理，其中，预定条件基于接收到的用户指示确定，通过该过程可以基于用户的指示确定融合的结果是否符合要求，从而可以获取到更符合用户需求的目标掩膜。

在步骤S205中，基于目标图像帧的掩膜对目标图像帧进行处理。上述多个图像帧中除目标图像帧以外的图像帧的掩膜可以采用第二掩膜。

例如，以图像分割为例进行说明，基于目标图像帧的掩膜对目标图像帧进行分割处理，对于上述多个图像帧中除目标图像帧以外的图像帧可以采用第二掩膜进行分割处理，如，可以将待处理视频中每个图像帧与对应的掩膜相乘，得到分割结果。

根据本公开的示例性实施例，上述分割网络是通过如下训练得到的：获取第一训练样本集，其中，第一训练样本集包括多个训练图像、多个训练图像分别对应的目标掩膜、多个训练图像分别对应的交互信息和预定掩膜，训练图像对应的目标掩膜是训练图像中目标对象的区域的真值，训练图像对应的交互信息为标示出训练图像的目标对象的区域的信息，预定掩膜设为零或者训练图像通过随机膨胀腐蚀操作后的真值；将训练图像、训练图像对应的交互信息和预定掩膜输入到分割网络，得到训练图像中目标对象的预估掩膜；基于预估掩膜和第一训练样本中对应的目标掩膜确定目标损失函数；通过目标损失函数调整分割网络的参数，对分割网络进行训练。通过本实施例，可以快速的完成训练，且可以训练出适应多种交互模式的分割网络。

例如，在该阶段中，可以训练得到Scribble-to-Mask(S2M)network来实时交互的生成单帧的目标掩膜(object mask)，训练好的S2M网络的输入可以包括6个信道(channel)：RGB图片、已有的mask结果(即上述预定掩膜)和正负scribble maps(即上述交互信息)，输出可以包括目标掩膜。可以采用DeepLabV3+语义分割网络作为训练好的S2M网络的基础网络，然后利用简单的单轮(single-round)方式结合静态图片数据进行训练，训练主要基于静态图片(static image)完成。具体地，可以预先获取多个静态图片，可以基于点击、涂鸦和局部refine方式标注该多个静态图片来获取对应静态图片中关于目标对象的交互信息，同时，还可以获取该多个静态图片中目标对象的区域的真值，将上述获取的多个静态图片、对应的交互信息和真值合并为训练样本集，通过该训练样本集对分割网络进行相应的训练。需要说明的是，由于实际应用中，需要关注上次处理的结果，所以增设了预定掩膜这一个输入口，由于本次训练采用的单轮(single-round)方式进行训练，并不会涉及上一次处理的结果，因此，本次训练中预定掩膜可以统一设置为mask设置为zeros或者是通过随机膨胀腐蚀操作后的GT，单独训练分割网络可以在交互方式上有更强的通用性，如可以基于点击、涂鸦和局部refine方式来进行高效和精确地分割。

根据本公开的示例性实施例，上述分割网络、传播网络和融合网络可以组成视频目标分割模型，以便后续用来对视频进行分割，而且分割网络、传播网络和融合网络是单独进行训练得到的。通过本实施例，可以克服目前iVOS算法将交互式感知和帧间掩膜传递结合在一起进行训练，这种强耦合训练限制用户交互形式的多样性且模型较大训练较难的问题，通过将上述任务分开训练，使得训练更容易，且由于单独训练，使得分割网络可以适应多种交互模式。再有，一些尝试着解耦相关技术中两项任务的算法，由于在帧间掩膜传播过程中未能充分考虑用户的意图，无法取得很好分割性能，本实施例分开训练也克服该问题。

为了更好的理解上述实施例，下面对视频目标分割模型的应用进行详细说明，如图5所示，应用方法的框架可以分为三个部分，分别是单帧图片交互分割(interaction-to-mask，也即上述的分割网络)、帧间目标掩膜传播(mask propogation，也即上述的传播网络)和帧间差异感知融合(difference-aware fusion，也即上述融合网络)。首先，用户利用涂鸦或点击等方式交互生成待处理视频中预定图像帧中的感兴趣区域的信息(即交互信息)，并将该交互信息、该预定图像帧和已有掩膜输入到interaction-to-mask中，得到该预定图像帧的目标掩膜object mask，在该目标掩膜符合用户所需时，基于该预定图像帧的目标掩膜自动生成待处理视频中每一帧的目标掩膜，最后，用户可以基于得到的目标掩膜评估分割质量，并通过交互方式纠正错误的分割区域(也即通过分割网络得到出错的图像帧的目标掩膜)，再将纠正的图像帧(即下一次处理的预定图像帧)的目标掩膜object mask传播到其他图像帧中，反复这个过程，直至得到的目标掩膜用户满意为止。

本公开还在DAVIS 2020交互分割赛道数据集上对上述实施例进行了验证，消融实验证明了上述实施例中的每一个网络对最终性能都起到了很好的促进作用，如表1所示；同时，也做了大量的定量定性的对比实验，表明上述实施例的方法(MiVOS)可以在更少的交互回合下获取更优的分割性能，如表2和图6所示。

表1消融实验结果

表2 MiVOS和其他算法的定量对比

综上，本公开对iVOS当下问题进行了深入研究，并提出了一种简单有效且通用性强的解耦模块化交互视频分割框架，可以包括三个模块，分别是单帧图片交互分割(interaction-to-mask)、帧间目标掩膜传播(mask propogation)和帧间差异感知融合(difference-aware fusion)。在本公开中，上述三个模块均单独进行训练，从而经过单独训练的interaction-to-mask模块可以让用户更便捷地获取其感兴趣目标的掩膜(objectmask)，然后由mask propogation模块使用top-k过滤策略，将已获取的object mask在视频中object mask对应图像帧的前后帧间传播，自动获取视频中前后多帧中感兴趣目标的掩膜，最后，difference-aware fusion模块利用时空记忆器机制(space-time memory)融合每次交互后的object mask，从而获取更精细的感兴趣目标分割结果。基于不同形式的用户交互(例如，涂抹，点击)模式，本公开在DAVIS数据集上进行了定性和定量评估，实验表明该本公开的方法在较少的帧交互的情况下可以获得精确的分割结果，胜过相关技术中其他算法。同时，本公开还提供了一个大规模合成VOS数据集-BL30K，以促进该领域进一步的研究，该数据集包括了4.8M帧数据，并提供了像素级别的标注信息，这是迄今为止最大的公开VOS数据集，表3是该数据集中部分字段，图7是该数据集的示例图。、

表3数据集-BL30K部分字段

图8是根据一示例性实施例示出的一种视频处理装置的框图。参照图8，视频处理装置包括：视频获取单元80、第一掩膜获取单元82、第二掩膜获取单元84、第三掩膜获取单元86和处理单元88。

视频获取单元80，被配置为获取待处理视频，其中，待处理视频中包括多个图像帧；第一掩膜获取单元82，被配置为从多个图像帧中提取第一图像帧，并基于第一图像帧的掩膜，确定多个图像帧的第一掩膜；第二掩膜获取单元84，被配置为从多个图像帧中提取第二图像帧，并基于第二图像帧的掩膜，确定多个图像帧的第二掩膜；第三掩膜获取单元86，被配置为基于第二图像帧的第一掩膜和第二掩膜、与第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定目标图像帧的掩膜；处理单元88，被配置为基于目标图像帧的掩膜对目标图像帧进行处理。

根据本公开的示例性实施例，第三掩膜获取单元86，还被配置为基于第二图像帧的第一掩膜和第二掩膜，将第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到目标图像帧的掩膜。

根据本公开的示例性实施例，第三掩膜获取单元86，还被配置为对第二图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；将目标图像帧、第二图像帧的第一掩膜和第二掩膜输入到时空记忆器，得到目标图像帧中目标对象的掩膜；将差异矩阵与目标图像帧中目标对象的掩膜相乘，得到目标图像帧的差异信息；将目标图像帧对应的第一掩膜和第二掩膜、目标图像帧、差异信息输入到单层卷积网络，得到目标图像帧的掩膜。

根据本公开的示例性实施例，单层卷积网络的输入还包括：线性系数，其中，线性系数是基于目标图像帧的帧索引和第二图像帧的帧索引确定的。

根据本公开的示例性实施例，第一掩膜获取单元82，还被配置为在基于第一图像帧的掩膜，确定多个图像帧的第一掩膜之前，获取第一图像帧对应的第一交互信息，其中，第一交互信息为标示出第一图像帧的目标对象的区域的信息；基于第一图像帧、第一交互信息和第一预定掩膜，得到第一图像帧的掩膜，其中，第一预定掩膜是零或者第一图像帧通过随机膨胀腐蚀操作后的真值。

根据本公开的示例性实施例，第二掩膜获取单元84，还被配置为在基于第二图像帧的掩膜，确定多个图像帧的第二掩膜之前，获取第二图像帧对应的第二交互信息，其中，第二交互信息为标示出第二图像帧的目标对象的区域的信息；基于第二图像帧、第二交互信息和第二预定掩膜，得到第二图像帧的掩膜，其中，第二预定掩膜是基于第二图像帧对应的第一掩膜确定的。

根据本公开的示例性实施例，第一掩膜获取单元82，还被配置为将多个图像帧中除第一图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第一图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第一组合矩阵；对于第一组合矩阵中每一列，获取第一组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第一组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第一组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第一组合矩阵分别与第一图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第一级联矩阵；基于其他图像帧中每个图像帧的第一级联矩阵，得到其他图像帧中每个图像帧的第一掩膜。

根据本公开的示例性实施例，第二掩膜获取单元84，还被配置为将多个图像帧中除第二图像帧以外的其他图像帧中每个图像帧的键矩阵分别和第二图像帧的键矩阵相乘，得到其他图像帧中每个图像帧的第二组合矩阵；对于第二组合矩阵中每一列，获取第二组合矩阵的当前列的值从大到小进行排序后的前K个值，其中，K为正整数；通过归一化指数函数对前K个值进行归一化处理，并将第二组合矩阵中前K个值所在位置的值替换为归一化处理后的前K个值；将第二组合矩阵中前K个值所在位置以外的位置上的值设为零；将其他图像帧中每个图像帧处理后的第二组合矩阵分别与第二图像帧的键值矩阵相乘后，再分别与对应的图像帧的键值矩阵进行级联，得到其他图像帧中每个图像帧的第二级联矩阵；基于其他图像帧中每个图像帧的第二级联矩阵，得到其他图像帧中每个图像帧的第二掩膜。

根据本公开的示例性实施例，第一掩膜获取单元82，还被配置从多个图像帧中随机抽取一个图像帧，作为第一图像帧。

根据本公开的示例性实施例，第二掩膜获取单元84，还被配置确定多个图像帧中第一掩膜不满足预设条件的图像帧；从第一掩膜不满足预设条件的图像帧中提取一个图像帧，作为第二图像帧。

根据本公开的实施例，可提供一种电子设备。图9是根据本公开实施例的一种电子设备900的框图，该电子设备包括至少一个存储器901和至少一个处理器902，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的视频处理方法。

作为示例，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器902还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器902可运行存储在存储器中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器901可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器901中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的视频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频，其中，所述待处理视频中包括多个图像帧；

从所述多个图像帧中提取第一图像帧，并基于所述第一图像帧的掩膜，确定所述多个图像帧的第一掩膜；

从所述多个图像帧中提取第二图像帧，并基于所述第二图像帧的掩膜，确定所述多个图像帧的第二掩膜；

基于所述第二图像帧的第一掩膜和第二掩膜、与所述第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定所述目标图像帧的掩膜；

基于所述目标图像帧的掩膜对所述目标图像帧进行处理。

2.如权利要求1所述的视频处理方法，其特征在于，所述基于所述第二图像帧的第一掩膜和第二掩膜、与所述第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定所述目标图像帧的掩膜，包括：

基于所述第二图像帧的第一掩膜和第二掩膜，将所述第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到所述目标图像帧的掩膜。

3.如权利要求2所述的视频处理方法，其特征在于，所述基于所述第二图像帧的第一掩膜和第二掩膜，将所述第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜进行融合，得到所述目标图像帧的掩膜，包括：

对所述第二图像帧的第一掩膜和第二掩膜做减法处理，得到差异矩阵；

将所述目标图像帧、所述第二图像帧的第一掩膜和第二掩膜输入到时空记忆器，得到所述目标图像帧中目标对象的掩膜；

将所述差异矩阵与所述目标图像帧中目标对象的掩膜相乘，得到所述目标图像帧的差异信息；

将所述目标图像帧对应的第一掩膜和第二掩膜、所述目标图像帧、所述差异信息输入到单层卷积网络，得到所述目标图像帧的掩膜。

4.如权利要求3所述的视频处理方法，其特征在于，所述单层卷积网络的输入还包括：线性系数，其中，所述线性系数是基于所述目标图像帧的帧索引和所述第二图像帧的帧索引确定的。

5.如权利要求1所述的视频处理方法，其特征在于，在基于所述第一图像帧的掩膜，确定所述多个图像帧的第一掩膜之前，还包括：

获取所述第一图像帧对应的第一交互信息，其中，所述第一交互信息为标示出所述第一图像帧的目标对象的区域的信息；

基于所述第一图像帧、所述第一交互信息和第一预定掩膜，得到所述第一图像帧的掩膜，其中，所述第一预定掩膜是零或者所述第一图像帧通过随机膨胀腐蚀操作后的真值。

6.如权利要求1所述的视频处理方法，其特征在于，在基于所述第二图像帧的掩膜，确定所述多个图像帧的第二掩膜之前，还包括：

获取所述第二图像帧对应的第二交互信息，其中，所述第二交互信息为标示出所述第二图像帧的目标对象的区域的信息；

基于所述第二图像帧、所述第二交互信息和第二预定掩膜，得到所述第二图像帧的掩膜，其中，所述第二预定掩膜是基于所述第二图像帧对应的第一掩膜确定的。

7.一种视频处理装置，其特征在于，包括：

视频获取单元，被配置为获取待处理视频，其中，所述待处理视频中包括多个图像帧；

第一掩膜获取单元，被配置为从所述多个图像帧中提取第一图像帧，并基于所述第一图像帧的掩膜，确定所述多个图像帧的第一掩膜；

第二掩膜获取单元，被配置为从所述多个图像帧中提取第二图像帧，并基于所述第二图像帧的掩膜，确定所述多个图像帧的第二掩膜；

第三掩膜获取单元，被配置为基于所述第二图像帧的第一掩膜和第二掩膜、与所述第二图像帧相邻的目标图像帧对应的第一掩膜和第二掩膜，确定所述目标图像帧的掩膜；

处理单元，被配置为基于所述目标图像帧的掩膜对所述目标图像帧进行处理。

8.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频处理方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的视频处理方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的视频处理方法。