CN116977194A

CN116977194A - 一种视频处理方法、装置及计算机设备、存储介质

Info

Publication number: CN116977194A
Application number: CN202310085738.1A
Authority: CN
Inventors: 黄雅雯; 李悦翔; 张鹏; 段皓然; 龙洋; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-10-31

Abstract

本申请公开了一种视频处理方法、装置及计算机设备、存储介质，其中，方法包括：获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列；调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息；基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。通过该方法，将待处理视频的光流信息和像素信息进行多模态融合处理，可以提升视频修复的效率和质量。

Description

一种视频处理方法、装置及计算机设备、存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、一种视频处理、一种计算机设备以及一种计算机可读存储介质。

背景技术

视频修复技术，旨在用合成的内容填充包含多个帧的给定视频的损坏区域。该技术对于一系列广泛的真实世界应用至关重要，例如视频恢复、徽标移除、视频编辑、对象移除和视频稳定。尽管视频修复技术研究越来越受到关注和关注，但视频中复杂的物体运动和动态相机运动仍然具有挑战性。

目前，大多数视频修复技术通常强调从空间或时间的视角进行视频修复，然而得到的修复视频的质量不高，如修复的视频不够准确、不够清晰等等。且有的技术为了提高视频修复的质量，设计的网络模型的结构非常复杂，需要大量的数据处理时间，导致效率比较低。

在这种情况下，怎样提升对视频修复的效率和质量成为亟待解决的技术问题。

发明内容

本申请实施例提供了一种视频处理方法、装置及计算机设备、存储介质，将待处理视频的光流信息和像素信息进行多模态融合处理，可以提升视频修复的效率和质量。

本申请实施例一方面公开了一种视频处理方法，该方法包括：

获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列；

调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息；

基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；

调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频。

本申请实施例一方面公开了一种视频处理装置，该装置包括：

获取单元，用于获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列；

处理单元，用于调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息；

所述处理单元，还用于基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；

所述处理单元，还用于调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频。

本申请实施例一方面公开了一种计算机设备，该计算机设备包括：处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行以上述的视频处理方法。

本申请实施一方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行上述的视频处理方法。

本申请实施例一方面公开了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的视频处理方法。

本申请实施例中，获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列；调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息；也就是同时处理，得到了待处理视频的光流特征信息和像素特征信息，即时间信息和空间信息，获取了更丰富的视频信息。然后基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；将光流特征信息和像素特征信息进行融合，可以获得光流和像素的增强信息融合信息，有利于提升视频修复的质量；最后调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。一方面，本申请实施例的视频处理模型可以同时对像素特征信息和光流特征信息进行处理，实现数据的快速处理，从而提升了视频修复的效率；另一方面，将光流特征信息和像素特征信息进行多模态融合处理，再进行视频修复，可以使得到的修复后的视频的质量更高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种视频处理系统的网络架构示意图；

图2是本申请实施例公开的一种视频处理模型的架构图；

图3是本申请实施例公开的一种视频处理方法的流程示意图；

图4是本申请实施例公开的又一种视频处理方法的框架图；

图5是本申请实施例公开的一种视频处理模型的训练过程的示意图；

图6a是本申请实施例公开的一种实验结果对比图；

图6b是本申请实施例公开的另一种实验结果对比图；

图7是本申请实施例公开的一种视频处理装置的结构示意图；

图8是本申请实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

视频修复技术旨在用合成内容填充包含多个帧的给定视频的损坏区域，该技术对于一系列广泛的真实世界应用至关重要，例如视频恢复、徽标移除、视频编辑、对象移除和视频稳定。尽管视频修复研究越来越受到关注和关注，但视频中复杂的物体运动和动态相机运动仍然具有挑战性。

现在，已经出现了大量的视频修复技术。一种是从已知区域获得直接的外观知识，以完成图像消隐。根据该技术，一些算法通过应用来自相关已知区域和其他相关图像的补丁来完成图像的目标缺失空白。与图像修复相比，视频修复任务的主要核心挑战是时域。因此，一些执行传统上述算法来解决视频修复任务的工作是不够的。同时，为了解决动态视频的难点，可以将运动场应用于空白区域。但这样一来，复杂度和高计算便是更大的挑战和限制。另一种是将基于学习的算法应用于视频修复。首先，直接执行神经网络来应用于修复。然后，集中于卷积神经网网络的算法来生成视觉，例如生成对抗网络(GAN)。基于GAN，通过训练的修复网络可以完成大规模缺失空白区域。进一步的，还可以在修复任务中通过全局和局部鉴别器和注意力算法的对抗性损失对GAN进行改进。使用基于每帧加权求和的逐帧注意力，但由于依赖于全局帧的仿射变换，很难控制复杂的运动。缺失的区域可以在逐像素注意力之后逐步填充，但很难确保每次递归的一致注意力结果。为了进一步提升效果，还将自注意力算法应用到GAN结构中，以添加时间内容。

尽管这些算法获得了很好的性能，但现有的视频修复算法很少同时覆盖足够的空间和全时间内容。基于此，为了高质量的进行视频修复，本申请实施例提供了一种视频处理方法，所用到的视频处理模型包含了编码模块(双激励编码器)、基于光流和像素的双模态融合转换模块。一方面，通过编码模块，可以尽可能地探索和捕获视频序列的光流时空信息和内容，还可以获得视频序列的像素的时空信息和内容。另一方面，可以在双模态融合转换模块内合理地组合两种不同的视角，可以覆盖足够的空间内容，例如，不同帧中的复杂运动和外观变化，而光流特征信息也可以为此提供更多的时间内容。

在可行的实施例中，本申请实施例提供的视频处理方法可以基于人工智能(Artificial Intelligence，AI)技术实现，AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科，其涉及的领域较为广泛；而本申请实施例提供的视频处理方法主要涉及AI技术中的机器学习(Machine Learning，ML)技术来实现视频处理模型的训练。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在可行的实施例中，本申请实施例提供的视频处理方法还可以基于云技术(CloudTechnology)和/或区块链技术实现。具体可以涉及云技术中的云存储(Cloud Storage)、云数据库(Cloud Database)、大数据(Big Data)中的一种或者多种。例如，从云数据库中获取执行该视频处理方法所需要的数据(例如待处理视频的、视频处理模型以及目标样本视频等等)。又例如，执行该视频处理方法所需要的数据可以是以区块的形式存储在区块链上；可以将执行该视频处理方法所产生的数据(例如视频处理模型、修复后的待处理视频等)以区块的形式存储到区块链上；另外，执行该视频处理方法的数据处理设备可以是区块链网络中的节点设备。

请参见图1，图1为本申请实施例的一种视频处理系统的架构示意图，如图1所示，该视频处理系统100可以至少包括多个第一终端设备101、多个第二终端设备102以及服务器103，其中，第一终端设备101和第二终端设备102可以是相同的设备，也可以是不同的设备。其中，第一终端设备101和第二终端设备102主要用于发送待处理视频以及接收修复后的待处理视频；服务器103主要用于执行视频处理方法的相关步骤，包括视频处理模型的训练和预测，在预测过程就是对待处理视频进行处理修复处理，得到修复后的修复的待处理视频。第一终端设备101、第二终端设备102以及服务器103可以实现通信连接，其连接方式可以包括有线连接和无线连接，在此不进行限定。

在一种可能的实现方式中，上述所提及的任一第一终端设备101和任一第二终端设备102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此；上述的服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。图1只是示例性地表征视频处理系统的网络架构图，并不对此进行限定。例如，图1中服务器103可以部署成区块链网络中的节点，或者将服务器103接入区块链网络，使得服务器103可将视频处理模型以及修复后的待处理视频上传至区块链网络进行存储，以防止内部数据被篡改，从而保证数据安全性。

结合上述视频处理系统，本申请实施例的视频处理方法大致可以包括：获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列；调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息；也就是同时处理，得到了待处理视频的光流特征信息和像素特征信息，即时间信息和空间信息，获取了更丰富的视频信息。然后基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；将光流特征信息和像素特征信息进行融合，可以获得光流和像素的增强信息融合信息，有利于提升视频修复的质量；最后调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。一方面，本申请实施例的视频处理模型可以同时对像素特征信息和光流特征信息进行处理，实现数据的快速处理，从而提升了视频修复的效率；另一方面，将光流特征信息和像素特征信息进行多模态融合处理，再进行视频修复，可以使得到的修复视频的质量更高。

在一种可能的实现方式中，第一终端设备101和第二终端设备102可以是相同的设备，以第一终端设备101为例，具体的场景可以是第一终端设备101接收到待处理视频，然后上传给服务器103，服务器103采用本申请实施例提供的视频处理方法对待处理视频进行修复，得到修复后的待处理视频，并将修复后的待处理视频返回给第一终端设备101。这种场景可以多应用于修复应用程序，即用户导入待处理视频到视频修复应用程序中，根据应用程序界面中的相关导航进行点击修复，并在该应用程序的界面中显示修复后的待处理视频。

在另一种可能的实现方式中，第一终端设备101和第二终端设备102可以是不同的设备，具体的场景可以是第一终端设备101接收到待处理视频(用户A输入的待修复的视频)，然后上传给服务器103，服务器103采用本申请实施例提供的视频处理方法对待处理视频进行修复，得到修复后的待处理视频，并将修复后的待处理视频发送到第二终端设备102。这种场景多用于视频发布，第一终端设备侧的是发布者，第二终端设备侧的观众。

可以理解的是，在本申请的具体实施方式中，涉及到的与视频处理方法相关的数据，如待处理视频、视频处理模型以及模型训练时的目标样本视频等相关的数据，当本申请实施例运用到具体产品或技术中时，相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

基于上述对视频处理系统的网络架构的阐述，本申请实施例公开了一种视频处理方法。在对视频处理方法进行阐述之前，先对视频处理模型进行介绍，请参见图2，是本申请实施例公开的一种视频处理模型的架构图，该视频处理模型如图2中的虚线框所示，包括光流特征提取器、编码模块、双模态融合转换模块以及解码模块，其中，编码模块又可以包括光流激励编码器和像素激励编码器，双模态融合转换模块又可以包括光流转换器和像素转换器，解码模块又可以包括光流解码器和像素解码器。输入是待处理视频，输出是修复后的待处理视频，本申请中的视频处理模型可以命名为FDTN(Flow Enhanced DualTransformer)。基于此，本申请实施例公开的一种视频处理方法的流程示意图可以参见图3，该视频处理方法可以由计算机设备执行的，该视频处理方法包括但不仅限于以下步骤：

S310：获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列。

在一种可能的实现方式中，计算机设备先获取待处理视频(即需要修复的视频)，然后按照设定的帧率，对待处理视频进行采样处理，得到待处理视频的像素图像序列，可以表示为其中，/>表示每帧像素图像，T代表像素图像的帧数，还可以包括每帧像素图像的像素值(取值范围为0～255)；然后调用视频处理模型包括的光流特征提取器对待处理视频的像素图像序列进行光流特征提取，得到像素图像序列对应的光流图像序列，可以表示为/>其中，T代表光流图像的帧数。需要注意的是，光流特征提取器可以用F_e(.)表示，光流特征提取过程可以表示为/>光流特征提取器是一种光流特征提取卷积神经网络，通过这光流特征提取卷积神经网络可以将像素图像转换成光流图像，光流图像凸显的是待处理视频中的时间信息。

其中，待处理视频即需要修复的视频，包括完整的像素图像以及损坏的像素图像(于计算机设备而言，损坏的像素图像就是存在被掩盖的像素图像)，调用视频处理模型对其进行处理，就是为恢复损坏的像素图像。

S320：调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息。

在一种可能的实现方式中，如图2所示，视频处理模型包括编码模块，编码模块包括光流激励编码器和像素激励编码器，因此，调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息，具体包括：调用光流激励编码器对光流图像序列进行特征提取，得到待处理视频的光流特征信息；调用像素激励编码器对像素图像序列进行特征提取，得到待处理视频的像素特征信息。

其中，光流激励编码器和像素激励编码器均是多层卷积网络构成的，因此，是将光流图像序列输入到由多层卷积网络组成的光流激励编码器进行处理，得到待处理视频的光流特征信息，将像素图像序列输入到由多层卷积网络组成的像素激励编码器进行处理，得到待处理视频的像素特征信息。下面就如何得到待处理视频的光流特征信息进行详细的阐述，包括以下步骤：

S321：调用光流激励编码器的卷积网络对光流图像序列进行特征提取，得到待处理视频的初始光流特征图。即将光流图像序列输入到流激励编码器的卷积网络中，得到初始光流特征图，初始光流特征图可以表示为其中，T表示时间步长，H和W分别表示初始光流特征图的高度和宽度，C_f表示光流特征图的通道大小。

S322：根据初始光流特征图中所述光流图像序列中相邻光流图像的光流特征子图之间的差异确定目标时间权重。其中，初始光流特征图可以包括多个子图，即光流图像序列中的每个光流图像对应一个子图。先计算相邻光流图像的光流特征子图之间的差异，然后在时间步长结束时，根据光流图像序列中所有相邻光流图像的光流特征子图之间的差异确定目标差异矩阵，最后根据目标差异矩阵和时间权重算子确定目标时间权重。具体的，相邻光流图像的光流特征子图之间的差异，如F_e(t)和F_e(t+1)之间的差异，可以通过一个时间算子确定，具体可以如公式(1)：

T_f(t)＝E_tem(F_e(t+1)-F_e(t)) (1)

然后在时间步长结束时，将光流图像序列中所有相邻光流图像的光流特征子图之间的差异进行拼接，得到目标差异矩阵，可以表示为然后利用时间权重算子E_exp(.)对目标差异矩阵/>进行处理，得到目标时间权重，表示为/>计算公式如公式(2)：

其中，τ和Pool分别表示sigmoid函数和平均池化。

S323：根据初始光流特征图和目标时间权重确定待处理视频的光流特征信息。由于光流图像本身就已经代表了时间信息的提取，为了进一步的在时间信息进行上进行二次提取，可以通过目标时间权重和初始光流特征图的结合，使得得到的时间信息更为丰富。待处理视频的光流特征信息可以用表示，根据初始光流特征图和目标时间权重确定待处理视频的光流特征信息，可以如公式(3)：

其中，⊙表示逐元素乘法，公式(3)的含义是将初始光流特征图中的每个子图分别和目标时间权重中与子图位置对应的时间权重逐元素相乘，再加上每个子图，最后将所有组合在一起，得到待处理视频的光流特征信息。

同样的，待处理视频的像素特征信息的获取步骤和步骤S321-S323相似，即调用像素流激励编码器的卷积网络对像素图像序列进行特征提取，得到待处理视频的初始像素特征图，然后根据初始像素特征图中像素图像序列中相邻像素图像的像素特征子图之间的差异确定目标空间权重；最后根据初始像素特征图和目标空间权重确定待处理视频的像素特征信息，可以表示为

通过步骤S302，可以从时间和空间两个维度，获取到足够的空间信息和时间信息，并不单一的局限于空间信息和时间信息的一种，使得后续可以将时间信息和空间信息进行结合，以提高视频修复的性能。

S330：基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息。

在一种可能的实现方式中，在确定出待处理视频的光流特征信息和像素特征信息之后，基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到目标自注意力融合矩阵；基于目标自注意力融合矩阵以及光流算子确定光流自注意力融合矩阵，以及基于目标自注意力融合矩阵以及像素算子确定像素自注意力融合矩阵；对所述光流特征信息以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息，对所述像素特征信息以及所述像素自注意力融合矩阵进行融合处理，得到像素融合特征信息。

如图2所示，视频处理模型还包括双模态融合转换模块，双模态融合转换模块包括光流转换器和像素转换器，其中，光流转换器和像素转换器均包括自注意力模块，自注意力模块包括的自注意力层是由transformer块组成，Transformer是一个完全依靠自注意力(Self-attention)而不使用序列对齐的RNN或卷积的方式来计算输入输出表示的转换模型。因此，在确定目标自注意力融合矩阵时，可以是调用光流转换器的自注意力模块对待处理视频的光流特征信息进行特征提取，得到待处理视频的光流特征信息矩阵；调用像素转换器的自注意力模块对待处理视频的像素特征信息进行特征提取，得到待处理视频的像素特征信息矩阵；再基于信息融合算子对光流特征信息矩阵以及像素特征信息矩阵进行融合处理，得到目标自注意力融合矩阵。

进一步的，对于每一个光流转换器和像素转换器的单个transformer层而言，处理过程可以参见图4，包括以下步骤：

S331：在将待处理视频的光流特征信息输入光流转换器之前，将光流特征信息进行划分，若是光流特征信息划分成n块，则n＝H/h*W/w，其中，H和W分别表示待处理视频的光流特征信息(即光流特征图)的高度和宽度，(h,w)表示每个块的大小。然后基于补丁的方法对划分后的光流特征信息进行修补，得到更新后的光流特征信息然后调用光流转换器的自注意力模块对更新后的光流特征信息进行处理，分别得到光流值分量矩阵、光流键分量矩阵以及光流查询分量矩阵，分别可以表示为V_f、K_f、Q_f；其中，光流值分量矩阵是自注意力机制的值权重算子对更新后的光流特征信息进行处理得到的，光流键分量矩阵是自注意力机制的键权重算子对更新后的光流特征信息进行处理得到的，光流查询分量矩阵是自注意力机制的查询权重算子对更新后的光流特征信息进行处理得到的。在光流转换器中，自注意力机制的值权重算子、键权重算子以及查询权重算子可以分别表示为E_v(.)、E_k(.)、E_v(.)，对应的，然后，根据光流键分量矩阵以及光流查询分量矩阵确定出待处理视频的光流特征信息矩阵，表示为/>如公式(4)：

其中，如公式(5)：

同样的，在将待处理视频的像素特征信息输入像素转换器之前，也需要对待处理视频的像素特征信息进行划分，得到更新后的像素特征信息；然后利用值权重算子、键权重算子以及查询权重算子对更新后的像素特征信息进行处理，得到像素值分量矩阵、像素键分量矩阵以及像素查询分量矩阵，分别表示为V_y、K_y、Q_y。然后，根据像素键分量矩阵以及像素查询分量矩阵确定出待处理视频的像素特征信息矩阵

S332：将待处理视频的光流特征信息矩阵和待处理视频的像素特征信息矩阵/>进行融合，得到目标自注意力融合矩阵，可以表示为/>在具体实现时，可以是通过信息融合算子E_fusion(.)将两者进行融合处理，如公式(6)：

其中，[,]表示堆栈操作，信息融合算子E_fusion(.)可以是一个核大小为3的2D卷积网络。其实质是将和/>组合成一个具有两个通道的类图像张量，再由信息融合算子E_fusion(.)对该张量进行处理，得到目标自注意力融合矩阵。通过信息融合算子E_fusion(.)将光流特征信息和像素特征信息进行融合，可以理解成在光流特征信息加入像素特征信息，在像素特征信息中加入了光流特征信息，可以有效的获取丰富的时间信息和空间信息。

S333：基于目标自注意力融合矩阵以及光流算子确定光流自注意力融合矩阵，也即用光流算子E_f(.)对目标自注意力融合矩阵进行处理，得到光流自注意力融合矩阵基于目标自注意力融合矩阵以及像素算子确定像素自注意力融合矩阵，也即用像素算子E_y(.)对目标自注意力融合矩阵进行处理，得到像素自注意力融合矩阵/>

S334：将步骤S331确定出来的光流值分量矩阵V_f和光流自注意力融合矩阵进行融合得到该层的光流融合特征信息/>将步骤S331确定出来的像素值分量矩阵V_y和像素自注意力融合矩阵/>进行融合，得到该层的像素融合特征信息/>

进一步的，将该层的光流融合特征信息和像素融合特征信息作为下一个transformer的输入，循环执行步骤S331-S334，并将最后一层的光流融合特征信息作为最终的光流融合特征信息将最后一层的像素融合特征信息作为最终的像素融合特征信息/>基于这种融合设计，光流特征信息和像素特征信息可以从双模态融合转换模块的第一层开始进行组合交互，基于两个视角的交互信息在通过整个双模态融合转换模块时可以得到更好的表示。同时，光流转换器可以聚合视频帧的邻居、短、远距离的内容。因此，可以获取全时空内容。

S340：调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。

如图2所示，视频处理模型还包括解码模块，解码模块包括光流解码器和像素解码器。先调用光流解码器对光流融合特征信息进行解码处理，即将光流融合特征信息输入到光流解码器中进行解码，得到输出光流图像序列，然后将像素融合特征信息/>以及输出光流图像序列输入像素解码器进行融合处理，得到目标待解码信息；最后，调用像素解码器对目标待解码信息进行解码处理，即将待解码信息输入到像素解码器中进行解码，得到修复后的待处理视频。

综上所述，本申请实施例阐述的是在确定出视频处理模型后的使用过程，可以结合图2更为详细的阐述：1、将待处理视频的像素图像序列输入到光流特征提取器中进行光流特征提取，输出待处理视频的光流图像序列；2、将待处理视频的像素图像序列输入到编码模块包括的像素激励编码器中进行编码处理，输出像素特征信息，将待处理视频的光流图像序列输入到编码模块包括的光流激励编码器中进行编码处理，输出光流特征信息；3、将像素特征信息输入到双模态融合转换模块包括的像素转换器中，将光流特征信息输入到双模态融合转换模块包括的光流转换器中，分别进行处理后，再进行融合，输出像素融合特征信息和光流融合特征信息；4、将光流融合特征信息输入到解码模块中的光流解码器中进行解码处理，输入解码后的光流图像序列；然后将解码后的光流图像序列和像素融合特征信息输入到解码模块中的像素解码器中进行解码处理，得到修复后的待处理视频。

本申请实施例中，主要阐述的是在确定出视频处理模型后的使用过程，在这个过程中，分别采用像素激励编码器和光流激励编码器，可以同时获取待处理视频的光流特征信息和像素特征信息，即时间信息和空间信息，然后通过双模态融合转换模块将光流特征信息和像素特征信息进行融合，以获得光流和像素的增强融合信息，包括光流融合特征信息和像素特征融合信息。最后将两者进行解码处理，以得到高质量的修复视频。将像素激励编码器、光流激励编码器、双模态融合转换模块构造成一个模型，可以实现快速处理，从而提高视频修复的效率；将光流特征信息和像素特征信息进行融合处理后，再进行视频修复，可以使得到的修复视频质量更高。

由上述可知，在实现本申请的视频处理方法时，调用了视频处理模型，下面就针对如何训练得到视频处理模型进行阐述，其主要的思路就是通过一个初始网络模型对目标样本视频进行处理，然后得到修复后的目标样本视频，然后根据目标样本视频、修复后的目标样本视频以及训练过程中产生的数据对初始网络模型的网络参数进行调整，当初始网络模型的总体损失值小于一个设定的值时，停止对初始网络模型的训练，并将此时的初始网络模型作为视频处理模型。请参见图5，是本申请实施例公开的一种视频处理模型的训练过程的流程示意图，其中，初始网络模型的网络架构和视频处理模型的网络架构相似，也包括光流特征提取器、编码模块、双模态融合转换模块以及解码模块，只是两个网络的网络参数不同，初始网络模型的网络架构也可以参见图2，视频处理模型的训练过程包括但不仅限于以下步骤：

S510：获取目标样本视频的像素图像序列，目标样本视频的像素图像序列是基于掩码序列对初始样本视频进行遮蔽处理得到的。

在初始网络模型进行训练之前，需要先准备训练数据，在本申请中，训练数据为目标样本视频的像素图像序列。先获取初始样本视频，在训练阶段，初始样本视频通常是完整的视频，即没有被损坏的视频，也包括大量的初始样本视频，以用于模型训练。然后对初始样本视频进行采样处理，得到初始样本视频的像素图像序列。例如，始样本视频的像素图像序列为Y^T＝{y₁,y₂,y₃,……y_T}，y_T表示每一帧像素图像，T代表像素图像的帧数。然后基于始样本视频的像素图像序列生成一个掩码序列M^T＝{m₁,m₂,m₃,……m_T}，m_T的取值为“0”或者“1”，其中，值“0”表示要将该帧的像素掩蔽掉，“1”表示要保留该帧的像素。然后将将掩码序列和初始样本视频的像素图像序列进行逐元素相乘，得到目标样本视频的像素图像序列x^Y，即x^Y＝M^T⊙Y^T。

对于每一个初始样本视频，都进行上述的处理，由此可以得到大量的训练数据，即训练数据中包括多个目标样本视频的像素图像序列。

S520：调用初始网络模型对目标样本视频的像素图像序列进行处理，得到目标样本视频的光流图像序列，并对目标样本视频的像素图像序列以及光流图像序列进行处理，得到目标样本视频的光流特征信息和像素特征信息。

在一种可能的实现方式中，将目标样本视频的像素图像序列输入到初始网络模型的光流特征提取器中，先对目标样本视频的像素图像序列进行光流特征提取，得到目标样本视频的光流图像序列，可以表示为x^F。然后再对目标样本视频的像素图像序列以及光流图像序列输入到编码模块中分别进行特征提取，得到目标样本视频的光流特征信息和像素特征信息。光流特征信息和像素特征信息分别表示为F_e和F_y。

S530：基于初始网络模型的自注意力机制对目标样本视频的光流特征信息和像素特征信息进行融合处理，得到目标样本视频的光流融合特征信息和像素融合特征信息，并调用初始网络模型对目标样本视频的光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的目标样本视频。

进一步的，将目标样本视频的光流特征信息和像素特征信息输入到初始网络模型的双模态融合转换模块中，利用双模态融合转换模块的自注意力机制对目标样本视频的光流特征信息和像素特征信息进行融合处理，得到目标样本视频的光流融合特征信息和像素融合特征信息。然后将目标样本视频的光流融合特征信息和像素融合特征信息输入到初始网络模型的解码模块，得到修复后的目标样本视频，可以表示为

S540：基于修复后的目标样本视频、初始样本视频、掩码序列以及目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据。

每对初始网络模型训练一次，就进行一次损失值的计算，这里的目标差异数据即为损失值。由于在本申请是从像素和光流两个维度进行视频修复的，因此，在计算损失值时，要同时考虑像素和光流两个方面的损失。更重要的是，还需要考虑两者融合时的约束损失。具体的，先基于修复后的目标样本视频、初始样本视频以及掩码序列，确定像素差异数据；然后基于目标样本视频的光流特征信息、像素融合特征信息以及掩码序列确定光流差异数据；再基于目标样本视频的光流融合特征信息和像素融合特征信息确定像素与光流之间的约束差异数据；最后利用预设的权重系数对像素差异数据、光流差异数据、约束差异数据进行整合处理，得到目标差异数据。

在一种可能的实现方式中，像素差异数据可以包括基于像素的修复差异数据和基于像素的周围损失，光流差异数据可以包括基于光流的修复差异数据和基于光流的周围损失。设基于像素的修复差异数据为基于像素的周围损失为/>基于光流的修复差异数据为/>基于光流的周围损失/>像素与光流之间的约束差异数据为L_con，目标差异数据为L_total，目标差异数的计算方式如公式(7)：

其中，以及β_con均是超参数，也即权重值。在本申请实施例中，/>

进一步的，基于像素的修复差异数据可以用L1损失函数进行计算，L1损失函数用于最小化误差，该误差是真实值和预测值之间的所有绝对值之和。基于像素的修复差异数据是基于修复后的目标样本视频、初始样本视频以及掩码序列确定的，计算方式如公式(8)：

公式(8)的含义是为了计算被掩盖的区域的恢复程度。基于像素的周围差异数据也是基于修复后的目标样本视频、初始样本视频以及掩码序列确定的，计算方式如公式(9)：

公式(9)的含义是为了计算未被掩盖的区域在处理过程中受影响的程度。公式(8)和公式(9)中的Y^T代表的是初始样本视频的像素图像序列，代表的是修复后的目标样本视频所对应的视频序列，M^T代表的是掩码序列。

同样的，基于光流的修复差异数据是基于目标样本视频的光流特征信息、像素融合特征信息以及掩码序列确定的，计算方式如公式(10)：

基于光流的周围差异数据也是是基于目标样本视频的光流特征信息、像素融合特征信息以及掩码序列确定的，计算方式如公式(11)：

/>

其中，公式(10)和公式(11)中的是将目标样本视频的像素融合特征信息输入到光流解码中生成的，F_e ^T表示的是标样本视频的光流特征信息，M^T代表的是掩码序列。

像素与光流之间的约束差异数据是基于目标样本视频的光流融合特征信息和像素融合特征信息确定的，计算方式如公式(12)：

其中，和/>分别表示像素融合注意力损失和光流融合注意力损失，在本申请实施例中，α和γ可以设置成0.01。进一步的，像素融合注意力损失/>可以描述为公式(13)：

E_con(.)表示约束运算符，||.||₂代表二范式，为光流融合特征信息，/>为像素融合特征信息，公式(13)的含义是对光流融合特征信息进行约束，以确定像素融合注意力损失。

光流融合注意力损失可以描述为公式(14)：

公式(14)的含义是对像素融合特征信息进行约束，以确定光流融合注意力损失。

S550：基于目标差异数据对初始网络模型的网络参数进行调整，得到视频处理模型。

通过目标差异数据可以对初始网络模型的网络参数进行合理调整，当初始网络模型的目标差异数据小于一个设定的值时，停止对初始网络模型的训练，并将此时的初始网络模型作为视频处理模型。

将本申请实施例得到的视频处理模型(FDTN)和目前比较流行的模型进行实验，目前比较流行的模型包括VINet(Deep video inpainting中对应的模型)、DFVI(Deep flow-guided video inpainting中对应的模型)、LGTSM(Learnable gated temporal shiftmodule for deep video inpainting中对应的模型)、FGVC(Flow-edge guided videocompletion中对应的模型)和STTN(Learning joint spatial-temporal transformationsfor video inpainting中对应的模型)。在数据集1和数据集2中进行训练，从峰值信噪比(PSNR)、结构相似性(SSIM)以及另一种与距离相关的视频修复指标(VFID)三个方面将视频处理模型(FDTN)和目前比较流行的模型进行对比。对于PSNR和SSIM，值越高意味着性能越好。相反，当VFID值较低时，性能更好。对比结果如表1所示：

表1

从表1可以看出，与目前比较流行的模型相比，在两个数据集上，本申请是实施例的视频处理模型FDTN在PSNR、SSIM和VFID三个指标都更好。

基于此，我们还对视频处理模型FDTN和STTN两种模型进行了两种不同的实验：

实验1、对视频中整个物体进行掩码，基于两种模型对其进行处理，实现对其空出背景的修复；

实验2、对视频中的物体的部分区域进行掩码操作，基于两种模型对其进行处理，实现对掩盖区域的修复。

实现结果如图6a和图6b所示，图6a是实验1的修复效果对比，图6b是实验2修复效果对比，其中，t代表不同帧，如当t＝20时，代表此图为视频中的第20帧。从图6a和图6b中可以看出，模型STTN虽然也可以修复缺失区域的背景和物体的缺失区域，但是和双模态模型FDTN相比，修复区域的细节不够清晰。比如实验1中，如图6a所示，被掩盖的对象为“奶牛”610，模型STTN虽然可以修复“奶牛”区域的背景，但是和双模态FDTN相比，背景处的树干相对不够清晰；从620可以看出还有模糊。比如实验2中，如图6b所示，被掩盖的区域是女孩的头部，双模态FDTN对其进行修复时，可以看到更加清晰的头饰。

综上实验表示，本申请所得到的视频处理模型的性能确实优于现有的模型，得到的修复的视频质量更高，更为清晰。

本申请实施例主要阐述的是视频处理模型的训练，通过三类损失，包括像素损失、光流损失以及光流与像素之间的约束损失，对视频处理模型不断的优化，可以得到更为精准的视频处理模型，以使得视频处理模型在进行视频修复时，可以得到质量更高的修复后的视频。

基于上述的方法实施例，本申请实施例还提供了一种视频处理装置的结构示意图。参见图7，为本申请实施例提供的一种视频处理装置的结构示意图。图7所示的视频处理装置700可运行如下单元：

获取单元701，用于获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列；

处理单元702，用于调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息；基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频。

在一种可能的实现方式中，所述获取单元701获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列时，具体用于：

获取待处理视频，并对所述待处理视频进行采样处理，得到所述待处理视频的像素图像序列；

调用光流特征提取器对所述待处理视频的像素图像序列进行光流特征提取，得到所述像素图像序列对应的光流图像序列。

在一种可能的实现方式中，所述视频处理模型包括光流激励编码器和像素激励编码器；所述处理单元702调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息时，具体用于：

调用所述光流激励编码器对所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息；

调用所述像素激励编码器对所述像素图像序列进行特征提取，得到所述待处理视频的像素特征信息。

在一种可能的实现方式中，所述处理单元702调用所述光流激励编码器对所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息时，具体用于：

调用所述光流激励编码器的卷积网络对所述光流图像序列进行特征提取，得到所述待处理视频的初始光流特征图；

根据所述初始光流特征图中所述光流图像序列中相邻光流图像的光流特征子图之间的差异确定目标时间权重；

根据所述初始光流特征图和所述目标时间权重确定所述待处理视频的光流特征信息。

在一种可能的实现方式中，所述处理单元702基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息时，具体用于：

基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到目标自注意力融合矩阵；

基于所述目标自注意力融合矩阵以及光流算子确定光流自注意力融合矩阵，以及基于所述目标自注意力融合矩阵以及像素算子确定像素自注意力融合矩阵；

对所述光流特征信息以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息；

对所述像素特征信息以及所述像素自注意力融合矩阵进行融合处理，得到像素融合特征信息。

在一种可能的实现方式中，所述视频处理模型包括双模态融合转换模块，所述双模态融合转换模块包括光流转换器和像素转换器，所述处理单元702基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到目标自注意力融合矩阵时，具体用于：

调用所述光流转换器的自注意力模块对所述待处理视频的光流特征信息进行特征提取，得到所述待处理视频的光流特征信息矩阵；

调用所述像素转换器的自注意力模块对所述待处理视频的像素特征信息进行特征提取，得到所述待处理视频的像素特征信息矩阵；

基于信息融合算子对所述光流特征信息矩阵以及所述像素特征信息矩阵进行融合处理，得到目标自注意力融合矩阵。

在一种可能的实现方式中，所述处理单元702对所述光流特征信息以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息时，具体用于：

基于所述光流特征信息以及自注意力机制的值权重算子，确定光流值分量矩阵；

对所述光流值分量矩阵以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息。

在一种可能的实现方式中，所述视频处理模型包括光流解码器和像素解码器，所述处理单元702调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频时，具体用于：

调用所述光流解码器对所述光流融合特征信息进行解码处理，得到输出光流图像序列；

将所述像素融合特征信息以及所述输出光流图像序列输入所述像素解码器进行融合处理，得到目标待解码信息；

调用所述像素解码器对所述目标待解码信息进行解码处理，得到修复后的待处理视频。

在一种可能的实现方式中，所述获取单元701，还用于获取目标样本视频的像素图像序列，所述目标样本视频的像素图像序列是基于掩码序列对初始样本视频进行遮蔽处理得到的；

所述处理单元702，还用于调用初始网络模型对所述目标样本视频的像素图像序列进行处理，得到所述目标样本视频的光流图像序列，并对所述目标样本视频的像素图像序列以及光流图像序列进行处理，得到所述目标样本视频的光流特征信息和像素特征信息；基于所述初始网络模型的自注意力机制对所述目标样本视频的光流特征信息和像素特征信息进行融合处理，得到所述目标样本视频的光流融合特征信息和像素融合特征信息，并调用所述初始网络模型对所述目标样本视频的光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的目标样本视频；

确定单元703，用于基于所述修复后的目标样本视频、所述初始样本视频、所述掩码序列以及所述目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据；

所述处理单元702，还用于基于所述目标差异数据对所述初始网络模型的网络参数进行调整，得到视频处理模型。

在一种可能的实现方式中，所述确定单元703基于所述修复后的目标样本视频、所述初始样本视频、所述掩码序列以及所述目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据时，具体用于：

基于所述修复后的目标样本视频、所述初始样本视频以及所述掩码序列，确定像素差异数据；

基于所述目标样本视频的光流特征信息、像素融合特征信息以及所述掩码序列确定光流差异数据；

基于所述目标样本视频的光流融合特征信息和像素融合特征信息确定像素与光流之间的约束差异数据；

利用预设的权重系数对所述像素差异数据、所述光流差异数据、所述约束差异数据进行整合处理，得到目标差异数据。

可以理解的是，本申请实施例提供的视频处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例中的相关描述，此处不再赘述。

在可行的实施例中，本申请实施例提供的视频处理装置可以采用软件方式实现，视频处理装置可以存储在存储器中，其可以是程序和插件等形式的软件，并包括一系列的单元，包括获取单元、确定单元以及处理单元；其中，获取单元、确定单元以及处理单元用于实现本申请实施例提供的视频处理方法。

在其它可行的实施例中，本申请实施例提供的视频处理装置也可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的视频处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

本申请实施例中，获取单元701获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列；处理单元702调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息；也就是同时处理，得到了待处理视频的光流特征信息和像素特征信息，即时间信息和空间信息，获取了更丰富的视频信息。然后基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；将光流特征信息和像素特征信息进行融合，可以获得光流和像素的增强信息融合信息，有利于提升视频修复的质量；最后调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。一方面，本申请实施例的视频处理模型可以同时对像素特征信息和光流特征信息进行处理，实现数据的快速处理，从而提升了视频修复的效率；另一方面，将光流特征信息和像素特征信息进行多模态融合处理，再进行视频修复，可以使得到的修复后的视频的质量更高。

基于上述方法以及装置实施例，本申请实施例提供了一种计算机设备，计算机设备可以是图1示出的服务器103。请参阅图8，图8为本申请实施例提供的一种计算机设备的结构示意图。本申请实施例中所描述的计算机设备包括：处理器801、通信接口802及存储器803。其中，处理器801、通信接口802及存储器803可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

其中，处理器801(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口802可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器801的控制用于收发数据。存储器803(Memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器803既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器803提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器801通过运行存储器803中的可执行程序代码，执行如下操作：

在一种可能的实现方式中，所述处理器801获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列时，具体用于：

在一种可能的实现方式中，所述视频处理模型包括光流激励编码器和像素激励编码器；所述处理器801调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息时，具体用于：

在一种可能的实现方式中，所述处理器801调用所述光流激励编码器对所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息时，具体用于：

在一种可能的实现方式中，所述处理器801基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息时，具体用于：

在一种可能的实现方式中，所述视频处理模型包括双模态融合转换模块，所述双模态融合转换模块包括光流转换器和像素转换器，所述处理器801基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到目标自注意力融合矩阵时，具体用于：

在一种可能的实现方式中，所述处理器801对所述光流特征信息以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息时，具体用于：

在一种可能的实现方式中，所述视频处理模型包括光流解码器和像素解码器，所述处理器801调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频时，具体用于：

在一种可能的实现方式中，所述处理器801，还用于：

获取目标样本视频的像素图像序列，所述目标样本视频的像素图像序列是基于掩码序列对初始样本视频进行遮蔽处理得到的；

调用初始网络模型对所述目标样本视频的像素图像序列进行处理，得到所述目标样本视频的光流图像序列，并对所述目标样本视频的像素图像序列以及光流图像序列进行处理，得到所述目标样本视频的光流特征信息和像素特征信息；

基于所述初始网络模型的自注意力机制对所述目标样本视频的光流特征信息和像素特征信息进行融合处理，得到所述目标样本视频的光流融合特征信息和像素融合特征信息，并调用所述初始网络模型对所述目标样本视频的光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的目标样本视频；

基于所述修复后的目标样本视频、所述初始样本视频、所述掩码序列以及所述目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据；

基于所述目标差异数据对所述初始网络模型的网络参数进行调整，得到视频处理模型。

在一种可能的实现方式中，所述处理器801基于所述修复后的目标样本视频、所述初始样本视频、所述掩码序列以及所述目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据时，具体用于：

本申请实例中，处理器801获取待处理视频的像素图像序列以及像素图像序列对应的光流图像序列；调用视频处理模型分别对像素图像序列以及光流图像序列进行特征提取，得到待处理视频的光流特征信息和像素特征信息；也就是同时处理，得到了待处理视频的光流特征信息和像素特征信息，即时间信息和空间信息，获取了更丰富的视频信息。然后基于视频处理模型的自注意力机制对待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息；将光流特征信息和像素特征信息进行融合，可以获得光流和像素的增强信息融合信息，有利于提升视频修复的质量；最后调用视频处理模型对光流融合特征信息和像素融合特征信息进行解码处理，得到修复后的待处理视频。一方面，本申请实施例的视频处理模型可以同时对像素特征信息和光流特征信息进行处理，实现数据的快速处理，从而提升了视频修复的效率；另一方面，将光流特征信息和像素特征信息进行多模态融合处理，再进行视频修复，可以使得到的修复后的视频的质量更高。

根据本申请的一个方面，本申请实施例还提供了一种计算机产品，该计算机产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。处理器801从计算机可读存储介质中读取该计算机程序，处理器801执行该计算机程序，使得计算机设备800执行图3的视频处理方法以及图5所示的模型训练方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频的像素图像序列以及所述像素图像序列对应的光流图像序列，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述视频处理模型包括光流激励编码器和像素激励编码器；所述调用视频处理模型分别对所述像素图像序列以及所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息和像素特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述调用所述光流激励编码器对所述光流图像序列进行特征提取，得到所述待处理视频的光流特征信息，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到光流融合特征信息和像素融合特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述视频处理模型包括双模态融合转换模块，所述双模态融合转换模块包括光流转换器和像素转换器，所述基于所述视频处理模型的自注意力机制对所述待处理视频的光流特征信息和像素特征信息进行融合处理，得到目标自注意力融合矩阵，包括：

7.根据权利要求5所述的方法，其特征在于，所述对所述光流特征信息以及所述光流自注意力融合矩阵进行融合处理，得到光流融合特征信息，包括：

8.根据权利要求1所述的方法，其特征在于，所述视频处理模型包括光流解码器和像素解码器，所述调用所述视频处理模型对所述光流融合特征信息和所述像素融合特征信息进行解码处理，得到修复后的待处理视频，包括：

9.根据权利要求1所述的方法，其特征在在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在在于，所述基于所述修复后的目标样本视频、所述初始样本视频、所述掩码序列以及所述目标样本视频的光流特征信息、像素融合特征信息、光流融合特征信息，确定目标差异数据，包括：

11.一种视频处理装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括：

处理器，适于实现一条或多条计算机程序；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-10任一项所述的视频处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-10任一项所述的视频处理方法。