CN115689862A

CN115689862A - 视频处理方法、装置、电子设备及非暂时性可读存储介质

Info

Publication number: CN115689862A
Application number: CN202110843814.1A
Authority: CN
Inventors: 陈巍; 刘阳兴
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-02-03

Abstract

本申请提供一种视频处理方法、装置、电子设备及非暂时性可读存储介质，其中，首先获取待处理视频中的目标视频图像的第一参考图像，及其第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像；然后，根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数，并根据确定的仿射变换系数对目标视频图像进行仿射变换，得到变换图像；最后，根据目标视频图像的变换图像，生成待处理视频的变换视频。以此，本申请利用同一视频的参考图像约束对视频图像的风格变换，减小不同视频图像在风格变换后的风格差异，从而提升视频风格变换后的连续性。

Description

视频处理方法、装置、电子设备及非暂时性可读存储介质

技术领域

本申请涉及视频处理技术领域，具体涉及一种视频处理方法、装置、电子设备及非暂时性可读存储介质。

背景技术

图像风格变换是指可根据需求将待处理图像的风格变换成任意参考图像的风格，从而使得变换后的待处理图像具有原待处理图像的内容和参考图像的风格。比如，根据一漫画风格的参考图像对拍摄的建筑物图像进行风格变换，可以将该建筑物图像变换为具有漫画风格的建筑物图像。

然而，相关技术在对视频进行风格变换时，往往是直接应用图像风格变换技术独立地对视频中的各视频图像进行变换，变换后的视频图像之间可能出现巨大的风格差异，导致整个变换后的视频出现闪烁跳变，降低了视频的连续性。

发明内容

本申请提供一种视频处理方法、装置、电子设备及非暂时性可读存储介质，能够提升对视频进行风格变换后的连续性。

本申请提供的视频处理方法，包括：

获取待处理视频中目标视频图像的第一参考图像，以及所述目标视频图像的第二参考图像，所述第一参考图像的风格特征为对应目标风格的风格特征，所述第二参考图像为所述待处理视频中与所述目标视频图像间隔预设帧数的视频图像；

根据所述第一参考图像、所述第二参考图像以及所述目标视频图像，确定所述目标视频图像的仿射变换系数；

根据所述仿射变换系数对所述目标视频图像进行仿射变换，得到变换图像；

根据所述变换图像，生成所述待处理视频的变换视频。

本申请提供的视频处理装置，包括：

图像获取模块，用于获取待处理视频中目标视频图像的第一参考图像，以及获取所述目标视频图像的第二参考图像，所述第一参考图像的风格特征为对应目标风格的风格特征，所述第二参考图像为所述待处理视频中与所述目标视频图像间隔预设帧数的视频图像；

系数确定模块，用于根据所述第一参考图像、所述第二参考图像以及所述目标视频图像，确定所述目标视频图像的仿射变换系数；

图像变换模块，用于根据所述仿射变换系数对所述目标视频图像进行仿射变换，得到变换图像；

视频生成模块，用于根据所述变换图像，生成所述待处理视频的变换视频。

本申请提供的电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器通过加载所述计算机程序，执行如本申请提供的视频处理方法中的步骤。

本申请提供的非暂时性可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，执行如本申请提供的视频处理方法中的步骤。

本申请中，首先获取待处理视频中的目标视频图像的第一参考图像，以及该目标视频图像的第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像；然后，根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数，并根据确定的仿射变换系数对目标视频图像进行仿射变换，得到变换图像；最后，根据目标视频图像的变换图像，生成待处理视频的变换视频。以此，本申请在对视频中的视频图像进行风格变换时，除了选择具有目标风格的外部图像作为参考图像之外，还选择同一视频中的其它视频图像作为参考图像，利用同一视频的参考图像约束对视频图像的风格变换，从而减小不同视频图像在风格变换后的风格差异，达到提升视频风格变换后连续性的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频处理系统的场景示意图；

图2是本申请实施例提供的视频处理方法的流程示意图；

图3是本申请实施例中对目标视频图像、第一参考图像和第二参考图像进行下采样的示例图。

图4是本申请实施例中时空特征转换网络的结构示意图。

图5是本申请实施例中时空特征转换网络的细化结构示意图。

图6是本申请实施例中抛雪球模块的细化结构示意图。

图7是本申请实施例中局部特征增强网络的结构示意图。

图8是本申请实施例中全局特征增强网络的结构示意图。

图9是本申请实施例提供的视频处理装置的结构示意图。

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

需要说明的是，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其他具体实施例。

本申请以下实施例中所涉及的诸如第一和第二等关系术语仅用于将一个对象或者操作与另一个对象或者操作区分开来，并不用于限定这些对象或操作之间存在着实际的顺序关系。

本申请提供一种视频处理方法、视频处理装置、电子设备及非暂时性可读存储介质。其中，视频处理方法可由视频处理装置执行，或者由集成了该视频处理装置的电子设备执行。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，本申请还提供一视频处理系统，如图1所示，该视频处理系统包括电子设备100，电子设备100中集成有本申请提供的视频处理装置。比如，电子设备100首先获取待处理视频中目标视频图像的第一参考图像，以及获取目标视频图像的第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像；然后，电子设备100根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数，并根据仿射变换系数对目标视频图像进行仿射变换，得到变换图像；最后，电子设备根据变换图像，生成待处理视频的变换视频。

其中，电子设备100可以是任何配置有处理器而具备处理能力的设备，比如智能手机、平板电脑、掌上电脑、笔记本电脑等具备处理器的可移动式电子设备，或者台式电脑、电视、服务器等具备处理器的固定式电子设备。

另外，如图1所示，该视频处理系统还可以包括存储设备200，用于存储数据，比如，电子设备100将获取到的目标视频图像、第一参考图像、第二参考图像、变换图像以及变换视频等存入存储设备200中。

需要说明的是，图1所示的视频处理系统仅仅是一个示例，本申请实施例描述的视频处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着视频处理系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

请参照图2，图2为本申请实施例提供的视频处理方法的流程示意图。如图2所示，本申请实施例提供的视频处理方法的流程可以如下：

在S310中，获取待处理视频中目标视频图像的第一参考图像，以及获取目标视频图像的第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像。

应当说明的是，待处理视频可以是电子设备实时拍摄的视频，也可以是电子设备已拍摄完成的视频，或者是其它电子设备已拍摄完成的视频等。比如，可以响应于输入的视频变换请求，将该视频变换请求所指定的视频确定为待处理视频；又比如，在拍摄视频时，将该实时拍摄的视频作为待处理视频。目标视频图像代指待处理视频中需要进行风格变换的视频图像，可以是待处理视频中的全部视频图像，也可以是待处理视频中的部分视频图像。

本实施例中，目标视频图像、第二参考图像以及第二参考图像的数据维度相同，可以表示为(n，C，H，W)，n表示数量，C表示通道数，H表示图像高，W表示图像宽。其中，目标视频图像作为内容图像，即风格变换时用于提供图像内容的图像，第一参考图像作为风格图像，即风格变换时用于提供图像风格的图像，第二参考图像作为限制图像，用于限制第一参考图像对目标视频图像的风格变换，为待处理视频中与目标视频图像间隔预设帧数的视频图像。

应当说明的是，风格特征包括能够描述图像的风格的要素，比如图像的纹理特征、色彩特征以及光影特征等。相应的，本实施例中获取到的第一参考图像的风格特征为前述目标视频图像期望变换的目标风格的风格特征。其中，目标风格可根据实际风格变换需求确定，此处不作具体限制，比如“漫画风格”、“黑白风格”、“涂鸦风格”、“国画风格”、“油画风格”以及“水墨画风格”等。

在S320中，根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数。

本实施例中，在获取到目标视频图像的第一参考图像以及第二参考图像之后，进一步根据目标视频图像及其第一参考图像和第二参考图像，按照配置的系数确定策略确定目标视频图像的仿射变换系数。

可以理解的是，由于目标视频图像和第二参考图像均为摄像头拍摄的原始图像，第一参考图像与目标视频图像和第二参考图像的分辨率相同，三者均具备较高的分辨率，若直接将第一参考图像、第二参考图像以及目标视频图像用于处理，将花费大量的处理资源，变换效率较低。

在一可选地实施例中，为提升降变换率，获取第一参考图像的第一下采样图像，获取第二参考图像的第二下采样图像，以及获取目标视频图像的第三下采样图像，并根据第一下采样图像、第二下采样图像以及第三下采样图像，确定目标视频图像的仿射变换系数。

本实施例中，配置有预设采样倍数，该预设采样倍数可用于将目标视频图像、第一参考图像和第二参考图像下采样，相应利用下采样后的图像进行仿射变换系数的确定，能够降低对计算资源的占用，达到提升变换效率的目的。

其中，根据该预设采样倍数对第一参考图像进行下采样，将下采样得到的图像记为第一下采样图像；根据该预设采样倍数对第二参考图像进行下采样，将下采样得到的图像记为第二下采样图像；根据该预设采样倍数对目标视频图像进行下采样，将下采样得到的图像记为第三下采样图像。此处对预设采样倍数的取值不作具体限制，可由本领域技术人员根据实际需要进行配置。

应当说明的是，由于第一参考图像、第二参考图像以及目标视频图像的数据维度相同，相应下采样得到第一下采样图像、第二下采样图像以及第三下采样图像的数据维度也相同。比如，请参照图3，将预设采样倍数配置为2时，第一下采样图像、第二下采样图像以及第三下采样图像的数据维度可以表示为(n，C，H/2，W/2)，即对第一参考图像、第二参考图像以及目标视频图像进行2倍下采样后，得到的第一下采样图像的高、宽均为第一参考图像原高、宽的二分之一，得到的第二下采样图像的高、宽均为第二参考图像原高、宽的二分之一，得到的第三下采样图像的高、宽均为目标视频图像原高、宽的二分之一。

如上，在获取到目标视频图像的第一下采样图像，以及获取到参考图像的第二下采样图像之后，进一步根据第一下采样图像、第二下采样图像以及第三下采样图像，确定目标视频图像的仿射变换系数。

在一可选地实施例中，为进一步提升变换效率，引入了深度学习技术，其中，通过已训练的特征编码网络分别对第一下采样图像、第二下采样图像以及第三下采样图像进行特征编码，得到第一下采样图像的第一特征图、第二下采样图像的第二特征图和第三下采样图像的第三特征图；根据第一特征图和第二特征图，通过已训练的时空特征转换网络对第三特征图进行特征转换，得到目标转换特征图；根据目标转换特征图，确定仿射变换系数。

本实施例对于特征编码网络的网络构型以及训练方式不作具体限制，可由本领域技术人员根据实际需要进行选择，比如，可以选择卷积神经网络经有监督训练后作为特征编码网络。此外，以第一特征图、第二特征图以及第三特征图的尺度数量相同为约束，第一特征图、第二特征图以及第三特征图可以为单一尺度的特征图，也可以为多尺度的特征图(或称为金字塔特征图)。

本实施例中，在得到第一下采样图像的第一特征图、第二下采样图像的第二特征图以及目标视频图像的第三特征图之后，进一步根据第一特征图和第二特征图，通过已训练的时空特征转换网络对第三特征图进行特征转换，也即是以第一特征图为约束，通过时空特征转换网络对第三特征图进行特征转换，从而将第二特征图的风格迁移到第三特征图，得到目标转换特征图。之后，分别在空间域和值域对该目标转换特征图进行采样，得到目标转换特征图的双边网格矩阵，再根据目标视频图像的分辨率对目标转换特征图的双边网格矩阵进行插值(即Slice操作)，得到与目标视频图像的分辨率匹配的仿射变换系数。

在一可选地实施例中，为提升风格变换的质量，第一特征图包括N尺度的第一金字塔特征图，第二特征图包括N尺度的第二金字塔特征图，第三特征图包括N尺度的第三金字塔特征图，N为大于2的正整数，请参照图4，时空特征转换网络包括时空自适应实例标准化子网络和抛雪球(Splatting)子网络，其中，根据第一金字塔特征图中第i尺度的特征图，第二金字塔特征图中第i尺度的特征图，通过时空自适应实例标准化子网络对第三金字塔特征图中第i尺度的特征图进行特征转换，得到第i尺度的转换特征图，i∈[2,N]；根据第i尺度的转换特征图，第一金字塔特征图中第1尺度的特征图以及二金字塔特征图中第1尺度的特征图，通过抛雪球子网络对第三金字塔特征图中第1尺度的特征图进行特征转换，得到目标转换特征图。

在本实施例中，利用N尺度的第一金字塔特征图、第二金字塔特征图和第三金字塔特征图各自在不同尺度的特征图进行特征转换，以得到目标转换特征图。以N为大于2的正整数为约束，可由本领域根据实际需要确定N的取值。比如，N可以取值为4，相应的，第一金字塔特征图、第二金字塔特征图和第三金字塔特征图均为四层不同尺度的特征图构成。

示例性地，本实施例中采用VGG(Visual Graphics Generator，目视图像生成器)网络(比如VGG16网络、VGG19网络等)作为特征编码网络。比如，当采用VGG19网络作为特征编码网络时，以对第一参考图像的特征编码为例，将第一参考图像输入VGG19网络，分别获取VGG19网络的relu1_1层、relu2_1层，relu3_1层和relu4_1层相应输出的特征图，表示为特征图conv1_1、特征图conv2_1、特征图conv3_1和特征图conv4_1，其中，特征图conv1_1的数据维度为(n,64,H/2,W/2)，特征图conv2_1的数据维度为(n,128,H/4,W/4)，特征图conv3_1的数据维度为(n,256,H/8,W/8)，特征图conv4_1的数据维度为(n,512,H/16,W/16)。前述四个大小依次减小的特征图conv1_1、特征图conv2_1、特征图conv3_1和特征图conv4_1即构成了第一参考图像的第一金字塔特征图。按照编码得到第一金字塔特征图的相同方式，可以编码得到第二下采样图像的第二金字塔特征图，以及编码得到第三下采样图像的第三金字塔特征图。

本实施例中，根据第一金字塔特征图中第i尺度的特征图，第二金字塔特征图中第i尺度的特征图，通过时空自适应实例标准化子网络对第三金字塔特征图中第i尺度的特征图进行特征转换，得到第i尺度的转换特征图，i∈[2,N]。比如，当N取值为4时，i取值为2、3和4，相应的，根据第一金字塔特征图和第二金字塔特征图各自在第2尺度、第3尺度以及第4尺度的特征图，通过时空自适应实例标准化子网络分别对第三金字塔特征图中第2尺度、第3尺度以及第4尺度的特征图进行特征转换，相应得到第2尺度、第3尺度以及第4尺度的转换特征图。之后，根据第2尺度、第3尺度以及第4尺度的转换特征图、第一金字塔特征图中第1尺度的特征图以及二金字塔特征图中第1尺度的特征图，通过抛雪球子网络对第三金字塔特征图中第1尺度的特征图进行特征转换，得到目标转换特征图。

在一可选地实施例中，时空自适应实例标准化子网络包括N-1个第一时空自适应实例标准化单元，根据第二金字塔特征图中第i尺度的特征图的均值和方差，通过第i-1个第一时空自适应实例标准化单元对第三金字塔特征图中第i尺度的特征图的均值和方差进行调整；根据第一金字塔特征图中第i尺度的特征图的均值和方差、第三金字塔特征图中第2尺度的特征图调整后的均值和方差，通过第i-1个第一时空自适应实例标准化单元对第三金字塔特征图中第2尺度的特征图进行特征转换，得到第i尺度的转换特征图。

本实施例中，时空自适应实例标准化子网络由N-1个第一时空自适应实例标准化单元构成，分别用于对第三金字塔特征图中第2尺度至第N尺度特征图进行特征转换。

其中，第一时空自适应实例标准化单元进行的特征转换操作可以表示为：

其中，μ(·)表示统计的特征图的均值，σ(·)表示统计的特征图的方差，x^t表示需要进行特征转换的特征图，x^t'表示特征转换后的特征图，x^t-1表示用于调整均值和方差的参考特征图，y表示用于特征转换的参考特征图，

表示调整后的均值，

表示调整后的方差，α表示平衡系数，以α大于零且小于1为约束，可由本领域技术人员根据实际需要取值，α取值越大，x^t-1对

和

的影响越大，α取值越小，x^t-1对

和

的影响越小。

比如，以对第三金字塔特征图中第2尺度特征图的特征转换为例。其中，第三金字塔特征图中第2尺度的特征图即为x^t，第二金字塔特征图中第2尺度的特征图即为x^t-1，第一金字塔特征图中第2尺度的特征图即为y。相应的，按照公式(1)，根据第二金字塔特征图中第2尺度的特征图的均值，通过第1个第一时空自适应实例标准化单元对第三金字塔特征图中第2尺度的特征图的均值进行调整，以及按照公式(2)，根据第二金字塔特征图中第2尺度的特征图的方差，通过第1个第一时空自适应实例标准化单元对第三金字塔特征图中第2尺度的特征图的方差进行调整，最后，按照公式(3)，根据第一金字塔特征图中第2尺度的特征图的均值和方差、第三金字塔特征图中第2尺度的特征图调整后的均值和方差，通过第1个第一时空自适应实例标准化单元对第三金字塔特征图中第2尺度的特征图进行特征转换，将第1个第一时空自适应实例标准化单元输出的结果输入一卷积单元(卷积核数量为8，卷积核大小为3*3，步长为1，激活函数为relu函数)进行卷积操作后，得到第2尺度的转换特征图，数据维度为(n,8,H/4,W/4)。

在一可选地实施例中，抛雪球子网络包括N-1个抛雪球模块，抛雪球模块包括特征转换分支和卷积分支，根据第2尺度的转换特征图、第一金字塔特征图中第1尺度的特征图以及第二金字塔特征中第1尺度的特征图，通过第1个抛雪球模块的特征转换分支对第三金字塔特征图中第1尺度的特征图进行特征转换，得到1阶转换特征图，以及通过第1个抛雪球模块的卷积分支对第一金字塔特征图中第1尺度的特征图进行卷积操作，得到1阶卷积特征图；根据第j尺度的转换特征图，第j-2阶卷积特征图以及第二金字塔特征图中第1尺度的特征图，通过第j-1个抛雪球模块的特征转换分支对第j-2阶卷积特征图进行特征转换，得到j-1阶转换特征图，以及通过第j-1个抛雪球模块的卷积分支对j-2阶卷积特征图进行卷积操作，得到j-1阶卷积特征图，j∈[3，N]；从第N-1个抛雪球模块的特征转换分支获取N-1阶转换特征图；以及根据N-1阶转换特征图，确定目标转换特征图。

请参照图5，本实施例中，抛雪球模块的个数与第一时空自适应实例标准化单元的个数相同，均为N-1个。其中，第i个第一时空自适应实例标准化单元输出的转换特征图作为第i个抛雪球模块的输入。

比如，在获取到N-1阶转换特征图后，依次通过两个卷积单元对N-1阶转换特征图进行卷积操作，得到目标转换特征图，数据维度为(n,64,H/32,W/32)。其中，前一卷积单元的卷积核数量为64，卷积核大小为3*3，步长为2，激活函数为relu函数，后一卷积单元的卷积核数量为64，卷积核大小为3*3，步长为1，激活函数为relu函数。

在一可选地实施例中，请参照图6，抛雪球模块的特征转换分支包括第一卷积单元、第二时空自适应实例标准化单元、加法单元、第二卷积单元以及第三卷积单元，抛雪球模块的卷积分支包括第四卷积单元和第五卷积单元，通过第一卷积单元对第三金字塔特征图中第1尺度的特征图进行卷积操作，得到第一中间卷积特征图；通过第四卷积单元对第一金字塔特征图中第1尺度的特征图进行卷积操作，得到第二中间卷积特征图；根据第二中间卷积特征图、第二金字塔特征中第1尺度的特征图，通过第二时空自适应实例标准化单元对第一中间卷积特征图进行特征转换，得到初始转换特征图；通过加法单元对初始转换特征图和第2尺度的转换特征图进行加法操作，得到和值特征图；依次通过第二卷积单元和第三卷积单元对和值特征图进行卷积操作，得到1阶转换特征图；通过第五卷积单元对第一中间卷积特征图进行卷积操作，得到1阶卷积特征图。

其中，第二时空自适应实例标准化单元执行的操作与以上实施例中第一时空自适应实例标准化单元执行的操作相同，具体请参照以上实施例中的相关描述，此处不再赘述。

本实施例中，第i个抛雪球模块与第i+1个抛雪球模块的结构基本相同，差异在于第i+1个抛雪球模块中卷积单元的卷积核数量为第i个抛雪球模块中卷积单元的卷积核数量的两倍。

示例性地，第1个抛雪球模块中第一卷积单元的卷积核数量为8，卷积核大小为3*3，步长为2，激活函数为relu函数，第四卷积单元的参数和第一卷积单元的参数相同；第二卷积单元的卷积核数量为8，卷积核大小为3*3，步长为1，激活函数为relu函数；第三卷积单元的卷积核数量为8，卷积核大小为3*3，步长为1，激活函数为relu函数，第五卷积单元的参数和第三卷积单元的参数相同；第2个抛雪球模块中第一卷积单元的卷积核数量为16，卷积核大小为3*3，步长为2，激活函数为relu函数，第四卷积单元的参数和第一卷积单元的参数相同；第二卷积单元的卷积核数量为16，卷积核大小为3*3，步长为1，激活函数为relu函数；第三卷积单元的卷积核数量为16，卷积核大小为3*3，步长为1，激活函数为relu函数，第五卷积单元的参数和第三卷积单元的参数相同。

本实施例中，将第二金字塔特征图中第1尺度的特征图采样到与第j-2阶卷积特征图相同高、宽后，按照以上相同的处理方式，根据该采样得到的与第j-2阶卷积特征图相同高、宽的特征图、第j尺度的转换特征图以及第j-2阶卷积特征图，通过第j-1个抛雪球模块的特征转换分支对第j-2阶卷积特征图进行特征转换，得到j-1阶转换特征图，以及通过第j-1个抛雪球模块的卷积分支对j-2阶卷积特征图进行卷积操作，得到j-1阶卷积特征图。

在一可选地实施例中，为了获取到更准确的仿射变换系数，并不直接利用目标转换特征图确定仿射变换系数，而是对目标转换特征图进行增强处理，得到增强特征图；再根据增强特征图，确定仿射变换系数。

其中，通过已训练的局部特征增强网络对目标转换特征图进行局部特征增强，得到局部增强特征图；通过已训练的全局特征增强网络对目标转换特征图进行全局特征增强，得到全局增强特征图；根据局部增强特征图和全局增强特征图，得到增强特征图。本实施例对于局部特征增强网络和全局特征增强网络的网络构型不做具体限制，可由本领域技术人员根据实际需要进行配置。

示例性地，请参照图7，局部特征增强网络包括第六卷积单元和第七卷积单元，其中，第六卷积单元的卷积核数量为64，卷积核大小为3*3，步长为1，激活函数为relu函数，第七卷积单元的卷积核数量为64，卷积核大小为3*3，步长为1，激活函数为relu函数。比如，假设获取到目标转换特征图的数据维度为(n,64,H/32,W/32)，依次通过第六卷积单元和第七卷积单元对目标转换特征图进行卷积特征，得到局部增强特征图，数据维度为(n,64,H/32,W/32)。

请参照图8，全局特征增强网络包括第八卷积单元、第九卷积单元、第一全连接单元、第二全连接单元、第三全连接单元和第四全连接单元，其中，第八卷积单元的卷积核数量为64，卷积核大小为3*3，步长为2，激活函数为relu；第九卷积单元的卷积核数量为64，卷积核大小为3*3，步长为2，激活函数为relu；第一全连接单元的输入通道数量1024，输出通道数量为256；第二全连接单元的输入通道数量256，输出通道数量为128；第三全连接单元的输入通道数量128，输出通道数量为64；第四全连接单元的输入通道数量64，输出通道数量为64。比如，假设获取到目标转换特征图的数据维度为(n,64,H/32,W/32)，依次通过第八卷积单元和第九卷积单元进行卷积操作，以及依次通过第一全连接单元、第二全连接单元、第三全连接单元和第四全连接单元进行全连接操作，得到全局增强特征图，数据维度为(n,64,1,1)。

由于以上得到的局部增强特征图和全局增强特征图的数据维度并不相同，先将全局增强特征图的数据维度扩展至与局部增强特征图相同的数据维度，再在通道维度对局部增强特征图和数据维度拓展后的全局增强特征图进行拼接操作(即concat操作)，得到目标转换特征图的增强特征图，数据维度为(n,128,H/32,W/32)。

本实施例中，分别在空间域和值域对增强特征图进行采样，得到增强特征图的双边网格矩阵，记为第一双边网格矩阵，之后，再根据目标视频图像的分辨率对第一双边网格矩阵进行插值(即Slice操作)，得到与目标视频图像的分辨率匹配的仿射变换系数。

示例性地，依次通过两个卷积单元对增强特征图进行卷积操作，以实现在空间域和值域对增强特征图的采样，得到第一双边网格矩阵，数据维度为(n,96,H/32,W/32)。其中，前一卷积单元的卷积核数量为64，卷积核大小1*1，步长为1；后一卷积单元的卷积核数量为96，卷积核大小3*3，步长为1，激活函数为relu函数。将第一双边网格矩阵的数据维度拓展为(n,12,8,H/32,W/32)，并根据目标视频图像的分辨率(即H*W)对第一双边网格矩阵进行Slice操作，得到与目标视频图像的分辨率匹配的仿射变换系数，数据维度为(n,12,H,W)。

在S330中，根据仿射变换系数对目标视频图像进行仿射变换，得到变换图像。

示例性地，假设获取到的仿射变换系数的数据维度为(n,12,H,W)，即该仿射变换系数为12通道的仿射变换系数，可以根据仿射变换系数分别在红色通道、蓝色通道和绿色通道对目标视频图像进行仿射变换，表示为：

其中，r、g、b分别表示一像素点的红色通道分量值、绿色通道分量值和蓝色通道分量值，

分别表示该像素点仿射变换后的红色通道分量值、绿色通道分量值和蓝色通道分量值，a₁₁，a₂₁...等表示仿射变换系数不同通道，此处共12个通道。

可以理解的是，以上目标转换特征图迁移了第一参考图像的风格，利用该目标转换特征图获取的仿射变换系数对目标视频图像进行仿射变换，即可将目标视频图像的风格变换为第一参考图像的风格，得到变换图像。由于本实施例中风格是通过风格特征来描述的，相应的，变换图像的风格特征与第一参考图像的风格特征之间的相似度将大于或等于相似度阈值，该相似度阈值可由本领域技术人员根据实际需要取经验值，此处不作具体限定，比如，可以配置为70％。

在S340中，根据变换图像，生成待处理视频的变换视频。

按照以上风格变换方式，可以获取到待处理视频中所有目标视频图像的变换图像。本实施例中，可以根据所有目标视频图像的变换图像，生成待处理视频的变换视频。比如，对所有目标视频图像的变换图像进行视频编码，相应编码得到待处理视频的变换视频。

在一可选地实施例中，提供包括M个第一参考图像的参考图像序列，用于实现对单一待处理视频的多样风格变换，相应的，可以预先在待处理视频中确定M个目标位置(比如，可以均匀的在待处理视频中确定M个目标位置，即任意两个相邻的目标位置之间间隔的视频图像的数量相同)，每一目标位置分别对应参考图像序列中的一第一参考图像，比如第1个目标位置对应参考图像序列中的第1个第一参考图像。

本实施例中，识别目标视频图像是否位于待处理视频中的M个目标位置中的任一目标位置，M为大于2的正整数；若目标视频图像位于任一目标位置，则根据目标视频图像所处的目标位置，从包括M个第一参考图像的参考图像序列中，获取对应目标视频图像所处的目标位置的第一参考图像。

应当说明的是，本实施例可以在目标视频图像位于目标位置时，才按照以上实施例中记载的方式对该目标视频图像进行风格变换处理，具体请参照以上实施例中的相关说明，此处不再赘述。

在一可选地实施例中，对于位于非目标位置的目标视频图像，利用其前后两个目标位置的目标视频图像的双边网格矩阵来确定其仿射变换系数，以此可以提升风格变换的整体效率。其中，若目标视频图像未位于任一目标位置，则获取目标视频图像所处位置的前一目标位置所对应的第二双边网格矩阵，以及获取目标视频图像所处位置的后一目标位置所对应的第三双边网格矩阵；根据第二双边网格矩阵和第三双边网格矩阵，获取对应目标视频图像的第四双边网格矩阵；根据目标视频图像的分辨率对第四双边网格矩阵进行插值，得到目标视频图像的仿射变换系数，并转入根据仿射变换系数对目标视频图像进行仿射变换的步骤。

其中，确定待处理视频中位于前一目标位置和后一目标位置之间的视频图像的图像数量；根据图像数量以及目标视频图像所处位置，确定第二双边网格矩阵和第三双边网格矩阵的融合系数；根据融合系数，融合第二双边网格矩阵和第三双边网格矩阵，得到第四双边网格矩阵，可以表示为：

其中，b_k表示第四双边网格矩阵，L表示目标视频图像所处位置的前一目标位置和后一目标位置之间的视频图像的图像数量，b_style1表示第二双边网格矩阵，b_style2表示第三双边网格矩阵，k表示根据前述图像数量以及目标视频图像所处位置所确定的相对位置，即k表示了目标视频图像为前述前一目标位置和后一目标位置之间的第几帧视频图像，k∈[1，L]。

此外，对于如何根据第四双边网格矩阵插值得到仿射变换系数，具体可参照以上根据第一双边网格矩阵插值得到仿射变换系数的相关说明，此处不再赘述。

应当说明的是，在以上实施例中，第二参考图像可以位于目标视频图像之前，也可以位于目标视频图像之后，另外，本实施例中对预设帧数的取值不作具体限制，可由本领域技术人员根据实际需要取值，比如，预设帧数可以取值为零，相应的，可以获取目标视频图像的前一帧图像作为第二参考图像，也可以获取目标视频图像的后一帧图像作为第二参考图像。

示例性地，可以将待处理视频中的所有非首帧图像依次作为目标视频图像进行风格变换，此时对首帧图像不进行风格变换。其中，在对每一非首帧图像进行风格变换时，可以将其前一帧视频图像作为第二参考图像。以此，使得每一非首帧图像均能受到其前一帧视频图像的限制，从而最大程度的减小不同非首帧视频图像在风格变换后的风格差异。

此外，还可以将待处理视频中的所有非尾帧图像依次作为目标视频图像进行风格变换，此时对尾帧图像不进行风格变换。其中，在对每一非尾帧图像进行风格变换时，可以将其后一帧视频图像作为第二参考图像。以此，使得每一非尾帧图像均能受到其后一帧视频图像的限制，从而最大程度的减小不同非尾帧视频图像在风格变换后的风格差异。

请参照图9，为更好的执行本申请所提供的视频处理方法，本申请进一步提供一种视频处理装置400，比如，该视频处理装置400包括：

图像获取模块410，用于获取待处理视频中目标视频图像的第一参考图像，以及获取目标视频图像的第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像；

系数确定模块420，用于根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数；

图像变换模块430，用于根据仿射变换系数对目标视频图像进行仿射变换，得到变换图像；

视频生成模块440，用于根据变换图像，生成待处理视频的变换视频。

应当说明的是，本申请实施例提供的视频处理装置400与上文实施例中的视频处理方法属于同一构思，其具体实现过程详见以上相关实施例，此处不再赘述。

本申请实施例还提供一种电子设备，包括存储器和处理器，其中处理器通过调用存储器中存储的计算机程序，用于执行本实施例提供的视频处理方法中的步骤。

请参照图10，图10为本申请实施例提供的电子设备100的结构示意图。

该电子设备100可以包括网络接口110、存储器120、处理器130以及屏幕组件(图10中未示出)等部件。本领域技术人员可以理解，图10中示出的电子设备100结构并不构成对电子设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

网络接口110可以用于进行设备之间的网络连接。

存储器120可用于存储计算机程序和数据。存储器120存储的计算机程序中包含有可执行代码。计算机程序可以划分为各种功能模块。处理器130通过运行存储在存储器120的计算机程序，从而执行各种功能应用以及数据处理。

处理器130是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分，通过运行或执行存储在存储器120内的计算机程序，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据，从而对电子设备100进行整体控制。

在本申请实施例中，电子设备100中的处理器130会按照如下的指令，将一个或一个以上的计算机程序对应的可执行代码加载到存储器120中，并由处理器130来执行本申请提供的视频处理方法中的步骤，比如：

获取待处理视频中目标视频图像的第一参考图像，以及获取目标视频图像的第二参考图像，第一参考图像的风格特征为对应目标风格的风格特征，第二参考图像为待处理视频中与目标视频图像间隔预设帧数的视频图像；

根据第一参考图像、第二参考图像以及目标视频图像，确定目标视频图像的仿射变换系数；

根据仿射变换系数对目标视频图像进行仿射变换，得到变换图像；

根据变换图像，生成待处理视频的变换视频。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的视频处理方法属于同一构思，其具体实现过程详见以上相关实施例，此处不再赘述。

本申请还提供一种非暂时性可读存储介质，其上存储有计算机程序，当其存储的计算机程序在处理器上执行时，使得处理器执行以上任一视频处理方法中的步骤。其中，非暂时性可读存储介质包括但不限于磁碟、光盘等。

以上对本申请所提供的一种视频处理方法、视频处理装置、非暂时性可读存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

根据所述变换图像，生成所述待处理视频的变换视频。

2.如权利要求1所述的视频处理方法，其特征在于，所述根据所述第一参考图像、所述第二参考图像以及所述目标视频图像，确定所述目标视频图像的仿射变换系数，包括：

获取所述第一参考图像的第一下采样图像；

获取所述第二参考图像的第二下采样图像；

获取所述目标视频图像的第三下采样图像；

根据所述第一下采样图像、所述第二下采样图像以及所述第三下采样图像，确定所述目标视频图像的仿射变换系数。

3.如权利要求2所述的视频处理方法，其特征在于，所述根据所述第一下采样图像、所述第二下采样图像以及所述第三下采样图像，确定所述目标视频图像的仿射变换系数，包括：

通过已训练的特征编码网络分别对所述第一下采样图像、所述第二下采样图像以及所述第三下采样图像进行特征编码，得到所述第一下采样图像的第一特征图、所述第二下采样图像的第二特征图和所述第三下采样图像的第三特征图；

根据所述第一特征图和所述第二特征图，通过已训练的时空特征转换网络对所述第三特征图进行特征转换，得到目标转换特征图；

根据所述目标转换特征图，确定所述仿射变换系数。

4.如权利要求3所述的视频处理方法，其特征在于，所述第一特征图包括N尺度的第一金字塔特征图，所述第二特征图包括N尺度的第二金字塔特征图，所述第三特征图包括N尺度的第三金字塔特征图，N为大于2的正整数，所述时空特征转换网络包括时空自适应实例标准化子网络和抛雪球子网络，所述根据所述第一特征图和所述第二特征图，通过已训练的时空特征转换网络对所述第三特征图进行特征转换，得到目标转换特征图，包括：

根据所述第一金字塔特征图中第i尺度的特征图，所述第二金字塔特征图中第i尺度的特征图，通过所述时空自适应实例标准化子网络对所述第三金字塔特征图中第i尺度的特征图进行特征转换，得到第i尺度的转换特征图，i∈[2,N]；

根据所述第i尺度的转换特征图，所述第一金字塔特征图中第1尺度的特征图以及所述二金字塔特征图中第1尺度的特征图，通过所述抛雪球子网络对所述第三金字塔特征图中第1尺度的特征图进行特征转换，得到所述目标转换特征图。

5.如权利要求4所述的视频处理方法，其特征在于，所述时空自适应实例标准化子网络包括N-1个第一时空自适应实例标准化单元，所述根据所述第一金字塔特征图中第i尺度的特征图，所述第二金字塔特征图中第i尺度的特征图，通过所述时空自适应实例标准化子网络对所述第三金字塔特征图中第i尺度的特征图进行特征转换，得到第i尺度的转换特征图，包括：

根据所述第二金字塔特征图中第i尺度的特征图的均值和方差，通过第i-1个第一时空自适应实例标准化单元对所述第三金字塔特征图中第i尺度的特征图的均值和方差进行调整；

根据所述第一金字塔特征图中第i尺度的特征图的均值和方差、所述第三金字塔特征图中第i尺度的特征图调整后的均值和方差，通过所述第i-1个第一时空自适应实例标准化单元对所述第三金字塔特征图中第i尺度的特征图进行特征转换，得到所述第i尺度的转换特征图。

6.如权利要求4所述的视频处理方法，其特征在于，所述抛雪球子网络包括N-1个抛雪球模块，所述抛雪球模块包括特征转换分支和卷积分支，所述根据所述第i尺度的转换特征图，所述第一金字塔特征图中第1尺度的特征图以及所述二金字塔特征图中第1尺度的特征图，通过所述抛雪球子网络对所述第三金字塔特征图中第1尺度的特征图进行特征转换，得到所述目标转换特征图，包括：

根据第2尺度的转换特征图、所述第一金字塔特征图中第1尺度的特征图以及所述第二金字塔特征中第1尺度的特征图，通过第1个抛雪球模块的特征转换分支对所述第三金字塔特征图中第1尺度的特征图进行特征转换，得到1阶转换特征图，以及通过第1个抛雪球模块的卷积分支对所述第一金字塔特征图中第1尺度的特征图进行卷积操作，得到1阶卷积特征图；

根据第j尺度的转换特征图，第j-2阶卷积特征图以及所述第二金字塔特征图中第1尺度的特征图，通过第j-1个抛雪球模块的特征转换分支对所述第j-2阶卷积特征图进行特征转换，得到j-1阶转换特征图，以及通过第j-1个抛雪球模块的卷积分支对所述j-2阶卷积特征图进行卷积操作，得到j-1阶卷积特征图，j∈[3，N]；

从第N-1个抛雪球模块的特征转换分支获取N-1阶转换特征图；

根据所述N-1阶转换特征图，确定所述目标转换特征图。

7.如权利要求6所述的视频处理方法，其特征在于，所述特征转换分支包括第一卷积单元、第二时空自适应实例标准化单元、加法单元、第二卷积单元以及第三卷积单元，所述卷积分支包括第四卷积单元和第五卷积单元，所述根据第2尺度的转换特征图、所述第一金字塔特征图中第1尺度的特征图以及所述第二金字塔特征中第1尺度的特征图，通过第1个抛雪球模块的特征转换分支对所述第三金字塔特征图中第1尺度的特征图进行特征转换，得到1阶转换特征图，以及通过第1个抛雪球模块的卷积分支对所述第一金字塔特征图中第1尺度的特征图进行卷积操作，得到1阶卷积特征图，包括：

通过所述第一卷积单元对所述第三金字塔特征图中第1尺度的特征图进行卷积操作，得到第一中间卷积特征图；

通过所述第四卷积单元对所述第一金字塔特征图中第1尺度的特征图进行卷积操作，得到第二中间卷积特征图；

根据所述第二中间卷积特征图、所述第二金字塔特征中第1尺度的特征图，通过所述第二时空自适应实例标准化单元对所述第一中间卷积特征图进行特征转换，得到初始转换特征图；

通过所述加法单元对所述初始转换特征图和所述第2尺度的转换特征图进行加法操作，得到和值特征图；

依次通过所述第二卷积单元和所述第三卷积单元对所述和值特征图进行卷积操作，得到所述1阶转换特征图；

通过所述第五卷积单元对所述第一中间卷积特征图进行卷积操作，得到所述1阶卷积特征图。

8.如权利要求7所述的视频处理方法，其特征在于，所述第一卷积单元和所述第四卷积单元的参数相同，所述第三卷积单元和所述第五卷积单元的参数相同。

9.如权利要求4-8任一项所述的视频处理方法，其特征在于，所述根据所述目标转换特征图，确定所述仿射变换系数，包括：

对所述目标转换特征图进行增强处理，得到增强特征图；

根据所述增强特征图，确定所述仿射变换系数。

10.如权利要求9所述的视频处理方法，其特征在于，所述对所述目标转换特征图进行增强处理，得到增强特征图，包括：

通过已训练的局部特征增强网络对所述目标转换特征图进行局部特征增强，得到局部增强特征图；

通过已训练的全局特征增强网络对所述目标转换特征图进行全局特征增强，得到全局增强特征图；

根据所述局部增强特征图和所述全局增强特征图，得到所述增强特征图。

11.如权利要求9所述的视频处理方法，其特征在于，所述根据所述增强特征图，确定所述仿射变换系数，包括：

分别在空间域和值域对所述增强特征图进行采样，得到所述增强特征图的第一双边网格矩阵；

根据所述目标视频图像的分辨率对所述第一双边网格矩阵进行插值，得到所述仿射变换系数。

12.如权利要求11所述的视频处理方法，其特征在于，所述获取待处理视频中目标视频图像的第一参考图像之前，还包括：

识别所述目标视频图像是否位于所述待处理视频中的M个目标位置中的任一目标位置，M为大于2的正整数；

所述获取待处理视频中目标视频图像的第一参考图像，包括：

若所述目标视频图像位于任一目标位置，则根据所述目标视频图像所处的目标位置，从包括M个第一参考图像的参考图像序列中，获取对应所述目标视频图像所处的目标位置的第一参考图像。

13.如权利要求12所述的视频处理方法，其特征在于，所述识别所述目标视频图像是否位于所述待处理视频中的M个目标位置中的任一目标位置之后，还包括:

若所述目标视频图像未位于任一目标位置，则获取所述目标视频图像所处位置的前一目标位置所对应的第二双边网格矩阵，以及获取所述目标视频图像所处位置的后一目标位置所对应的第三双边网格矩阵；

根据所述第二双边网格矩阵和所述第三双边网格矩阵，获取对应所述目标视频图像的第四双边网格矩阵；

根据所述目标视频图像的分辨率对所述第四双边网格矩阵进行插值，得到所述目标视频图像的仿射变换系数，并转入所述根据所述仿射变换系数对所述目标视频图像进行仿射变换的步骤。

14.如权利要求13所述的视频处理方法，其特征在于，所述根据所述第二双边网格矩阵和所述第三双边网格矩阵，获取对应所述目标视频图像的第四双边网格矩阵，包括：

确定所述待处理视频中位于所述前一目标位置和所述后一目标位置之间的视频图像的图像数量；

根据所述图像数量以及所述目标视频图像所处位置，确定所述第二双边网格矩阵和所述第三双边网格矩阵的融合系数；

根据所述融合系数，融合所述第二双边网格矩阵和所述第三双边网格矩阵，得到所述第四双边网格矩阵。

15.如权利要求1-8任一项所述的视频处理方法，其特征在于，所述目标视频图像的风格特征与所述第一参考图像的风格特征之间的相似度小于相似度阈值；和/或，

所述变换图像的风格特征与所述第一参考图像的风格特征之间的相似度大于或等于所述相似度阈值；和/或，

所述预设帧数为零。

16.一种视频处理装置，其特征在于，包括：

17.一种非暂时性可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器加载时执行如权利要求1-15任一项所述的视频处理方法中的步骤。

18.一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过加载所述计算机程序，用于执行如权利要求1至15任一项所述的视频处理方法中的步骤。