CN119991416B

CN119991416B - 一种基于raft光流的视频风格迁移方法

Info

Publication number: CN119991416B
Application number: CN202510480941.8A
Authority: CN
Inventors: 成沛阳
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2025-04-17
Filing date: 2025-04-17
Publication date: 2025-06-17
Anticipated expiration: 2045-04-17
Also published as: CN119991416A

Abstract

本发明公开了一种基于RAFT光流的视频风格迁移方法，属于视频处理技术领域，具体包括：通过RAFT光流网络逐帧计算视频中相邻帧的像素位移，生成包含每个像素运动方向和大小的光流场；根据光流场中像素的位移量生成动态权重图；将视频帧分解为低频结构层和高频细节层，对低频结构层进行全局风格迁移；对高频细节层结合动态权重图进行局部风格化；融合处理后的低频结构层和高频细节层，生成单帧风格化图像；根据光流场将当前帧的风格化结果与相邻帧进行运动对齐，通过反向投影和插值补偿调整像素位置；将对齐后的多帧结果进行时序平滑滤波，输出连贯的风格化视频；本发明提升视频帧间的时间一致性和运动流畅性。

Description

一种基于RAFT光流的视频风格迁移方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于RAFT光流的视频风格迁移方法。

背景技术

在视频风格迁移任务中，光流网络起到了至关重要的作用，它通过估计视频帧间的运动信息，确保风格迁移在时间维度上保持一致性和平滑过渡。传统的风格迁移方法通常只处理单帧图像，忽略了视频中帧与帧之间的动态变化，这可能导致风格迁移后的视频看起来不连贯或产生跳跃感。而光流网络通过准确地捕捉每一帧之间的运动模式，能够保持视频中的物体和背景的相对运动，从而避免风格迁移过程中出现不自然的过渡或模糊。光流不仅能够处理快速运动和复杂场景的动态变化，还能帮助解决由于物体遮挡或纹理丢失带来的问题，确保风格迁移后的每一帧在运动和视觉上都保持一致。此外，光流网络还能够提供更精确的局部运动估计和全局运动模式，从而更好地适应多尺度场景中的运动变化，提升风格迁移的效果与质量。结合深度学习的光流网络，通过训练自动学习运动信息，使得计算效率更高、估计精度更准确，这使得光流在视频风格迁移中的应用能够在长时间序列和复杂场景中提供高质量且稳定的迁移效果，最终实现更加自然、流畅的视频风格转换。

传统的光流估计方法，如Lucas-Kanade和Horn-Schunck，依赖于基于局部像素相对运动的假设，这些方法在一些理想条件下能提供基本的光流估计。然而，在现代视频风格迁移任务中，这些传统方法面临着许多挑战，尤其在处理复杂的、快速变化的场景时表现较差。首先，传统光流算法在高动态范围的视频或含有快速运动的场景中精度较低。这是因为传统方法通常无法捕捉到较大尺度或较细粒度的运动信息，尤其在帧与帧之间存在大幅度的运动时，容易导致光流估计失真。这会影响到风格迁移的质量，导致生成的视频出现不自然的运动模糊或对象位置错误的现象，进而破坏风格一致性。其次，传统光流方法对光照变化、纹理缺失、遮挡或反射等复杂现象非常敏感。在现实场景中，视频帧往往会受到环境光照、物体反射以及摄像机角度变化的影响，这使得传统算法难以精确估计光流。尤其是在纹理较少或者对比度较低的区域，传统光流方法往往无法提供有效的估计，导致光流在这些区域出现较大的误差，从而影响到视频风格迁移的效果，使得迁移后的视频风格不够自然，甚至出现明显的失真。

发明内容

本发明的目的在于提供一种基于RAFT光流的视频风格迁移方法，解决以下技术问题：

现有的视频风格迁移技术无法有效保持视频帧间的连贯性和平滑过渡，在处理复杂背景和细节时，无法精确捕捉局部运动信息，并且在处理快速运动场景时效果不佳，影响整体迁移效果。

本发明的目的可以通过以下技术方案实现：

一种基于RAFT光流的视频风格迁移方法，包括以下步骤：

通过RAFT光流网络逐帧计算视频中相邻帧的像素位移，生成包含每个像素运动方向和大小的光流场；

根据光流场中像素的位移量生成动态权重图，每个区域的权重值与位移量成反比；

通过滤波将视频帧分解为低频结构层和高频细节层，对低频结构层进行全局风格迁移，替换颜色分布与笔触特征；对高频细节层结合动态权重图进行局部风格化；

融合处理后的低频结构层和高频细节层，生成单帧风格化图像；根据光流场将当前帧的风格化结果与相邻帧进行运动对齐，通过反向投影和插值补偿调整像素位置；

将对齐后的多帧结果进行时序平滑滤波，输出连贯的风格化视频。

作为本发明进一步的方案：所述动态权重图的生成过程包括：

基于光流场的整体位移分布设定动态判定阈值，超过动态判定阈值的区域标记为高动态区域；对高动态区域的权重值进行非线性衰减，衰减程度随位移量增加逐步增强；

对权重图的边界区域进行形态学扩展操作，平滑低权重区域与高权重区域的过渡边界；所述形态学扩展操作通过膨胀算法扩展低权重区域的覆盖范围，避免运动边界处出现权重跳变；

采用自适应高斯核平滑权重图，高斯核的半径根据局部位移变化的剧烈程度动态调整，确保权重分布的自然过渡；所述自适应高斯核的半径计算方式为：根据光流场中局部区域的位移标准差，标准差越大则高斯核半径越大，标准差越小则半径越小。

作为本发明进一步的方案：低频结构层和高频细节层的分解过程具体为：

通过高斯滤波器对原始帧进行模糊处理，提取低频结构层；将原始帧与低频结构层相减得到高频细节层，并对高频细节层的负值区域进行截断与补偿；所述截断与补偿操作将高频细节层的负值置零后叠加原始细节的固定比例强度；

对高频细节层进行对比度拉伸，所述对比度拉伸通过线性映射将高频细节层的像素值分布扩展至预设范围，提升纹理的可编辑性，拉伸范围根据细节层的像素分布自适应调整；在低频结构层的全局风格迁移中保留原始几何结构，仅替换颜色与笔触特征。

作为本发明进一步的方案：所述高频细节层的局部风格化包括：

基于预设的权重阈值，将视频帧中的区域划分为低权重区域、中权重区域和高权重区域，对低权重区域的高频细节，限制风格化操作至亮度通道，保持色度通道的原始值；对中权重区域的高频细节，采用多尺度融合策略，分别叠加粗粒度笔触与细粒度纹理；对高权重区域的高频细节，完全应用风格纹理，并通过边缘保留算法维持轮廓锐利度；

所述多尺度融合策略通过构建不同尺度的风格特征金字塔，从粗到细逐层叠加风格纹理；

所述边缘保留算法通过检测高频细节层的梯度信息，在风格化过程中保留梯度高于设定值的区域原始轮廓。

作为本发明进一步的方案：低频结构层和高频细节层的融合过程包括：

根据光流场的运动信息动态调整低频结构层与高频细节层之间的特征融合比例，对光流场中位移量超过动态判定阈值的区域，增加高频细节层在融合中的权重比例至设定比例；对位移量低于动态判定阈值的区域，提升低频结构层的融合权重比例至设定比例；

构建跨层特征关联图，通过光流场计算相邻帧低频结构层和高频细节层之间的运动相关性，关联图中高相关性区域采用相同融合比例；

对融合后的结果进行跨帧一致性验证，将当前帧的融合比例沿光流场投影至相邻帧，确保多帧间高低频特征的过渡。

作为本发明进一步的方案：所述运动对齐具体包括：

对光流场进行双向一致性校验，通过计算前向光流与后向光流的循环误差，误差超过预设阈值的区域标记为不可靠区域，反之为可靠区域；对不可靠区域的风格化特征采用相邻帧的加权融合填充，权重由光流场的局部平滑度决定；对可靠区域的风格化特征进行亚像素级对齐，通过光流场的小数位移值调整插值权重；

所述亚像素级对齐通过双线性插值算法，根据光流场的小数位移值调整特征插值权重，使投影结果与目标帧的像素网格匹配。

作为本发明进一步的方案：还包括静态区域优化：

检测视频中连续多帧位移量低于动态判定阈值的区域，标记为静态区域；反之为动态区域，对静态区域的首帧进行高精度风格迁移，后续帧复用首帧结果并通过光流场进行微调；所述微调操作根据光流场的位移量调整复用区域的像素位置，补偿摄像机抖动或光照变化；

在静态区域与动态区域的接合部进行渐变混合，通过透明度叠加过渡风格化强度；所述渐变混合通过alpha通道的线性过渡，在接合部形成风格化强度变化。

作为本发明进一步的方案：还包括通过预训练模型识别视频中的关键目标区域；对关键目标区域的运动部分设置权重下限，限制风格化强度；对关键目标区域的静态部分设置权重上限，保留局部细节；

所述预训练模型采用基于卷积神经网络的语义分割算法，输出像素级的目标类别标签；所述权重下限与上限的设定根据目标类别的重要性动态调整，所述目标类别的重要性基于预设目标映射表格获取。

本发明的有益效果：

本发明通过RAFT光流网络精准计算视频相邻帧像素位移生成光流场，依此生成的动态权重图可灵活适应视频内容运动情况，克服现有技术中权重设定缺乏灵活性的问题。在视频帧分解方面，运用高斯滤波等方式将视频帧准确分解为低频结构层和高频细节层，能有效平衡整体风格呈现与细节保留，解决现有技术划分不精准的难题。在风格化操作上，对低频结构层全局风格迁移，高频细节层结合动态权重图局部风格化，针对不同权重区域采取不同策略。同时，利用光流场进行运动对齐和时序平滑滤波，有效避免风格化视频卡顿、不连贯，显著提升观看体验，且通过静态区域优化、关键目标区域处理等进一步完善视频风格迁移效果。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程示意图；

图2是本发明RAFT模块的结构示意图；

图3是本发明风格迁移网络的结构示意图；

图4是本发明风格迁移网络的协同工作流程；

图5是本发明的RGB直方图；

图6是对比方法AdaIn的RGB直方图；

图7是对比方法NNST的RGB直方图；

图8是对比方法SANET的RGB直方图；

图9是本发明基于RAFT光流的视频风格迁移的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一，请参阅图1所示，为本发明提供的一种基于RAFT光流的视频风格迁移方法，包括以下步骤：

1、RAFT光流网络作为一种先进且高效的光流计算模型，其工作原理基于深度学习架构，利用大量的视频帧数据进行训练，从而能够精准地捕捉相邻帧之间像素的变化情况。在计算过程中，该网络对视频的每一帧进行细致分析，通过复杂的神经网络运算，输出包含每个像素运动方向和大小的光流场。这个光流场犹如一份详细的“运动地图”，为后续对视频内容的动态分析与处理提供了坚实的数据基础，使得本发明能够清晰地了解视频中各个像素在帧间的运动轨迹，为风格迁移的动态调整提供关键依据。

2、根据光流场中像素的位移量生成动态权重图。这一过程有着严谨且科学的步骤。首先，基于光流场的整体位移分布设定动态判定阈值。此判定阈值并非固定不变，而是通过对光流场中所有像素位移量的统计分析得出。例如，计算位移量的均值、中位数等统计量，结合视频内容的特点（如场景复杂度、运动物体的占比等），确定一个合理的动态判定阈值。超过该阈值的区域被敏锐地标记为高动态区域，这意味着这些区域中的像素在帧间的运动较为剧烈。对于高动态区域的权重值，采取非线性衰减策略，衰减程度随位移量增加逐步增强。其背后的逻辑在于，运动越剧烈的区域，在风格迁移过程中可能需要更多地保留原始视频的特征，以避免风格过度干扰导致内容失真。因此，位移量大的区域权重值降低，且这种降低并非线性的，而是随着位移量的增大以更快的速度衰减，以此精准控制风格化的强度。

为了使权重图更加合理且平滑，对权重图的边界区域进行形态学扩展操作。具体而言，这里采用膨胀算法来扩展低权重区域的覆盖范围。膨胀算法在图像处理中是一种常用的形态学操作，它通过将低权重区域的边界像素向外扩展，使得低权重区域与高权重区域之间的过渡边界更加平滑自然，避免在运动边界处出现权重跳变的情况。这种跳变可能会导致风格化效果在边界处出现明显的不连续，严重影响视觉效果。通过精心设计的膨胀算法，能够巧妙地消除这种潜在的瑕疵，使权重图在不同区域之间的过渡更加流畅。

最后，采用自适应高斯核平滑权重图，以进一步确保权重分布的自然过渡。自适应高斯核的半径并非固定值，而是根据局部位移变化的剧烈程度动态调整。其具体计算方式为：深入分析光流场中局部区域的位移标准差。标准差是衡量数据离散程度的重要指标，在光流场中，局部区域位移标准差越大，意味着该区域像素位移的变化越剧烈，此时需要更大的高斯核半径来进行平滑处理，以更好地平衡权重分布；反之，标准差越小，说明该区域像素位移变化相对平稳，高斯核半径相应减小。通过这种动态调整高斯核半径的方式，能够根据视频内容的实际运动情况，灵活且精准地对权重图进行平滑操作，使得最终生成的动态权重图能够高度贴合视频的动态特性。

3、对视频帧进行合理分解，利用高斯滤波器对原始帧展开模糊处理，以此提取低频结构层。高斯滤波器本质是一种线性平滑滤波器，其原理基于高斯函数，通过对原始帧中每个像素及其邻域像素进行加权平均来实现模糊效果。由于低频信号变化缓慢，在空间上表现为大面积的相似区域，高斯滤波器能够有效保留这些区域的信息，而高频信号所对应的快速变化的细节（如边缘、纹理等）则在模糊过程中被平滑掉，从而成功提取出主要包含场景主体轮廓、大面积颜色和亮度变化趋势等信息的低频结构层。

将原始帧与提取出的低频结构层相减，便可得到高频细节层。但在此过程中，高频细节层会出现负值区域。为解决这一问题，需进行截断与补偿操作。具体而言，将高频细节层中的负值直接置零，消除不合理的负像素值。随后，叠加原始细节的固定比例强度，这一固定比例并非随意设定，而是依据大量实验以及对视频内容的分析确定，旨在确保在去除负值的同时，尽可能保留原始细节信息，维持高频细节层的完整性与准确性，使后续处理基于更可靠的细节数据。

为进一步提升高频细节层纹理的可编辑性，需对其进行对比度拉伸。该操作借助线性映射原理，将高频细节层的像素值分布扩展至预设范围。预设范围并非一成不变，而是根据细节层的像素分布自适应调整。例如，先统计高频细节层像素值的最小值和最大值，结合视频内容特点（如是否为高对比度场景等），计算出合理的映射参数，使得像素值在新的范围内能够更清晰地展现纹理细节，为后续风格化操作提供更鲜明、更易于处理的纹理基础。在对低频结构层进行全局风格迁移时，精心保留原始几何结构，仅对颜色与笔触特征进行替换。通过特定的风格迁移算法（如基于神经网络的风格迁移模型），将目标风格的颜色分布和笔触特征融入低频结构层，确保在改变风格的同时，不破坏视频场景的基本几何形状和布局，维持场景的可辨识度。

高频细节层的局部风格化操作细致且精妙。基于预设的权重阈值，精准地将视频帧中的区域划分为低权重区域、中权重区域和高权重区域。对于低权重区域的高频细节，出于保留原始色彩信息的考量，将风格化操作严格限制至亮度通道，保持色度通道的原始值。这样在一定程度上引入风格变化的同时，确保颜色信息与原始视频尽可能一致，避免颜色失真对视觉效果的负面影响。对于中权重区域的高频细节，采用多尺度融合策略。具体通过构建不同尺度的风格特征金字塔来实现，从金字塔顶层的粗粒度风格特征开始，逐层向下叠加细粒度纹理。在这个过程中，顶层的粗粒度笔触能够快速勾勒出整体风格轮廓，底层的细粒度纹理则为风格增添丰富细节，两者有机结合，使风格化效果更加自然、细腻。对于高权重区域的高频细节，完全应用风格纹理，同时借助边缘保留算法维持轮廓锐利度。边缘保留算法通过检测高频细节层的梯度信息来工作，预先设定一个梯度阈值，在风格化过程中，对于梯度高于该设定值的区域，保留其原始轮廓。因为这些高梯度区域往往对应着物体的边缘等重要细节，保留其原始轮廓能保证风格化后的视频在呈现新风格的同时，不失细节清晰度，提升视觉质量。

在整个视频处理过程中，静态区域优化也是不可或缺的部分。通过检测视频中连续多帧位移量低于动态判定阈值的区域，将其敏锐地标记为静态区域，反之则为动态区域。对于静态区域，对其首帧进行高精度风格迁移，这意味着采用更为复杂、精细的风格迁移算法，投入更多计算资源，以确保生成高质量的风格化结果。后续帧复用首帧结果并通过光流场进行微调。微调操作依据光流场的位移量来调整复用区域的像素位置，以此补偿摄像机抖动或光照变化。由于静态区域并非绝对静止，可能存在因摄像机轻微晃动或光照缓慢改变导致的像素位置变化，通过光流场的精确位移信息，能够精准调整像素位置，维持视频的稳定性与连贯性。在静态区域与动态区域的接合部，进行渐变混合以实现风格化强度的自然过渡。具体通过alpha通道的线性过渡来达成，alpha通道用于控制图像的透明度。在接合部，根据距离静态区域和动态区域的远近，线性调整alpha值，使得风格化强度从静态区域的风格化程度平滑过渡到动态区域的风格化程度，避免出现明显的风格突变，提升视频整体的视觉流畅性。

此外，通过预训练模型识别视频中的关键目标区域。这里采用基于卷积神经网络的语义分割算法构建预训练模型，该算法利用卷积层、池化层和全连接层等组件，对大量带有标注的视频数据进行学习，从而能够输出像素级的目标类别标签，精准识别视频中的各类物体和区域。对于识别出的关键目标区域，进一步区分其运动部分和静态部分。对运动部分设置权重下限，限制风格化强度，防止风格过度改变导致关键目标运动部分的细节丢失或视觉效果异常。对静态部分设置权重上限，保留局部细节，确保关键目标的静态部分在风格迁移过程中，能够保留其原始的细节特征，维持目标的可辨识度和完整性。权重下限与上限的设定并非固定值，而是根据目标类别的重要性动态调整。目标类别的重要性基于预设目标映射表格获取，该表格预先对各类目标（如人物、车辆、建筑物等）根据其在视频内容中的重要程度进行了分类和权重赋值，使得在实际应用中能够根据视频内容的特点，灵活且合理地调整关键目标区域的风格化权重。

4、融合处理后的低频结构层和高频细节层，生成单帧风格化图像是迈向最终风格化视频的重要阶段。为达成高质量的融合效果，需依据光流场的运动信息对低频结构层与高频细节层之间的特征融合比例进行动态调控。动态判定阈值在此发挥着关键作用，它基于光流场中位移量的整体分布情况确定。对于光流场中位移量超过动态判定阈值的区域，意味着该区域内的像素运动较为剧烈，场景变化丰富。此时，为了更好地呈现动态区域的细节与风格，增加高频细节层在融合中的权重比例至设定比例。这一设定比例并非随意指定，而是经过大量实验与对视频内容的深入分析得出，旨在突出高频细节在快速变化区域的表现力，使风格化图像在这些区域既能体现新风格的纹理细节，又能紧密贴合原始视频的动态特征。相反，对于位移量低于动态判定阈值的区域，该区域相对稳定，场景变化较小，故而提升低频结构层的融合权重比例至设定比例，以强调场景的整体结构与风格的一致性，维持稳定区域的视觉连贯性。

构建跨层特征关联图是优化融合效果的关键策略。通过光流场强大的运动分析能力，计算相邻帧低频结构层和高频细节层之间的运动相关性。光流场能够精准捕捉每一帧中像素的运动轨迹，基于此，可量化相邻帧不同层之间的相似性与关联性。在关联图中，对于高相关性区域，即那些在相邻帧间运动模式较为相似的区域，采用相同融合比例。这确保了视频在时间维度上的连贯性，避免因不同帧间融合比例的大幅波动而导致视觉跳跃，使风格化后的视频在运动过程中呈现出自然流畅的视觉过渡。

为进一步保障风格化视频的质量，对融合后的结果进行跨帧一致性验证至关重要。此过程将当前帧的融合比例沿光流场投影至相邻帧。光流场如同一条纽带，连接着视频的各个帧，借助其精确的运动信息，将当前帧的融合比例信息传递到相邻帧。这样一来，在多帧之间，高低频特征的过渡得以平稳实现，避免了因融合比例不一致而产生的突兀感，极大地提升了风格化视频的视觉流畅性与连贯性，为观众带来更为舒适的观看体验。

在完成融合操作后，根据光流场将当前帧的风格化结果与相邻帧进行运动对齐，这是确保风格化视频动态效果自然的关键环节。首先，对光流场进行双向一致性校验。通过计算前向光流与后向光流的循环误差来评估光流场的可靠性。前向光流描述了从当前帧到下一帧的像素运动情况，后向光流则反之。若两者的循环误差超过预设阈值，意味着该区域的光流计算可能存在偏差，将此区域标记为不可靠区域；反之，则为可靠区域。对于不可靠区域的风格化特征，采用相邻帧的加权融合填充来优化。光流场的局部平滑度在此充当权重决定因素，局部平滑度越高，说明该区域的运动变化越平稳，在加权融合时对相邻帧的依赖程度越低；反之则越高。这种基于局部平滑度的加权融合方式，能够有效弥补不可靠区域光流计算的缺陷，提升风格化效果的稳定性。对于可靠区域的风格化特征，进行亚像素级对齐以实现更高精度的运动匹配。亚像素级对齐借助双线性插值算法，根据光流场的小数位移值调整特征插值权重。双线性插值算法通过对目标帧中相邻四个像素的加权平均来确定插值位置的像素值，而光流场的小数位移值则精确指示了插值权重的调整方向与程度，使投影结果与目标帧的像素网格精准匹配，确保风格化后的视频在运动过程中不会出现像素错位或模糊等问题，呈现出清晰、流畅的动态视觉效果。

5、对齐后的多帧结果进行时序平滑滤波，时序平滑滤波能消除前序步骤引入的噪声、波动与不连续性，确保视频在时间维度呈现自然流畅的视觉效果。其原理基于视频多帧数据的时间序列分析，借助特定滤波算法调整优化各帧像素值或特征信息。常见算法有均值滤波、中值滤波及时域高斯滤波，各有特点与适用场景。

均值滤波计算相邻若干帧同一像素位置的平均值，替换当前帧对应像素原始值，削弱单帧数据波动干扰，让视频画面过渡更平稳。中值滤波选取相邻帧对应像素集合的中值作为当前帧像素输出值，能有效去除脉冲噪声，避免视频画面出现明显瑕疵。时域高斯滤波依据高斯函数特性，对相邻帧像素值赋予不同权重，更侧重参考临近帧信息，既能平滑噪声波动，又能保留动态细节。实际应用中，需依据视频帧率、内容复杂度、风格化程度及预期效果，选择合适的滤波算法与参数。

实施例二，请参阅图2所示，为本发明提供的一种RAFT模块的结构示意图。

RAFT（RecurrentAll-PairsFieldTransforms）模块是一个用于光流估计的深度学习模型，其核心优势在于能够高效且精确地进行全局光流估计。与传统的光流方法相比，RAFT通过在整个图像中进行全对全的像素级匹配，进行迭代优化，捕捉更细致、更精确的光流信息。

FeatureEncoder提取相邻两帧的特征图，ContextEncoder只对第一帧进行特征提取，二者都是CNN-based的网络，可以理解成浅层的自定义ResNet。圆圈L表示Look-up操作，中间一串框框和箭头表示用GRU（一种循环网络）进行迭代式的光流估计。

RAFT模型的光流估计过程从初始化光流结果为零开始，即假设初始光流场为。然后，使用ContextEncoder对输入的第一帧图像提取全局上下文信息，并利用FeatureEncoder提取第一帧和第二帧的特征。接着，通过矩阵乘法操作，计算得到4D相关体（4DCorrelationVolumes），这些相关体捕捉了图像中每对像素之间的匹配信息。基于这些特征和相关性信息，模型使用GRU（GatedRecurrentUnit）模块对光流进行初步估计，得到光流更新量，并更新光流场为，即通过加入初始的零光流，得到了第一步的光流估计。

然而，这一初步估计通常不是足够精确，因此RAFT通过迭代优化的方式进一步提高光流估计的准确性。具体而言，模型通过查找4D相关体中的相关性信息，将更新的光流结果作为输入传递给GRU，并再次计算光流更新量。随着每次迭代，光流场会不断更新，得到新的光流估计。这一递归过程通过反复的迭代，不仅修正了初步的估计结果，还能够逐步优化光流估计，最终达到精确的光流场。通过多次迭代，RAFT能够根据每一次迭代中获取的更精确的运动信息，逐步改进光流估计，使得最终的光流估计在时空运动上的精度大大提高。

4DCorrelationVolumes是将相邻两帧的特征图逐像素求相关性得到的4D体像素，大小为，计算方式可以理解为把第一帧的特征图变成的矩阵，第二帧的特征图变成的矩阵，然后二者做矩阵乘法得到，调整一下形状（reshape）得到最终结果，用公式表示如下：

；

其中4DCorrelationVolumes每个元素可以表示为第一帧第(i,j)个像素与第二帧第(k,l)个像素的相关性。

因此RAFT可分为3个阶段：

特征提取：网络输入由两个连续的帧组成。为了从这两幅图像中提取特征，网络使用了两个共享权值的cnn。CNN的架构由6个残差层组成，就像ResNet的层一样，每隔一层分辨率就降低一半，同时通道数量也在增加。

视觉相似性(VisualSimilarity)：视觉相似度计算为所有特征图对的内积。因此，将得到一个称为相关体积的四维张量，它提供了关于大小像素位移的关键信息。然后，将这个四维张量的最后两个维用大小为1、2、4、8的核进行池化，构建4层相关金字塔。

迭代更新：迭代更新是一个门控循环单元(GRU)序列，它结合了本发明之前计算的所有数据。GRU单元模拟了一种迭代优化算法，但有一个改进——有共享权重的可训练卷积层。每次更新迭代产生一个新的光流更新，以使每一个新步骤的预测更准确

在本发明中，RAFT模块被应用于视频帧的光流估计步骤。通过利用RAFT对相邻视频帧进行光流估计，提取每个像素的运动信息作为输入数据，准确捕捉视频帧之间的运动变化，寻找最佳的运动特征信号，从而约束视频帧的时序一致性和空间连贯性。这种精确的运动估计有助于优化视频风格迁移过程中的帧间过渡，减少由于运动失真或错位产生的不自然效果，提升视频的连贯性和稳定性。

然后通过光流平滑模块优化RAFT模块输出的光流估计结果，减少噪声和不一致性，确保光流场的平滑性。该模块通过最小化一个综合的能量函数来实现，该函数结合了空间平滑和时间平滑的约束。

在本发明的视频风格迁移网络中，光流平滑模块的核心作用是优化光流估计结果，消除因运动估计中的噪声和不一致性产生的问题。具体来说，光流平滑模块不仅关注光流场的空间平滑，还会结合时序平滑来确保帧间的运动信息连贯一致。光流平滑模块主要由空间平滑和时间平滑组成。空间平滑主要确保光流场在空间维度上是平滑的，即相邻像素的运动信息不会出现剧烈波动。通过对相邻像素的光流向量进行约束，避免由于特征噪声或局部估计误差造成的不连续性。时间平滑确保相邻视频帧之间的光流变化是连续的。也就是说，在时间维度上，物体的运动不会出现跳跃或不自然的变化。它通过约束相邻帧之间的光流差异，使得光流场的变化更加平滑。

在本发明的网络中，光流平滑模块通过最小化一个综合的能量函数来优化光流估计。具体的目标函数形式结合了空间平滑和时间平滑的约束，通常的表达式为：

；

其中是光流场中像素点p的光流向量。是光流场的空间梯度，表示空间平滑的约束。和是超参数，用于平衡空间平滑和时间平滑的权重。d是时间差，表示相邻帧之间的位移，用于约束时间维度上的光流平滑。Ω是图像中的所有像素集合。计算光流场在空间维度上的梯度，以确保相邻像素的光流估计值之间的差异尽可能小。这个项使得光流在空间上的变化平滑，避免因为噪声或估计误差而引起的剧烈变化。强制相邻帧之间的光流变化保持一致。通过约束当前帧和相邻帧之间的光流差异，这个项确保光流场在时间维度上保持平滑，避免物体在时间轴上的运动不连贯。

光流平滑模块在本发明的视频风格迁移网络中，通过空间和时间平滑约束，优化光流估计结果，确保光流场的稳定性和一致性。这一模块能够有效消除光流估计中的噪声，提升视频的连贯性和流畅度，从而使风格迁移过程中的物体运动表现更加自然，避免了不一致性和失真。

实施例三，请参阅图3-图9，为本发明提供的一种风格迁移网络的结构示意图。风格迁移网络使用优化的方法进行风格迁移，这个优化过程通过计算内容损失和风格损失来实现。具体来说，本发明使用VGG-19模型来提取图像的特征，并基于这些特征计算损失函数，指导优化过程。

风格迁移模块的核心思想是通过优化一个初始的噪声图像，使其逐渐接近目标内容图像和目标风格图像的特征。本发明通过VGG-19模型来提取三个关键图像（噪声图像、内容图像、风格图像）的特征，并根据这些特征计算内容损失和风格损失，然后通过优化算法调整噪声图像，直到其同时最小化内容和风格的损失。

对于内容，本发明使用conv_4层的特征，该层在模型中相对较深，使本发明能够捕获更高级的特征，即场景的一般信息。对于风格，本发明从conv_1到conv_5层检索特征，这些特征包含一般信息以及图像的纹理细节。然后，本发明使用均方误差(MSE)计算内容损失，并通过计算Gram矩阵和MSE来计算风格损失。

在本发明的视频风格迁移网络中，风格迁移模块的作用是通过优化初始噪声图像，使其同时继承目标内容图像的结构信息和目标风格图像的纹理特征。通过使用VGG-19模型提取内容和风格特征，并结合内容损失和风格损失进行优化，该模块能够精确地调整生成图像，使其逐步逼近目标风格和内容，从而实现视频风格迁移。其意义在于通过有效融合内容和风格特征，使得迁移后的图像在视觉上既保持原始场景的结构，又具备目标风格的艺术特征。

损失函数计算具体实现如下：

（1）内容损失与风格损失

内容损失确保视频帧的内容保持一致，避免由于风格迁移而导致原始图像内容的破坏。通常是通过计算生成图像与参考图像之间的特征差异来实现。内容损失通过预训练的VGG网络提取高层特征，确保生成图像的语义内容与原始视频一致，其中l表示VGG-19中的特征提取层。在层l处定义的内容损失是输入帧xt的特征图与其风格化的输出帧xt的特征图之间的均方差：

；

其中，表示第l层的特征图，是第l层特征图的维数。这种内容丢失的动机是观察到CNN学习的高级特征表示抽象内容，而这些内容是本发明打算在风格转换任务中为原始输入保留的内容。内容损失计算图像特征之间的差异，鼓励生成图像保留输入图像的高层次结构。通过这种方式，确保生成的视频不会丢失原始图像中的重要内容。

风格损失确保生成的视频与目标风格保持一致。这是通过度量生成图像与目标图像在风格空间的差异来实现，通常是通过计算Gram矩阵来度量图像的风格相似度：

；

其中为特征图。风格损失被定义为风格图像s和风格化输出帧的格拉姆矩阵之间的均方误差：

；

通过比较生成图像和目标图像的风格特征，风格损失能够有效地保持图像的艺术风格特征不变，从而使得生成的图像或视频不仅在内容上符合要求，同时也能传达出特定的艺术风格或视觉效果。

（2）时序一致性损失

时序一致性损失是度量视频帧之间图像内容的一致性，特别是相邻帧之间的差异。它计算连续帧之间的像素差异或特征差异，并通过最小化这些差异来保持视频内容的连贯性，防止帧与帧之间的突变或跳跃。它的核心思想是，视频中的帧与帧之间应该在视觉上平滑过渡，保持稳定的内容和运动变化，而不是突然的剧烈变化。在风格迁移过程中，可能会因为风格化的处理而引入不自然的闪烁、错位或跳跃，这种不连续性会影响视频的观看体验。因此，通过时序一致性损失，可以减少这些不自然变化，保持视频的连贯性。本发明通过计算前后帧之间的MSE，并将其作为时序一致性损失来优化风格迁移网络：

；

其中和分别是第t帧和第t+1帧图像在网络中提取到的第i个特征。在时序一致性损失中，MSE计算的是当前帧和前一帧之间的差异，度量它们在内容上的一致性。较大的MSE值表明两帧之间的差异较大，可能表现为闪烁、跳跃或其他不自然的变化，而较小的MSE值则表明两帧内容一致，视觉过渡更平滑。

（3）光流平滑损失

尽管时序一致性损失有助于保证视觉内容在相邻帧之间的连贯性，但它并不直接控制视频帧间的运动流畅性。例如，如果视频中的光流发生剧烈变化，可能会导致图像在时序上产生明显的跳跃，尽管内容本身保持一致。光流平滑损失的引入，正是为了保证相邻帧之间的运动保持平滑和一致。

光流是描述图像中每个像素随时间变化的矢量场。它可以表示图像在不同时间点之间的运动方向和速度。在视频风格迁移中，光流平滑损失的目标是通过约束光流场的变化，使得连续帧之间的像素运动变化平滑且一致，从而避免视频生成中出现剧烈运动变化或运动不连贯的情况。光流平滑损失通过约束相邻帧之间的光流场，使得相邻帧之间的运动向量保持一致，不产生不自然的跳跃或瞬间变化。公式如下：

；

表示光流场u对空间坐标(x,y)的梯度，衡量光流场在空间上的变化。表示光流场在时间t和t+1之间的差异，衡量光流场在时间上的变化，是一个超参数，用于平衡空间和时间平滑项的重要性。

光流平滑损失与其他损失共同优化，确保生成的每一帧图像不仅具有目标风格，并且在视频的时序上没有剧烈运动变化。通过约束视频帧之间的光流平滑性，生成的图像将更加自然且具有一致性，避免了因为风格迁移产生的不连续运动。

在本发明中，本发明的网络结构通过多个模块的协同工作，旨在实现视频帧之间的平滑过渡，并确保风格的一致性。首先，网络接收当前帧和前一帧作为输入。利用RAFT模型计算两帧之间的光流场，捕捉像素级的运动信息。然后，通过光流平滑模块对计算出的光流场进行处理，消除噪声和不一致性，使得运动轨迹更加平滑自然。

接下来，网络使用特征提取器提取当前帧和扭曲后的前一帧的深层特征，识别它们之间的细微差异和共性。通过计算两帧特征之间的均方误差（MSE），网络可以量化它们的差异，并通过反向传播优化当前帧，使其风格和内容与前一帧更加一致。这个优化过程能够确保视频帧之间的视觉过渡更加自然，避免风格的剧烈变化，最终生成一个经过优化的输出帧。整个流程不仅提高了视频内容的连贯性，还能有效减少光流估计中的误差，确保风格迁移、视频合成等任务中帧与帧之间的平滑过渡，网络结构如图4所示。

本发明的视频风格迁移算法基于Pytorch深度学习框架，在python版本3.11的RTX4070显卡上完成，训练了100个周期。选用迁移方法AdaIn、NeuralNeighborStyleTransfer、SANET与本文算法进行比较。

客观指标分析，绘制各方法RGB直方图，各方法的RGB直方叠加图如图5-图8所示。在直方图中可以看出，本发明的结果在前后帧的RGB分布基本保持一致。同时，视觉对比图上本发明的方法也呈现了长期的风格一致的结果。

结果显示，本发明的算法在形变误差、时间误差和峰值信噪比指标上都获得了最好的分数，尤其是在时间误差和峰值信噪比上好于其他算法，较低的时间误差表明本发明的算法在处理图像序列时能够更好地保持连续性和动态一致性，而较高的峰值信噪比则意味着重建图像与原始图像之间的质量差异较小，图像的细节和质量得到了更好的保留。这表明本发明的算法不仅在单帧的图像质量上优于其他方法，也能够更好地处理时间序列中的变化和动态，提供了更准确和清晰的结果。

通过对多种算法的客观评价指标和主观视觉感受进行分析，验证了该算法迁移视频结果的优越性。本发明所介绍的方法在视频风格迁移方面，不仅在主观感觉、细节等方面展现了良好的效果，而且有效的降低了闪烁现象的发生。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于RAFT光流的视频风格迁移方法，其特征在于，包括以下步骤：

将对齐后的多帧结果进行时序平滑滤波，输出连贯的风格化视频；

所述动态权重图的生成过程包括：

2.根据权利要求1所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，低频结构层和高频细节层的分解过程具体为：

3.根据权利要求2所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，所述高频细节层的局部风格化包括：

4.根据权利要求1所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，低频结构层和高频细节层的融合过程包括：

5.根据权利要求1所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，所述运动对齐具体包括：

6.根据权利要求1所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，还包括静态区域优化：

7.根据权利要求1所述的一种基于RAFT光流的视频风格迁移方法，其特征在于，还包括通过预训练模型识别视频中的关键目标区域；对关键目标区域的运动部分设置权重下限，限制风格化强度；对关键目标区域的静态部分设置权重上限，保留局部细节；