CN117424997A

CN117424997A - 视频处理方法、装置、设备及可读存储介质

Info

Publication number: CN117424997A
Application number: CN202311352285.0A
Authority: CN
Inventors: 罗志平
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-01-19

Abstract

本申请公开了一种视频处理方法、装置、设备及可读存储介质，涉及视频处理技术领域，该方法包括：显示与目标视频对应的多个六自由度6‑DOF视角，其中，每个所述6‑DOF视角对应所述目标视频的一帧图像；在用户基于多个6‑DOF视角输入调整命令情况下，根据所述调整命令，调整运镜动画轨迹；对所述运镜动画轨迹进行平滑过渡处理。本申请的方案在显示6‑DOF视角的基础上，用户可以通过可视化交互的方式对一段视频的运镜动画轨迹进行调整，如此，降低了对用户的专业水平的要求，进一步对调整后的运镜动画轨迹进行平滑处理，以生成任意视角互动视频，避免了3D建模的过程，解决了难以渲染出高逼真画面的问题。

Description

视频处理方法、装置、设备及可读存储介质

技术领域

本申请涉及视频处理技术领域，尤其是涉及一种视频处理方法、装置、设备及可读存储介质。

背景技术

任意视角互动观看视频提高了视频播放和观看的灵活性，其支持用户在线切换镜头，重置播放视角对应的视频画面，还可支持在线卡点比如子弹时间、重置景深及兴趣对象在画面的大小。当前视频拍摄中通常通过运镜拍摄实现上述效果，但该方式需事先完成视频的拍摄，并通过互动式完成上述效果，现有的可行性方案主要有视频后期处理和虚拟拍摄三维内容，但是，视频后期处理的方式需要借助视频剪辑工具，而无法实现在线重置视角，对于剪辑的视频片段之间的过渡平滑性和对于卡点视频中模拟镜头远近、角度旋转的把控需要对于用户的专业性提出了很高的要求；虚拟拍摄三维内容的方式需要三维内容，因此，需要将视频场景进行3D建模，尤其是环境光的光照模型、物体表面的材质设定，然后利用渲染器将三维内容渲染成超写实的逼真画面；从建模到渲染的流程在实际中难以满足渲染出高逼真的视频画面的要求。

发明内容

本申请的目的在于提供一种视频处理方法、装置、设备及可读存储介质，从而解决现有技术中视频后期处理方式对用户专业性要求高的问题，以及虚拟拍摄三维内容的方式难以渲染出高逼真画面的问题。

第一方面，为了达到上述目的，本申请实施例提供一种视频处理方法，包括：

显示与目标视频对应的多个六自由度6-DOF视角，其中，每个所述6-DOF视角对应所述目标视频的一帧图像；

在用户基于多个6-DOF视角输入调整命令情况下，根据所述调整命令，调整运镜动画轨迹；

对所述运镜动画轨迹进行平滑过渡处理。

可选地，所述显示与目标视频对应的多个六自由度6-DOF视角之前，所述方法还包括：

基于神经辐射场，提取所述目标视频中各帧图像对应的虚拟摄影机的相机参数；

根据所述相机参数，确定各个所述6-DOF视角。

可选地，所述显示与目标视频对应的多个六自由度6-DOF视角，包括：

将多个所述6-DOF视角归一化至单元球体内；

在显示界面的3D视图窗口内显示位于所述单元球体内多个所述6-DOF视角。

可选地，所述将多个6-DOF视角归一化至单元球体内，包括：

根据各个所述6-DOF视角对应的虚拟摄影机的中心坐标，计算平均中心坐标；

根据各个所述中心坐标和所述平均中心坐标，确定各个所述虚拟摄影机的偏移向量和缩放因子；

根据所述偏移向量和所述缩放因子，将各个所述虚拟摄影机的中心归一化至以所述平均中心坐标为球心的单元球体内；

将各个所述虚拟摄影机对应的视锥体的原点偏移至所述虚拟摄影机归一化后的中心，并根据所述虚拟摄影机对应的6-DOF视角中的旋转矩阵旋转所述视锥体，确定所述虚拟摄影机在所述单元球体内的朝向。

可选地，所述根据各个所述中心坐标和所述平均中心坐标，确定各个所述虚拟摄影机的偏移向量和缩放因子，包括：

根据所述平均中心坐标，确定所述偏移向量；

根据所述偏移向量和各所述虚拟摄影机的中心坐标，确定第一矩阵，其中，所述第一矩阵为n×3矩阵，n为所述虚拟摄影机的个数；

根据所述第一矩阵的各列向量的最大范数，确定所述缩放因子。

可选地，所述方法还包括：

在所述显示界面的2D视图窗口内显示所述单元球体在所述3D视图窗口坐标系下第一坐标轴和第二坐标轴的横切面，以及虚拟摄影机的位姿投影与所述横切面的二维视图，其中，所述虚拟摄影机的位姿与对应的所述6-DOF视角相关。

可选地，所述根据所述调整命令，调整运镜动画轨迹之前，包括：

接收用户的第一输入；

响应于所述第一输入，生成所述调整命令，所述调整命令用于指示调整拍摄顺序、增减6-DOF视角以及调整6-DOF视角的自由度值中的至少一项。

可选地，根据所述调整命令，调整运镜动画轨迹，包括以下至少一项：

在所述第一输入为增加视角标识的情况下，基于所述第一输入，在第一目标位置增加第一视角标识，并在显示多个所述6-DOF视角的显示界面内，同步增加与所述第一视角标识对应的6-DOF视角；

在所述第一输入为删除视角标识的情况下，基于所述第一输入，删除第二目标位置的视角标识，并在显示多个所述6-DOF视角的显示界面内，同步删除与所述第二目标位置的视角标识对应的6-DOF视角；

在所述第一输入包括选中视角标识和调整自由度值的情况下，基于所述第一输入，调整选中的视角标识对应的6-DOF视角的自由度值。

可选地，所述方法还包括：

在所述第一输入为增加时间轴控件的情况下，在显示界面上显示时间轴控件，并按照各个所述6-DOF视角对应的帧图像在所述目标视频中的时间戳顺序，在所述时间轴控件上显示各所述6-DOF视角对应的视角标识。

可选地，所述对所述运镜动画轨迹进行平滑过渡处理，包括：

根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置；

根据所述插入位置，确定插入所述目标6-DOF视角的旋转角度；

在所述插入位置按照对应的旋转角度插入所述目标6-DOF视角。

可选地，所述方法还包括：

将所述第一6-DOF视角和所述第二6-DOF视角在所述单元球体内的位置投影到球体表面；

根据所述第一6-DOF视角和所述第二6-DOF视角在所述球体表面的投影之间的曲线对应的角度，确定所述第一6-DOF视角和所述第二6-DOF视角之间的角度，其中，所述曲线为所述第一6-DOF视角的投影点和所述第二6-DOF视角的投影点之间的最短弧线路径；

根据所述角度和所述第一6-DOF视角和所述第二6-DOF视角之间的时间戳差，确定所述视角数目。

可选地，根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置，包括：

根据所述视角数目，利用线性插值算法，确定所述目标6-DOF视角的插入位置。

可选地，所述根据所述插入位置，确定插入所述目标6-DOF视角的旋转角度，包括：

将所述插入位置投影到球体表面，获得投影位置；

将与所述插入位置相邻的两个6-DOF视角转换为四元数；

在所述相邻的两个6-DOF视角对应的四元数之间的夹角小于第一预设角度的情况下，采用归一化线性插值NLERP算法对相邻的两个所述四元数进行插值；

在所述相邻的两个6-DOF视角对应的四元数之间的夹角大于或等于第一预设角度的情况下，采用球面线性插值SLERP算法对相邻的两个所述四元数进行插值。

可选地，所述方法还包括：

根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像；

显示所述球面全景图像，其中，所述球面全景图像中具有第一标记，所述第一标记用于指示虚拟摄影机正在观察的图像位置。

可选地，所述根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像，包括：

将与各所述6-DOF视角对应的虚拟摄影机的视锥体的远裁剪面的各顶点坐标转换为球面坐标；

通过视锥体点和所述远裁剪画面的顶点，将所述6-DOF视角对应的图像投影到所述球面坐标确定的球面上；

展开所述球面，生成所述球面全景图像。

第二方面，为了达到上述目的，本申请实施例提供一种视频处理装置，包括：

第一显示模块，用于显示与目标视频对应的多个六自由度6-DOF视角，其中，每个所述6-DOF视角对应所述目标视频的一帧图像；

调整模块，用于在用户基于多个6-DOF视角输入调整命令情况下，根据所述调整命令，调整运镜动画轨迹；

第一处理模块，用于对所述运镜动画轨迹进行平滑过渡处理。

第三方面，为了达到上述目的，本申请实施例提供一种视频处理设备，包括：收发机、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的视频处理方法。

第四方面，为了达到上述目的，本申请实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频处理方法。

本申请的上述技术方案至少具有如下有益效果：

本申请实施例的视频处理方法中，首先，显示与目标视频对应的多个六自由度6-DOF视角，其中，每个所述6-DOF视角对应所述目标视频的一帧图像；其次，在用户基于多个6-DOF视角输入调整命令情况下，根据所述调整命令，调整运镜动画轨迹；最后，对所述运镜动画轨迹进行平滑过渡处理。如此，在对视频处理的过程中，能够通过可视化交互实现对运镜动画轨迹的调整，降低了对用户的专业水平的要求，且本申请对视频处理的过程无需进行3D建模，避免了无法渲染出高逼真的视频画面的问题。

附图说明

图1为本申请实施例的视频处理方法的流程示意图；

图2为本申请实施例的显示界面的示意图；

图3为本申请实施例中对新增视角的位置球面投影的示意图；

图4为本申请实施例的视频处理装置的结构示意图；

图5为本申请实施例的视频处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法、装置、设备及可读存储介质进行详细地说明。

本申请实施例提供一种视频处理方法，如图1所示，该方法包括：

步骤101，显示与目标视频对应的多个六自由度(Six Degree Of Freedom，6-DOF)视角，其中，每个6-DOF视角对应目标视频的一帧图像；这里，该目标视频为一由物理相机拍摄的视频；即：本步骤为针对获取到的一段由物理相机拍摄的视频，显示该视频中各帧图像对应的虚拟摄影机的6-DOF视角，即对虚拟摄影机的6-DOF视角进行可视化；

步骤102，在用户基于多个6-DOF视角输入调整命令情况下，根据调整命令，调整运镜动画轨迹；也就是说，该调整命令与用户对当前显示的6-DOF视角的输入操作对应，即：基于用户对6-DOF视角的输入操作，对与目标视频对应的运镜动画轨迹进行调整；

步骤103，对运镜动画轨迹进行平滑过渡处理，本步骤，通过对运镜动画轨迹进行平滑过渡处理，使得各虚拟摄影机视角之间的画面可以平滑切换，以最终生成任意视角的互动视频。

本申请实施例的视频处理方法中，首先，显示与目标视频对应的多个6-DOF视角，其中，每个6-DOF视角对应目标视频的一帧图像；其次，在用户基于多个6-DOF视角输入调整命令情况下，根据调整命令，调整运镜动画轨迹；最后，对运镜动画轨迹进行平滑过渡处理。如此，在对视频处理的过程中，能够通过可视化交互实现对运镜动画轨迹的调整，降低了对用户的专业水平的要求，且本申请对视频处理的过程无需进行3D建模，避免了无法渲染出高逼真的视频画面的问题。

进一步地，作为一个可选的实现方式，步骤101之前，该方法还包括：

基于神经辐射场，提取目标视频中各帧图像对应的虚拟摄影机的相机参数；这里，相机参数例如包括相机内参和相机外参；

根据所述相机参数，确定各个6-DOF视角，这里，6-DOF视角能够对应虚拟摄影机的6-DOF位姿。

这里，需要说明的是，相机外参的旋转矩阵决定了虚拟摄影机的朝向，而其中的偏移向量则确定了虚拟摄影机的中心位置；下一步则可以计算虚拟摄影机的水平方向视野和垂直方向视野；相机内参的图像像素中心决定了虚拟摄影机成像图像分辨率大小，即像素中心值的2倍。其中，焦距和图像分辨率(res)则依据公式决定了虚拟摄影机的视野(即fov)，其中，水平视野(用hfov表示)则由水平方向焦距和图像宽度替换公式中的焦距和res，同样竖直方向视野(用vfov表示)，则用竖直焦距和图像高度替换。

另外，虚拟摄影机可以采用视锥体可视化相机，其中，远裁减面的四个顶点由水平视野和垂直视野及视锥体原点决定，其中，视锥体原点到远裁减面距离为L，取值范围为(0，1)，远裁减面的四个顶点的坐标具体为：左上顶点坐标为右上顶点坐标为：/>右下顶点坐标为：/>左下顶点坐标为：/>

作为一个可选的实现方式，步骤101包括：

将多个6-DOF视角归一化至单元球体内；这里，将多个6-DOF视角归一化至单元球体内，可以在一个固定空间大小可视化所有虚拟摄影机(例如虚拟摄影机总数用n表示)视角；这样，可以带来两个显著优点：一是提供了一个紧凑的可视化视图，二是基于此可用一个三维几何体包裹所有虚拟摄影机，由于视频拍摄的场景作为一个三维空间因此也可以用三维几何体近似表示。这里，可以采用一个单元球体作为三维几何体来表所场景的三维空间；

在显示界面的3D视图窗口内显示位于单元球体内多个6-DOF视角。这里，显示界面还可以为用户界面(User Interface，UI)界面，通过该界面，用户可以实时编辑镜头拍摄的顺序以及增删视角等。本步骤，在显示界面显示6-DOF视角，能够在视频处理过程实现用户的可视化交互，以降低对用户的专业性要求。

具体的，在执行本申请实施例时，在将6-DOF视角归一化至单元球体内以后，可以添加一个3D视图窗口其中，该3D视图窗口可以由用户手动添加，也可以响应于归一化结果(即在检测到6-DOF视角的归一化完成)添加。其中，3D视图窗口允许旋转、平移、缩放视图，从而方便用户立体上全局查看视频拍摄的各镜头及拍摄轨迹。可选地，3D视图窗口比如可基于OpenGL开发，其可显示点、线条和网格，基于此球体可用三维球体网格模型表示，而视锥体则由顶点和线条组成，此外，3D视图窗口还提供了接口，以通过鼠标、键盘等操控视图对应的虚拟摄影机的轨迹球(trackball)功能。

作为一个具体的实现方式，将多个6-DOF视角归一化至单元球体内，包括：

(1)根据各个6-DOF视角对应的虚拟摄影机的中心坐标，计算平均中心坐标；这里，各中心坐标包括x轴坐标、y轴坐标和z轴坐标，本步骤具体为：计算各虚拟摄影机的x轴坐标的平均值，以得到x轴平均中心坐标值，计算各虚拟摄影机的y轴坐标的平均值，以得到y轴平均中心坐标值，计算各虚拟摄影机的z轴坐标的平均值，以得到z轴平均中心坐标值；

(2)根据各个中心坐标和所述平均中心坐标，确定各个所述虚拟摄影机的偏移向量和缩放因子；作为一个更具体的实施例，本步骤包括：

根据各个中心坐标和平均中心坐标，确定偏移向量；其中，偏移向量的各元素为中心坐标的各轴的坐标值与平均中心坐标对应轴的坐标值的差，即：偏移向量可以表示为其中，C表示中心坐标，/>表示平均中心坐标；

根据各偏移向量，确定第一矩阵，其中，第一矩阵为n×3矩阵，n为所述虚拟摄影机的个数；以3个虚拟摄影机为例，中心坐标分别表示为：(x₁，y₁，z₁)、(x₂，y₂，z₂)、(x₃，y₃，z₃)；平均中心坐标表示为：则该第一矩阵表示为：/>

根据第一矩阵的各列向量的最大范数，确定所述缩放因子，这里，缩放因子可以表示为：其中，max表示第一矩阵的各列向量的最大范数。

(3)根据偏移向量和缩放因子，将各个虚拟摄影机的中心归一化所述平均中心坐标为球心的单元球体内；本步骤可以基于公式将虚拟摄影机的中心归一化到单元球体内。

这里，需要说明的是，进一步地将上述视锥体原点偏移到通过上述归一化得到的虚拟摄影机中心，视锥体根据虚拟摄影机6-DOF中的旋转矩阵进行旋转从而正确地表示虚拟摄影机在单元球体的朝向。也就是说，将6-DOF视角归一化到单元球体后，进一步将该虚拟摄影机的视锥体原点偏移到所述虚拟摄影机归一化后的中心，将视锥体根据该虚拟摄影机6-DOF中的旋转矩阵，得到该虚拟摄影机在单元球体的朝向，至此，完成了虚拟摄影机视角的可视化。

进一步地，作为一个可选的实现方式，该方法还包括：

在显示界面的2D视图窗口内显示单元球体在所述3D视图窗口坐标系下第一坐标轴和第二坐标轴的横切面，以及虚拟摄影机的位姿投影与所述横切面的二维视图，其中，所述虚拟摄影机的位姿与对应的所述6-DOF视角相关。也就是说，如图2所示，在显示3D视图窗口的同时还可以显示2D视图窗口，其中，该2D视图窗口能够帮助用户判断增加的视角是否在球体内。实际中，需允许误差存在，通过两个轴横切面投影，新增相机空间上的误差范围限制在对球体的外切立方体与球体执行差集布尔逻辑运算得到的三维空间中。这里，2D视图窗口的添加方式可以与3D视图窗口的添加方式相同或不同，这里不再限定。

进一步地，作为一个可选的实现方式，步骤102之前，该方法还包括：

接收用户的第一输入，这里，第一输入可以为显示的与6-DOF视角相关的输入操作；

响应于第一输入，生成调整命令，调整命令用于指示调整拍摄顺序、增减6-DOF视角以及调整6-DOF视角的自由度值中的至少一项。

作为一个可选的实现方式，该方法还包括：

在所述第一输入为增加时间轴控件的情况下，在显示界面上显示时间轴控件，并按照各个所述6-DOF视角对应的帧图像在所述目标视频中的时间戳顺序，在所述时间轴控件上显示各所述6-DOF视角对应的视角标识。也就是说，可以通过手动操作的方式，在显示界面上增加时间轴控件(在显示界面上显示的时间轴控件如图2所示)，当然，也可以在增加3D视图窗口/2D视图窗口的同事，自动增加时间轴控件。

这里，需要说明的是，在增加时间轴控件的基础上，相机标识(图2中的黑色三角形)可以按照其在目标视频中的时间戳顺序依次放置到时间轴控件并与时间轴上的时间戳对应。

作为一个具体的实现方式，根据调整命令，调整运镜动画轨迹，包括以下至少一项：

在第一输入为增加视角标识的情况下，基于第一输入，在第一目标位置增加第一视角标识，并在显示多个6-DOF视角的显示界面内，同步增加与第一视角标识对应的6-DOF视角；这里，第一输入可以为对显示界面显示的时间轴控件的目标位置的输入操作，如双击操作等，即：用户在时间轴控件的目标位置上双击，表示用户需要在该目标位置对应的时间戳上增加新的(相机)视角，此时，可以基于用户的输入，利用神经辐射场增加新的视角。具体的，预先训练好的神经辐射场中的多层神经网络(Multilayer Perception，MLP)可以基于视频素材合成新视角对应的视频画面；

在所述第一输入为删除视角标识的情况下，基于所述第一输入，删除第二目标位置的视角标识，并在显示多个所述6-DOF视角的显示界面内，同步删除与所述第二目标位置的视角标识对应的6-DOF视角；这里，删除视角标识的操作可以与增加视角标识的操作类似，例如，用户在已显示的视角标识上双击，则表示用户期望删除该视角标识对应的6-DOF视角/6-DOF视角对应的视频画面等，或者，宣州需要删除的视角标识，按照常规的删除操作进行删除；

在第一输入包括选中视角标识(这里，选中可以通过单击等操作实现)和调整自由度值的情况下，基于第一输入，调整选中的视角标识对应的6-DOF视角的自由度值。也就是说，用户可以通过可视化交互的方式对已有视角进行调整，如图2所示，显示界面还设置有一个上下可微调数值的空间，比如SpinBox控件，也就是说，在用户选中视角标识的基础上，可以通过SpinBox控件微调该视角标识对应的6-DOF视角的六个自由度的值。需要强调的是，考虑实际中相机的拍摄角度，本申请实施例中，建议纵摇(pitch)值范围为艏摇(yaw)为/>横摇(roll)则为/>而(X，Y，Z)的范围均为/>

这里，需要说明的是，图2，3D视图窗口、2D视图窗口和基于时间轴的视角编辑控件的平面布局参考示意图。3D视图窗口和2D视图窗口的显示内容更新与时间轴上相机视角信息同步，即改变的相机视角或新增的相机视角都同步反映在两个视图窗口中。

这里，需要说明的是，调整后的运镜动画轨迹难以保证调整后的相机视角之间画面可以平滑切换，因此，本步骤103具体可以是基于插值算法，对所述运镜动画轨迹进行平滑过渡处理，这种平滑处理的方式，能够模拟镜头的变化频率，使得生成的新视角能够更贴合于目标视频，使得生成的图像更逼真。

基于此，作为一个可选的实现方式，步骤103，包括：

(1)根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置；这里，第一6-DOF视角和第二6-DOF视角可以为目标视频中的帧图像对应的视角，也可以为基于用户操作新增的视角；目标6-DOF视角为需要通过神经训练场中MLP网络合成的新图像/画面的视角；

具体的，本步骤的一种实现方式为：根据所述视角数目，利用线性插值算法，确定所述目标6-DOF视角的插入位置；

(2)根据所述插入位置，确定插入所述目标6-DOF视角的旋转角度；这里，目标6-DOF视角的旋转即为对应的虚拟摄影机的朝向；其中，本步骤具体包括：

将所述插入位置投影到球体表面，获得投影位置；具体的，连接球心与新视角位置点的射线与球体的交叉点，即根据前述投影交叉方法得到在球面上的新视角位置；

将与所述插入位置相邻的两个6-DOF视角转换为四元数；

也就是说，四元数根据球面上的新视角位置，采用球面线性插值(SphericalLinear Interpolation，Slerp)方法插值计算新视角的旋转，其中，Slerp保证在球面上按最短路径插值。如果插值的两个四元数之间的夹角δ非常小则采用归一化线性插值(Normalized Linear Interpolation，Nlerp)对两个四元数进行插值，同样Nlerp保证插值得到归一化的四元数。本申请实施例中建议δ的阈值范围为5°至10°，该阈值符合人眼双目视差最小范围；最后，四元数再转换回(pitch，yaw，roll)。

(3)在所述插入位置按照对应的旋转角度插入所述目标6-DOF视角。

这里，需要说明的是，由于四元数只表示了旋转，因此，本可选的实现方式中，分别对位置和旋转采用了不同的插值算法。

进一步地，作为一个可选的实现方式，根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置之前，该方法还包括：

本步骤的投影是一个简单的从球心连接相机视角位置形成的射线与球体表面的交叉点。具体地，射线用表示，其中，/>表示球体中心/>到相机视角位置C的方向向量，λ表示系数,定义了射线上的点。与球面的交叉点等同于计算系数λ使得通过求解该一元二次方程得到系数，从而确定射线上的与球面交叉的点。

根据所述第一6-DOF视角和所述第二6-DOF视角在所述球体表面的投影之间的曲线对应的角度，确定所述第一6-DOF视角和所述第二6-DOF视角之间的角度，其中，所述曲线为所述第一6-DOF视角的投影点和所述第二6-DOF视角的投影点之间的最短弧线路径；也就是说，将投影后的球面上相机视角位置点用曲线相连，这里的点与点之间的曲线段是沿着球体表面的最短弧线路径，从而得到用曲线线段表示的相邻视角之间的视角轨迹。这一步骤的实现过程可参考图3；

这里，需要说明的是，对球面上的交叉点(投影点)进行插值，分三种情况处理。一是按照视频帧率在上述曲线线段采样，二是提高采样频率从而视角之间新增视角变多从而神经辐射场合成更多画面，画面间内容变化频率加快从而模拟快镜头，三是降低采样频率从而视角之间新增视角变少从而神经辐射场合成更少画面，画面间内容变化频率变低从而模拟慢镜头。因为对于一段视频而言，通过上述投影与球面相交生成的曲线线段非常多，用户很难手动设定每段的角速度，因此本可选的实现方式提供了一种自动化方法来计算每个曲线线段的视角采样数目。具体为球面两点之间时间戳差用t表示，它们对应射线的夹角用θ表示，视频帧率用fps表示。给定观察，两个曲线线段时间戳差一样，但夹角不一样，因为t一样两点间播放的画面一样为t×fps；因此夹角小的角速度则慢，夹角大的角速度快才能满足播放同样的画面数。然而角速度慢表示慢镜头，快则表示快镜头，因此两个曲线线段间采样的新视角数目应该为：角速度慢(即慢镜头画面更新的频率低)，代表新视角少这样神经辐射场合成的新视角画面就少，角速度快(即快镜头画面更新的频率高)，代表新视角多，这样神经辐射场合成的新视角画面就多。因此，采样新视角数目用nv可用公式计算得到，其中，/>表示向下取整，/>表示向上取整。公式将帧率和角速度关联，解决了模拟镜头快慢问题。

进一步地，作为一个可选的实现方式，所述方法还包括：

根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像；其中，该球面全景图像中的帧图像包括目标视频中的图像，以及，根据用户插入的6-DOF视角对应的图像(该图像由神经训练场中的MLP网络基于目标图像合成)；

也就是说，本申请实施例提供给用户两种同步更新的运镜拍摄预览。一是在前述3D视图窗口中，根据相机视角包括新增的时间戳顺序以及神经辐射场合成的该视角画面投影到在球面的图像画面，自动修改3D视图的虚拟摄影机的观察角度，比如基于OpenGL的开发中则根据观察位置和角度更新模型观察投影(Model View Projection，MVP)矩阵，从而模拟按照新运镜拍摄的视频画面播放。二是在球面全景图像中，高亮显示3D视图虚拟摄影机正在观察的画面，该功能可帮助用户查看画面内容细节，以及画面内容中兴趣对象的显著性。通过修改视角对应的虚拟相机的内参里的焦距值来改变画面内容显示范围。实施中，比如增大焦距，从而提高人脸在画面中的占比。

作为一个具体的实现方式，所述根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像，包括：

将与各所述6-DOF视角对应的虚拟摄影机的视锥体的远裁剪面的各顶点坐标转换为球面坐标；即：将顶点坐标(x，y，z)转换为其中，另外，在此基础上，通过球面投影可进一步得到球体站靠后的球面全景图像中的坐标/>

通过视锥体点和所述远裁剪画面的顶点，将所述6-DOF视角对应的图像投影到所述球面坐标确定的球面上；本步骤可以基于前述射线与球面交叉点的方法，将每个视角对应的画面通过视锥体点远裁减面四个顶点坐标透过投影到球面，同时通过球面投影球面上所有视角画面又展开到球面全景图像；其中，每个视角画面无论在球面还是二维全景画面中，其图像由对应坐标系下的四个顶点确定，因此可以确切知道一张图像在球面位置以及在全景图像中的位置；

展开所述球面，生成所述球面全景图像。

这里，需要说明的是，随着神经渲染尤其是神经辐射场在新视角合成应用的研究的深入，基于神经辐射场的自由视点视频有望应用与互动视频领域。给定一段视频素材，神经辐射场提取视频中各帧的相机外参和内参并进一步计算从相机坐标系原点发射到图像像素的射线既视角，加上可选的视频中场景的深度信息既空间位置，以视角和空间位置作为输入和像素的颜色和密度(透明度)为输出，训练神经辐射场中MLP网络。用户指定新的视角，MLP网络可基于视频素材合成新视角对应的视频画面。从神经辐射场这个特性考虑，其很适合应用与任意视角互动视频中，并不仅仅用于改变单一视角，而是进一步的连续改变视角，形成一条相机的镜头动画轨迹既运镜。因并非改变了物理相机的运镜，而是通过软件算法连续重置视角因此采用虚拟运镜拍摄命名来区分物理运镜拍摄。基于此，本申请实施例提供了上述视频处理方法，实现了基于物理相机拍摄的一段视频，可视化的显示与其对应的虚拟相机的6-DOF视角，通过用户对基于该6-DOF视角的操作，可以新增视角、删除视角或调整视角等，以基于调整后的视角，利用神经辐射场的MLP网络生成与新增视角对应的帧图像，并基于调整后的视角生成运镜动画轨迹以供用户预览，这样，降低了视频处理对用户的专业度的要求，且避免了视频处理过程中进行3D建模，从而解决了无法渲染出高逼真的视频画面的要求的问题。

本申请实施例提供一种视频处理装置，如图4所示，包括：

第一显示模块401，用于显示与目标视频对应的多个六自由度6-DOF视角，其中，每个所述6-DOF视角对应所述目标视频的一帧图像；

调整模块402，用于在用户基于多个6-DOF视角输入调整命令情况下，根据所述调整命令，调整运镜动画轨迹；

第一处理模块403，用于对所述运镜动画轨迹进行平滑过渡处理。

可选地，所述装置还包括：

提取模块，用于基于神经辐射场，提取所述目标视频中各帧图像对应的虚拟摄影机的相机参数；

确定模块，用于根据所述相机参数，确定各个所述6-DOF视角。

可选地，所述第一显示模块401包括：

处理子模块，用于将多个所述6-DOF视角归一化至单元球体内；

第一显示子模块，用于在显示界面的3D视图窗口内显示位于所述单元球体内多个所述6-DOF视角。

可选地，所述处理子模块包括：

计算单元，用于根据各个所述6-DOF视角对应的虚拟摄影机的中心坐标，计算平均中心坐标；

确定单元，用于根据各个所述中心坐标和所述平均中心坐标，确定各个所述虚拟摄影机的偏移向量和缩放因子；

第一处理单元，用于根据所述偏移向量和所述缩放因子，将各个所述虚拟摄影机的中心归一化至以所述平均中心坐标为球心的单元球体内；

第二处理单元，用于将各个所述虚拟摄影机对应的视锥体的原点偏移至所述虚拟摄影机归一化后的中心，并根据所述虚拟摄影机对应的6-DOF视角中的旋转矩阵旋转所述视锥体，确定所述虚拟摄影机在所述单元球体内的朝向。

可选地，所述确定单元包括：

第一确定子单元，用于根据所述平均中心坐标，确定所述偏移向量；

第二确定子单元，用于根据所述偏移向量和各所述虚拟摄影机的中心坐标，确定第一矩阵，其中，所述第一矩阵为n×3矩阵，n为所述虚拟摄影机的个数；

第三确定子单元，用于根据所述第一矩阵的各列向量的最大范数，确定所述缩放因子。

可选地，所述第一显示模块401还包括：

第二显示子模块，用于在所述显示界面的2D视图窗口内显示所述单元球体在所述3D视图窗口坐标系下第一坐标轴和第二坐标轴的横切面，以及虚拟摄影机的位姿投影与所述横切面的二维视图，其中，所述虚拟摄影机的位姿与对应的所述6-DOF视角相关。

可选地，所述装置还包括：

接收模块，用于接收用户的第一输入；

第一生成模块，用于响应于所述第一输入，生成所述调整命令，所述调整命令用于指示调整拍摄顺序、增减6-DOF视角以及调整6-DOF视角的自由度值中的至少一项。

可选地，所述调整模块402具体用于执行以下至少一项：

可选地，所述装置还包括：

第二处理模块，用于在所述第一输入为增加时间轴控件的情况下，在显示界面上显示时间轴控件，并按照各个所述6-DOF视角对应的帧图像在所述目标视频中的时间戳顺序，在所述时间轴控件上显示各所述6-DOF视角对应的视角标识。

可选地，所述第一处理模块403包括：

计算子模块，用于根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置；

第一确定子模块，用于根据所述插入位置，确定插入所述目标6-DOF视角的旋转角度；

插入子模块，用于在所述插入位置按照对应的旋转角度插入所述目标6-DOF视角。

可选地，所述第一处理模块403还包括：

第一投影子模块，用于将所述第一6-DOF视角和所述第二6-DOF视角在所述单元球体内的位置投影到球体表面；

第二确定子模块，用于根据所述第一6-DOF视角和所述第二6-DOF视角在所述球体表面的投影之间的曲线对应的角度，确定所述第一6-DOF视角和所述第二6-DOF视角之间的角度，其中，所述曲线为所述第一6-DOF视角的投影点和所述第二6-DOF视角的投影点之间的最短弧线路径；

第三确定子模块，用于根据所述角度和所述第一6-DOF视角和所述第二6-DOF视角之间的时间戳差，确定所述视角数目。

可选地，所述计算子模块具体用于：根据所述视角数目，利用线性插值算法，确定所述目标6-DOF视角的插入位置。

可选地，所述第一确定子模块包括：

获取单元，用于将所述插入位置投影到球体表面，获得投影位置；

转换单元，用于将与所述插入位置相邻的两个6-DOF视角转换为四元数；

第三处理单元，用于在所述相邻的两个6-DOF视角对应的四元数之间的夹角小于第一预设角度的情况下，采用归一化线性插值NLERP算法对相邻的两个所述四元数进行插值；

第四处理单元，用于在所述相邻的两个6-DOF视角对应的四元数之间的夹角大于或等于第一预设角度的情况下，采用球面线性插值SLERP算法对相邻的两个所述四元数进行插值。

可选地，所述装置还包括：

第二生成模块，用于根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像；

第二显示模块，用于显示所述球面全景图像，其中，所述球面全景图像中具有第一标记，所述第一标记用于指示虚拟摄影机正在观察的图像位置。

可选地，所述第二生成模块包括：

转换子模块，用于将与各所述6-DOF视角对应的虚拟摄影机的视锥体的远裁剪面的各顶点坐标转换为球面坐标；

第二投影子模块，用于通过视锥体点和所述远裁剪画面的顶点，将所述6-DOF视角对应的图像投影到所述球面坐标确定的球面上；

生成子模块，用于展开所述球面，生成所述球面全景图像。

在此需要说明的是，本申请实施例提供的上述视频处理装置，能够实现上述视频处理方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

如图5所示，本申请实施例还提供一种视频处理设备，包括收发机510、处理器500、存储器520及存储在所述存储器520上并可在所述处理器500上运行的程序或指令；所述处理器500执行所述程序或指令时实现上述视频处理方法。

所述收发机510，用于在处理器500的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机510可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口530还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器500负责管理总线架构和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序，该程序被处理器执行时实现视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，该可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

对所述运镜动画轨迹进行平滑过渡处理。

2.根据权利要求1所述的方法，其特征在于，所述显示与目标视频对应的多个六自由度6-DOF视角之前，所述方法还包括：

根据所述相机参数，确定各个所述6-DOF视角。

3.根据权利要求1所述的方法，其特征在于，所述显示与目标视频对应的多个六自由度6-DOF视角，包括：

将多个所述6-DOF视角归一化至单元球体内；

4.根据权利要求3所述的方法，其特征在于，所述将多个6-DOF视角归一化至单元球体内，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述中心坐标和所述平均中心坐标，确定各个所述虚拟摄影机的偏移向量和缩放因子，包括：

根据所述平均中心坐标，确定所述偏移向量；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1、3或6所述的方法，其特征在于，所述根据所述调整命令，调整运镜动画轨迹之前，包括：

接收用户的第一输入；

8.根据权利要求7所述的方法，其特征在于，根据所述调整命令，调整运镜动画轨迹，包括以下至少一项：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要求3所述的方法，其特征在于，所述对所述运镜动画轨迹进行平滑过渡处理，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求10所述的方法，其特征在于，根据相邻的第一6-DOF视角和第二6-DOF视角之间需要插入的视角数目，计算所述运镜动画轨迹中目标6-DOF视角的插入位置，包括：

13.根据权利要求10所述的方法，其特征在于，所述根据所述插入位置，确定插入所述目标6-DOF视角的旋转角度，包括：

将所述插入位置投影到球体表面，获得投影位置；

将与所述插入位置相邻的两个6-DOF视角转换为四元数；

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

15.根据权利要求14所述的方法，其特征在于，所述根据处理后的运镜动画轨迹，生成与所述目标视频对应的球面全景图像，包括：

展开所述球面，生成所述球面全景图像。

16.一种视频处理装置，其特征在于，包括：

17.一种视频处理设备，其特征在于，包括：收发机、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至15中任一项所述的视频处理方法。

18.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至15中任一项所述的视频处理方法。