CN116389704A

CN116389704A - 视频处理方法、装置、计算机设备、存储介质和产品

Info

Publication number: CN116389704A
Application number: CN202211610280.9A
Authority: CN
Inventors: 邵志兢; 张煜; 孙伟; 吕云
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-07-04

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备、存储介质和产品，通过获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。本申请实施例通过将与拍摄对象的运动匹配的调整后全景图像帧与体积视频进行融合，得到的融合后体积视频包含有与拍摄对象运动匹配的背景，使得体积视频的内容更加丰富，观看效果更好。

Description

视频处理方法、装置、计算机设备、存储介质和产品

技术领域

本申请涉及图像处理领域，具体涉及一种视频处理方法、装置、计算机设备、存储介质和产品，其中，存储介质为计算机可读存储介质，产品为计算机程序产品。

背景技术

由于，体积视频可以通过同步采用多个彩色相机和深度相机对需要进行三维重建的拍摄对象进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，基于上述的彩色图像和深度图像进行三维重建得到。由于相机围绕着拍摄对象进行拍摄，受到相机、参与拍摄的人员以及拍摄场地的限制，拍摄对象的周围环境难以同时被拍摄，而若在摄影棚中进行拍摄，则不存在拍摄背景，导致体积视频较为单调，效果一般。

发明内容

本申请实施例提供一种视频处理方法、装置、计算机设备、存储介质和产品，可以使体积视频的内容更加丰富，观看效果更好。

本申请实施例提供的一种视频处理方法，包括：

获取包含拍摄对象的体积视频，以及获取作为所述体积视频的候选背景的全景图像帧；

对所述体积视频中的所述拍摄对象进行运动检测，以得到所述拍摄对象的运动特征信息；

根据所述运动特征信息对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧；

将所述体积视频和所述调整后全景图像帧进行融合，得到以所述调整后全景图像帧为背景的融合后体积视频。

相应的，本申请实施例还提供的一种视频处理装置，包括：

获取单元，用于获取包含拍摄对象的体积视频，以及获取作为所述体积视频的候选背景的全景图像帧；

检测单元，用于对所述体积视频中的所述拍摄对象进行运动检测，以得到所述拍摄对象的运动特征信息；

调整单元，用于根据所述运动特征信息对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧；

融合单元，用于将所述体积视频和所述调整后全景图像帧进行融合，得到以所述调整后全景图像帧为背景的融合后体积视频。

在一实施例中，所述运动特征信息包含运动方向和运动速度，所述检测单元，包括：

识别子单元，用于对所述体积视频中的所述拍摄对象进行动作识别，以确定所述拍摄对象的运动速度和运动方向；

特征信息得到子单元，用于根据所述运动速度和所述运动方向得到所述运动特征信息。

在一实施例中，所述调整单元，包括：

区域确定子单元，用于根据所述运动速度确定所述全景图像帧中，与所述运动方向的观察视角对应的第一全景图像区域，以及与逆运动方向的观察视角对应的第二全景图像区域，所述逆运动方向为所述运动方向的反方向；

第一计算子单元，用于根据所述体积视频的视频尺寸信息和所述第一全景图像区域的图像尺寸信息计算所述第一全景图像区域的第一调整比例；

第二计算子单元，用于根据所述体积视频的视频尺寸信息和所述第二全景图像区域的图像尺寸信息计算所述第二全景图像区域的第二调整比例；

图像调整子单元，用于基于所述第一调整比例和所述第二调整比例，对所述全景图像进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧。

在一实施例中，所述基图像调整子单元，包括：

过滤模块，用于对所述全景图像帧中的所述第一全景图像区域和所述第二全景图像区域进行过滤处理，得到目标全景图像区域；

比例确定模块，用于基于所述第一调整比例和所述第二调整比例，确定对所述目标全景图像区域的目标调整比例；

图像处理模块，用于分别根据所述第一调整比例、所述第二调整比例和所述目标调整比例，对所述第一全景图像区域、所述第二全景图像区域和所述目标全景图像区域进行调整处理，以得到所述调整后全景图像帧。

在一实施例中，所述识别子单元，包括：

信息确定模块，用于对所述体积视频中的所述拍摄对象的进行动作识别，得到所述拍摄对象的运动时间和运动方向；

场景识别模块，用于对所述全景图像帧进行场景识别，得到所述全景图像帧中的运动范围；

速度计算模块，用于根据所述运动范围和所述运动时间计算所述拍摄对象的运动速度。

在一实施例中，所述调整单元，包括：

重建子单元，用于对所述全景图像帧进行场景重建，得到所述全景图像帧对应的三维场景模型；

位置确定子单元，用于根据所述运动特征信息确定所述拍摄对象在所述三维场景模型中的目标位置；

图像生成子单元，用于基于所述目标位置和所述三维场景模型，生成与所述拍摄对象运动至所述目标位置对应的调整后全景图像帧。

在一实施例中，所述调整单元，包括：

映射子单元，用于将所述全景图像帧映射至空间球面，得到与所述全景图像帧对应的球面全景图像帧；

区域匹配子单元，用于根据所述运动特征信息确定所述球面全景图像帧中与所述拍摄对象的运动匹配的待融合球面图像区域；

反映射子单元，用于对所述待融合球面图像区域进行反映射处理，得到所述调整后全景图像帧。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种视频处理方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种视频处理方法。

相应的，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种视频处理方法。

本申请实施例通过获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

本申请实施例通过将与拍摄对象的运动匹配的调整后全景图像帧与体积视频进行融合，得到的融合后体积视频包含有与拍摄对象运动匹配的背景，使得体积视频的内容更加丰富，观看效果更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频处理方法的流程图；

图2是本申请实施例提供的空间球面映射示意图；

图3是本申请实施例提供的视频处理方法的全景图像帧的区域划分示意图；

图4是本申请实施例提供的视频处理方法的观察视角示意图；

图5是本申请实施例提供的视频处理方法的图像处理示意图；

图6是本申请实施例提供的视频处理装置示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频处理方法、装置、计算机设备和计算机可读存储介质。该视频处理装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、以及车载计算机等。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频处理装置的角度进行描述，该视频处理装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

为了方便理解本申请提供的视频处理方法，以下对本申请实施例涉及的体积视频进行说明。

体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，用于构成体积视频的三维模型可以按照如下方式重建得到：

先获取拍摄对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达拍摄对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对拍摄对象的三维重建，得到拍摄对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个彩色相机和深度相机对需要进行三维重建的目标物体(该目标物体即为拍摄对象)进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到目标物体在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到目标物体在对应视角的深度图像。需要说明的是，目标物体可以是任意物体，包括但不限于人物、动物以及植物等生命物体，或者机械、家具、玩偶等非生命物体。

以此，目标物体在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一目标物体进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当目标物体处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该目标物体在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到目标物体在同一拍摄时刻的多个不同视角的彩色图像及其对应的深度图像之后，即可根据这些彩色图像及其对应深度图像对目标物体进行三维重建。区别于相关技术中将深度信息转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对目标物体的三维模型的隐式表达，从而基于该神经网络模型实现对目标物体的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；

在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；

将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；

基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；

将满足预设停止条件的基础模型作为隐式表达目标物体的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对拍摄对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到拍摄对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与目标物体上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与目标物体的三维模型的位置关系(内部、外部或者表面)，实现对目标物体的三维模型的隐式表达，得到用于隐式表达目标物体的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到目标物体的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模目标物体的三维模型，并加入深度信息提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对拍摄对象进行三维重建，即可得到拍摄对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对拍摄对象所拍摄得到的体积视频。以此，可以针对任意拍摄对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象舞蹈的体积视频，可以对教学的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象教学的体积视频等等。

需要说明的是，本申请以下实施例涉及的体积视频可采用以上体积视频拍摄方式所拍摄得到。

本申请实施例提供的一种视频处理方法，如图1所示，该视频处理方法的具体流程可以如下：

101、获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧。

其中，全景图像帧可以有一帧，比如全景图像帧可以是一张全景图像；全景图像帧也可以有多帧，比如，全景视频帧序列，即全景视频帧可以是全景视频包含的多帧视频帧。全景图像(PANORAMICPHOTO/PANORAMA)，可以指符合人的双眼正常有效视角(大约水平90度，垂直70度)或包括双眼余光视角(大约水平180度，垂直90度)以上，乃至360度完整场景范围拍摄的照片。

其中，拍摄对象为需要进行三维重建而进行拍摄并得到体积视频的对象，比如，可以是人物以及动物等。

比如，具体可以是获取体积视频和全景图像帧，可选的，可以提供有用于视频处理的客户端，以便用户通过客户端上传体积视频，以及用于作为体积视频的背景的全景图像或者全景视频。

102、对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息。

其中，运动特征信息可以表征拍摄对象的运动特征的信息，比如，可以包括运动速度、运动方向以及运动时间等信息。

其中，运动可以是指拍摄对象在空间中的相对位置随着时间而变化的过程。

比如，可以通过对体积视频中的拍摄对象进行动作识别，以确定拍摄对象是否处于运动状态，若处于运动状态，则可以进一步确定拍摄对象的运动特征信息，即在一实施例中，步骤“对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息”，具体可以包括：

对体积视频中的拍摄对象进行动作识别，以确定拍摄对象的运动速度和运动方向；

根据运动速度和运动方向得到运动特征信息。

比如，具体可以是在对体积视频的每帧视频帧中的拍摄对象的肢体关键点进行识别，得到视频帧中拍摄对象的每个肢体关键点的位置，根据拍摄对象的肢体关键点的位置确定拍摄对象的肢体动作。

由于要获取拍摄对象关于运动状态的信息，因此，可以预先设置目标动作，目标动作用于与拍摄对象在体积视频中的肢体动作进行比较，以确定拍摄对象在体积视频中是否处于运动状态，预先设置的目标动作可以是跑步或者走路时对应的肢体动作，预先设置的目标动作可以根据拍摄对象进行灵活设置，比如，若拍摄对象是小狗，那么，预先设置的目标动作可以是其走路以及跑步对应肢体动作，而如果拍摄对象为通过翅膀进行移动的动物，那么预先设置的目标动作为其飞翔时对应的肢体动作。

若体积视频中拍摄对象的肢体动作与预先设置的目标动作匹配，则确定拍摄对象处于运动状态。

人在运动过程中，手臂以及两腿会交替摆动；对于猫和狗这类动物而言，在运动过程中，腿也是交替摆动，对于鸟类而言，翅膀需要上下扇动，因此，可以根据拍摄对象的运动特征确定拍摄对象的运动速度。

以拍摄对象为人类进行说明，人在走动或者跑动时，双臂和双腿会交替地摆动，可以预先设置左手臂往前摆动的第一目标动作，以及右手臂往前摆动的第二目标动作，基于第一目标动作和第二目标动作进行动作识别，可以确定拍摄对象往前摆动左手臂和往前摆动右手臂之间的时间间隔，进而确定双臂或者双腿的摆动频率，摆动频率越高，运动速度越快，摆动频率越低，运动速度越慢，因此可以根据人的双臂摆动频率确定人的运动速度。

拍摄对象往不同方向运动对应的肢体动作不同，因此通过动作识别还可以确定拍摄对象的运动方向。将拍摄对象的运动速度和运动方向作为拍摄对象的运动特征信息。

体积视频中包含了多帧视频帧，通过该方式可以确定每帧视频中拍摄对象的运动特征信息。

在一些场景中，全景图像帧中可以包含有舞台等场地以供拍摄对象在其上进行展示，例如，将全景图像帧与体积视频融合可以得到关于拍摄对象在全景图像帧中的舞台进行表演的融合后体积视频，在该场景下，拍摄对象的运动范围可以限制在舞台以内，根据拍摄对象的运动时间以及全景图像帧中场地的位置确定拍摄对象的运动速度，以控制拍摄对象的运动范围不超过全景图像帧中的场地，即在一实施例中，步骤“对体积视频中的拍摄对象进行动作识别，以确定拍摄对象的运动速度和运动方向”，具体可以包括：

对体积视频中的拍摄对象的进行动作识别，得到拍摄对象的运动时间和运动方向；

对全景图像帧进行场景识别，得到全景图像帧中的运动范围；

根据运动范围、运动方向和运动时间计算拍摄对象的运动速度；

根据运动方向和运动速度得到运动特征信息。

比如，具体可以是对体积视频中的拍摄对象进行动作识别，得到体积视频中拍摄对象做出目标动作的时间段，得到运动时间，且根据拍摄对象做出的动作确定拍摄对象的运动方向。

对全景图像帧进行场景识别具体可以是通过模板匹配，从全景图像帧中确定舞台等场地所在的区域，或者是通过边缘检测，从全景图像帧中确定一个平面区域。根据检测得到的区域确定拍摄对象的运动范围，根据运动范围、运动方向和运动时间计算拍摄对象的运动速度，以便拍摄对象以该运动速度进行运动，不会越过识别到的区域，将运动方向和运动速度作为运动特征信息。

103、根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧。

由于，体积视频可以通过同步采用多个彩色相机和深度相机对需要进行三维重建的拍摄对象进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，并基于上述的彩色图像和深度图像进行三维重建得到。由于相机围绕着拍摄对象进行拍摄，受到相机、参与拍摄的人员以及拍摄场地的限制，拍摄对象的周围环境难以同时被拍摄，而若在摄影棚中进行拍摄，则不存在拍摄背景，会导致体积视频较为单调，效果一般，在本申请实施例中通过将全景图像帧与体积视频进行融合，在对体积视频进行的观看视角进行调整时，不仅可以观察到不同视角下的拍摄人物，还可以观察到不同视角下的背景，使得体积视频内容更加丰富，观看效果好。即在一实施例中，步骤“根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧”，具体可以包括：

将全景图像帧映射至空间球面，得到与全景图像帧对应的球面全景图像帧；

根据运动特征信息确定球面全景图像帧中与拍摄对象的运动匹配的待融合球面图像区域；

对待融合球面图像区域进行反映射处理，得到调整后全景图像帧。

比如，将全景图像帧映射至空间球面，相当于如图2(1)和图(2)所示的示意图，将全景图像帧贴在一个空间球体的球面上，该空间球体可以是半球体，将体积视频可以渲染至在该球体的底部平面上，将体积视频渲染至球体的底部平面可以是将体积视频对应的三维模型序列渲染至球体的底部平面。

步骤102对体积视频中的拍摄对象进行运动检测可以是通过终端获取用户针对体积视频选择的观看视角，用户切换观看视角可以认为是拍摄对象进行了旋转运动。用户可以通过手指在终端显示屏幕上进行滑动或者拖动等操作选择观看视角(体积视频中的拍摄对象会跟随用户的拖动进行转动)，确定球面全景图像帧中与观看视角匹配的待融合球面图像区域，将待融合球面区域进行反映射处理，得到调整后全景图像帧，将调整后全景图像帧与该观看视角匹配的体积视频帧进行融合，得到融合后视频帧。

当切换体积视频的观看视角时，体积视频的视频内容变化，所观察到的全景图像帧的区域也会随着变化，实现全景图像帧的显示区域随着体积视频的观看视角的变化而变化，可以得到包含有背景的体积视频。

在一实施例中，运动特征信息是对体积视频中的拍摄对象进行动作识别，确定拍摄对象的运动方向和运动速度，根据运动方向和运动速度进而可以确定与运动特征信息，确定体积视频在球体底部平面上的位置，根据拍摄对象所处的位置，对全景图像帧进行调整，得到与拍摄对象所处的位置匹配的调整后全景图像帧。假设将拍摄对象为顶点，水平30°和竖直30°范围内的全景图像帧的图像区域为一视角下的背景图像，拍摄对象距离球面越近，水平30°和竖直30°范围内的全景图像帧的图像区域越小，因此，根据体积视频在球体底部平面上的位置，可以确定全景图像帧与拍摄对象的距离，进而可以从全景图像帧中确定对应的图像区域以及图像区域后，对图像区域进行反映射，得到调整后的图像区域，将不同观察视角下对应的调整后的图像区域与体积视频进行渲染，得到包含背景的体积视频，根据拍摄对象的运动特征信息，确定体积视频的每帧体积视频帧在处于空间球体底部平面的位置，并基于该位置对全景图像帧与不同观察视角对应的图像区域进行调整，将每帧体积视频帧与不同观察视角下的调整后图像区域进行融合，以实现体积视频中背景近小远大的效果。

由于拍摄条件的限制，拍摄对象的运动也会受到影响，拍摄对象只能做出走动或者跑动的动作，而无法产生实际的位移。本申请实施例通过对全景图像帧进行图像调整处理，使得调整后全景图像帧与拍摄对象的运动匹配，从而营造动态效果，例如，拍摄对象做出往前运动的动作，相应地，拍摄对象的周围环境要往后退，以从视觉上营造出拍摄对象往前运动的动态效果；拍摄对象做出往左运动的动作，相应地，拍摄对象的周围环境要往右移动，以营造出拍摄对象往左运动的动态效果。相应地，若拍摄对象向左运动，则左边方向上的物体的大小要比右边方向上的物体的大，需要根据拍摄对象的运动方向对全景图像帧进行调整，以符合近大远小的原理。

全景图像帧可以认为是将用于拍摄全景图像的相机放置在拍摄对象所在的位置，即以拍摄对象为中心，拍摄得到的全景图像，因此，可以从全景图像帧中选取图像区域作为拍摄对象在运动方向对应视角(以下称为目标观察视角)下的初始背景图像。

比如，假设全景图像帧如图3所示，可以将图2中所示的全景图像帧的第一区域作为目标观察视角下的初始背景图像，将图2中所示的全景图像帧的第二区域作为与目标观察视角以拍摄对象为中心旋转180°对应的视角(以下称为反目标观察视角)下的初始背景图像，示意图如图4所示。

随着拍摄对象的运动，根据近大远小的原理，全景图像帧与目标观察视角下对应的图像区域越来越小，而全景图像帧中与反目标观察视角对应的图像区域越来越大，可以根据运动速度确定目标观察视角对应的第一全景图像区域以及反目标观察视角对应的第二全景图像区域，然后再对全景图像帧进行处理，得到调整后全景图像帧，即在一实施例中，步骤“根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧”具体可以包括：

根据运动速度确定全景图像帧中，与运动方向的观察视角对应的第一全景图像区域，以及与逆运动方向的观察视角对应的第二全景图像区域，逆运动方向为运动方向的反方向；

根据体积视频的视频尺寸信息和第一全景图像区域的图像尺寸信息计算第一全景图像区域的第一调整比例；

根据体积视频的视频尺寸信息和第二全景图像区域的图像尺寸信息计算第二全景图像区域的第二调整比例；

基于第一调整比例和第二调整比例，对全景图像进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧。

首先，确定体积视频中拍摄对象处于运动状态对应的视频帧的帧数，由于近大远小原理，每帧视频帧对应的第一全景图像区域的大小不同，比如，目标观察视角下的背景图像的长度l₁可以随着运动时间逐渐变小，长度随着运动时间逐渐变小的关系可以是l₁＝₁₀-vt，其中，l₁₀为目标视角的初始背景图像的长度，v为体积视频中拍摄对象的运动速度，t为当前视频帧距离拍摄对象开始运动的时间，k为系数，k可以是预先设置的比例系数以将拍摄对象运动的距离映射为与图像匹配的长度，根据拍摄对象的运动时间确定的每帧视频帧对应的背景图像的长度，得到每帧视频帧对应的图像区域的大小，得到每帧视频帧对应的第一全景图像区域。

同理，可以得到每帧视频帧的反观察视角下的第二全景图像区域，第二全景图像区域的长度l₂与运动时间的关系可以是l₂＝₂₀+vt，其中，l₂₀为反目标观察时间的初始背景图像的长度，v为体积视频中拍摄对象的运动速度，t为当前视频帧距离拍摄对象开始运动的时间，k为系数，k可以是预先设置的比例系数以将拍摄对象运动的距离映射为与图像匹配的长度。

体积视频的视频尺寸信息为体积视频的尺寸，比如，640×480或者是1024×768等，第一全景图像区域的图像尺寸信息为第一全景图像区域的长宽，第二全景图像区域的图形尺寸信息为第二全景图像区域的长宽，不同视频帧对应的第一全景图像区域和第二全景图像区域的图像长度是不同的，宽是固定的，与全景视频帧的宽一致，由于需要将视频帧与调整后全景视频帧融合，因此，需要将第一全景图像区域和第二全景图像区域进行尺寸调整(放大或者缩小)、图像裁剪以及图像填充等处理，使得调整后的全景图像区域与体积视频的尺寸相同。

以图5中所示的例子进行举例说明，体积视频的尺寸16×9，第一全景图像区域为4×3，第一全景图像区域的第一调整比例为4，先基于调整比例将第一全景图像区域进行放大，放大至16×12，然后将超出体积视频尺寸的部分进行裁剪，得到与体积视频的尺寸相同的调整后第一全景图像区域。

若第二全景图像区域为4×18，则第二全景图像区域的第二调整比例为1/2，基于调整比例将第二全景图像区域缩小至2×9，再对第二全景图像进行填充，使得第二全景图像的尺寸与体积视频的尺寸相同，得到调整后第二全景图像区域。

将全景图像帧中截取第一全景图像区域和第二全景图像区域之后，剩下的图像区域可以称为目标图像区域。

将调整后第一全景图像区域、调整后第二全景图像区域和目标图像区域进行拼接，得到调整后全景图像帧。

由于全景图像帧与运动方向对应的第一图像区域随着拍摄对象的运动，在全景图像帧中所占的比例会越来越少，运动方向的两侧由于第一图像区域的缩小，产生后退的视觉效果，为了在用户通过客户端改变观察视角(比如，通过手指在显示屏幕上滑动以改变观察视角)时，其他观察视角下的背景不仅呈现后退后动态效果，也呈现近大远小的效果，可以根据第一调整比例和第二调整比例，确定全景图像帧中除了第一全景图像区域和第二全景图像区域之外的其他图像区域的调整比例，即在一实施例中，步骤“基于第一调整比例和调整比例，对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧”，包括：

对全景图像帧中的第一全景图像区域和第二全景图像区域进行过滤处理，得到目标全景图像区域；

基于第一调整比例和第二调整比例，确定对目标全景图像区域的目标调整比例；

分别根据第一调整比例、第二调整比例和目标调整比例，对第一全景图像区域、第二全景图像区域和目标全景图像区域进行调整处理，以得到调整后全景图像帧。

比如，具体可以是从全景图像帧中截取出第一全景图像区域和第二全景图像区域后，剩下的图像区域为目标全景图像区域，根据近大远小的原理，目标全景图像的调整比例应当处于第一调整比例和第二调整比例之间，因此可以根据第一调整比例和第二调整比例确定目标全景图像区域的目标调整比例，可以是计算第一调整比例和第二调整比例的平均值，将该平均值作为目标全景图像区域的目标调整比例。

可选的，还可以是将目标全景图像区域划分为多个子区域，针对每个子区域设置一个目标调整比例，可以根据第一调整比例和第二调整比例之间的区间均分为与子区域数量匹配的多个子区间，以得到每个子区域对应的调整比例。

例如，将全景图像区域划分为4个子区域，第一调整比例为4，第二调整比例为0.5，将第一调整比例和第二调整比例之间的区间划分为5个子区间，以便能够根据区间的划分获取4个取值，每个子区间的长度为0.7，距离第一全景图像区域从近到远的子区域的目标调整比例分别为3.3、2.6、1.9和1.2。

然后，参考上述关于基于第一调整比例对第一全景图像区域进行图像调整，得到调整后第一全景图像区域，以及基于第二调整比例对第二全景图像区域进行图像调整，得到调整后第二全景图像区域的相关过程，分别根据每个子区域对应的目标调整比例进行图像调整处理，得到调整后子区域。

最后，将调整后第一全景图像区域和调整后第二全景图像区域，以及每个调整后区域进行拼接，得到调整后全景图像。

步骤103还可以通过预先训练好的图像处理模型实现，比如，步骤102对体积视频进行运动特征提取，得到体积视频帧的运动特征信息，将运动特征信息和全景图像帧输入图像处理模型，图像处理模型基于运动特征信息和全景图像帧输出调整后全景图像帧。

步骤103还可以通过对全景图像帧进行场景重建，以便根据重建的三维场景模型生成与运动特征信息匹配的调整后全景图像帧，即步骤“根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧”，具体可以包括：

对全景图像帧进行场景重建，得到全景图像帧对应的三维场景模型；

根据运动特征信息确定拍摄对象在三维场景模型中的目标位置；

基于目标位置和三维场景模型生成与拍摄对象运动至目标位置对应的调整后全景图像帧。

由于全景图像帧包含不同角度拍摄到的内容，可以通过场景重建，得到全景图像帧中的三维场景模型，可以将拍摄该全景图像帧的相机所在位置确定为拍摄对象的初始位置，根据运动特征信息可以确定体积视频中每一帧视频帧中拍摄对象在三维场景中的目标位置。三维场景模型可以认为是点云，确定目标位置在不同方向观察到的内容和观察到的内容与目标位置之间的距离，进而生成调整后全景图像帧，调整后全景图像帧相当于是在目标位置拍摄得到的全景图像。

104、将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

比如，针对体积视频中的每一帧视频帧，通过步骤103根据运动特征信息对全景图像帧进行图像调整处理，可以得到与每帧视频帧中拍摄对象的运动匹配的调整后全景图像帧，将体积视频中每一帧视频帧与对应的调整后全景视频帧进行融合，可以得到融合后视频帧。在融合后视频帧中，可以改变观察视角以查看不同角度下的拍摄对象，和全景图像帧中与该角度对应的图像区域。

根据体积视频每一帧视频帧进行融合后得到的融合后视频帧，可以得到融合后体积视频。

在一实施例中，全景图像帧可以有多帧，相当于全景视频，步骤103-104，可以是针对全景视频中的每一帧全景图像帧进行处理，得到调整后全景视频。体积视频中的每一帧视频帧均对应于全景视频中的一帧全景视频帧，也对应于该全景视频帧进行图像调整处理后得到的调整后全景视频帧。

由上可知，本申请实施例通过获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

为了便于更好地实施本申请实施例提供的视频处理方法，在一实施例中还提供了一种视频处理装置。其中名词的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。

该视频处理装置具体可以集成在计算机设备中，如图6所示，该视频处理装置可以包括：获取单元301、检测单元302、调整单元303和融合单元304，具体如下：

(1)获取单元301：用于获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧。

(2)检测单元302：用于对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息。

在一实施例中，运动特征信息包含运动方向和运动速度，检测单元可以包括识别子单元和特征信息得到子单元，具体地：

识别子单元：用于对体积视频中的拍摄对象进行动作识别，以确定拍摄对象的运动速度和运动方向；

特征信息得到子单元：用于根据运动速度和运动方向得到运动特征信息。

在一实施例中，识别子单元可以包括信息确定模块、场景识别模块和场景识别模块，具体地：

信息确定模块：用于对体积视频中的拍摄对象的进行动作识别，得到拍摄对象的运动时间和运动方向；

场景识别模块：用于对全景图像帧进行场景识别，得到全景图像帧中的运动范围；

速度计算模块：用于根据运动范围和运动时间计算拍摄对象的运动速度。

(3)调整单元303：用于根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；

在一实施例中，调整单元可以包括区域确定子单元、第一计算子单元、第二计算子单元和图像调整子单元，具体地：

区域确定子单元：用于根据运动速度确定全景图像帧中，与运动方向的观察视角对应的第一全景图像区域，以及与逆运动方向的观察视角对应的第二全景图像区域，逆运动方向为运动方向的反方向；

第一计算子单元：用于根据体积视频的视频尺寸信息和第一全景图像区域的图像尺寸信息计算第一全景图像区域的第一调整比例；

第二计算子单元：用于根据体积视频的视频尺寸信息和第二全景图像区域的图像尺寸信息计算第二全景图像区域的第二调整比例；

图像调整子单元：用于基于第一调整比例和第二调整比例，对全景图像进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧。

在一实施例中，基图像调整子单元可以包括过滤模块、比例确定模块和图像处理模块，具体地：

过滤模块：用于对全景图像帧中的第一全景图像区域和第二全景图像区域进行过滤处理，得到目标全景图像区域；

比例确定模块：用于基于第一调整比例和第二调整比例，确定对目标全景图像区域的目标调整比例；

图像处理模块：用于分别根据第一调整比例、第二调整比例和目标调整比例，对第一全景图像区域、第二全景图像区域和目标全景图像区域进行调整处理，以得到调整后全景图像帧。

在一实施例中，调整单元可以包括重建子单元、位置确定子单元和图像生成子单元，具体地：

重建子单元：用于对全景图像帧进行场景重建，得到全景图像帧对应的三维场景模型；

位置确定子单元：用于根据运动特征信息确定拍摄对象在三维场景模型中的目标位置；

图像生成子单元：用于基于目标位置和三维场景模型，生成与拍摄对象运动至目标位置对应的调整后全景图像帧。

在一实施例中，调整单元可以包括映射子单元、区域匹配子单元和反映射子单元，具体地：

映射子单元：用于将全景图像帧映射至空间球面，得到与全景图像帧对应的球面全景图像帧；

区域匹配子单元：用于根据运动特征信息确定球面全景图像帧中与拍摄对象的运动匹配的待融合球面图像区域；

反映射子单元：用于对待融合球面图像区域进行反映射处理，得到调整后全景图像帧。

(4)融合单元304：用于将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

由上可知，本申请实施例视频处理装置通过获取单元301获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；检测单元302对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；调整单元303根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；融合单元304将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

本申请实施例还提供一种计算机设备，该计算机设备可以是终端，也可以是服务器，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监测。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和计算机程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

计算机设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1001会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的计算机程序，从而实现各种功能，如下：

获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；

对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；

根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；

将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

由上可知，本申请实施例的计算机设备可以通过获取包含拍摄对象的体积视频，以及获取作为体积视频的候选背景的全景图像帧；对体积视频中的拍摄对象进行运动检测，以得到拍摄对象的运动特征信息；根据运动特征信息对全景图像帧进行图像调整处理，得到与拍摄对象的运动匹配的调整后全景图像帧；将体积视频和调整后全景图像帧进行融合，得到以调整后全景图像帧为背景的融合后体积视频。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序包含计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序，能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频处理方法，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频处理方法、装置、计算机设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述运动特征信息包含运动方向和运动速度，所述对所述体积视频中的所述拍摄对象进行运动检测，以得到所述拍摄对象的运动特征信息，包括：

对所述体积视频中的所述拍摄对象进行动作识别，以确定所述拍摄对象的运动速度和运动方向；

根据所述运动速度和所述运动方向得到所述运动特征信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述运动特征信息对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧，包括：

根据所述运动速度确定所述全景图像帧中，与所述运动方向的观察视角对应的第一全景图像区域，以及与逆运动方向的观察视角对应的第二全景图像区域，所述逆运动方向为所述运动方向的反方向；

根据所述体积视频的视频尺寸信息和所述第一全景图像区域的图像尺寸信息计算所述第一全景图像区域的第一调整比例；

根据所述体积视频的视频尺寸信息和所述第二全景图像区域的图像尺寸信息计算所述第二全景图像区域的第二调整比例；

基于所述第一调整比例和所述第二调整比例，对所述全景图像进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一调整比例和所述第二调整比例，对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧，包括：

对所述全景图像帧中的所述第一全景图像区域和所述第二全景图像区域进行过滤处理，得到目标全景图像区域；

基于所述第一调整比例和所述第二调整比例，确定对所述目标全景图像区域的目标调整比例；

分别根据所述第一调整比例、所述第二调整比例和所述目标调整比例，对所述第一全景图像区域、所述第二全景图像区域和所述目标全景图像区域进行调整处理，以得到所述调整后全景图像帧。

5.根据权利要求2所述的方法，其特征在于，所述对所述体积视频中的所述拍摄对象进行动作识别，以确定所述拍摄对象的运动速度和运动方向，包括：

对所述体积视频中的所述拍摄对象的进行动作识别，得到所述拍摄对象的运动时间和运动方向；

对所述全景图像帧进行场景识别，得到所述全景图像帧中的运动范围；

根据所述运动范围和所述运动时间计算所述拍摄对象的运动速度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述运动特征信息对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧，包括：

对所述全景图像帧进行场景重建，得到所述全景图像帧对应的三维场景模型；

根据所述运动特征信息确定所述拍摄对象在所述三维场景模型中的目标位置；

基于所述目标位置和所述三维场景模型进行采样，生成与所述拍摄对象运动至所述目标位置对应的调整后全景图像帧。

7.根据权利要求1所述的方法，其特征在于，所述根据所述运动特征信息对所述全景图像帧进行图像调整处理，得到与所述拍摄对象的运动匹配的调整后全景图像帧，包括：

将所述全景图像帧映射至空间球面，得到与所述全景图像帧对应的球面全景图像帧；

根据所述运动特征信息确定所述球面全景图像帧中与所述拍摄对象的运动匹配的待融合球面图像区域；

对所述待融合球面图像区域进行反映射处理，得到所述调整后全景图像帧。

8.一种视频处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至7任一项所述的视频处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行权利要求1至9任一项所述的视频处理方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的视频处理方法。