CN113724331A

CN113724331A - 视频处理方法、视频处理装置和非瞬时性存储介质

Info

Publication number: CN113724331A
Application number: CN202111027095.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Chengshi Wanglin Information Technology Co Ltd
Current assignee: Beijing Chengshi Wanglin Information Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-30
Anticipated expiration: 2041-09-02
Also published as: CN113724331B

Abstract

一种视频处理方法、视频处理装置和非瞬时性存储介质。该视频处理方法包括：获取场景中的目标对象对应的多个目标关键点坐标；获取虚拟相机处于上一视点位置时的第一相机位姿；基于多个目标关键点坐标和第一相机位姿，确定目标对象对应的几何体和几何体的上一位姿信息；响应于虚拟相机从上一视点位置移动至当前视点位置，确定虚拟相机对应的位姿差值；基于几何体的上一位姿信息和位姿差值，获取几何体的当前位姿信息；基于几何体的当前位姿信息，将媒体纹理贴附在几何体上，以进行视频和/或图片展示。

Description

视频处理方法、视频处理装置和非瞬时性存储介质

技术领域

本公开的实施例涉及一种视频处理方法、视频处理装置和非瞬时性存储介质。

背景技术

随着VR(虚拟现实，Virtual Reality)技术的发展，未来沉浸式购物、沉浸式生活服务逐渐发展起来。沉浸式场景广告是一种结合VR技术的广告，沉浸式场景广告可以使得用户与广告信息之间具有更多的互动可能性，以便满足消费者对更逼真的沉浸式体验的需求。

发明内容

本公开至少一实施例提供一种视频处理方法，包括：获取场景中的目标对象对应的多个目标关键点坐标；获取虚拟相机处于上一视点位置时的第一相机位姿；基于所述多个目标关键点坐标和所述第一相机位姿，确定所述目标对象对应的几何体和所述几何体的上一位姿信息；响应于所述虚拟相机从所述上一视点位置移动至当前视点位置，确定所述虚拟相机对应的位姿差值；基于所述几何体的上一位姿信息和所述位姿差值，获取所述几何体的当前位姿信息；基于所述几何体的当前位姿信息，将媒体纹理贴附在所述几何体上，以进行视频和/或图片展示。

例如，在本公开至少一实施例提供的视频处理方法中，获取场景中的目标对象对应的多个目标关键点坐标，包括：在所述虚拟相机处于所述上一视点位置时，获取所述场景的第一图像，其中，所述第一图像为全景图像且包括所述目标对象；对所述第一图像进行填充处理，以得到填充后的第一图像；利用目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的候选区域；利用关键点检测模型对所述候选区域进行处理，以得到多个候选关键点坐标；对所述多个候选关键点坐标进行坐标对齐处理，以得到多个中间目标关键点坐标；基于所述多个中间目标关键点坐标，确定所述多个目标关键点坐标。

例如，在本公开至少一实施例提供的视频处理方法中，在所述第一图像的宽度方向上，所述第一图像包括彼此相对的第一图像边缘和第二图像边缘，对所述第一图像进行填充处理，以得到填充后的第一图像，包括：在所述第一图像的宽度方向上，在所述第一图像的第一图像边缘拼接第一图像块，以得到所述填充后的第一图像，其中，所述第一图像块为所述第一图像的以所述第二图像边缘为边缘的部分图像。

例如，在本公开至少一实施例提供的视频处理方法中，对所述第一图像进行填充处理，以得到填充后的第一图像，还包括：在所述第一图像的宽度方向上，在所述第一图像的第二图像边缘拼接第二图像块，以得到所述填充后的第一图像，其中，所述第二图像块为所述第一图像的以所述第一图像边缘为边缘的部分图像。

例如，在本公开至少一实施例提供的视频处理方法中，在所述第一图像的宽度方向上，所述第一图像块的尺寸小于等于所述第一图像的尺寸的一半且大于等于所述第一图像的尺寸的四分之一，所述第二图像块的尺寸小于等于所述第一图像的尺寸的一半且大于等于所述第一图像的尺寸的四分之一。

例如，在本公开至少一实施例提供的视频处理方法中，利用目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的候选区域，包括：利用所述目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的初始候选区域，其中，所述初始候选区域包括彼此相邻的第一初始候选区域边缘和第二初始候选区域边缘，所述第一初始候选区域边缘大于等于所述第二初始候选区域边缘；获取所述初始候选区域的中心点和所述第一初始候选区域边缘的尺寸；将所述第一初始候选区域边缘的尺寸乘以预设倍数，以得到目标尺寸，其中，所述预设倍数大于1；基于所述初始候选区域的中心点和所述目标尺寸，得到所述候选区域，其中，所述候选区域的中心点为所述初始候选区域的中心点，且所述候选区域的至少一个边缘的尺寸为所述目标尺寸。

例如，在本公开至少一实施例提供的视频处理方法中，在所述第一图像中，所述初始候选区域完全覆盖所述目标对象对应的区域。

例如，在本公开至少一实施例提供的视频处理方法中，利用关键点检测模型对所述候选区域进行处理，以得到多个候选关键点坐标，包括：基于所述候选区域，从所述填充后的第一图像中截取所述候选区域对应的区域图像块；利用所述关键点检测模型对所述区域图像块进行处理，以得到所述多个候选关键点坐标。

例如，在本公开至少一实施例提供的视频处理方法中，所述填充后的第一图像处于图像坐标系中，所述候选区域的形状为矩形，每个候选关键点坐标为所述图像坐标系中的坐标且包括横坐标和纵坐标，所述多个候选关键点坐标包括第一候选关键点坐标、第二候选关键点坐标、第三候选关键点坐标和第四候选关键点坐标，所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的横坐标均小于所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的横坐标中的任一个，对所述多个候选关键点坐标进行坐标对齐处理，以得到所述多个中间目标关键点坐标，包括：响应于所述第一候选关键点坐标的横坐标大于等于所述第二候选关键点坐标的横坐标，将所述第一候选关键点坐标的横坐标和纵坐标分别作为与所述第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的纵坐标分别作为与所述第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标；响应于所述第三候选关键点坐标的横坐标小于等于所述第四候选关键点坐标的横坐标，将所述第三候选关键点坐标的横坐标和纵坐标分别作为与所述第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的纵坐标分别作为与所述第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标；将所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标映射至所述第一图像中，以得到所述多个中间目标关键点坐标。

例如，在本公开至少一实施例提供的视频处理方法中，所述填充后的第一图像处于图像坐标系中，所述候选区域的形状为矩形，每个候选关键点坐标为所述图像坐标系中的坐标且包括横坐标和纵坐标，所述多个候选关键点坐标包括第一候选关键点坐标、第二候选关键点坐标、第三候选关键点坐标和第四候选关键点坐标，所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的横坐标均小于所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的横坐标中的任一个，对所述多个候选关键点坐标进行坐标对齐处理，以得到所述多个中间目标关键点坐标，包括：响应于所述第一候选关键点坐标的横坐标大于等于所述第二候选关键点坐标的横坐标，将所述第一候选关键点坐标的横坐标和纵坐标分别作为与所述第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的纵坐标分别作为与所述第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标；响应于所述第三候选关键点坐标的横坐标小于等于所述第四候选关键点坐标的横坐标，将所述第三候选关键点坐标的横坐标和纵坐标分别作为与所述第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的纵坐标分别作为与所述第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标；基于所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标，确定中间待比较区域；基于所述第一候选关键点坐标、所述第二候选关键点坐标、所述第三候选关键点坐标和所述第四候选关键点坐标，确定初始待比较区域；响应于所述中间待比较区域和所述初始待比较区域之间的重叠比例大于等于重叠阈值，将所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标映射至所述第一图像中，以得到所述多个中间目标关键点坐标。

例如，本公开至少一实施例提供的视频处理方法还包括：基于所述场景，建立空间坐标系；基于所述多个中间目标关键点坐标，确定所述多个目标关键点坐标，包括：将所述多个中间目标关键点坐标映射至所述空间坐标系，以得到所述多个目标关键点坐标。

例如，在本公开至少一实施例提供的视频处理方法中，每个中间目标关键点坐标为二维坐标，每个目标关键点坐标为三维坐标。

例如，在本公开至少一实施例提供的视频处理方法中，获取虚拟相机处于上一视点位置时的第一相机位姿，包括：获取所述上一视点位置在所述空间坐标系中的坐标和所述虚拟相机在所述上一视点位置时的旋转信息，以得到所述第一相机位姿。

例如，在本公开至少一实施例提供的视频处理方法中，响应于所述虚拟相机从所述上一视点位置移动至当前视点位置，确定所述虚拟相机对应的位姿差值，包括：获取所述当前视点位置在所述空间坐标系中的坐标和所述虚拟相机在所述当前视点位置时的旋转信息，以得到第二相机位姿；基于所述第一相机位姿和所述第二相机位姿，获取所述虚拟相机对应的位姿差值。

例如，在本公开至少一实施例提供的视频处理方法中，基于所述多个目标关键点坐标和所述第一相机位姿，确定所述目标对象对应的几何体和所述几何体的上一位姿信息，包括：基于所述多个目标关键点坐标，得到至少一个面片模型；将所述至少一个面片模型进行组合以得到所述目标对象对应的几何体；基于所述多个目标关键点坐标和所述第一相机位姿，确定所述几何体的上一位姿信息，其中，所述上一位姿信息包括当所述虚拟相机处于所述上一视点位置时所述几何体相对于所述虚拟相机的位置信息和所述几何体的旋转信息。

例如，在本公开至少一实施例提供的视频处理方法中，每个所述面片模型为三角面。

例如，在本公开至少一实施例提供的视频处理方法中，基于所述几何体的上一位姿信息和所述位姿差值，获取所述几何体的当前位姿信息，包括：将所述几何体的上一位姿信息和所述位姿差值相乘以得到所述几何体的当前位姿信息，其中，所述当前位姿信息包括当所述虚拟相机处于所述当前视点位置时所述几何体相对于所述虚拟相机的位置信息和所述几何体的旋转信息。

例如，在本公开至少一实施例提供的视频处理方法中，基于所述几何体的当前位姿信息，将媒体纹理贴附在所述几何体上，以进行视频和/或图片展示，包括：基于所述几何体的当前位姿信息，确定所述几何体对应的多个贴附关键点坐标；基于所述多个贴附关键点坐标，将所述媒体纹理贴附在所述几何体上，以进行视频和/或图片展示。

本公开至少一实施例还提供一种视频处理装置，包括：存储器，非瞬时性地存储有计算机可执行指令；处理器，配置为运行所述计算机可执行指令。所述计算机可执行指令被所述处理器运行时实现根据上述任一实施例所述的视频处理方法。

本公开至少一实施例还提供一种非瞬时性存储介质，所述非瞬时性存储介质存储有计算机可执行指令，所述计算机可执行指令由计算机执行时可以执行根据上述任一实施例所述的视频处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1A为本公开至少一实施例提供的一种视频处理方法的示意性流程图；

图1B为图1A所示的视频处理方法中的步骤S10的一个示例的示意性流程图；

图2A为本公开一些实施例提供的一种第一图像的示意图；

图2B为本公开一些实施例提供的一种示出第一图像块和第二图像块的第一图像的示意图；

图2C为本公开一些实施例提供的一种填充后的第一图像的示意图；

图2D为本公开一些实施例提供的另一种填充后的第一图像的示意图；

图2E为本公开一些实施例提供的又一种填充后的第一图像的示意图；

图3为本公开的实施例提供的一种包括初始候选区域的填充后的第一图像的示意图；

图4为本公开一实施例提供的一种视频处理装置的示意图；

图5为本公开至少一实施例提供的一种非瞬时性存储介质的示意图；以及

图6为本公开一实施例提供的一种电子装置的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

沉浸式场景广告可以随时随地让用户获得信息，用户在一个沉浸式的体验中即可获取广告信息，从而使得用户对于广告的接受度较高。例如，可以将沉浸式场景广告与VR看房进行结合，使得用户在进行VR看房的过程中，可以观看到商家投放的广告。

全景图像是一种等距圆柱投影图，全景图像通过广角的表现手段以及绘画、相片、视频、三维模型等形式，尽可能多地表现出周围的环境。全景图像具有360度环视的效果，用于虚拟现实浏览，把二维的平面图模拟成真实的三维空间并呈现给观看者。目前针对全景图像的关键点检测的研究较少，通常采用一些针对非全景图像的关键点检测方法实现对于全景图像的关键点检测。由于全景图像自身的特点，往往导致检测得到的关键点不准确、各个关键点无法对齐等问题。

本公开的至少一个实施例提供一种视频处理方法、视频处理装置和非瞬时性存储介质，该视频处理方法包括：获取场景中的目标对象对应的多个目标关键点坐标；获取虚拟相机处于上一视点位置时的第一相机位姿；基于多个目标关键点坐标和第一相机位姿，确定目标对象对应的几何体和几何体的上一位姿信息；响应于虚拟相机从上一视点位置移动至当前视点位置，确定虚拟相机对应的位姿差值；基于几何体的上一位姿信息和位姿差值，获取几何体的当前位姿信息；基于几何体的当前位姿信息，将媒体纹理贴附在几何体上，以进行视频和/或图片展示。

本公开的实施例提供的视频处理方法可以在目标对象上进行视频和/或图片展示，并可以根据用户的空间漫游实时调整目标对象对应的几何体的姿态，从而实时调整用户观看视频和/或图片的位置和视角，提供了逼真的观看体验，实现沉浸式地向用户展示视频和/或图片，提供了沉浸式的用户体验。例如，在一些实施例中，视频和/或图片可以用于展示广告信息，从而本公开的实施例提供的视频处理方法可以实现沉浸式广告投放。

例如，本公开的实施例提供的视频处理方法是基于WebGL(Web GraphicsLibrary)技术实现的，该视频处理方法可以应用于网页中，也就是说，该视频处理方法的应用场景可以为网页。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图1A为本公开至少一实施例提供的一种视频处理方法的示意性流程图。图1B为图1A所示的视频处理方法中的步骤S10的一个示例的示意性流程图。例如，本公开的实施例提供的视频处理方法可以由计算机执行。

如图1A所示，在本公开的一些实施例中，视频处理方法包括以下步骤S10-S15。

如图1A所示，在步骤S10：获取场景中的目标对象对应的多个目标关键点坐标。例如，在步骤S10中，场景可以为空间场景，例如，场景可以为建筑物的内部空间和/或外部空间，例如，房屋(商品样本房、住宅房屋、商场)等，也可以为VR体验馆等。此外，场景还可以为临时搭建的各种场景等，本公开对此不作具体限制。场景可以为可移动的场景，也可以为固定的场景。

例如，目标对象可以为电视机、投影屏、电脑、平板、手机、壁画、画框、相框等。但本公开不限于此，目标对象也可以为其他合适的物体，例如，冰箱、柜子、墙、门等，本公开的实施例对于目标对象不作具体限制。

例如，在一些实施例中，视频处理方法还包括：基于场景，建立空间坐标系。空间坐标系的具体参数可以根据实际情况设置，本公开实施例对此不作限定。空间坐标系可以为右手坐标系。例如，在一些示例中，空间坐标系的坐标原点可以为场景的中心点，空间坐标系的X轴可以平行于水平方向，空间坐标系的Y轴可以平行于竖直方向，空间坐标系的Z轴可以垂直于空间坐标系的X轴和Y轴所确定的平面。

例如，在一些实施例中，如图1B所示，步骤S10可以包括以下步骤S101-S106。

例如，在步骤S101：在虚拟相机处于上一视点位置时，获取场景的第一图像。例如，第一图像为虚拟相机处于上一视点位置时对应的场景的图像，上一视点位置可以为空间坐标系中的任一视点位置。第一图像为全景图像且包括目标对象。全景图像即为等距柱状投影图，例如，第一图像可以为360度全景图像。

图2A为本公开一些实施例提供的一种第一图像的示意图，图2B为本公开一些实施例提供的一种示出第一图像块和第二图像块的第一图像的示意图。

例如，如图2A所示，在一些实施例中，第一图像100的形状为矩形，第一图像100在其宽度方向W上的尺寸约为第一图像100在其高度方向H上的尺寸的两倍，即第一图像100的宽高比为2:1。

例如，在第一图像100中，目标对象Te的形状可以为矩形，目标对象Te的四个顶点可以为目标对象Te对应的目标关键点，从而，目标对象Te对应的多个目标关键点坐标为目标对象Te的四个顶点在空间坐标系中的坐标。

例如，如图2A所示，在第一图像100的宽度方向W上，第一图像100包括彼此相对的第一图像边缘100A和第二图像边缘100B。第一图像边缘100A和第二图像边缘100B彼此大致平行，且平行于第一图像100的高度方向H。在第一图像100的高度方向H上，第一图像100包括彼此相对的第三图像边缘100C和第四图像边缘100D。第三图像边缘100C和第四图像边缘100D彼此大致平行，且平行于第一图像100的宽度方向W。

例如，如图1B所示，在步骤S102：对第一图像进行填充(padding)处理，以得到填充后的第一图像。

例如，在一些实施例中，步骤S102包括：在第一图像的宽度方向上，在第一图像的第一图像边缘拼接第一图像块，以得到填充后的第一图像。

例如，如图2B所示，第一图像块110为第一图像100的以第二图像边缘100B为边缘的部分图像，在第一图像100的宽度方向W上，第一图像块110包括彼此相对的两个边缘：边缘110A和边缘110B，该边缘110B即为第一图像100的第二图像边缘100B，边缘110A位于第一图像边缘100A和第二图像边缘100B之间。例如，边缘110A可以大致平行于第二图像边缘100B。例如，第一图像块110的形状可以为矩形。

需要说明的是，在本公开的实施例中，“边缘110A可以大致平行于第二图像边缘100B”表示：边缘110A可以完全平行于第二图像边缘100B，或者，边缘110A和第二图像边缘100B之间也可以形成一定夹角，该夹角的范围可以根据实际情况确认，例如，该夹角可以为-10°到10°范围内。当边缘110A和第二图像边缘100B之间具有一定夹角时，第一图像块110的形状为梯形。

例如，如图2B所示，在第一图像100的宽度方向W上，第一图像块110的尺寸小于等于第一图像100的尺寸的一半且大于等于第一图像100的尺寸的四分之一，即在第一图像100的宽度方向W上，边缘110A和第二图像边缘100B之间的距离d1和第一图像边缘100A与第二图像边缘100B之间的距离d2的比值处于0.25到0.5之间，包括0.25和0.5。例如，当d1和d2之间的比值为0.5时，第一图像块110的形状为正方形，且第一图像块110的面积为第一图像100的面积的一半。

例如，如图2B所示，在第一图像100的高度方向H上，第一图像块110包括彼此相对的边缘1101和边缘1102，边缘1101为第三图像边缘100C的一部分，边缘1102为第四图像边缘100D的一部分。

图2C为本公开一些实施例提供的一种填充后的第一图像的示意图，例如，图2C所示的填充后的第一图像为图2A所示的第一图像对应的填充后的图像。

例如，如图2C所示，当将第一图像块110拼接到第一图像100的第一图像边缘100A之后，可以得到填充后的第一图像200，填充后的第一图像200包括第一图像100和第一图像块110。例如，在填充后的第一图像200的宽度方向W’上，第一图像100的第一图像边缘100A和第一图像块110的边缘110B(即第二图像边缘100B)彼此直接相接，此时，第一图像100的第一图像边缘100A和第一图像块110的边缘110B位于填充后的第一图像200的中间。例如，第一图像100的第一图像边缘100A在填充后的第一图像200的宽度方向W’上的正投影和第一图像块110的边缘110B在填充后的第一图像200的宽度方向W’上的正投影彼此完全重叠。

例如，如图2C所示，在填充后的第一图像200的宽度方向W’上，填充后的第一图像200的彼此相对的两个边缘为第一图像100的第二图像边缘100B和第一图像块110的边缘110A，第二图像边缘100B和边缘110A之间的距离d10为第一图像块110的边缘110A与边缘110B之间的距离d1和第一图像100的第一图像边缘100A与第二图像边缘100B之间的距离d2之和，即d10＝d1+d2。

例如，如图2C所示，在填充后的第一图像200的高度方向H’上，第一图像块110的边缘1101和第三图像边缘100C位于同一侧，第一图像块110的边缘1102和第四图像边缘100D位于同一侧。在填充后的第一图像200的高度方向H’上，填充后的第一图像200的彼此相对的两个边缘为由边缘1101和第三图像边缘100C组成的一个边缘和由边缘1102和第四图像边缘100D组成的一个边缘。

例如，在一些实施例中，步骤S102包括：在第一图像的宽度方向上，在第一图像的第二图像边缘拼接第二图像块，以得到填充后的第一图像。

例如，如图2B所示，第二图像块120为第一图像100的以第一图像边缘100A为边缘的部分图像。在第一图像100的宽度方向W上，第二图像块120包括彼此相对的两个边缘：即边缘120A和边缘120B，该边缘120B即为第一图像边缘100A，边缘120A位于第一图像边缘100A和第二图像边缘100B之间。例如，边缘120A可以大致平行于第一图像边缘100A。例如，第二图像块120的形状可以为矩形。

需要说明的是，在本公开的实施例中，“边缘120A可以大致平行于第一图像边缘100A”表示：边缘110A可以完全平行于第一图像边缘100A，或者，边缘120A和第一图像边缘100A之间也可以形成一定夹角，该夹角的范围可以根据实际情况确认，例如，该夹角可以为-10°到10°范围内。当边缘120A和第一图像边缘100A之间具有一定夹角时，第二图像块120的形状为梯形。

例如，如图2B所示，在第一图像100的宽度方向W上，第二图像块120的尺寸小于等于第一图像100的尺寸的一半且大于等于第一图像100的尺寸的四分之一，即在第一图像100的宽度方向W上，边缘120A和边缘120B(即第一图像边缘100A)之间的距离d3和第一图像边缘100A与第二图像边缘100B之间的距离d2的比值处于0.25到0.5之间，包括0.25和0.5。例如，当d3和d2之间的比值为0.5时，第二图像块120的形状为正方形，且第二图像块120的面积为第一图像100的面积的一半。

例如，如图2B所示，在第一图像100的高度方向H上，第二图像块120包括彼此相对的边缘1201和边缘1202，边缘1201为第三图像边缘100C的一部分，边缘1202为第四图像边缘100D的一部分。

图2D为本公开一些实施例提供的另一种填充后的第一图像的示意图，例如，图2D所示的填充后的第一图像为图2A所示的第一图像对应的填充后的图像。

例如，如图2D所示，当将第二图像块120拼接到第一图像100的第二图像边缘100B之后，可以得到填充后的第一图像200'，填充后的第一图像200'包括第一图像100和第二图像块120。例如，在填充后的第一图像200'的宽度方向W”上，第一图像100的第二图像边缘100B和第二图像块120的边缘120B彼此直接相接，此时，第一图像100的第二图像边缘100B和第二图像块120的边缘120B位于填充后的第一图像200'的中间。

例如，如图2D所示，在填充后的第一图像200'的宽度方向W”上，填充后的第一图像200'的彼此相对的两个边缘为第一图像100的第一图像边缘100A和第二图像块120的边缘120A，第一图像边缘100A和边缘120A之间的距离d20为第二图像块120的边缘120A与边缘120B之间的距离d3和第一图像100的第一图像边缘100A与第二图像边缘100B之间的距离d2之和，即d20＝d3+d2。

例如，如图2D所示，在填充后的第一图像200'的高度方向H”上，第二图像块120的边缘1201和第三图像边缘100C位于同一侧，边缘1202和第四图像边缘100D位于同一侧。在填充后的第一图像200'的高度方向H”上，填充后的第一图像200'的彼此相对的两个边缘为由边缘1201和第三图像边缘100C组成的一个边缘和由边缘1202和第四图像边缘100D组成的一个边缘。

图2E为本公开一些实施例提供的又一种填充后的第一图像的示意图，例如，图2E所示的填充后的第一图像为图2A所示的第一图像对应的填充后的图像。

例如，在一些实施例中，步骤S102包括：在第一图像的宽度方向上，在第一图像的第一图像边缘拼接第一图像块以及在第一图像的第二图像边缘拼接第二图像块，以得到填充后的第一图像。

例如，如图2E所示，当将第一图像块110拼接到第一图像的第一图像边缘100A和将第二图像块120拼接到第一图像100的第二图像边缘100B之后，可以得到填充后的第一图像200”，填充后的第一图像200”包括第一图像100、第一图像块110和第二图像块120。

例如，如图2E所示，在填充后的第一图像200”的宽度方向W”'上，填充后的第一图像200”的彼此相对的两个边缘为第一图像100的边缘110A和第二图像块120的边缘120A，边缘110A和边缘120A之间的距离d30为第一图像100的边缘110A与边缘110B之间的距离d1、第二图像块120的边缘120A与边缘120B之间的距离d3以及第一图像100第一图像边缘100A与第二图像边缘100B之间的距离d2之和，即d30＝d3+d2+d1。

例如，如图2E所示，在填充后的第一图像200”的高度方向H”'上，第一图像块110的边缘1101、第二图像块120的边缘1201和第三图像边缘100C位于同一侧，第一图像块110的边缘1102、第二图像块120的边缘1202和第四图像边缘100D位于同一侧。在填充后的第一图像200”的高度方向H”'上，填充后的第一图像200”的彼此相对的两个边缘为由边缘1101、边缘1201和第三图像边缘100C组成的一个边缘和由边缘1102、边缘1202和第四图像边缘100D组成的一个边缘。

例如，宽度方向W、宽度方向W'、宽度方向W”和宽度方向W”'彼此平行，高度方向H、高度方向H'、高度方向H”和高度方向H”'也彼此平行。在一些实施例中，宽度方向W、宽度方向W'、宽度方向W”和宽度方向W”'均为水平方向。高度方向H、高度方向H'、高度方向H”和高度方向H”'均为竖直方向。

下面以图2C所示的填充后的第一图像200为例进行描述。

图3为本公开的实施例提供的一种包括初始候选区域的填充后的第一图像的示意图，图3所示的填充后的第一图像为图2C所示的填充后的第一图像200。

例如，如图1B所示，在步骤S103：利用目标检测模型对填充后的第一图像进行处理，以得到目标对象对应的候选区域。

例如，在步骤S103中，目标检测模型可以基于目标检测算法(Object Detection)的神经网络模型实现并且例如运行在通用计算装置或专用计算装置上，在一些实施例中，目标检测模型是基于卷积神经网络(CNN)、Faster-RCNN(Regions with CNN features)、或Mask-RCNN等模型实现的。

例如，候选区域的形状可以为矩形。

例如，在一些实施例中，步骤S103包括：利用目标检测模型对填充后的第一图像进行处理，以得到目标对象对应的初始候选区域；获取初始候选区域的中心点和初始候选区域的第一初始候选区域边缘的尺寸；将第一初始候选区域边缘的尺寸乘以预设倍数，以得到目标尺寸；基于初始候选区域的中心点和目标尺寸，得到候选区域。

例如，如图3所示，初始候选区域300包括彼此相邻(在空间位置上相邻)的第一初始候选区域边缘300A和第二初始候选区域边缘300B，第一初始候选区域边缘300A大于等于第二初始候选区域边缘300B。

例如，如图3所示，在填充后的第一图像200中，初始候选区域300完全覆盖目标对象Te对应的区域。

例如，初始候选区域300的形状可以为矩形，此时，第一初始候选区域边缘300A和第二初始候选区域边缘300B可以彼此垂直，第一初始候选区域边缘300A可以为初始候选区域300的长，第二初始候选区域边缘300B可以为初始候选区域300的宽。然而，本公开的实施例不限于此，初始候选区域300的形状还可以为其他合适的形状，例如，圆形等。

例如，候选区域310的中心点为初始候选区域300的中心点，且候选区域310的至少一个边缘的尺寸为目标尺寸。例如，在一些实施例中，候选区域310的形状为正方形，从而可以使得基于该候选区域310检测得到的候选关键点坐标(后续描述)的准确率更高(即基于候选关键点坐标所确定的区域与候选区域310更接近)，此时，候选区域310的边长的尺寸为目标尺寸。然而，本公开对候选区域310的形状不作具体限制，又例如，候选区域310的形状也可以为矩形，此时，例如，可以将第一初始候选区域边缘300A的尺寸乘以预设倍数以得到候选区域310的长的尺寸，将第二初始候选区域边缘300B的尺寸乘以预设倍数以得到候选区域310的宽的尺寸，即将初始候选区域300等比例放大预设倍数以得到候选区域310。

例如，预设倍数大于1，即目标尺寸大于第一初始候选区域边缘300A的尺寸。例如，预设倍数可以为1.2～2，例如，1.5。在本公开的实施例中，可以对检测得到的初始候选区域300进行预处理以得到候选区域310，并对预处理之后的候选区域310进行关键点检测，从而可以提高关键点检测的准确率。

例如，如图3所示，候选区域310完全覆盖初始候选区域300，即候选区域310的任一边缘的尺寸均大于初始候选区域300的第一初始候选区域边缘300A的尺寸。

例如，如图1B所示，在步骤S104：利用关键点检测模型对候选区域进行处理，以得到多个候选关键点坐标。

例如，关键点检测模型可以为基于神经网络的模型。

例如，在一些实施例中，步骤S104可以包括：基于候选区域，从填充后的第一图像中截取候选区域对应的区域图像块；利用关键点检测模型对区域图像块进行处理，以得到多个候选关键点坐标。

例如，关键点检测模型可以输出坐标组，坐标组包括该多个候选关键点坐标。若候选区域为矩形，此时，多个候选关键点坐标包括候选区域的四个顶点的坐标。同时，关键点检测模型可以确定多个候选关键点坐标的相对位置关系。

例如，如图1B所示，在步骤S105：对多个候选关键点坐标进行坐标对齐处理，以得到多个中间目标关键点坐标。

例如，如图3所示，填充后的第一图像200处于图像坐标系XOY中，图像坐标系XOY包括坐标原点O、横坐标轴X和纵坐标轴Y。例如，每个候选关键点坐标为图像坐标系XOY中的坐标且包括横坐标(对应于横坐标轴X)和纵坐标(对应于纵坐标轴Y)。

例如，候选区域310的形状为矩形，候选区域310包括沿逆时针方向依次排列的第一顶点3101、第二顶点3102、第三顶点3103和第四顶点3104。例如，在一些实施例中，第一顶点3101和第二顶点3102之间的连线大致平行于填充后的第一图像200的高度方向H'，第三顶点3103和第四顶点3104之间的连线大致平行于填充后的第一图像200的高度方向H'，第一顶点3101和第四顶点3104之间的连线大致平行于填充后的第一图像200的宽度方向W'，第二顶点3102和第三顶点3103之间的连线大致平行于填充后的第一图像200的宽度方向W'。第一顶点3101和第三顶点3103之间的连线为候选区域310的一条对角线，第二顶点31021和第四顶点3104之间的连线为候选区域310的另一条对角线。

例如，多个候选关键点坐标包括第一候选关键点坐标、第二候选关键点坐标、第三候选关键点坐标和第四候选关键点坐标，该第一候选关键点坐标为第一顶点3101的坐标，第二候选关键点坐标为第二顶点3102的坐标，第三候选关键点坐标为第三顶点3103的坐标，第四候选关键点坐标为第四顶点3104的坐标。例如，第一候选关键点坐标的横坐标和第二候选关键点坐标的横坐标均小于第三候选关键点坐标的横坐标和第四候选关键点坐标的横坐标中的任一个。

例如，在一些实施例中，步骤S105可以包括：响应于第一候选关键点坐标的横坐标大于等于第二候选关键点坐标的横坐标，将第一候选关键点坐标的横坐标和纵坐标分别作为与第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将第一候选关键点坐标的横坐标和第二候选关键点坐标的纵坐标分别作为与第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标；响应于第三候选关键点坐标的横坐标小于等于第四候选关键点坐标的横坐标，将第三候选关键点坐标的横坐标和纵坐标分别作为与第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将第三候选关键点坐标的横坐标和第四候选关键点坐标的纵坐标分别作为与第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标；将第一中间候选关键点坐标、第二中间候选关键点坐标、第三中间候选关键点坐标和第四中间候选关键点坐标映射至第一图像中，以得到多个中间目标关键点坐标。

在本公开的实施例提供的视频处理方法中，采用坐标对齐的方式对多个候选关键点坐标进行坐标矫正，进一步提升检测得到的候选关键点坐标的准确率。

例如，在另一些实施例中，步骤S105可以包括：包括：响应于第一候选关键点坐标的横坐标大于等于第二候选关键点坐标的横坐标，将第一候选关键点坐标的横坐标和纵坐标分别作为与第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将第一候选关键点坐标的横坐标和第二候选关键点坐标的纵坐标分别作为与第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标；响应于第三候选关键点坐标的横坐标小于等于第四候选关键点坐标的横坐标，将第三候选关键点坐标的横坐标和纵坐标分别作为与第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将第三候选关键点坐标的横坐标和第四候选关键点坐标的纵坐标分别作为与第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标；基于第一中间候选关键点坐标、第二中间候选关键点坐标、第三中间候选关键点坐标和第四中间候选关键点坐标，确定中间待比较区域；基于第一候选关键点坐标、第二候选关键点坐标、第三候选关键点坐标和第四候选关键点坐标，确定初始待比较区域；响应于中间待比较区域和初始待比较区域之间的重叠比例大于等于重叠阈值，将第一中间候选关键点坐标、第二中间候选关键点坐标、第三中间候选关键点坐标和第四中间候选关键点坐标映射至第一图像中，以得到多个中间目标关键点坐标。

在一些实施例中，在对候选关键点坐标进行坐标对齐处理之后，可以对得到的四个中间候选关键点坐标进行后处理，即基于中间待比较区域和初始待比较区域之间的重叠比例判断所得到的四个中间候选关键点坐标是否准确，若中间待比较区域和初始待比较区域之间的重叠比例小于重叠阈值，则确定该四个中间候选关键点坐标不准确，从而可以直接舍弃该四个中间候选关键点坐标，并重新确定中间候选关键点坐标；若中间待比较区域和初始待比较区域之间的重叠比例大于等于重叠阈值，则确定该四个中间候选关键点坐标准确，从而将该四个中间候选关键点坐标作为中间候选关键点坐标。

例如，重叠阈值可以为0.8～1。

例如，重叠比例为初始待比较区域和中间待比较区域之间的交并比(Intersection over Union，IOU)，即重叠比例为初始待比较区域和中间待比较区域之间的交集与并集之间的比例。

例如，在步骤S105中，若第一候选关键点坐标的横坐标小于第二候选关键点坐标的横坐标，将第二候选关键点坐标的横坐标和第一候选关键点坐标的纵坐标分别作为与第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将第二候选关键点坐标的横坐标和纵坐标分别作为与第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标，也就是说，将第一候选关键点坐标的横坐标和第二候选关键点坐标的横坐标中的较大者作为第一候选关键点坐标和第二候选关键点坐标分别对应的第一中间候选关键点坐标的横坐标和第二中间候选关键点坐标的横坐标，同时保持第一候选关键点坐标的纵坐标和第二候选关键点坐标的纵坐标不变，从而实现坐标对齐。

例如，若第三候选关键点坐标的横坐标大于第四候选关键点坐标的横坐标，将第四候选关键点坐标的横坐标和第三候选关键点坐标的纵坐标分别作为与第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将第四候选关键点坐标的横坐标和纵坐标分别作为与第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标，也就是说，将第三候选关键点坐标的横坐标和第四候选关键点坐标的横坐标中的较小者作为第三候选关键点坐标和第四候选关键点坐标分别对应的第三中间候选关键点坐标的横坐标和第四中间候选关键点坐标的横坐标，同时保持第三候选关键点坐标的纵坐标和第四候选关键点坐标的纵坐标不变，从而实现坐标对齐。

在本公开的实施例中，可以对检测到的候选关键点坐标进行坐标对齐处理(即垂直坐标校正)，以使得候选区域的左侧边缘(第一顶点3101和第二顶点3102所限定的边缘)对应的两个候选关键点坐标的横坐标相同，候选区域的右侧边缘(第三顶点3103和第四顶点3104所限定的边缘)对应的两个候选关键点坐标的横坐标相同，从而使得多个中间目标关键点坐标更加准确，也就是使得基于多个中间目标关键点坐标确定的区域与候选区域更接近，也使得该多个中间目标关键点坐标确定的区域与目标对象所在的区域更接近。

例如，如图2A所示，目标对象Te可以位于第一图像100的任意位置。由于第一图像(全景图像)自身的特点，场景中的目标对象Te可能分布在第一图像100的边缘，例如，左右两侧边缘，此时，目标对象Te被划分为两个部分，该两个部分分别位于第一图像100的第一图像边缘100A和第二图像边缘100B。然而，在本公开的实施例中，通过对第一图像100进行填充(padding)以得到填充后的第一图像200，之后，再对填充后的第一图像200进行目标检测，从而可以避免由于目标对象被分割到第一图像的左右侧边缘而导致检测不准确的问题(例如，在对该目标对象进行检测时，仅仅检测到目标对象的一部分，或检测出两个对象等)，由此提升目标检测的准确率。如图3所示，目标对象Te可以位于填充后的第一图像200的任意位置，且目标对象Te为一个完整的对象。

本公开的实施例提供的视频处理方法利用图像填充(Padding)的方法对第一图像(全景图像)进行填充拼接，从而可以使得处于第一图像的边缘处的目标对象能够被准确地检测，提高目标检测的准确性，提高目标检测的召回率。

例如，在步骤S106：基于多个中间目标关键点坐标，确定多个目标关键点坐标。

例如，在一些实施例中，步骤S106包括：将多个中间目标关键点坐标映射至空间坐标系，以得到多个目标关键点坐标。

例如，可以基于图像坐标系XOY和空间坐标系之间的对应关系，将多个中间目标关键点坐标映射至空间坐标系，以得到多个目标关键点坐标。

例如，每个中间目标关键点坐标为二维坐标，每个目标关键点坐标为三维坐标。基于图1B所示的方法检测得到的目标对象的各个顶点的坐标(即中间目标关键点坐标)为二维坐标，需要将该二维坐标映射到目标对象所在的三维空间场景，从而得到目标对象的各个顶点在三维空间场景中的三维坐标(即目标关键点坐标)。

如图1A所示，在步骤S11：获取虚拟相机处于上一视点位置时的第一相机位姿。

例如，在一些实施例中，步骤S11包括：获取上一视点位置在空间坐标系中的坐标和虚拟相机在上一视点位置时的旋转信息，以得到第一相机位姿。第一相机位姿包括上一视点位置在空间坐标系中的坐标和虚拟相机在上一视点位置时的旋转信息。例如，虚拟相机在上一视点位置时的旋转信息表示在上一视点位置时虚拟相机的角度信息，可以采用欧拉角表示，上一视点位置在空间坐标系中的坐标为三维坐标。

如图1A所示，在步骤S12：基于多个目标关键点坐标和第一相机位姿，确定目标对象对应的几何体和几何体的上一位姿信息。例如，在步骤S12中，该目标对象对应的几何体为当虚拟相机处于上一视点位置时所确定的，即此时，目标对象对应的几何体的位姿信息(即上一位姿信息)表示当虚拟相机处于上一视点位置时几何体相对于虚拟相机的位置信息和几何体的旋转信息。

例如，在本公开的实施例中，位置信息可以采用摄像机标定技术中的平移向量表示，旋转信息可以采用摄像机标定技术中的旋转矩阵表示。位置信息表示几何体相对于虚拟相机的空间位置信息，旋转信息表示几何体的角度信息，可以采用欧拉角表示。

例如，在一些实施例中，步骤S12包括：基于多个目标关键点坐标，得到至少一个面片模型；将至少一个面片模型进行组合以得到目标对象对应的几何体；基于多个目标关键点坐标和第一相机位姿，确定几何体的上一位姿信息。

例如，上一位姿信息包括当虚拟相机处于上一视点位置时几何体相对于虚拟相机的位置信息和几何体的旋转信息，即上一位姿信息表示当虚拟相机处于上一视点位置时几何体相对于虚拟相机的姿态信息。

例如，每个面片模型为三角面或四边面等。

例如，若目标对象的形状为矩形且每个面片模型为三角面，此时，基于多个目标关键点坐标可以大致确定一个矩形区域，在一些实施例中，至少一个面片模型可以包括两个面片模型，该两个面片模型是基于该矩形区域的对角线进行划分的，该对角线可以为目标对象的任一对角线；在另一些实施例中，至少一个面片模型可以包括四个面片模型，该两个面片模型是基于该矩形区域的两条对角线进行划分的。需要说明的是，面片模型的形状和数量可以基于实际情况(例如，目标对象的形状，计算机的算力等)确定，本公开对此不作限制。

需要说明的是，在本公开的实施例中，目标对象对应的几何体可以为一个二维平面，或者一个三维形状的平面(例如曲面或者两个平面形成的具有一定夹角的面)。

例如，在本公开的实施例中，可以基于WebGL技术对目标对象的几何体进行绘图和渲染，即本公开的实施例提供的视频处理方法基于WebGL技术实现的，本公开的实施例提供的视频处理方法可以实现视频投放，提供了沉浸式的用户体验。

如图1A所示，在步骤S13：响应于虚拟相机从所述上一视点位置移动至当前视点位置，确定虚拟相机对应的位姿差值；在步骤S14：基于几何体的上一位姿信息和位姿差值，获取几何体的当前位姿信息。

例如，步骤S13包括：获取当前视点位置在空间坐标系中的坐标和虚拟相机在当前视点位置时的旋转信息，以得到第二相机位姿；基于第一相机位姿和第二相机位姿，获取虚拟相机对应的位姿差值。例如，可以基于矩阵运算对第一相机位姿和第二相机位姿进行计算，以得到虚拟相机对应的位姿差值。例如，第二相机位姿包括当前视点位置在空间坐标系中的坐标和虚拟相机在当前视点位置时的旋转信息。例如，虚拟相机在当前视点位置时的旋转信息可以表示在当前视点位置时虚拟相机的角度信息，其可以采用欧拉角表示，当前视点位置在空间坐标系中的坐标为三维坐标。

例如，位姿差值包括位置差值和旋转角度差值。

例如，步骤S14包括：将几何体的上一位姿信息和位姿差值相乘以得到几何体的当前位姿信息，即当前位姿信息＝上一位姿信息*位姿差值。

例如，当前位姿信息包括当虚拟相机处于当前视点位置时几何体相对于虚拟相机的位置信息和几何体的旋转信息。

例如，当虚拟相机从上一视点位置移动至当前视点位置时，基于上一视点位置对应的第一相机位姿和当前视点位置对应的第二相机位姿，可以计算虚拟相机对应的位姿差值(即上一视点位置和当前视点位置之间的位姿差异)，该位姿差值包括空间平移差值和旋转角度差值，基于该位姿差值即可计算当虚拟相机在当前视点位置时该几何体相对于虚拟相机的位姿信息，即当前位姿信息。

在本公开的实施例中，可以采用齐次坐标(即将空间坐标系中的坐标转换为齐次坐标，然后进行计算)的方式进行数据(例如，位姿信息、位姿差值等)的计算，此时，空间平移信息和旋转角度信息可以同时进行计算。需要说明的是，本公开的实施例不限于此，也可以不采用齐次坐标的方式进行数据(例如，位姿信息、位姿差值等)的计算。

例如，用户在进行VR体验(例如VR看房、VR看车等)时，可以进行空间漫游，即使得虚拟相机在该场景中移动，例如，从上一视点位置移动至当前视点位置，此时，可以实时计算虚拟相机在不同视点位置时几何体相对于虚拟相机的姿态信息，从而可以实时调整几何体的姿态。

需要说明的是，可以通过鼠标进行画面的移动，或者通过移动手机等移动端设备实现空间漫游。

又例如，在一些实施例中，获取几何体的当前位姿信息可以基于以下步骤实现：获取虚拟相机处于当前视点位置时场景中的目标对象对应的多个当前目标关键点坐标；获取虚拟相机处于当前视点位置时的第二相机位姿；基于多个当前目标关键点坐标和第二相机位姿，确定目标对象对应的几何体的当前位姿信息。也就是说，可以基于与获取几何体的上一位姿信息类似的方式获取几何体的当前位姿信息。

如图1A所示，在步骤S15：基于几何体的当前位姿信息，将媒体纹理贴附在几何体上，以进行视频和/或图片展示。

例如，在一些实施例中，步骤S15包括：基于几何体的当前位姿信息，确定几何体对应的多个贴附关键点坐标；基于多个贴附关键点坐标，将媒体纹理贴附在几何体上，以进行视频和/或图片展示。

例如，媒体纹理表示创建一个使用视频和/或图片作为贴图的纹理对象。图片可以为静态图片，也可以为动态图片，例如，GIF(Graphics Interchange Format，图形交换格式)格式的图片；视频可以为各种格式的视频，本公开对此不作限定。

例如，在该几何体上可以展示多张图片，此时，可以间隔一定时间进行图片切换显示，从而使得在任一时刻，在该几何体上仅展示一张图片；也可以在该几何体上同时展示多张图片，本公开不限于此。

本公开的实施例提供的视频处理方法可以在用户进行空间漫游时实时改变目标对象的几何体相对于虚拟相机的位置和姿态，从而可以使得在不同视角点观看该目标对象上显示的视频和/或图片时具有不同的视觉感受，使得用户具有从真实视角观看视频和/或图片的体验，提供了沉浸式的用户体验，可以使得用户仿佛置身于真实的三维空间中观看该目标对象上的视频和/或图片。

例如，本公开的实施例提供的视频处理方法可以应用于VR技术中，例如，VR看房、VR看车等，例如，目标对象可以为房间中的电视机、壁画等，汽车上的显示面板等，从而在目标对象上进行信息(logo、广告等)的展示。

需要说明的是，在执行本公开的实施例提供的视频处理方法之前，还可以包括对目标检测模型和关键点检测模型的训练过程，对于目标检测模型和关键点检测模型的训练过程可以采用相同的训练数据进行训练，从而节省训练数据。

本公开至少一实施例还提供一种视频处理装置。图4为本公开一实施例提供的一种视频处理装置的示意图。

例如，如图4所示，视频处理装置400可以包括存储器401和处理器402。应当注意，图4所示的视频处理装置400的组件只是示例性的，而非限制性的，根据实际应用需要，该视频处理装置400还可以具有其他组件。

例如，存储器401用于非瞬时性地存储有计算机可执行指令；处理器402用于运行计算机可执行指令，计算机可执行指令被处理器402运行时执行根据上述任一实施例所述的视频处理方法中的一个或多个步骤。

例如，处理器402和存储器401等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。

例如，处理器402可以控制视频处理装置400中的其它组件以执行期望的功能。处理器402可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的器件。中央处理元(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上，或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。

例如，存储器401可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令，处理器402可以运行所述计算机可读指令，以实现视频处理装置400的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，关于视频处理装置400执行视频处理方法的过程的详细说明可以参考视频处理方法的实施例中的相关描述，重复之处不再赘述。

图5为本公开至少一实施例提供的一种非瞬时性存储介质的示意图。例如，如图5所示，在非瞬时性存储介质1000上可以非暂时性地存储一个或多个计算机可执行指令1001。例如，当计算机可执行指令1001由处理器执行时可以执行根据上文所述的视频处理方法中的一个或多个步骤。

例如，该非瞬时性存储介质1000可以应用于上述视频处理装置中，例如，其可以包括视频处理装置中的存储器。

例如，关于非瞬时性存储介质1000的说明可以参考视频处理装置400的实施例中对于存储器的描述，重复之处不再赘述。

下面参考图6，其示出了适于用来实现本公开的实施例的电子装置600的结构示意图。图6示出的电子装置600仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。例如，电子装置600可以包括但不限于诸如智能手机、笔记本电脑、PAD(平板电脑)、便携式计算机等移动终端以及诸如台式计算机等固定终端。

例如，本公开的实施例中的视频处理装置400可以应用在电子装置600上。

如图6所示，电子装置600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子装置600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；存储装置606；以及通信装置609。存储装置606可以包括不同形式的程序储存单元以及数据储存单元，例如磁带、硬盘、只读存储器(ROM)、随机存取存储器(RAM)，存储装置606能够用于存储计算机处理和/或通信使用的各种数据文件，以及处理装置601所执行的可能的程序指令。通信装置609可以允许电子装置600与其他设备进行无线或有线通信以交换数据，例如发送和接收信息及数据。虽然图6示出了具有各种元件的电子装置600，但是应理解的是，并不要求实施或具备所有示出的元件。可以替代地实施或具备更多或更少的元件。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机程序。例如，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置606被安装，或者从ROM602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的视频处理方法中限定的上述功能。

需要说明的是，本公开实施例提供的电子装置600可以采用安卓(Android)系统、IOS系统、鸿蒙(Harmony)系统、Linux系统、Windows系统等。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)为了清晰起见，在用于描述本发明的实施例的附图中，层或结构的厚度和尺寸被放大。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”，或者可以存在中间元件。

(3)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，包括：

获取场景中的目标对象对应的多个目标关键点坐标；

获取虚拟相机处于上一视点位置时的第一相机位姿；

基于所述多个目标关键点坐标和所述第一相机位姿，确定所述目标对象对应的几何体和所述几何体的上一位姿信息；

响应于所述虚拟相机从所述上一视点位置移动至当前视点位置，确定所述虚拟相机对应的位姿差值；

基于所述几何体的上一位姿信息和所述位姿差值，获取所述几何体的当前位姿信息；

基于所述几何体的当前位姿信息，将媒体纹理贴附在所述几何体上，以进行视频和/或图片展示。

2.根据权利要求1所述的视频处理方法，其中，获取场景中的目标对象对应的多个目标关键点坐标，包括：

在所述虚拟相机处于所述上一视点位置时，获取所述场景的第一图像，其中，所述第一图像为全景图像且包括所述目标对象；

对所述第一图像进行填充处理，以得到填充后的第一图像；

利用目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的候选区域；

利用关键点检测模型对所述候选区域进行处理，以得到多个候选关键点坐标；

对所述多个候选关键点坐标进行坐标对齐处理，以得到多个中间目标关键点坐标；

基于所述多个中间目标关键点坐标，确定所述多个目标关键点坐标。

3.根据权利要求2所述的视频处理方法，其中，在所述第一图像的宽度方向上，所述第一图像包括彼此相对的第一图像边缘和第二图像边缘，

对所述第一图像进行填充处理，以得到填充后的第一图像，包括：

在所述第一图像的宽度方向上，在所述第一图像的第一图像边缘拼接第一图像块，以得到所述填充后的第一图像，其中，所述第一图像块为所述第一图像的以所述第二图像边缘为边缘的部分图像。

4.根据权利要求3所述的视频处理方法，其中，对所述第一图像进行填充处理，以得到填充后的第一图像，还包括：

在所述第一图像的宽度方向上，在所述第一图像的第二图像边缘拼接第二图像块，以得到所述填充后的第一图像，其中，所述第二图像块为所述第一图像的以所述第一图像边缘为边缘的部分图像。

5.根据权利要求4所述的视频处理方法，其中，在所述第一图像的宽度方向上，所述第一图像块的尺寸小于等于所述第一图像的尺寸的一半且大于等于所述第一图像的尺寸的四分之一，所述第二图像块的尺寸小于等于所述第一图像的尺寸的一半且大于等于所述第一图像的尺寸的四分之一。

6.根据权利要求2所述的视频处理方法，其中，利用目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的候选区域，包括：

利用所述目标检测模型对所述填充后的第一图像进行处理，以得到所述目标对象对应的初始候选区域，其中，所述初始候选区域包括彼此相邻的第一初始候选区域边缘和第二初始候选区域边缘，所述第一初始候选区域边缘大于等于所述第二初始候选区域边缘；

获取所述初始候选区域的中心点和所述第一初始候选区域边缘的尺寸；

将所述第一初始候选区域边缘的尺寸乘以预设倍数，以得到目标尺寸，其中，所述预设倍数大于1；

基于所述初始候选区域的中心点和所述目标尺寸，得到所述候选区域，其中，所述候选区域的中心点为所述初始候选区域的中心点，且所述候选区域的至少一个边缘的尺寸为所述目标尺寸。

7.根据权利要求6所述的视频处理方法，其中，在所述第一图像中，所述初始候选区域完全覆盖所述目标对象对应的区域。

8.根据权利要求2所述的视频处理方法，其中，利用关键点检测模型对所述候选区域进行处理，以得到多个候选关键点坐标，包括：

基于所述候选区域，从所述填充后的第一图像中截取所述候选区域对应的区域图像块；

利用所述关键点检测模型对所述区域图像块进行处理，以得到所述多个候选关键点坐标。

9.根据权利要求2所述的视频处理方法，其中，所述填充后的第一图像处于图像坐标系中，所述候选区域的形状为矩形，

每个候选关键点坐标为所述图像坐标系中的坐标且包括横坐标和纵坐标，所述多个候选关键点坐标包括第一候选关键点坐标、第二候选关键点坐标、第三候选关键点坐标和第四候选关键点坐标，所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的横坐标均小于所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的横坐标中的任一个，

对所述多个候选关键点坐标进行坐标对齐处理，以得到所述多个中间目标关键点坐标，包括：

响应于所述第一候选关键点坐标的横坐标大于等于所述第二候选关键点坐标的横坐标，将所述第一候选关键点坐标的横坐标和纵坐标分别作为与所述第一候选关键点对应的第一中间候选关键点坐标的横坐标和纵坐标，将所述第一候选关键点坐标的横坐标和所述第二候选关键点坐标的纵坐标分别作为与所述第二候选关键点坐标对应的第二中间候选关键点坐标的横坐标和纵坐标；

响应于所述第三候选关键点坐标的横坐标小于等于所述第四候选关键点坐标的横坐标，将所述第三候选关键点坐标的横坐标和纵坐标分别作为与所述第三候选关键点对应的第三中间候选关键点坐标的横坐标和纵坐标，将所述第三候选关键点坐标的横坐标和所述第四候选关键点坐标的纵坐标分别作为与所述第四候选关键点坐标对应的第四中间候选关键点坐标的横坐标和纵坐标；

将所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标映射至所述第一图像中，以得到所述多个中间目标关键点坐标。

10.根据权利要求2所述的视频处理方法，其中，所述填充后的第一图像处于图像坐标系中，所述候选区域的形状为矩形，

基于所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标，确定中间待比较区域；

基于所述第一候选关键点坐标、所述第二候选关键点坐标、所述第三候选关键点坐标和所述第四候选关键点坐标，确定初始待比较区域；

响应于所述中间待比较区域和所述初始待比较区域之间的重叠比例大于等于重叠阈值，将所述第一中间候选关键点坐标、所述第二中间候选关键点坐标、所述第三中间候选关键点坐标和所述第四中间候选关键点坐标映射至所述第一图像中，以得到所述多个中间目标关键点坐标。

11.根据权利要求2所述的视频处理方法，还包括：基于所述场景，建立空间坐标系；

其中，基于所述多个中间目标关键点坐标，确定所述多个目标关键点坐标，包括：将所述多个中间目标关键点坐标映射至所述空间坐标系，以得到所述多个目标关键点坐标。

12.根据权利要求11所述的视频处理方法，其中，每个中间目标关键点坐标为二维坐标，每个目标关键点坐标为三维坐标。

13.根据权利要求11所述的视频处理方法，其中，获取虚拟相机处于上一视点位置时的第一相机位姿，包括：获取所述上一视点位置在所述空间坐标系中的坐标和所述虚拟相机在所述上一视点位置时的旋转信息，以得到所述第一相机位姿。

14.根据权利要求11所述的视频处理方法，其中，响应于所述虚拟相机从所述上一视点位置移动至当前视点位置，确定所述虚拟相机对应的位姿差值，包括：

获取所述当前视点位置在所述空间坐标系中的坐标和所述虚拟相机在所述当前视点位置时的旋转信息，以得到第二相机位姿；

基于所述第一相机位姿和所述第二相机位姿，获取所述虚拟相机对应的位姿差值。

15.根据权利要求1-14任一项所述的视频处理方法，其中，基于所述多个目标关键点坐标和所述第一相机位姿，确定所述目标对象对应的几何体和所述几何体的上一位姿信息，包括：

基于所述多个目标关键点坐标，得到至少一个面片模型；

将所述至少一个面片模型进行组合以得到所述目标对象对应的几何体；

基于所述多个目标关键点坐标和所述第一相机位姿，确定所述几何体的上一位姿信息，其中，所述上一位姿信息包括当所述虚拟相机处于所述上一视点位置时所述几何体相对于所述虚拟相机的位置信息和所述几何体的旋转信息。

16.根据权利要求15所述的视频处理方法，其中，每个所述面片模型为三角面。

17.根据权利要求1-14任一项所述的视频处理方法，其中，基于所述几何体的上一位姿信息和所述位姿差值，获取所述几何体的当前位姿信息，包括：

将所述几何体的上一位姿信息和所述位姿差值相乘以得到所述几何体的当前位姿信息，

其中，所述当前位姿信息包括当所述虚拟相机处于所述当前视点位置时所述几何体相对于所述虚拟相机的位置信息和所述几何体的旋转信息。

18.根据权利要求1-14任一项所述的视频处理方法，其中，基于所述几何体的当前位姿信息，将媒体纹理贴附在所述几何体上，以进行视频和/或图片展示，包括：

基于所述几何体的当前位姿信息，确定所述几何体对应的多个贴附关键点坐标；

基于所述多个贴附关键点坐标，将所述媒体纹理贴附在所述几何体上，以进行视频和/或图片展示。

19.一种视频处理装置，包括：

存储器，非瞬时性地存储有计算机可执行指令；

处理器，配置为运行所述计算机可执行指令，

其中，所述计算机可执行指令被所述处理器运行时实现根据权利要求1-18任一项所述的视频处理方法。

20.一种非瞬时性存储介质，其中，所述非瞬时性存储介质存储有计算机可执行指令，所述计算机可执行指令由计算机执行时可以执行根据权利要求1-18任一项所述的视频处理方法。