CN115442519B

CN115442519B - 视频处理方法、装置及计算机可读存储介质

Info

Publication number: CN115442519B
Application number: CN202210942429.7A
Authority: CN
Inventors: 孙伟; 罗栋藩; 张煜; 邵志兢; 吕云; 郭恩沛; 胡雨森
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2023-12-15
Anticipated expiration: 2042-08-08
Also published as: CN115442519A; WO2024031882A1

Abstract

本申请公开了一种视频处理方法、装置及计算机可读存储介质，方法通过获取采集到的目标对象的行为视频；解析行为视频，得到目标对象的行为意图；在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。以此，本申请提供的视频处理方法，不仅提供了三维的视频模板进行合拍，使得合拍视频的立体效果更好，而且可以根据合拍对象的动作意图自动匹配最合适的三维模板视频进行合拍，使得合拍视频更为生动合理，大大提升了合拍视频的真实感。

Description

视频处理方法、装置及计算机可读存储介质

技术领域

本申请涉及视频处理技术领域，具体涉及一种视频处理方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，日常生活已经与互联网密不可分。在互联网时代，随着智能终端技术的不断发展以及流量成本的不断降低，信息传输的形式也在发生极大的转变。信息传输由传统的文字传输逐渐发展到文字、图片以及视频相结合的传输方式。其中，视频以其信息传输量大、内容丰富而且呈现方式多样等特点越来越成为当下信息传输的首要传输方式。

随着视频应用技术的发展，诸多视频应用都可以提供视频合拍功能，视频拍摄者可以利用视频应用中提供的视频模板进行合拍，得到在不同场景下合拍的视频内容。然而，目前合拍视频是二维视频的简单拼接，缺乏真实感。

发明内容

本申请实施例提供一种视频处理方法、装置及计算机可读存储介质，该方法可以有效提升视频合拍的真实感。

本申请第一方面提供一种视频处理方法，方法包括：

获取采集到的目标对象的行为视频；

解析所述行为视频，得到所述目标对象的行为意图；

在预设的多个三维模板视频中确定与所述行为意图匹配的目标模板视频，所述多个三维模板视频为与虚拟对象相关的三维视频；

基于所述行为视频与所述目标模板视频生成所述目标对象与所述虚拟对象的合拍视频。

相应的，本申请第二方面提供一种视频处理装置，装置包括：

获取单元，用于获取采集到的目标对象的行为视频；

解析单元，用于解析所述行为视频，得到所述目标对象的行为意图；

确定单元，用于在预设的多个三维模板视频中确定与所述行为意图匹配的目标模板视频，所述多个三维模板视频为与虚拟对象相关的三维视频；

生成单元，用于基于所述行为视频与所述目标模板视频生成所述目标对象与所述虚拟对象的合拍视频。

在一些实施例中，生成单元，包括：

第一获取子单元，用于获取所述目标对象与行为视频拍摄点的第一相对位置；

第二获取子单元，用于获取所述目标模板视频中所述虚拟对象与虚拟视频观测点的第二相对位置，所述虚拟视频观测点为与所述视频拍摄点对应的虚拟位置；

调整子单元，用于基于所述第一相对位置与所述第二相对位置对所述目标模板视频中所述虚拟对象的位置进行调整；

第一生成子单元，用于根据调整后的所述虚拟对象的位置生成所述目标对象与所述虚拟对象的合拍视频。

在一些实施例中，调整子单元，包括：

确定模块，用于基于所述第一相对位置与所述第二相对位置确定所述虚拟对象的移动方向；

获取模块，用于从所述预设的多个三维模板视频中获取三维移动模板视频；

生成模块，用于基于所述三维移动模板视频与所述移动方向生成调整所述虚拟对象位置的视频。

在一些实施例中，解析单元，包括：

提取子单元，用于提取所述行为视频中的动作数据；

匹配子单元，用于根据所述动作数据在预设行为意图库中进行意图匹配，得到所述目标对象的行为意图。

在一些实施例中，本申请提供的视频处理装置，还包括：

确定子单元，用于当在行为视频采集区域未检测到所述目标对象时，在所述多个三维模板视频中随机确定一个待机模板视频并显示所述待机模板视频；

第二生成子单元，用于当在所述行为视频采集区域中检测到所述目标对象时，根据采集到的目标对象的行为视频生成合拍视频并显示所述合拍视频。

在一些实施例中，本申请提供的视频处理装置，还包括：

采集子单元，用于响应于用户登录请求，采集用户展示的条码信息；

登录子单元，用于确定所述条码信息对应的目标账号，并采用所述目标账号进行登录。

在一些实施例中，本申请提供的视频处理装置，还包括：

保存子单元，用于响应于合拍视频下载指令，将所述合拍视频保存于所述目标账号对应的存储位置。

本申请第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请第一方面所提供的视频处理方法中的步骤。

本申请第四方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请第一方面所提供的视频处理方法中的步骤。

本申请第五方面提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所提供的视频处理方法中的步骤。

本申请实施例提供的视频处理方法，通过获取采集到的目标对象的行为视频；解析行为视频，得到目标对象的行为意图；在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

以此，本申请提供的视频处理方法，不仅提供了三维的视频模板进行合拍，使得合拍视频的立体效果更好，而且可以根据合拍对象的动作意图自动匹配最合适的三维模板视频进行合拍，使得合拍视频更为生动合理，大大提升了合拍视频的真实感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请中视频处理的一个场景示意图；

图2是本申请提供的视频处理方法的流程示意图；

图3是本申请中视频处理的另一场景示意图；

图4是合拍视频的一个预览示意图；

图5是合拍视频的另一预览示意图；

图6是本申请提供的视频处理方法的另一流程示意图；

图7是本申请提供的视频处理装置的结构示意图；

图8是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法、装置、计算机可读存储介质及计算机设备。其中，该视频处理方法可以使用于视频处理装置中。该视频处理装置可以集成在计算机设备中，该计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，服务器可以为区块链中的节点。

请参阅图1，为本申请提供的视频处理方法的一场景示意图。如图所示，服务器A从终端B中获取采集到的目标对象的行为视频；解析行为视频，得到目标对象的行为意图；在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。服务器A可以进一步将生成的合拍视频发送到终端B中进行显示。

基于上述实施场景以下分别进行详细说明。

在相关技术中，在采用视频处理应用拍摄合拍视频时，一般都是采用视频处理应用中提供的模板视频结合拍摄用户的行为视频来生成合拍视频。然而，目前提供的模板视频一般都是二维视频，即使是一些3D的视频合拍，其提供的合拍视频模板也只是看上去具有3D效果的视频，其本质还是二维的模板视频。二维视频模板在与拍摄的用户行为视频在进行合拍融合时，往往会由于位姿不能准确匹配会产生一种割裂感，导致合拍的视频欠缺真实感。为解决上述问题，本申请提供了一种视频处理方法，以期能够提升合拍视频的真实感。

本申请实施例将从视频处理装置的角度进行描述，该视频处理装置可以集成在计算机设备中。其中，计算机设备可以是终端也可以是服务器。其中，终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC，Personal Computer)以及车载终端等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图2所示，为本申请提供的视频处理方法的流程示意图，该方法包括：

步骤101，获取采集到的目标对象的行为视频。

其中，目标对象可以为用于与模板视频进行合拍的对象，具体可以为某一具体的人物、动物或者其他物体。具体地，目标对象为具有行为能力的对象，当目标对象为人物或者动物之外的其他物体时，目标对象可以为机器人等可以具有行为能力的物体，该行为能力可以为自发的行为能力也可以为被操控的行为能力。

目标对象的行为视频可以由视频处理装置自行采集，也可以为由其他装置采集后发送给视频处理装置。对采集到的目标对象的行为视频的获取可以为实时获取，即当目标对象的行为视频为由其他装置采集后发送给视频处理装置时，视频采集装置在采集到目标对象的行为视频后以实时数据流将采集到的行为视频发送给视频处理装置。

其中，当目标对象的行为视频为由视频处理装置自行采集时，视频处理装置可以装载于智能手机中，可以采用智能手机直接对目标对象进行行为视频采集，这种情况下目标对象无需限制在预设的视频拍摄区域中进行拍摄。当目标对象的行为视频为由其他装置进行采集后发送给视频处理装置时，目标对象的行为视频具体可以采用工业相机进行采集。如图3所示，为本申请提供的视频处理方法的另一个场景示意图，如图所示，目标对象20可以在预设的视频采集区域10中进行行为视频采集，具体可以由工业相机40对目标对象20进行行为视频采集。工业相机40可以在滑轨30上进行滑动来改变拍摄点的位置，当在滑轨30上滑动时，工业相机40仍然可以实时确定当前拍摄位置于目标对象20之间的相对位置关系。工业相机40在采集到目标对象20的行为视频后，可以实时发送给视频处理装置进行显示和其他处理。

在一些实施例中，获取采集到的目标对象的行为视频，包括：

1、响应于视频合拍请求，向工业相机发送视频拍摄指令以使得工业相机对预设行为视频采集区域进行行为视频采集；

2、接收工业相机返回的目标对象的行为视频。

即在本申请实施例中，可以采用工业相机在预设的行为视频采集区域中进行用户的行为视频采集。当接收到视频合拍请求时，视频处理装置便会向工业相机发送视频拍摄指令来控制工业相机进行行为视频采集，并接收工业相机返回到的行为视频。

在一些实施例中，响应于视频合拍请求，向工业相机发送视频拍摄指令以使得工业相机对预设行为视频采集区域进行行为视频采集，包括：

1.1、响应于视频合拍请求，向工业相机发送对预设行为视频采集区域进行目标对象检测的检测指令；

1.2、当根据工业相机返回的检测结果确定在预设行为视频采集区域中检测到目标对象时，向工业相机发送视频拍摄指令，以使得工业相机进行行为视频采集。

其中，在一些情况下，由于工业相机是对预设的行为视频采集区域进行行为视频采集，如果目标对象尚未进入该区域，此时开启拍摄便无法采集到目标对象的行为视频，使得合拍视频只有虚拟对象。在该情况下，视频处理装置可以先向工业相机发送检测指令，该检测指令用于使得工业相机在预设行为视频采集区域中检测是否发现目标对象，即检测目标对象是否进入预设行为视频采集区域。如果检测不到，则不开启行为视频的拍摄采集，如果检测到了，视频处理装置再向工业相机发送拍摄指令进行行为视频拍摄。

在一些实施例中，本申请提供的视频处理方法，还包括：

当根据工业相机返回的检测结果确定在预设行为视频采集区域中未检测到目标对象时，向工业相机发送移动指令，移动指令控制工业相机沿预设滑轨移动，直至检测到目标对象。

其中，在一些情况下，工业相机的视场角有限，视频采集区域无法完全覆盖整个预设的行为视频采集区域，此时可能出现用户已经进入了预设的行为视频采集区域，但工业相机采集不到行为视频的情况。在该情况下，视频处理装置便可以控制工业相机沿其预设的滑轨进行移动以寻找目标对象，直至寻找到目标对象。这种方法可以进行自动对象寻找，可以提升合拍视频的拍摄效率。

步骤102，解析行为视频，得到目标对象的行为意图。

在本申请实施例中，当获取到目标对象的行为视频后，可以实时基于目标对象的行为视频对目标对象的行为意图进行意图识别。具体地，可以对行为视频中目标对象的行为进行解析，然后可以采用人体动作识别算法或者采用图像动作分析算法来进行行为意图识别，得到目标对象的行为意图。

在一些实施例中，解析行为视频，得到目标对象的行为意图，包括：

1、提取行为视频中的动作数据；

2、根据动作数据在预设行为意图库中进行意图匹配，得到目标对象的行为意图。

其中，在本申请实施例中，对目标对象的行为意图进行识别的目的，是为了匹配最适合的三维模板视频。三维模板视频的数量有限，而且对模板匹配的匹配时效有较高的要求，因为在进行视频合拍时，一般需要将合拍的效果进行实时的显示。高效率地匹配到最准确的三维模板视频并调用显示，可以避免模板生硬切换导致影响使用体验。三维模板视频一般与用户的行为意图一一对应，对用户的行为意图的识别，其实就可以为在有限的多个用户行为意图中确定与当前用户行为最匹配的那一个。

具体地，可以在获取到用户的行为视频后，先对行为视频中的动作数据进行提取。动作数据可以包括动作区域以及动作类型，动作区域可以为手、手臂、腿、脚以及头等，动作类型为不同动作区域的具体动作，例如握手、点头、奔跑或者跳跃等。

在提取到行为视频中的动作数据后，可以在预先设置的动作数据与行为意图映射关系表中查找与动作数据对应的行为意图标签，以及进一步在行为意图库中确定与行为意图标签对应的行为意图，从而得到目标对象的行为意图。

具体地，对行为视频进行意图识别的过程中，采用了人工智能的相关技术。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，本申请中具体采用了人工智能技术中的计算机视觉技术对行为视频中的行为图像进行处理和识别。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

步骤103，在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频。

其中，多个三维模板视频为与虚拟对象相关的模板三维视频，此处虚拟对象可以为虚拟的动物或者虚拟的人物等任意虚拟对象。例如，虚拟对象可以为虚拟的大熊猫、长颈鹿或者袋鼠等虚拟的动物，虚拟对象也可以为虚拟的公众人物，例如明星、科学家或者航天员等。

其中，此处三维视频为从多个角度对虚拟对象进行拍摄生成的视频，具体地，此处三维视频可以为体积视频。传统的二维视频是由每秒多张静态图片通过连续切换来形成的动态画面，而体积视频则是由每秒多个3D静态模型通过连续播放而构成的三维视频。体积视频的制作一般分为三步，第一步是数据采集，表演者(可以是人也可以是动物)需在预先设置的球形矩阵内进行表演，球形矩阵中的近百台超高清工业相机将会采集表演者的所有数据；第二步是算法生成，相机会将球形矩阵中采集到的数据上传到云端，通过自研算法对数据进行算法重建，并最终生成体积视频；第三步就是将生成出的体积视频根据使用需求放置到各种场景中，既可以放置在虚拟搭建出的场景中，也可以通过AR技术投放到现实场景中。对于体积视频的每一个3D静态模型，允许观看者在内容内自由移动并且从不同的视点和距离观察被拍摄的对象，从不同的视角观察同一被拍摄的对象，可以观察到不同的画面。体积视频从本质上打破了传统二维视频的限制，可以全方位地对拍摄对象进行数据采集和记录，从而可以对拍摄对象的360度的展示。

体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，用于构成体积视频的三维模型可以按照如下方式重建得到：

先获取拍摄对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达拍摄对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对拍摄对象的三维重建，得到拍摄对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个彩色相机和深度相机对需要进行三维重建的目标物体(该目标物体即为拍摄对象)进行多视角的拍摄，得到目标物体在多个不同视角的彩色图像及对应的深度图像，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到目标物体在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到目标物体在对应视角的深度图像。需要说明的是，目标物体可以是任意物体，包括但不限于人物、动物以及植物等生命物体，或者机械、家具、玩偶等非生命物体。

以此，目标物体在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一目标物体进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当目标物体处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该目标物体在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到目标物体在同一拍摄时刻的多个不同视角的彩色图像及其对应的深度图像之后，即可根据这些彩色图像及其对应深度图像对目标物体进行三维重建。区别于相关技术中将深度信息转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对目标物体的三维模型的隐式表达，从而基于该神经网络模型实现对目标物体的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；

在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；

将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；

基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；

将满足预设停止条件的基础模型作为隐式表达目标物体的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对拍摄对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到拍摄对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与目标物体上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与目标物体的三维模型的位置关系(内部、外部或者表面)，实现对目标物体的三维模型的隐式表达，得到用于隐式表达目标物体的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到目标物体的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模目标物体的三维模型，并加入深度信息提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对拍摄对象进行三维重建，即可得到拍摄对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对拍摄对象所拍摄得到的体积视频。以此，可以针对任意拍摄对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象舞蹈的体积视频，可以对教学的拍摄对象进行体积视频拍摄，得到可以在任意角度观看拍摄对象教学的体积视频，等等。

需要说明的是，本申请以下实施例涉及的体积视频可采用以上体积视频拍摄方式所拍摄得到。

虚拟对象的多个模板三维视频，即虚拟对象的多个体积视频，可以为对虚拟对象进行多次拍摄得到的多个体积视频，每个虚拟对象的体积视频可以对应一个动作主题，该动作主题与目标对象的行为意图相对应。例如以虚拟对象为公众人物为例，可以拍摄虚拟对象握手的模板体积视频，该模板体积视频的动作主题为握手。当对采集到的目标对象的行为视频进行意图识别，确定目标对象的意图为握手时，则可以确定与目标对象的行为视频匹配的模板体积视频为该动作主题为握手的模板体积视频。又例如以虚拟对象为大熊猫为例，可以拍摄大熊猫吃东西的模板体积视频，该模板体积视频的动作主题为吃东西。当对采集到的目标对象的行为视频进行意图识别，确定目标对象的意图为喂食时，则可以确定与目标对象的行为视频匹配的模板体积视频为该动作主题为吃东西的模板体积视频。即可以根据目标对象的行为意图匹配得到目标模板视频。

可以理解的是，在采用前述模板体积视频进行视频合拍时，一次只会提供一个虚拟对象的多个模板体积视频。例如提供大熊猫吃东西的体积视频、爬行的体积视频或者睡觉的体积视频。这些模板体积视频的调用可以根据目标对象的行为意图的变化而发生更改。例如当目标对象的行为意图从招手切换为喂食时，调用的虚拟大熊猫的模板体积视频便会从虚拟大熊猫向目标对象爬行的模板体积视频切换为吃东西的模板体积视频。

步骤104，基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

其中，在确定了与目标对象的行为意图匹配的目标模板视频后，便可以基于目标模板视频与采集到的目标对象的行为视频进一步生成目标对象和虚拟对象的合拍视频。

由于本申请提供的视频处理方法是提供了目标对象与虚拟对象的体积视频模板的合拍，由于虚拟对象的体积视频能够从全方位对虚拟对象进行展示，使得目标对象从不同角度进行合拍便可以得到不同角度的视频效果，如此可以大大提升视频合拍的真实性。而且，在本申请实施例中，目标对象无需选择需要进行合拍的模板视频，视频处理装置可以自动识别目标对象的行为意图并基于该行为意图自动匹配最适合的模板体积视频进行合拍，使得生成的合拍视频更为合理，也能大大提升合拍视频的拍摄效率。

在一些实施例中，基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频，包括：

1、获取目标对象与行为视频拍摄点的第一相对位置；

2、获取目标模板视频中虚拟对象与虚拟视频观测点的第二相对位置，虚拟视频观测点为与视频拍摄点对应的虚拟位置；

3、基于第一相对位置与第二相对位置对目标模板视频中虚拟对象的位置进行调整；

4、根据调整后的虚拟对象的位置生成目标对象与虚拟对象的合拍视频。

在本申请实施例中，在根据目标模板视频与行为视频生成目标对象与虚拟对象的合拍视频时，可以自动对目标对象和虚拟对象进行位置识别。其中，由于虚拟对象对应的三维模板视频为在立体摄影棚中经过大量的工业相机拍摄得到的数据构建的体积视频，从不同的角度观察虚拟对象可以得到虚拟对象的不同角度的视频。而对目标对象的行为进行实时采集得到的行为视频为基于一个单一角度进行拍摄得到的视频，即使该单一角度可以调整，因为拍摄得到的行为视频为二维视频，只能从一个角度进行行为视频采集，该角度可以称为行为视频拍摄点。具体可以继续参阅图3，工业相机40的位置便为视频拍摄点的位置，目标对象20相对于工业相机40的相对位置便为第一相对位置。

在进行目标对象的行为视频采集时，可以将目标对象至于行为视频采集区域中进行行为视频采集，然后可以采用相机对该行为视频采集区域中的目标对象进行行为视频采集。也可以不设置行为视频采集区域，直接采用手机对目标对象进行行为视频采集。无论是采用相机进行行为视频采集还是采用手机进行行为视频采集，都可以获取目标对象相对于行为视频拍摄点的第一相对位置，然后基于该第一相对位置确定目标模板视频中虚拟对象与虚拟视频观测点的第二相对位置。其中，此处虚拟视频观测点为对目标模板视频对应的体积视频的多个观测点中的一个，而且虚拟观测点的位置与拍摄目标对象的行为视频对应的视频拍摄点的位置相对应。具体例如在一个预设的视频采集区域，例如摄影棚中进行行为视频采集，那么可以想象虚拟对象的体积视频也是在该摄影棚中进行录制，在录制时与采集行为视频的视频拍摄点位置对应的工业相机采集到的视频数据便为与当前采集到的行为视频进行合拍的数据。当视频拍摄点的位置发生移动时，例如采用具有滑轨的相机进行行为视频采集，那么与当前采集到的行为视频进行合拍的数据便为移动后的相机位置对应的工业相机采集到的数据。

即在本申请提供的视频处理方法中，行为视频采集装置在采集目标对象的行为视频时，若行为视频采集装置的位置发生变动，那么与采集到的行为视频进行合拍融合的模板视频数据也会跟随视频采集装置的位置变化发生变化。

进一步地，在确定了目标对象与行为视频拍摄点的第一相对位置以及目标模板视频中虚拟对象与虚拟视频观测点的第二相对位置后，可以进一步基于第一相对位置和第二相对位置对虚拟对象的位置进行调整。例如，当目标对象为合拍视频拍摄的用户，虚拟对象为虚拟的大熊猫。如果根据第一相对位置和第二相对位置确定用户与大熊猫的距离较远，那么此时可以自动对三维模板视频的虚拟空间位置进行调整，例如进行整体的平移调整，使得虚拟大熊猫接近用户位置，从而形成有效的合拍。

在一些实施例中，获取目标模板视频中虚拟对象与虚拟视频观测点的第二相对位置，虚拟视频观测点为与视频拍摄点对应的虚拟位置，包括：

2.1、获取对目标模板视频进行观测的预设观测角度；

2.2、基于预设观测角度确定虚拟观测点；

2.3、确定虚拟观测点与目标模板视频中虚拟对象的第二相对位置。

在本申请实施例中，由于目标模板视频为体积视频，对体积视频从不同角度进行观测会得到不同的二维视频，而视频合拍又只需要用到一个观测角度的二维视频，那么此时可以预设目标模板视频的初始观测角度为预设观测角度，例如设置为正对虚拟对象的面部的观测角度。在获取到模板视频的预设观测角度后，便可以确定对该目标模板视频进行观测的虚拟观测点，进一步便可以确定虚拟观测点与虚拟对象之间的相对位置，即第二相对位置。

在一些实施例中，基于第一相对位置与第二相对位置对目标模板视频中虚拟对象的位置进行调整，包括：

3.1、基于第一相对位置与第二相对位置确定虚拟对象的移动方向；

3.2、从预设的多个三维模板视频中获取三维移动模板视频；

3.3、基于三维移动模板视频与移动方向生成调整虚拟对象位置的视频。

其中，在一些实施例中，在进行视频合拍时，可以实时对合拍的视频进行预览。当行为视频采集装置采集到行为视频并基于其确定了对应的目标模板视频后，便可以实时根据前述相对位置确定合拍视频中虚拟对象与目标对象的相对位置并在预览界面中进行显示。此时如果直接对三维模板视频中虚拟对象对应的三维模板进行平移则在显示时会出现画面跳跃，使得真实性降低。因此，本申请实施例中提供了一种采用虚拟对象的另一三维模板视频来优化该变动的方案。具体地，当确定了前述第一相对位置和第二相对位置后，可以基于第一相对位置和第二相对位置确定虚拟对象需要移动的移动反向。然后，可以从预设的多个三维模板视频中获取虚拟对象的三维移动模板视频。例如，当虚拟对象为虚拟大熊猫时，三维移动模板视频可以为虚拟大熊猫的爬行视频。进一步地，可以基于该三维移动模板视频与前述确定的移动方向生成调整虚拟对象位置的视频。即可以生成虚拟大熊猫向目标对象爬行的视频。如此，可以使得大熊猫位置移动显得更为生动，进一步提升了视频合拍的真实性，大大提升用户使用体验。

具体地，当采集到目标对象的行为视频后，可以将该行为视频与目标模板三维视频的合拍效果在视频处理装置的显示屏中进行预览显示。如图4所示，为目标对象与虚拟对象的合拍视频的预览示意图。如图所示，在视频处理装置的显示界面50中，显示了目标对象20对应的目标对象图像51以及虚拟对象对应的虚拟对象图像51。当识别到虚拟对象图像52距离目标对象图像51距离较远时，便可以自动提取虚拟对象的三维移动模板视频，并设置爬行方向为由虚拟对象图像朝向目标对象图像的方向，如此便会在视频处理装置的显示界面50中显示虚拟对象向目标对象爬行的动态视频，直至虚拟对象图像与目标对象图像之间的距离小于一个预设值。如图5所示，当虚拟对象图像与目标对象图像之间的距离小于上述预设值后，便可以再将合拍视频由三维移动模板视频再切换为目标模板视频进行显示预览。其中，上述目标对象图像与虚拟对象图像仅是工业相机从一个角度进行目标对象行为视频采集时对应的预览效果，当工业相机沿着滑轨进行滑动时，可以采集到目标对象的其他角度的视频，那么此时显示的虚拟对象对应的虚拟对象图像也会随着工业相机采集角度的变化而变化，显示为虚拟对象的其他角度观测到的图像。例如当工业相机运动到目标对象的正面时，由于在预览视频中目标对象和虚拟对象相对，那么此时预览视频中显示的便为虚拟对象的背面。

在一些实施例中，本申请提供的视频处理方法，还包括：

A、当在行为视频采集区域未检测到目标对象时，在多个三维模板视频中随机确定一个待机模板视频并显示待机模板视频；

B、当在行为视频采集区域中检测到目标对象时，根据采集到的目标对象的行为视频生成合拍视频并显示合拍视频。

其中，在本申请实施例中，当对合拍视频的合拍过程进行实时预览的情况下，例如用户登录进应用后便在终端的显示界面中显示合拍视频的预览视频。如果此时行为视频采集装置没有采集到行为视频，例如在行为视频采集区域中未检测到目标对象，那么此时可以在终端的显示界面中显示多个三维模板视频中的任意一个模板视频作为待机模板视频。例如显示虚拟大熊猫爬行视频，或者显示虚拟大熊猫吃东西的视频等。当在行为视频采集区域中检测到目标对象，例如当用户走进视频采集区域，或者当用户将视频采集装置对准目标对象时，此时可以对目标对象进行行为视频采集，然后根据采集到的行为视频确定目标模板视频进行合拍。

在一些实施例中，当待机模板视频与目标模板视频不同时，还可以基于两者的区别生成过渡三维视频，然后由过渡三维视频实现从待机模板视频向目标模板视频的切换。

在一些实施例中，当在行为视频采集区域未检测到目标对象时，在多个三维模板视频中随机确定一个待机模板视频并显示待机模板视频之前，还包括：

a、响应于用户登录请求，采集用户展示的条码信息；

b、确定条码信息对应的目标账号，并采用目标账号进行登录。

在本申请实施例中，还提供了一种可以将本申请提供的视频合拍方法进行推广使用的方法。具体地，可以使用对应的视频合拍应用，当首次使用该应用时，用户可以发起用户登录请求，然后用户可以基于其对应的身份信息进行验证登录。用户的身份信息可以为账号密码的形式，也可以为向视频处理装置展示条码的形式，此处条码可以为一维条码也可以为二维条码。当用户的身份信息为条码信息时，视频处理装置可以根据采集到的条码信息确定该条码信息对应的目标账号，然后登录该目标账号。

在一些实施例中，本申请提供的视频处理方法，还包括：

响应于合拍视频下载指令，将合拍视频保存于目标账号对应的存储位置。

在进行视频合拍后，本申请实施例中可以进一步将生成的合拍视频进行下载、回放以及转发等处理。

具体地，在一些实施例中，对合拍视频的存储也可以为将生成的合拍视频存储至云服务器中。其中，云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(ID，ID entity)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID，Redundant Array of Independent Disk)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

根据上述描述可知，本申请实施例提供的视频处理方法，通过获取采集到的目标对象的行为视频；解析行为视频，得到目标对象的行为意图；在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

本申请还提供了一种视频处理方法，如图6所示，为本申请提供的视频处理方法的另一流程示意图。方法具体包括：

步骤201，响应于对视频合拍应用的应用二维码的扫描操作，在用户终端显示登录验证界面。

在本申请实施例中，将对基于体积视频的合拍技术进行详细的描述。具体地，本申请可以提供一个基于体积视频的合拍系统，该系统具体可以包括装载有体积视频合拍应用的计算机设备、装载有体积视频合拍应用的用户终端、可移动的工业相机以及预设的行为视频采集区域，此处预设的行为视频采集区域可以为摄影棚。

在开始拍摄之前，用户可以先在用户终端中登录体积视频合拍应用，然后采用该应用中的扫码功能对视频合拍应用的应用二维码进行扫描，此处视频合拍应用的应用二维码可以为在纸板上展示的二维码，也可以为在计算机设备的显示界面中显示的二维码。此处视频合拍应用即为前述基于体积视频的视频合拍应用。在一些实施例中，用户还可以采用用户终端中装载的即时通讯应用(例如微信或支付宝)的扫码功能扫描视频合拍应用的应用二维码。当扫描了视频合拍应用的应用二维码后，便会在用户终端上显示该视频合拍应用的登录验证界面，用户可以在该界面中键入用户的身份验证信息，或者采用第三方登录的方法进行登录验证，以便确定即将进行视频合拍的用户身份。

步骤202，用户终端接收登录确认指令，登录视频合拍应用并生成个人拍摄条形码。

当用户在用户终端中键入了身份验证信息，并确认登录后，便可以登录进前述视频合拍应用并生成个人拍摄条形码。

步骤203，响应于用户向计算机设备的扫码装置展示的个人拍摄条形码，计算机设备对个人拍摄条形码进行识别并绑定。

进一步地，用户可以将步骤202中生成的个人拍摄条形码向装载了视频合拍应用的计算机设备的扫码装置展示个人拍摄条形码以触发计算机设备开启与用户身份对应的视频合拍。计算机设备的扫码装置采集到个人拍摄条形码后，对该个人拍摄条形码进行识别，以提取出其中包含的身份信息。然后将当前拍摄任务与该身份信息进行绑定，使得后续仅有该身份信息的用户可以查看当前拍摄的合拍体积视频，从而避免泄露个人隐私。

步骤204，响应于开始视频合拍的指令，计算机设备显示待机模板视频并开始采集用户行为视频并将行为视频与待机模板视频进行合拍显示。

计算机设备在对用户进行身份绑定后，便可以接收用户的拍摄控制指令。具体地，当用户点击开始视频合拍控件，或者采用声控来控制开始视频合拍，计算机设备便随机从多个模板体积视频中随机确定一个待机模板视频进行显示。当然，在显示之前，用户还可以对合拍对象进行选择，例如选择合拍对象为动物或者公众人物等，选中了合拍对象后，计算机设备便从模板库中调取出合拍对象对应的多个模板体积视频以备合拍使用。然后在用户确定开始视频合拍时，便可以从备用的多个模板体积视频中随机确定一个待机模板视频进行播放显示。例如，当合拍对象为虚拟大熊猫时，可以调取出虚拟大熊猫的多个模板体积视频，例如爬行体积视频、玩耍体积视频、吃东西体积视频以及睡觉体积视频。待机模板视频可以随机确定为睡觉模板视频等。

其中，在开启视频合拍并在计算机设备上显示待机模板视频后，工业相机便开始在预设的行为视频采集区域进行用户的行为视频采集。如果工业相机未采集到用户的行为视频(例如用户未进入预设的视频采集区域)，则在计算机设备的显示界面中继续播放待机模板视频，若工业相机采集到了用户的行为视频，则将用户的行为视频与待机模板视频进行合拍。

步骤205，计算机设备对行为视频进行意图识别，并基于识别得到的行为意图确定目标模板视频。

其中，在视频合拍过程中，计算机设备还会对用户的行为视频进行意图识别，例如识别到用户想与虚拟大熊猫一起玩耍，则此时会将待机模板视频切换为玩耍体积视频，然后在计算机设备的显示界面中显示用户与虚拟大熊猫一起玩耍的预览视频。其中，由于预览视频为二维视频，工业相机采集到的用户行为视频也为二维视频，而模板视频，即前述玩耍体积视频为体积视频。即预览视频(即合拍视频)为用户行为视频(二维视频)与模板体积视频的一个观测角度看到的二维视频进行合成生成的二维视频。而对该模板体积视频的观测角度可以根据工业相机的位置来确定，即根据工业相机相对预设行为视频采集区域的位置来确定对体积视频进行观测的虚拟观测位置。在确定了对模板体积视频进行观测的虚拟观测位置后，便可以确定用于进行合拍的模板体积视频对应角度的二维视频。当工业相机在滑轨上进行滑动时，对应的对模板体积视频进行观测的虚拟观测位置也会随之发生变化，即合拍视频中与虚拟对象对应的二维视频的观测角度也会发生相应的变化，而现有技术中根据二维视频三角化得到的三维视频，在进行视频合拍时，拍摄角度变化不会影响三维视频的观测角度，三维视频的合拍内容不会发生变化，导致合拍真实性较低。因此，本方法可以使得合拍的真实性大大提升。

步骤206，计算机设备将合拍显示的待机模板视频切换为目标模板视频进行合拍显示，并据此生成用户与目标模板视频中虚拟对象的合拍视频。

在确定了采集到的行为视频的行为意图并确定了与行为意图对应的目标模板视频后，便可以切换到用户与目标模板视频的体积视频进行合拍，生成用户与虚拟对象的合拍视频。

步骤207，响应于接收到的合拍视频保存指令，计算机设备将生成的合拍视频上传到服务器中与用户账号对应的位置进行存储。

进一步地，用户在视频合拍完成后，还可以在计算机设备中点击保存控件，计算机设备便会将拍摄得到的合拍视频上传到服务器中，服务器便会将该合拍视频保存在用户账号对应的位置中，以便用户后续登录其对应的账号查看其拍摄的合拍视频。

为了更好地实施以上视频处理方法，本申请实施例还提供一种视频处理装置，该视频处理装置可以集成在终端或服务器中。

例如，如图7所示，为本申请实施例提供的视频处理装置的结构示意图，该视频处理装置可以包括获取单元201、解析单元202、确定单元203以及生成单元204，如下：

获取单元201，用于获取采集到的目标对象的行为视频；

解析单元202，用于解析行为视频，得到目标对象的行为意图；

确定单元203，用于在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；

生成单元204，用于基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

在一些实施例中，生成单元，包括：

第一获取子单元，用于获取目标对象与行为视频拍摄点的第一相对位置；

第二获取子单元，用于获取目标模板视频中虚拟对象与虚拟视频观测点的第二相对位置，虚拟视频观测点为与视频拍摄点对应的虚拟位置；

调整子单元，用于基于第一相对位置与第二相对位置对目标模板视频中虚拟对象的位置进行调整；

第一生成子单元，用于根据调整后的虚拟对象的位置生成目标对象与虚拟对象的合拍视频。

在一些实施例中，调整子单元，包括：

确定模块，用于基于第一相对位置与第二相对位置确定虚拟对象的移动方向；

获取模块，用于从预设的多个三维模板视频中获取三维移动模板视频；

生成模块，用于基于三维移动模板视频与移动方向生成调整虚拟对象位置的视频。

在一些实施例中，解析单元，包括：

提取子单元，用于提取行为视频中的动作数据；

匹配子单元，用于根据动作数据在预设行为意图库中进行意图匹配，得到目标对象的行为意图。

在一些实施例中，本申请提供的视频处理装置，还包括：

确定子单元，用于当在行为视频采集区域未检测到目标对象时，在多个三维模板视频中随机确定一个待机模板视频并显示待机模板视频；

第二生成子单元，用于当在行为视频采集区域中检测到目标对象时，根据采集到的目标对象的行为视频生成合拍视频并显示合拍视频。

在一些实施例中，本申请提供的视频处理装置，还包括：

登录子单元，用于确定条码信息对应的目标账号，并采用目标账号进行登录。

在一些实施例中，本申请提供的视频处理装置，还包括：

保存子单元，用于响应于合拍视频下载指令，将合拍视频保存于目标账号对应的存储位置。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

根据上述描述可知，本申请实施例提供的视频处理装置，通过获取单元201获取采集到的目标对象的行为视频；解析单元202解析行为视频，得到目标对象的行为意图；确定单元203在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；生成单元204基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

本申请实施例还提供一种计算机设备，该计算机设备可以为终端或服务器，如图8所示，为本申请提供的计算机设备的结构示意图。具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理单元301、一个或一个以上存储介质的存储单元302、电源模块303和输入模块304等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理单元301是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储单元302内的软件程序和/或模块，以及调用存储在存储单元302内的数据，执行计算机设备的各种功能和处理数据。可选的，处理单元301可包括一个或多个处理核心；优选的，处理单元301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理单元301中。

存储单元302可用于存储软件程序以及模块，处理单元301通过运行存储在存储单元302的软件程序以及模块，从而执行各种功能应用以及数据处理。存储单元302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储单元302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储单元302还可以包括存储器控制器，以提供处理单元301对存储单元302的访问。

计算机设备还包括给各个部件供电的电源模块303，优选的，电源模块303可以通过电源管理系统与处理单元301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源模块303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入模块304，该输入模块304可用于接收输入的数字或字符信息，以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理单元301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储单元302中，并由处理单元301来运行存储在存储单元302中的应用程序，从而实现各种功能，如下：

获取采集到的目标对象的行为视频；解析行为视频，得到目标对象的行为意图；在预设的多个三维模板视频中确定与行为意图匹配的目标模板视频，多个三维模板视频为与虚拟对象相关的三维视频；基于行为视频与目标模板视频生成目标对象与虚拟对象的合拍视频。

应当说明的是，本申请实施例提供的计算机设备与上文实施例中的方法属于同一构思，以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种方法中的步骤，因此，可以实现本发明实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法中各种可选实现方式中提供的方法。

以上对本发明实施例所提供的视频处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取采集到的目标对象的行为视频；

解析所述行为视频，得到所述目标对象的行为意图；

基于所述行为视频与所述目标模板视频生成所述目标对象与所述虚拟对象的合拍视频；

其中，所述基于所述行为视频与所述目标模板视频生成所述目标对象与所述虚拟对象的合拍视频，包括：

获取所述目标对象与行为视频拍摄点的第一相对位置；

获取所述目标模板视频中所述虚拟对象与虚拟视频观测点的第二相对位置，所述虚拟视频观测点为与所述视频拍摄点对应的虚拟位置；

基于所述第一相对位置与所述第二相对位置对所述目标模板视频中所述虚拟对象的位置进行调整；

根据调整后的所述虚拟对象的位置生成所述目标对象与所述虚拟对象的合拍视频；

其中，所述获取所述目标模板视频中所述虚拟对象与虚拟视频观测点的第二相对位置，所述虚拟视频观测点为与所述视频拍摄点对应的虚拟位置，包括：

获取对所述目标模板视频进行观测的预设观测角度；

基于所述预设观测角度确定虚拟观测点；

确定所述虚拟观测点与所述目标模板视频中所述虚拟对象的第二相对位置。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一相对位置与所述第二相对位置对所述目标模板视频中所述虚拟对象的位置进行调整，包括：

基于所述第一相对位置与所述第二相对位置确定所述虚拟对象的移动方向；

从所述预设的多个三维模板视频中获取三维移动模板视频；其中，所述三维移动模板视频为所述虚拟对象的移动视频；

基于所述三维移动模板视频与所述移动方向生成调整所述虚拟对象位置的视频。

3.根据权利要求1所述的方法，其特征在于，所述解析所述行为视频，得到所述目标对象的行为意图，包括：

提取所述行为视频中的动作数据；

根据所述动作数据在预设行为意图库中进行意图匹配，得到所述目标对象的行为意图。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当在行为视频采集区域未检测到所述目标对象时，在所述多个三维模板视频中随机确定一个待机模板视频并显示所述待机模板视频；

当在所述行为视频采集区域中检测到所述目标对象时，根据采集到的目标对象的行为视频生成合拍视频并显示所述合拍视频。

5.根据权利要求4所述的方法，其特征在于，所述当在行为视频采集区域未检测到所述目标对象时，在所述多个三维模板视频中随机确定一个待机模板视频并显示所述待机模板视频之前，还包括：

响应于用户登录请求，采集用户展示的条码信息；

确定所述条码信息对应的目标账号，并采用所述目标账号进行登录。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

响应于合拍视频下载指令，将所述合拍视频保存于所述目标账号对应的存储位置。

7.根据权利要求1所述的方法，其特征在于，所述获取采集到的目标对象的行为视频，包括：

响应于视频合拍请求，向相机发送视频拍摄指令以使得所述相机对预设行为视频采集区域进行行为视频采集；

接收所述相机返回的目标对象的行为视频。

8.根据权利要求7所述的方法，其特征在于，所述响应于视频合拍请求，向相机发送视频拍摄指令以使得所述相机对预设行为视频采集区域进行行为视频采集，包括：

响应于视频合拍请求，向相机发送对预设行为视频采集区域进行目标对象检测的检测指令；

当根据所述相机返回的检测结果确定在所述预设行为视频采集区域中检测到所述目标对象时，向所述相机发送视频拍摄指令，以使得所述相机进行行为视频采集。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

当根据所述相机返回的检测结果确定在所述预设行为视频采集区域中未检测到所述目标对象时，向所述相机发送移动指令，所述移动指令控制所述相机沿预设滑轨移动，直至检测到所述目标对象。

10.一种视频处理装置，其特征在于，所述装置包括：

获取单元，用于获取采集到的目标对象的行为视频；

生成单元，用于基于所述行为视频与所述目标模板视频生成所述目标对象与所述虚拟对象的合拍视频；

其中，所述生成单元，还用于：

获取所述目标对象与行为视频拍摄点的第一相对位置；

获取对所述目标模板视频进行观测的预设观测角度；

基于所述预设观测角度确定虚拟观测点；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9中任一项所述的视频处理方法中的步骤。

12.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的视频处理方法中的步骤。