CN111726536B

CN111726536B - 视频生成方法、装置、存储介质及计算机设备

Info

Publication number: CN111726536B
Application number: CN202010636852.5A
Authority: CN
Inventors: 张新磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-01-05
Anticipated expiration: 2040-07-03
Also published as: CN111726536A; US20230066716A1; WO2022001593A1

Abstract

本申请公开了一种视频生成方法、装置、存储介质及计算机设备，属于视频处理技术领域。所述方法包括：获取针对视频合拍选项的第一触发操作，启动摄像头进行视频拍摄；基于第一视频获取提示消息；在视频拍摄过程中，在拍摄界面上显示所述提示消息；其中，所述提示消息用于提供拍摄指导提示；获取当前拍摄得到的第二视频；基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频。本申请不但能够取得优质的拍摄效果，而且还能够降低拍摄成本。

Description

视频生成方法、装置、存储介质及计算机设备

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频生成方法、装置、存储介质及计算机设备。

背景技术

物质文明的快速发展，使得大众对精神文明的追求日益提高，随之市面上涌现出了众多的视频分享平台，比如短视频分享平台便是其中一种。目前，原创用户在拍摄或制作好视频后，可将视频上传至视频分享平台。而其他用户除了可通过视频分享平台观看该视频之外，还可对该视频执行诸如点赞、评论或转发等操作。

另外，出于增添趣味性、提升视频产量等方面的考量，视频分享平台还支持用户对他人视频进行二度创作，比如用户在视频分享平台上浏览到喜爱的视频后，可以基于该视频制作合拍视频。而在拍摄合拍视频时，拍摄效果和拍摄成本一直是用户关心的问题。为此，针对视频合拍场景，如何生成视频，以在取得优质拍摄效果的同时确保拍摄成本，便成为了时下本领域技术人员亟待解决的一个问题。

发明内容

本申请实施例提供了一种视频生成方法、装置、存储介质及计算机设备，不但能够取得优质的拍摄效果，而且还能够降低拍摄成本。所述技术方案如下：

一方面，提供了一种视频生成方法，所述方法包括：

获取针对视频合拍选项的第一触发操作，启动摄像头进行视频拍摄；

基于第一视频获取提示消息；在视频拍摄过程中，在拍摄界面上显示所述提示消息；其中，所述提示消息用于提供拍摄指导提示；

获取当前拍摄得到的第二视频；基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频。

另一方面，提供了一种视频生成装置，所述装置包括：

第一处理模块，被配置为获取针对视频合拍选项的第一触发操作，启动摄像头进行视频拍摄；

获取模块，被配置为基于第一视频获取提示消息；

第一显示模块，被配置为在视频拍摄过程中，在拍摄界面上显示所述提示消息；其中，所述提示消息用于提供拍摄指导提示；

第二处理模块，被配置为获取当前拍摄得到的第二视频；基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频。

在一种可能的实现方式中，所述第二处理模块，被配置为响应于所述第一视频中不包括被选中的目标角色和其他角色的同框画面，以所述第二视频替换所述第一视频中包含所述目标角色的视频片段；响应于所述第一视频中包括所述目标角色和其他角色的同框画面，以所述第二视频中的用户面部图像替换所述同框画面中的目标角色面部图像。

在一种可能的实现方式中，所述提示消息包括摄像头拍摄方式、人体姿态和角色对白中的一种或多种；所述第一显示模块，被配置为执行以下一项或多项：在所述拍摄界面上显示所述摄像头拍摄方式的提示图标和提示文字；在所述拍摄界面上显示所述人体姿态的提示图标和提示文字；在所述拍摄界面上显示所述角色对白。

其中，所述人体姿态包括面部表情、面部朝向和肢体动作中的一种或多种。

在一种可能的实现方式中，所述第一视频中包括N个角色，N为正整数且N≥2，所述装置还包括：

第二显示模块，被配置为响应于所述第一触发操作，在启动摄像头进行视频拍摄之前，在所述播放界面上显示N个角色选项；

第三处理模块，被配置为获取针对所述N个角色选项中目标角色选项的第二触发操作，在所述第一视频中筛选出目标角色出现的M个视频片段；其中，M为正整数且M≥1。

在一种可能的实现方式中，所述第二显示模块，还被配置为在所述播放界面上显示每个所述视频片段的预览画面；

所述第三处理模块，还被配置为获取针对指定视频片段的预览画面的第三触发操作，响应于所述第三触发操作，播放所述指定视频片段。

在一种可能的实现方式中，所述装置还包括：

第三显示模块，被配置为以置于顶层的显示方式，在所述拍摄界面上悬浮显示一个视频窗口；其中，所述视频窗口用于显示所述第一视频中与所述提示消息匹配的视频片段。

在一种可能的实现方式中，所述装置还包括：

第四显示模块，被配置为在生成所述合拍视频后，显示所述合拍视频的预览画面、播放选项、播放进度条以及视频修改选项；

第四处理模块，被配置为获取针对所述播放选项的第四触发操作，响应于所述第四触发操作，播放所述合拍视频；

所述第四显示模块，还被配置为通过所述播放进度条动画显示所述合拍视频的播放进度；

第五处理模块，被配置为获取针对所述视频修改选项的第五触发操作，响应于所述第五触发操作，对所述合拍视频执行修改处理。

在一种可能的实现方式中，所述第三处理模块，被配置为确定所述目标角色在所述第一视频中出现的时间点；对确定的时间点进行关键帧标记得到视频打点信息；根据所述视频打点信息和确定的时间点，在所述第一视频中切分出所述M个视频片段。

在一种可能的实现方式中，所述获取模块，被配置为对每个所述视频片段进行画面内容分析，得到每个所述视频片段对应的提示消息；

所述第一显示模块，还被配置为在每个所述视频片段的拍摄过程中，在所述拍摄界面上显示与每个所述视频片段对应的提示消息。

在一种可能的实现方式中，所述获取模块，被配置为将每个所述视频片段输入人体关键点检测网络；获取所述人体关键点检测网络输出的所述目标角色的人体关键点；按照面部不同部位之间的相对位置关系，将所述人体关键点中的面部关键点进行连接，得到面部构架模型；根据所述面部架构模型，确定所述目标角色在每个所述视频片段中面部表情和面部朝向；按照肢体不同部位之间的相对位置关系，将所述人体关键点中的肢体关键点进行连接，得到肢体构架模型；根据所述肢体架构模型，确定所述目标角色在每个所述视频片段中肢体动作。

在一种可能的实现方式中，所述获取模块，被配置为获取每个所述视频片段中目标物的运动方向变化和大小变化；根据所述目标物在每个所述视频片段中的运动方向变化和大小变化，确定摄像头拍摄方式；或，对所述目标角色在每个所述视频片段中的语音数据进行识别，得到所述目标角色在每个所述视频片段中的角色对白。

在一种可能的实现方式中，所述第一显示模块，还被配置为响应于所述摄像头当前采集到的视频画面与当前显示的所述提示消息不匹配，在所述拍摄界面上显示错误提示消息；其中，所述错误提示消息用于引导用户重新进行视频拍摄。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的视频生成方法。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的视频生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的视频生成方法。

本申请实施例提供的技术方案带来的有益效果是：

终端会显示一个视频合拍选项，若后续终端获取到用户对该视频合拍选项的触发操作，则会自动启动摄像头进行视频拍摄，并在视频拍摄过程中自动显示基于第一视频获取到的提示消息，以此来引导用户快速且高质量地完成视频拍摄。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。而在完成拍摄后，终端还会基于当前拍摄得到的第二视频对第一视频的视频内容进行处理，即合拍视频是通过对第一视频和第二视频进行内容上的融合得到的，这使得合拍视频具有良好的内容契合度，用户能够深度融入到视频制作中，提高了视频个性化程度。因此，该种视频生成方法不但能够取得优质拍摄效果，而且显著地降低了拍摄成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频生成方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种视频生成方法的流程图；

图3是本申请实施例提供的一种用户界面的示意图；

图4是本申请实施例提供的一种视频生成方法的流程图；

图5是本申请实施例提供的另一种用户界面的示意图；

图6是本申请实施例提供的另一种用户界面的示意图；

图7是本申请实施例提供的另一种用户界面的示意图；

图8是本申请实施例提供的另一种用户界面的示意图；

图9是本申请实施例提供的另一种用户界面的示意图；

图10是本申请实施例提供的另一种用户界面的示意图；

图11是本申请实施例提供的另一种用户界面的示意图；

图12是本申请实施例提供的另一种用户界面的示意图；

图13是本申请实施例提供的一种视频生成方法的流程图；

图14是本申请实施例提供的一种视频生成方法的流程图；

图15是本申请实施例提供的一种视频生成方法的流程图；

图16是本申请实施例提供的一种人体关键点的示意图；

图17是本申请实施例提供的一种移动目标物的检测和跟踪的流程示意图；

图18是本申请实施例提供的一种Deepfake技术的架构图；

图19是本申请实施例提供的一种视频生成方法的整体执行流程的示意图；

图20是本申请实施例提供的另一种用户界面的示意图；

图21是本申请实施例提供的另一种用户界面的示意图；

图22是本申请实施例提供的另一种用户界面的示意图；

图23是本申请实施例提供的另一种用户界面的示意图；

图24是本申请实施例提供的另一种用户界面的示意图；

图25是本申请实施例提供的另一种用户界面的示意图；

图26是本申请实施例提供的另一种用户界面的示意图；

图27是本申请实施例提供的另一种用户界面的示意图；

图28是本申请实施例提供的另一种用户界面的示意图；

图29是本申请实施例提供的一种视频生成装置的结构示意图；

图30是本申请实施例提供的一种计算机设备的结构示意图；

图31是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。

其中，至少一个是指一个或一个以上，例如，至少一个角色可以是一个角色、两个角色、三个角色等任一大于等于一的整数个角色。而多个是指两个或者两个以上，例如，多个角色可以是两个角色、三个角色等任一大于等于二的整数个角色。需要说明的是，角色在本申请实施例中可以是对视频中出现的人物的统称。

本申请实施例提供了一种视频生成方法、装置、存储介质及计算机设备。该方法涉及到人工智能(Artificial Intelligence，AI)技术和云技术。

其中，AI技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

详细来说，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括自然语言处理技术和机器学习。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。另外，云技术还可以是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

以下将基于AI技术和云技术对本申请实施例提供的一种视频生成方法、装置、存储介质及计算机设备进行详细地解释说明。

首先对本申请实施例提供的视频生成方法涉及的实施环境进行介绍。

示例一，参见图1，该实施环境可以包括：终端101和服务器102。即，本申请实施例提供的视频生成方法由终端101和服务器102联合执行。

其中，终端101通常为移动式终端。在一种可能的实现方式中，移动式终端包括但不限于：智能手机、平板电脑、笔记本电脑、电子阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等。

其中，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

作为一个示例，终端101上通常安装有视频客户端，而服务器102为该视频客户端提供后台服务，以支持用户通过该视频客户端浏览其他用户发布分在视频分享平台上的视频。

示例二，该实施环境还可以仅包括终端101。即，本申请实施例提供的视频生成方法还可由终端101单独执行。针对该种情况，通常还需要终端101具备强大的计算处理能力。

基于上述的实施环境，本申请实施例提供的视频生成方法可以应用在视频合拍场景下。

场景1、短视频的视频合拍场景

其中，短视频通常指代播放时长较短，比如小于某一时长阈值的视频。示例性地，该时长阈值可以为30秒或50秒或60秒等，本申请实施例对此不进行具体限定。

短视频目前已经成为大众消费的主流方式，如果能够通过有趣的方式，围绕现有视频画面内容，让用户可以快速地进行视频二度创作，那么将会极大地提高视频的对外传播能力、提升视频产量，进而为视频分享平台吸引更多的用户。即，短视频的二度创作，成为了提升趣味性、鼓励用户创作、降低视频制作门槛，提升视频产量的有力途径。

一方面，在视频合拍过程中，本申请实施例可以基于现有视频画面内容输出提示消息为用户提供拍摄引导，使得用户可以根据视频所记录的故事内容，自己低成本地拍摄出与原有视频画面融合度高、有趣味的视频。

即，本申请实施会基于对视频画面内容的理解与分析(比如分析摄像头拍摄方式、角色的人体姿态、识别角色对白等)，为用户提供拍摄引导(比如角色的面部朝向、面部表情、肢体动作、摄像头拍摄方式、角色对白)。这样当用户进行视频合拍时，可以根据系统输出的提示消息进行拍摄。也即，本申请实施例在视频合拍过程中，可以对诸如用户运动姿态、面部表情状态、摄像头拍摄方式等进行引导，从而更友好地帮助用户完成视频拍摄，降低用户进行视频合拍的拍摄成本，提升拍摄效率，同时提升拍摄效果，使得最终的合拍视频具有较好的内容还原度。

示例性地，摄像头拍摄方式包括但不限于：摄像头的取景方式、摄像头的运动方式。可选的，摄像头的取景方式包括但不限于水平取景或竖向取景等；可选的，摄像头的运动方式包括但不限于：推镜头、拉镜头、摇镜头、跟镜头、静止镜头、镜头左右上下移动等。

另一方面，本申请实施例提供的是一种基于场景融合的短视频合拍方式。

示例性地，场景融合的含义是，原始视频和用户拍摄视频不但在内容上相互关联，而且最终得到的合拍视频是通过对原始视频和用户拍摄视频进行内容上的融合得到的，即视频的合成处理是将用户拍摄视频穿插到原始视频中，实现的是对原始视频中部分视频片段的替换，最终得到的是一路视频，也即将原始视频和用户拍摄视频合成处理为一路视频，得到合拍视频。其中，合拍视频的每帧视频图像中均包含一路视频画面。换言之，合拍视频在进行呈现时画面中仅包括一路视频，而非同一画面上包括两路视频，即该种基于场景融合的短视频合拍方式不是对两路视频进行生硬拼接，不是在同一画面上呈现诸如左右分屏、上下分屏或大小窗模式的两路视频。

场景2、其他视频的视频合拍场景

除了场景1中示出的短视频合拍场景之外，本申请实施例提供的视频生成方法还可以应用于其他视频的合拍场景下，比如电影片段或电视剧片段等，本申请实施例对此不进行具体限定。

图2是本申请实施例提供的一种视频生成方法的流程图，执行主体为图1中示出的终端101，参见图2，本申请实施例提供的方法流程包括：

201、终端获取针对视频合拍选项的第一触发操作，启动摄像头进行视频拍摄。

可选的，终端在第一视频的播放界面上显示该视频合拍选项。其中，第一视频在本申请实施例中也被称之为原始视频。即本文将用户浏览并播放的视频称之为第一视频。示例性地，第一视频可以为视频分享平台的注册用户发布到视频分享平台的短视频，该短视频既可以为用户原创视频，也可以为用户模仿视频，还可以为用户在诸如电视剧、电影或任意类型的视频中截取的一小段视频，本申请实施例对此不进行具体限定。另外，第一视频除了短视频形式之外，还可以为时长大于短视频的其他形式视频，本申请实施例对此同样不进行具体限定。宽泛地来讲，任何形式的包含人物角色的视频均可应用于本方法。

如图3所示，在第一视频的播放过程中，可以在播放界面上显示一个视频合拍选项301。作为一个示例，为了避免该视频合拍选项301对呈现的视频画面进行过多遮挡，可以将该视频合拍选项301布局显示在播放界面的边缘位置处，比如播放界面的左边缘、右边缘、上边缘或下边缘等。其中，在图3中，该视频合拍选项301显示在了播放界面的右边缘且靠下的位置。

其中，在用户浏览并播放第一视频过程中，当播放界面上显示诸如“我要合拍”的视频合拍选项301时，则代表用户当前可以进行视频合拍的互动。

示例性地，第一触发操作可以为用户对图3中示出的视频合拍选项301的点击操作，本申请实施例对此不进行具体限定。

202、终端基于第一视频获取提示消息；在视频拍摄过程中，终端在拍摄界面上显示提示消息；其中，该提示消息用于提供拍摄指导提示。

即，该提示消息用于引导用户进行视频拍摄。

其中，提示消息是通过对第一视频进行画面内容分析得到。该分析步骤既可以由终端执行也可以由服务器执行。在一种可能的实现方式中，该提示消息包括：摄像头拍摄方式、人体姿态和角色对白中的一种或多项；可选的，通过显示摄像头拍摄方式，从而告知用户该如何真实地还原拍摄过程，以保持与原始视频较高的一致性；人体姿态可以包括面部表情、面部朝向和肢体动作中的一种或多种。而角色对话通俗来讲是指角色的台词。

作为一个示例，为了对用户进行更好地拍摄引导，终端在显示提示消息时，可以选择图标和文字的结合引导方式。即，终端在拍摄界面上显示提示消息，可以包括以下一项或多项：

终端在拍摄界面上显示摄像头拍摄方式的提示图标和提示文字。

终端在拍摄界面上显示人体姿态的提示图标和提示文字。

终端在拍摄界面上显示角色对白。

203、终端获取当前拍摄得到的第二视频；基于第二视频对第一视频的视频内容进行处理，得到合拍视频。

相对于原始视频，终端当前拍摄得到的第二视频在本文中也被称之为用户拍摄视频。通过将原始视频和用户拍摄视频进行合成处理，即可得到合拍视频，而合拍视频最终即可为用户呈现一种视频合拍效果。

其中，除了终端执行合成处理之外，也可以由服务器执行合成处理，本申请实施例对此不进行具体限定。

作为一个示例，基于第二视频对第一视频的视频内容进行处理，包括但不限于：响应于第一视频中不包括目标角色和其他角色的同框画面，以第二视频替换第一视频中包含目标角色的视频片段；即，该种方式采用第二视频包括的视频帧来替换第一视频中包含目标角色的视频帧；响应于第一视频中包括目标角色和其他角色的同框画面，以第二视频中的用户面部图像替换同框画面中的目标角色面部图像。即，该种方式对上述同框画面中的目标角色进行换脸，将上述同框画面中的目标角色面部头像替换成第二视频中的用户面部图像。可选的，合拍视频在播放时能够呈现如下效果：第一视频的视频画面和第二视频的视频画面呈线性穿插播放。

本申请实施例提供的方法，终端会显示一个视频合拍选项；若终端后续获取到用户对该视频合拍选项的触发操作，则会自动启动摄像头进行视频拍摄，并在视频拍摄过程中自动显示基于第一视频获取到的提示消息，以此来引导用户快速且高质量地完成视频拍摄。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。而在完成拍摄后，终端还会基于当前拍摄得到的第二视频对第一视频的视频内容进行处理，即合拍视频是通过对第一视频和第二视频进行内容上的融合得到的，这使得合拍视频具有良好的内容契合度，用户能够深度融入到视频制作中，提高了视频个性化程度。因此，该种视频生成方法不但能够取得优质视频制作效果，而且显著地降低了拍摄成本。

图4是本申请实施例提供的一种视频生成方法的流程图，执行主体为图1中示出的终端101。其中，第一视频中包括N个角色，N为正整数且N≥2。即，本申请实施例提供的视频合拍方案的实施前提条件是原始视频中包括至少两个角色。参见图4，本申请实施例提供的方法流程包括：

401、终端在第一视频的播放界面上显示视频合拍选项。

本步骤同上述步骤201类似，此处不再赘述。

402、终端获取用户针对该视频合拍选项的第一触发操作，响应于第一触发操作，在播放界面上显示N个角色选项。

在本申请实施例中，在用户对该视频合拍选项执行了第一触发操作后，终端便确认用户启动视频合拍功能，而该第一触发操作还会激活终端执行在第一视频中进行人脸识别的步骤。示例性地，可以采用基于卷积神经网络的人脸识别算法进行人脸识别。终端通过在第一视频中进行人脸识别，得出第一视频中包括的角色数量以及角色ID。其中，角色数量与角色选项的个数一致。

图5中示出了N个角色选项501。由图5中示出的N个角色选项501可知，用户选中播放的第一视频中包括2个角色，分别为角色1和角色2。用户可以选择这两个角色中的任意一个角色进行替换拍摄。比如，在用户点击视频合拍选项后，终端可以弹窗提示该视频中可参与拍摄的角色有两个，用户可以选择其中一个角色进行替换，即由用户来表演被选中角色的画面内容。

作为一个示例，图5中角色1的角色选项和角色2的角色选项，可分别用各自角色的一张图片来呈现。而这张图片可以是角色1在第一视频中的一帧视频画面，以及角色2在第一视频中的一帧视频图像，本申请实施例对此不进行具体限定。

403、终端获取用户针对N个角色选项中目标角色选项的第二触发操作，响应于第二触发操作，在播放界面上显示M个视频片段中每个视频片段的预览画面。其中，M个视频指代在第一视频中筛选出来的目标角色出现的视频片段。

其中，M为正整数且M≥1。而第二触发操作可以为用户对这N个角色选项中任意一个角色选项的点击操作，该被用户选中的角色选项在本文中称之为目标角色选项。在本申请实施例中，如果用户选择图5示出的其中一个角色(比如选择角色1)，则终端会在播放界面上显示M个视频片段中每个视频片段的预览画面。其中，M个视频指代在第一视频中筛选出来的目标角色出现的视频片段，而用户可以随意观看这些视频片段。

图6中示出了与角色1相关的4个视频片段的预览画面601。示例性地，这4个视频片段的预览画面601可以平铺方式或列表方式呈现在播放界面上，而4个视频片段的预览画面601可以为每个视频片段的首帧或关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

404、终端获取用户针对M个视频片段中指定视频片段的预览画面的第三触发操作，响应于第三触发操作，播放指定视频片段。

需要说明的是，如果与目标角色相关的视频片段个数较多，则本申请实施例还支持通过用户的滑动操作，滑动展示每个视频片段的预览画面。作为一个示例，第三触发操作可以为用户对指定视频片段的预览画面的点击操作。

405、终端启动摄像头进行视频拍摄并基于第一视频获取提示消息；在视频拍摄过程中，终端在拍摄界面上显示提示消息。

其中，该提示消息用于引导用户进行视频拍摄。

在本申请实施例中，终端在启动摄像头进行拍摄之后，终端根据M个视频片段的先后顺序，将需要用户模仿表演的视频片段逐一在拍摄界面上呈现，并且会分析得出视频画面中的核心信息，以此得到与当前拍摄进度相适配的提示消息。即，在视频拍摄过程中，在拍摄界面上显示提示消息，包括但不限于：对与目标角色相关的每个视频片段进行画面内容分析，得到每个视频片段对应的提示消息；在每个视频片段的拍摄过程中，在拍摄界面上显示与每个视频片段对应的提示消息。

在一种可能的实现方式中，在拍摄界面上显示与每个视频片段对应的提示消息，包括但不限于采取以下方式：以置于顶层的显示方式，在拍摄界面上悬浮显示一个视频窗口；其中，该视频窗口用于显示与当前拍摄进度匹配的视频片段。其中，置于顶层的显示方式的含义是，显示在页面最顶端，不被任何其他图层所遮挡。

如图7至图10所示，在视频拍摄过程中，终端可以选择将需要用户模仿表演的视频片段显示在拍摄界面的左上角，既达到对用户进行提示的目的，同时还不对拍摄界面进行过多占用。另外，除了左上角之外，还可以选择将需要用户模仿表演的视频片段显示在拍摄界面的右上角、左下角或右下角等位置，本申请实施例对此不进行具体限定。

在本申请实施例中，图7至图10还示出了在拍摄界面上显示不同类型提示消息701。

针对图7，终端通过对原始视频进行画面内容分析得知用户此时需要面朝正前方进行拍摄，那么在拍摄界面上便会进行相应的提示，以引导用户拍摄，从而使得用户拍摄的视频画面与原始视频中的角色及画面逻辑有更好的匹配度。如图7所示，此时拍摄界面上呈现的提示消息701便包括：面部朝向的提示图标和提示文字“面朝正前方”。

针对图8，为了确保用户可以真实地还原拍摄过程，以保持与原始视频的较高一致性，提示消息701还可以包括摄像头拍摄方式。如图8所示，通过对原始视频进行画面内容分析可知，当前为推镜头画面，那么终端在UI(User Interface，用户界面)展示上将会呈现图8中所示的摄像头拍摄方式的提示图标(图8中箭头)和提示文字(画面推进)，从而告知用户该如何进行镜头的操控。另外，与此同时，终端还可以对与当前拍摄进度相匹配的角色对白进行UI展示，以告知用户在拍摄时所需要读出的文字内容。其中，图8中示出了用户在将画面进行推进的同时，还需要读出“我们真的可以牵手”的角色对白。

针对图9，提示消息701还可以包括肢体动作。比如，通过对原始视频进行画面内容分析可知，当前角色的右侧胳膊抬起来了，那么终端也会同步在拍摄界面上进行肢体动作的UI展示，即在拍摄界面上展示肢体动作的提示图标和提示文字。如图9所示，该提示图标可以为“运动中的小人”，该提示文字可以为“抬起右侧胳膊”。另外，在用户执行这个肢体动作的同时还需要读出“真的吗”的角色对白。

针对图10，提示消息701还可以包括面部表情。即，拍摄界面上还可以展示面部表情的提示图标和提示文字。比如，通过对原始视频进行画面内容分析可知，当前角色面朝右侧微笑，那么终端也会同步在拍摄界面上进行面部表情的UI展示，即在拍摄界面上展示面部表情的提示图标和提示文字。如图10所示，该提示图标可以为“笑脸”，该提示文字可以为“面朝右侧微笑”。

在另一种可能的实现方式中，在视频拍摄过程中，为了方便用户熟悉角色对白和接下来要做的动作，以及避免用户错过每个视频片段(需要模仿的M个视频片段)刚开始的一两秒，在每个视频片段开始拍摄之前还可以先对用户进行倒计时提示。比如，在启动拍摄之前可以10秒或5秒或3秒倒计时。可选的，倒计时提示形式既可以是语音形式也可以是图文形式，本申请实施例对此不进行具体限定。可选的，在拍摄每个视频片段过程中，除了上述倒计时的提示方式之外，可以在界面上显示一个触发按钮，当用户主动触发了该按钮后，再启动当前视频片段的拍摄。可选的，还可以由用户通过语音来触发当前拍摄。即，终端具有语音识别功能，在识别到用户发出的语音拍摄程序代码后自动启动当前视频片段的拍摄。

406、终端基于第二视频对第一视频的视频内容进行处理，得到合拍视频。

本申请实施例提供的是一种基于场景融合的短视频合拍方式在基于终端显示的提示消息的过程中，终端会采集得到第二视频，而终端在对第一视频与当前拍摄得到的第二视频进行合成处理时，通常采取以下处理方式：将第一视频与第二视频合成处理为一路视频，得到合拍视频；其中，合拍视频的每帧视频图像中均包含一路视频画面。

其中，场景融合的含义是，原始视频和用户拍摄视频不但在内容上相互关联，而且最终得到的合拍视频是通过对原始视频和用户拍摄视频进行内容上的融合得到的，即视频的合成处理是将用户拍摄视频穿插到原始视频中，实现的是对原始视频中部分视频片段的替换，最终得到的是一路视频，也即将原始视频和用户拍摄视频合成处理为一路视频，得到合拍视频。其中，合拍视频的每帧视频图像中均包含一路视频画面。

在一种可能的实现方式中，若与用户选中的目标角色关联的M个视频片段中不包括目标角色和其他角色的同框画面，那么终端可以直接以第二视频替换M个视频片段；若用户选中的目标角色关联的M个视频片段中包括目标角色和其他角色的同框画面，则第二终端的处理方式为以第二视频中的第一面部图像替换同框画面中目标角色的第二面部图像；其中，第一面部图像为用户模仿同框画面中的目标角色时，摄像头拍摄到的用户面部图像。

简言之，若用户所参与的角色需要与其他角色同框出现，那么此时终端的处理方式是：将原有视频中的人物面部画面替换为用户的面部图像，即换脸，以达到剧情和画面逻辑的一致性。

综上所述，合拍视频在进行呈现时画面中仅包括一路视频，而非同一画面上包括两路视频，即该种基于场景融合的视频合拍方式不是对两路视频进行生硬拼接，即不是在同一画面上呈现诸如左右分屏、上下分屏或大小窗模式的两路视频。

407、终端在生成合拍视频后，显示合拍视频的预览画面、播放选项、播放进度条以及视频修改选项；获取用户针对播放选项的第四触发操作，响应于第四触发操作，播放合拍视频，并通过播放进度条动画显示合拍视频的播放进度。

其中，用户在录制完成后，可以选择观看最终的合拍视频，并选择是否进行发布或是修改视频。

如图11所示，在生成合拍视频后，终端会显示合拍视频的预览画面1101、播放选项1102、播放进度条1103以及视频修改选项1104。其中，视频修改选项1104可以包括多个，图11中仅示例性地示出了4个视频修改选项，分别为修改选项1、修改选项2、修改选项3和修改选项4。可以理解的是，视频修改选项的个数可以多余或者少于图示的4个，本申请实施例对此不进行具体限定。

在一种可能的实现方式中，合拍视频的预览画面1101可以为该合拍视频中的首帧、关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

示例性地，第四触发操作可以为用户对播放选项1102的点击操作。

408、终端获取用户针对视频修改选项的第五触发操作，响应于第五触发操作，对合拍视频执行修改处理。

示例性地，第四触发操作可以为用户对视频修改选项1104的点击操作。在一种可能的实现方式中，视频修改选项1104包括但不限于：调整素材、添加文字、添加贴纸、添加滤镜或进行美颜等，本申请实施例对此不进行具体限定。

另外，终端除了显示合拍视频的预览画面1101、播放选项1102、播放进度条1103以及视频修改选项1104之外，还可以显示一个发布选项1105，用户通过触发该发布选项1105可以选择将制作好的合拍视频发布到视频分享平台或个人主页，以供其他用户浏览或观看。

另外，响应于摄像头当前采集到的视频画面与当前显示的提示消息不匹配，即用户执行相关操作或动作与当前显示的提示消息不符合，则在拍摄界面上显示错误提示消息；其中，该错误提示消息用于引导用户重新进行视频拍摄。另外，除了显示文字或图形形式的提示消息之外，还可以看播放语音形式的提示消息，本申请实施例对此不进行具体限定。

本申请实施例提供的方法至少具有以下有益效果：

终端会在用户选中播放的视频的播放界面上显示一个视频合拍选项；之后，若终端获取到用户对该视频合拍选项的触发操作，则终端会自动启动摄像头进行视频拍摄；而在视频拍摄过程中，终端会自动在拍摄界面上显示提示消息；即，该提示消息会呈现在用户的拍摄界面中，以此来引导用户快速且保质地完成视频拍摄。最终，基于原始视频和当前拍摄得到的视频生成合拍视频，实现视频合拍，该种视频生成方法不但能够取得优质拍摄效果，还显著降低了拍摄成本。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。

即，在视频合拍场景下，本申请实施例通过对视频画面内容进行分析，从而能够对外输出有利于用户拍摄的提示消息，进而帮助用户快速地投入到视频的创作过程。也即，本申请实施例以分析视频画面内容为前提，通过向用户展示提示消息来引导用户拍摄，其中，该提示消息包含的内容丰富，比如包含摄像头拍摄方式、人体姿态和角色对白中的一种或多种。

另外，该种基于场景融合的视频合拍方案，由于将原始视频和用户合拍视频合成处理为一路视频，即在画面呈现上合拍视频仅包括一路画面，实现的是时间顺序上原始视频和用户拍摄视频的线性穿插播放，确保了视频的无缝衔接创作效果，该种视频创作过程更加友好。换言之，通过该种视频合拍方案，实现了在围绕现有视频画面内容的基础上，用户能够以更加自然、更加沉浸的方式投入到视频创作过程，使得最终的合拍视频从用户角度看来具有更好的融合性，也即合拍视频在内容呈现上和人物表演上与原始视频更为契合，避免了两路视频之间的生硬拼接。

示例性地，下面通过图12对“在时间顺序上原始视频和用户拍摄视频呈线性穿插播放”进行说明。其中，图12中示出了在合拍视频中截取到的几个视频画面，这几个视频画面从左到右是按照时间顺序依次排序的。在图12中，视频画面1201和视频画面1203来自于原始视频，而视频画面1202、视频画面1204和视频画面1205来自于用户拍摄视频，而视频画面1206是通过对原始视频中相应视频画面包含的目标角色进行换脸得到，即将目标角色的面部图像替换为用户的面部图像。由于在合拍视频的播放过程中，图12中的几个视频画面以在时间顺序上由左到右顺次呈现的，由于原始视频画面和用户拍摄视频穿插播放，因此该种视频合拍方案实现了原始视频和用户拍摄视频的基于场景融合。

在另一个实施例中，针对上述步骤403，本申请实施例还包括“在第一视频中筛选出用户选中的目标角色出现的M个视频片段”。在一种可能的实现方式中，在第一视频中筛选目标角色出现的视频片段的步骤，既可以由服务器执行，也可以由终端自己执行，本申请实施例对此不进行具体限定。针对服务器执行视频片段筛选的方式，参见图13，包括如下步骤：

1301、终端将用户选中的目标角色的角色ID上传至服务器。

其中，角色ID可以为角色的姓名、角色的头像、终端和服务器协商一致的角色代号(比如字符)等，本申请实施例对此不进行具体限定。

1302、服务器在接收到目标角色的角色ID后，确定目标角色在第一视频中出现的时间点；对确定的时间点进行关键帧标记得到视频打点信息；将该视频打点信息和确定出来的时间点返回给终端。

示例性地，在确定目标角色在第一视频中出现的时间点时，可以采取下述方式实现：首先在第一视频中确定包括目标角色人脸的视频帧，之后并获取上述视频帧对应的时间点，即可得到目标角色在第一视频中出现的时间点。

其中，在第一视频中目标角色出现的时间点时，可以对第一视频中包括的每个视频帧分别进行目标角色人脸识别，进而得到上述视频帧。另外，为了提高效率，还可以间隔较短的一段时间进行一次目标角色人脸识别，即在多个较密集的指定时间点使用人脸识别类算法，得出在指定时间点是否存在目标角色人脸，并输出存在目标角色人脸的一系列时间点，即一组时间点列，即代表在原始视频的上述时间点出现了目标角色人脸。其中，确定出来的时间点可以按照先后顺序依次排序，本申请实施例对此不进行具体限定。

另外，在第一视频中确定出来目标角色出现的时间点后，服务器还可以根据确定出来的时间点对第一视频进行打点，进而得到视频打点信息。

简言之，视频打点即关键帧描述，是视频在播放时将鼠标放在播放进度条上会显现视频接下来的内容。即，当将鼠标移动到播放进度条上的一个个小点上时，会自动显示出在该点上所播放的视频内容。视频打点通过将视频中的关键内容点标记出来，以方便用户快速浏览到其想看的内容。

基于以上描述可知，进行视频打点可以是对确定出来的时间点进行关键帧标记，即在这些确定出来的时间点中再进一步地确定关键帧所对应的时间点。其中，关键帧通常指代角色运动或姿态变化中关键动作或姿态所处的那一帧。示例性地，在识别关键帧时可以通过相邻帧之间的变化程度来确定，本申请实施例对此不进行具体限定。

1303、终端根据视频打点信息和确定出来的时间点在第一视频中切分出M个视频片段。

在一种可能的实现方式中，终端在第一视频中进行与目标角色关联的视频片段切分时，包括但不限于如下方式：比如，在视频片段切分时，可以将切分出来的每个视频片段中至少包括一个视频打点(一个关键帧)作为前提。又比如，还可以选择将出现在两个视频打点之间的时间点划分在同一个视频片段内，即终端可以将关键帧对应的时间点作为视频片段的划分依据，也即出现在两个关键帧对应的时间点之间的那些时间点属于同一个视频片段，本申请实施例对此不进行具体限定。

另外，参见图14，针对终端执行视频片段筛选的方式，包括如下步骤：

1401、终端确定目标角色在第一视频中出现的时间点。

1402、终端对确定的时间点进行关键帧标记得到视频打点信息。

1403、终端根据得到的视频打点信息和确定出来的时间点，在第一视频中切分出M个视频片段。

关于步骤1401至步骤1403的实施可以参考上述步骤1301至步骤1303。

在另一个实施例中，针对上述步骤405中的“对与目标角色相关的每个视频片段进行画面内容分析”，该步骤既可以由服务器执行，也可以由终端自己执行，本申请实施例对此不进行具体限定。在一种可能的实现方式中，参见图15，对与目标角色相关的每个视频片段进行画面内容分析，包括但不限于如下步骤：

1501、利用人体姿态检测技术分析与目标角色相关的每个视频片段中用户选中的角色的人体姿态。

如前文所述，人体姿态可以包括面部表情、面部朝向和肢体动作中的一种或多种。在一种可能的实现方式中，上述步骤1501可以进一步地包括：

1501-1、将每个视频片段输入人体关键点检测网络；获取人体关键点检测网络输出的目标角色的人体关键点。

示例性地，该人体关键点检测网络可以基于OpenPose算法，而OpenPose算法是一种基于双分支多级CNN(Convolutional Neural Networks，卷积神经网络)的体系结构的深度学习算法，主要是通过图像识别的方法来检测人体关键点。换言之，OpenPose算法是一个人体关键点检测框架，它能够在图片中检测躯体、手指、面部总共多达135个关键点。并且检测速度很快，能够达到实时检测效果。

以OpenPose算法为例，可以将每个视频片段包括的视频帧输入人体关键点检测网络，而该人体关键点检测网络可以首先通过VGG-19的骨干网络得到特征信息，而后通过6个阶段不断优化，每个阶段有2个分支，其中一个分支用来得到人体关键点坐标的热图(heatmaps)，另一个分支用来得到人体关键点之间肢体意义的起点指向终点的方向向量PAFs。之后将PAFs转化成二分图，并采用诸如匈牙利算法求解二分图匹配问题，从而得到图片中人物的人体关键点。

其中，利用该算法检测到的人体关键点可以实现分析人物的面部表情、面部朝向、肢体动作，甚至还可以跟踪人物手指的运动。示例性地，在进行人体姿态估计时，可以如图16所示，通过将检测到的人体关键点按照一定规则连接起来，实现估计人体姿态。其中，图16示出了三种不同的人体姿态，分别为双手叉腰的站立姿态1601、奔跑姿态1602和双手抱在胸前的站立姿态1603。

1501-2、按照面部不同部位之间的相对位置关系，将人体关键点中的面部关键点进行连接，得到面部构架模型；根据面部架构模型，确定目标角色在每个视频片段中面部表情和面部朝向。

示例性地，该面部不同部位之间的相对位置关系，即是按照人脸的基本结构，比如下巴、嘴巴、鼻子、眼睛以及眉毛的基本位置规则，将面部特征点依次进行连接，生成面部构架模型，而该面部构架模型便能够反映出用户的面部表情和面部朝向。

1501-3、按照肢体不同部位之间的相对位置关系，将人体关键点中的肢体关键点进行连接，得到肢体构架模型；根据肢体架构模型，确定目标角色在每个视频片段中肢体动作。

示例性地，该肢体不同部位之间的相对位置关系，即按照人体肢体的基本结构，比如颈部、肩部、肘部、腕部、手指、腰部、膝部以及脚踝的基本位置规则，将肢体关键点依次进行连接，生成肢体构架模型，而该肢体构架模型可以反映出用户的肢体动作，尤其是用户手指的精确动作。

本申请实施例通过分析原始视频中用户选中角色的面部表情(比如喜、怒、哀、乐等)、面部朝向(比如面朝正前方或右侧等)、肢体动作(比如抬胳膊、踢腿、等)等信息，作为对视频画面内容的解读，并将这些信息以提示消息的方式通过UI展示给用户，实现了直观且清晰地引导用户完成拍摄。

1502、获取每个视频片段中目标物的运动方向变化和大小变化；根据目标物在每个视频片段中的运动方向变化和大小变化，确定摄像头的摄像头拍摄方式。

本步骤即是通过基于灰度图像的检测和跟踪算法来对视频画面中出现的移动目标物(比如视频画面中出现的人物)进行检测和跟踪，从而分析判断出移动目标物在视频画面中的运动方向趋势和大小变化趋势，并据此反推出摄像头的摄像头拍摄方式。换言之，通过分析移动目标物在视频画面中的运动方向趋势和大小变化趋势，从而辅助判定出相应的视频画面中镜头是如何运动的。而通过此种方式辅助判定摄像头的摄像头拍摄方式，并通过UI展示在用户的拍摄界面中，实现了对用户的有效拍摄引导。

简单来说，基于灰度图像的检测和跟踪算法，即是:首先识别视频画面中的目标物轮廓；之后，将多帧视频画面图像转换为灰色图像，并通过对相邻帧的灰色图像进行分析计算，来完成目标物的检测与跟踪。示例性地，参见图17，该检测和跟踪算法的大体流程包括但不限于：

首先，定义MainWin类1701、Process类1702、Tracker类1703和Target类1704。其中，MainWin类1701用于执行摄像头初始化，绘制图形界面，从摄像头中读取下一帧彩色图像交给Process类1702进行处理。其中，Process类1702用于执行将下一帧彩色图像图转换成灰度图像，并将当前转换后的灰色图像与上一帧灰度图像相差；其中，由于简单的帧差法并不足以达到检测精度，因此可以选择采用相差后图像的水平和垂直投影完成检测。即，将相差后图像分别进行水平和垂直投影，并据此计算出一个水平方向阈值和一个垂直方向阈值，该水平方向阈值和该垂直方向阈值用于分割目标物；并根据该水平方向阈值和该垂直方向阈值确定目标物的水平坐标和垂直坐标，并根据该水平坐标和该垂直坐标绘制出目标物的矩形跟踪框。而Tracker类1703用于执行对目标物的跟踪，首先分析目标物是否为新出现的目标，或者，是在之前的图像帧中已经存在并且在当前的图像帧中继续移动的目标物(Target)，然后分别对不同的分析结果执行相应的操作。比如，如果该目标物为之前检测到的目标物，则将该目标物标志为已匹配并加入到链尾，如果该目标物之前未检测到，则为新出现的该目标物创建一个空链。其中，为了后续过程的跟踪，通常会为每个新出现的目标物均创建一条空链。

另外，举例来说，根据目标物在每个视频片段中的运动方向变化和大小变化，确定摄像头的摄像头拍摄方式，可以为：比如，相邻的两帧之间目标物的灰度图像在逐渐变大，则说明此时是推镜头运动；又比如，若当前目标物的灰度图像逐渐向画面左侧移动，则说明此时对应的镜头运动为向右摇镜头。另外，此处的目标物可以是用户所选中的角色，本申请实施例对此不进行具体限定。

1503、对目标角色在每个视频片段中的语音数据进行识别，得到目标角色在每个视频片段中的角色对白。

在本申请实施例中，还可以通过语音识别技术，识别目标角色出现的每个视频片段中是否包括与目标角色相关的角色对白，如果存在与目标角色相关的角色对白，则会在拍摄界面上进行UI展示，以告知用户在拍摄时所需要读出的文字内容。

另外，在执行视频合成处理时，如果用户选中的目标角色与其他角色同框了，则还包括一个换脸的操作。在一种可能的实现方式中，执行换脸操作可以采用Deepfake技术。

其中，Deepfake技术它是由“deep machine learning”(深度机器学习)和“fakephoto”(假照片)组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。在构建模型时使用了Encoder-Decoder自编解码架构，在测试阶段通过将任意扭曲的人脸进行还原，整个过程包含了：获取正常人脸照片→扭曲变换人脸照片→Encode编码向量→Decoder解码向量→还原正常人脸照片五个步骤。

总体上，Deepfake技术的换脸过程主要分为：人脸定位、人脸转换和图像拼接。其中，人脸定位即是抽取原人脸的特征点，例如左右眉毛、鼻子、嘴和下巴等。这些特征点大致描述了人脸的器官分布。示例性地，可以直接通过dlib和OpenCV等主流工具包直接进行抽取，这些工作包一般采用了经典的HOG(Histogram of Oriented Gradient，方向梯度直方图)的脸部标记算法。针对人脸转换，即是是采用GAN或VAE等生成模型，它的目标是生成拥有A表情的B脸。最后的图像拼接则是将人脸融合到原图的背景，从而达到只改变人脸的效果。另外，如果处理的对象是视频，那么还需要一帧帧地处理图像，然后再将处理后的结果重新拼接成视频。

其中，图18示出了Deepfake技术涉及的主要架构，如图18所示，该架构主要包括三部分，分别为编码器1801、生成器1802和判别器1803。针对编码器1801，输入视频和该视频的landmarks(对人脸关键点连接成线得到)，输出一个N维向量。编码器1801的作用是学习到一个视频的特有信息(比如这个人的身份不变性)，同时希望具有姿态的不变性。可以认为和人脸识别网络一样，一个视频对应一个特征，视频中的人脸图像的特征应该和整个视频的特征距离不大；而不同视频间的特征距离差很大。生成器1802用于基于landmarks生成假图像。值得关注的是，生成器1802的一部分输入来自于编码器1801。比如，生成器1802根据landmarks给出的脸型，利用编码器1801学习到的特定的人脸信息按照给定的脸型补全，从而实现换脸的效果。针对判别器1803，包括两个部分，其中一部分是编码器网络，将图像编码为向量；另外还包括一个将参数W和向量相乘的操作。

本申请实施例通过上述几种技术，可以实现对原始视频中用户所选中的目标角色的人体姿态、角色对白和摄像头的摄像头拍摄方式进行分析判定，从而通过对提示消息进行UI展示，实现更友好地帮助用户完成视频拍摄，可以显著增强用户拍摄视频对原始视频的还原度，从而提升内容合成的真实感。

下面对本申请实施例提供的视频生成方法的整体执行流程进行描述。

以服务器执行视频片段筛选、对原始视频进行画面内容分析为例，则整体执行流程可以依托三个部分来实现，即：用户侧、终端侧和服务器侧。其中，围绕用户操作流程，会在终端侧与服务器侧之间产生相应的技术能力匹配。针对终端侧，可以包括如下处理：面部识别、视频片段生成预览、UI元素下发、摄像头调用、视频合成等；针对服务器侧可以包括如下处理：对视频时间进行打点、分析视频内容(如：面部朝向、面部表情、镜头运动和肢体动作等)等。

参见图19，本申请实施例提供的方法流程包括：

1901、原始视频的播放过程中，用户通过在终端上执行触发操作，启动视频合拍功能并激活终端执行人脸识别。相应地，终端在原始视频中进行人脸识别并将识别到的人脸按照角色ID进行分类，以及，将角色ID呈现在拍摄界面上，以供用户进行角色选择。

其中，用户可以通过触发终端在拍摄界面上显示的视频合拍选项来启动视频合拍功能。

1902、用户进行角色选择，相应地，终端将用户选中的目标角色的角色ID上传到服务器。

1903、服务器根据终端上传的角色ID，分析运算出原始视频中目标角色出现的时间点；以及，根据该角色ID出现的时间点执行视频打点处理，并将该角色ID出现的时间点和视频打点信息返回给终端，以供终端生成与目标角色关联的至少一个视频片段，并将这些视频片段的预览画面呈现给用户，以供用户预览其选中的目标角色出现的视频片段。

1904、服务器对与目标角色关联的至少一个视频片段进行画面内容分析，得到目标角色在视频片段中的人体姿态、肢体动作和摄像头的摄像头拍摄方式，并将这些信息下发给终端；终端开启摄像头并将这些信息以UI元素的形式呈现给用户，以引导用户拍摄。

1905、终端基于用户拍摄视频对原始视频进行内容更新处理，得到合拍视频，并生成合拍视频的预览画面，以供用户预览合拍视频。

1906、用户在预览完成后，可以进行诸如视频发布等操作。

本申请实施例提供的方法，终端会在用户选中播放的视频的播放界面上显示一个视频合拍选项；之后，若终端获取到用户对该视频合拍选项的触发操作，则终端会自动启动摄像头进行视频拍摄；而在视频拍摄过程中，终端会自动在拍摄界面上显示提示消息，其中，该提示消息用于引导用户进行视频拍摄；即，提示消息会呈现在用户的拍摄界面中，以此来引导用户快速且保质地完成视频拍摄。最终，通过对原始视频和当前拍摄得到的视频进行合成处理，实现视频合拍，该种视频生成方法不但能够取得优质拍摄效果，还显著降低了拍摄成本。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。

作为一个示例，图20至28示出了基于本申请实施例提供的视频生成方法实现视频合拍的产品效果图。现结合图20至28对本申请实施例提供的视频生成方法进行描述。

图20示出了原始视频的播放界面2000，在该播放界面2000上显示有一个“我要合拍”的视频合拍选项，当用户触发该视频合拍选项后，便会显示图21所示的用户界面2100，该用户界面2100上显示了两个角色选项，分别为角色A和角色B，用户可以选择这两个角色中的任意一个角色进行替换拍摄。比如，在用户点击视频合拍选项后，终端可以弹窗提示该视频中可参与拍摄的角色有两个，用户可以选择其中一个角色进行替换，即由用户来表演被选中角色的画面内容。作为一个示例，角色A的角色选项和角色B的角色选项，可分别用各自角色的一张图片来呈现。

如果用户选择图22示出的其中一个角色(比如选择角色A)，则终端会在图23呈现的播放界面2200上显示4个视频片段中每个视频片段的预览画面。其中，这4个视频片段是在原始视频中筛选出来的角色A出现的视频片段，而用户可以随意观看这些视频片段。示例性地，这4个视频片段的预览画面可以平铺方式或列表方式呈现在播放界面上，而4个视频片段的预览画面可以为每个视频片段的首帧或关键帧或随机选取的一个视频帧，本申请实施例对此不进行具体限定。

如图23至图26所示，在视频拍摄过程中，终端可以选择将需要用户模仿表演的视频片段显示在用户界面的左上角，既达到对用户进行提示的目的，同时还不对用户界面进行过多占用。另外，除了左上角之外，还可以选择将需要用户模仿表演的视频片段显示在用户界面的右上角、左下角或右下角等位置，本申请实施例对此不进行具体限定。

在本申请实施例中，图23至图26还示出了在用户界面上显示不同类型提示消息。

针对图23，终端通过对原始视频进行画面内容分析得知用户此时需要面朝右方进行拍摄，那么在用户界面2300上便会进行相应的提示，以引导用户拍摄，从而使得用户拍摄的视频画面与原始视频中的角色及画面逻辑有更好的匹配度。如图23所示，此时用户界面2300上呈现的提示消息便包括：面部朝向的提示图标和提示文字“面朝右方”。

针对图24，为了确保用户可以真实地还原拍摄过程，以保持与原始视频的较高一致性，提示消息还可以包括摄像头拍摄方式。如图24所示，通过对原始视频进行画面内容分析可知，当前为推镜头画面，那么终端在用户界面2400上将会呈现摄像头拍摄方式的提示图标(图24中箭头)和提示文字(画面推进)，从而告知用户该如何进行镜头的操控。另外，与此同时，终端还可以对与当前拍摄进度相匹配的角色对白进行展示，以告知用户在拍摄时所需要读出的文字内容。其中，图24中示出了用户在将画面进行推进的同时，还需要读出“我们一起拍合照？”的角色对白。

针对图25，提示消息还可以包括肢体动作。比如，通过对原始视频进行画面内容分析可知，当前角色的左侧胳膊抬起来了，那么终端也会同步在用户界面2500上进行肢体动作的展示，即在用户界面2500上展示肢体动作的提示图标和提示文字。如图25所示，该提示图标可以为“运动中的小人”，该提示文字可以为“抬起左侧胳膊”。另外，在用户执行这个肢体动作的同时还需要读出“真的吗？”的角色对白。

针对图26，提示消息还可以包括面部表情。即，用户界面2600上还可以展示面部表情的提示图标和提示文字。比如，通过对原始视频进行画面内容分析可知，当前角色面朝右侧微笑，那么终端也会同步在用户界面2600上进行面部表情的展示，即在用户界面上展示面部表情的提示图标和提示文字。如图26所示，该提示图标可以为“笑脸”，该提示文字可以为“面朝左侧微笑”。

如图27所示，在生成合拍视频后，终端会在用户界面2700上显示合拍视频的预览画面播放选项、播放进度条以及视频修改选项。其中，视频修改选项可以包括多个，图11中仅示例性地示出了5个视频修改选项，分别为调整素材、文字、贴纸、滤镜和美颜。可以理解的是，视频修改选项的个数可以多余或者少于图示的5个，本申请实施例对此不进行具体限定。

示例性地，下面通过图28对“在时间顺序上原始视频和用户拍摄视频呈线性穿插播放”进行说明。其中，图28中示出了在合拍视频中截取到的几个视频画面，这几个视频画面从左到右是按照时间顺序依次排序的。在图28中，按照从左至右的顺序对这几个视频画面进行排序1至7，则视频画面1、视频画面3和视频画面5来自于原始视频，而视频画面2、视频画面4和视频画面6来自于用户拍摄视频，而视频画面7是通过对原始视频中相应视频画面包含的目标角色进行换脸得到，即将目标角色的面部图像替换为用户的面部图像。由于在合拍视频的播放过程中，图28中的几个视频画面以在时间顺序上由左到右顺次呈现的，由于原始视频画面和用户拍摄视频穿插播放，因此该种视频合拍方案实现了原始视频和用户拍摄视频的基于场景融合。

图29是本申请实施例提供的一种视频生成装置的结构示意图。参见图29，该装置包括：

第一处理模块2901，被配置为获取针对视频合拍选项的第一触发操作，启动摄像头进行视频拍摄；

获取模块2902，被配置为基于第一视频获取提示消息；

第一显示模块2903，被配置为在视频拍摄过程中，在拍摄界面上显示提示消息；其中，所述提示消息用于提供指导提示；

第二处理模块2904，被配置为获取当前拍摄得到的第二视频；基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频。

本申请实施例提供的装置，会显示一个视频合拍选项；若后续获取到用户对该视频合拍选项的触发操作，则会自动启动摄像头进行视频拍摄，并在视频拍摄过程中自动显示基于第一视频获取到的提示消息，以此来引导用户快速且高质量地完成视频拍摄。比如在镜头呈现上和人物表演上能够达到较高的水平，同时还加快了视频拍摄的完成速度，节约了时间成本和人力成本。而在完成拍摄后，还会基于当前拍摄得到的第二视频对第一视频的视频内容进行处理，即合拍视频是通过对第一视频和第二视频进行内容上的融合得到的，这使得合拍视频具有良好的内容契合度，用户能够深度融入到视频制作中，提高了视频个性化程度。因此，该种视频生成方法不但能够取得优质视频制作效果，而且显著地降低了拍摄成本。

第三处理模块，被配置为获取针对所述N个角色选项中目标角色选项的第二触发操作，响应于所述第二触发操作，在所述第一视频中筛选出目标角色出现的M个视频片段；其中，M为正整数且M≥1。

在一种可能的实现方式中，所述装置还包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频生成装置在生成视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频生成装置与视频生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图30示出了本申请一个示例性实施例提供的计算机设备3000的结构框图。

该设备3000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备3000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，设备3000包括有：处理器3001和存储器3002。

处理器3001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器3001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器3001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器3001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器3001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器3002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器3002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器3002中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器3001所执行以实现本申请中方法实施例提供的视频生成方法。

在一些实施例中，设备3000还可选包括有：外围设备接口3003和至少一个外围设备。处理器3001、存储器3002和外围设备接口3003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口3003相连。具体地，外围设备包括：射频电路3004、触摸显示屏3005、摄像头3006、音频电路3007和电源3009中的至少一种。

外围设备接口3003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器3001和存储器3002。在一些实施例中，处理器3001、存储器3002和外围设备接口3003被集成在同一芯片或电路板上；在一些其他实施例中，处理器3001、存储器3002和外围设备接口3003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路3004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路3004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路3004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路3004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路3004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路3004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏3005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏3005是触摸显示屏时，显示屏3005还具有采集在显示屏3005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器3001进行处理。此时，显示屏3005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏3005可以为一个，设置设备3000的前面板；在另一些实施例中，显示屏3005可以为至少两个，分别设置在设备3000的不同表面或呈折叠设计；在再一些实施例中，显示屏3005可以是柔性显示屏，设置在设备3000的弯曲表面上或折叠面上。甚至，显示屏3005还可以设置成非矩形的不规则图形，也即异形屏。显示屏3005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件3006用于采集图像或视频。可选地，摄像头组件3006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件3006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路3007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器3001进行处理，或者输入至射频电路3004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备3000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器3001或射频电路3004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路3007还可以包括耳机插孔。

电源3009用于为设备3000中的各个组件进行供电。电源3009可以是交流电、直流电、一次性电池或可充电电池。当电源3009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备3000还包括有一个或多个传感器3010。该一个或多个传感器3010包括但不限于：加速度传感器3011、陀螺仪传感器3012、压力传感器3013、光学传感器3015以及接近传感器3016。

加速度传感器3011可以检测以设备3000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器3011可以用于检测重力加速度在三个坐标轴上的分量。处理器3001可以根据加速度传感器3011采集的重力加速度信号，控制触摸显示屏3005以横向视图或纵向视图进行用户界面的显示。加速度传感器3011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器3012可以检测设备3000的机体方向及转动角度，陀螺仪传感器3012可以与加速度传感器3011协同采集用户对设备3000的3D动作。处理器3001根据陀螺仪传感器3012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器3013可以设置在设备3000的侧边框和/或触摸显示屏3005的下层。当压力传感器3013设置在设备3000的侧边框时，可以检测用户对设备3000的握持信号，由处理器3001根据压力传感器3013采集的握持信号进行左右手识别或快捷操作。当压力传感器3013设置在触摸显示屏3005的下层时，由处理器3001根据用户对触摸显示屏3005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器3015用于采集环境光强度。在一个实施例中，处理器3001可以根据光学传感器3015采集的环境光强度，控制触摸显示屏3005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏3005的显示亮度；当环境光强度较低时，调低触摸显示屏3005的显示亮度。在另一个实施例中，处理器3001还可以根据光学传感器3015采集的环境光强度，动态调整摄像头组件3006的拍摄参数。

接近传感器3016，也称距离传感器，通常设置在设备3000的前面板。接近传感器3016用于采集用户与设备3000的正面之间的距离。在一个实施例中，当接近传感器3016检测到用户与设备3000的正面之间的距离逐渐变小时，由处理器3001控制触摸显示屏3005从亮屏状态切换为息屏状态；当接近传感器3016检测到用户与设备3000的正面之间的距离逐渐变大时，由处理器3001控制触摸显示屏3005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图30中示出的结构并不构成对设备3000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图31是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备3100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)3101和一个或一个以上的存储器3102，其中，所述存储器3102中存储有至少一条程序代码，所述至少一条程序代码由所述处理器3101加载并执行以实现上述各个方法实施例提供的视频生成方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端中的处理器执行以完成上述实施例中的视频生成方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述实施例中的视频生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取针对视频合拍选项的第一触发操作，在播放界面上显示第一视频包括的N个角色的选项，N为正整数且N≥2；

获取针对所述N个角色的选项中目标角色选项的第二触发操作，确定所述目标角色在所述第一视频中出现的时间点；

对确定的时间点进行关键帧标记得到视频打点信息；

根据所述视频打点信息和确定的时间点，在所述第一视频中切分出M个视频片段，M为正整数；

将每个所述视频片段输入人体关键点检测网络；

获取所述人体关键点检测网络输出的所述目标角色的人体关键点；

按照面部不同部位之间的相对位置关系，将所述人体关键点中的面部关键点进行连接，得到面部架构模型；根据所述面部架构模型，确定所述目标角色在每个所述视频片段中面部表情和面部朝向；

按照肢体不同部位之间的相对位置关系，将所述人体关键点中的肢体关键点进行连接，得到肢体架构模型；根据所述肢体架构模型，确定所述目标角色在每个所述视频片段中肢体动作；

获取每个所述视频片段中目标物的运动方向变化和大小变化；根据所述目标物在每个视频片段中的运动方向变化和大小变化，确定摄像头的摄像头拍摄方式；

对所述目标角色在每个所述视频片段中的语音数据进行识别，得到所述目标角色在每个所述视频片段中的角色对白；

启动摄像头进行视频拍摄；

基于所述第一视频获取提示消息；其中，所述提示消息用于提供拍摄指导提示；所述提示消息包括摄像头拍摄方式、人体姿态和角色对白中的一种或多种；所述摄像头拍摄方式包括摄像头的取景方式和运动方式，所述人体姿态包括所述面部表情、所述面部朝向和所述肢体动作中的多种；

在每个所述视频片段的拍摄过程中，在拍摄界面上显示与每个所述视频片段对应的提示消息；其中，当所述提示消息为摄像头拍摄方式时，在所述拍摄界面上显示所述摄像头拍摄方式的提示图标和提示文字；当所述提示消息为人体姿态时，在所述拍摄界面上显示所述人体姿态的提示图标和提示文字；当所述提示消息为角色对白时，在所述拍摄界面上显示所述角色对白；

获取当前拍摄得到的第二视频；

基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频；其中，响应于所述第一视频中不包括被选中的目标角色和其他角色的同框画面，以所述第二视频替换所述第一视频中包含所述目标角色的视频片段；响应于所述第一视频中包括所述目标角色和其他角色的同框画面，以所述第二视频中的用户面部图像替换所述同框画面中的目标角色面部图像；

在生成合拍视频后，显示所述合拍视频的预览画面、播放选项、播放进度条、发布选项以及视频修改选项。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述播放界面上显示每个所述视频片段的预览画面；

获取针对指定视频片段的预览画面的第三触发操作，响应于所述第三触发操作，播放所述指定视频片段。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

以置于顶层的显示方式，在所述拍摄界面上悬浮显示一个视频窗口；其中，所述视频窗口用于显示所述第一视频中与所述提示消息匹配的视频片段。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取针对所述播放选项的第四触发操作，响应于所述第四触发操作，播放所述合拍视频，并通过所述播放进度条动画显示所述合拍视频的播放进度；

获取针对所述视频修改选项的第五触发操作，响应于所述第五触发操作，对所述合拍视频执行修改处理。

5.根据权利要求1至4中任一项权利要求所述的方法，其特征在于，所述方法还包括：

响应于所述摄像头当前采集到的视频画面与当前显示的所述提示消息不匹配，在所述拍摄界面上显示错误提示消息；其中，所述错误提示消息用于引导用户重新进行视频拍摄。

6.一种视频生成装置，其特征在于，所述装置包括：

第二显示模块，被配置为获取针对视频合拍选项的第一触发操作，在播放界面上显示第一视频包括的N个角色的选项，N为正整数且N≥2；

第三处理模块，被配置为获取针对所述N个角色的选项中目标角色选项的第二触发操作，确定所述目标角色在所述第一视频中出现的时间点；对确定的时间点进行关键帧标记得到视频打点信息；根据所述视频打点信息和确定的时间点，在所述第一视频中切分出M个视频片段，M为正整数；

获取模块，被配置为将每个所述视频片段输入人体关键点检测网络；获取所述人体关键点检测网络输出的所述目标角色的人体关键点；按照面部不同部位之间的相对位置关系，将所述人体关键点中的面部关键点进行连接，得到面部架构模型；根据所述面部架构模型，确定所述目标角色在每个所述视频片段中面部表情和面部朝向；按照肢体不同部位之间的相对位置关系，将所述人体关键点中的肢体关键点进行连接，得到肢体架构模型；根据所述肢体架构模型，确定所述目标角色在每个所述视频片段中肢体动作；

所述获取模块，还被配置为获取每个所述视频片段中目标物的运动方向变化和大小变化；根据所述目标物在每个视频片段中的运动方向变化和大小变化，确定摄像头的摄像头拍摄方式；

所述获取模块，还被配置为对所述目标角色在每个所述视频片段中的语音数据进行识别，得到所述目标角色在每个所述视频片段中的角色对白；

第一处理模块，被配置为启动摄像头进行视频拍摄；基于第一视频获取提示消息；其中，所述提示消息用于提供拍摄指导提示；所述提示消息包括摄像头拍摄方式、人体姿态和角色对白中的一种或多种；所述摄像头拍摄方式包括摄像头的取景方式和运动方式，所述人体姿态包括所述面部表情、所述面部朝向和所述肢体动作中的多种；

第一显示模块，被配置在拍摄界面上显示与每个所述视频片段对应的提示消息；其中，当所述提示消息为摄像头拍摄方式时，在所述拍摄界面上显示所述摄像头拍摄方式的提示图标和提示文字；当所述提示消息为人体姿态时，在所述拍摄界面上显示所述人体姿态的提示图标和提示文字；当所述提示消息为角色对白时，在所述拍摄界面上显示所述角色对白；

第二处理模块，被配置为获取当前拍摄得到的第二视频；基于所述第二视频对所述第一视频的视频内容进行处理，得到合拍视频；其中，响应于所述第一视频中不包括被选中的目标角色和其他角色的同框画面，以所述第二视频替换所述第一视频中包含所述目标角色的视频片段；响应于所述第一视频中包括所述目标角色和其他角色的同框画面，以所述第二视频中的用户面部图像替换所述同框画面中的目标角色面部图像；

第四显示模块，被配置为在生成所述合拍视频后，显示所述合拍视频的预览画面、播放选项、播放进度条、发布选项以及视频修改选项。

7.根据权利要求6所述的装置，其特征在于，所述第二显示模块，还被配置为在所述播放界面上显示每个所述视频片段的预览画面；

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至9中任一项权利要求所述的装置，其特征在于，所述第一显示模块，还被配置为响应于所述摄像头当前采集到的视频画面与当前显示的所述提示消息不匹配，在所述拍摄界面上显示错误提示消息；其中，所述错误提示消息用于引导用户重新进行视频拍摄。

11.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至5中任一项权利要求所述的视频生成方法。

12.一种存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至5中任一项权利要求所述的视频生成方法。