CN117041664A

CN117041664A - 数字人视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN117041664A
Application number: CN202310988967.4A
Authority: CN
Inventors: 王凡祎; 苏婧文
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-11-10

Abstract

本申请实施例提供一种数字人视频生成方法、装置、电子设备及存储介质，该数字人视频生成方法包括：获取包含人脸的图像，获取人体动作序列；基于图像和人体动作序列，生成第一视频，第一视频包含N个视频帧；对第一视频中每个视频帧进行人脸检测，得到第一视频中每个视频帧的人脸掩膜；对图像进行人脸检测，得到图像的人脸掩膜；基于图像的人脸掩膜和音频语料，生成第二视频；第二视频包含N个视频帧，第二视频中的N个视频帧与第一视频中的N个视频帧一一对应；将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，得到数字人视频，可以降低数字人视频的制作成本。

Description

数字人视频生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种数字人视频生成方法、装置、电子设备及存储介质。

背景技术

数字人主播有着广泛的应用市场和巨大的潜在价值，目前有两种生成数字人视频的方式，一种是动嘴不动身体，另一种是身体和嘴一起动，前者与后者相比交互性差，但制作简单。后者在制作过程中需要录制一段主播的视频，成本较高。

发明内容

本申请实施例提供一种数字人视频生成方法、装置、电子设备及存储介质，可以降低数字人视频的制作成本。

本申请实施例的第一方面提供了一种数字人视频生成方法，包括：

获取包含人脸的图像，获取人体动作序列；

基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；

对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；

对所述图像进行人脸检测，得到所述图像的人脸掩膜；

基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；

将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。

本申请实施例的第二方面提供了一种数字人视频生成装置，包括：

获取单元，用于获取包含人脸的图像，获取人体动作序列；

生成单元，用于基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；

检测单元，用于对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；

所述检测单元，还用于对所述图像进行人脸检测，得到所述图像的人脸掩膜；

所述生成单元，还用于基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；

替换单元，用于将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。

本申请实施例的第三方面提供了一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如本申请实施例第一方面中的步骤指令。

本申请实施例的第四方面提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

本申请实施例的第五方面提供了一种计算机程序产品，其中，上述计算机程序产品包括计算机程序，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

本申请实施例中，获取包含人脸的图像，获取人体动作序列；基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；对所述图像进行人脸检测，得到所述图像的人脸掩膜；基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。本申请实施例中，基于图像和人体动作序列，生成第一视频，第一视频可以包含人体的身体动作，基于图像的人脸掩膜和音频语料，生成第二视频，第二视频可以包含人体的嘴唇随音频语料的变化，将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，使得到数字人视频既包含人体的身体动作，又包含人脸的嘴唇随音频语料的变化，只需要一张包含人脸的图像，即可生成身体和嘴唇联动的数字人视频，可以降低数字人视频的制作成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数字人视频生成方法的流程示意图；

图2是本申请实施例提供的一种深度图序列的示意图；

图3是本申请实施例提供的一种骨骼关键点序列的示意图；

图4是本申请实施例提供的一种数字人视频生成方法的具体流程示意图；

图5为本申请实施例提供的一种数字人视频生成装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括手机、服务器、平板电脑、个人电脑、计算机等具有计算能力和数据处理能力的设备。

请参阅图1，图1是本申请实施例提供的一种数字人视频生成方法的流程示意图。如图1所示，该方法包括如下步骤。

101，电子设备获取包含人脸的图像，获取人体动作序列。

本申请实施例中，包含人脸的图像，该图像可以包含人的部分肢体或者全部肢体。例如，该图像可以是包含人脸的全身图像或者半身图像(即，上半身图像)。该图像中的人脸可以是正脸。步骤101中，获取包含人脸的图像，指的是一张图像。本申请实施例只需要一张图像，即可生成数字人视频。

其中，包含人脸的图像，可以是拍摄网络主播的包含人脸的图像，也可以是从网络上获取的经过授权的包含人脸的图像。电子设备可以从相册或者存储器中获取包含人脸的图像，也可以从网络上获取包含人脸的图像。

人体动作序列，可以是包含人体的全身肢体的动作序列，也可以是包含人体的部分肢体的动作序列。人体动作序列包含了人体的身体动作的变化。人体动作序列，可以预先制作，可以在步骤101之前就制作完成，存储在电子设备的存储器(比如，非易失性存储器)中，在生成数字人视频时，可以从存储器中获取该人体动作序列。具体的，可以从一段包含人体全身肢体动作的视频中提取人体动作序列。该视频可以是录制得到，也可以是网络视频。该视频需满足人像主体占整个画幅的比例较大，人的全身都在画幅中，视频中的人体动作具有连贯性。

在每次数字人视频生成时，采用的人体动作序列可以相同，也可以不同。可以预先制作一个人体动作序列，将该人体动作序列应用到多个图像的数字人视频生成中，从而进一步降低数字人视频的制作成本。

其中，视频中的人像可以保持正视前方，生成的数字人视频可以用于使用数字人视频进行直播的场景。

可选的，人体动作序列包括深度图序列或者骨骼关键点序列。

深度图(depth map)序列，是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道组成的序列。其中，深度图类似于灰度图像，深度图的每个像素值是传感器距离物体的实际距离。请参阅图2，图2是本申请实施例提供的一种深度图序列的示意图。如图2所示，深度图序列包含N个序列，每个序列可以对应该包含人体全身肢体动作的视频中每一帧图像的深度图。图2的深度图序列包含了人体的身体动作的变化。深度图序列可以是动态帧深度图序列。

骨骼关键点(skeleton key point)序列，即人体关键点坐标。请参阅图3，图3是本申请实施例提供的一种骨骼关键点序列的示意图。如图3所示，骨骼关键点序列包含N个序列，每个序列可以对应该包含人体全身肢体动作的视频中每一帧图像的骨骼关键点。图3的骨骼关键点序列包含了人体的身体动作的变化。

可选的，所述人体动作序列基于包含人体全身的视频得到。

本申请实施例的人体动作序列，是包含人体的全身肢体的动作序列。可以满足各种数字人视频(半身或全身的数字人视频)的制作需求。

在人体动作序列是深度图序列时，可以基于密集姿态估计算法从上述包含人体全身肢体动作的视频中提取。密集姿态估计算法，是一个基于人体表面理解的视觉识别的算法。例如，密集姿态估计算法可以是Densepose算法。

在人体动作序列是骨骼关键点序列时，可以基于人体姿态估计算法从上述包含人体全身肢体动作的视频中提取。人体姿态估计算法，是对“人体”的姿态的关键点(比如头，左手，右手、左脚、右脚等)的位置估计。例如，人体姿态估计算法可以是Openpose算法。

102，电子设备基于图像和人体动作序列，生成第一视频，第一视频包含N个视频帧。

本申请实施例中，基于一张图像和人体动作序列，即可生成第一视频。第一视频是基于上述包含人脸的图像和人体动作序列生成的，由于人体动作序列包含了人体的身体动作的变化，使得第一视频可以包含人体的身体动作的变化。

其中，人体动作序列的序列数量等于N，人体动作序列包括N个序列(如图2或图3所示的第1序列、第2序列、…第N序列)。第一视频包含N个视频帧，该N个视频帧中的每个视频帧与人体动作序列中每个序列相对应。人体动作序列的序列数量等于N，也可以理解为人体动作序列的帧数等于N。

可选的，步骤102中，电子设备基于图像和人体动作序列，生成第一视频，可以包括如下步骤：

电子设备基于第一视频合成算法、所述图像和所述人体动作序列，生成以所述图像为主体，动作与所述人体动作序列一致的第一视频。

本申请实施例中，可以采用第一视频合成算法，将包含人脸的图像和人体动作序列合成第一视频。第一视频以上述包含人脸的图像为主体，动作与人体动作序列一致。

第一视频合成算法可以合成画面丝滑的视频。例如，第一视频合成算法可以是Dreampose算法。可以采用丝滑插帧算法优化第一视频的帧间平滑性。

103，电子设备对第一视频中每个视频帧进行人脸检测，得到第一视频中每个视频帧的人脸掩膜。

本申请实施例中，可以采用人脸检测算法对第一视频中每个视频帧进行人脸检测，得到第一视频中每个视频帧的人脸掩膜。

本申请实施例对人脸检测算法不做限制，例如，人脸检测算法可以是双镜头人脸检测器(dual shot face detector，DSFD)算法。

每个视频帧的人脸掩膜，是每个视频帧中包含人脸的区域。例如，可以检测到每个视频帧中的人脸所在的矩形区域，将该矩形区域作为该视频帧的人脸掩膜。

104，电子设备对图像进行人脸检测，得到图像的人脸掩膜。

本申请实施例中，电子设备对上述步骤101中的包含人脸的图像进行人脸检测，得到图像的人脸掩膜。

可以采用人脸检测算法对上述步骤101中的包含人脸的图像进行人脸检测，得到图像的人脸掩膜。

本申请实施例对人脸检测算法不做限制，例如，该人脸检测算法可以是DSFD算法。

包含人脸的图像的人脸掩膜，是包含人脸的图像中包含人脸的区域。例如，可以检测到包含人脸的图像中的人脸所在的矩形区域，将该矩形区域作为该包含人脸的图像的人脸掩膜。

105，电子设备基于图像的人脸掩膜和音频语料，生成第二视频；第二视频包含N个视频帧，第二视频中的N个视频帧与第一视频中的N个视频帧一一对应。

本申请实施例中，基于图像的人脸掩膜和音频语料，生成第二视频，第二视频可以包含人体的嘴唇随音频语料的变化。

音频语料，该音频语料可以是预先准备的音频，例如，可以是预先录音的一段音频。音频语料可以是播报商品的语料、介绍商品的语料、主播或主题任务的自我介绍的语料等。

音频语料可以是经过安全审核的语料。可以基于语言大模型对音频语料的播报内容的内容合规与安全的审核。

可选的，音频语料的时长与所述第二视频的帧率之积等于N。第二视频的时长等于该音频语料的时长。如果音频语料的时长为T，第二视频的帧率为F，则T＝N/F。

其中，步骤101中人体动作序列的序列数量等于第二视频包含的视频帧的数量。步骤101中人体动作序列的序列数量等于N，第二视频包含的视频帧的数量等于N。

本申请实施例中，可以先确定需要播报的音频语料的时长，再确定需要的人体动作序列的序列数量。比如，音频语料对应的播放时长是5秒，如果帧率是30帧/秒，则需要150帧的人体动作序列。

可选的，步骤105中，电子设备基于图像的人脸掩膜和音频语料，生成第二视频，可以包括如下步骤：

电子设备基于第二视频合成算法、所述图像的人脸掩膜和音频语料，生成第二视频，所述第二视频中的唇形、嘴型和表情，与所述音频语料相对应。

第二视频合成算法可以合成唇形可控的视频。第二视频合成算法可以是音频驱动算法。例如，音频驱动算法可以是Sadtalker算法。

其中，步骤102在步骤101之后执行，步骤104在步骤101之后执行。步骤102至步骤103，与步骤104至步骤105的执行先后顺序不做限定。比如，步骤102至步骤103，与步骤104至步骤105，可以并行执行；或者，步骤102至步骤103，在步骤104至步骤105之前执行；或者，步骤102至步骤103，在步骤104至步骤105之后执行。

106，电子设备将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，得到数字人视频。

本申请实施例中，在得到第一视频后，可以将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，得到数字人视频。第一视频中每个视频帧的人脸掩膜，用于定位第一视频中每个视频帧的人脸位置，将第一视频中的每个视频帧的人脸位置用第二视频中对应的视频帧进行替换，使得到的数字人视频既包含人体的身体动作，又包含人脸的嘴唇随音频语料的变化，可生成身体和嘴唇联动的数字人视频。

第一视频帧包括N个视频帧，第二视频帧包括N个视频帧。例如，N＝150，则第一视频帧中的第一个视频帧的人脸掩膜用第二视频中的第一个视频帧进行替换，第一视频帧中的第二个视频帧的人脸掩膜用第二视频中的第二个视频帧进行替换，以此类推，直至第一视频帧中的第N个视频帧的人脸掩膜用第二视频中的第N个视频帧进行替换，即可得到数字人视频。与第一视频相比，数字人视频中每一帧的人脸掩膜用第二视频中对应的视频帧进行替换。

可选的，第一视频和第二视频的帧率相同，则第一视频和第二视频的时长相同。在生成第一视频时，可以设置第一视频的帧率，在生成第二视频时，可以设置第二视频的帧率。设置第一视频和第二视频的帧率相同，第一视频和第二视频的时长相同，包含的视频帧的数量相同，可以通过步骤106实现替换，得到动作精准可控，画面丝滑的数字人视频。

步骤106得到的数字人视频，可以用于主题商店中的动态语音壁纸生成，数字人(比如，2D数字人)播报视频生成等。

本申请实施例中，基于图像和人体动作序列，生成第一视频，第一视频可以包含人体的身体动作，基于图像的人脸掩膜和音频语料，生成第二视频，第二视频可以包含人体的嘴唇随音频语料的变化，将第一视频中每个视频帧的人脸掩膜用第二视频中对应的视频帧进行替换，使得到数字人视频既包含人体的身体动作，又包含人脸的嘴唇随音频语料的变化，只需要一张包含人脸的图像，即可生成身体和嘴唇联动的数字人视频，可以降低数字人视频的制作成本。

可选的，所述人体动作序列的第一个序列和最后一个序列相同。

本申请实施例中，人体动作序列的第一个序列和最后一个序列相同，可以使得生成的数字人视频是可以循环播放的视频。比如，动态帧深度图序列的第一帧和最后一帧是相同的。骨骼关键点序列的第一帧和最后一帧是相同的。

请参阅图4，图4是本申请实施例提供的一种数字人视频生成方法的具体流程示意图。如图4所示，该方法包括如下步骤。

401，输入主播的一张参考图像A到Dreampose算法。

本申请实施例中，图像A可以是全身图像或者半身图像，本申请实施例中以全身图像为例。

其中，Dreampose算法可以是国际计算机视觉与模式识别会议(IEEE conferenceon computer vision and pattern r，CVPR)上2023年发表的论文中的算法。

402，输入预先制作好的人体动作序列B到Dreampose算法。

其中，人体动作序列包括动态帧深度图序列或者骨骼关键点序列。动态帧深度图序列可以基于Densepose算法从一段视频中提取。骨骼关键点序列可以基于Openpose算法从一段视频中提取。上述视频中的人像需要保持正视前方(直播过程需要正视观众)。如图4的左侧，图4中以动态帧深度图序列输入为例。

403，Dreampose算法基于输入的A和B，生成以A为主体，动作与B一致的视频C。

404，对视频C中每一帧图像做人脸检测，得到每一帧的人脸掩膜D。

本申请实施例中的人脸检测算法不做限制，本申请实施例使用DSFD算法。

405，对图A进行人脸检测，得到图A的人脸检测结果。

图A的人脸检测结果，可以是图A的人脸掩膜。

406，将图A人脸检测结果和音频语料一同输送给Sadtalker算法，输出音频驱动的唇形嘴型、面部表情严格对应的视频E。

本申请实施例中，Sadtalker算法可以是CVPR上2023年发表的论文中的算法。

407，基于人脸掩膜D，将视频C中每一帧的人脸掩膜D用视频E中对应的一帧进行替换，得到精准可控、画面丝滑、可连续播放的不限时长的2D数字人视频。

本申请实施例中，可以基于Dreampose算法实现姿态高度可控且可循环播放的2D数字人主播视频C，Dreampose算法可实现输入一张主播全身照A和动态帧深度图序列B，输出与B动作一致的视频C。可以基于人脸检测算法得到视频序列中每一帧的人脸掩膜，以便之后的语音播报内容和唇形口型对应。可以基于Sadtalker算法实现演播稿到数字人语音播报，可以保证唇形口型与播报内容一致。

本申请实施例提出的一种基于Dreampose和Sadtalker算法的动作高度可控定制化2D数字人解决方案，仅需一张图像，即可实现主题人物、主播的高质量丝滑播报视频生成，是AIGC落地(Dreampose应用了Diffusion生成算法)应用的一种可行方案，可以应用于主题商店中的动态语音壁纸生成，2D数字人播报视频生成等，经济潜力巨大。AIGC指的是生成式人工智能(artificial intelligence generated content，AIGC)。

本申请实施例提出了一种只需要一张图像的动作高度可控定制化2D数字人解决方案。可实现2D数字人主播的批量定制，具有重要的应用和经济价值。

本申请实施例中，生成的2D数字人视频中，虚拟主播动作丝滑、不卡帧，虚拟主播口型、面部表情与播报内容高度耦合，生成的内容播报视频动作、表情自然。

本申请实施例中，可以采用丝滑插帧算法优化帧间平滑性，可以基于语言大模型自动生成播报内容的内容合规与安全自动审核，数字人视频中的虚拟人表情与动作自然，不与播报内容违和。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图5，图5为本申请实施例提供的一种数字人视频生成装置的结构示意图，该数字人视频生成装置500应用于电子设备，该数字人视频生成装置500可以包括获取单元501、生成单元502、检测单元503和替换单元504，其中：

所述获取单元501，用于获取包含人脸的图像，获取人体动作序列；

所述生成单元502，用于基于所述图像和所述人体动作序列，生成第一视频，所述第一视频包含N个视频帧；

所述检测单元503，用于对所述第一视频中每个视频帧进行人脸检测，得到所述第一视频中每个视频帧的人脸掩膜；

所述检测单元503，还用于对所述图像进行人脸检测，得到所述图像的人脸掩膜；

所述生成单元502，还用于基于所述图像的人脸掩膜和音频语料，生成第二视频；所述第二视频包含N个视频帧，所述第二视频中的N个视频帧与所述第一视频中的N个视频帧一一对应；

所述替换单元504，用于将所述第一视频中每个视频帧的人脸掩膜用所述第二视频中对应的视频帧进行替换，得到数字人视频。

可选的，所述人体动作序列包括深度图序列或者骨骼关键点序列。

可选的，所述人体动作序列基于包含人体全身的视频得到。

可选的，所述生成单元502基于所述图像和所述人体动作序列，生成第一视频，包括：

基于第一视频合成算法、所述图像和所述人体动作序列，生成以所述图像为主体，动作与所述人体动作序列一致的第一视频。

可选的，所述生成单元502基于所述图像的人脸掩膜和音频语料，生成第二视频，包括：

基于第二视频合成算法、所述图像的人脸掩膜和音频语料，生成第二视频，所述第二视频中的唇形、嘴型和表情，与所述音频语料相对应。

可选的，所述音频语料的时长与所述第二视频的帧率之积等于N。

可选的，所述人体动作序列的序列数量等于N，所述人体动作序列的第一个序列和最后一个序列相同。

其中，本申请实施例中的生成单元502、检测单元503和替换单元504可以是电子设备中的处理器。获取单元501、可以是电子设备中的通信模块。

请参阅图6，图6是本申请实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备600包括处理器601和存储器602，处理器601、存储器602可以通过通信总线603相互连接。通信总线603可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。通信总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。存储器602用于存储计算机程序，计算机程序包括程序指令，处理器601被配置用于调用程序指令，上述程序包括用于执行图1或图4所示的方法中的部分或全部步骤。

处理器601可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

存储器602可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

电子设备600还可以包括通信模块，通信模块可以包括通信接口、天线等通用部件。

本申请实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种数字人视频生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在申请明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器、随机存取器、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数字人视频生成方法，其特征在于，包括：

获取包含人脸的图像，获取人体动作序列；

对所述图像进行人脸检测，得到所述图像的人脸掩膜；

2.根据权利要求1所述的方法，其特征在于，所述人体动作序列包括深度图序列或者骨骼关键点序列。

3.根据权利要求1所述的方法，其特征在于，所述人体动作序列基于包含人体全身的视频得到。

4.根据权利要求1所述的方法，其特征在于，所述基于所述图像和所述人体动作序列，生成第一视频，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述图像的人脸掩膜和音频语料，生成第二视频，包括：

6.根据权利要求1所述的方法，其特征在于，所述音频语料的时长与所述第二视频的帧率之积等于N。

7.根据权利要求1～6任一项所述的方法，其特征在于，所述人体动作序列的序列数量等于N，所述人体动作序列的第一个序列和最后一个序列相同。

8.一种数字人视频生成装置，其特征在于，包括：

获取单元，用于获取包含人脸的图像，获取人体动作序列；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～7任一项所述的方法。