CN117671093A

CN117671093A - 数字人视频制作方法、装置、设备及存储介质

Info

Publication number: CN117671093A
Application number: CN202311623954.3A
Authority: CN
Inventors: 苏朋杨
Original assignee: Shanghai Jitu Technology Co ltd
Current assignee: Shanghai Jitu Technology Co ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-03-08

Abstract

本发明涉及视频领域，公开了一种数字人视频制作方法、装置、设备及存储介质。该方法包括：获取第一数字人视频，并将第一数字人视频进行对齐分割，得到第二数字人视频；根据第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频；根据第三数字人视频及第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频；将第四数字人视频的视频帧画面贴回到所述第一数字人视频上，得到目标数字人视频。在本发明实施例中，能无须对每个数字人进行定制化训练，模型泛化性很强，而且无须调整驱动的数字人的清晰度，从而提高数字人视频制作的效率。

Description

数字人视频制作方法、装置、设备及存储介质

技术领域

本发明涉及视频领域，尤其涉及一种数字人视频制作方法、装置、设备及存储介质。

背景技术

数字人，是信息科学与生命科学融合的产物，是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真，通过建立多学科和多层次的数字模型以达到对人体从微观到宏观的精确模拟。随着数字媒体的快速发展，特别是数字人的制作过程中，方便快速并且稳定驱动数字人成为非常重要的挑战。

现有的数字人算法基本都需要进行定制化的训练，比如，用户要驱动一个新的数字人，那就需要拍一段标准的说话视频来进行微调训练，训练的过程往往也需要半天到一天的时间，这就导致数字人制作效率低。

发明内容

本发明的主要目的在于解决数字人制作效率低的技术问题。

本发明第一方面提供了一种数字人视频制作方法，所述数字人视频制作方法包括：

获取第一数字人视频，并将所述第一数字人视频进行对齐分割，得到第二数字人视频，其中，所述第一数字人视频是闭嘴的全身数字人视频，所述第二数字人视频是闭嘴的半身数字人视频；

根据所述第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频，其中，所述第三数字人视频是说话的半身数字人视频；

根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频，所述第四数字人视频是驱动第二数字人视频中的人物嘴型和半身动作与所述第三数字人视频一致得到的数字人视频；

将所述第四数字人视频的视频帧画面贴回到所述第一数字人视频上，得到目标数字人视频。

可选的，在本发明第一方面的第一种实现方式中，所述获取第一数字人视频，并将所述第一数字人视频进行对齐分割，得到第二数字人视频包括：

获取第一数字人视频，并通过人脸检测方法，识别出所述第一数字人视频中的人脸关键点；

根据所述人脸关键点，得到所述第一数字人视频中的人物半身区域；

根据所述人物半身区域，将所述第一数字人视频进行对齐分割，得到第二数字人视频。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频包括：

获取所述第三数字人视频及所述第二数字人视频的视频序列帧；

取出所述视频序列帧中的首个视频帧，并根据所述第三数字人视频的首个视频帧，通过动作驱动同步模型驱动所述第二数字人视频的首个视频帧；

所述第二数字人视频的首个视频帧被驱动后，取出所述视频序列帧中的下个视频帧，并根据所述第三数字人视频的下个视频帧，通过动作驱动同步模型驱动所述第二数字人视频的下个视频帧，直至所述第二数字人视频的视频序列帧中的所有视频帧被驱动完毕，得到第四数字人视频。

可选的，在本发明第一方面的第三种实现方式中，所述取出所述视频序列帧中的首个视频帧，并根据所述第三数字人视频的首个视频帧，通过动作驱动同步模型驱动所述第二数字人视频的首个视频帧包括：

取出所述视频序列帧中的首个视频帧；

根据所述第三数字人视频的首个视频帧、以及所述第二数字人视频的首个视频帧，通过动作驱动同步模型，生成多组关键点；

根据所述多组关键点，通过TPS变换驱动所述第二数字人视频的首个视频帧。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频之前，还包括：

对所述第三数字人视频进行平滑处理，以解决所述第三数字人视频中的嘴型抖动，得到平滑处理后所述第三数字人视频的视频序列帧。

可选的，在本发明第一方面的第五种实现方式中，所述对所述第三数字人视频进行平滑处理包括：

获取所述第三数字人视频中的视频序列帧；

根据所述视频序列帧中每个视频帧对应的前后视频帧关键点位置，对每个视频帧关键点位置坐标进行平均取值，以对所述第三数字人视频进行平滑处理。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频包括：

根据预设语音信息，生成语音特征块；

根据所述语音特征块、所述第二数字人视频及预设音频图像对之间的映射关系，通过语音驱动人脸模型，得到第三数字人视频。

本发明第二方面提供了一种数字人视频制作设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述数字人视频制作设备执行上述的数字人视频制作方法。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的数字人视频制作方法。

在本发明实施例中，获取第一数字人视频，并将所述第一数字人视频进行对齐分割，得到第二数字人视频，其中，所述第一数字人视频是闭嘴的全身数字人视频，所述第二数字人视频是闭嘴的半身数字人视频；根据所述第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频，其中，所述第三数字人视频是说话的半身数字人视频；根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频，所述第四数字人视频是驱动第二数字人视频中的人物嘴型和半身动作与所述第三数字人视频一致得到的数字人视频；将所述第四数字人视频的视频帧画面贴回到所述第一数字人视频上，得到目标数字人视频。本发明中，根据第二数字人视频及预设语音信息，通过语音驱动人脸模型，能让第二数字人视频人物说出预设语音信息，得到第三数字人视频，并通过动作驱动同步模型，使得第二数字人视频中的人物嘴型和半身动作与第三数字人视频一致，得到第四数字人视频，将第四数字人视频的视频帧画面贴回到第一数字人视频上，得到目标数字人视频，能无须对每个数字人进行定制化训练，模型泛化性很强，而且无须调整驱动的数字人的清晰度，从而提高数字人视频制作的效率。

附图说明

图1为本发明实施例中数字人视频制作方法的一个实施例示意图；

图2为本发明实施例中数字人视频制作装置的一个实施例示意图；

图3为本发明实施例中数字人视频制作设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种数字人视频制作方法、装置、设备及存储介质。

下面将参照附图更详细地描述本发明公开的实施例。虽然附图中显示了本发明公开的某些实施例，然而应当理解的是，本发明公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本发明公开的附图及实施例仅用于示例性作用，并非用于限制本发明公开的保护范围。

在本发明公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中数字人视频制作方法的一个实施例包括：

S100，获取第一数字人视频，并将第一数字人视频进行对齐分割，得到第二数字人视频。

在本实施例中，需要通过数字人视频制作系统，让数字人视频中的静止人物动作说出指定语音。首先，用户通过视频制作终端界面生成数字人视频制作请求，并将数字人视频制作请求发送至服务器，服务器加载数字人视频制作系统，获取第一数字人视频，其中，第一数字人视频是闭嘴的全身数字人视频，然后将第一数字人视频进行对齐分割，得到第二数字人视频，其中，第二数字人视频是闭嘴的半身数字人视频，以方便从数字人视频中获取人物的嘴型。

S200，根据第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频。

在本实施例中，首先用户输入一段语音到数字人视频制作系统，然后系统将此语音信息和第二数字人视频输入到语音驱动人脸模型，输出得到第三数字人视频，其中，第三数字人视频是说话的半身数字人视频，本发明中语音驱动人脸模型使用的是开源的公共模型wav2lip。这里也可以使用其他的开源模型，只要保证音唇同步好就可以，嘴型抖动也没关系。这里要求第二数字人视频为闭嘴视频，是因为wav2lip对于闭嘴视频的音唇同步效果很好，可选的，如果采用的数字人技术可以在不闭嘴的前提下就生成很好的说话人视频，那么准备“闭嘴”的这一要求可以省略。

S300，根据第三数字人视频及第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频。

在本实施例中，使用生成的第二数字人视频和第三数字人视频做动作同步驱动，使得第二数字人视频中的人物嘴型和半身动作与第三数字人视频一致，具体地，根据第三数字人视频的视频序列帧，通过动作驱动同步模型，驱动第二数字人视频的视频序列帧，得到第四数字人视频，其中，本发明中使用的动作驱同步模型是基于Thin-Plate-Spline-Motion-Model训练的高分辨率动作同步模型，能够支持1920X1080分辨率的全身数字人，可选的，公开的低分辨率也可以使用，但是低分辨率生成的嘴型和身体模糊，贴回全身时瑕疵很大。

S400，将第四数字人视频的视频帧画面贴回到第一数字人视频上，得到目标数字人视频。

在本实施例中，将生成的半身第四数字人视频的视频帧画面贴回到第一数字人视频上，由于生成的动作，是根据第一数字人视频的动作来驱动的，所以贴回的时候不会有什么瑕疵，这主要是因为把动作同步的单照片输入，改为了视频帧输入，使得每一次同步的动作迁移，都是基于第一数字人视频的每一帧上进行细微的操作。如果只采取第二数字人视频的第一帧作为模型输入的话，即单照片驱动，每一次同步的动作迁移，都会导致第四数字人视频贴回第一数字人视频的不匹配程度加深。

在本发明第一方面一种可选的实施方式中，获取第一数字人视频，并将第一数字人视频进行对齐分割，得到第二数字人视频包括：

获取第一数字人视频，并通过人脸检测方法，识别出第一数字人视频中的人脸关键点；根据人脸关键点，得到第一数字人视频中的人物半身区域；根据人物半身区域，将第一数字人视频进行对齐分割，得到第二数字人视频。

在本实施例中，需要把一段用户闭嘴的第一数字人视频做对齐分割，首先使用人脸检测方法，检测出第一数字人视频中的人脸关键点，对应的人脸检测方法有dlib，yolo等经典神经网络，进一步地，本发明采用的是yolo神经网络；然后根据人脸关键点，找到人物半身区域，将人物半身区域对齐分割，得到第二数字人视频。

在本发明第一方面一种可选的实施方式中，根据第三数字人视频及第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频包括：

获取第三数字人视频及第二数字人视频的视频序列帧；取出视频序列帧中的首个视频帧，并根据第三数字人视频的首个视频帧，通过动作驱动同步模型驱动第二数字人视频的首个视频帧；第二数字人视频的首个视频帧被驱动后，取出视频序列帧中的下个视频帧，并根据第三数字人视频的下个视频帧，通过动作驱动同步模型驱动第二数字人视频的下个视频帧，直至第二数字人视频的视频序列帧中的所有视频帧被驱动完毕，得到第四数字人视频。

在本实施例中，由于第三数字人视频是通过第二数字人视频得到的，所以可以将第三数字人视频的视频序列帧与第二数字人视频的视频序列帧一一对应驱动，具体的，先取出第三数字人视频的视频序列帧与第二数字人视频的视频序列帧中的首个视频帧，并根据第三数字人视频的首个视频帧，通过动作驱动同步模型驱动第二数字人视频的首个视频帧，首个视频帧驱动完成后，取出第三数字人视频的视频序列帧与第二数字人视频的视频序列帧中的下个视频帧，重复上述驱动步骤，直至第二数字人视频的视频序列帧中的所有视频帧被驱动完毕，得到第四数字人视频。

在本发明第一方面一种可选的实施方式中，取出视频序列帧中的首个视频帧，并根据第三数字人视频的首个视频帧，通过动作驱动同步模型驱动第二数字人视频的首个视频帧包括：

取出视频序列帧中的首个视频帧；根据第三数字人视频的首个视频帧、以及第二数字人视频的首个视频帧，通过动作驱动同步模型，生成多组关键点；根据多组关键点，通过TPS变换驱动第二数字人视频的首个视频帧。

在本实施例中，根据第三数字人视频的首个视频帧、以及第二数字人视频的首个视频帧，通过动作驱动同步模型，生成N对关键点keypoints，通过TPS变换，每N对keypoints通过计算得到K组仿射变换的参数，推理时使用K组不同的仿射变换加权来模拟变换过程，从而改变第二数字人视频的首个视频帧的keypoints得到生成图像的keypoints。

在本发明第一方面一种可选的实施方式中，根据第三数字人视频及第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频之前，还包括：

对第三数字人视频进行平滑处理，以解决第三数字人视频中的嘴型抖动，得到平滑处理后第三数字人视频的视频序列帧。

在本实施例中，wav2lip生成的嘴型，音唇同步非常好，但是每个嘴型之间的衔接很突兀(即抖动的很厉害)，所以在动作同步的时候，对生成的第三数字人视频进行了平滑操作，以做到对嘴型的平滑优化。如果生成的第三数字人嘴型抖动的很厉害，那么控制嘴型张幅的两个点的坐标位置会变得十分剧烈，只需要让控制嘴型的两个坐标点的变化变得平缓，那么就能达到去除嘴型抖动的一个作用。

在本发明第一方面一种可选的实施方式中，对第三数字人视频进行平滑处理包括：

获取第三数字人视频中的视频序列帧；根据视频序列帧中每个视频帧对应的前后视频帧关键点位置，对每个视频帧关键点位置坐标进行平均取值，以对第三数字人视频进行平滑处理。

在本实施例中，采用信号处理领域里面的平滑滤波来实现平滑处理，具体地，通过python的scipy.signal信号波处理函数，将第三数字人视频中的视频序列帧的关键点都收集起来，经过平滑操作后，当前帧的关键点位置坐标会根据前后帧的关键点位置进行一个平均取值。这样一来，wav2lip的第二数字人视频造成的嘴部抖动就变小了。

在本发明第一方面一种可选的实施方式中，根据第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频包括：

根据预设语音信息，生成语音特征块；根据语音特征块、第二数字人视频及预设音频图像对之间的映射关系，通过语音驱动人脸模型，得到第三数字人视频。

在本实施例中，wav2lip模型的训练分为两个阶段，第一阶段是专家音频和口型同步判别器预训练；第二阶段是GAN网络训练。具体地，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。接下来，wav2lip使用GAN来学习音频图像对之间的映射关系。在应用中，用户输入需要的语音信息，系统根据预设语音信息，生成语音特征块，然后将语音特征块和第二数字人视频输入到语音驱动人脸模型，通过训练得到的音频图像对之间的映射关系，得到第三数字人视频。

参见图2，本发明第二方面提供了一种数字人视频制作装置，所述数字人视频制作装置包括：

对齐分割模块100，用于获取第一数字人视频，并将第一数字人视频进行对齐分割，得到第二数字人视频，其中，第一数字人视频是闭嘴的全身数字人视频，第二数字人视频是闭嘴的半身数字人视频；

第三数字人视频获取模块200，用于根据第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频，其中，第三数字人视频是说话的半身数字人视频；

第四数字人视频获取模块300，用于根据第三数字人视频及第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频，第四数字人视频是驱动第二数字人视频中的人物嘴型和半身动作与第三数字人视频一致得到的数字人视频；

目标数字人视频获取模块400，用于将第四数字人视频的视频帧画面贴回到第一数字人视频上，得到目标数字人视频。

在本发明第二方面一种可选的实施方式中，对齐分割模块100还用于获取第一数字人视频，并通过人脸检测方法，识别出第一数字人视频中的人脸关键点；根据人脸关键点，得到第一数字人视频中的人物半身区域；根据人物半身区域，将第一数字人视频进行对齐分割，得到第二数字人视频。

在本发明第二方面一种可选的实施方式中，第四数字人视频获取模块300还用于获取第三数字人视频及第二数字人视频的视频序列帧；取出视频序列帧中的首个视频帧，并根据第三数字人视频的首个视频帧，通过动作驱动同步模型驱动第二数字人视频的首个视频帧；第二数字人视频的首个视频帧被驱动后，取出视频序列帧中的下个视频帧，并根据第三数字人视频的下个视频帧，通过动作驱动同步模型驱动第二数字人视频的下个视频帧，直至第二数字人视频的视频序列帧中的所有视频帧被驱动完毕，得到第四数字人视频。

在本发明第二方面一种可选的实施方式中，第四数字人视频获取模块300还用于取出视频序列帧中的首个视频帧；根据第三数字人视频的首个视频帧、以及第二数字人视频的首个视频帧，通过动作驱动同步模型，生成多组关键点；根据多组关键点，通过TPS变换驱动第二数字人视频的首个视频帧。

在本发明第二方面一种可选的实施方式中，数字人视频制作装置还包括：

平滑处理模块，用于对第三数字人视频进行平滑处理，以解决第三数字人视频中的嘴型抖动，得到平滑处理后第三数字人视频的视频序列帧。

在本发明第二方面一种可选的实施方式中，平滑处理模块还用于获取第三数字人视频中的视频序列帧；根据视频序列帧中每个视频帧对应的前后视频帧关键点位置，对每个视频帧关键点位置坐标进行平均取值，以对第三数字人视频进行平滑处理。

在本发明第二方面一种可选的实施方式中，第三数字人视频获取模块200还用于根据预设语音信息，生成语音特征块；根据语音特征块、第二数字人视频及预设音频图像对之间的映射关系，通过语音驱动人脸模型，得到第三数字人视频。

图3是本发明实施例提供的一种数字人视频制作设备的结构示意图，该数字人视频制作设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数字人视频制作设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在数字人视频制作设备500上执行存储介质530中的一系列指令操作。

基于数字人视频制作设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，Free BSD等等。本领域技术人员可以理解，图3示出的数字人视频制作设备结构并不构成对基于数字人视频制作设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述数字人视频制作方法的步骤。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种数字人视频制作方法，其特征在于，所述数字人视频制作方法包括：

2.根据权利要求1所述的数字人视频制作方法，其特征在于，所述获取第一数字人视频，并将所述第一数字人视频进行对齐分割，得到第二数字人视频包括：

3.根据权利要求1所述的数字人视频制作方法，其特征在于，所述根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频包括：

4.根据权利要求3所述的数字人视频制作方法，其特征在于，所述取出所述视频序列帧中的首个视频帧，并根据所述第三数字人视频的首个视频帧，通过动作驱动同步模型驱动所述第二数字人视频的首个视频帧包括：

取出所述视频序列帧中的首个视频帧；

5.根据权利要求1所述的数字人视频制作方法，其特征在于，所述根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频之前，还包括：

6.根据权利要求5所述的数字人视频制作方法，其特征在于，所述对所述第三数字人视频进行平滑处理包括：

获取所述第三数字人视频中的视频序列帧；

7.根据权利要求1所述的数字人视频制作方法，其特征在于，所述根据所述第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频包括：

根据预设语音信息，生成语音特征块；

8.一种数字人视频制作装置，其特征在于，所述数字人视频制作装置包括：

对齐分割模块，用于获取第一数字人视频，并将所述第一数字人视频进行对齐分割，得到第二数字人视频，其中，所述第一数字人视频是闭嘴的全身数字人视频，所述第二数字人视频是闭嘴的半身数字人视频；

第三数字人视频获取模块，用于根据所述第二数字人视频及预设语音信息，通过语音驱动人脸模型，得到第三数字人视频，其中，所述第三数字人视频是说话的半身数字人视频；

第四数字人视频获取模块，用于根据所述第三数字人视频及所述第二数字人视频的视频序列帧，通过动作驱动同步模型，得到第四数字人视频，所述第四数字人视频是驱动第二数字人视频中的人物嘴型和半身动作与第三数字人视频一致得到的数字人视频；

目标数字人视频获取模块，用于将所述第四数字人视频的视频帧画面贴回到所述第一数字人视频上，得到目标数字人视频。

9.一种数字人视频制作设备，其特征在于，所述数字人视频制作设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述数字人视频制作设备执行如权利要求1-7中任一项所述的数字人视频制作方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数字人视频制作方法。