CN117636897A

CN117636897A - 一种数字人音视频生成系统

Info

Publication number: CN117636897A
Application number: CN202311653426.2A
Authority: CN
Inventors: 邱述洪; 高唯唯; 谭琼丽; 曾杰川; 吴诗韵; 柳子用; 蔡德贵
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01

Abstract

本申请实施例公开了一种数字人音视频生成系统，所述系统包括数字人形象生成模块、音视频生成模块以及画质优化模块，其中：所述数字人形象生成模块，用于获取初始音视频，所述初始音视频为包括目标用户形象和语音的音视频，以及，根据所述初始音视频创建得到与所述目标用户形象和语音对应的目标数字人形象的音视频；所述音视频生成模块，用于获取录制文本数据，以及，根据所述录制文本数据以及所述目标数字人形象的音视频，生成初始数字人音视频；所述画质优化模块，用于对所述初始数字人音视频进行人脸修复处理，生成目标数字人音视频。用户利用该系统不仅可以自动生成数字人音视频，还提高了音视频质量、画质，从而提高了用户的观看体验。

Description

一种数字人音视频生成系统

技术领域

本申请实施例涉及数字人技术，涉及但不限于一种数字人音视频生成系统。

背景技术

数字人技术是一种利用人工智能、自然语言处理等技术，模拟人的外貌、声音、行为和语言等，创建高度逼真、可交互的虚拟人物或数字化形象的技术。目前，数字人技术在视频创作领域得到越来越广泛的应用，例如，为了提升用户科普类视频的制作效率，可以采用数字人技术快速生成与用户形象、声音等匹配的数字人形象的科普视频，节省用户录制视频的时间。

然而，现有技术在采用数字人技术在创作视频时，由于在合成视频的过程中，数字人形象的嘴型变化会导致合成视频中人脸画质下降，如分辨率下降、脸部纹理丢失、脸部颜色不一致等，使得视频质量和逼真度不够，从而降低了用户的观看体验。

发明内容

有鉴于此，本申请实施例提供一种数字人音视频生成系统，本申请实施例提供的一种数字人音视频生成系统是这样实现的：

本申请实施例提供的一种数字人音视频生成系统，所述系统包括数字人形象生成模块、音视频生成模块以及画质优化模块，其中：

所述数字人形象生成模块，用于获取初始音视频，所述初始音视频为包括目标用户形象和语音的音视频，以及，根据所述初始音视频创建得到与所述目标用户形象和语音对应的目标数字人形象的音视频；

所述音视频生成模块，用于获取录制文本数据，以及，根据所述录制文本数据以及所述目标数字人形象的音视频，生成初始数字人音视频，所述目标数字人形象的嘴型变化与所述录制文本数据对应；

所述画质优化模块，用于对所述初始数字人音视频进行人脸修复处理，生成目标数字人音视频，所述人脸修复处理是针对所述目标数字人形象的嘴型变化引起的画质降低的修复处理。

本申请实施例中，用户利用该系统不仅可以自动生成数字人音视频，还提高了音视频质量、画质，从而提高了用户的观看体验，解决了现有技术中视频质量和逼真度不够的问题。

在一些实施例中，所述音视频生成模块包括语音合成单元以及嘴型合成单元，其中：

所述语音合成单元，用于将所述录制文本数据以及所述目标数字人形象的音视频输入到预存的目标语音合成模型，得到目标合成音频，所述目标语音合成模型是根据目标用户的语音合成训练数据对预设语音合成模型进行训练得到的，每个用户对应唯一的语音合成模型；

所述嘴型合成单元，用于将所述目标数字人形象的音视频以及所述目标合成音频输入到预存的目标嘴型合成模型，得到所述初始数字人音视频，所述目标嘴型合成模型是根据嘴型合成训练数据对预设嘴型合成模型进行训练得到的。

该实施例中，利用语音合成模型和嘴型合成模型可以快速生成数字人音视频，提高了音视频制作效率，节省了用户录制和剪辑音视频的时间成本。

在一些实施例中，所述画质优化模块包括人脸修复输入单元以及人脸修复处理单元，其中：

所述人脸修复输入单元，用于获取并将所述初始数字人音视频输入到所述人脸修复处理单元；

所述人脸修复处理单元，用于接收所述初始数字人音视频，并根据预存的目标人脸修复模型对所述初始数字人音视频进行处理，得到所述目标数字人音视频，所述目标人脸修复模型是根据人脸修复训练数据对预设人脸修复模型进行训练得到的。

该实施例中，利用人脸修复模型可以快速、准确的对生成的初始数字人音视频进行画质优化及修复，有效避免了因数字人形象的嘴型变化引起的画质降低的问题，提高了用户的观看体验。

在一些实施例中，所述系统还包括语音合成训练模块、嘴型合成训练模块以及人脸修复训练模块，其中：

所述语音合成训练模块，用于根据所述目标用户的语音合成训练数据对所述预设语音合成模型进行训练，得到所述目标语音合成模型；

所述嘴型合成训练模块，用于根据所述嘴型合成训练数据对所述预设嘴型合成模型进行训练，得到所述目标嘴型合成模型；

所述人脸修复训练模块，用于根据所述人脸修复训练数据对所述预设人脸修复模型进行训练，得到所述目标人脸修复模型。

该实施例中，利用多种训练数据分别对模型进行训练，可以帮助模型学习数据中的模式、关联和特征，从而提高模型生成数字人音视频的准确性，以及提高生成的数字人音视频的视频质量和逼真度。

在一些实施例中，所述语音合成训练模块包括第一音频获取单元、音频预处理单元以及语音合成训练单元，包括：

所述第一音频获取单元，用于获取所述目标用户的语音合成训练数据，所述目标用户的语音合成训练数据包括初始音频以及与所述初始音频对应的文本数据，所述初始音频为包括目标用户语音的音频；

所述音频预处理单元，用于对所述初始音频进行预处理，得到目标韵律以及目标音素时长，所述预处理至少包括音频切片、韵律标注以及音素时长标注；

所述语音合成训练单元，用于将所述文本数据输入到所述预设语音合成模型，得到预设合成音频，以及，提取所述预设合成音频对应的韵律以及音素时长，以及，将所述预设合成音频对应的韵律以及音素时长与所述目标韵律以及所述目标音素时长分别进行对比，得到语音合成损失参数，以及，在所述语音合成损失参数符合预设语音合成神经网络参数的情况下，得到所述目标语音合成模型。

该实施例中，对初始音频进行预处理能够从不同维度提高模型训练效率和训练效果；此外，通过对比语音合成损失参数以及预设语音合成神经网络参数，有助于提高模型在语音合成时的准确率，并生成更加自然的合成语音。

在一些实施例中，所述嘴型合成训练模块包括第二音频获取单元、音频图像配对单元、音视频生成单元以及音频口型同步判别单元，所述预设嘴型合成模型包括音视频生成器以及音频口型同步判别器，其中：

所述第二音频获取单元，用于获取所述嘴型合成训练数据，所述嘴型合成训练数据包括至少一个用户的音频以及与所述至少一个用户对应的人脸图像，所述音频包括所述至少一个用户的初始音频和/或合成音频；

所述音频图像配对单元，用于对所述至少一个用户的音频进行特征提取，得到音频特征，以及，将所述音频特征与所述人脸图像进行配对，得到音频图像对；

所述音视频生成单元，用于将所述音频图像对输入到所述音视频生成器，生成预设数字人音视频，所述预设数字人音视频中数字人形象的嘴型变化与所述至少一个用户的音频的内容对应；

所述音频口型同步判别单元，用于将所述预设数字人音视频输入到所述音频口型同步判别器进行判别，得到判别结果，以及，在所述判别结果指示所述预设数字人音视频中数字人形象的嘴型变化与所述至少一个用户的音频的内容同步的情况下，得到所述目标嘴型合成模型。

该实施例中，音频图像对可以帮助模型学习在嘴型合成时如何根据音频特征生成与之匹配的嘴型变化，通过判别器可以确保数字人嘴型变化与预设的录制文本同步，从而提高了模型生成的数字人音视频中数字人嘴型变化的一致性和真实性。

在一些实施例中，所述人脸修复训练模块包括人脸图像获取单元以及人脸修复训练单元，其中：

所述人脸图像获取单元，用于获取所述人脸修复训练数据，所述人脸修复训练数据包括低清人脸图像以及与所述低清人脸图像对应的高清人脸图像；

所述人脸修复训练单元，用于将所述低清人脸图像输入到所述预设人脸修复模型进行修复，得到修复后的人脸图像，以及，计算所述修复后的人脸图像与所述高清人脸图像的重建误差，在所述重建误差满足预设人脸修复神经网络参数的情况下，得到所述目标人脸修复模型。

该实施例中，可以客观地评估模型的修复效果，帮助模型学习在人脸修复时得到更高画质的人脸图像，从而提高了模型生成的数字人音视频的画质和人脸逼真度。

在一些实施例中，所述系统还包括数字人形象存储模块，其中：

所述数字人形象存储模块，用于将所述数字人形象生成模块创建的数字人形象的音视频存储在数字人形象库中，所述数字人形象库包括至少一个用户的数字人形象的音视频，所述至少一个用户的数字人形象的音视频包括所述目标数字人形象的音视频。

该实施例中，支持用户在系统中预先创建与用户形象对应的数字人形象，方便用户后续制作数字人音视频时选择需要的数字人形象。

在一些实施例中，所述音视频生成模块，还用于在所述根据所述录制文本数据以及所述目标数字人形象的音视频，生成初始数字人音视频之前，从所述数字人形象库中获取所述目标数字人形象的音视频。

该实施例中，当用户在创建数字人形象的音视频时，可以快速从数字人形象库中获取数字人形象，提高了数字人音视频制作的效率以及操作便捷性。

在一些实施例中，所述系统还包括素材存储模块，其中：

所述素材存储模块，用于获取文本素材、背景素材以及封面素材，并将所述文本素材、所述背景素材以及所述封面素材存储在素材库中，所述文本素材包括所述录制文本数据；

所述音视频生成模块，还用于从所述素材库或文本内容输入框中获取所述录制文本数据，所述文本内容输入框用于根据用户的输入操作获取所述录制文本数据，以及，从所述素材库中获取目标背景和目标封面，并根据所述录制文本数据、所述目标背景、所述目标封面以及所述目标数字人形象的音视频，生成所述初始数字人音视频。

该实施例中，当用户在创建数字人形象的音视频时，可以选择背景素材以及封面素材，提高了音视频制作的趣味和数字人形象的丰富度，还提高了数字人音视频的呈现效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种数字人音视频生成系统的示意图；

图2为本申请实施例提供的另一种数字人音视频生成系统的示意图；

图3为本申请实施例提供的一种数字人音视频生成方法的流程图；

图4为本申请实施例提供的又一种数字人音视频生成系统的示意图；

图5为本申请实施例提供的一种数字人音视频生成系统界面的示意图；

图6为本申请实施例提供的再一种数字人音视频生成系统的示意图；

图7为本申请实施例提供的一种语音合成训练模块的示意图；

图8为本申请实施例提供的一种嘴型合成训练模块的示意图；

图9为本申请实施例提供的一种人脸修复训练模块的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

数字人技术是一种利用人工智能、自然语言处理等技术，模拟人的外貌、声音、行为和语言等，创建与人高度逼真、可交互的虚拟人物或数字化人类形象的技术。数字人技术能够创造出能够模拟真实人类行为和特征的数字人形象，且数字人形象具备自然语言理解和生成、情感表达、面部表情、语音合成等能力。目前，数字人技术已可以应用于多个领域，包括视频创作、虚拟助手、电子游戏、虚拟现实和增强现实、在线教育、娱乐产业等。

其中，数字人技术在视频创作领域得到越来越广泛的应用，例如，在医疗科普类视频创作领域，为了更好地传播医学知识等内容，需要制作科普视频或课程，为了提升科普类视频的制作效率，可以采用数字人技术快速生成与用户形象、声音等匹配的数字人形象的科普视频，以节省视频录制时间和降低剪辑成本，提升视频的制作效率。

然而，在采用数字人技术在创作视频时，由于在合成视频的过程中，需要数字人形象按照设定的录制文字以及用户的数字人形象生成相应的数字人音视频。其中，数字人音视频中数字人形象会播报录制文字，其嘴型会模拟用户说话时的嘴型动作产生变化。然而，现有技术中嘴型变化会导致合成视频中人脸画质下降，例如，在嘴型合成过程中，通常会对人脸图像进行放大或缩小，以适应嘴部运动，这可能导致图像的分辨率下降，从而影响画质，以及，嘴型合成可能会导致人脸皮肤纹理或其他面部特征丧失，这些细节是构成人脸真实感的关键因素，因此面部特征丧失会使合成后是视频中人脸看起来不够真实，以及，在合成嘴部动作时，需要修改嘴唇颜色或明暗度以匹配整体人物，颜色调整可能会导致嘴部与其余脸部的颜色不一致，从而降低画质。

因此，现有技术在利用数字人技术在创作视频时，生成的数字人视频中人脸部分与原始人脸图像之间存在差异，且人脸画质下降，视频质量和逼真度不够，从而降低了用户的观看体验。

有鉴于此，本申请实施例提供一种数字人音视频生成系统。

为了使本申请的目的、技术方案更加清楚直观，下面结合附图对本申请公开的一种数字人音视频生成系统进行详细描述。

请参见图1，图1是本申请实施例公开的一种数字人音视频生成系统的示意图，该系统包括数字人形象生成模块10、音视频生成模块20以及画质优化模块30。

在本申请实施例中，数字人形象生成模块10，用于获取初始音视频，初始音视频为包括目标用户形象和语音的音视频，以及，根据初始音视频创建得到与目标用户形象和语音对应的目标数字人形象的音视频。

需要说明的是，可以采用任意拍摄装置拍摄一段包括目标用户个人形象和语音的音视频，应理解，该初始音视频是为了创建与目标用户形象和语音对应的目标数字人形象的音视频，该目标数字人形象的音视频中目标数字人形象为初始音视频中目标用户形象对应的虚拟形象或数字化形象。因此，该初始音视频中至少包括目标用户的正面形象以及目标用户的声音，才能确保创建的目标数字人形象的音视频与目标用户个人形象和语音具有高相似度，以提高数字人音视频的质量。

在一些实施例中，该系统还包括音视频上传模块，其中：

音视频上传模块，用于在获取初始音视频之前，接收用户在音视频上传模块的上传操作，以及，根据上传操作接收至少一个用户的初始音视频，该至少一个用户的初始音视频包括初始音视频。

应理解，数字人形象生成模块10，具体用于从至少一个用户的初始音视频中获取初始音视频，初始音视频为包括目标用户形象和语音的音视频。

需要说明的是，该至少一个用户的初始音视频可以为一个目标用户的一个或多个音视频，也可以为多个用户的多个音视频，本申请对上传的初始音视频的数量不作限定。

在一些实施例中，该系统包括预存的音视频审核标准。

需要说明的是，该预存的音视频审核标准是为了确保初始音视频可以成功创建得到与用户形象和语音对应的数字人形象的音视频。进一步地，预存的音视频审核标准定义了初始音视频采集的要求。例如，初始音视频采集要求可以为：(1)拍摄过程要求：用户处于画面正中间，保持人脸和脖子完全露出，脸上无阴影；(2)发型着装要求：用户需穿着完全露出颈部的衣服，不能穿高领、不要带线耳机、不佩戴会晃动的耳饰等，发型平整无虛空、不佩戴头饰，避免头发晃动和发丝遮挡面部；(3)动作要求：用户可有简单的手势动作，但不能出现任何遮挡头部和颈部的动作；(4)录音要求：使用专业收音设备进行录音，保持背景环境安静，避免出现明显噪声，录制时避免喷麦；(5)时长要求：不超过60秒，且不少于30秒。本申请对初始音视频采集要求不作限定。

在一些实施例中，该系统还包括审核模块以及初始音视频存储模块，其中：

审核模块，用于在接收初始音视频之后，获取预存的音视频审核标准，预设音视频审核要求至少包括用户形象标准、用户语音标准、画面质量标准以及音视频大小标准；将初始音视频与预存的音视频审核标准进行对比，得到对比结果；在对比结果指示初始音视频符合预存的音视频审核标准的情况下，将初始音视频存储在初始音视频存储模块。

初始音视频存储模块，用于存储初始音视频。

需要说明的是，只有通过审核的初始音视频才能够被存储在初始音视频存储模块。

还需要说明的是，本领域技术人员还可以根据实际需求，采用人工审核的方式，或者，结合人工审核以及该系统审核模块的审核对初始音视频进行审核，本申请对审核方式不作限定。

在一些实施例中，数字人形象生成模块10包括数字人形象生成输入单元以及数字人形象生成处理单元，其中：

数字人形象生成输入单元，用于将获取的初始音视频输入到数字人形象生成处理单元，初始音视频为包括目标用户形象和语音的音视频。

数字人形象生成处理单元，用于接收初始音视频，并根据预存的目标数字人形象生成模型对初始音视频进行处理，得到与目标用户形象和语音对应的目标数字人形象的音视频，所述目标数字人形象生成模型是根据数字人形象生成训练数据对预设数字人形象生成模型进行训练得到的。

进一步地，该系统还包括数字人形象生成训练模块，该数字人形象生成训练模块用于根据数字人形象生成训练数据对预设数字人形象生成模型进行训练，得到目标数字人形象生成模型。

进一步地，该数字人形象生成训练模块包括初始音视频获取单元以及数字人形象生成训练单元，其中：

初始音视频获取单元，用于获取数字人形象生成训练数据，数字人形象生成训练数据包括预设初始音视频以及与预设初始音视频对应的标准数字人形象的音视频。

数字人形象生成训练单元，用于将预设初始音视频输入到预设数字人形象生成模型，得到预设数字人形象的音视频，以及，将预设数字人形象的音视频与标准数字人形象的音视频进行对比，得到数字人形象生成损失参数，以及，在数字人形象生成损失参数符合预设数字人形象生成神经网络参数的情况下，得到目标数字人形象生成模型。

采用该实施例用户只需要在该系统上传人物形象视频，即可生成对应的数字人形象。

在本申请实施例中，音视频生成模块20，用于获取录制文本数据，以及，根据录制文本数据以及目标数字人形象的音视频，生成初始数字人音视频，目标数字人形象的嘴型变化与录制文本数据对应。

在一些实施例中，该系统还包括工作台界面，该工作台界面包括文本内容输入框，用户可以在文本内容输入框中输入该录制文本数据。

在一些实施例中，该系统还包括素材库界面，该素材库界面包括素材库，该素材库至少包括文本素材、背景素材以及封面素材，其中，文本素材中包括录制文本数据。

进一步地，音视频生成模块20，具体用于从工作台界面的文本内容输入框中获取录制文本数据，或，从素材库界面的素材库中获取录制文本数据。

需要说明的是，本申请实施例中可以将目标数字人形象的音视频按照录制文本数据进行视频生成处理，得到初始数字人音视频，该初始数字人音视频中数字人发出的语音与录制文本数据的内容相同，即目标数字人形象的嘴型变化与录制文本数据对应。

在本申请实施例中，画质优化模块30，用于对初始数字人音视频进行人脸修复处理，生成目标数字人音视频，人脸修复处理是针对目标数字人形象的嘴型变化引起的画质降低的修复处理。

需要说明的是，由于音视频生成模块20在生成初始数字人音视频的过程中，目标数字人形象的嘴型变化可能会引起最终生成的目标数字人音视频的画质降低。因此，画质优化模块30可以对初始数字人音视频中的人脸进行修复处理。

还需要说明的是，画质优化模块30还可以对初始数字人音视频中的非人脸部分进行修复处理，本申请对此不作限定。

可见，实施本申请实施例，用户利用该系统不仅可以自动生成数字人音视频，还提高了音视频质量、画质，从而提高了用户的观看体验，解决了现有技术中视频质量和逼真度不够的问题。

请参见图2，图2是本申请实施例公开的另一种数字人音视频生成系统的示意图，该系统包括数字人形象生成模块10、音视频生成模块20以及画质优化模块30，其中，音视频生成模块20包括语音合成单元21以及嘴型合成单元22，画质优化模块30包括人脸修复输入单元31以及人脸修复处理单元32。

在本申请实施例中，关于数字人形象生成模块10、音视频生成模块20以及画质优化模块30可参照前述图1中的描述，在此不作赘述。

在本申请实施例中，语音合成单元21，用于将录制文本数据以及目标数字人形象的音视频输入到预存的目标语音合成模型，得到目标合成音频，目标语音合成模型是根据目标用户的语音合成训练数据对预设语音合成模型进行训练得到的，每个用户对应唯一的语音合成模型。

需要说明的是，语音合成指将录制文本数据，结合目标数字人形象的音视频进行合成，转化为目标合成音频的过程，使得目标合成音频的内容与录制文本数据对应。

还需要说明的是，由于目标合成音频是根据录制文本数据以及目标数字人形象的音视频生成的。因此，目标合成音频中的内容与录制文本数据对应，以及，目标合成音频中的音频特征与目标数字人形象的音视频中的音频特征对应，以及，目标合成音频中的音频特征与初始音视频中目标用户语音的音频特征对应。

还需要说明的是，由于每个用户声音的音频特征是唯一的，因此，每个用户对应唯一的语音合成模型。

在本申请实施例中，嘴型合成单元22，用于将目标数字人形象的音视频以及目标合成音频输入到预存的目标嘴型合成模型，得到初始数字人音视频，目标嘴型合成模型是根据嘴型合成训练数据对预设嘴型合成模型进行训练得到的。

需要说明的是，嘴型合成指将目标合成音频，结合目标数字人形象的音视频进行合成，转化为初始数字人音视频的过程，使得目标数字人形象的嘴型变化与目标合成音频的内容以及录制文本数据对应，即目标数字人形象可以按照目标合成音频的内容以及录制文本数据说话，达到视频制作的目的。

还需要说明的是，初始数字人音视频中的内容与录制文本数据对应，且初始数字人音视频中数字人形象的嘴型变化与录制文本数据对应。进一步地，由于初始数字人音视频是根据目标数字人形象的音视频以及目标合成音频生成的。因此，初始数字人音视频中的音频特征与目标数字人形象的音视频中的音频特征对应，也与初始音视频中目标用户语音的音频特征对应。

在本申请实施例中，人脸修复输入单元31，用于获取并将初始数字人音视频输入到人脸修复处理单元32。

在本申请实施例中，人脸修复处理单元32，用于接收初始数字人音视频，并根据预存的目标人脸修复模型对初始数字人音视频进行处理，得到目标数字人音视频，目标人脸修复模型是根据人脸修复训练数据对预设人脸修复模型进行训练得到的。

需要说明的是，人脸修复指将初始数字人音视频中因目标数字人形象的嘴型变化引起的画质降低等问题进行画质修复，例如，对初始数字人音视频中数字人形象的人脸图像缺陷进行修复，这些人脸图像缺陷可以包括噪声、模糊、失真等。

进一步地，人脸修复的原理是通过对人脸图像进行去噪、去马赛克、去jpeg压缩、去模糊、去轻微抖动等操作，从而达到画质优化和增强的效果。因此，人脸修复可以提高嘴型合成的质量，增强嘴型合成的逼真度，确保嘴型合成在不损害整体画质的情况下获得符合视频画质要求的目标数字人音视频，为用户提供了高质量的视频内容，从而提高用户观看体验。

作为一种示例，请参见图3，图3为本申请实施例提供的一种数字人音视频生成方法的流程图。该流程图为图2中所示的另一种数字人音视频生成系统生成目标数字人音视频的方法步骤，具体如下：

步骤301、数字人形象生成模块10获取初始音视频，初始音视频为包括目标用户形象和语音的音视频，以及，根据初始音视频创建得到与目标用户形象和语音对应的目标数字人形象的音视频。

步骤302、语音合成单元21将录制文本数据以及目标数字人形象的音视频输入到预存的目标语音合成模型，得到目标合成音频。

步骤303、嘴型合成单元22将目标数字人形象的音视频以及目标合成音频输入到预存的目标嘴型合成模型，得到初始数字人音视频。

步骤304、人脸修复输入单元31获取并将初始数字人音视频输入到人脸修复处理单元。

步骤305、人脸修复处理单元32接收初始数字人音视频，并根据预存的目标人脸修复模型对初始数字人音视频进行处理，得到目标数字人音视频。

可见，实施本申请实施例，用户利用该系统不仅可以自动生成数字人音视频，还提高了音视频质量、画质，从而提高了用户的观看体验，解决了现有技术中视频质量和逼真度不够的问题。利用语音合成模型和嘴型合成模型可以快速生成数字人音视频，提高了音视频制作效率，节省了用户录制和剪辑音视频的时间成本。利用人脸修复模型可以快速、准确的对生成的初始数字人音视频进行画质优化及修复，有效避免了因数字人形象的嘴型变化引起的画质降低的问题。

请参见图4，图4是本申请实施例公开的又一种数字人音视频生成系统的示意图，该系统包括数字人形象生成模块10、音视频生成模块20、画质优化模块30、数字人形象存储模块40、素材存储模块50以及显示模块60。

在本申请实施例中，数字人形象存储模块40，用于将数字人形象生成模块10创建的数字人形象的音视频存储在数字人形象库中，数字人形象库包括至少一个用户的数字人形象的音视频，至少一个用户的数字人形象的音视频包括目标数字人形象的音视频。

需要说明的是，该系统包括素材库界面，该素材库界面包括素材库。进一步地，该素材库还包括数字人形象库，数字人形象库包括数字人形象生成模块10创建的数字人形象的音视频。

还需要说明的是，由于该系统接收了至少一个用户的初始音视频。因此，数字人形象库中可以包括至少一个用户的数字人形象的音视频。

还需要说明的是，由于数字人形象库中包括至少一个用户的数字人形象的音视频，因此，在采用数字人音视频生成系统生成目标数字人音视频时，用户也可以在数字人形象库中任意选取数字人形象的音视频作为目标数字人形象的音视频。

在本申请实施例中，音视频生成模块20，还用于在根据录制文本数据以及目标数字人形象的音视频，生成初始数字人音视频之前，从数字人形象库中获取目标数字人形象的音视频。

在本申请实施例中，素材存储模块50，用于获取文本素材、背景素材以及封面素材，并将文本素材、背景素材以及封面素材存储在素材库中，文本素材包括录制文本数据。

在一些实施例中，素材存储模块50，还用于获取至少一个用户的数字人形象的音视频，并将至少一个用户的数字人形象的音视频存储在数字人形象库中，并进一步将数字人形象库存储在素材库中。

需要说明的是，该系统包括素材库界面，该素材库界面包括素材库，该素材库包括素材存储模块50获取的文本素材、背景素材、封面素材以及至少一个用户的数字人形象的音视频。

在本申请实施例中，音视频生成模块20，还用于从素材库或文本内容输入框中获取录制文本数据，文本内容输入框用于根据用户的输入操作获取录制文本数据，以及，从素材库中获取目标背景和目标封面，并根据录制文本数据、目标背景、目标封面以及目标数字人形象的音视频，生成初始数字人音视频。

应理解，背景素材包括目标背景，以及，封面素材包括目标封面。

需要说明的是，为了丰富数字人音视频的创作效果，可以从素材库中获取目标背景和目标封面，并根据录制文本数据、目标背景、目标封面以及目标数字人形象的音视频，生成数字人音视频。

在本申请实施例中，显示模块60，用于显示画质优化模块30生成的目标数字人音视频。

在一些实施例中，显示模块60，还用于显示工作台界面、素材库界面以及作品集界面，其中：该作品集界面包括画质优化模块30生成的目标数字人音视频。

作为一种示例，请参见图5，图5为本申请实施例提供的一种数字人音视频生成系统界面的示意图。该数字人音视频生成系统界面中包括工作台界面、素材库界面、作品集界面，其中，工作台界面包括视频名称输入框、文本内容输入框、生成视频按键、草稿箱等，用户可以预先在视频名称输入框中设置输入要求(如，50字以内的文本、字母、数字或特殊符号等)。具体地：用户可以在工作台界面的文本内容输入框中输入录制文本数据，以及在视频名称输入框中输入视频名称，用户还可以在数字人形象库(图5所示的数字人音视频生成系统界面中还包括数字人形象库，其中，数字人形象库中包括数字人形象1以及数字人形象2)中选择任意数字人形象作为目标数字人形象的音视频，在用户选择后则在工作台界面中会显示选择目标数字人形象的音视频(如，用户选择图5中的数字人形象1作为目标数字人形象的音视频，并在工作台界面显示选择的数字人形象1)，然后，用户可以点击工作台界面的生成视频按键；最后，该数字人音视频生成系统会按照录制文本数据、视频名称以及目标数字人形象的音视频生成目标数字人音视频，并在工作台界面的草稿箱中显示目标数字人音视频(如，图5所示的草稿箱显示了数字人音视频1、数字人音视频2和数字人音视频3)。

进一步地，工作台界面上还可以包括试听音频按键、清空按键等。例如，当生成数字人音视频之后，若用户想要试听某个数字人音视频时可以在草稿箱中选择想要试听的数字人音视频，并点击试听音频按键。进一步地，工作台界面的草稿箱中可以展示历史保存到草稿箱的数字人音视频缩略图以及相关信息，若用户想要清空当前制作的数字人音视频可以点击清空按键。

需要说明的是，本领域技术人员可以根据实际需求，在数字人音视频生成系统界面设置多种功能界面，本申请对此不作限定。

采用该实施例利用生成的数字人形象，并结合所需录制的文本内容，可以快速将文本内容转换成音视频，生成形象生动的数字人音视频，大幅度提高了视频制作效率。

可见，实施本申请实施例，用户利用该系统不仅可以自动生成数字人音视频，还提高了音视频质量、画质，从而提高了用户的观看体验，解决了现有技术中视频质量和逼真度不够的问题。支持用户在系统中预先创建与用户形象对应的数字人形象，方便用户后续制作数字人音视频时选择需要的数字人形象。当用户在创建数字人形象的音视频时，可以快速从数字人形象库中获取数字人形象，提高了数字人音视频制作的效率以及操作便捷性。当用户在创建数字人形象的音视频时，可以选择背景素材以及封面素材，提高了音视频制作的趣味和数字人形象的丰富度，还提高了数字人音视频的呈现效果。

请参见图6，图6是本申请实施例公开的再一种数字人音视频生成系统的示意图，该系统包括语音合成训练模块70、嘴型合成训练模块80以及人脸修复训练模块90。

在本申请实施例中，语音合成训练模块70，用于根据目标用户的语音合成训练数据对预设语音合成模型进行训练，得到目标语音合成模型。

需要说明的是，本申请实施例的预设语音合成模型可以采用基于深度学习的WaveGAN波形生成对抗网络模型、WaveNet波形网络模型、Sambert音频生成模型、Hifigan音频生成模型等模型，本申请对此不作限定。

在本申请实施例中，嘴型合成训练模块80，用于根据嘴型合成训练数据对预设嘴型合成模型进行训练，得到目标嘴型合成模型。

需要说明的是，本申请实施例的预设嘴型合成模型可以采用基于深度学习的LipGAN嘴唇合成对抗网络模型，Wav2lip嘴唇合成同步模型等模型，本申请对此不作限定。

在本申请实施例中，人脸修复训练模块90，用于根据人脸修复训练数据对预设人脸修复模型进行训练，得到目标人脸修复模型。

需要说明的是，本申请实施例的预设人脸修复模型可以采用基于深度学习的CodeFormer编码形态模型、GfpGAN生成对抗全局生成网络模型、GPEN全局与局部特征融合网络模型等模型，本申请对此不作限定。

需要说明的是，图6中还包括图1、图2、图4中的模块，图6未示出的数字人音视频生成系统的其他模块可参照前述图1、图2、图4中对于模块的功能描述，在此不作赘述。

还需要说明的是，图6中语音合成训练模块70、嘴型合成训练模块80以及人脸修复训练模块90的具体训练过程将在图7～图9中分别进一步详细描述，在此不作赘述。

可见，实施本申请实施例，利用多种训练数据分别对模型进行训练，可以帮助模型学习数据中的模式、关联和特征，从而提高模型生成数字人音视频的准确性，以及提高生成的数字人音视频的视频质量和逼真度。通过结合多个模型，实现数字人音视频生成过程中的语音合成、嘴形合成和画质优化等视频制作流程。

请参见图7，图7是本申请实施例公开的一种语音合成训练模块的示意图，该语音合成训练模块70包括第一音频获取单元71、音频预处理单元72以及语音合成训练单元73。

在本申请实施例中，第一音频获取单元71，用于获取目标用户的语音合成训练数据，目标用户的语音合成训练数据包括初始音频以及与初始音频对应的文本数据，初始音频为包括目标用户语音的音频。

应理解，由于每个用户对应唯一的语音合成模型，因此，需要为每个用户训练一个唯一的目标语音合成模型。例如，用户A对应专属的语音合成模型A1。

需要说明的是，初始音频对应的文本数据用于在后续语音合成训练阶段生成预设合成音频。

还需要说明的是，初始音频用于后续语音合成训练阶段验证预设语音合成模型的训练效果。

在本申请实施例中，音频预处理单元72，用于对初始音频进行预处理，得到目标韵律以及目标音素时长，预处理至少包括音频切片、韵律标注以及音素时长标注。

需要说明的是，音频切片指将目标用户的初始音频分割为较短的音频片段的过程。进一步地，音频切片可以根据预设时间或预设切片长度等将初始音频分割成多个音频片段。通过音频切片处理可以提高后续韵律标注、音素时长标注以及语音合成训练的处理效率。

还需要说明的是，由于每个用户声音的音频特征是唯一的，因此，需要对目标用户的初始音频进行韵律标注以及音素时长标注，以获得目标用户的初始音频对应的目标韵律以及目标音素时长。

进一步地，韵律标注是对初始音频中的韵律结构进行注释的过程，其中，韵律结构包括音节、重音、语调等元素。韵律标注的目的是标记出初始音频中的重音、边界和语调变化等信息，以便后续语音合成训练阶段验证预设语音合成模型的训练效果。需要说明的是，本领域技术人员可以采用符号标记、时间标记或文本标注等方法进行韵律标注，本申请在此不作限定。

进一步地，音素时长标注是对初始音频中各个音素持续时间进行注释的过程，其中，音素是语音中最小的音频单位，而音素时长则指的是每个音素在音频中持续的时间长度。音素时长标注的目的是为了了解不同音素的发音持续时间，以便后续语音合成训练阶段验证预设语音合成模型的训练效果。需要说明的是，本领域技术人员可以采用时间轴对每个音素进行时间划分，或者使用时间单位(如毫秒)标记每个音素的持续时间，本申请在此不作限定。

在本申请实施例中，语音合成训练单元73，用于将文本数据输入到预设语音合成模型，得到预设合成音频，以及，提取预设合成音频对应的韵律以及音素时长，以及，将预设合成音频对应的韵律以及音素时长与目标韵律以及目标音素时长分别进行对比，得到语音合成损失参数，以及，在语音合成损失参数符合预设语音合成神经网络参数的情况下，得到目标语音合成模型。

需要说明的是，可以对预设合成音频进行音频分割、韵律分析等，以提取获得预设合成音频的韵律特征，如重音位置、边界位置、语调轮廓等。还可以对预设合成音频进行音频分割、音素对齐处理等，根据对齐结果计算每个音素的时长或帧数，得到音素时长。

还需要说明的是，语音合成损失参数用于衡量预设合成音频对应的韵律以及音素时长与初始音频的目标韵律以及目标音素时长之间差异的度量指标，在语音合成损失参数符合预设语音合成神经网络参数的情况下，停止训练，得到目标语音合成模型。需要说明的是，本领域技术人员可以按照实际情况预设语音合成神经网络参数，本申请在此不作限定。

可见，实施本申请实施例，对初始音频进行预处理能够从不同维度提高模型训练效率和训练效果；此外，通过对比语音合成损失参数以及预设语音合成神经网络参数，有助于提高模型在语音合成时的准确率，并生成更加自然的合成语音。

请参见图8，图8是本申请实施例公开的一种嘴型合成训练模块的示意图，该嘴型合成训练模块80包括第二音频获取单元81、音频图像配对单元82、音视频生成单元83以及音频口型同步判别单元84。

在本申请实施例中，第二音频获取单元81，用于获取嘴型合成训练数据，嘴型合成训练数据包括至少一个用户的音频以及与至少一个用户对应的人脸图像，音频包括至少一个用户的初始音频和/或合成音频。

需要说明的是，至少一个用户的音频以及与至少一个用户对应的人脸图像用于在后续嘴型合成训练阶段生成预设数字人音视频。其中，至少一个用户对应的人脸图像中嘴型变化与至少一个用户的音频的内容一一对应。

还需要说明的是，音频可以为至少一个用户的初始音频，也可以为至少一个用户的合成音频，本申请在嘴型合成训练阶段不对获取的音频进行限定。其中，至少一个用户的合成音频为利用目标语音合成模型生成的合成音频。

在本申请实施例中，音频图像配对单元82，用于对至少一个用户的音频进行特征提取，得到音频特征，以及，将音频特征与人脸图像进行配对，得到音频图像对。

需要说明的是，由于每个用户声音的音频特征是唯一的，因此，需要对至少一个用户的音频进行特征提取，得到音频特征。

还需要说明的是，音频图像对用于帮助预设嘴型合成模型学习音频和人脸图像之间的映射关系，使得预设嘴型合成模型可以根据音频特征生成与之匹配的嘴型变化。

在本申请实施例中，预设嘴型合成模型包括音视频生成器。

需要说明的是，音视频生成器为本领域技术人员预设的，本领域技术人员可以按照实际情况采用不同的音视频生成器，本申请在此不作限定。

在本申请实施例中，音视频生成单元83，用于将音频图像对输入到音视频生成器，生成预设数字人音视频，预设数字人音视频中数字人形象的嘴型变化与至少一个用户的音频的内容对应。

需要说明的是，音视频生成器可以根据音频图像对生成数字人音视频。其中，数字人音视频中数字人形象的嘴型变化与音频图像对中音频特征对应，该音频特征与至少一个用户的音频的内容对应。

在本申请实施例中，预设嘴型合成模型还包括音频口型同步判别器。

需要说明的是，音频口型同步判别器为本领域技术人员预设的，本领域技术人员可以按照实际情况采用不同的音频口型同步判别器，本申请在此不作限定。

在本申请实施例中，音频口型同步判别单元84，用于将预设数字人音视频输入到音频口型同步判别器进行判别，得到判别结果，以及，在判别结果指示预设数字人音视频中数字人形象的嘴型变化与至少一个用户的音频的内容同步的情况下，得到目标嘴型合成模型。

需要说明的是，音视频生成器可以对预设数字人音视频中数字人形象的嘴型变化与至少一个用户的音频的内容是否同步进行判别。应理解，只有在判别结果指示预设数字人音视频中数字人形象的嘴型变化与至少一个用户的音频的内容同步的情况下，停止训练，得到目标嘴型合成模型。

可见，实施本申请实施例，音频图像对可以帮助模型学习在嘴型合成时如何根据音频特征生成与之匹配的嘴型变化，通过判别器可以确保数字人嘴型变化与预设的录制文本同步，从而提高了模型生成的数字人音视频中数字人嘴型变化的一致性和真实性。

请参见图9，图9是本申请实施例公开的一种人脸修复训练模块的示意图，该人脸修复训练模块90包括人脸图像获取单元91以及人脸修复训练单元92。

在本申请实施例中，人脸图像获取单元91，用于获取人脸修复训练数据，人脸修复训练数据包括低清人脸图像以及与低清人脸图像对应的高清人脸图像。

需要说明的是，低清人脸图像对应的高清人脸图像，用于在人脸修复训练阶段验证预设人脸修复模型的修复效果。

在本申请实施例中，人脸修复训练单元92，用于将低清人脸图像输入到预设人脸修复模型进行修复，得到修复后的人脸图像，以及，计算修复后的人脸图像与高清人脸图像的重建误差，在重建误差满足预设人脸修复神经网络参数的情况下，得到目标人脸修复模型。

需要说明的是，重建误差用于衡量修复后的人脸图像与高清人脸图像之间差异的度量指标，在重建误差符合预设人脸修复神经网络参数的情况下，停止训练，得到目标人脸修复模型。需要说明的是，本领域技术人员可以按照实际情况预设人脸修复神经网络参数，本申请在此不作限定。

可见，实施本申请实施例，可以客观地评估模型的修复效果，帮助模型学习在人脸修复时得到更高画质的人脸图像，从而提高了模型生成的数字人音视频的画质和人脸逼真度。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述系统实施例的全部或部分模块可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述系统实施例的模块步骤；而前述的存储介质包括：移动存储设备、只读存储器(read only memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个实施例中所揭露的系统，在不冲突的情况下可以任意组合，得到新的系统实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数字人音视频生成系统，其特征在于，所述系统包括数字人形象生成模块、音视频生成模块以及画质优化模块，其中：

2.根据权利要求1所述的数字人音视频生成系统，其特征在于，所述音视频生成模块包括语音合成单元以及嘴型合成单元，其中：

3.根据权利要求1或2所述的数字人音视频生成系统，其特征在于，所述画质优化模块包括人脸修复输入单元以及人脸修复处理单元，其中：

4.根据权利要求3所述的数字人音视频生成系统，其特征在于，所述系统还包括语音合成训练模块、嘴型合成训练模块以及人脸修复训练模块，其中：

5.根据权利要求4所述的数字人音视频生成系统，其特征在于，所述语音合成训练模块包括第一音频获取单元、音频预处理单元以及语音合成训练单元，包括：

6.根据权利要求4所述的数字人音视频生成系统，其特征在于，所述嘴型合成训练模块包括第二音频获取单元、音频图像配对单元、音视频生成单元以及音频口型同步判别单元，所述预设嘴型合成模型包括音视频生成器以及音频口型同步判别器，其中：

7.根据权利要求4所述的数字人音视频生成系统，其特征在于，所述人脸修复训练模块包括人脸图像获取单元以及人脸修复训练单元，其中：

8.根据权利要求1所述的数字人音视频生成系统，其特征在于，所述系统还包括数字人形象存储模块，其中：

9.根据权利要求8所述的数字人音视频生成系统，其特征在于，所述音视频生成模块，还用于在所述根据所述录制文本数据以及所述目标数字人形象的音视频，生成初始数字人音视频之前，从所述数字人形象库中获取所述目标数字人形象的音视频。

10.根据权利要求1所述的数字人音视频生成系统，其特征在于，所述系统还包括素材存储模块，其中：