CN117808945A

CN117808945A - 一种基于大规模预训练语言模型的数字人生成系统

Info

Publication number: CN117808945A
Application number: CN202410231475.5A
Authority: CN
Inventors: 刘丽
Original assignee: Beijing Fenghuo Wanjia Technology Co ltd
Current assignee: Beijing Fenghuo Wanjia Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-02

Abstract

本发明公开一种基于大规模预训练语言模型的数字人生成系统，涉及虚拟数字人技术领域，该系统包括：服务器和全息显示模块；服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块；专属大模型生成模块用于采用定制化数据集对大规模预训练语言模型进行微调得到专属大模型；预设动作几何模型生成模块用于对目标人员进行静态扫描建模得到多个预设动作几何模型；数字人形象生成模块用于根据多个预设动作几何模型生成数字人形象；个性化数字人生成模块用于将专属大模型、定制化语音和动作加载到数字人形象。本发明实现了通过个性化数字人生成模块生成通过全息显示模块显示的个性化数字人。

Description

一种基于大规模预训练语言模型的数字人生成系统

技术领域

本发明涉及虚拟数字人技术领域，特别是涉及一种基于大规模预训练语言模型的数字人生成系统。

背景技术

目前随着大规模预训练语言模型（Large-scale Pretrained Language Model）的不断发展，越来越多的行业开始基于开源的大规模预训练语言模型进行微调，并应用到垂直细分行业，并取得了突破性的成果。其中，通过对自然语言处理任务中，对于自然流畅文本的生成，把一种语言翻译成另外一种语言，理解问题并给出准确的答案，判断文本情感等领域均取得了重大的突破。而对于大语言模型与多模态的融合是提升数字人形象的重要方法，通过对大语言模型的微调与实际应用场景的结合。

各种基于大规模预训练语言模型微调的生成式应用最近一顿时间迅猛发展起来，从文字、声音、图像、视频等场景的生成应用层出不穷，而融合人工智能生成的内容（Artificial Intelligence Generated Content，AIGC）生成出来的数字人虚拟形象，在短视频平台、元宇宙或者增强现实（Augmented Reality，AR）/虚拟现实（Virtual Reality，VR）应用中往往一眼就被用户识破，达不到沉浸式体验的效果。

当前传统数字人系统构建存在制作成本大、不易个性化定制的问题。目前主流的数字人教师生成系统的内容多是取材于各个学科老师的知识储备，核心技术主要涉及图像图形学、语音合成技术、三维（3D）建模技术、视频渲染技术等。内容的制作路径还是沿袭了传统备课、课件制作、拍摄、剪辑合成等复杂的流程，每制作一个数字人相当于1:1复制了一门课，开发周期和流程往往需要大量的人力和物力，而且受限于老师的个人能力，形态表现效果往往失去了生动的体现。

发明内容

本发明的目的是提供一种基于大规模预训练语言模型的数字人生成系统，提高了数字人的个性化同时降低了制作成本。

为实现上述目的，本发明提供了如下方案：一种基于大规模预训练语言模型的数字人生成系统，包括：服务器和与所述服务器连接的全息显示模块；所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块。

所述专属大模型生成模块用于采用定制化数据集对大规模预训练语言模型进行微调，得到专属大模型。

所述预设动作几何模型生成模块用于对目标人员进行静态扫描建模，得到多个预设动作几何模型。

所述数字人形象生成模块用于对多个所述预设动作几何模型进行纹理渲染和平滑处理，形成表示数字人形象的模型状态字典。

所述个性化数字人生成模块用于将所述专属大模型、定制化语音和动作模型库中动作加载到所述数字人形象，生成通过所述全息显示模块显示的个性化数字人。

可选地，所述定制化数据集包括多个子集，多个子集包括文本数据子集和语料子集，每个子集中样本数据均包括输入数据和标签数据。

可选地，所述专属大模型生成模块训练单元和测试单元；所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练；所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试，若测试结果满足设定条件，则将训练过的大规模预训练语言模型作为所述专属大模型输出。

可选地，预设动作几何模型生成模块包括多视角点云数据采集单元和点云数据对齐融合单元。

所述多视角点云数据采集单元用于采用深度相机对目标人员进行多个预设动作进行三维数据采集，得到各预设动作的多视角点云数据。

所述点云数据对齐融合单元用于对每个预设动作的多视角点云数据进行对齐融合，得到多个预设动作几何模型。

可选地，个性化数字人生成模块还用于选择生成2D或者3D的个性化数字人。

可选地，所述大规模预训练语言模型采用昇腾910B人工智能芯片。

可选地，所述个性化数字人生成模块包括语音合成单元和多模态融合单元；

所述语音合成单元用于采用专属大模型对定制化语音进行克隆，生成所述个性化数字人的语音。

所述多模态融合单元用于对所述个性化数字人的语音、动作和表情进行连续性弥合。

可选地，还包括工作站，所述工作站与所述服务器连接，所述工作站用于向所述服务器传输所述定制化数据集。

可选地，所述全息显示模块包括麦克风阵列和音响设备，所述麦克风阵列用于采集用户的语音，所述音响设备用于为所述个性化数字人输出声音。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明采用定制化数据集对大规模预训练语言模型进行微调，得到专属大模型，降低了教学开发的成本，同时通过定制化数据集提高了数字人的个性化，另外，将专属大模型、定制化语音和动作模型库中动作加载到数字人形象，并通过全息显示模块进行显示，提高了数字人的生动性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于大规模预训练语言模型的数字人生成系统结构示意图。

图2为本发明实施例提供的一种基于大规模预训练语言模型的数字人生成系统原理示意图。

图3为本发明实施例提供的个性化数字人生成流程示意图。

图4为本发明实施例提供的大规模预训练语言模型微调流程示意图。

图5为本发明实施例提供的多模态融合过程示意图。

图6为本发明实施例提供的一种基于大规模预训练语言模型的数字人生成系统硬件结构示意图。

符号说明：1-网络接口；2-舱体顶部白光板；3-麦克风阵列；4-深度相机；5-HDMI接口和网口；6-服务器；7-工作站；8-Atlas200推理板卡；9-电源适配器；10-全息显示仓底部灯带；11-数字人教师呈现透明屏；12-音响设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本实施例提供的一种基于大规模预训练语言模型的数字人生成系统，包括：服务器和与所述服务器连接的全息显示模块；所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块。

所述模型状态字典中一个状态对应一个预设动作几何模型。

所述定制化数据集包括多个子集，多个子集包括文本数据子集和语料子集，每个子集中样本数据均包括输入数据和标签数据。输入数据可以为问题，标签数据为对应问题的回答。

所述专属大模型生成模块训练单元和测试单元；所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练；所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试，若测试结果满足设定条件，则将训练过的大规模预训练语言模型作为所述专属大模型输出。

预设动作几何模型生成模块包括多视角点云数据采集单元和点云数据对齐融合单元。

个性化数字人生成模块还用于选择生成2D、2.5D或者3D的个性化数字人。

所述大规模预训练语言模型采用昇腾910B人工智能芯片。

所述个性化数字人生成模块包括语音合成单元和多模态融合单元。

所述语音合成单元用于采用专属大模型对定制化语音进行克隆，生成所述个性化数字人的语音；所述定制化语音从音频库中选择。

所述多模态融合单元用于基于专属大模型，采用训练的方式对所述个性化数字人的语音、动作和表情进行连续性弥合。

所述全息显示模块包括麦克风阵列和音响设备，所述麦克风阵列用于采集用户的语音，所述音响设备用于为所述个性化数字人输出声音。

大规模预训练语言模型的微调基于昇腾芯片训练和推理平台实现，大规模预训练语言模型的微调也是个性化定制的过程，对大规模预训练语言模型进行微调是通过Word、PDF等文本的投喂，以及声音、图像的投喂，从而实现人工智能模型训练，得到教育行业的专属数字人教师（个性化数字人），其中对于自然语言处理（NLP）是是最重要的一部分，其中数字人教师的文字语料的训练模型主要步骤包括模型部署和微调两部分。

依托微调之后的专属大模型，采用问答的形式生成数字人教师模型的语料库和模型库。对于语音可以生成各种行业内所需的男女音色不一样的风格声音和多国语言；可以生成2D、2.5D、3D数字人教师模型；对于人物风格，可生成写实、古今、卡通动漫等多种形象。该部分的专属大模型生成系统（个性数字人生成系统）包括：知识问答匹配模块、学生意图识别模块、交互语义动作分析模块和模型生成模块。

知识问答匹配模块，用于实现数字人教师与学生之间的知识问答互动；学生意图识别模块主要是根据数字人教师与学生对话过程中的上下文理解提问者的意图，从而引导系统得出最优回答；交互语义动作分析模块主要是结合学生在与数字人交互过程中的文字和微表情进行分析，利用微调后的大模型的语义分析能力，识别并分析用户的表情和语言特征。模型生成模块主要负责对数字人教师形象、分解动作和背景进行建模渲染，包括2D、2.5D、3D数字人教师的风格皮肤、风格服饰、脸部造型、皮肤等。

本发明中多模态融合，主要是用于学习教师的身形、语音、声色、动作等，对微调大模型形成的语言、声音、图像、动作与使用环境的融合，以提供多种形态的定制化数字人教师模型。主要根据数字教师个人投喂到大模型中的语料和视频进行相应的训练，获得本科目课程所需要的知识库、动作库和嘴型，最终输出的是可供解码的音频和动作编码。

多模态融合单元基于生成对抗网络（Generative Adversarial Network，GAN）的判别器在音频-口型+动作的同步检测，实现个性化数字人的语音、动作和表情的连续性弥合。GAN网络训练在上下文的基础上，根据多帧图像来多次循环评估口型和动作和祛除伪影，此处的算法基于wav2lip专家口型和动作的同步判别器进行目标嘴型和动作的重建。

GAN网络训练部分包括一个克隆音频/动作生成器和两个判别器，这里的两个判别器分别是对个性化的音频和口型与动作同步判别器和视觉质量判别器，两者达到预设效果后，在GAN训练过程中保持冻结，并输出一个可供调用的音频/动作字典，之后解码使用即可。

全息显示模块，主要是由透明屏幕显示设备和数字人虚拟全息舱组成的设备，依托大模型微调的训练服务器输出的内容，其中内置的显示屏幕为上电透明高清透明屏幕，全息效果由内部构图算法实现主要内容展示，通过投影协同屏显来制造全息氛围，实现2D、2.5D、3D虚拟数字人的全息化优化。全息显示模块内置Android和Windows双系统，登录上电后可根据需要选择。

如图6所示，全息显示模块的全息显示舱包括两个网络接口1，一个网络接口1可用于切换视频输入源，另外一个网络接口1用于数据通信。全息显示舱包括舱体顶部白光板2、麦克风阵列3、深度相机4、HDMI接口和网口5、Atlas200推理板卡8、电源适配器9、全息显示舱底部灯带10、数字人教师呈现透明屏11和音响设备12。

舱体顶部白光板2用于制造立体氛围灯。麦克风阵列3用于对话时候的交流和语音唤醒设备。深度相机4包括被动式红外摄像头和一个普通摄像头，用深度相机4于动作识别交互使用。HDMI接口和网口5，用于接收服务器6传输过来的视频源，以及与全息舱通信。

全息显示舱与服务器6连接，服务器6与工作站7连接。服务器6内置训练服务器6、推理服务器6和存储设备，服务器6用于大规模预训练模型的微调。工作站7用于教师平时传输资料，标注等训练前的模型加载准备工作。

电源适配器9用于全息显示舱的供电。数字人教师呈现透明屏11用于显示系统信息和图像信息。音响设备12用于个性化数字人与用户交互时播放声音。

本发明一种基于大规模预训练语言模型的数字人生成系统为训练和推理功能的一体机，具备训练、推力和存储功能，所述大规模预训练语言模型的训练以昇腾910B人工智能芯片为核心。

本发明软硬件协同优化实现集训练和推理为一体的基座，能够为数字人教师提供强大的计算能力和稳定的数据存储,为大模型的训练和应用提供了可靠的支持。为使用者提供端、边侧服务，实现快速部署和去云端化。

如图2所示，本发明一种基于大规模预训练语言模型的数字人生成系统的工作过程包如下步骤。

步骤1：系统上电全链路检测。训练推理服务器启动并进行硬件自检，全息显示设备（全息显示模块）进行自检，完成通信、训练、推理简单Demo测试之后系统语音提示正常，若之前已经训练好专属数字人教师授课模型（专属大模型），则系统会进入个性化干预，选择与该教师匹配的数字人，多模态仓库准备好，然后全息显示设备上的喇叭播放语音，并问使用者是否开始执行该课程；若无授课模型，在需要教师提供足量的训练语料、文本资料和视频等数据集，在标注一部分之后，从电脑导入训练推理服务器当中的学习系统开始做大规模训练，然后生成数字人教师多模态融合大模型（专属大模型），最终等待后端指令。

步骤2：系统检测到无授课模型。则进行文本资料、声音和视频数据集的填充，然后对该部分声音转录和特征提取，视频进行特征动作记录，文本资料进行文本分析、特征修剪和情感分析，数据进行学习。首先全息显示舱设备会通过音箱播放语音提醒用户进行多模态数据集准备，主要包括文本类课本数据、习题数据；多段多角度视频/声音片段；常见习题知识内容问答习惯，答案回答检索知识；教师表情录制，教师元音、辅音、高声、低声音频片段录制；语音唤醒全息显示舱进行静态扫描建模。

步骤3：扫描建模生成定制化数字人教师模型。主要是要求使用者靠近全息显示舱，然后语音唤醒全息舱进行静态扫描建模，静态扫描建模需要摆特定的几个动作，使用深度相机对特定动作的图像进行三维数据收集，形成带三维坐标的点云数据；依靠特定动作的多视角融合进行点云数据的对齐融合，从而创建数字人教师连续的三维点云；结合步骤2的多角度视频数据进行学习，然后通过点云生成数字人教师的动作几何模型；再之后通过纹理渲染的方式根据风格的不同，把颜色信息映射到三维模型（动作几何模型）中，然后对模型再度进行平滑表面处理，形成各种动作、表情等组成的模型状态字典，从而形成可以播放的数字人，之后全息显示舱把几个动作的图像回传给学习系统进行数字人教师的图像快速弥合，生成基于被扫描人的数字人教师，然后通过全息舱进行显示。若用户不满意，则需要重新进行一次静态建模拍摄，直到数字人教师建模算法优化到理想效果为止。过程如图3所示。

步骤4：其中对于问答系统首先要做的是Python环境下对数字人教师相关的语料库、动作模型库进行加载安装；其次就是下载个性化数字人模型；再次就是加载模型的状态字典；最后就是使用这些模型通过自定义输入进行模型的调用以获得输出，流程如图4所示。

步骤5：开源大规模预训练语言模型的微调。该部分用来微调预训练的自然语言处理（NLP）模型，主要是数字人教师的个性化语料内容的加载，具体基于步骤2收集到的教师个性化定制课程进行部分参数微调训练和专业科目的验证优化，以生物课程举例来说，就是需要收入本门课程所要讲解知识的所有书本文字内容和对应习题的文本输入以及标签，这就是数据准备阶段；另外还需要对个性化数字人教师的投喂数据进行预处理，主要包括文本的向量化和无关特征的剔除；为了更好的训练，还需要自定义优化器和损失函数，之后便开始训练大规模预训练语言模型；在训练结束之后，需要验证该模型的优劣，从结果的反馈上不断的调整模型参数，优化内容输出，即可得到专属大规模。

步骤6：大规模预训练语言模型微调系统验证。依托微调之后的专属大模型，采用问答的形式生成数字人教师的语料库和数字人教师风格模型库。主要包含以下几个子功能的验证和微调，按照模块划分可以分为以下几步去同步一一验证。

1）知识问答匹配模块。该模块是数字人教师专属大模型的核心功能，也是专属大模型的主要应用场景之一。知识问答匹配模块通过将大量的课本知识和专业课的语料数据与海量的知识库进行匹配，能够实现数字人教师与学生之间的知识互动，作为快速准确地给出答案的基础。在知识问答匹配模块中，专属大模型能够理解并分析学生提出的问题，实现语音转录转换为文字再反向给予答案，精准匹配到最优回答，提高对话的流畅度。具体验证算法模块是否成功，以用户实际问题和感受评判。

2）学生意图识别模块。该模块主要是根据数字人教师与学生对话过程中的上下文理解提问者的意图，从而引导系统得出最优回答。目前主要是基于通用大模型的自然语言处理能力，基于开源模型微调之后的专属大模型分析交互者的语言特征，最快时间分析出交互者意图，并根据意图给出文字和动作模型的解决方案，用以提高真人感。本模块用于与嘴部动作和人脸表情进行适配，作为前置干扰项。举例说明：学生笑着问了一个悲伤的问题，系统会通过人脸和表情识别判断出这位学生的意图是挑逗系统，而根据学生的问题内容确认的喜怒哀乐与表情动作不一致，从而断定学生的意图是什么，此处系统就不会去回答学生提出的问题了，反而是提示学生好好提问，不要挑逗数字人教师。

3）交互语义动作分析模块。交互语义动作分析模块主要是结合学生在于数字人交互过程中的文字和微表情进行分析，利用微调后的大模型的语义分析能力，识别并分析用户的表情和语言特征，通过对交互语言进行理解和分析，从而提供与对话进行交流时，数字人该有的情绪变化和肢体动作，交互语义动作分析模块主要用于非面部表情以外的其他动作前置干扰项。

4）模型生成模块。模型生成模块主要负责对数字人教师形象、分解动作和背景进行建模渲染，包括2D、2.5D、3D数字人教师的风格皮肤、风格服饰、脸部造型、皮肤等。通过微调后的大模型将交互问答生成的文本转换为数字人教师的表情和姿势参数序列模型；对于数字人教师的表情和姿势参数转换为可渲染的图像素材矩阵和视频素材集。该部分完成学习之后通过全息显示舱内的任务进行动作展示，用户根据体验评判是否还需要再优化模型。

步骤7：多模态融合。各部分模型优化全部结束之后，进行多模态的融合，输出的是可供解码的音频和动作编码。在系统的设计中，本部分主要包括语音合成和多模态融合2个子功能模块。其中语音合成部分主要是对数字人教师讲解和交互过程中的文字实现不同风格的生成，主要是基于微调后的大模型生成，本轮训练是为了获得克隆的要素，对于语音的克隆主要是依靠大模型对定制化的语音和音色进行模仿和克隆；多模态融合则是对语音、动作、表情进行连续性弥合，使用投喂的多帧图像来评估预测口型和肢体动作的同步，基于时间上下文信息，评估口型和动作动态变化质量，祛除数字人教师口型生成过程中存在伪影，完成音频和口型的正确对应关系。创造更逼真，身临其境的体验，多模态融合单元具体融合原理和详细步骤如图5所示。

上文中的配对学习、非配对学习是对文本转录成声音的2种处理方法，主要是一种输入-输出的映射关系，相当于把大量的文本材料映射为可以与模型的嘴型、动作完美匹配的大型音频剪辑表或者音频字典，此处抽取视频中的声音和所授科目的文本中的文字进行配对学习做跨模态潜在对齐预训练（CLAP）来映射文本和音频。对于未曾讲授过的知识使用潜在扩散模型（LDM）合成声音，从而绕过了繁琐的数据集标记，从而在音频字典中自动补充，摆脱模型限制范式。本部分依赖于一个合成逼真原数字人音效、口音、音色的自我监督预训练方案，从而合成可控的高质量声音的能力。这2种处理方法是把这些预生成的声音压缩重建音频波形，之后通过变分自编码器（VAE）将音频频谱图压缩成一个平滑的潜在空间，解码器则是利用从训练数据中学习的口音模式将潜在点转换回逼真的数字人音频，从而赋予了系统富有模仿和生成的映射能力。

对于重建知识库和表情库主要是基于使用者人脸重建音频-口型+动作的同步，也就是基于生成对抗网络（Generative Adversarial Network，GAN）的判别器在音频-口型+动作的同步检测。GAN网络训练在上下文的基础上，根据多帧图像来多次循环评估口型和动作和祛除伪影，此处的算法基于wav2lip专家口型和动作的同步判别器进行目标嘴型和动作的重建。

通过这种个性化声音生成器和专家口型和动作的同步判别器的共同作用，可以较好生成任意目标人脸对象。GAN网络训练部分包括一个克隆音频/动作生成器和两个判别器，这里的两个判别器分别是对个性化的音频和口型与动作同步判别器和视觉质量判别器，两者达到效果后，在GAN训练过程中保持冻结，并输出一个可供调用的音频/动作字典，之后解码使用即可。

步骤8：数字人教师应用系统成型。呈现前面七个步骤生成的内容，并显示定制化的数字人教师的画面，其中全息显示模块的打造主要在于全息舱的设计上，该系统主要由透明屏幕、全息舱舱体、深度相机、麦克风阵列、射灯、Atlas 200I板卡组成。其中透明屏幕用于显示个性化数字人，非颜色部分为透明屏，可以看进舱内；全息舱体用于制造立体感，为长方体空腔，透过射灯照射显示屏可产生影子至舱体；深度相机用于捕捉交互人的动作、神态；麦克风阵列用于唤醒和采集声音；喇叭用于播放声音；Atlas 200I用于深度相机的识别。从用户角度而言，能看到和交互的只有该部分。并且可以为教育机构提供模型即服务（MaaS），让用户根据自己对数字人教师的个性化表达，提供更加便捷化的体验。

用户应用本发明一种基于大规模预训练语言模型的数字人生成系统的具体过程中。

一、先给设备上电，此时执行层开始进行各种硬件自检和专属大模型的检测与测试，需要在工作站上进行简单的demo测试，用以手动检查决策层和处理层是否正常工作，若是则证明自己的专属大模型可以继续进行后续的工作。若使用者想做微调，那么只需要按照工作站的屏幕上的步骤依次进行下面的工作即可。

二、数据集准备。需要使用者先走至全息显示舱正对面，对自己的得特定动作进行拍摄，也包括声音的录制，此处用于学习建模，后续数字人教师的日常动作建模使用。完成后使用者重回工作站屏幕面前，向工作站输入文本类课本数据、习题数据、多段多角度视频/声音片段、常见习题知识内容问答习惯、答案回答检索知识；教师表情录制，教师元音、辅音、高声、低声音频片段录制以准备好所需要的数据集样本。

三、模型加载。用户根据系统提示，Python环境下对数字人教师相关的库进行加载安装，下载相应的模型然后加载进去，开始对模型进行微调训练，此处可以进行全参微调，视训推一体机的算力大小而定。

四、按照工作站上的指示，一步步进行具体的微调工作，包括模型的训练优化再训练再优化，然后尽心模型验证，最终获得一个最优化的模型，供使用者进行验证。

五、对微调训练出来的专属模型进行验证。首先是知识问答匹配模块的验证，使用者可以根据自己标注的特定问题进行提问，看微调后的大模型是否能够精准回答与创造性回答；学生意图识别模块主要是根据上下文的对话，系统自动分析提问者的意图，除了看问答的恢复以外，此处也需要关注数字人教师回答问题时候的神态嘴型是否正常；对于交互语义动作分析模块使用过程中会根据交互语义对动作进行分析，结合使用者与数字人教师交互过程中的文字和微表情进行验证分析用户的表情、动作和语言特征是否出现长时间停滞；正常使用时模型生成模块呈现数字人教师形象、分解动作和背景进行建模渲染，用户可就生成的2D、2.5D、3D数字人教师的风格皮肤、风格服饰、脸部造型、皮肤等进行验证，若没达到理想视觉效果可再优化模型。

六、多模态融合下的正常交互。在所有子功能模块全部满足要求时，使用者通过前端的全息显示舱与数字人教师进行交互，执行授课教学任务，在授课过程中个性化数字人可随时被打断，对于教学过程中听众的动作和表情进行实时分析，对于有监控条件的多功能教室，系统亦可接入最大15路1080P摄像头视频在本地做端侧推理，对教学质量进行一个实时反馈预测，避免出现老师一直在讲课，学生走神、睡觉、打闹等问题出现。

七、对于承担不起购买训推一体机系统的用户，可以通过只购买全息显示舱的形势通过MaaS系统接入，用户只需按照系统说明提供数据进行训练即可接入数字人教师大模型到自己的软件运营服务（SaaS）上，满足定制化开发服务。

八、系统硬件平台兼容国内外训练和推理板卡，对于部分模型需要做一定的适配迁移工作才能正常运转。

本发明基于大规模预训练语言模型实现数字人教师定制化服务，实现AI模型训练的便捷化；实现生成式多模态数据的融合，包括融合数字人教师的形态、动作、表情、声音与环境的融合消除机械的翻译腔，消除呆滞的数字人形象既视感；实现了2D、2.5D、3D虚拟数字人的全息化显示；实现了数字人教师的应用模式从提供API/SDK形式到大模型微调提供MaaS的转变，让使用者成为开发者，改变了目前数字人教师的生成形式和展示形式，大大缩短了个性化定制的开发周期，同时赋予数字人教师在讲课过程中的灵动感，增加交交互式数字人虚拟全息舱，无需佩戴3D眼镜就可以感受到全息特效影像，打造专属的教学沉浸感，让学习的体验更为奇妙。

本发明基于大规模预训练语言模型微调、多模态生成技术和全息显示技术，提升了个性化数字人教师的开发效率，丰富了数字人的风格、语言，解决了数字人教师显示过程中易出戏问题，保证了数字人教师在行业内的易用性和可靠性，大大缩短了个性化定制开发时间。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大规模预训练语言模型的数字人生成系统，其特征在于，包括：服务器和与所述服务器连接的全息显示模块；所述服务器包括专属大模型生成模块、预设动作几何模型生成模块、数字人形象生成模块和个性化数字人生成模块；

所述专属大模型生成模块用于采用定制化数据集对大规模预训练语言模型进行微调，得到专属大模型；

所述预设动作几何模型生成模块用于对目标人员进行静态扫描建模，得到多个预设动作几何模型；

所述数字人形象生成模块用于根据多个所述预设动作几何模型，通过全息显示模块生成数字人形象；

2.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，所述定制化数据集包括多个子集，多个子集包括文本数据子集和语料子集，每个子集中样本数据均包括输入数据和标签数据。

3.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，所述专属大模型生成模块训练单元和测试单元；所述训练单元用于利用所述定制化数据集对所述大规模预训练语言模型进行训练；所述测试单元用于对所述训练单元输出的训练过的大规模预训练语言模型进行测试，若测试结果满足设定条件，则将训练过的大规模预训练语言模型作为所述专属大模型输出。

4.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，预设动作几何模型生成模块包括多视角点云数据采集单元和点云数据对齐融合单元；

所述多视角点云数据采集单元用于采用深度相机对目标人员进行多个预设动作进行三维数据采集，得到各预设动作的多视角点云数据；

5.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，个性化数字人生成模块还用于选择生成2D或者3D的个性化数字人。

6.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，所述大规模预训练语言模型采用昇腾910B人工智能芯片。

7.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，所述个性化数字人生成模块包括语音合成单元和多模态融合单元；

所述语音合成单元用于采用专属大模型对定制化语音进行克隆，生成所述个性化数字人的语音；

8.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，还包括工作站，所述工作站与所述服务器连接，所述工作站用于向所述服务器传输所述定制化数据集。

9.根据权利要求1所述的基于大规模预训练语言模型的数字人生成系统，其特征在于，所述全息显示模块包括麦克风阵列和音响设备，所述麦克风阵列用于采集用户的语音，所述音响设备用于为所述个性化数字人输出声音。