CN116309992A

CN116309992A - 一种智能元宇宙直播人物生成方法、设备和存储介质

Info

Publication number: CN116309992A
Application number: CN202310160823.XA
Authority: CN
Inventors: 陈鸿雁; 顾连生; 申凯
Original assignee: Beijing Quanjie Technology Co ltd
Current assignee: Beijing Quanjie Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-06-23

Abstract

本发明公开了一种智能元宇宙直播人物生成方法、设备和存储介质，该方法包括：分别训练语音识别模块、人像生成模块、动作模拟模块、妆容模拟模块和服饰模拟模块，得到多模态数据；根据多模态数据，将人物的多模态数据转换成统一格式；将转换后的多模态数据输入到第一多模态模型中；在第一多模态模型中所有数据同时进行训练，得到稳态扩散模型；将稳态扩散模型迁移到第二多模态模型中；先分别训练各个模块，再将他们重新组合成一个大的模型，即可用作生成不同风格、适应不同场景的大统一元宇宙直播数字人，实现各领域联合训练，实现全局最优，使得系统能够充分利用各个模块的优势，让模型发挥最大表征能力，实现人物更强的表现能力。

Description

一种智能元宇宙直播人物生成方法、设备和存储介质

技术领域

本发明涉及直播技术领域，更具体地，涉及一种智能元宇宙直播人物生成方法、设备和存储介质。

背景技术

元宇宙(Metaverse)是人类运用数字技术构建的，由现实世界映射或超越现实世界，可与现实世界交互的虚拟世界，具备新型社会体系的数字生活空间。元宇宙是真实世界的数字孪生镜像，人们可以在元宇宙空间虚拟又真实的与外界交互。人们交互的对象可以是另外一个人、环境、虚拟人乃至万事万物。为了让元宇宙更好的与人交互，数字直播人是一个非常好的选择。数字人是利用计算机技术对人体的形态和功能进行虚拟仿真的技术，数字人能够显著提升应用的交互性，增强智能信息服务的智能化水平。随着人工智能技术的不断突破，数字人的形象、表情、表达正在逐渐比拟真人。然而，如何让数字直播人语言变得和真人一样灵活多变，动作栩栩如生，妆容可以随着场景无缝切换，服装配饰可随意搭配组合，布料材质逼真，尤其是在元宇宙空间里，场景环境变换多端，对数字人要求相比其它单一直播场景要求更高，这是一个非常大的挑战。

现有文献1(公告号：CN115082602A)公开了一种生成数字人的方法、模型的训练方法、装置、设备和介质，涉及人工智能领域，具体涉及自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等技术领域，可应用于元宇宙等场景。实现方案为：获取素材内容；基于预训练的场景划分模型，从素材内容中确定多个场景，其中，多个场景中的每个场景分别对应于素材内容中的一个具有完整语义信息的内容片段；以及对于多个场景中的每个场景，基于对应的内容片段，确定该场景对应的目标内容；基于对应的目标内容，确定该场景的场景标签信息；以及基于场景标签信息，配置特定于该场景的数字人。但是，该方法仅针对场景划分模型，无法兼顾到人物的语言、形象、动作、妆容和服饰的多方面需求，使人物整体更灵活多变，能够满足不同场景需求。

发明内容

有鉴于此，本发明提供了一种智能元宇宙直播人物生成方法、设备和存储介质，能够用作生成不同风格、适应不同场景的大统一元宇宙直播数字人。

本发明提供了一种智能元宇宙直播人物生成方法，包括：

分别训练语音识别模块、人像生成模块、动作模拟模块、妆容模拟模块和服饰模拟模块，得到多模态数据；

根据所述多模态数据，将人物的所述多模态数据转换成统一格式；

将转换后的所述多模态数据输入到第一多模态模型中；

在所述第一多模态模型中所有数据同时进行训练，得到稳态扩散模型；

将所述稳态扩散模型迁移到第二多模态模型中。

可选的，所述语音识别模块采用端到端的语音识别模型进行训练。

可选的，所述人像生成模块采用生成对抗网络进行训练。

可选的，所述动作模拟模块采用物理学模拟技术和运动学模拟技术进行训练。

可选的，所述妆容模拟模块采用图像处理技术和计算机视觉技术进行训练。

可选的，所述服饰模拟模块采用图像处理模块和计算机对于语音识别模块进行训练。

可选的，所述多模态数据包括：语音数据、语言数据、风格分类数据、人像数据、动作数据、妆容数据和服饰数据。

本发明还提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储所述处理器可执行指令，所述处理器被配置为执行上述任一项所述的智能元宇宙直播人物生成方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现上述任一项所述的智能元宇宙直播人物生成方法。

与现有技术相比，本发明提供的一种智能元宇宙直播人物生成方法、设备和存储介质，至少实现了如下的有益效果：

本发明提供的一种智能元宇宙直播人物生成方法、设备和存储介质，基于众多AI(人工智能，ArtificialIntelligence)技术，先分别训练各个模块，再将他们重新组合成一个大的模型，通过将各个模块组合成一个大模型，即可用作生成不同风格、适应不同场景的大统一元宇宙直播数字人，实现各领域联合训练，实现全局最优，使得系统能够充分利用各个模块的优势，让模型发挥最大表征能力，实现人物更强的表现能力。

当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本实施例提供的一种智能元宇宙直播人物生成方法的流程图；

图2是本实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，图1是本实施例提供的一种智能元宇宙直播人物生成方法的流程图；本实施例提供了一种智能元宇宙直播人物生成方法，包括：

S1，分别训练语音识别模块、人像生成模块、动作模拟模块、妆容模拟模块和服饰模拟模块，得到多模态数据；

具体的，步骤S1为各模块分别训练，需要分别对语音识别模块、人像生成模块、动作模拟模块、妆容模拟模块和服饰模拟模块进行训练，使人物达到足够的表现能力；

其中，语音识别模块采用端到端的语音识别模型进行训练；语音识别模块可以为声学模型和语言模型；在语音识别模块的训练过程中需要大量的语音样本和对应的文本标签，运用大量语音数据训练基础语音模型；在使用时首先对输入的语音进行预处理，然后输入模型中识别语音对应的文本；

语音识别模块的训练方法，具体包括：1.准备大量语音识别数据，包括音频、文本标注等信息；2.使用深度学习技术，如LSTM(长短期记忆网络)、GRU(门循环单元)等，训练语音识别模型，使其能够从音频中识别出对应的文本；3.使用验证数据对模型进行评估，以确定模型的准确性。

语音识别模块的训练结果：1.可以识别出输入音频的文本，并与标注文本进行对比，计算出识别准确率。2.通过评估，可以确定该模型的准确性。如果识别准确率不理想，则需要对模型进行改进，以提高其准确性。

语音识别模块的构建方法，具体包括：音频数据预处理：对音频数据进行预处理，如降噪、分帧等；特征提取：使用算法提取音频数据中的特征；训练语音识别模型：使用大量语音数据训练语音识别模型，以得到语音识别模型的模型参数；测试语音识别模型：使用测试语音数据对语音识别模型进行评测，评测模型的性能；应用语音识别模型：使用语音识别模型对新的音频数据进行语音识别。

以上是语音识别模块的基本构建流程，在一些其他实施例中，可以使用不同的算法、不同的数据集、不同的评测方法等。

人像生成模块采用生成对抗网络(GAN)进行训练；在人像生成模块的训练过程中需要大量的人像图片样本，通过扫描大量人像数据训练一个人像模型；在使用时根据输入条件生成一张人像图片；人物生成模块可以根据输入条件生成一张人物图片，使得系统能够生成个性化的人物图片；

人像生成模块的训练方法，具体包括：准备大量高质量人像图像数据集；使用生成对抗网络(GAN)或其他生成模型；设置损失函数，以评估生成图像与真实图像的差异；开始训练，不断调整模型的参数，以最小化损失函数的值；在数据集上进行训练，不断优化模型。

人像生成模块的训练结果，具体包括：模型能够生成质量较高的人像图像；通过观察损失函数的值，评估生成图像与真实图像的差异；通过与真实图像的对比，评估模型生成人像图像的准确度；通过人工评估，评估生成图像的视觉质量。

人像生成模块的构建方法，具体包括：数据收集：需要收集大量的人像数据，包括人脸图像、姿态等多种特征；数据预处理：对于收集的数据进行预处理，包括标准化图像大小、去除噪声、数据标准化等；模型训练：选择合适的生成模型，如GenerativeAdversarialNetworks(GANs，生成式对抗网络)，使用预处理后的数据对模型进行训练，使模型学会如何生成人像；评估与优化：评估模型的效果，如果不满意，对模型进行优化，提高模型的生成质量；模型部署：最终，将训练好的模型部署在应用环境中，实现人像生成的功能。

动作模拟模块采用物理学模拟技术和运动学模拟技术进行训练；在动作模拟模块的训练过程中需要大量的动作数据，利用人在各种运动状态下的数据进行录像得到的数据训练出来的模型；在使用时根据输入条件以动画形式模拟人物的动作；

动作模拟模块的训练方法可以使用动作识别技术，例如卷积神经网络(CNN)或长短时记忆网络(LSTM)和关键点检测技术；首先，需要收集大量动作数据，包括人体关键点和动作标签；然后，将该数据分为训练集和测试集，并对训练集进行训练；在训练过程中，算法通过不断比较预测结果与实际结果的差异，来调整模型的参数，使其逐渐接近正确结果；当训练结束后，使用测试集对模型进行评估，评估结果反映了模型在真实数据上的表现情况。

动作模拟模块的训练结果是一个已经训练好的动作模拟模型，该模型可以通过输入人体关键点数据，生成对应的动作模拟；可以根据训练结果的评估情况，评估模型的准确性，并在必要时进行进一步的调整和优化。

动作模拟模块的构建方法，具体包括：数据准备：准备大量动作数据，如人体关节坐标、姿态角度、骨骼长度等；模型选择：选择适合动作模拟的模型，如骨骼动画模型、网格动画模型等；训练：使用数据训练模型，以生成动作数据；评估：对训练后的模型进行评估，评估其在模拟动作的准确性；优化：如果评估结果不理想，通过改进模型结构或修正训练数据来提高模型效果；应用：在直播中使用动作模拟模型，生成动态的人物动作。

以上步骤提到的模型、数据、评估等技术均属于人工智能领域。

妆容模拟模块采用图像处理技术和计算机视觉技术进行训练；在妆容模拟模块的训练过程中需要大量的妆容数据，利用人的不同妆容进行组合录像得到数据训练一个妆容模型；在使用时根据输入条件以动画形式模拟人物的妆容变化；妆容动作模拟模块可以根据输入条件以动画形式模拟人物的妆容变化和动作，使得系统能够向说话者展示更生动的妆容和动作效果；

妆容模拟模块的训练方法可以利用生成式对抗网络(GAN)；首先需要收集大量人脸妆容图像数据，分为两部分：生成器生成的虚假图像数据和真实的人脸妆容图像数据；生成器和判别器的目的是对抗性训练，生成器通过生成与真实人脸妆容图像数据相似的虚假数据来欺骗判别器，而判别器则试图通过识别出生成器生成的虚假数据来使生成器不能很好地生成相似的图像数据；训练结束后，生成器将具有生成人脸妆容图像的能力。

妆容模拟模块的训练结果表现为生成器生成的人脸妆容图像与真实人脸妆容图像的相似度；如果训练效果良好，生成器生成的图像应该与真实图像相似，并且判别器的错误率应该很低；在训练的后期，生成器的生成结果应该不断提高，而判别器的错误率应该不断降低。

妆容模拟模块的构建方法，具体包括：数据准备：收集大量具有不同妆容的人脸图像数据，并对这些数据进行标注，将妆容分类；模型设计：设计人脸妆容生成模型，可以是生成对抗网络(GAN)、卷积神经网络(CNN)等；训练模型：使用标注数据训练模型，评估模型的效果；模型评估：评估模型生成的人脸妆容图像与真实图像的相似度；模型改进：根据评估结果，对模型进行改进，提高生成的人脸妆容图像的质量；部署应用：将模型部署到元宇宙直播系统中，作为生成人物妆容的模块。

以上是妆容模拟模块的具体实施过程，有助于生成逼真的人物妆容。

服饰模拟模块采用图像处理模块和计算机对于语音识别模块进行训练，通过给人在不同状态下换上不同服饰，录得大量数据，训练出服饰模型，并且将语音转化为文本，使得系统能够理解说话者的意图。

服饰模拟模块的训练方法，具体包括：收集大量关于服饰的图片数据，包括各种风格、颜色和搭配的服饰图片；对服饰图片数据进行标注，确定服饰的种类、颜色、搭配等信息；使用深度学习技术，如卷积神经网络，训练服饰模拟模块；通过反复训练，调整模型的参数，使得模型达到最佳效果。

服饰模拟模块的训练结果为服饰模拟模块可以生成各种风格、颜色和搭配的服饰图片；模型能够根据输入的服饰信息，生成高质量的服饰图片；模型具有很高的泛化能力，能够生成出多种服饰风格的图片；通过不断训练，模型的效果可以进一步提高。

服饰模拟模块的构建方法，具体包括：数据准备：需要准备足够的服饰数据，包括不同服饰的图片、形状、颜色等信息；模型训练：使用数据训练深度学习模型，使其能够识别服饰的形状、颜色等信息；模型评估：使用测试数据评估模型的性能，如准确率、召回率等；模型部署：将训练好的模型部署到生成服饰的系统中；数据输入：在生成服饰的系统中输入所需的服饰数据，包括服饰的形状、颜色等信息；生成结果：系统根据输入的数据生成服饰的图片。

上述步骤可以用不同的深度学习模型，如卷积神经网络(CNN)、生成对抗网络(GAN)等来实现。

S2，根据多模态数据，将人物的多模态数据转换成统一格式；

具体的，步骤S2为数据转换，将人物的语音、语言、风格分类、人像、动作、妆容、服饰的多模态数据转换成统一格式，以便输入到后续步骤中的大规模多模态模型中；多模态数据包括：语音数据、语言数据、风格分类数据、人像数据、动作数据、妆容数据和服饰数据。

S3，将转换后的多模态数据输入到第一多模态模型中；

具体的，步骤S3为多模态数据输入，将转换后的多模态数据输入到大规模第一多模态模型中，以便进行训练；多模态模型又称为多模式模型、多媒体模型或跨模态模型，是一种用于融合多种数据来源(如图像、音频、文本等)的模型；多模态模型是将多个不同模态数据(如语音、图像等)进行融合，生成一个统一的多模态表示的过程；多模态模型可以从多个数据来源提取信息，并将其结合到一个综合的模型中，以获得更准确的预测，多模态模型在诸如语音识别、图像识别、情感分析等应用中发挥着重要作用。

具体而言，将数据输入到第一多模态模型中的方法，包括：1.数据预处理：对于不同模态数据，需要预处理数据，将其转换为统一格式；2.特征提取：通过使用不同的特征提取技术，提取多模态数据的特征；3.融合：将不同模态的特征融合在一起，生成多模态的表示；4.训练：使用多模态的数据和多模态的表示进行模型训练；5.预测：使用训练好的第一多模态模型，对新的多模态数据进行预测，生成统一的多模态表示；上述步骤需要经过多次的调试，以获得最佳的多模态表示和模型性能。

S4，在第一多模态模型中，所有数据同时进行训练，得到稳态扩散模型；

具体的，步骤S4为各领域联合训练，在大规模第一多模态模型中，各领域(语音、语言、风格分类、人像、动作、妆容和服饰)中所有的数据同时进行训练，实现各领域的联合训练，让模型在全局最优的情况下发挥最大的表现能力。

具体而言，在第一多模态模型中，使用多模态数据和多模态的表示的具体训练过程，包括：1、收集多模态数据，多模态数据包括：语音数据、图像数据、动作数据等；2、对多模态数据进行预处理，提取出有用的信息，并对每一种模态的数据进行特征提取；3、对多模态数据建立多模态的表示，多模态的表示包括：语音表示、图像表示、动作表示等；4、训练第一多模态模型，利用多模态数据和多模态的表示，通过机器学习算法训练出一个第一多模态模型；5、评估第一多模态模型，利用测试数据对训练出的第一多模态模型进行评估，检验模型的准确性；6、使用第一多模态模型，对新的数据进行分析、预测等任务，使用多模态的信息进行决策等。

S5，将稳态扩散模型迁移到第二多模态模型中；

具体的，步骤S5为模型迁移，将稳态扩散模型(stablediffusion模型)迁移到第二多模态模型中；其中，第一多模态模型和第二多模态模型均为现有的预制模型，第二多模态模型相较于第一多模态模型，是一个更复杂版本、参数更多的多模态模型；稳态扩散模型也叫广义动力学系统模型，是一种用来描述复杂系统中状态随时间变化的数学模型，是一种基于网络理论的模型，用于描述信息，病毒等扩散的过程；该模型通过描述系统内各个元素之间相互关系，以及元素内部状态变化，来模拟系统的状态随时间的变化趋势；在生成智能元宇宙直播人物的场景中，稳态扩散模型可用来模拟人物的各个模态(语音识别、人像生成、动作模拟、妆容模拟和服饰模拟)之间的相互影响和整体的状态变化。

具体而言，稳态扩散模型的构建方法包括：1、网络构建，首先建立一个图结构来表示扩散的网络，包括节点和边的构建；2、节点属性定义，为每个节点定义一个状态属性，以及其他相关的属性；3、动力学模型的构建，通过对节点之间相互影响的描述来构建动力学模型，并用于预测状态的演变；4、数据驱动的模拟，利用构建的动力学模型对扩散进行模拟，并利用实际数据来验证模型的准确性；5、结果分析,对模拟的结果进行分析，以评估模型的效果，并进行相应的修改。

稳态扩散模型是一种图卷积神经网络，用于在图形和结构上执行预测；将稳态扩散模型迁移到第二多模态模型中，具体包括：1、预处理，对训练数据进行预处理，以提取需要的特征；2、特征选择，根据训练数据的预处理结果，选择关键特征，并使用这些特征来训练模型；3、训练，使用预处理的数据进行模型训练，以最小化误差并预测出最佳结果；4、评估，评估训练的模型，以确定模型的准确性和可靠性；5、迁移，将训练好的模型迁移到第二多模态模型中，以实现对多模态数据的预测；模型训练和评估过程需要多次迭代，以确保最终的模型具有较高的准确性。

通过上述实施例可知，本实施例提供的一种智能元宇宙直播人物生成方法，至少实现了如下的有益效果：

本实施例提供了一种智能元宇宙直播人物生成方法，基于众多AI(人工智能，ArtificialIntelligence)技术，先分别训练各个模块，再将他们重新组合成一个大的模型，通过将各个模块组合成一个大模型，即可用作生成不同风格、适应不同场景的大统一元宇宙直播数字人，实现各领域联合训练，实现全局最优，使得系统能够充分利用各个模块的优势，让模型发挥最大表征能力，实现人物更强的表现能力。

参见图2所示，图2是本实施例提供的一种电子设备的结构示意图，本实施例还提供一种电子设备，包括：处理器和存储器，存储器用于存储处理器可执行指令，处理器被配置为执行本发明提供的智能元宇宙直播人物生成方法。

继续结合图2所示，电子设备300可以包括处理器310(例如中央处理器、图形处理器等)，其可以根据存储在制度存储器(ROM)320中的程序或者从存储器340加载到随机访问存储器(RAM)330中的程序而执行各种适当的动作和处理。在RAM330中，还存储有电子设备300操作所需的各种程序和数据。处理器310、ROM320以及RAM330通过总线360彼此相连。输入/输出(I/O)接口350也连接至总线360。

以下部件连接至I/O接口350：包括键盘、鼠标等的输入部分390；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分380；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分370。通信部分370经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口350。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分370从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本发明的系统中限定的上述功能。

上述实施例中提供的电子设备300可执行本发明公开任意实施例提供的智能元宇宙直播人物生成方法，具备执行该方法相应的功能单元和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明公开任意实施例所提供的智能元宇宙直播人物生成方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明公开实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或完全在远程计算机或服务器上执行。在设计远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或可以连接到外部计算机。

描述与本实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被执行时实现上述智能元宇宙直播人物生成方法。

通过上述实施例可知，本发明提供的一种智能元宇宙直播人物生成方法、设备和存储介质，至少实现了如下的有益效果：

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种智能元宇宙直播人物生成方法，其特征在于，包括：

将转换后的所述多模态数据输入到第一多模态模型中；

将所述稳态扩散模型迁移到第二多模态模型中。

2.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述语音识别模块采用端到端的语音识别模型进行训练。

3.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述人像生成模块采用生成对抗网络进行训练。

4.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述动作模拟模块采用物理学模拟技术和运动学模拟技术进行训练。

5.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述妆容模拟模块采用图像处理技术和计算机视觉技术进行训练。

6.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述服饰模拟模块采用图像处理模块和计算机对于语音识别模块进行训练。

7.根据权利要求1所述的一种智能元宇宙直播人物生成方法，其特征在于，所述多模态数据包括：语音数据、语言数据、风格分类数据、人像数据、动作数据、妆容数据和服饰数据。

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储所述处理器可执行指令，所述处理器被配置为执行权利要求1-7任一项所述的智能元宇宙直播人物生成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现权利要求1-7任一项所述的智能元宇宙直播人物生成方法。