CN115953521A

CN115953521A - 远程数字人渲染方法、装置及系统

Info

Publication number: CN115953521A
Application number: CN202310237747.8A
Authority: CN
Inventors: 王新国; 张青辉
Original assignee: 4u Beijing Technology Co ltd
Current assignee: Shiyou Beijing Technology Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-04-11
Anticipated expiration: 2043-03-14
Also published as: CN115953521B

Abstract

本申请提供了一种远程数字人渲染方法、装置及系统，该方法包括：基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型；响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧；同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。本申请解决了现有技术中远程数字人渲染效果不逼真、交互体验较差的技术问题。

Description

远程数字人渲染方法、装置及系统

技术领域

本申请涉及图像通信技术领域，具体而言，涉及一种远程数字人渲染方法、装置及系统。

背景技术

远程数字人是一种由人工智能和自然语言处理技术构建的虚拟代理人，可以模拟人类的语言、行为和思考方式，来提供一系列的服务，如客户支持、销售礼宾、日程管理、财务顾问、品牌大使、医疗保健顾问、数字影响者、以及数据输入和处理等。

远程数字人通常是由人工智能和机器学习技术驱动的，可以通过自然语言处理技术理解人类语言的含义和意图。这些远程数字人可以使用语音或文本进行通信，而且可以根据用户的要求和输入来执行任务。远程数字人可以被编程为识别和响应特定的指令，可以快速地处理大量的数据，并在需要时提供信息和建议。

远程数字人通常是通过互联网进行工作的。用户可以通过远程数字人设备例如预设的固定终端、手机、平板电脑或计算机与远程数字人进行互动，而无需进行面对面交流。远程数字人也可以在不同的时区和地点工作，在用户需要时随时提供服务。

远程数字人通常使用计算机图形学和计算机视觉技术进行渲染。其中，计算机图形学利用三维建模、光照、纹理贴图、动画等技术，生成远程数字人的外观和动作。但是，采用这种方式渲染出的远程数字人比较程式化，可能无法被渲染地像真正的人类一样进行自然的交互和表现，这会影响用户对远程数字人的体验。

针对上述远程数字人渲染效果不逼真、交互体验较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种远程数字人渲染方法、装置及系统，以解决现有技术中远程数字人渲染效果不逼真、交互体验较差的问题。

根据本申请实施例的一个方面，提供了一种远程数字人渲染方法，包括：基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型；响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧；同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

根据本申请实施例的另一个方面，提供了一种远程数字人渲染装置，包括：训练模块，被配置为基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型；生成模块，被配置为响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧；推流模块，被配置为同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

根据本申请实施例的又一个方面，提供了一种远程数字人渲染方法，包括：响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据；基于所述语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于所述生理特征对所述远程数字人进行渲染，得到所述远程数字人的视频帧；同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

根据本申请实施例的又一个方面，提供了一种远程数字人渲染装置，包括：音频生成模块，被配置为响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据；视频生成模块，被配置为基于所述语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于所述生理特征对所述远程数字人进行渲染，得到所述远程数字人的视频帧；推送模块，被配置为同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

根据本申请实施例的又一个方面，提供了一种远程数字人渲染系统，包括如上所述的远程数字人渲染装置；以及，远程数字人设备，用于接收用户输入数据，并将所述用户输入数据上传到所述远程数字人渲染装置，并基于所述远程数字人渲染装置推送的所述语音数据和所述视频帧，来向用户呈现所述远程数字人，以与所述用户交互。

应用本申请的技术方案，基于所述语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于所述生理特征对所述远程数字人进行渲染，得到所述远程数字人的视频帧，从而解决了现有技术中远程数字人渲染效果不逼真、交互体验较差的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种远程渲染系统的结构示意图；

图2是根据本申请实施例的一种远程渲染方法的流程图；

图3是根据本申请实施例的另一种远程渲染方法的流程图；

图4是根据本申请实施例的一种训练用于分析语义的神经网络模型的方法的流程图；

图5是根据本申请实施例的又一种远程渲染方法的流程图；

图6是根据本申请实施例的一种基于语音数据生成视频数据的方法的流程图；

图7是根据本申请实施例的一种远程渲染装置的结构示意图；

图8是根据本申请实施例的另一种远程渲染装置的结构示意图；

图9是根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请提供了一种远程数字人渲染系统，其架构如图1所示。该系统主要包括远程数字人设备12和远程数字人渲染装置14，其中，远程数字人渲染装置14与远程数字人设备12之间通过网络16进行数据传输。

远程数字人设备12可以包括手机121、笔记本电脑122和平板电脑123等移动终端，还可以包括设置在门店的固定终端124。远程数字人设备12用于通过摄像头、麦克风以及触摸屏等接收用户输入数据，并通过网络16将接收到的用户输入数据上传到远程数字人渲染装置14。远程数字人设备12还用于通过网络16从远程数字人渲染装置14接收同步后的用于响应用户输入数据的语音数据和视频数据，并呈现给用户，以实现远程数字人的交互功能。

远程数字人设备12设置有摄像头，通过摄像头，可以远程关注门店客流情况，这样可以及时分流引导，并且可以远程观看客户影像，及时互动反馈。远程数字人设备12内置超写实数字人，能够定制语料库，智能语音播报当日新品和和门店活动信息，应对各类常规咨询，还能够支持远程人工接入，实现沉浸式沟通和交互体验。

远程数字人设备12可应用于多个场景，例如，虚拟导购、虚拟演唱会、远程教育等。在虚拟导购中，远程数字人可以代替企业前台、展馆、娱乐、餐饮、消费品等实体店的销售员，与顾客进行互动，提供产品推荐和购买指导等服务，从而为顾客提供线下跨维互动引流服务。在虚拟演唱会中，远程数字人可以扮演歌手的角色，与观众进行互动；在远程教育中，远程数字人可以作为教师的替身，与学生进行互动。

远程数字人渲染装置14包括音频生成模块、视频生成模块和推送模块。音频生成模块基于接收到的用户输入数据，确定远程数字人待播放的语音数据。视频生成模块基于所述语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于所述生理特征对所述远程数字人进行渲染，得到所述远程数字人的视频帧。推送模块同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备12。

本实施例中的远程数字人渲染装置14能够实现将在下文详细描述的远程数字人渲染方法，因此此处不再赘述。

本实施例中的远程数字人渲染系统，利用物理模拟方法模拟远程数字人的生理特征，再利用这些生理特征来生成渲染图像，因此能够得到非常精细的模拟结果。同时，在本实施例中，由于是基于生理特征对远程机器人进行渲染，因此可以模拟光线在物体表面的反射、折射、吸收等过程，从而产生逼真的光照效果。综上，本实施例中的远程数字人具有较高的逼真度，用户的体验比较好。

此外，本实施例中的远程数字人渲染系统，通过远程传输技术，能够低成本实现远程数字人线下应用；通过人工智能客服，实现远程数字人交互，创造了迎合年轻人市场的服务体验；同时还能够极大降低成本，提高灵活性和便捷性，从而具备良好的用户体验。

实施例2

根据本申请实施例，提供了一种远程数字人渲染方法，如图2所示，该方法包括：

步骤S202，基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型。

首先，提取特征向量。例如，基于预设的文本集合的大小、所述文本集合中各个文本的长度、用于控制所述长度对所述各个文本的影响程度的常数因子、和所述文本集合中包含预设单词的文本的数量，来计算所述各个文本的逆文档频率；基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率，来从所述各个文本中提取特征向量。

接着，基于所提取的特征向量，来训练所述神经网络模型。例如，将所提取的特征向量输入所述神经网络模型，训练所述神经网络模型，生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量，其中，所述词嵌入向量不仅包含所述每个单词的语义信息，还包含所述每个单词在上下文中的含义；基于所述词嵌入向量，利用给定已标注的数据集来调整所述神经网络模型的参数，使所述神经网络模型能够进行语义分析。

可以采用以下方式来生成词嵌入向量：将所述每个单词转换为数值化的向量，并将所述每个单词映射到向量空间中的一个点，其中，所述向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征；在所述向量空间中比较对应于各个单词的各个点之间的相似性，基于所述相似性，对所述各个点进行聚类，以生成用于表示所述语音文本信息中的每个单词的所述词嵌入向量。

或者，可以采用以下方式来生成词嵌入向量：将所提取的特征向量对应的各个单词作为节点，将所述各个单词之间的关系作为所述节点之间的边，来构建图形结构；将所述图形结构中的节点和边转换为向量，以生成用于表示所述语音文本信息中的每个单词的词嵌入向量。例如，将所述图形结构中的节点和边转换为向量，并基于转换后得到的向量确定表示所述各个单词的度的度矩阵以及表示所述各个单词之间的关系的邻接矩阵；基于所述度矩阵、所述邻接矩阵和所述初始嵌入矩阵，计算所述每个单词的词嵌入向量。

其中，所述初始嵌入矩阵表示所述各个单词的初始向量；所述度矩阵为对角矩阵，所述对角矩阵的对角线上的元素表示所述各个单词的度；所述邻接矩阵表示所述各个单词之间的关系。

步骤S204，响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧。

从远程数字人设备接收到用户输入数据后，生成用于响应用户输入数据的语音数据。可以使用语音合成技术、通过合成声音的方式将语音数据呈现给用户。生成的语音数据会被送入神经网络模型进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧，以实现一个逼真的互动过程。

步骤S206，同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

本实施例提供的远程数字人的渲染方法主要具有以下有益效果：

1）提高了语义分析的准确性。通过计算文本的逆文档频率来提取特征向量，可以更好地捕捉单词在文本中的重要程度和上下文信息，从而提高了语义分析的准确性。

2）改善了神经网络模型的性能。利用生成的词嵌入向量来训练神经网络模型，可以改善神经网络模型的性能，从而提高语义分析的准确性和效率。

3）降低了神经网络模型的复杂度。通过特征向量的提取和词嵌入向量的生成，可以降低神经网络模型的复杂度，减少计算量和存储空间的需求，提高神经网络模型的训练和执行效率。

实施例3

根据本申请实施例，提供了另一种远程数字人渲染方法，该方法包括以下步骤：

步骤S1202，响应于从远程数字人设备接收到用户输入数据，生成用于响应用户输入数据的语音数据。

步骤S1204，基于语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于生理特征对远程数字人进行渲染，得到远程数字人的视频帧。

在利用物理模拟方法来模拟远程数字人的生理特征之前，需要先训练神经网络模型。神经网络模型可以分两个阶段进行训练：预训练阶段和调整阶段。

在预训练阶段，使用无监督训练语料库训练神经网络模型，学习语言知识和规律，并生成用于表示语音文本信息中的每个单词的词嵌入向量，其中，词嵌入向量不仅包含每个单词的语义信息，还包含每个单词在上下文中的含义；例如，将每个单词转换为数值化的向量，并将每个单词映射到一个向量空间中的一个点，其中，向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征；在向量空间中比较对应于各个单词的各个点之间的相似性，以生成用于表示语音文本信息中的每个单词的词嵌入向量。

在调整阶段，利用给定已标注的数据集，来调整神经网络模型，使神经网络模型能够根据上下文以及词嵌入向量生成符合任务要求的自然语言。

在训练好神经网络模型之后，首先，基于语音数据，确定远程数字人的生理特征，其中，生理特征包括骨骼特征、肌肉特征和唇形特征。

例如，将语音数据转换为语音文本信息，并使用深度学习方法训练出的神经网络模型对语音文本信息进行语义分析；之后，根据语义分析的结果来确定远程数字人的骨骼特征和肌肉特征。同时，将语音数据转换为语音文本信息，并将语音文本信息转化为对应的音素序列；针对音素序列中的每个音素，根据预设的语音和口腔动作对应关系，确定对应的唇形特征。这里，音素指的是语言中能够区分不同词义的最小发音单位，一个音素可以由一个或多个语音单元组成。

接着，利用物理模拟方法来模拟所确定的生理特征。例如，基于所确定的肌肉特征，利用物理模拟方法来模拟远程数字人的肌肉收缩和松弛；基于所确定的骨骼特征，利用物理模拟方法来模拟远程数字人的关节运动和骨骼变形；基于所确定的唇形特征，利用物理模拟方法来模拟远程数字人的唇形动作。

步骤S1206，同步语音数据和视频帧，并将同步后的语音数据和视频帧推送至远程数字人设备。

在本申请实施例中，通过步骤S1204利用物理模拟方法来模拟远程数字人的生理特征，可以使其表现更加真实，从而增强远程交互的逼真度和沉浸感。通过步骤S1202，远程数字人可以响应用户的输入，实现更加智能和高效的远程交互，而步骤S1206中的同步处理可以确保语音和视频的一致性，使得远程交互更加流畅和自然。

实施例4

根据本申请实施例，提供了另一种远程数字人渲染方法，如图3所示，该方法包括：

步骤S302，预先使用深度学习方法训练出神经网络模型。

图4是根据本申请实施例的一种训练用于语义分析的神经网络模型的方法的流程图，如图4所示，该方法包括以下步骤：

步骤S3022，数据准备。

收集大量的标注语料，建立语料库。该语料库应该包括各种类型的文本数据，例如新闻、社交媒体、文学作品等。对于每个文本样本，需要标注出每个词语的含义和文本整体的语义。

步骤S3024，文本预处理。

将文本转换为计算机可读的形式。包括分词、去停用词、词干提取等。可以使用现有的开源工具库，如NLTK等。

步骤S3026，特征提取。

考虑到单词在整个文本集合中出现的频率和在单个文本中出现的频率，本实施例采用以下方法来进行特征提取：

TFIDF(w) = TF(w) * IDF(w)

其中，TF(w)表示单词w在当前文本中的出现频率，IDF(w)表示单词w在整个文本集合中的逆文档频率，TFIDF(w)表示提取的特征。

本实施例中，可以采用以下方式来计算逆文档频率：

其中，N表示文本集合的大小，df(w)表示包含单词w的文本数量，len(d)是文本d的长度，k是一个常数因子，用于控制长度对IDF值的影响程度。当k=0时，该公式退化为标准的IDF公式。当k增大时，较长的文本的IDF值会受到更大的惩罚，因为分母len (d) + k越大，其倒数越小，导致整个公式的值越小。反之，当k减小时，较长的文本的IDF值会受到较小的惩罚，甚至可能出现增加的情况。

本实施例采用上述逆文档频率公式主要有两个方面的有益效果：

1）改善长度偏差问题：传统的IDF公式只考虑了词语在文本中出现的频率对其重要性的影响，而没有考虑文本长度对IDF值的影响。这会导致一些较短的文本中常见的词语IDF值过高，而较长的文本中常见的词语IDF值过低。引入长度变量后，可以更准确地衡量文本中包含某个词语的难度，并在IDF值中反映出来，从而改善了这种长度偏差问题。

2）增加了可调参数：本实施例的公式中增加了一个常数因子k，可以用于控制文本长度对IDF值的影响程度。这样可以更灵活地调整IDF值，以适应不同应用场景的需求。例如，当k取较大值时，可以更加重视文本长度对IDF值的影响，从而更加准确地衡量文本中的词语的重要性；而当k取较小值时，则可以更加注重词语在整个语料库中的重要性。

通过上述方法进行特征提取的结果可以作为文本的特征向量，用于训练神经网络模型。本实施例中的逆文档频率能够更准确地衡量词语的重要性，并增加了可调参数，可以更好地适应不同的应用场景。

步骤S3028，构建并训练神经网络模型。

首先，选择适合的神经网络架构来进行语义识别，可以使用循环神经网络（RNN）或长短期记忆网络（LSTM）来捕捉文本序列中的上下文信息。也可以使用卷积神经网络（CNN）来处理文本的局部结构信息。

然后，使用标注数据对构建的神经网络模型进行训练。在训练神经网络模型时，通常包括两个阶段：预训练阶段和调整阶段。

在预训练阶段，使用无监督训练语料库训练神经网络模型。该阶段的目的是学习语言知识和规律，生成用于表示每个单词的词嵌入向量。这些词嵌入向量不仅包含每个单词的语义信息，还包含每个单词在上下文中的含义。在训练过程中，通常采用词袋模型或者Skip-gram模型来学习词嵌入向量。在预训练完成后，每个单词都会被表示成一个固定长度的向量。

例如，将每个单词转换为数值化的向量，并将每个单词映射到一个向量空间中的一个点，其中，向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征；在向量空间中比较对应于各个单词的各个点之间的相似性，以生成用于表示语音文本信息中的每个单词的词嵌入向量。

步骤S304，确定生理特征并基于生理特征进行渲染。

将所述语音数据转换为语音文本信息，将语音文本信息输入到训练好的神经网络模型中，利用神经网络模型对所述语音文本信息进行语义分析。根据所述语义分析的结果来确定所述远程数字人的所述骨骼特征和所述肌肉特征。

例如，通过训练神经网络模型，将语音文本信息作为输入，将远程数字人的生理特征作为输出，从而实现语音文本信息到远程数字人动作的映射。需要注意的是，语音文本信息到远程数字人动作的映射并不是一一对应的，而是有一定的模糊性和歧义性。因此，还需要考虑例如语音文本信息的复杂度、语音和动作之间的对应关系、远程数字人的表现能力等。

在确定骨骼特征和肌肉特征的同时，还需要确定唇形特征。将所述语音数据转换为语音文本信息，并将所述语音文本信息转化为对应的音素序列；针对所述音素序列中的每个音素，根据预设的语音和口腔动作对应关系，确定对应的所述唇形特征。

例如，使用自然语言处理技术将语音文本信息转换为对应的音素序列，即将每个单词转化为其对应的音素，然后根据预设的语音和口腔动作之间的对应关系，来确定唇形，即对于不同的音素，需要确定对应的唇形特征。例如，对于发音“b”、“p”等音素，嘴唇需要闭合，对于发音“a”、“o”等音素，嘴唇需要张开。最后，将确定的唇形特征应用于远程数字人的模型中，实现其唇形的动态变化。这可以通过在远程数字人的模型中添加相应的动画效果来实现，例如，对于需要闭合嘴唇的音素，可以实现相应的嘴唇动画效果。

步骤S306，同步并推流语音数据和渲染得到的视频数据。

实施例5

根据本申请实施例，提供了另一种远程数字人渲染方法，如图5所示，该方法包括：

步骤S502，训练神经网络模型。

在本实施例中，训练神经网络模型时采用基于图形的词嵌入来生成词嵌入向量。基于图形的词嵌入使用图形结构来表示单词之间的关系，并将图形结构转换为向量表示。这样，可以捕捉单词之间更复杂的语义和上下文关系。与传统的基于上下文的词嵌入不同，基于图形的词嵌入使用图形结构来表示单词之间的关系。

在基于图形的词嵌入中，将单词表示为图形中的节点，单词之间的关系则由边表示。这些边可以表示各种不同的语义关系，例如同义词、反义词、超类、子类等。这些关系可以在构建图形时手动定义，也可以通过自动学习算法从语料库中学习得到。

图形中的节点和边被转换为向量表示，并作为单词的嵌入表示。这些向量可以捕捉单词之间更复杂的语义和上下文关系，因为它们不仅考虑了单词周围的上下文，还考虑了单词之间的关系。此外，基于图形的词嵌入可以处理多义词，因为它可以使用不同的边表示不同的含义。

例如，将包含N个单词的图形表示为邻接矩阵A。每个单词在图形中对应一个节点，节点之间的边表示单词之间的关系。初始嵌入矩阵X的每行表示一个单词的初始向量表示。这样，可以使用以下公式来计算每个单词的新的词嵌入向量：

其中，H表示计算后的每个单词的新的词嵌入向量；σ是激活函数；D是度矩阵，其是一个对角矩阵，对角线上的元素表示每个单词的度，即与该单词相连的边数；I是单位矩阵；A是邻接矩阵，表示单词之间的关系，邻接矩阵A中的元素A(ij) 表示单词 i 和单词 j 之间是否存在关系；X是初始嵌入矩阵，表示每个单词的初始嵌入向量；W1、W2 和 W3是权重矩阵，用于将输入向量转换为新的向量。

在上述公式三个相加的部分中，第一个部分使用邻接矩阵和度矩阵来计算每个单词的邻居节点的加权平均值，然后使用权重矩阵将其转换为新的向量表示。第二个部分只考虑邻接矩阵，使用权重矩阵将邻居节点的嵌入向量转换为新的向量表示。第三个部分考虑单词之间的距离，使用权重矩阵将单词的初始嵌入向量和它们之间的距离转换为新的向量表示。

本实施例中的嵌入向量的公式相对于传统中的公式，考虑了更多的因素，例如单词之间的距离和单词之间的关系类型。这使得它可以更准确地捕捉单词之间的语义和上下文关系，从而提高自然语言处理任务的性能。基于图形的词嵌入可以捕捉单词之间更复杂的语义和上下文关系，并在各种自然语言处理任务中取得良好的结果。

基于图形的词嵌入方法可以使用图形结构来表示单词之间的关系，包括更复杂的语义和上下文关系。使用上述公式可以更精确地捕捉这些关系，从而提高自然语言处理任务的性能。还可以更好地处理稀有单词。基于图形的词嵌入方法可以将稀有单词与其邻居节点联系起来，从而避免它们被视为孤立单词。使用上述公式可以进一步增强这种关系，从而更好地处理稀有单词。

综上，本实施例采用基于图形的词嵌入方法，并使用上述公式计算每个单词的新的词嵌入向量，可以提高自然语言处理任务的性能，并增强模型的灵活性和适应性。

在一些其他的实施例中，还可以采用自适应词嵌入和多层次词嵌入。自适应词嵌入可以通过在任务特定的语料库上重新训练模型，来捕捉更具体的语义和上下文信息。多层次词嵌入是将单词表示为多个嵌入向量的技术，每个向量表示不同的语义层次。例如，第一层可以表示单词的基本语言学特征，第二层可以表示单词在不同主题下的特征，以此类推。这种方法可以捕捉更丰富的语义信息。

其他的训练神经网络模型的步骤和实施例3中的步骤S302类似，此处不再赘述。

步骤S504，基于用户输入数据生成待播放的语音数据。

当用户使用远程数字人设备进行语音输入时，利用语音识别技术将用户的语音输入转换为文本，然后使用TTS技术将文本转换为语音响应。例如，远程数字人设备接收用户通过麦克风或其他语音输入设备输入的语音信号；将用户输入的语音信号转换为数字信号；利用现有的语音识别引擎将数字信号转换为文本；最后，利用将文本转换为语音的TTS引擎生成相应的语音数据以响应用户输入的语音。

步骤S506，基于语音数据生成视频数据。

图6是根据本申请实施例的基于语音数据生成视频数据的方法的流程图，如图6所示，该方法包括以下步骤：

步骤S5062，将所述语音数据转换为语音文本信息，并将所述语音文本信息转化为对应的音素序列；针对所述音素序列中的每个音素，根据预设的语音和口腔动作对应关系，确定对应的所述唇形特征。

首先，将语音数据转换为语音文本信息，然后将语言文本信息转化为对应的音素序列。例如，通过分析语音数据，提取声学特征，例如音高、音量、音调、频率、声谱等；使用大量语音数据训练声学模型，以识别不同的语音单元，即音素；使用大量文本数据训练语言模型，以评估各个可能的语音单元组合的概率，并对识别结果进行修正；通过将声学特征输入到声学模型中，然后将生成的音素序列与语言模型进行组合，最终生成识别结果。

在将文本转化为对应的音素序列时，可以使用文本到语音（TTS）技术。对输入的文本进行语法和语义分析，以确定相应的语音元素（如音素、音节等）。使用大量语音数据训练声学模型，以生成相应的语音元素的声学特征。最后，将声学模型与输入的文本相结合，生成对应的音素序列，然后将它们合成为一段连续的语音信号。

接着，根据预设的语音和口腔动作对应关系，确定对应的唇形特征。例如，可以通过预设的语音和口腔动作对应关系来确定相应的唇形特征。这些对应关系是基于已知的发音规则和口腔动作的知识，包括舌位、唇位、声门开合程度等因素。例如，对于辅音 p，唇部需要紧闭，而对于元音a，唇部需要放松，舌位较低。因此，可以根据这些规则确定唇部的相应特征。

步骤S5064，使用深度学习方法训练出的神经网络模型对所述语音文本信息进行语义分析；根据所述语义分析的结果来确定所述远程数字人的所述骨骼特征和所述肌肉特征。

使用步骤S502中利用深度学习方法训练出的神经网络模型，可以对所述语音文本信息进行语义分析，通过这种方法可以自动理解语音文本的含义。

在确定了语义之后，可以根据语义分析的结果来确定骨骼特征和肌肉特征。例如，如果语义分析的结果是“不”，则可以将这个结果映射到一组预定义的骨骼特征和肌肉特征，以模拟真人说“不”时的动作。这个过程可以通过反向运动学算法来实现，该算法可以根据预定义的骨骼特征和肌肉特征，来计算远程数字人的姿态和运动轨迹。

在实际应用中，还可以结合其他技术来实现更加精细的控制。例如，可以将语音识别结果与面部表情识别结果进行联合分析，以实现更加自然的人机交互。同时，可以使用传感器来获取用户的实时运动数据，以实现更加精准的远程数字人控制。

步骤S5066，基于唇形特征、骨骼特征和肌肉特征生成视频数据。

基于唇形特征、骨骼特征和肌肉特征，来渲染预先创建的远程数字人的三维模型。这个三维模型包括远程数字人的外貌特征、骨骼结构和肌肉系统。

首先根据骨骼特征和肌肉特征控制远程数字人的姿势。根据骨骼特征和肌肉特征，可以确定远程数字人的姿势和动作。这些特征可以用来控制远程数字人的关节和肌肉的运动。

接着，根据唇形特征确定远程数字人的嘴型。根据唇形特征，可以确定远程数字人的嘴型。这些特征可以用来控制远程数字人的嘴部运动。

然后，渲染三维模型。可以使用计算机图形学中的渲染技术，比如光线跟踪、着色等，将三维模型渲染成二维图像或视频。

最后，同步并推送语音数据和视频数据。将生成的视频数据和对应的语音数据进行同步，可以使用音视频同步技术，比如时间戳同步、声音匹配等。将生成的视频数据和语音数据推送到远程数字人设备，使得用户能够与远程数字人进行交互。

本申请实施例利用远程数字人进行远程协作和教育可以突破地域限制，实现跨越时空的交流和学习。并且，远程数字人的渲染可以实现远程会议、远程培训等活动的在线化，从而节约了大量的人力和物力成本，提高了工作效率和经济效益。

实施例6

本申请实施例还提供了一种远程数字人渲染装置，如图7所示，该渲染装置包括：音频生成模块72、视频生成模块74和推送模块76。

音频生成模块72被配置为响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据。

视频生成模块74被配置为基于所述语音数据，利用物理模拟方法来模拟远程数字人的生理特征，并基于所述生理特征对所述远程数字人进行渲染，得到所述远程数字人的视频帧。

推送模块76被配置为同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

本申请实施例提供的远程数字人渲染装置能够实现上述实施例中的远程数字人渲染方法，因此，此处不再赘述。

实施例7

本申请实施例还提供了另一种远程数字人渲染装置，如图8所示，该渲染装置包括：训练模块82、生成模块84和推流模块86。

训练模块82被配置为基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型。

生成模块84被配置为响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧。

推流模块86被配置为同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

实施例8

图9为本申请实施例提供的一种电子设备的结构示意图，如图9所示，该电子设备包括：

处理器（processor）291，电子设备还包括了存储器（memory）292；还可以包括通信接口（Communication Interface）293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器294中的逻辑指令，以执行上述实施例的方法。

此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现任一实施例中所述的方法。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时用于实现任一实施例中所述的方法。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种远程数字人渲染方法，其特征在于，包括：

基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型；

响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧；

同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

2.根据权利要求1所述的方法，其特征在于，基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型，包括：

基于预设的文本集合的大小、所述文本集合中各个文本的长度、用于控制所述长度对所述各个文本的影响程度的常数因子、和所述文本集合中包含预设单词的文本的数量，来计算所述各个文本的逆文档频率；

基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率，来从所述各个文本中提取特征向量；

基于所提取的特征向量，来训练所述神经网络模型。

3.根据权利要求2所述的方法，其特征在于，基于所提取的特征向量，来训练所述神经网络模型，包括：

将所提取的特征向量输入所述神经网络模型，训练所述神经网络模型，生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量，其中，所述词嵌入向量不仅包含所述每个单词的语义信息，还包含所述每个单词在上下文中的含义；

基于所述词嵌入向量，利用给定已标注的数据集来调整所述神经网络模型的参数，使所述神经网络模型能够进行语义分析。

4.根据权利要求3所述的方法，其特征在于，生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量，包括：

将所述每个单词转换为数值化的向量，并将所述每个单词映射到向量空间中的一个点，其中，所述向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征；

在所述向量空间中比较对应于各个单词的各个点之间的相似性，基于所述相似性，对所述各个点进行聚类，以生成用于表示所述语音文本信息中的每个单词的所述词嵌入向量。

5.根据权利要求3所述的方法，其特征在于，生成用于表示与所述语音数据对应的语音文本信息中的每个单词的词嵌入向量，包括：

将所提取的特征向量对应的各个单词作为节点，将所述各个单词之间的关系作为所述节点之间的边，来构建图形结构；

将所述图形结构中的节点和边转换为向量，以生成用于表示所述语音文本信息中的每个单词的词嵌入向量。

6.根据权利要求5所述的方法，其特征在于，将所述图形结构中的节点和边转换为向量，以生成用于表示所述语音文本信息中的每个单词的词嵌入向量，包括：

将所述图形结构中的节点和边转换为向量，并基于转换后得到的向量确定表示所述各个单词的度的度矩阵以及表示所述各个单词之间的关系的邻接矩阵；

基于所述度矩阵、所述邻接矩阵和初始嵌入矩阵，计算所述每个单词的词嵌入向量。

7.根据权利要求6所述的方法，其特征在于，所述初始嵌入矩阵表示所述各个单词的初始向量；所述度矩阵为对角矩阵，所述对角矩阵的对角线上的元素表示所述各个单词的度；所述邻接矩阵表示所述各个单词之间的关系。

8.一种远程数字人渲染装置，其特征在于，包括：

训练模块，被配置为基于预设的文本集合的大小和所述文本集合中各个文本的长度，来计算所述各个文本的逆文档频率，并利用所述逆文档频率来训练用于语义分析的神经网络模型；

生成模块，被配置为响应于从远程数字人设备接收到用户输入数据，生成用于响应所述用户输入数据的语音数据，利用所述神经网络模型对所述语音数据进行语义分析，并基于语义分析的结果来渲染所述远程数字人，得到所述远程数字人的视频帧；

推流模块，被配置为同步所述语音数据和所述视频帧，并将同步后的所述语音数据和所述视频帧推送至所述远程数字人设备。

9.一种远程数字人渲染系统，其特征在于，包括：

如权利要求8所述的远程数字人渲染装置；

远程数字人设备，用于接收用户输入数据，并将所述用户输入数据上传到所述远程数字人渲染装置，并基于所述远程数字人渲染装置推送的所述语音数据和所述视频帧，来向用户呈现所述远程数字人，以与所述用户交互。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。