CN118135068A

CN118135068A - 基于虚拟数字人的云互动方法、装置及计算机设备

Info

Publication number: CN118135068A
Application number: CN202410556023.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shenzhen Tonggan Technology Co ltd; Shenzhen Weier Vision Technology Co ltd
Current assignee: Shenzhen Tonggan Technology Co ltd; Shenzhen Weier Vision Technology Co ltd
Priority date: 2024-05-07
Filing date: 2024-05-07
Publication date: 2024-06-04
Anticipated expiration: 2044-05-07
Also published as: CN118135068B

Abstract

本发明涉及云计算技术领域，具体涉及基于虚拟数字人的云互动方法、装置及计算机设备，包括以下步骤：获取用于生成虚拟数字人的人形素材和语义素材，以及用于虚拟数字人互动的云游戏场景素材；利用第一神经网络，对人形素材和云游戏场景素材间的融合关系进行深度学习，得到数字人人形交互网络；利用第二神经网络，对语义素材和云游戏场景素材间的融合关系进行深度学习，得到数字人语义交互网络；将所述数字人人形交互网络和数字人语义交互网络进行多模态组合，得到数字人云互动网络。本发明能够将数字人与云游戏场景进行画面融合，以及语言对话融合，能够保证用户在体验云游戏是满足视觉和语言交互，增强用户的实景化体验。

Description

基于虚拟数字人的云互动方法、装置及计算机设备

技术领域

本发明涉及云计算技术领域，具体涉及基于虚拟数字人的云互动方法、装置及计算机设备。

背景技术

数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分，亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。其中，又以数字人的交互应用最广，能够应用至新媒体的各行各业，且简单高效。

目前真实人与云游戏的场景化交互，通常将真实人抽象为数字人，只是将数字人和云游戏场景进行画面融合，这种单一粗暴的融合方法，只能实现云游戏视觉上的交互，云游戏实景化交互感官单一，缺乏语言对话上的交互，用户对话无人应答，造成真人在云游戏实景化中体验感不足。

发明内容

本发明的目的在于提供基于虚拟数字人的云互动方法、装置及计算机设备，以解决现有技术中只是将数字人和云游戏场景进行画面融合，这种单一粗暴的融合方法，只能实现云游戏视觉上的交互，云游戏实景化交互感官单一，缺乏语言对话上的交互，用户对话无人应答，造成真人在云游戏实景化中体验感不足的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一方面，一种基于虚拟数字人的云互动方法，包括以下步骤：

获取用于生成虚拟数字人的人形素材和语义素材，以及用于虚拟数字人互动的云游戏场景素材；

利用第一神经网络，对人形素材和云游戏场景素材间的融合关系进行深度学习，得到数字人人形交互网络；

利用第二神经网络，对语义素材和云游戏场景素材间的融合关系进行深度学习，得到数字人语义交互网络；

将所述数字人人形交互网络和数字人语义交互网络进行多模态组合，得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络。

作为本发明的一种优选方案，所述数字人人形交互网络的构建方法包括：

将人形素材和云游戏场景素材作为第一生成对抗网络中生成器的输入项，由第一生成对抗网络中的第一生成器输出表征数字人人形与云游戏场景融合结果的第一互动预测结果；

将第一互动预测结果与第一互动真实结果作为第一生成对抗网络中第一判别器的输入项，由第一生成对抗网络的第一判别器输出第一生成器的评价结果；

训练第一生成对抗网络以达到最优评价结果，并将具有最优评价结果的第一生成对抗网络作为数字人人形交互网络；

所述数字人人形交互网络为：

G_F=GAN1(F，G)；

式中，G_F为第一互动预测结果，F为人形素材，G为云游戏场景素材，GAN1为第一生成对抗网络。

作为本发明的一种优选方案，所述数字人语义交互网络的构建方法包括：

将语义素材和云游戏场景素材作为第二生成对抗网络中生成器的输入项，由第二生成对抗网络中的第二生成器输出表征数字人语义与云游戏场景融合结果的第二互动预测结果；

将第二互动预测结果与第二互动真实结果作为第二生成对抗网络中第二判别器的输入项，由第二生成对抗网络的第二判别器输出第二生成器的评价结果；

训练第二生成对抗网络以达到最优评价结果，并将具有最优评价结果的第二生成对抗网络作为数字人语义交互网络；

所述数字人语义交互网络为：G_H=GAN2(H，G)；

式中，G_H为第二互动预测结果，H为语义素材，G为云游戏场景素材，GAN2为第二生成对抗网络。

作为本发明的一种优选方案，所述数字人云互动网络的构建方法包括：

在数字人语义交互网络和数字人人形交互网络间设置多模态组合函数，所述多模态组合函数包括语义-人形组合函数和人形-语义组合函数；

利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合，得到所述数字人云互动网络。

作为本发明的一种优选方案，所述多模态组合函数的设置方法包括：

在数字人语义交互网络朝向数字人人形交互网络的方向上，设置用于将第二互动预测结果的语义素材融合至第一互动预测结果中的语义-人形组合函数；

在数字人人形交互网络朝向数字人语义交互网络的方向上，设置用于将第一互动预测结果的人形素材融合至第二互动预测结果中的人形-语义组合函数；其中，所述语义-人形组合函数为：F_inter=F_channel(G_H)；

式中，F_inter为第二互动预测结果的人形素材，F_channel为人形素材的数据提取通道，G_H为第二互动预测结果；

所述人形-语义组合函数为：H_inter=H_channel(G_F)；

式中，H_inter为第一互动预测结果的语义素材，H_channel为语义素材的数据提取通道，G_F为第二互动预测结果。作为本发明的一种优选方案，所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合，包括：

将所述语义-人形组合函数的输入与数字人语义交互网络的输出相连接，将所述语义-人形组合函数的输出与数字人人形交互网络的输入通过Logistic回归函数相连接；

将所述人形-语义组合函数的输入与数字人人形交互网络的输出相连接，将所述人形-语义组合函数的输出与数字人语义交互网络的输入通过Logistic回归函数相连接；

将数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接，以达到数字人语义交互网络和数字人人形交互网络的多模态组合，得到数字人云互动网络。

作为本发明的一种优选方案，所述数字人云互动网络为：

G_FH=Logistic{GAN1[Logistic(F_inter,F),G], GAN2[Logistic(H_inter,H),G]}；

式中，G_FH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果，Logistic为Logistic回归函数，H_inter为第一互动预测结果的语义素材，H为语义素材，F为人形素材，F_inter为第二互动预测结果的人形素材，G_H为第二互动预测结果，G为云游戏场景素材，GAN1为第一生成对抗网络，GAN2为第二生成对抗网络。作为本发明的一种优选方案，所述数字人人形交互网络和数字人语义交互网络的损失函数相同。

在本发明的第二方面，本发明提供了一种基于虚拟数字人的云互动装置，应用于所述的一种基于虚拟数字人的云互动方法，云视频生成装置包括：

数据获取单元，用于获取用于生成虚拟数字人的人形素材和语义素材，以及用于虚拟数字人互动的云游戏场景素材；

深度学习单元，用于利用第一神经网络，对人形素材和云游戏场景素材间的融合关系进行深度学习，得到数字人人形交互网络；

将所述数字人人形交互网络和数字人语义交互网络进行多模态组合，得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络；

融合输出单元，用于利用数字人云互动网络基于人形素材、语义素材以及云游戏场景素材，生成虚拟数字人与云游戏场景交互融合结果，实现虚拟数字人与云游戏场景交互融合。

在本发明的第三方面，一种计算机设备，包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行基于虚拟数字人的云互动方法。

本发明与现有技术相比较具有如下有益效果：

本发明构建数字人人形交互网络和数字人语义交互网络，能够将数字人与云游戏场景进行画面融合，以及语言对话融合，能够保证用户在体验云游戏是满足视觉和语言交互，增强用户的实景化体验，同时对数字人人形交互网络和数字人语义交互网络进行多模态组合，能够将数字人与云游戏的视觉交互和语言交互进行同频化，共存化，即能够保证视觉交互和语言交互同时存在，实现同一时刻的多模态交互协同化。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的基于算力需求的基于虚拟数字人的云互动方法流程图；

图2为本发明实施例提供的基于算力需求的基于虚拟数字人的云互动装置框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一方面，一种基于虚拟数字人的云互动方法，包括以下步骤：

本发明构建数字人人形交互网络，使得数字人人形与云游戏场景的融合，达到了数字人与云游戏场景的画面融合，而数字人来自于用户自身的数字化建模，从而数字人人形来自于用户人形，数字人与云游戏画面融合，也就是用户自身与云游戏画面的融合，因此，用户在参与云游戏时，将自身与云游戏进行视觉上交互，增强参与云游戏画面感上的身临其境。

本发明构建数字人语义交互网络，使得数字人语义与云游戏场景的融合，达到了数字人与云游戏场景的语义融合，而数字人来自于用户自身的数字化建模，从而数字人语义来自于用户语义，数字人与云游戏语义对话融合，也就是用户自身与云游戏交流对话的融合，因此，用户在参与云游戏时，将自身与云游戏进行语言对话上交互，增强参与云游戏对话感上的身临其境。

因此，本发明构建数字人人形交互网络和数字人语义交互网络，能够将数字人与云游戏场景进行画面融合，以及语言对话融合，能够保证用户在体验云游戏是满足视觉和语言交互，增强用户的实景化体验。

本发明中数字人人形交互网络和数字人语义交互网络，分别通过画面融合增强参与云游戏的互动感以及像语义对话融合增强参与云游戏的互动感，两个方向相互独立，虽然提高了实景化互动性，但是两个方向独立可能导致互动不同频，将画面融合和语义融合相互割裂，不具协同性，从而导致本该同一时刻出现的视觉交互和语言对话交互之间出现延迟，甚至是视觉交互和语言对话交互之间出现相互干扰。

进一步的，本发明对数字人人形交互网络和数字人语义交互网络进行多模态组合，能够将数字人与云游戏的视觉交互和语言交互进行同频化，共存化，即能够保证视觉交互和语言交互同时存在，实现同一时刻的多模态交互协同化。

本发明构建数字人人形交互网络，使得数字人人形与云游戏场景的融合，达到了数字人与云游戏场景的画面融合，而数字人来自于用户自身的数字化建模，从而数字人人形来自于用户人形，数字人与云游戏画面融合，也就是用户自身与云游戏画面的融合，因此，用户在参与云游戏时，将自身与云游戏进行视觉上交互，增强参与云游戏画面感上的身临其境，具体如下：

所述数字人人形交互网络的构建方法包括：

所述数字人人形交互网络为：

G_F=GAN1(F，G)；

本发明构建数字人语义交互网络，使得数字人语义与云游戏场景的融合，达到了数字人与云游戏场景的语义融合，而数字人来自于用户自身的数字化建模，从而数字人语义来自于用户语义，数字人与云游戏语义对话融合，也就是用户自身与云游戏交流对话的融合，因此，用户在参与云游戏时，将自身与云游戏进行语言对话上交互，增强参与云游戏对话感上的身临其境，具体如下：

所述数字人语义交互网络的构建方法包括：

所述数字人语义交互网络为：

G_H=GAN2(H，G)；式中，G_H为第二互动预测结果，H为语义素材，G为云游戏场景素材，GAN2为第二生成对抗网络。

本发明对数字人人形交互网络和数字人语义交互网络进行多模态组合，能够将数字人与云游戏的视觉交互和语言交互进行同频化，共存化，即能够保证视觉交互和语言交互同时存在，实现同一时刻的多模态交互协同化，具体如下：

所述数字人云互动网络的构建方法包括：

所述多模态组合函数的设置方法包括：

在数字人人形交互网络朝向数字人语义交互网络的方向上，设置用于将第一互动预测结果的人形素材融合至第二互动预测结果中的人形-语义组合函数；

其中，所述语义-人形组合函数为：F_inter=F_channel(G_H)；

所述人形-语义组合函数为：H_inter=H_channel(G_F)；式中，H_inter为第一互动预测结果的语义素材，H_channel为语义素材的数据提取通道，G_F为第二互动预测结果。

本发明构建语义-人形组合函数，实现将数字人语义交互网络的输出中潜在的人形素材提取出，与原始人形素材，通过Logistic回归分析，能够将数字人语义交互网络的输出的融合结果与原始人形素材进行协同对应，数字人语义交互网络输出的是关于语义素材的融合结果，从而通过语义-人形组合函数和Logistic回归分析，将语义素材和人形素材进行协同对应，从而实现了画面融合和语义融合的同频协同，使得同一时刻出现的视觉交互和语言对话交互之间相对应。

同样的，本发明构建人形-语义组合函数，实现将数字人人形交互网络的输出中潜在的语义素材提取出，与原始语义素材，通过Logistic回归分析，能够将数字人人形交互网络的输出的融合结果与原始语义素材进行协同对应，数字人人形交互网络输出的是关于人形素材的融合结果，从而通过人形-语义组合函数和Logistic回归分析，将语义素材和人形素材进行协同对应，从而实现了画面融合和语义融合的同频协同，使得同一时刻出现的视觉交互和语言对话交互之间相对应。

所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合，包括：

所述数字人云互动网络为：

G_FH=Logistic{GAN1[Logistic(F_inter,F),G], GAN2[Logistic(H_inter,H),G]}；

式中，G_FH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果，Logistic为Logistic回归函数，H_inter为第一互动预测结果的语义素材，H为语义素材，F为人形素材，F_inter为第二互动预测结果的人形素材，G_H为第二互动预测结果，G为云游戏场景素材，GAN1为第一生成对抗网络，GAN2为第二生成对抗网络。本发明构建语义-人形组合函数和人形-语义组合函数，从两个方向上进行画面融合和语义融合同频协同性的构建，准确性更高，保障最终多模态游戏融合结果的准确性。

本发明利用数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接，能够进一步的将两个方向构建出的画面融合和语义融合同频协同性，进行回归分析，保留出最佳的画面融合和语义融合同频协同性，提高数字人与云游戏多模态交互的效果，即用户与云游戏多模态交互的效果。

所述数字人人形交互网络和数字人语义交互网络的损失函数相同。

如图2所示，在本发明的第二方面，本发明提供了一种基于虚拟数字人的云互动装置，应用于所述的一种基于虚拟数字人的云互动方法，云视频生成装置包括：

与所述至少一个处理器通信连接的存储器；

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于虚拟数字人的云互动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于虚拟数字人的云互动方法，其特征在于：所述数字人人形交互网络的构建方法包括：

所述数字人人形交互网络为：G_F=GAN1(F，G)；式中，G_F为第一互动预测结果，F为人形素材，G为云游戏场景素材，GAN1为第一生成对抗网络。

3.根据权利要求2所述的一种基于虚拟数字人的云互动方法，其特征在于：所述数字人语义交互网络的构建方法包括：

所述数字人语义交互网络为：G_H=GAN2(H，G)；式中，G_H为第二互动预测结果，H为语义素材，G为云游戏场景素材，GAN2为第二生成对抗网络。

4.根据权利要求3所述的一种基于虚拟数字人的云互动方法，其特征在于：所述数字人云互动网络的构建方法包括：

5.根据权利要求4所述的一种基于虚拟数字人的云互动方法，其特征在于：所述多模态组合函数的设置方法包括：

其中，所述语义-人形组合函数为：F_inter=F_channel(G_H)；

6.根据权利要求5所述的一种基于虚拟数字人的云互动方法，其特征在于：所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合，包括：

7.根据权利要求6所述的一种基于虚拟数字人的云互动方法，其特征在于：所述数字人云互动网络为：

G_FH=Logistic{GAN1[Logistic(F_inter,F),G], GAN2[Logistic(H_inter,H),G]}；式中，G_FH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果，Logistic为Logistic回归函数，H_inter为第一互动预测结果的语义素材，H为语义素材，F为人形素材，F_inter为第二互动预测结果的人形素材，G_H为第二互动预测结果，G为云游戏场景素材，GAN1为第一生成对抗网络，GAN2为第二生成对抗网络。

8.根据权利要求7所述的一种基于虚拟数字人的云互动方法，其特征在于：所述数字人人形交互网络和数字人语义交互网络的损失函数相同。

9.一种基于虚拟数字人的云互动装置，其特征在于，应用于权利要求1-8任一项所述的一种基于虚拟数字人的云互动方法，云视频生成装置包括：

10.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行权利要求 1-8 任一项所述的方法。