CN118135068A - 基于虚拟数字人的云互动方法、装置及计算机设备 - Google Patents
基于虚拟数字人的云互动方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN118135068A CN118135068A CN202410556023.4A CN202410556023A CN118135068A CN 118135068 A CN118135068 A CN 118135068A CN 202410556023 A CN202410556023 A CN 202410556023A CN 118135068 A CN118135068 A CN 118135068A
- Authority
- CN
- China
- Prior art keywords
- interaction
- digital
- network
- human
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 303
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000000463 material Substances 0.000 claims abstract description 125
- 230000004927 fusion Effects 0.000 claims abstract description 71
- 238000013135 deep learning Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 73
- 238000007477 logistic regression Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 18
- 102100037410 Gigaxonin Human genes 0.000 claims description 11
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 17
- 230000000694 effects Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及云计算技术领域,具体涉及基于虚拟数字人的云互动方法、装置及计算机设备,包括以下步骤:获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到数字人云互动网络。本发明能够将数字人与云游戏场景进行画面融合,以及语言对话融合,能够保证用户在体验云游戏是满足视觉和语言交互,增强用户的实景化体验。
Description
技术领域
本发明涉及云计算技术领域,具体涉及基于虚拟数字人的云互动方法、装置及计算机设备。
背景技术
数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力 交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。其中,又以数字人的交互应用最广,能够应用至新媒体的各行各业,且简单高效。
目前真实人与云游戏的场景化交互,通常将真实人抽象为数字人,只是将数字人和云游戏场景进行画面融合,这种单一粗暴的融合方法,只能实现云游戏视觉上的交互,云游戏实景化交互感官单一,缺乏语言对话上的交互,用户对话无人应答,造成真人在云游戏实景化中体验感不足。
发明内容
本发明的目的在于提供基于虚拟数字人的云互动方法、装置及计算机设备,以解决现有技术中只是将数字人和云游戏场景进行画面融合,这种单一粗暴的融合方法,只能实现云游戏视觉上的交互,云游戏实景化交互感官单一,缺乏语言对话上的交互,用户对话无人应答,造成真人在云游戏实景化中体验感不足的技术问题。
为解决上述技术问题,本发明具体提供下述技术方案:
在本发明的第一方面,一种基于虚拟数字人的云互动方法,包括以下步骤:
获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络。
作为本发明的一种优选方案,所述数字人人形交互网络的构建方法包括:
将人形素材和云游戏场景素材作为第一生成对抗网络中生成器的输入项,由第一生成对抗网络中的第一生成器输出表征数字人人形与云游戏场景融合结果的第一互动预测结果;
将第一互动预测结果与第一互动真实结果作为第一生成对抗网络中第一判别器的输入项,由第一生成对抗网络的第一判别器输出第一生成器的评价结果;
训练第一生成对抗网络以达到最优评价结果,并将具有最优评价结果的第一生成对抗网络作为数字人人形交互网络;
所述数字人人形交互网络为:
GF=GAN1(F,G);
式中,GF为第一互动预测结果,F为人形素材,G为云游戏场景素材,GAN1为第一生成对抗网络。
作为本发明的一种优选方案,所述数字人语义交互网络的构建方法包括:
将语义素材和云游戏场景素材作为第二生成对抗网络中生成器的输入项,由第二生成对抗网络中的第二生成器输出表征数字人语义与云游戏场景融合结果的第二互动预测结果;
将第二互动预测结果与第二互动真实结果作为第二生成对抗网络中第二判别器的输入项,由第二生成对抗网络的第二判别器输出第二生成器的评价结果;
训练第二生成对抗网络以达到最优评价结果,并将具有最优评价结果的第二生成对抗网络作为数字人语义交互网络;
所述数字人语义交互网络为:GH=GAN2(H,G);
式中,GH为第二互动预测结果,H为语义素材,G为云游戏场景素材,GAN2为第二生成对抗网络。
作为本发明的一种优选方案,所述数字人云互动网络的构建方法包括:
在数字人语义交互网络和数字人人形交互网络间设置多模态组合函数,所述多模态组合函数包括语义-人形组合函数和人形-语义组合函数;
利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,得到所述数字人云互动网络。
作为本发明的一种优选方案,所述多模态组合函数的设置方法包括:
在数字人语义交互网络朝向数字人人形交互网络的方向上,设置用于将第二互动预测结果的语义素材融合至第一互动预测结果中的语义-人形组合函数;
在数字人人形交互网络朝向数字人语义交互网络的方向上,设置用于将第一互动预测结果的人形素材融合至第二互动预测结果中的人形-语义组合函数;其中,所述语义-人形组合函数为:Finter=F_channel(GH);
式中,Finter为第二互动预测结果的人形素材,F_channel为人形素材的数据提取通道,GH为第二互动预测结果;
所述人形-语义组合函数为:Hinter=H_channel(GF);
式中,Hinter为第一互动预测结果的语义素材,H_channel为语义素材的数据提取通道,GF为第二互动预测结果。作为本发明的一种优选方案,所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,包括:
将所述语义-人形组合函数的输入与数字人语义交互网络的输出相连接,将所述语义-人形组合函数的输出与数字人人形交互网络的输入通过Logistic回归函数相连接;
将所述人形-语义组合函数的输入与数字人人形交互网络的输出相连接,将所述人形-语义组合函数的输出与数字人语义交互网络的输入通过Logistic回归函数相连接;
将数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接,以达到数字人语义交互网络和数字人人形交互网络的多模态组合,得到数字人云互动网络。
作为本发明的一种优选方案,所述数字人云互动网络为:
GFH=Logistic{GAN1[Logistic(Finter,F),G], GAN2[Logistic(Hinter,H),G]};
式中,GFH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果,Logistic为Logistic回归函数,Hinter为第一互动预测结果的语义素材,H为语义素材,F为人形素材,Finter为第二互动预测结果的人形素材,GH为第二互动预测结果,G为云游戏场景素材,GAN1为第一生成对抗网络,GAN2为第二生成对抗网络。作为本发明的一种优选方案,所述数字人人形交互网络和数字人语义交互网络的损失函数相同。
在本发明的第二方面,本发明提供了一种基于虚拟数字人的云互动装置,应用于所述的一种基于虚拟数字人的云互动方法,云视频生成装置包括:
数据获取单元,用于获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
深度学习单元,用于利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络;
融合输出单元,用于利用数字人云互动网络基于人形素材、语义素材以及云游戏场景素材,生成虚拟数字人与云游戏场景交互融合结果,实现虚拟数字人与云游戏场景交互融合。
在本发明的第三方面,一种计算机设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行基于虚拟数字人的云互动方法。
本发明与现有技术相比较具有如下有益效果:
本发明构建数字人人形交互网络和数字人语义交互网络,能够将数字人与云游戏场景进行画面融合,以及语言对话融合,能够保证用户在体验云游戏是满足视觉和语言交互,增强用户的实景化体验,同时对数字人人形交互网络和数字人语义交互网络进行多模态组合,能够将数字人与云游戏的视觉交互和语言交互进行同频化,共存化,即能够保证视觉交互和语言交互同时存在,实现同一时刻的多模态交互协同化。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例提供的基于算力需求的基于虚拟数字人的云互动方法流程图;
图2为本发明实施例提供的基于算力需求的基于虚拟数字人的云互动装置框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在本发明的第一方面,一种基于虚拟数字人的云互动方法,包括以下步骤:
获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络。
本发明构建数字人人形交互网络,使得数字人人形与云游戏场景的融合,达到了数字人与云游戏场景的画面融合,而数字人来自于用户自身的数字化建模,从而数字人人形来自于用户人形,数字人与云游戏画面融合,也就是用户自身与云游戏画面的融合,因此,用户在参与云游戏时,将自身与云游戏进行视觉上交互,增强参与云游戏画面感上的身临其境。
本发明构建数字人语义交互网络,使得数字人语义与云游戏场景的融合,达到了数字人与云游戏场景的语义融合,而数字人来自于用户自身的数字化建模,从而数字人语义来自于用户语义,数字人与云游戏语义对话融合,也就是用户自身与云游戏交流对话的融合,因此,用户在参与云游戏时,将自身与云游戏进行语言对话上交互,增强参与云游戏对话感上的身临其境。
因此,本发明构建数字人人形交互网络和数字人语义交互网络,能够将数字人与云游戏场景进行画面融合,以及语言对话融合,能够保证用户在体验云游戏是满足视觉和语言交互,增强用户的实景化体验。
本发明中数字人人形交互网络和数字人语义交互网络,分别通过画面融合增强参与云游戏的互动感以及像语义对话融合增强参与云游戏的互动感,两个方向相互独立,虽然提高了实景化互动性,但是两个方向独立可能导致互动不同频,将画面融合和语义融合相互割裂,不具协同性,从而导致本该同一时刻出现的视觉交互和语言对话交互之间出现延迟,甚至是视觉交互和语言对话交互之间出现相互干扰。
进一步的,本发明对数字人人形交互网络和数字人语义交互网络进行多模态组合,能够将数字人与云游戏的视觉交互和语言交互进行同频化,共存化,即能够保证视觉交互和语言交互同时存在,实现同一时刻的多模态交互协同化。
本发明构建数字人人形交互网络,使得数字人人形与云游戏场景的融合,达到了数字人与云游戏场景的画面融合,而数字人来自于用户自身的数字化建模,从而数字人人形来自于用户人形,数字人与云游戏画面融合,也就是用户自身与云游戏画面的融合,因此,用户在参与云游戏时,将自身与云游戏进行视觉上交互,增强参与云游戏画面感上的身临其境,具体如下:
所述数字人人形交互网络的构建方法包括:
将人形素材和云游戏场景素材作为第一生成对抗网络中生成器的输入项,由第一生成对抗网络中的第一生成器输出表征数字人人形与云游戏场景融合结果的第一互动预测结果;
将第一互动预测结果与第一互动真实结果作为第一生成对抗网络中第一判别器的输入项,由第一生成对抗网络的第一判别器输出第一生成器的评价结果;
训练第一生成对抗网络以达到最优评价结果,并将具有最优评价结果的第一生成对抗网络作为数字人人形交互网络;
所述数字人人形交互网络为:
GF=GAN1(F,G);
式中,GF为第一互动预测结果,F为人形素材,G为云游戏场景素材,GAN1为第一生成对抗网络。
本发明构建数字人语义交互网络,使得数字人语义与云游戏场景的融合,达到了数字人与云游戏场景的语义融合,而数字人来自于用户自身的数字化建模,从而数字人语义来自于用户语义,数字人与云游戏语义对话融合,也就是用户自身与云游戏交流对话的融合,因此,用户在参与云游戏时,将自身与云游戏进行语言对话上交互,增强参与云游戏对话感上的身临其境,具体如下:
所述数字人语义交互网络的构建方法包括:
将语义素材和云游戏场景素材作为第二生成对抗网络中生成器的输入项,由第二生成对抗网络中的第二生成器输出表征数字人语义与云游戏场景融合结果的第二互动预测结果;
将第二互动预测结果与第二互动真实结果作为第二生成对抗网络中第二判别器的输入项,由第二生成对抗网络的第二判别器输出第二生成器的评价结果;
训练第二生成对抗网络以达到最优评价结果,并将具有最优评价结果的第二生成对抗网络作为数字人语义交互网络;
所述数字人语义交互网络为:
GH=GAN2(H,G);式中,GH为第二互动预测结果,H为语义素材,G为云游戏场景素材,GAN2为第二生成对抗网络。
本发明对数字人人形交互网络和数字人语义交互网络进行多模态组合,能够将数字人与云游戏的视觉交互和语言交互进行同频化,共存化,即能够保证视觉交互和语言交互同时存在,实现同一时刻的多模态交互协同化,具体如下:
所述数字人云互动网络的构建方法包括:
在数字人语义交互网络和数字人人形交互网络间设置多模态组合函数,所述多模态组合函数包括语义-人形组合函数和人形-语义组合函数;
利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,得到所述数字人云互动网络。
所述多模态组合函数的设置方法包括:
在数字人语义交互网络朝向数字人人形交互网络的方向上,设置用于将第二互动预测结果的语义素材融合至第一互动预测结果中的语义-人形组合函数;
在数字人人形交互网络朝向数字人语义交互网络的方向上,设置用于将第一互动预测结果的人形素材融合至第二互动预测结果中的人形-语义组合函数;
其中,所述语义-人形组合函数为:Finter=F_channel(GH);
式中,Finter为第二互动预测结果的人形素材,F_channel为人形素材的数据提取通道,GH为第二互动预测结果;
所述人形-语义组合函数为:Hinter=H_channel(GF);式中,Hinter为第一互动预测结果的语义素材,H_channel为语义素材的数据提取通道,GF为第二互动预测结果。
本发明构建语义-人形组合函数,实现将数字人语义交互网络的输出中潜在的人形素材提取出,与原始人形素材,通过Logistic回归分析,能够将数字人语义交互网络的输出的融合结果与原始人形素材进行协同对应,数字人语义交互网络输出的是关于语义素材的融合结果,从而通过语义-人形组合函数和Logistic回归分析,将语义素材和人形素材进行协同对应,从而实现了画面融合和语义融合的同频协同,使得同一时刻出现的视觉交互和语言对话交互之间相对应。
同样的,本发明构建人形-语义组合函数,实现将数字人人形交互网络的输出中潜在的语义素材提取出,与原始语义素材,通过Logistic回归分析,能够将数字人人形交互网络的输出的融合结果与原始语义素材进行协同对应,数字人人形交互网络输出的是关于人形素材的融合结果,从而通过人形-语义组合函数和Logistic回归分析,将语义素材和人形素材进行协同对应,从而实现了画面融合和语义融合的同频协同,使得同一时刻出现的视觉交互和语言对话交互之间相对应。
所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,包括:
将所述语义-人形组合函数的输入与数字人语义交互网络的输出相连接,将所述语义-人形组合函数的输出与数字人人形交互网络的输入通过Logistic回归函数相连接;
将所述人形-语义组合函数的输入与数字人人形交互网络的输出相连接,将所述人形-语义组合函数的输出与数字人语义交互网络的输入通过Logistic回归函数相连接;
将数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接,以达到数字人语义交互网络和数字人人形交互网络的多模态组合,得到数字人云互动网络。
所述数字人云互动网络为:
GFH=Logistic{GAN1[Logistic(Finter,F),G], GAN2[Logistic(Hinter,H),G]};
式中,GFH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果,Logistic为Logistic回归函数,Hinter为第一互动预测结果的语义素材,H为语义素材,F为人形素材,Finter为第二互动预测结果的人形素材,GH为第二互动预测结果,G为云游戏场景素材,GAN1为第一生成对抗网络,GAN2为第二生成对抗网络。本发明构建语义-人形组合函数和人形-语义组合函数,从两个方向上进行画面融合和语义融合同频协同性的构建,准确性更高,保障最终多模态游戏融合结果的准确性。
本发明利用数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接,能够进一步的将两个方向构建出的画面融合和语义融合同频协同性,进行回归分析,保留出最佳的画面融合和语义融合同频协同性,提高数字人与云游戏多模态交互的效果,即用户与云游戏多模态交互的效果。
所述数字人人形交互网络和数字人语义交互网络的损失函数相同。
如图2所示,在本发明的第二方面,本发明提供了一种基于虚拟数字人的云互动装置,应用于所述的一种基于虚拟数字人的云互动方法,云视频生成装置包括:
数据获取单元,用于获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
深度学习单元,用于利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络;
融合输出单元,用于利用数字人云互动网络基于人形素材、语义素材以及云游戏场景素材,生成虚拟数字人与云游戏场景交互融合结果,实现虚拟数字人与云游戏场景交互融合。
在本发明的第三方面,一种计算机设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行基于虚拟数字人的云互动方法。
本发明构建数字人人形交互网络和数字人语义交互网络,能够将数字人与云游戏场景进行画面融合,以及语言对话融合,能够保证用户在体验云游戏是满足视觉和语言交互,增强用户的实景化体验,同时对数字人人形交互网络和数字人语义交互网络进行多模态组合,能够将数字人与云游戏的视觉交互和语言交互进行同频化,共存化,即能够保证视觉交互和语言交互同时存在,实现同一时刻的多模态交互协同化。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种基于虚拟数字人的云互动方法,其特征在于,包括以下步骤:
获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络。
2.根据权利要求1所述的一种基于虚拟数字人的云互动方法,其特征在于:所述数字人人形交互网络的构建方法包括:
将人形素材和云游戏场景素材作为第一生成对抗网络中生成器的输入项,由第一生成对抗网络中的第一生成器输出表征数字人人形与云游戏场景融合结果的第一互动预测结果;
将第一互动预测结果与第一互动真实结果作为第一生成对抗网络中第一判别器的输入项,由第一生成对抗网络的第一判别器输出第一生成器的评价结果;
训练第一生成对抗网络以达到最优评价结果,并将具有最优评价结果的第一生成对抗网络作为数字人人形交互网络;
所述数字人人形交互网络为:GF=GAN1(F,G);式中,GF为第一互动预测结果,F为人形素材,G为云游戏场景素材,GAN1为第一生成对抗网络。
3.根据权利要求2所述的一种基于虚拟数字人的云互动方法,其特征在于:所述数字人语义交互网络的构建方法包括:
将语义素材和云游戏场景素材作为第二生成对抗网络中生成器的输入项,由第二生成对抗网络中的第二生成器输出表征数字人语义与云游戏场景融合结果的第二互动预测结果;
将第二互动预测结果与第二互动真实结果作为第二生成对抗网络中第二判别器的输入项,由第二生成对抗网络的第二判别器输出第二生成器的评价结果;
训练第二生成对抗网络以达到最优评价结果,并将具有最优评价结果的第二生成对抗网络作为数字人语义交互网络;
所述数字人语义交互网络为:GH=GAN2(H,G);式中,GH为第二互动预测结果,H为语义素材,G为云游戏场景素材,GAN2为第二生成对抗网络。
4.根据权利要求3所述的一种基于虚拟数字人的云互动方法,其特征在于:所述数字人云互动网络的构建方法包括:
在数字人语义交互网络和数字人人形交互网络间设置多模态组合函数,所述多模态组合函数包括语义-人形组合函数和人形-语义组合函数;
利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,得到所述数字人云互动网络。
5.根据权利要求4所述的一种基于虚拟数字人的云互动方法,其特征在于:所述多模态组合函数的设置方法包括:
在数字人语义交互网络朝向数字人人形交互网络的方向上,设置用于将第二互动预测结果的语义素材融合至第一互动预测结果中的语义-人形组合函数;
在数字人人形交互网络朝向数字人语义交互网络的方向上,设置用于将第一互动预测结果的人形素材融合至第二互动预测结果中的人形-语义组合函数;
其中,所述语义-人形组合函数为:Finter=F_channel(GH);
式中,Finter为第二互动预测结果的人形素材,F_channel为人形素材的数据提取通道,GH为第二互动预测结果;
所述人形-语义组合函数为:Hinter=H_channel(GF);式中,Hinter为第一互动预测结果的语义素材,H_channel为语义素材的数据提取通道,GF为第二互动预测结果。
6.根据权利要求5所述的一种基于虚拟数字人的云互动方法,其特征在于:所述利用多模态组合函数和Logistic回归函数对数字人语义交互网络和数字人人形交互网络进行多模态组合,包括:
将所述语义-人形组合函数的输入与数字人语义交互网络的输出相连接,将所述语义-人形组合函数的输出与数字人人形交互网络的输入通过Logistic回归函数相连接;
将所述人形-语义组合函数的输入与数字人人形交互网络的输出相连接,将所述人形-语义组合函数的输出与数字人语义交互网络的输入通过Logistic回归函数相连接;
将数字人语义交互网络的输出与数字人人形交互网络通过Logistic回归函数相连接,以达到数字人语义交互网络和数字人人形交互网络的多模态组合,得到数字人云互动网络。
7.根据权利要求6所述的一种基于虚拟数字人的云互动方法,其特征在于:所述数字人云互动网络为:
GFH=Logistic{GAN1[Logistic(Finter,F),G], GAN2[Logistic(Hinter,H),G]};式中,GFH为数字人云互动网络预测出的表征数字人人形与云游戏场景融合结果,Logistic为Logistic回归函数,Hinter为第一互动预测结果的语义素材,H为语义素材,F为人形素材,Finter为第二互动预测结果的人形素材,GH为第二互动预测结果,G为云游戏场景素材,GAN1为第一生成对抗网络,GAN2为第二生成对抗网络。
8.根据权利要求7所述的一种基于虚拟数字人的云互动方法,其特征在于:所述数字人人形交互网络和数字人语义交互网络的损失函数相同。
9.一种基于虚拟数字人的云互动装置,其特征在于,应用于权利要求1-8任一项所述的一种基于虚拟数字人的云互动方法,云视频生成装置包括:
数据获取单元,用于获取用于生成虚拟数字人的人形素材和语义素材,以及用于虚拟数字人互动的云游戏场景素材;
深度学习单元,用于利用第一神经网络,对人形素材和云游戏场景素材间的融合关系进行深度学习,得到数字人人形交互网络;
利用第二神经网络,对语义素材和云游戏场景素材间的融合关系进行深度学习,得到数字人语义交互网络;
将所述数字人人形交互网络和数字人语义交互网络进行多模态组合,得到用于虚拟数字人与云游戏场景交互融合的数字人云互动网络;
融合输出单元,用于利用数字人云互动网络基于人形素材、语义素材以及云游戏场景素材,生成虚拟数字人与云游戏场景交互融合结果,实现虚拟数字人与云游戏场景交互融合。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使计算机设备执行权利要求 1-8 任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410556023.4A CN118135068B (zh) | 2024-05-07 | 2024-05-07 | 基于虚拟数字人的云互动方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410556023.4A CN118135068B (zh) | 2024-05-07 | 2024-05-07 | 基于虚拟数字人的云互动方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118135068A true CN118135068A (zh) | 2024-06-04 |
CN118135068B CN118135068B (zh) | 2024-07-23 |
Family
ID=91244350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410556023.4A Active CN118135068B (zh) | 2024-05-07 | 2024-05-07 | 基于虚拟数字人的云互动方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118135068B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020247590A1 (en) * | 2019-06-06 | 2020-12-10 | Artie, Inc. | Multi-modal model for dynamically responsive virtual characters |
CN112162628A (zh) * | 2020-09-01 | 2021-01-01 | 魔珐(上海)信息科技有限公司 | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 |
CN115082602A (zh) * | 2022-06-15 | 2022-09-20 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
CN117252963A (zh) * | 2023-07-18 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 数字人生成方法和装置 |
CN117876543A (zh) * | 2023-12-04 | 2024-04-12 | 天翼视讯传媒有限公司 | 一种基于数字人的互动应用方法 |
CN117953113A (zh) * | 2024-01-25 | 2024-04-30 | 清华大学深圳国际研究生院 | 一种可与三维场景目标及用户交互的人体动作生成方法 |
-
2024
- 2024-05-07 CN CN202410556023.4A patent/CN118135068B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020247590A1 (en) * | 2019-06-06 | 2020-12-10 | Artie, Inc. | Multi-modal model for dynamically responsive virtual characters |
CN112162628A (zh) * | 2020-09-01 | 2021-01-01 | 魔珐(上海)信息科技有限公司 | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 |
CN115082602A (zh) * | 2022-06-15 | 2022-09-20 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
CN117252963A (zh) * | 2023-07-18 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 数字人生成方法和装置 |
CN117876543A (zh) * | 2023-12-04 | 2024-04-12 | 天翼视讯传媒有限公司 | 一种基于数字人的互动应用方法 |
CN117953113A (zh) * | 2024-01-25 | 2024-04-30 | 清华大学深圳国际研究生院 | 一种可与三维场景目标及用户交互的人体动作生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118135068B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215927B (zh) | 人脸视频的合成方法、装置、设备及介质 | |
CN108877336A (zh) | 基于增强现实技术的教学方法、云服务平台和教学系统 | |
CN104777911B (zh) | 一种基于全息技术的智能交互方法 | |
Manolova et al. | Context-aware holographic communication based on semantic knowledge extraction | |
CN109271018A (zh) | 基于虚拟人行为标准的交互方法及系统 | |
CN113132741A (zh) | 一种虚拟直播系统和方法 | |
CN110895931A (zh) | 一种基于语音识别的vr交互系统和方法 | |
CN107808191A (zh) | 虚拟人多模态交互的输出方法和系统 | |
US20220301250A1 (en) | Avatar-based interaction service method and apparatus | |
CN109343695A (zh) | 基于虚拟人行为标准的交互方法及系统 | |
US7467186B2 (en) | Interactive method of communicating information to users over a communication network | |
CN115049016A (zh) | 基于情绪识别的模型驱动方法及设备 | |
CN114969282B (zh) | 基于富媒体知识图谱多模态情感分析模型的智能交互方法 | |
CN114463470A (zh) | 虚拟空间浏览方法、装置、电子设备和可读存储介质 | |
Wang et al. | Computer-aided traditional art design based on artificial intelligence and human-computer interaction | |
CN117370605A (zh) | 一种虚拟数字人驱动方法、装置、设备和介质 | |
Cui et al. | Virtual human: A comprehensive survey on academic and applications | |
CN118135068B (zh) | 基于虚拟数字人的云互动方法、装置及计算机设备 | |
CN112637692B (zh) | 互动方法、装置、设备 | |
CN116939288A (zh) | 视频生成方法及其装置、计算机设备 | |
Nishida et al. | Synthetic evidential study as augmented collective thought process–preliminary report | |
KR20010091219A (ko) | 표본화된 얼굴 표정을 새로운 얼굴에 리타켓팅하는 방법 | |
CN113742473A (zh) | 一种数字虚拟人交互系统及其计算传输优化方法 | |
Morishima et al. | Face-to-face communicative avatar driven by voice | |
Peng | Prospects for Future Images: Advances in Media, Technology, and Industry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |