CN117828320A - 一种虚拟数字人构建方法及其系统 - Google Patents
一种虚拟数字人构建方法及其系统 Download PDFInfo
- Publication number
- CN117828320A CN117828320A CN202410247571.9A CN202410247571A CN117828320A CN 117828320 A CN117828320 A CN 117828320A CN 202410247571 A CN202410247571 A CN 202410247571A CN 117828320 A CN117828320 A CN 117828320A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- real
- emotion
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 135
- 238000011156 evaluation Methods 0.000 claims abstract description 126
- 230000009471 action Effects 0.000 claims abstract description 56
- 230000014509 gene expression Effects 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000003993 interaction Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 30
- 238000012512 characterization method Methods 0.000 claims description 24
- 238000009877 rendering Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000013210 evaluation model Methods 0.000 claims description 13
- 230000008921 facial expression Effects 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000004399 eye closure Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请提供一种虚拟数字人构建方法及其系统,获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;生成所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;构建虚拟数字人模型;生成虚拟数字人形象;获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;根据人体特征预估数据、动作预估数据和实时交互数据评价虚拟数字人;根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据评价虚拟数字人;获得综合评价结果,对虚拟数字人形象进行优化。本申请不仅可以加强虚拟数字人构建的准确性,并且充分考虑数据样本之间跨时间和空间维度存在的潜在相关性。
Description
技术领域
本申请涉及虚拟数字人技术领域,具体为一种虚拟数字人构建方法及其系统。
背景技术
随着虚拟现实和数字技术的快速发展,虚拟数字人成为研究的热点。虚拟数字人是指利用计算机图形学、人工智能等技术构建的虚拟人物形象,具有逼真度高、可定制性强、易于修改等优点。然而,现有的虚拟数字人构建方法在数据采集时,由于每个人存在个体差异,数据采集存在差异,影响后续虚拟数字人构建的准确性;且现有的数字人构建模型缺少考虑数据样本之间跨时间和空间维度存在的潜在相关性,缺乏推广到预测场景的能力,影响了虚拟数字人技术的推广和应用。
因此,本发明的目的在于提供一种虚拟数字人构建方法及其系统,以解决现有技术存在的问题。
发明内容
本申请的目的是提供一种虚拟数字人构建方法及其系统,不仅可以加强虚拟数字人构建的准确性,并且可以充分考虑数据样本之间跨时间和空间维度存在的潜在相关性。
第一方面,本申请实施例提供了一种虚拟数字人构建方法,包括以下步骤:获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
对虚拟数字人模型进行渲染,生成虚拟数字人形象;
获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
所述的方法,按照以下方式预先训练所述预测模型:
获取历史人体特征数据、历史动作数据和历史情绪数据,并统计为不同监测持续时间的对齐时序数据,分别得到历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本;
采用动态时间规整方式来对齐历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本的样本长度,并计算样本之间的距离,构建稀疏关系图;
将所述稀疏关系图输入所述图异构时间表征模型进行训练,在达到预设训练截止条件后得到所述预测模型。
所述图异构时间表征模型包括顺序连接的图学习模块、表征增强模块以及输出层;
所述图学习模块包括两个堆叠图卷积网络,用于嵌入所述稀疏关系图的信息;
所述表征增强模块包括卷积组件、时间注意力组件和循环学习组件,用于进一步学习输入数据在时间和空间维度上的关键信息;
所述输出层由两个多层感知器网络组成,用于将结果编码为所需的输出形状。
所述根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果,包括;
根据人体特征预估数据和实时交互数据,获得第一关联系数;
根据动作预估数据和实时交互数据,获得第二关联系数;
根据所述第一关联系数和第二关联系数生成第一关联值;
根据第一关联值生成第一评价结果。
所述根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果,包括:
获取实时表情数据、实时语音数据和实时文本数据,并对所述实时表情数据、实时语音数据和实时文本数据进行预处理;
提取预处理后的所述实时表情数据、实时语音数据和实时文本数据中对应的特征;
对各所述特征进行预处理;
基于动态时间规整算法创建评价模型,利用预处理后的所述特征对评价模型进行训练;
利用训练后的所述评价模型对实时情绪进行评价,生成情绪实时数据;
根据情绪预估数据,获得第三关联系数;
根据情绪实时数据,获得第四关联系数;
根据所述第三关联系数和第四关联系数生成第二关联值;
根据第二关联值生成第二评价结果。
所述根据第一评价结果和第二评价结果,获得综合评价结果包括:
设定评价目标信息;
根据评价目标信息,确定所述第一评价结果和第二评价结果的权重值;
对评价目标信息及其权重值进行逆向耦合分析和调整;
基于所述第一评价结果和第二评价结果进行加权计算,输出综合评价结果。
所述获取人体在设定历史时间段内的情绪时序数据,包括:
获取人体在设定历史时间段内的语音时序数据、生理时序数据和表情时序数据;
根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据。
所述根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据,包括:
从语音时序数据中提取声学特征,从生理时序数据中提取生理特征,从表情时序数据中提取面部表情特征;
将提取的声学特征、生理特征和面部表情特征转换为特征向量,每个特征向量表示一个时间点的数据;
训练朴素贝叶斯模型;
使用训练好的朴素贝叶斯模型对每个时间点的数据进行情感分析;
将情感分析的结果整合成情绪时序数据。
所述的方法,在所述将情感分析的结果整合成情绪时序数据之后,还包括:对生成的所述情绪时序数据进行后处理,包括去除噪声和填充缺失值。
第二方面,本申请实施例提供了一种虚拟数字人构建系统,包括:
第一获取模块,用于获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
训练模块,用于对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
构建模块,用于根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
渲染模块,用于对虚拟数字人模型进行渲染,生成虚拟数字人形象;
第二获取模块,用于获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
第一评价模块,用于根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
第二评价模块,用于根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
优化模块,用于根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
相较于现有技术,本申请提供的虚拟数字人构建方法及其系统,包括:获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;对虚拟数字人模型进行渲染,生成虚拟数字人形象;获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。可见,本申请通过该方式,不仅能够降低因个体数据差异对预测精度的影响,从而提高虚拟数字人构建的准确性,而且充分考虑了数据样本之间跨时间和空间维度存在的潜在相关性,使得虚拟数字人的构建更加精准以及具有预测性,同时通过多元化的评价来优化虚拟数字人,可以令虚拟数字人推广和应用到更多的场景中。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请所提供的一种虚拟数字人构建方法的流程图;
图2示出了本申请所提供的一种虚拟数字人构建系统的示意图;
图3示出了本申请所提供的一种电子设备的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参考图1,图1是本申请实施例提供的一种虚拟数字人构建方法,包括以下步骤:
S101、获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
其中,人体特征时序数据是历史时间段内的人体特征按照设定时间间隔构成的时间序列数据。动作时序数据是历史时间段内的动作数据按照设定时间间隔构成的时间序列数据。情绪时序数据是历史时间段内的情绪数据按照设定时间间隔构成的时间序列数据。以上时间间隔可以设置为秒、分钟、小时、日、周或月等具体时间间隔。
S102、对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;例如基于前十分钟的人体特征、动作数据和情绪数据可以分别预测得到当前时间可能的人体特征、动作数据和情绪数据。
示例性地,上述对数据预处理的操作包括:最大值处理、最小值处理、数据均值化等数据清洗,以及归一化处理;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
S103、根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
S104、对虚拟数字人模型进行渲染,生成虚拟数字人形象;
S105、获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
S106、根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
S107、根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
S108、根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
在上述S102中,所述的方法,按照以下方式预先训练所述预测模型,包括以下步骤:
S1021、获取历史人体特征数据、历史动作数据和历史情绪数据,并统计为不同监测持续时间的对齐时序数据,分别得到历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本;
具体地,获取历史人体特征数据、历史动作数据和历史情绪数据,可以将收集的以上数据划分为训练集、测试集和验证集。
对以上历史人体特征数据、历史动作数据和历史情绪数据分别进行预处理;
将预处理后的以上历史人体特征数据、历史动作数据和历史情绪数据分割成固定长度的子序列,每个子序列表示由多个步长组成的连续时间段;确定训练集中历史人体特征数据、历史动作数据和历史情绪数据被分割的最大子序列片段数,使用预设的子序列重复方式将训练集中每个历史人体特征数据、历史动作数据和历史情绪数据的子序列片段的数量对齐,直到总片段计数为所述最大子序列片段数。
S1022、采用动态时间规整方式来对齐历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本的样本长度,并计算样本之间的距离,构建稀疏关系图;稀疏关系图能够通过以图形结构排列输入数据来捕获患者之间复杂的关系,擅长揭示空间和时间维度上的样本或周期之间的潜在相关性。
S1023、将所述稀疏关系图输入所述图异构时间表征模型进行训练,在达到预设训练截止条件后得到所述预测模型。具体地,图异构时间表征模型包括顺序连接的图学习模块、表征增强模块以及输出层。所述图学习模块包括两个堆叠图卷积网络,用于嵌入所述稀疏关系图的信息;所述表征增强模块包括卷积组件、时间注意力组件和循环学习组件,用于进一步学习输入数据在时间和空间维度上的关键信息;所述输出层由两个多层感知器网络组成,用于将结果编码为所需的输出形状。
在上述S104中,渲染的方法包括:
S1041、动画制作:通过关键帧动画或骨骼动画,为虚拟数字人模型添加丰富的动作和表情;
S1042、渲染设置:在渲染之前,需要设置合适的渲染器(如Maya的Renderman、V-Ray等)和相关参数(如光照、阴影、材质属性等);
S1043、实时渲染与测试:使用实时渲染技术,可以在不完成整个渲染过程的情况下预览虚拟数字人的效果。根据需要调整渲染设置,并进行反复测试;
S1044、最终渲染:当所有设置和测试满意后,进行最终渲染,得到高质量的虚拟数字人图像或视频;
S1045、后期处理:对渲染得到的图像或视频进行后期处理,如颜色校正、特效添加等,以增强视觉效果。
在本实施例中,所述根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果,包括;
根据人体特征预估数据和实时交互数据,获得第一关联系数;
根据动作预估数据和实时交互数据,获得第二关联系数;
根据所述第一关联系数和第二关联系数生成第一关联值;
根据第一关联值生成第一评价结果,从而反映人体特征与实时交互、动作预估与实时交互的综合关系。
在本实施例中,所述根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果,包括:
获取实时表情数据、实时语音数据和实时文本数据,并对所述实时表情数据、实时语音数据和实时文本数据进行预处理;
提取预处理后的所述实时表情数据、实时语音数据和实时文本数据中对应的特征;
对各所述特征进行预处理;
基于动态时间规整算法创建评价模型,利用预处理后的所述特征对评价模型进行训练;
利用训练后的所述评价模型对实时情绪进行评价,生成情绪实时数据;
根据情绪预估数据,获得第三关联系数;
根据情绪实时数据,获得第四关联系数;
根据所述第三关联系数和第四关联系数生成第二关联值;
根据第二关联值生成第二评价结果,从而更好地评价虚拟数字人的情绪。
所述评价模型用于求取特征与标准特征值之间的最优路径和距离矩阵,基于拟合函数对所述最优路径上的特征值进行拟合得到拟合值,将各所述拟合值求取平均值作为评价值;基于专家评分对所述评价值进行误差计算得到误差值,基于所述误差值进行再次拟合,直至所述误差值满足预设的收敛条件;
在上述S108中,所述根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化,包括:
S1081、设定评价目标信息;评价目标信息包括但不限于表情的生动性、动作的自然度、语音的清晰度、情感的表达准确性等;
S1082、根据评价目标信息,确定所述第一评价结果和第二评价结果的权重值;例如,如果动作交互的生动性更重要,则可以给第一评价结果更高的权重。权重的确定可根据实际情况进行调整,通过合理地分配权重,能够使优化更有针对性;
S1083、对评价目标信息及其权重值进行逆向耦合分析和调整;例如,如果发现某项评价目标的权重值不合理,可以进行相应的调整。此外,还需要对评价目标进行进一步的细分或调整,以更全面地反映虚拟数字人形象的质量;
S1084、基于所述第一评价结果和第二评价结果进行加权计算,输出综合评价结果。该综合评价结果是一个综合的评价指标,反映了虚拟数字人形象的整体表现;
根据综合评价结果,对虚拟数字人形象进行优化。这可能包括改进表情、动作、语音等方面的表现,调整虚拟数字人的情感表达等。通过不断优化,可以提高虚拟数字人形象的逼真度和用户体验。
在本实施例中,所述获取人体在设定历史时间段内的情绪时序数据,包括:
获取人体在设定历史时间段内的语音时序数据、生理时序数据和表情时序数据;
根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据。
所述根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据,包括:
从语音时序数据中提取声学特征(如音高、音强、音长等),从生理时序数据中提取生理特征(如心率、呼吸率等),从表情时序数据中提取面部表情特征(如眉毛角度、眼睛闭合程度、嘴巴形状等);
将提取的声学特征、生理特征和面部表情特征均转换为特征向量,每个特征向量表示一个时间点的数据;
训练朴素贝叶斯模型;
使用训练好的朴素贝叶斯模型对每个时间点的数据进行情感分析;具体可以根据朴素贝叶斯模型的分类器输出,确定每个时间点的情感标签或分数;
将情感分析的结果整合成情绪时序数据,。
在本申请一些实施例中,所述的方法,在所述将情感分析的结果整合成情绪时序数据之后,还包括:对生成的所述情绪时序数据进行后处理,包括去除噪声和填充缺失值,从而提高情绪时序数据的准确性和可靠性。
相较于现有技术,本申请提供的虚拟数字人构建方法及其系统,包括:获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;对虚拟数字人模型进行渲染,生成虚拟数字人形象;获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。可见,本申请通过该方式,不仅能够降低因个体数据差异对预测精度的影响,从而提高虚拟数字人构建的准确性,而且充分考虑了数据样本之间跨时间和空间维度存在的潜在相关性,使得虚拟数字人的构建更加精准以及具有预测性,同时通过多元化的评价来优化虚拟数字人,可以令虚拟数字人推广和应用到更多的场景中。
请参考图2,本申请实施例还提供了一种虚拟数字人构建系统,包括:
第一获取模块,用于获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
训练模块,用于对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
构建模块,用于根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
渲染模块,用于对虚拟数字人模型进行渲染,生成虚拟数字人形象;
第二获取模块,用于获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
第一评价模块,用于根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
第二评价模块,用于根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
优化模块,用于根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
所述的系统,按照以下方式预先训练所述预测模型:
获取历史人体特征数据、历史动作数据和历史情绪数据,并统计为不同监测持续时间的对齐时序数据,分别得到历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本;
采用动态时间规整方式来对齐历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本的样本长度,并计算样本之间的距离,构建稀疏关系图;
将所述稀疏关系图输入所述图异构时间表征模型进行训练,在达到预设训练截止条件后得到所述预测模型。
在本系统中,所述图异构时间表征模型包括顺序连接的图学习模块、表征增强模块以及输出层;
所述图学习模块包括两个堆叠图卷积网络,用于嵌入所述稀疏关系图的信息;
所述表征增强模块包括卷积组件、时间注意力组件和循环学习组件,用于进一步学习输入数据在时间和空间维度上的关键信息;
所述输出层由两个多层感知器网络组成,用于将结果编码为所需的输出形状。
在本系统中,所述第一评价模块,还用于;
根据人体特征预估数据和实时交互数据,获得第一关联系数;
根据动作预估数据和实时交互数据,获得第二关联系数;
根据所述第一关联系数和第二关联系数生成第一关联值;
根据第一关联值生成第一评价结果。
在本系统中,所述第二评价模块,还用于;
获取实时表情数据、实时语音数据和实时文本数据,并对所述实时表情数据、实时语音数据和实时文本数据进行预处理;
提取预处理后的所述实时表情数据、实时语音数据和实时文本数据中对应的特征;
对各所述特征进行预处理;
基于动态时间规整算法创建评价模型,利用预处理后的所述特征对评价模型进行训练;
利用训练后的所述评价模型对实时情绪进行评价,生成情绪实时数据;
根据情绪预估数据,获得第三关联系数;
根据情绪实时数据,获得第四关联系数;
根据所述第三关联系数和第四关联系数生成第二关联值;
根据第二关联值生成第二评价结果。
在本系统中,所述综合评价模块还用于:
设定评价目标信息;
根据评价目标信息,确定所述第一评价结果和第二评价结果的权重值;
对评价目标信息及其权重值进行逆向耦合分析和调整;
基于所述第一评价结果和第二评价结果进行加权计算,输出综合评价结果。
在本实施例中,所述获取人体在设定历史时间段内的情绪时序数据,包括:
获取人体在设定历史时间段内的语音时序数据、生理时序数据和表情时序数据;
根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据。
具体地,所述根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据,包括:
从语音时序数据中提取声学特征,从生理时序数据中提取生理特征,从表情时序数据中提取面部表情特征;
将提取的声学特征、生理特征和面部表情特征转换为特征向量,每个特征向量表示一个时间点的数据;
训练朴素贝叶斯模型;
使用训练好的朴素贝叶斯模型对每个时间点的数据进行情感分析;
将情感分析的结果整合成情绪时序数据。
所述的系统,在所述将情感分析的结果整合成情绪时序数据之后,还包括:后处理模块,用于对生成的所述情绪时序数据进行后处理,包括去除噪声和填充缺失值。
本申请实施例提供的系统与本申请实施例提供的虚拟数字人构建方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备,所述电子设备可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述预测方法。
请参考图3,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的钓鱼邮件溯源方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述钓鱼邮件溯源方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的预测方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的预测方法对应的计算机可读存储介质,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的预测方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的预测方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。
Claims (10)
1.一种虚拟数字人构建方法,其特征在于,包括以下步骤:
获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
对虚拟数字人模型进行渲染,生成虚拟数字人形象;
获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
2.根据权利要求1所述的方法,其特征在于,按照以下方式预先训练所述预测模型:
获取历史人体特征数据、历史动作数据和历史情绪数据,并统计为不同监测持续时间的对齐时序数据,分别得到历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本;
采用动态时间规整方式来对齐历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本的样本长度,并计算样本之间的距离,构建稀疏关系图;
将所述稀疏关系图输入所述图异构时间表征模型进行训练,在达到预设训练截止条件后得到所述预测模型。
3.根据权利要求2所述的方法,其特征在于,所述图异构时间表征模型包括顺序连接的图学习模块、表征增强模块以及输出层;
所述图学习模块包括两个堆叠图卷积网络,用于嵌入所述稀疏关系图的信息;
所述表征增强模块包括卷积组件、时间注意力组件和循环学习组件,用于进一步学习输入数据在时间和空间维度上的关键信息;
所述输出层由两个多层感知器网络组成,用于将结果编码为所需的输出形状。
4.根据权利要求1所述的方法,其特征在于,所述根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果,包括;
根据人体特征预估数据和实时交互数据,获得第一关联系数;
根据动作预估数据和实时交互数据,获得第二关联系数;
根据所述第一关联系数和第二关联系数生成第一关联值;
根据第一关联值生成第一评价结果。
5.根据权利要求1所述的方法,其特征在于,所述根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果,包括:
获取实时表情数据、实时语音数据和实时文本数据,并对所述实时表情数据、实时语音数据和实时文本数据进行预处理;
提取预处理后的所述实时表情数据、实时语音数据和实时文本数据中对应的特征;
对各所述特征进行预处理;
基于动态时间规整算法创建评价模型,利用预处理后的所述特征对评价模型进行训练;
利用训练后的所述评价模型对实时情绪进行评价,生成情绪实时数据;
根据情绪预估数据,获得第三关联系数;
根据情绪实时数据,获得第四关联系数;
根据所述第三关联系数和第四关联系数生成第二关联值;
根据第二关联值生成第二评价结果。
6.根据权利要求1所述的方法,其特征在于,所述根据第一评价结果和第二评价结果,获得综合评价结果,包括:
设定评价目标信息;
根据评价目标信息,确定所述第一评价结果和第二评价结果的权重值;
对评价目标信息及其权重值进行逆向耦合分析和调整;
基于所述第一评价结果和第二评价结果进行加权计算,输出综合评价结果。
7.根据权利要求1所述的方法,其特征在于,所述获取人体在设定历史时间段内的情绪时序数据,包括:
获取人体在设定历史时间段内的语音时序数据、生理时序数据和表情时序数据;
根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据。
8.根据权利要求7所述的方法,其特征在于,所述根据语音时序数据、生理时序数据和表情时序数据,生成情绪时序数据,包括:
从语音时序数据中提取声学特征,从生理时序数据中提取生理特征,从表情时序数据中提取面部表情特征;
将提取的声学特征、生理特征和面部表情特征转换为特征向量,每个特征向量表示一个时间点的数据;
训练朴素贝叶斯模型;
使用训练好的朴素贝叶斯模型对每个时间点的数据进行情感分析;
将情感分析的结果整合成情绪时序数据。
9.根据权利要求8所述的方法,其特征在于,在所述将情感分析的结果整合成情绪时序数据之后,还包括:对生成的所述情绪时序数据进行后处理,包括去除噪声和填充缺失值。
10.一种虚拟数字人构建系统,其特征在于,包括:
第一获取模块,用于获取人体在设定历史时间段内的人体特征时序数据、动作时序数据和情绪时序数据;
训练模块,用于对人体特征时序数据、动作时序数据和情绪时序数据进行预处理后,输入预先训练的预测模型,得到所述人体在未来设定时间段内的人体特征预估数据、动作预估数据和情绪预估数据;
预测模型是通过人体的历史人体特征时序数据样本、历史动作时序数据样本和历史情绪时序数据样本对图异构时间表征模型进行训练得到的;
构建模块,用于根据人体特征预估数据、动作预估数据和情绪预估数据构建虚拟数字人模型;
渲染模块,用于对虚拟数字人模型进行渲染,生成虚拟数字人形象;
第二获取模块,用于获取虚拟数字人的实时交互数据、实时表情数据、实时语音数据和实时文本数据;
第一评价模块,用于根据人体特征预估数据、动作预估数据和实时交互数据,对虚拟数字人进行评价,获得第一评价结果;
第二评价模块,用于根据情绪预估数据、实时表情数据、实时语音数据和实时文本数据,对虚拟数字人进行评价,得到第二评价结果;
优化模块,用于根据第一评价结果和第二评价结果,获得综合评价结果,根据综合评价结果,对虚拟数字人形象进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410247571.9A CN117828320B (zh) | 2024-03-05 | 2024-03-05 | 一种虚拟数字人构建方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410247571.9A CN117828320B (zh) | 2024-03-05 | 2024-03-05 | 一种虚拟数字人构建方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828320A true CN117828320A (zh) | 2024-04-05 |
CN117828320B CN117828320B (zh) | 2024-05-07 |
Family
ID=90513816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410247571.9A Active CN117828320B (zh) | 2024-03-05 | 2024-03-05 | 一种虚拟数字人构建方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828320B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906546A (zh) * | 2021-02-09 | 2021-06-04 | 中国工商银行股份有限公司 | 虚拟数字人外形、音效以及服务模型的个性化生成方法 |
WO2022095378A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于人工智能的培训方法、装置、计算机设备及存储介质 |
CN114495927A (zh) * | 2021-12-31 | 2022-05-13 | 魔珐(上海)信息科技有限公司 | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 |
CN115588224A (zh) * | 2022-10-14 | 2023-01-10 | 中南民族大学 | 一种人脸关键点的预测方法、虚拟数字人生成方法及装置 |
CN115797606A (zh) * | 2023-02-07 | 2023-03-14 | 合肥孪生宇宙科技有限公司 | 基于深度学习的3d虚拟数字人交互动作生成方法及系统 |
CN116259334A (zh) * | 2023-03-07 | 2023-06-13 | 中国建设银行股份有限公司 | 语音情绪模型的训练方法、表情驱动方法、电子设备及介质 |
WO2023124933A1 (zh) * | 2021-12-31 | 2023-07-06 | 魔珐(上海)信息科技有限公司 | 虚拟数字人的视频生成方法及装置、存储介质、终端 |
WO2023240943A1 (zh) * | 2022-06-15 | 2023-12-21 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
WO2023246163A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 一种虚拟数字人驱动方法、装置、设备和介质 |
-
2024
- 2024-03-05 CN CN202410247571.9A patent/CN117828320B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022095378A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于人工智能的培训方法、装置、计算机设备及存储介质 |
CN112906546A (zh) * | 2021-02-09 | 2021-06-04 | 中国工商银行股份有限公司 | 虚拟数字人外形、音效以及服务模型的个性化生成方法 |
CN114495927A (zh) * | 2021-12-31 | 2022-05-13 | 魔珐(上海)信息科技有限公司 | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 |
WO2023124933A1 (zh) * | 2021-12-31 | 2023-07-06 | 魔珐(上海)信息科技有限公司 | 虚拟数字人的视频生成方法及装置、存储介质、终端 |
WO2023240943A1 (zh) * | 2022-06-15 | 2023-12-21 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
WO2023246163A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 一种虚拟数字人驱动方法、装置、设备和介质 |
CN115588224A (zh) * | 2022-10-14 | 2023-01-10 | 中南民族大学 | 一种人脸关键点的预测方法、虚拟数字人生成方法及装置 |
CN115797606A (zh) * | 2023-02-07 | 2023-03-14 | 合肥孪生宇宙科技有限公司 | 基于深度学习的3d虚拟数字人交互动作生成方法及系统 |
CN116259334A (zh) * | 2023-03-07 | 2023-06-13 | 中国建设银行股份有限公司 | 语音情绪模型的训练方法、表情驱动方法、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
刘涛 , 孙守迁 , 潘云鹤: "面向艺术与设计的虚拟人技术研究", 计算机辅助设计与图形学学报, no. 11, 20 November 2004 (2004-11-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117828320B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pan et al. | Recent progress on generative adversarial networks (GANs): A survey | |
US10671889B2 (en) | Committed information rate variational autoencoders | |
Bond-Taylor et al. | Unleashing transformers: Parallel token prediction with discrete absorbing diffusion for fast high-resolution image generation from vector-quantized codes | |
US11514694B2 (en) | Teaching GAN (generative adversarial networks) to generate per-pixel annotation | |
CN109934300B (zh) | 模型压缩方法、装置、计算机设备及存储介质 | |
CN111881926A (zh) | 图像生成、图像生成模型的训练方法、装置、设备及介质 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
CN111738243A (zh) | 人脸图像的选择方法、装置、设备及存储介质 | |
CN109168003B (zh) | 一种生成用于视频预测的神经网络模型的方法 | |
JP7096431B2 (ja) | ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
CN116894985B (zh) | 半监督图像分类方法及半监督图像分类系统 | |
CN113470684A (zh) | 音频降噪方法、装置、设备及存储介质 | |
Duan et al. | Age estimation using aging/rejuvenation features with device-edge synergy | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN115905619A (zh) | 对视频的用户体验质量进行评价的方案 | |
CN114358249A (zh) | 目标识别模型训练、目标识别方法及装置 | |
Wu et al. | Towards robust text-prompted semantic criterion for in-the-wild video quality assessment | |
CN112651333B (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN117828320B (zh) | 一种虚拟数字人构建方法及其系统 | |
WO2021179198A1 (zh) | 图像特征可视化方法、图像特征可视化装置及电子设备 | |
CN115862119B (zh) | 基于注意力机制的人脸年龄估计方法及装置 | |
CN113689527A (zh) | 一种人脸转换模型的训练方法、人脸图像转换方法 | |
CN111445545A (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |