CN117876550A - 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 - Google Patents
一种基于大数据的虚拟数字人渲染方法、系统及终端设备 Download PDFInfo
- Publication number
- CN117876550A CN117876550A CN202410271167.5A CN202410271167A CN117876550A CN 117876550 A CN117876550 A CN 117876550A CN 202410271167 A CN202410271167 A CN 202410271167A CN 117876550 A CN117876550 A CN 117876550A
- Authority
- CN
- China
- Prior art keywords
- virtual digital
- digital person
- representing
- data
- rendering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000003993 interaction Effects 0.000 claims abstract description 121
- 230000009467 reduction Effects 0.000 claims abstract description 112
- 241000282414 Homo sapiens Species 0.000 claims abstract description 77
- 230000009471 action Effects 0.000 claims abstract description 76
- 238000011156 evaluation Methods 0.000 claims abstract description 68
- 230000002452 interceptive effect Effects 0.000 claims description 64
- 238000012937 correction Methods 0.000 claims description 33
- 230000014509 gene expression Effects 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 19
- 239000002689 soil Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000008921 facial expression Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于大数据的虚拟数字人渲染方法、系统及终端设备,该方法包括:根据多模态参考数据构建虚拟数字人渲染模型;将多模态数据输入虚拟数字人渲染模型,以使虚拟数字人渲染模型根据多模态数据生成对应的虚拟数字人渲染视频;对虚拟数字人渲染视频进行还原度评价,得到虚拟数字人渲染视频的渲染还原度评价指数。本发明实现了虚拟数字人的高度还原,有效解决了现有技术中虚拟数字人还原度低的问题;实现了交互动作的准确性、完整性和实时性的全面评价,进而实现了更准确地评价虚拟数字人交互驱动模型的交互动作还原度;实现了虚拟数字人渲染模型的还原度的直观评价,进而实现了更准确地评价虚拟数字人渲染模型的还原度。
Description
技术领域
本发明涉及数字人渲染技术领域,特别是涉及一种基于大数据的虚拟数字人渲染方法、系统及终端设备。
背景技术
数字人是指使用计算机技术和人工智能技术创建的虚拟人物或数字化人物,它们能够模拟类似于人类的行为、思维和外貌,也称为虚拟数字人。数字人可以理解为将人类的外貌特征和动作表现转换为数字化的模型,从而可以在虚拟世界中实现人物模拟。数字人的目标是创造逼真的虚拟人类,使其在虚拟世界、媒体、娱乐、教育和商业等领域中发挥重要作用,比如目前已经在应用的数字人主播、游戏和电影中的数字人角色、数字人客服和文史旅游讲解员等。虚拟数字人渲染包括对人物的外表、肤色、面部表情、动作和服装等方面的模拟和渲染,渲染方法有三维建模、动画、材质映射和光照效果等。大数据是指规模庞大、高度多样且以高速生成的数据集合。这些数据通常具有“3V”特征,即数据量大(Volume)、数据类型多样(Variety)、数据生成速度快(Velocity)。
传统的虚拟数字人渲染使用专业建模和动画工具,手工创建数字人物的模型和动画,也有使用传感器和摄像头捕捉真实人体的面部表情和动作,然后应用到虚拟数字人渲染中。例如公开号为CN115526974A的发明专利提出了一种基于docker虚拟化数字人合成渲染方法和系统,利用k8s快速部署的docker容器实现数字人快速部署和渲染;公开号为CN116309995A的发明专利提出了一种数字人驱动数据同步及帧率自适应的渲染方法和装置,实现了数字人驱动起来后整体渲染效果的同步。但是,上述传统方法需要人力和时间,并且难以实现高度的个性化,借助传感器和摄像头实现渲染需要复杂的设备和环境,同时也可能受限于捕捉到的数据质量,存在虚拟数字人还原度低的问题。
发明内容
本发明要解决的是现有技术中虚拟数字人还原度低的技术问题。为了解决上述技术问题,本发明提供了一种基于大数据的虚拟数字人渲染方法、系统及终端设备。
第一方面,本发明实施例提供了基于大数据的虚拟数字人渲染方法,包括:
根据多模态参考数据构建虚拟数字人渲染模型;所述多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据;
将多模态数据输入所述虚拟数字人渲染模型,以使所述虚拟数字人渲染模型根据所述多模态数据生成对应的虚拟数字人渲染视频;
对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
优选地,所述根据多模态参考数据构建虚拟数字人渲染模型,包括:
根据所述二维人脸图像参考数据构建虚拟数字人三维人脸模型;
根据所述表情参考数据和所述音频特征参考数据,在所述虚拟数字人三维人脸模型上进行映射得到虚拟数字人交互驱动模型;
利用所述虚拟数字人交互驱动模型驱动虚拟数字人完成所述音频特征参考数据对应的交互动作;
根据所述交互动作合成对应的表情动画和肢体动画,并根据所述表情动画和所述肢体动画对所述虚拟数字人进行渲染,以构建虚拟数字人渲染模型。
优选地,所述根据所述二维人脸图像参考数据构建虚拟数字人三维人脸模型,包括:
将所述二维人脸图像参考数据划分为二维人脸图像训练参考数据和二维人脸图像验证参考数据;
对所述二维人脸图像训练参考数据进行关键点提取,并根据得到的人脸图像关键点获取所述二维人脸图像训练参考数据对应的三维人脸图像深度图;
对所述三维人脸图像深度图进行三维重建,得到虚拟数字人三维人脸模型。
优选地,在所述对所述三维人脸图像深度图进行三维重建,得到虚拟数字人三维人脸模型之后,还包括:
根据所述二维人脸图像验证参考数据对所述虚拟数字人三维人脸模型进行验证,得到所述虚拟数字人三维人脸模型的人脸还原性能指数;
采用如下公式获取所述人脸还原性能指数:
其中,表示人脸还原性能指数,/>表示二维人脸图像验证参考数据中二维人脸参考图像的编号,/>表示二维人脸图像验证参考数据中二维人脸参考图像的数量,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的结构相似性指数,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的感知损失数据,/>表示结构相似性指数的修正因子,/>表示感知损失数据的修正因子,/>表示结构相似性指数阈值,/>表示感知损失数据阈值。
优选地,在所述根据所述表情参考数据和所述音频特征参考数据,在所述虚拟数字人三维人脸模型上进行映射得到虚拟数字人交互驱动模型之后,还包括:
根据预设交互动作的音频特征数据对所述虚拟数字人交互驱动模型进行验证,得到所述音频特征数据对应的交互还原数据;所述交互还原数据包括动作准确性数据、动作完整性数据和动作耗用时间数据;
根据所述交互还原数据得到对应的交互还原分数,并根据所述交互还原分数进行组合计算得到对应的交互还原性能指数;所述交互还原分数包括交互准确性分数、交互完整性分数和交互实时性分数。
优选地,采用如下公式获取所述交互准确性分数:
其中,表示交互准确性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作准确性数据,/>表示第/>种预设交互动作的动作准确性参考数据,/>表示动作准确性数据的修正因子;
采用如下公式获取所述交互完整性分数:
其中,表示交互完整性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作完整性数据,/>表示第/>种预设交互动作的动作完整性参考数据,/>表示动作完整性数据的修正因子;
采用如下公式获取所述交互实时性分数:
其中,表示交互实时性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作耗用时间数据,/>和/>分别表示第一动作耗用时间参考数据和第二动作耗用时间参考数据,/>表示动作耗用时间数据的修正因子;
采用如下公式获取所述交互还原性能指数:
其中,表示交互还原性能指数,/>表示交互准确性分数的修正因子,/>表示交互完整性分数的修正因子,/>表示交互实时性分数的修正因子,/>表示交互准确性分数,表示交互完整性分数,/>表示交互实时性分数,/>表示自然常数。
优选地,所述对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数,包括:
获取所述虚拟数字人渲染视频中虚拟数字人图像的第一点云数据和所述虚拟数字人图像对应的参考图像的第二点云数据;
将所述第一点云数据和所述第二点云数据进行对比,得到所述虚拟数字人图像的相似度分数;
根据所述虚拟数字人渲染视频的分辨率、帧率和真实度评分进行组合计算,得到所述虚拟数字人渲染视频的性能评价分数;
根据所述相似度分数和所述性能评价分数进行组合计算,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
优选地,采用如下公式获取所述相似度分数:
其中,表示虚拟数字人图像的相似度分数,/>表示虚拟数字人图像的编号,/>表示虚拟数字人图像的数量,/>表示第/>张虚拟数字人图像的倒角距离,/>表示参考图像的倒角距离,/>表示第/>张虚拟数字人图像的搬土距离,/>表示参考图像的搬土距离;
采用如下公式获取所述性能评价分数:
其中,表示虚拟数字人渲染视频的性能评价分数,/>表示虚拟数字人渲染视频的编号,/>表示虚拟数字人渲染视频的数量,/>表示第/>个虚拟数字人渲染视频的分辨率,和/>分别表示虚拟数字人渲染视频的第一参考分辨率和虚拟数字人渲染视频的第二参考分辨率,/>表示第/>个虚拟数字人渲染视频的帧率,/>和/>分别表示虚拟数字人渲染视频的第一参考帧率和虚拟数字人渲染视频的第二参考帧率,/>表示第/>个虚拟数字人渲染视频的真实度评分,/>表示真实度评分的修正因子;
采用如下公式获取所述渲染还原度评价指数:
其中,表示虚拟数字人渲染视频的渲染还原度评价指数,/>表示自然常数,/>表示虚拟数字人图像的相似度分数,/>表示相似度分数的修正因子,/>表示虚拟数字人渲染视频的性能评价分数,/>表示性能评价分数的修正因子。
第二方面,本发明实施例提供了一种基于大数据的虚拟数字人渲染系统,包括:
渲染模型构建模块,用于根据多模态参考数据构建虚拟数字人渲染模型;所述多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据;
渲染视频生成模块,用于将多模态数据输入所述虚拟数字人渲染模型,以使所述虚拟数字人渲染模型根据所述多模态数据生成对应的虚拟数字人渲染视频;
还原度评价模块,用于对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
第三方面,本发明实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的虚拟数字人渲染方法。
本发明实施例一种基于大数据的虚拟数字人渲染方法、系统及终端设备与现有技术相比,其有益效果在于:实现了虚拟数字人的高度还原,有效解决了现有技术中虚拟数字人还原度低的问题;实现了交互动作的准确性、完整性和实时性的全面评价,进而实现了更准确地评价虚拟数字人交互驱动模型的交互动作还原度;实现了虚拟数字人渲染模型的还原度的直观评价,进而实现了更准确地评价虚拟数字人渲染模型的还原度。
附图说明
图1是本发明实施例一种基于大数据的虚拟数字人渲染方法的流程示意图;
图2是本发明实施例构建虚拟数字人渲染模型的流程示意图;
图3是本发明实施例构建虚拟数字人三维人脸模型的流程示意图;
图4是本发明实施例获取交互还原性能指数的流程示意图;
图5是本发明实施例获取渲染还原度评价指数的流程示意图;
图6是本发明实施例一种基于大数据的虚拟数字人渲染系统的结构示意图;
图7是本发明实施例一种终端设备的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明实施例提供了一种基于大数据的虚拟数字人渲染方法,包括:
S1、根据多模态参考数据构建虚拟数字人渲染模型;
具体地,多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据。虚拟数字人渲染模型集成了虚拟数字人三维人脸模型、虚拟数字人交互驱动模型和虚拟数字人动画渲染。
进一步地,如图2所示,步骤S1包括:
S101、根据二维人脸图像参考数据构建虚拟数字人三维人脸模型;
具体地,如图3所示,步骤S101包括:
S101-A、将二维人脸图像参考数据划分为二维人脸图像训练参考数据和二维人脸图像验证参考数据;
S101-B、对二维人脸图像训练参考数据进行关键点提取,并根据得到的人脸图像关键点获取二维人脸图像训练参考数据对应的三维人脸图像深度图;
人脸图像关键点用于描述三维场景下虚拟数字人完成交互动作时的面部表情变化。通过人脸图像关键点的引入可以更准确地描述面部表情变化,因为面部表情发生变化并不代表整个面部都会变化,而是局部变化,比如鼻子、眼睛、嘴巴和眉毛等。三维人脸图像深度图用于描述三维场景下虚拟数字人的深度信息。
S101-C、对三维人脸图像深度图进行三维重建,得到虚拟数字人三维人脸模型。
根据获取的三维人脸图像深度图,结合三维可变形人脸模型技术构建虚拟数字人三维人脸模型。其中,三维可变形人脸模型(3D Morphable models,3DMM)核心思想是人脸可以在三维空间中进行一一匹配,并且可以由其他许多组人脸正交基加权线性相加而来,实现了更快速准确地构建虚拟数字人三维人脸图像。虚拟数字人三维人脸模型的构建不需要依赖专业人员的美工技能,可以通过训练模型得到更逼真的三维人脸图像。
进一步地,为了评价虚拟数字人三维人脸模型的还原度,在步骤S101-C之后,还包括:
S101-D、根据二维人脸图像验证参考数据对虚拟数字人三维人脸模型进行验证,得到虚拟数字人三维人脸模型的人脸还原性能指数。
人脸还原性能指数用于评价虚拟数字人三维人脸模型的还原度,人脸还原性能指数大于人脸还原性能参考指数。
具体地,采用如下公式获取人脸还原性能指数:
其中,表示人脸还原性能指数,/>表示二维人脸图像验证参考数据中二维人脸参考图像的编号,/>表示二维人脸图像验证参考数据中二维人脸参考图像的数量,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的结构相似性指数,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的感知损失数据,/>表示结构相似性指数的修正因子,/>表示感知损失数据的修正因子,/>表示结构相似性指数阈值,/>表示感知损失数据阈值。
需要说明的是,结构相似性指数是一种用于量化两幅图像之间的结构相似性的指标,其取值范围为0至1,值越大表示图像越相似。如果两张图片完全一样,则结构相似性指数为1。感知损失数据也称为学习感知图像块相似度,用于度量两张图像之间的差别,其值越小表示两张图像越相似;反之,则差异越大。当存在二维人脸参考图像的结构相似性指数或者感知损失数据不小于对应的阈值时,表示人脸还原性能很差,此时人脸还原性能指数直接为0。人脸还原性能指数随着结构相似性指数和感知损失数据的增大而减小,当所有二维人脸参考图像的对应实际数据均为0时,即,此时人脸还原性能指数为1,表示人脸还原性能很好。通过引入人脸还原性能指数实现了人脸还原性能的更直观评价。
S102、根据表情参考数据和音频特征参考数据,在虚拟数字人三维人脸模型上进行映射得到虚拟数字人交互驱动模型;
表情参考数据用于描述虚拟数字人完成交互参考动作时人脸图像关键点的参考变化。音频特征参考数据用于描述虚拟数字人完成交互参考动作时的表情类型,一般有高兴、生气、惊讶、失望、好奇和困惑等。比如困惑时人会皱眉且眼睛咪成一条线,人脸图像关键点可以表示这些面部表情变化。结合获取的表情参考数据和音频特征参考数据,在虚拟数字人三维人脸模型上进行映射,构建虚拟数字人交互驱动模型。
虚拟数字人交互驱动模型构建的目的在于驱动虚拟数字人完成交互动作,所以需要对其交互动作还原度进行衡量,以实现更真实的还原交互动作。进一步地,为了评价虚拟数字人交互驱动模型的交互动作还原度,如图4所示,在步骤S102之后,还包括:
S102-A、根据预设交互动作的音频特征数据对虚拟数字人交互驱动模型进行验证,得到音频特征数据对应的交互还原数据;
向构建好的虚拟数字人交互驱动模型输入各个预设交互动作的音频特征数据进行验证,获取对应的交互还原数据。交互还原数据包括动作准确性数据、动作完整性数据和动作耗用时间数据;其中,动作耗用时间数据用于描述虚拟数字人完成交互动作所用时间情况。
S102-B、根据交互还原数据得到对应的交互还原分数,并根据交互还原分数进行组合计算得到对应的交互还原性能指数。
交互还原分数包括交互准确性分数、交互完整性分数和交互实时性分数。交互还原性能指数用于评价虚拟数字人交互驱动模型的交互动作还原度,交互还原性能指数大于交互还原性能参考指数。
具体地,采用如下公式获取交互准确性分数:
其中,表示交互准确性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作准确性数据,/>表示第/>种预设交互动作的动作准确性参考数据,/>表示动作准确性数据的修正因子;
采用如下公式获取交互完整性分数:
其中,表示交互完整性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作完整性数据,/>表示第/>种预设交互动作的动作完整性参考数据,/>表示动作完整性数据的修正因子;
采用如下公式获取交互实时性分数:
其中,表示交互实时性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作耗用时间数据,/>和/>分别表示第一动作耗用时间参考数据和第二动作耗用时间参考数据,/>表示动作耗用时间数据的修正因子;
采用如下公式获取交互还原性能指数:
其中,表示交互还原性能指数,/>表示交互准确性分数的修正因子,/>表示交互完整性分数的修正因子,/>表示交互实时性分数的修正因子,/>表示交互准确性分数,表示交互完整性分数,/>表示交互实时性分数,/>表示自然常数。
需要说明的是,交互还原性能具体包括交互还原准确性、交互还原完整性和交互还原实时性,需要从这三个方面综合评价交互还原性能。任何一个方面对应的评价指标为0,都会使交互还原性能指数为0。交互还原性能指数与交互准确性分数、交互完整性分数和交互实时性分数成正比,而交互准确性分数与动作准确性数据成正比,交互完整性分数与动作完整性数据成正比,交互实时性分数与动作耗用时间数据成反比。当动作耗用时间数据不小于第二动作耗用时间参考数据时,交互实时性分数直接为0,因为此时虚拟数字人完成交互动作所用时间过长;当交互准确性分数、交互完整性分数和交互实时性分数均为1时,即,此时交互还原性能指数为1,表示虚拟数字人交互驱动模型的交互还原度很高。通过引入交互还原性能指数,实现了更高效准确地评价虚拟数字人交互驱动模型的还原度。
S103、利用虚拟数字人交互驱动模型驱动虚拟数字人完成音频特征参考数据对应的交互动作;
虚拟数字人交互驱动模型用于根据音频特征数据驱动虚拟数字人完成对应的交互动作;其中,交互动作包括表情动作和肢体动作。
S104、根据交互动作合成对应的表情动画和肢体动画,并根据表情动画和肢体动画对虚拟数字人进行渲染,以构建虚拟数字人渲染模型。
根据表情动作和肢体动作合成对应的表情动画和肢体动画,并根据表情动画和肢体动画对虚拟数字人进行动画渲染,能够增强虚拟数字人的光影效果和面部细节。
S2、将多模态数据输入虚拟数字人渲染模型,以使虚拟数字人渲染模型根据多模态数据生成对应的虚拟数字人渲染视频;
虚拟数字人渲染模型对输入的多模态时间进行预处理,然后经过特征提取、三维模型构建、合成动画、渲染虚拟数字人图像序列及组合虚拟数字人图像序列等具体步骤得到虚拟数字人渲染视频。可以理解的是,多模态数据与多模态参考数据对应,其中多模态数据对应的数据形式包含于多模态参考数据对应的数据形式,比如文本、图像、视频和音频等。
S3、对虚拟数字人渲染视频进行还原度评价,得到虚拟数字人渲染视频的渲染还原度评价指数。
具体地,如图5所示,步骤S3包括:
S301、获取虚拟数字人渲染视频中虚拟数字人图像的第一点云数据和虚拟数字人图像对应的参考图像的第二点云数据;
S302、将第一点云数据和第二点云数据进行对比,得到虚拟数字人图像的相似度分数;
虚拟数字人图像的相似度分数包括倒角距离和搬土距离,用于评价第一点云数据和第二点云数据的相似程度。其中,倒角距离(Chamfer Distance,CD)计算的是生成点云和参考点云之间平均的最短点距离,搬土距离(Earth Mover distance,EMD)是基于运输问题的效率提出的一种直方图相似度量,用来测量两个分布之间的距离。
具体地,采用如下公式获取相似度分数:
其中,表示虚拟数字人图像的相似度分数,/>表示虚拟数字人图像的编号,/>表示虚拟数字人图像的数量,/>表示第/>张虚拟数字人图像的倒角距离,/>表示参考图像的倒角距离,/>表示第/>张虚拟数字人图像的搬土距离,/>表示参考图像的搬土距离。
需要说明的是,倒角距离越小,表示对应的点云数据越相似;搬土距离越小,表示对应的点云数据也越相似。
当所有虚拟数字人图像的倒角距离和搬土距离均为0时,即,对应的虚拟数字人图像的相似度分数为1。通过引入相似度分数,实现了更准确地评估虚拟数字人图像的相似度。
S303、根据虚拟数字人渲染视频的分辨率、帧率和真实度评分进行组合计算,得到虚拟数字人渲染视频的性能评价分数;
虚拟数字人渲染视频的性能评价分数包括虚拟数字人渲染视频的分辨率、帧率和真实度评分,用于评价虚拟数字人渲染视频的清晰度、流畅度和真实度。其中,真实度评分由预设专业人员根据生成的视频进行打分。
具体地,采用如下公式获取性能评价分数:
其中,表示虚拟数字人渲染视频的性能评价分数,/>表示虚拟数字人渲染视频的编号,/>表示虚拟数字人渲染视频的数量,/>表示第/>个虚拟数字人渲染视频的分辨率,和/>分别表示虚拟数字人渲染视频的第一参考分辨率和虚拟数字人渲染视频的第二参考分辨率,/>表示第/>个虚拟数字人渲染视频的帧率,/>和/>分别表示虚拟数字人渲染视频的第一参考帧率和虚拟数字人渲染视频的第二参考帧率,/>表示第/>个虚拟数字人渲染视频的真实度评分,/>表示真实度评分的修正因子。第一参考分辨率和第二参考分辨率用于描述虚拟数字人渲染视频的分辨率参考范围,第一参考帧率和第二参考帧率用于描述虚拟数字人渲染视频的帧率参考范围。
需要说明的是,性能评价分数与对应的分辨率、帧率和真实度评分成正比,即随着这些数据的增大而增大。其中,真实度评分的取值范围设为0至1。当所有虚拟数字人渲染视频的分辨率和帧率与对应的第二参考分辨率和第二参考帧率相同,且真实度评分为1,即,则性能评价分数达到最大值1,表示虚拟数字人渲染视频的还原度很高。通过引入性能评价分数,实现了更全面地评价虚拟数字人渲染视频的性能。
S304、根据相似度分数和性能评价分数进行组合计算,得到虚拟数字人渲染视频的渲染还原度评价指数。
渲染还原度评价指数用于评价虚拟数字人渲染视频的还原度。具体地,采用如下公式获取渲染还原度评价指数:
其中,表示虚拟数字人渲染视频的渲染还原度评价指数,/>表示自然常数,/>表示虚拟数字人图像的相似度分数,/>表示相似度分数的修正因子,/>表示虚拟数字人渲染视频的性能评价分数,/>表示性能评价分数的修正因子。
需要说明的是,渲染还原度评价指数与相似度分数和性能评价分数成正比。当二者的实际值均达到最大值1时,对应的渲染还原度评价指数为1;当二者的乘积为0时,对应的渲染还原度评价指数直接为0。通过引入渲染还原度评价指数,实现了更快速地评价虚拟数字人渲染视频的还原度。
本发明实施例一种基于大数据的虚拟数字人渲染方法,实现了虚拟数字人的高度还原,有效解决了现有技术中虚拟数字人还原度低的问题;实现了交互动作的准确性、完整性和实时性的全面评价,进而实现了更准确地评价虚拟数字人交互驱动模型的交互动作还原度;实现了虚拟数字人渲染模型的还原度的直观评价,进而实现了更准确地评价虚拟数字人渲染模型的还原度。
基于上述虚拟数字人渲染方法,如图6所示,本发明实施例提供了一种基于大数据的虚拟数字人渲染系统,包括:
渲染模型构建模块1,用于根据多模态参考数据构建虚拟数字人渲染模型;多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据;
渲染视频生成模块2,用于将多模态数据输入虚拟数字人渲染模型,以使虚拟数字人渲染模型根据多模态数据生成对应的虚拟数字人渲染视频;
还原度评价模块3,用于对虚拟数字人渲染视频进行还原度评价,得到虚拟数字人渲染视频的渲染还原度评价指数。
本发明实施例一种基于大数据的虚拟数字人渲染系统实现了虚拟数字人渲染还原程度的改善。虚拟数字人旨在表现得像真人一样,由此系统驱动的虚拟数字人可以应用于各种场景,如设备巡检助手。
需要说明的是,上述一种基于大数据的虚拟数字人渲染系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。关于一种基于大数据的虚拟数字人渲染系统的具体限定参见上文中对于一种基于大数据的虚拟数字人渲染方法的限定,二者具有相同的功能和作用,在此不再赘述。
本发明实施例还提供了一种终端设备,该终端设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本发明上述一种基于大数据的虚拟数字人渲染方法对应的操作。
在一个可选实施例中提供了一种终端设备,如图7所示,图7所示的终端设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,终端设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该终端设备5000的结构并不构成对本发明实施例的限定。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本发明方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,终端设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
综上所述,本发明实施例一种基于大数据的虚拟数字人渲染方法、系统及终端设备,实现了虚拟数字人的高度还原,有效解决了现有技术中虚拟数字人还原度低的问题;实现了交互动作的准确性、完整性和实时性的全面评价,进而实现了更准确地评价虚拟数字人交互驱动模型的交互动作还原度;实现了虚拟数字人渲染模型的还原度的直观评价,进而实现了更准确地评价虚拟数字人渲染模型的还原度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (10)
1.一种基于大数据的虚拟数字人渲染方法,其特征在于,包括:
根据多模态参考数据构建虚拟数字人渲染模型;所述多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据;
将多模态数据输入所述虚拟数字人渲染模型,以使所述虚拟数字人渲染模型根据所述多模态数据生成对应的虚拟数字人渲染视频;
对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
2.根据权利要求1所述的虚拟数字人渲染方法,其特征在于,所述根据多模态参考数据构建虚拟数字人渲染模型,包括:
根据所述二维人脸图像参考数据构建虚拟数字人三维人脸模型;
根据所述表情参考数据和所述音频特征参考数据,在所述虚拟数字人三维人脸模型上进行映射得到虚拟数字人交互驱动模型;
利用所述虚拟数字人交互驱动模型驱动虚拟数字人完成所述音频特征参考数据对应的交互动作;
根据所述交互动作合成对应的表情动画和肢体动画,并根据所述表情动画和所述肢体动画对所述虚拟数字人进行渲染,以构建虚拟数字人渲染模型。
3.根据权利要求2所述的虚拟数字人渲染方法,其特征在于,所述根据所述二维人脸图像参考数据构建虚拟数字人三维人脸模型,包括:
将所述二维人脸图像参考数据划分为二维人脸图像训练参考数据和二维人脸图像验证参考数据;
对所述二维人脸图像训练参考数据进行关键点提取,并根据得到的人脸图像关键点获取所述二维人脸图像训练参考数据对应的三维人脸图像深度图;
对所述三维人脸图像深度图进行三维重建,得到虚拟数字人三维人脸模型。
4.根据权利要求3所述的虚拟数字人渲染方法,其特征在于,在所述对所述三维人脸图像深度图进行三维重建,得到虚拟数字人三维人脸模型之后,还包括:
根据所述二维人脸图像验证参考数据对所述虚拟数字人三维人脸模型进行验证,得到所述虚拟数字人三维人脸模型的人脸还原性能指数;
采用如下公式获取所述人脸还原性能指数:
其中,表示人脸还原性能指数,/>表示二维人脸图像验证参考数据中二维人脸参考图像的编号,/>表示二维人脸图像验证参考数据中二维人脸参考图像的数量,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的结构相似性指数,/>表示二维人脸图像验证参考数据中第/>张二维人脸参考图像的感知损失数据,/>表示结构相似性指数的修正因子,/>表示感知损失数据的修正因子,/>表示结构相似性指数阈值,/>表示感知损失数据阈值。
5.根据权利要求2所述的虚拟数字人渲染方法,其特征在于,在所述根据所述表情参考数据和所述音频特征参考数据,在所述虚拟数字人三维人脸模型上进行映射得到虚拟数字人交互驱动模型之后,还包括:
根据预设交互动作的音频特征数据对所述虚拟数字人交互驱动模型进行验证,得到所述音频特征数据对应的交互还原数据;所述交互还原数据包括动作准确性数据、动作完整性数据和动作耗用时间数据;
根据所述交互还原数据得到对应的交互还原分数,并根据所述交互还原分数进行组合计算得到对应的交互还原性能指数;所述交互还原分数包括交互准确性分数、交互完整性分数和交互实时性分数。
6.根据权利要求5所述的虚拟数字人渲染方法,其特征在于,采用如下公式获取所述交互准确性分数:
其中,表示交互准确性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作准确性数据,/>表示第/>种预设交互动作的动作准确性参考数据,/>表示动作准确性数据的修正因子;
采用如下公式获取所述交互完整性分数:
其中,表示交互完整性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作完整性数据,/>表示第/>种预设交互动作的动作完整性参考数据,/>表示动作完整性数据的修正因子;
采用如下公式获取所述交互实时性分数:
其中,表示交互实时性分数,/>表示预设交互动作的编号,/>表示预设交互动作的数量,/>表示第/>种预设交互动作的动作耗用时间数据,/>和/>分别表示第一动作耗用时间参考数据和第二动作耗用时间参考数据,/>表示动作耗用时间数据的修正因子;
采用如下公式获取所述交互还原性能指数:
其中,表示交互还原性能指数,/>表示交互准确性分数的修正因子,/>表示交互完整性分数的修正因子,/>表示交互实时性分数的修正因子,/>表示交互准确性分数,表示交互完整性分数,/>表示交互实时性分数,/>表示自然常数。
7.根据权利要求1所述的虚拟数字人渲染方法,其特征在于,所述对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数,包括:
获取所述虚拟数字人渲染视频中虚拟数字人图像的第一点云数据和所述虚拟数字人图像对应的参考图像的第二点云数据;
将所述第一点云数据和所述第二点云数据进行对比,得到所述虚拟数字人图像的相似度分数;
根据所述虚拟数字人渲染视频的分辨率、帧率和真实度评分进行组合计算,得到所述虚拟数字人渲染视频的性能评价分数;
根据所述相似度分数和所述性能评价分数进行组合计算,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
8.根据权利要求7所述的虚拟数字人渲染方法,其特征在于,采用如下公式获取所述相似度分数:
其中,表示虚拟数字人图像的相似度分数,/>表示虚拟数字人图像的编号,/>表示虚拟数字人图像的数量,/>表示第/>张虚拟数字人图像的倒角距离,/>表示参考图像的倒角距离,/>表示第/>张虚拟数字人图像的搬土距离,/>表示参考图像的搬土距离;
采用如下公式获取所述性能评价分数:
其中,表示虚拟数字人渲染视频的性能评价分数,/>表示虚拟数字人渲染视频的编号,/>表示虚拟数字人渲染视频的数量,/>表示第/>个虚拟数字人渲染视频的分辨率,和/>分别表示虚拟数字人渲染视频的第一参考分辨率和虚拟数字人渲染视频的第二参考分辨率,/>表示第/>个虚拟数字人渲染视频的帧率,/>和/>分别表示虚拟数字人渲染视频的第一参考帧率和虚拟数字人渲染视频的第二参考帧率,/>表示第/>个虚拟数字人渲染视频的真实度评分,/>表示真实度评分的修正因子;
采用如下公式获取所述渲染还原度评价指数:
其中,表示虚拟数字人渲染视频的渲染还原度评价指数,/>表示自然常数,/>表示虚拟数字人图像的相似度分数,/>表示相似度分数的修正因子,/>表示虚拟数字人渲染视频的性能评价分数,/>表示性能评价分数的修正因子。
9.一种基于大数据的虚拟数字人渲染系统,其特征在于,包括:
渲染模型构建模块,用于根据多模态参考数据构建虚拟数字人渲染模型;所述多模态参考数据至少包括二维人脸图像参考数据、表情参考数据和音频特征参考数据;
渲染视频生成模块,用于将多模态数据输入所述虚拟数字人渲染模型,以使所述虚拟数字人渲染模型根据所述多模态数据生成对应的虚拟数字人渲染视频;
还原度评价模块,用于对所述虚拟数字人渲染视频进行还原度评价,得到所述虚拟数字人渲染视频的渲染还原度评价指数。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的虚拟数字人渲染方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410271167.5A CN117876550B (zh) | 2024-03-11 | 2024-03-11 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410271167.5A CN117876550B (zh) | 2024-03-11 | 2024-03-11 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117876550A true CN117876550A (zh) | 2024-04-12 |
CN117876550B CN117876550B (zh) | 2024-05-14 |
Family
ID=90588787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410271167.5A Active CN117876550B (zh) | 2024-03-11 | 2024-03-11 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876550B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN116152417A (zh) * | 2023-04-19 | 2023-05-23 | 北京天图万境科技有限公司 | 一种多视点类透视空间拟合与渲染的方法和装置 |
CN116309983A (zh) * | 2023-01-09 | 2023-06-23 | 北京百度网讯科技有限公司 | 虚拟人物模型的训练方法、生成方法、装置和电子设备 |
CN116342782A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 生成虚拟形象渲染模型的方法和装置 |
WO2023174182A1 (zh) * | 2022-03-18 | 2023-09-21 | 华为技术有限公司 | 渲染模型训练、视频的渲染方法、装置、设备和存储介质 |
CN117519477A (zh) * | 2023-11-09 | 2024-02-06 | 九耀天枢(北京)科技有限公司 | 一种基于显示屏的数字人虚拟交互系统及方法 |
-
2024
- 2024-03-11 CN CN202410271167.5A patent/CN117876550B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023174182A1 (zh) * | 2022-03-18 | 2023-09-21 | 华为技术有限公司 | 渲染模型训练、视频的渲染方法、装置、设备和存储介质 |
CN114926581A (zh) * | 2022-04-22 | 2022-08-19 | 中国科学院软件研究所 | 二维到三维人脸表情迁移方法、电子装置及存储介质 |
CN116309983A (zh) * | 2023-01-09 | 2023-06-23 | 北京百度网讯科技有限公司 | 虚拟人物模型的训练方法、生成方法、装置和电子设备 |
CN116342782A (zh) * | 2023-03-31 | 2023-06-27 | 北京百度网讯科技有限公司 | 生成虚拟形象渲染模型的方法和装置 |
CN116152417A (zh) * | 2023-04-19 | 2023-05-23 | 北京天图万境科技有限公司 | 一种多视点类透视空间拟合与渲染的方法和装置 |
CN117519477A (zh) * | 2023-11-09 | 2024-02-06 | 九耀天枢(北京)科技有限公司 | 一种基于显示屏的数字人虚拟交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117876550B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741668B2 (en) | Template based generation of 3D object meshes from 2D images | |
US8988436B2 (en) | Training system and methods for dynamically injecting expression information into an animated facial mesh | |
US12067690B2 (en) | Image processing method and apparatus, device, and storage medium | |
US11514638B2 (en) | 3D asset generation from 2D images | |
CN110458924B (zh) | 一种三维脸部模型建立方法、装置和电子设备 | |
CN113870395A (zh) | 动画视频生成方法、装置、设备及存储介质 | |
CN108668168A (zh) | 基于Unity 3D的安卓VR视频播放器及其设计方法 | |
CN112085835A (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
Gholap et al. | Past, present, and future of the augmented reality (ar)-enhanced interactive techniques: A survey | |
CN111739134B (zh) | 虚拟角色的模型处理方法、装置及可读存储介质 | |
CN116115995A (zh) | 图像渲染处理方法、装置及电子设备 | |
CN115775300B (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN117876550B (zh) | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 | |
CN114900738B (zh) | 一种观影互动方法、装置及计算机可读存储介质 | |
Ma | Dynamic image data processing technology application in dance classroom assisted teaching under virtual environment | |
Kramar et al. | Peculiarities of Augmented Reality Usage in a Mobile Application: the Case of the Ivan Puluj Digital Museum. | |
Trenchev et al. | Mixed Reality-Digital Technologies And Resources For Creation Of Realistic Objects And Scenes: Their Application In Education | |
CN112613495B (zh) | 真人视频生成方法、装置、可读存储介质及设备 | |
US20230196668A1 (en) | Accessing a virtual reality environment | |
US20240249485A1 (en) | Generating a process illustration within a virtual reality environment | |
CN114201098A (zh) | 一种基于三维建模的医学教学课件生成方法、装置及设备 | |
CN117333911A (zh) | 表情重定向模型的训练方法、表情重定向方法及设备 | |
Patil et al. | Mobile Augmented Reality for Industrial Training | |
CN116958328A (zh) | 口型合成方法、装置、设备及存储介质 | |
CN115761442A (zh) | 一种面向ar的目标识别方法及移动端ar系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |